location_on 首页 keyboard_arrow_right 资讯 keyboard_arrow_right 正文

Gemini 3.1 Pro确认支持百万Token上下文窗口并内置原生多模态处理能力

资讯 2026-05-10 remove_red_eye 12 text_decreasetext_fieldstext_increase

5月10日,据量子位报道,Google DeepMind推出的Gemini 3.1 Pro旗舰模型全面解锁百万Token上下文窗口原生多模态功能,在复杂推理与跨模态理解两大维度同步发力。该模型首次在Gemini系列中启用“.1”中期版本命名,在保留文本、图像、音频、视频一体化输入的基础上,将上下文长度提升至100万Token,约可容纳1500页A4文档的内容量,为长文本处理和企业级AI规模化落地提供了新的技术选项。

在技术实现层面,Gemini 3.1 Pro基于Transformer混合专家架构构建,原生支持文本、图像、音频、视频及代码仓库的全模态输入,并新增“中位”思维深度选项,使开发者可从低、中、高三个层级灵活调配推理深度与响应延迟。上下文层面,模型引入差分注意力机制,通过两组注意力分数进行差分计算以消除长文本中的噪声信号,配合上下文缓存功能,重复引用内容的输入成本降幅高达75%。多模态能力则延续端到端原生处理路线,无需依赖外挂模块即可同时解析图文、音视频流,确保跨模态语义对齐的完整性。

性能评估方面,Gemini 3.1 Pro在多项权威基准测试中表现突出。在专门评估全新逻辑模式处理能力的ARC-AGI-2测试中,模型取得77.1%的成绩,较前代Gemini 3 Pro的31.1%提升逾一倍。在GPQA Diamond科学问答评测中得分94.3%,SWE-Bench Verified软件工程任务得分80.6%。在LiveCodeBench Pro编程竞赛中Elo积分达2887,位居领先梯队;百万Token级别的长上下文理解可用性也显著优于同期竞品。此外,API定价在200K Token以内区间维持输入每百万Token 2美元、输出12美元的水平,与上代持平,综合推理成本优势相对突出。

综合来看,Gemini 3.1 Pro的大容量上下文窗口与原生多模态支持正进一步模糊文本与多媒体数据的处理边界,对大规模代码审计、长文档综合分析和智能体多步任务等场景有直接赋能效应。随着模型推理能力翻倍且成本维持稳定,企业在部署AI代理、知识库检索和复杂决策工具时,可借助其百万级上下文缓存机制更充分挖掘私有数据价值。业内普遍认为,该模型的推出正推动基础模型竞争从单点参数比拼转向体系化能力生态的建设阶段。

Gemini 2.0 Flash六月正式关闭,Google Gemini 2.5系列全面接棒
« 上一篇 2026-05-10
Meta下周或推两款Llama 3小型非多模态版本 端侧AI部署再添新选择
下一篇 » 2026-05-10