location_on 首页 keyboard_arrow_right 资讯 keyboard_arrow_right 正文

谷歌Gemini 3.1 Flash-Lite正式版发布 输入价格仅为竞品四分之一

资讯 2026-05-10 remove_red_eye 5 text_decreasetext_fieldstext_increase

5月10日消息,据动察Beating发布的最新监测数据,谷歌旗下轻量级多模态AI模型Gemini 3.1 Flash-Lite已正式从预览版转为正式版(GA),面向全球开发者和企业全面开放。该模型是Gemini 3系列中速度最快、成本效率最高的产品,专为高并发生产环境和大规模吞吐量场景设计。

定价方面,Gemini 3.1 Flash-Lite延续预览版策略,输入价格每百万token仅0.25美元输出价格每百万token 1.50美元。对比同档位主要竞品,输入价格仅为Claude 4.5 Haiku的四分之一(0.25美元 vs 1.00美元),输出价格更是不及其三分之一(1.50美元 vs 5.00美元);较前代Gemini 2.5 Flash亦显著下降,输入价从0.30美元降至0.25美元,输出价从2.50美元降至1.50美元,在轻量级AI赛道中体现了明显的价格竞争力。

性能层面,根据Artificial Analysis基准测试,该模型首Token响应速度较前代提升2.5倍输出速度达每秒363个Token,提升幅度达45%。在Arena.ai排行榜上,该模型取得1432分的Elo评分;在GPQA Diamond(研究生级科学推理)测试中得分86.9%,超越GPT-5 mini的82.3%以及Claude 4.5 Haiku的73.0%;在MMMU-Pro(多模态理解推理)中取得76.8%,同样在同档位中保持领先。模型标配四档推理强度控制(minimal、low、medium、high),开发者可按具体场景在速度与质量之间灵活调节,并支持100万Token上下文窗口

实际应用方面,客服平台Gladly已将Flash-Lite部署于文本渠道的AI代理,每周处理数百万次客户交互,成本较同等思考级别模型降低约60%,p95延迟约1.8秒,成功率保持99.6%;JetBrains将其用于驱动IDE AI助手和Junie代理;金融操作平台Ramp则针对高频低延迟场景引入该模型。需要指出的是,该模型在LiveCodeBench编程基准中得分72.0%,落后于GPT-5 mini的80.4%,在编程复杂任务上仍是相对短板。

整体来看,Gemini 3.1 Flash-Lite正式版在轻量级多模态AI模型细分领域重塑了性价比基准,尤其适合大规模翻译、内容审核、实时智能客服等高吞吐量任务。对于追求极低推理延迟、严格成本控制和规模化部署的开发团队与企业用户而言,该模型可显著降低单位推理成本,加速生成式AI应用在生产环境中的落地。建议关注官方后续版本演进及竞品动态,合理评估模型在特定任务中的性能匹配度并按需配置推理强度。

Hermes Agent单日Token消耗2710亿 登顶全球AI应用调用榜
« 上一篇 2026-05-10
Gemini 3.1 Flash-Lite转正GA:输入价仅为Claude 4.5 Haiku四分之一
下一篇 » 2026-05-10