location_on 首页 keyboard_arrow_right 资讯 keyboard_arrow_right 正文

谷歌Gemini 3.1 Flash-Lite正式版发布输入价格仅为竞品四分之一

资讯 2026-05-10 25

5月10日消息，据动察Beating发布的最新监测数据，谷歌旗下轻量级多模态AI模型Gemini 3.1 Flash-Lite已正式从预览版转为正式版（GA），面向全球开发者和企业全面开放。该模型是Gemini 3系列中速度最快、成本效率最高的产品，专为高并发生产环境和大规模吞吐量场景设计。

定价方面，Gemini 3.1 Flash-Lite延续预览版策略，输入价格每百万token仅0.25美元，输出价格每百万token 1.50美元。对比同档位主要竞品，输入价格仅为Claude 4.5 Haiku的四分之一（0.25美元 vs 1.00美元），输出价格更是不及其三分之一（1.50美元 vs 5.00美元）；较前代Gemini 2.5 Flash亦显著下降，输入价从0.30美元降至0.25美元，输出价从2.50美元降至1.50美元，在轻量级AI赛道中体现了明显的价格竞争力。

性能层面，根据Artificial Analysis基准测试，该模型首Token响应速度较前代提升2.5倍，输出速度达每秒363个Token，提升幅度达45%。在Arena.ai排行榜上，该模型取得1432分的Elo评分；在GPQA Diamond（研究生级科学推理）测试中得分86.9%，超越GPT-5 mini的82.3%以及Claude 4.5 Haiku的73.0%；在MMMU-Pro（多模态理解推理）中取得76.8%，同样在同档位中保持领先。模型标配四档推理强度控制（minimal、low、medium、high），开发者可按具体场景在速度与质量之间灵活调节，并支持100万Token上下文窗口。

实际应用方面，客服平台Gladly已将Flash-Lite部署于文本渠道的AI代理，每周处理数百万次客户交互，成本较同等思考级别模型降低约60%，p95延迟约1.8秒，成功率保持99.6%；JetBrains将其用于驱动IDE AI助手和Junie代理；金融操作平台Ramp则针对高频低延迟场景引入该模型。需要指出的是，该模型在LiveCodeBench编程基准中得分72.0%，落后于GPT-5 mini的80.4%，在编程复杂任务上仍是相对短板。

整体来看，Gemini 3.1 Flash-Lite正式版在轻量级多模态AI模型细分领域重塑了性价比基准，尤其适合大规模翻译、内容审核、实时智能客服等高吞吐量任务。对于追求极低推理延迟、严格成本控制和规模化部署的开发团队与企业用户而言，该模型可显著降低单位推理成本，加速生成式AI应用在生产环境中的落地。建议关注官方后续版本演进及竞品动态，合理评估模型在特定任务中的性能匹配度并按需配置推理强度。

Hermes Agent单日Token消耗2710亿登顶全球AI应用调用榜

« 上一篇 2026-05-10

Gemini 3.1 Flash-Lite转正GA：输入价仅为Claude 4.5 Haiku四分之一

下一篇 » 2026-05-10

谷歌Gemini 3.1 Flash-Lite正式版发布 输入价格仅为竞品四分之一

相关推荐

小卡

内容举报

谷歌Gemini 3.1 Flash-Lite正式版发布输入价格仅为竞品四分之一