location_on 首页 keyboard_arrow_right 资讯 keyboard_arrow_right 正文

Gemini 3.1 Flash-Lite转正GA：输入价仅为Claude 4.5 Haiku四分之一

资讯 2026-05-10 24

5月10日，据The Block Beats最新消息，谷歌轻量级人工智能模型Gemini 3.1 Flash-Lite已正式完成从预览版到正式可用（GA）的状态转变，全面面向开发者与企业级生产环境开放。这意味着，一场围绕AI推理成本的行业价格战再度升级。

此次转正并未上调其极具侵略性的定价策略。当前API调用价格维持在每百万输入Token仅0.25美元，每百万输出Token为1.50美元。横向对比同档位的Anthropic模型Claude 4.5 Haiku（其标准定价为每百万输入Token 1.00美元、输出5.00美元），Gemini的输入价格仅为后者的四分之一，输出价格更是不及其三分之一。对于每日处理数百万级Token的企业而言，这种大规模AI部署成本的断崖式下跌极具商业价值。

支撑这一性价比优势的是深度软硬件协同优化。Gemini 3.1 Flash-Lite在核心加速方面实现了突破：据三方评测数据，其首Token响应速度（TTFT）较前代提升2.5倍，输出吞吐量达到每秒363个Token。在具体应用场景中，极低的延迟反馈效果显著。例如，客服平台Gladly实际部署该模型用于处理每周数百万次的文本交互，反馈显示云端P95耗时稳定在1.8秒左右，且任务成功率高达99.6%，同时实现了约60%的综合运营成本缩减。

更值得注意的是，轻量化设计并不意味着智能水准的妥协。在代表研究生级科学推理的GPQA Diamond测试中，Gemini 3.1 Flash-Lite获得86.9%的高分，大幅领先Claude 4.5 Haiku的73.0%近14个百分点。此外，其创新性的四级推理强度控制功能，使开发者能根据翻译、客服等简单任务或复杂代码生成等场景，灵活在速度与质量之间进行切换，这无疑将重塑高并发实时AI应用的成本控制格局。对于仍在使用上一代模型的企业，迁移至这种高效轻量级模型有望直接实现降本增效，无需在模型体积与业务精度之间做出妥协。

谷歌Gemini 3.1 Flash-Lite正式版发布输入价格仅为竞品四分之一

« 上一篇 2026-05-10

Gemini 3 Pro展现复杂前端代码生成与OS界面模拟能力，重构软件开发范式

下一篇 » 2026-05-10

Gemini 3.1 Flash-Lite转正GA：输入价仅为Claude 4.5 Haiku四分之一

相关推荐

小卡

内容举报