Gemini 3.1 Flash-Lite转正GA:输入价仅为Claude 4.5 Haiku四分之一
5月10日,据The Block Beats最新消息,谷歌轻量级人工智能模型Gemini 3.1 Flash-Lite已正式完成从预览版到正式可用(GA)的状态转变,全面面向开发者与企业级生产环境开放。这意味着,一场围绕AI推理成本的行业价格战再度升级。
此次转正并未上调其极具侵略性的定价策略。当前API调用价格维持在每百万输入Token仅0.25美元,每百万输出Token为1.50美元。横向对比同档位的Anthropic模型Claude 4.5 Haiku(其标准定价为每百万输入Token 1.00美元、输出5.00美元),Gemini的输入价格仅为后者的四分之一,输出价格更是不及其三分之一。对于每日处理数百万级Token的企业而言,这种大规模AI部署成本的断崖式下跌极具商业价值。
支撑这一性价比优势的是深度软硬件协同优化。Gemini 3.1 Flash-Lite在核心加速方面实现了突破:据三方评测数据,其首Token响应速度(TTFT)较前代提升2.5倍,输出吞吐量达到每秒363个Token。在具体应用场景中,极低的延迟反馈效果显著。例如,客服平台Gladly实际部署该模型用于处理每周数百万次的文本交互,反馈显示云端P95耗时稳定在1.8秒左右,且任务成功率高达99.6%,同时实现了约60%的综合运营成本缩减。
更值得注意的是,轻量化设计并不意味着智能水准的妥协。在代表研究生级科学推理的GPQA Diamond测试中,Gemini 3.1 Flash-Lite获得86.9%的高分,大幅领先Claude 4.5 Haiku的73.0%近14个百分点。此外,其创新性的四级推理强度控制功能,使开发者能根据翻译、客服等简单任务或复杂代码生成等场景,灵活在速度与质量之间进行切换,这无疑将重塑高并发实时AI应用的成本控制格局。对于仍在使用上一代模型的企业,迁移至这种高效轻量级模型有望直接实现降本增效,无需在模型体积与业务精度之间做出妥协。