谷歌深夜放性价比“猛兽”！Gemini 3.1 Flash轻量版干翻前辈，价格打骨折

发布：2026/3/12 9:00:39 来源:网络浏览次编辑：佚名分享/转发»

智东西
作者｜王涵
编辑｜李水青

智东西3月4日报道，今日凌晨，Gemini 3.1 Flash-Lite正式发布，谷歌官方介绍该模型为Gemini 3系列中速度最快、性价比最高的模型，专为应对大规模开发者工作负载而设计。

根据Artificial Analysis基准测试，Gemini 3.1 Flash-Lite的首Token响应速度较2.5 Flash提升2.5倍，每秒输出Tokens数达389个，排名第一，较2.5 Flash提升45%，同时保持了与2.5 Flash相近或更高的生成质量。

▲Artificial Analysis生成速度榜单（来源：Artificial Analysis）

▲与2.5 Flash生成速度对比

该模型在Arena.ai排行榜取得1432分的Elo评分，在推理基准测试GPQA Diamond中获得86.9%的分数，在多模态理解测试MMMU Pro的成绩达76.8%，超越前代大型模型如2.5 Flash。

▲基准测试成绩

Gemini 3.1 Flash-Lite定价为输入每百万tokens0.25美元（约合人民币1.73元），输出每百万tokens1.5美元（约合人民币10.35元）。

▲价格对比

即日起，Gemini 3.1 Flash-Lite预览版将通过Google AI Studio的Gemini API向开发者开放，同时企业用户可通过Vertex AI平台使用。

除原始性能外，Gemini 3.1 Flash-Lite在AI Studio和Vertex AI平台标配“ thinking levels”调节功能，开发者可灵活控制模型在任务中的“思考深度”。

Gemini 3.1 Flash-Lite既能处理大规模成本优先任务，如批量翻译、内容审核等，也能处理如生成用户界面/仪表盘、创建模拟仿真、执行多步指令等需要深度推理的复杂场景。

例如，Gemini 3.1 Flash-Lite可以在很短的时间内将数百个不同类别的商品填入一个电商网站的线框原型中。

该模型还可以用来创建一个能够为企业执行多种多步骤任务的SaaS Agent。

Gemini 3.1 Flash-Lite能够利用实时预报和历史数据，实时生成动态的气象仪表盘。

其也可以快速分析和排序大量的多模态内容，例如图像。

在谷歌的官宣推文下方，有不少外网网友都对这款模型的低成本、高效益表示赞叹。

有网友说：“思维水平功能彻底改变了游戏。“用户可以将简单的查询路由到低思维模式，将复杂的任务路由到高思维模式。这不仅节省了成本，还提高了架构的灵活性。

▲网友评论（来源：X）

更有网友直接将Gemini 3.1 Flash-Lite比喻成了“野兽”，并称“这不仅仅是迭代，它是开发者的生产力倍增器。”

▲网友评论（来源：X）

结语：谷歌追求极致性价比

在这个追求降本增效的时代，Gemini 3.1 Flash-Lite既要质量，又要速度，还要低成本，为AI应用的规模化落地提供了一种新解法。

Gemini 3.1 Flash-Lite在价格上拉低了大模型高频调用的门槛。其可调节的“思考深度”，也让开发者能根据任务的实际需要灵活分配计算资源，避免了不必要的账单。

从行业应用的角度看，这种“够用且不贵”的模型往往比一味追求参数规模的方案更具落地价值。谷歌本质上是在有限预算内，把“可用”和“够用”做了更务实的结合。

评论加载中...