月活突破 6.5亿，谷歌深夜推升级版Gemini 3

当地时间11月18日，Alphabet旗下谷歌（Google）推出新一代大型语言模型Gemini 3，发布当日起将其部署至谷歌搜索的AI模式、Gemini应用、API接口、VertexAI等核心产品。

谷歌官方将其定义为“”通往 AGI 的重要一步”，并强调这是目前世界上多模态理解能力最强、交互最深度的智能体。Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）在公司官方博客中将其描述为“最先进最智能的推理模型”。

从现场演示来看，Gemini 3可以无缝整合任何主题的多种模态信息，包括文本、图像、视频、音频和代码；通过结合其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级 token 上下文窗口，进一步拓展了多模态推理的边界，帮助用户以最适合自己的方式学习。

例如，如果用户想学习某个新主题，Gemini 3可以提供学术论文、长篇视频讲座或教程，它可以生成交互式记忆卡片、可视化或其他格式的代码，帮助用户掌握相关知识。

为了帮助用户更好地理解网络上的信息，Gemini 3打破了传统的链接列表呈现方式，而用沉浸式视觉布局、交互式工具和模拟等方式，根据用户的查询即时生成。

具体来看，首先在推理能力上，从各种第三方开放评测平台数据看， Gemini 3 都以高分站到了通用模型第一梯队的最前列。

其次在多模态方面，谷歌展示了一个场景：一个手写、符号混杂、排版混乱的本子，模型不仅能精准理解，还能自动消解符号不一致带来的歧义，最终给出的答案堪比受过训练的学生，在跨图像、跨学科、跨语境的混合任务中，保持一条不被打断的推理链条。

Gemini 3不仅能理解视觉结构，也能读懂界面变化、预测用户操作，甚至推断环境动态。推理不再只是答题，而开始向“理解世界如何运作”迈一步。

第三，在Agent 能力方面，根据现场演示，Gemini Agent可执行的能力包括：自动整理Gmail用户邮箱、提取关键信息；规划完整旅行行程，包括日程、交通与预算要素；执行具备多个步骤链条的复杂任务；在不同应用场景中作为可调用助手运行。

Gemini 3 现已全面开放。即日起，普通用户和订阅用户分别可通过Gemini App及搜索AI 模式使用新模型；开发者与企业客户也能通过AI Studio、Vertex AI等渠道接入。

定价方面，Gemini 3.0 Pro 引入了基于上下文长度的分级定价机制：200k tokens 以下的任务，输入 / 输出价格为2.00美元/12.00美元（每百万 token）；超过 200k tokens 则分别为4.00美元和18.00美元。

桑达尔·皮查伊在官方博客中回顾了 Gemini 过去两年的进展：AI Overviews 月活跃用户已达 20亿，Gemini 应用月活突破 6.5亿，此外有超过70%的云客户以及1300万开发者正在使用其生成式模型。