月活突破 6.5亿,谷歌深夜推升级版Gemini 3

频道:文化 日期: 浏览:1

当地时间1118日,Alphabet旗下谷歌(Google)推出新一代大型语言模型Gemini 3,发布当日起将其部署至谷歌搜索的AI模式、Gemini应用、API接口、VertexAI等核心产品。

谷歌官方将其定义为“”通往 AGI 的重要一步,并强调这是目前世界上多模态理解能力最强、交互最深度的智能体。Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)在公司官方博客中将其描述为最先进最智能的推理模型

从现场演示来看,Gemini 3可以无缝整合任何主题的多种模态信息,包括文本、图像、视频、音频和代码;通过结合其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级 token 上下文窗口,进一步拓展了多模态推理的边界,帮助用户以最适合自己的方式学习。

例如, 如果用户想学习某个新主题,Gemini 3可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助用户掌握相关知识。

为了帮助用户更好地理解网络上的信息,Gemini 3打破了传统的链接列表呈现方式,而用沉浸式视觉布局、交互式工具和模拟等方式,根据用户的查询即时生成。

具体来看,首先在推理能力上,从各种第三方开放评测平台数据看, Gemini 3 都以高分站到了通用模型第一梯队的最前列。

其次在多模态方面,谷歌展示了一个场景:一个手写、符号混杂、排版混乱的本子,模型不仅能精准理解,还能自动消解符号不一致带来的歧义,最终给出的答案堪比受过训练的学生,在跨图像、跨学科、跨语境的混合任务中,保持一条不被打断的推理链条。

Gemini 3不仅能理解视觉结构,也能读懂界面变化、预测用户操作,甚至推断环境动态。推理不再只是答题,而开始向理解世界如何运作迈一步。

第三,在Agent 能力方面,根据现场演示,Gemini Agent可执行的能力包括:自动整理Gmail用户邮箱、提取关键信息;规划完整旅行行程,包括日程、交通与预算要素;执行具备多个步骤链条的复杂任务;在不同应用场景中作为可调用助手运行。

Gemini 3 现已全面开放。即日起,普通用户和订阅用户分别可通过Gemini App及搜索AI 模式使用新模型;开发者与企业客户也能通过AI StudioVertex AI等渠道接入。

定价方面,Gemini 3.0 Pro 引入了基于上下文长度的分级定价机制:200k tokens 以下的任务,输入 / 输出价格为2.00美元/12.00美元(每百万 token);超过 200k tokens 则分别为4.00美元 18.00美元。

桑达尔·皮查伊在官方博客中回顾了 Gemini 过去两年的进展:AI Overviews 月活跃用户已达 20亿,Gemini 应用月活突破 6.5亿,此外有超过70%的云客户以及1300万开发者正在使用其生成式模型。