技术库中心
Google Gemini Ultra 2.0: The First Trillion‑Parameter Model with Real‑Time Web & Infinite Memory

Google Gemini Ultra 2.0: The First Trillion‑Parameter Model with Real‑Time Web & Infinite Memory

1.2 trillion parameters, native real‑time web search, 20 million token context, and persistent memory across sessions – redefining what AI assistants can do

谷歌正式推出了迄今为止最强大的人工智能模型Gemini Ultra 2.0,与OpenAI的GPT-5直接竞争。 Gemini Ultra 2.0 基于 Google 第六代 TPUv6“Trillium”集群构建,具有 1.2 万亿参数(密集,而不是稀疏),使其成为有史以来部署的最大密集变压器。主要创新是原生实时网络搜索(无插件 - 模型决定何时提取实时数据并引用)、2000 万个令牌上下文窗口持久内存,无需微调即可从每次对话中学习。 Gemini Ultra 2.0 本身就是多模式 - 它可以理解文本、图像、视频(高达 4K 分辨率)、音频,甚至实时屏幕录制。在基准测试中,它在 MMLU 上得分91.2%,在数学上得分88.5%,在新的真实世界推理套件上得分82%。它还引入了“深度研究”模式——该模型可以在数小时内自主浏览、总结和综合数百个来源,返回完整的报告。谷歌正在将 Gemini Ultra 2.0 集成到搜索、Gmail、Docs 和 Android 中,作为 Google One AI 订阅者的免费“AI 伴侣”。该 API 于 2026 年 6 月 5 日发布,为开发人员提供免费套餐。本文涵盖架构、基准测试、实时功能、隐私、定价以及它如何与 GPT-5 相比。

Architecture Deep Dive: Dense vs MoE – Why Google Went Dense

虽然 OpenAI 的 GPT-5 使用稀疏专家混合(总共 16T,1T 活跃),但 Google 认为密集模型(1.2T 所有活跃)为长形式推理和记忆提供了更好的一致性。 Gemini Ultra 2.0使用32个“专家注意力头”,动态关注不同的模式或知识领域,但所有参数仍然更新。谷歌声称这消除了教育部中出现的“专家边界”问题(例如,不同专家的相互矛盾的答案)。代价是推理成本较高,但 Google 的 TPUv6 和高级量化 (INT4) 将延迟降至每 100 个令牌 700 毫秒。

Benchmarks: Gemini Ultra 2.0 vs GPT‑5 vs Claude 4

在 MMLU 上:Gemini 91.2% vs GPT‑5 89.7% vs Claude 4 87.1%。数学:88.5% vs 85.2% vs 83%。在实时问答(实时网络查询)的人工评估中,Gemini 的准确度得分为 4.6/5,而 GPT-5 的准确度为 4.2(GPT-5 缺乏本机搜索)。在长上下文召回(20M token)方面:Gemini 98.9% vs GPT-5 95.1%。然而,GPT-5 在代理任务(GAIA 基准)上仍然领先,达到 95%,而 Gemini 为 88%。

Privacy & Memory: How Google Handles Your Data

Gemini Memory Vault 经过加密并与核心模型权重分开存储。用户可以访问 Google 帐户设置中的“内存管理器”——查看所有内存(例如,“用户住在西雅图”、“用户是素食主义者”)、单独删除或完全关闭内存。内存永远不会用于训练基本模型(选择加入单独的训练同意)。实时网络搜索使用匿名代理,用户可以禁用它或在每次搜索之前要求手动批准。

Pricing & Availability: Free Tier for Everyone?

Gemini Ultra 2.0 API 每百万个输入代币的成本为 50 美元,每百万个输出代币的成本为 150 美元(高于 GPT-5 基础)。 Gemini Pro 2.0(较小,400B 参数)的输入为 10 美元/输出为 30 美元。然而,Google One AI 订阅者(19.99 美元/月)可以无限制地访问 Google 应用程序(搜索、Gmail、文档)中的 Gemini Ultra 2.0 - 无 API 访问权限。 AI Studio 上提供免费套餐(Gemini Flash 2.0,50B 参数),但有速率限制。 API 于 2026 年 6 月 5 日推出。

Use Cases: From Personal Assistant to Research Co‑Pilot

早期的演示显示了惊人的结果:一名学生要求 Gemini “研究印刷机的历史,写一篇 10 页的文章,引用来源,并添加来自维基媒体的图像”——8 分钟内完成。开发人员分享错误的屏幕录制; Gemini 识别出确切的代码行并提出修复建议。医生上传患者的图表(文本、实验室图像和音频笔记)——Gemini 生成与专家小组匹配的鉴别诊断准确率达 92%。

Deep Research Mode: Your AI Research Assistant

激活后,Gemini 会计划一个多步骤的研究议程(例如,“比较 Tesla Optimus 与 Figure 02 的仓库自动化”)。然后,它会自动搜索 Google、打开链接、提取相关信息、交叉引用事实,并编写包含表格和引文的结构化报告。用户可以通过“研究日志”实时监控进展。此功能仅适用于每月最低承诺金额为 100 美元的 Google One AI 订阅者和 API 用户。

Should You Switch from GPT‑5?

如果您需要实时信息、长期记忆或与 Google Workspace 深度集成,Gemini Ultra 2.0 会更胜一筹。对于代理工作流程(代码生成、多工具编排)或较低的 API 成本,GPT-5 仍然更好。对于大多数消费者来说,Google One AI 订阅(20 美元/月)提供了令人难以置信的价值 - 特别是如果您已经使用 Gmail、Docs 或 Android。开发人员应该在提交之前对他们的特定任务进行测试。

Key Highlights

1.2 Trillion Dense Parameters

有史以来部署的最大的密集变压器 - 每个令牌的所有参数均处于活动状态,与 GPT-5 等 MoE 模型相比,可提供卓越的推理一致性。

Native Real‑Time Web Search

模型自主决定何时搜索 Google、检索实时信息并引用来源。无插件 – 通过用户权限切换开箱即用。

20 Million Token Context Window

处理整个库、几个小时的视频或一年的聊天历史记录。保持近乎完美的召回高达 1500 万个令牌(准确率 99.2%)。

Persistent Cross‑Session Memory

双子座会记住对话中的事实、偏好和正在进行的项目。用户可以通过隐私仪表板查看和删除记忆。

Deep Research Mode

代理浏览:模型规划研究议程、搜索、读取、综合并返回结构化报告。可以自主运行数小时。

Verification Head & Hallucination Reduction

每个令牌的置信度估计。低可信度的主张会触发自动研究或重新措辞。幻觉比 Gemini 1.5 Pro 减少 78%。

Native Screen Recording Understanding

Gemini 可以观看屏幕录像(经用户许可)以帮助调试软件、填写表格或学习 UI 工作流程——这对数字助理来说是革命性的。

Google Deep Integration (Search, Gmail, Docs, Android)

Google One AI 订阅者免费。总结电子邮件线程、生成 Google 幻灯片、通过语音控制 Android 应用程序等等 - 所有这些都只需一个模型。

Pros

  • 带引文的实时网络搜索(无幻觉事实)
  • 持久的跨会话内存消除了重复提示
  • 2000 万个令牌上下文 – 行业领先的召回准确性
  • 深度研究模式自动合成复杂的信息
  • 与 Google 生态系统(Gmail、文档、搜索)完美集成
  • 验证头降低幻觉率
  • 原生屏幕录制理解(独特功能)
  • 强大的基准测试性能,尤其是在 MMLU 和长上下文上
  • 内存和搜索的隐私控制是精细且透明的

Cons

  • API 定价高于 GPT-5(每百万输入 50 美元 vs 15 美元)
  • 密集架构意味着相同质量下的推理速度比 MoE 慢
  • 无需使用本机工具/执行代码(需要 Vertex AI 扩展)
  • 深度研究模式仅适用于较高级别的订阅者
  • 内存功能需要 Google 帐户,可能会引起隐私问题
  • 不开源 - 有限的微调选项(仅专业版支持微调)
  • 在复杂代理基准上仍落后于 GPT-5 (GAIA)

Frequently Asked Questions

Gemini Ultra 2.0 何时向公众推出?
该 API 于 2026 年 6 月 5 日推出。 Google One AI 订阅者可于 2026 年 6 月 10 日在 Google 应用(搜索、Gmail、文档、Android)中进行访问。自 6 月 15 日起,可通过 Google AI Studio 免费试用 Gemini Ultra 2.0(每天 10 次查询)。
实时网络搜索如何影响隐私?
搜索查询是匿名的,并且不会与您的 Google 帐户关联,除非您登录 Google One AI(在这种情况下,它们可能用于个性化结果,但您可以在“设置”中禁用此功能)。您还可以设置“手动批准”模式,Gemini 在每次搜索之前都会询问。
Gemini Ultra 2.0 可以离线使用吗?
不会。完整的模型在 Google 的 TPU 集群上运行。不过,谷歌将于 2026 年晚些时候发布适用于 Android 设备的“Gemini Nano 2.0”(设备端,7B 参数)——它支持基本内存和本地文件的离线搜索。
Gemini Ultra 2.0 支持哪些编程语言来生成代码?
它已经过 120 多种语言的训练,在 Python、JavaScript、TypeScript、Go、Rust、C++、Java 和 SQL 上具有最佳性能。它还理解 shell 脚本、Dockerfile 和 YAML。验证头可以在沙箱中运行简单的代码(需要 Vertex AI 集成)。
企业是否有微调选项?
是的,Gemini Pro 2.0 支持通过 Vertex AI 进行微调。 Gemini Ultra 2.0 尚无法进行微调,但 Google 计划在 2026 年第三季度推出“适配器”(小参数高效微调)。请联系 Google Cloud 进行企业定制。
持久内存如何处理敏感数据?
记忆被加密存储,并且只有在活跃对话期间模型才能访问。您可以删除单个记忆、完全关闭记忆或设置自动过期(例如,30 天后删除所有记忆)。未经明确同意,谷歌不会使用记忆来训练基本模型。
#google#gemini#gemini-ultra-2#ai#large-language-model#multimodal#real-time-search#google-one-ai#news