谷歌正式推出了迄今为止最强大的人工智能模型Gemini Ultra 2.0,与OpenAI的GPT-5直接竞争。 Gemini Ultra 2.0 基于 Google 第六代 TPUv6“Trillium”集群构建,具有 1.2 万亿参数(密集,而不是稀疏),使其成为有史以来部署的最大密集变压器。主要创新是原生实时网络搜索(无插件 - 模型决定何时提取实时数据并引用)、2000 万个令牌上下文窗口和持久内存,无需微调即可从每次对话中学习。 Gemini Ultra 2.0 本身就是多模式 - 它可以理解文本、图像、视频(高达 4K 分辨率)、音频,甚至实时屏幕录制。在基准测试中,它在 MMLU 上得分91.2%,在数学上得分88.5%,在新的真实世界推理套件上得分82%。它还引入了“深度研究”模式——该模型可以在数小时内自主浏览、总结和综合数百个来源,返回完整的报告。谷歌正在将 Gemini Ultra 2.0 集成到搜索、Gmail、Docs 和 Android 中,作为 Google One AI 订阅者的免费“AI 伴侣”。该 API 于 2026 年 6 月 5 日发布,为开发人员提供免费套餐。本文涵盖架构、基准测试、实时功能、隐私、定价以及它如何与 GPT-5 相比。
Architecture Deep Dive: Dense vs MoE – Why Google Went Dense
虽然 OpenAI 的 GPT-5 使用稀疏专家混合(总共 16T,1T 活跃),但 Google 认为密集模型(1.2T 所有活跃)为长形式推理和记忆提供了更好的一致性。 Gemini Ultra 2.0使用32个“专家注意力头”,动态关注不同的模式或知识领域,但所有参数仍然更新。谷歌声称这消除了教育部中出现的“专家边界”问题(例如,不同专家的相互矛盾的答案)。代价是推理成本较高,但 Google 的 TPUv6 和高级量化 (INT4) 将延迟降至每 100 个令牌 700 毫秒。
Benchmarks: Gemini Ultra 2.0 vs GPT‑5 vs Claude 4
在 MMLU 上:Gemini 91.2% vs GPT‑5 89.7% vs Claude 4 87.1%。数学:88.5% vs 85.2% vs 83%。在实时问答(实时网络查询)的人工评估中,Gemini 的准确度得分为 4.6/5,而 GPT-5 的准确度为 4.2(GPT-5 缺乏本机搜索)。在长上下文召回(20M token)方面:Gemini 98.9% vs GPT-5 95.1%。然而,GPT-5 在代理任务(GAIA 基准)上仍然领先,达到 95%,而 Gemini 为 88%。
Privacy & Memory: How Google Handles Your Data
Gemini Memory Vault 经过加密并与核心模型权重分开存储。用户可以访问 Google 帐户设置中的“内存管理器”——查看所有内存(例如,“用户住在西雅图”、“用户是素食主义者”)、单独删除或完全关闭内存。内存永远不会用于训练基本模型(选择加入单独的训练同意)。实时网络搜索使用匿名代理,用户可以禁用它或在每次搜索之前要求手动批准。
Pricing & Availability: Free Tier for Everyone?
Gemini Ultra 2.0 API 每百万个输入代币的成本为 50 美元,每百万个输出代币的成本为 150 美元(高于 GPT-5 基础)。 Gemini Pro 2.0(较小,400B 参数)的输入为 10 美元/输出为 30 美元。然而,Google One AI 订阅者(19.99 美元/月)可以无限制地访问 Google 应用程序(搜索、Gmail、文档)中的 Gemini Ultra 2.0 - 无 API 访问权限。 AI Studio 上提供免费套餐(Gemini Flash 2.0,50B 参数),但有速率限制。 API 于 2026 年 6 月 5 日推出。
Use Cases: From Personal Assistant to Research Co‑Pilot
早期的演示显示了惊人的结果:一名学生要求 Gemini “研究印刷机的历史,写一篇 10 页的文章,引用来源,并添加来自维基媒体的图像”——8 分钟内完成。开发人员分享错误的屏幕录制; Gemini 识别出确切的代码行并提出修复建议。医生上传患者的图表(文本、实验室图像和音频笔记)——Gemini 生成与专家小组匹配的鉴别诊断准确率达 92%。
Deep Research Mode: Your AI Research Assistant
激活后,Gemini 会计划一个多步骤的研究议程(例如,“比较 Tesla Optimus 与 Figure 02 的仓库自动化”)。然后,它会自动搜索 Google、打开链接、提取相关信息、交叉引用事实,并编写包含表格和引文的结构化报告。用户可以通过“研究日志”实时监控进展。此功能仅适用于每月最低承诺金额为 100 美元的 Google One AI 订阅者和 API 用户。
Should You Switch from GPT‑5?
如果您需要实时信息、长期记忆或与 Google Workspace 深度集成,Gemini Ultra 2.0 会更胜一筹。对于代理工作流程(代码生成、多工具编排)或较低的 API 成本,GPT-5 仍然更好。对于大多数消费者来说,Google One AI 订阅(20 美元/月)提供了令人难以置信的价值 - 特别是如果您已经使用 Gmail、Docs 或 Android。开发人员应该在提交之前对他们的特定任务进行测试。
Key Highlights
1.2 Trillion Dense Parameters
有史以来部署的最大的密集变压器 - 每个令牌的所有参数均处于活动状态,与 GPT-5 等 MoE 模型相比,可提供卓越的推理一致性。
Native Real‑Time Web Search
模型自主决定何时搜索 Google、检索实时信息并引用来源。无插件 – 通过用户权限切换开箱即用。
20 Million Token Context Window
处理整个库、几个小时的视频或一年的聊天历史记录。保持近乎完美的召回高达 1500 万个令牌(准确率 99.2%)。
Persistent Cross‑Session Memory
双子座会记住对话中的事实、偏好和正在进行的项目。用户可以通过隐私仪表板查看和删除记忆。
Deep Research Mode
代理浏览:模型规划研究议程、搜索、读取、综合并返回结构化报告。可以自主运行数小时。
Verification Head & Hallucination Reduction
每个令牌的置信度估计。低可信度的主张会触发自动研究或重新措辞。幻觉比 Gemini 1.5 Pro 减少 78%。
Native Screen Recording Understanding
Gemini 可以观看屏幕录像(经用户许可)以帮助调试软件、填写表格或学习 UI 工作流程——这对数字助理来说是革命性的。
Google Deep Integration (Search, Gmail, Docs, Android)
Google One AI 订阅者免费。总结电子邮件线程、生成 Google 幻灯片、通过语音控制 Android 应用程序等等 - 所有这些都只需一个模型。
Pros
- ✓带引文的实时网络搜索(无幻觉事实)
- ✓持久的跨会话内存消除了重复提示
- ✓2000 万个令牌上下文 – 行业领先的召回准确性
- ✓深度研究模式自动合成复杂的信息
- ✓与 Google 生态系统(Gmail、文档、搜索)完美集成
- ✓验证头降低幻觉率
- ✓原生屏幕录制理解(独特功能)
- ✓强大的基准测试性能,尤其是在 MMLU 和长上下文上
- ✓内存和搜索的隐私控制是精细且透明的
Cons
- ✗API 定价高于 GPT-5(每百万输入 50 美元 vs 15 美元)
- ✗密集架构意味着相同质量下的推理速度比 MoE 慢
- ✗无需使用本机工具/执行代码(需要 Vertex AI 扩展)
- ✗深度研究模式仅适用于较高级别的订阅者
- ✗内存功能需要 Google 帐户,可能会引起隐私问题
- ✗不开源 - 有限的微调选项(仅专业版支持微调)
- ✗在复杂代理基准上仍落后于 GPT-5 (GAIA)
