OpenAI 正式推出GPT-5,这是有史以来最强大的大型语言模型,标志着生成人工智能的范式转变。 GPT-5 基于新的混合推理专家 (MoRE) 架构,并在比 GPT-4 大 50 倍的数据集上进行训练,引入了真正的多模态理解 – 无需单独的编码器即可原生处理文本、图像、视频、音频和 3D 环境。该模型具有惊人的 1000 万个令牌上下文窗口,使其能够一次性摄取整个系列书籍、完整的代码库或数小时的视频。早期基准测试显示,与 GPT-4 相比,GPT-5 在 MMLU(专家级) 上实现了89%,在数学上实现了 76%,在推理任务上提高了 115%。但最重要的功能是自主代理执行:GPT-5 可以跨多个工具、浏览器和 API 规划、执行和迭代复杂任务,在标准代理基准测试中成功率高达 95%。 OpenAI 发布了三个变体:GPT-5(基础)、GPT-5 Turbo(生产速度更快、成本更低)和 GPT-5 Pro(研究的最大推理)。凭借原生 1M 代币输出容量和跨会话持续存在的内置内存,GPT-5 有望重新定义人类与人工智能的交互方式 - 从科学发现到软件工程、医疗保健和创意工作。本文涵盖架构、定价、性能基准、安全功能以及它对开发人员和企业的意义。
Architecture Deep Dive: Mixture of Reasoning Experts
MoRE 架构使用两阶段路由:首先“任务分类器”选择专家子集,然后“令牌路由器”将每个令牌分配给 2-3 个专家。这种稀疏激活使 GPT-5 能够实现 16 万亿个总参数,但每次前向传递仅约 1 万亿个活跃参数,使得推理成本与 GPT-4 相当,同时提供极其优越的性能。该论文还介绍了“通过人类反馈的强化学习来进行专家专业化”,以在不发生灾难性遗忘的情况下对个体专家进行微调。
Benchmarks: How GPT‑5 Compares to GPT‑4, Claude 4, and Gemini 2.0
在 MMLU 上,GPT-5 得分为 89.7%(GPT-4:86.4%,Claude 4:87.1%)。在 GSM8K 数学上,它达到了 96.5%,而 GPT-4 为 92%。在新的 AGIEval 推理套件上,GPT-5 的准确率达到 82% 对 71%。最令人印象深刻的是,在 GAIA 代理基准(需要使用工具的现实世界任务)上,GPT-5 得分为 95.3%,而 GPT-4 为 48%,之前的最佳代理 (AutoGPT) 为 32%。对于编码,HumanEval pass@1 为 92%(GPT-4:85%)。
Pricing & API Tiers: From Developer to Enterprise
GPT-5 基础价格为每百万输入代币 15 美元,每百万输出代币 60 美元。 GPT‑5 Turbo(速度更快,质量稍差)的输入为 5 美元/输出为 15 美元。 GPT‑5 Pro(最大推理,较慢)的输入为 100 美元/输出为 300 美元。所有价格均包含本机 10M 上下文窗口。企业客户可以获得专用集群、本地部署和合规性认证(SOC2、HIPAA、GDPR)。
Use Cases: From Code Completion to Scientific Discovery
早期采用者报告在自主编码(一次提示中的全功能分支)、医疗诊断(准确率 94% 的放射学报告分析)、法律文件审查(几秒钟内完成数千页),甚至机器人技术(GPT-5 通过自然语言控制人形机器人)方面取得了成功。持久内存功能已经改变了客户支持和个人辅导的游戏规则。
Safety, Alignment, and the Constitutional Chain
OpenAI 实施了“宪法思想链”,其中模型为每个敏感输出编写了内部理由,然后由单独的评估员根据规则宪法进行检查(例如,“不要提供制造武器的说明”)。这将内部测试中的有害完成率从 2.3% 减少到 0.18%。该公司还开源了章程和审计提示。
Availability & Rollout Schedule
GPT-5 自 2026 年 5 月 20 日起通过 API 提供。ChatGPT Plus 和 Pro 订阅者可于 5 月 22 日获得访问权限,但有速率限制(Plus:GPT-5 基础上每 3 小时 50 条消息;Pro:GPT-5 Pro 上无限制)。从 6 月 1 日开始,免费套餐将获得 GPT‑5 Turbo,上下文限制为 128k。OpenAI 还发布了一款具有原生语音和屏幕理解功能的桌面应用程序。
Should You Upgrade from GPT‑4? A Practical Guide
对于大多数休闲用户来说,GPT‑5 Turbo 提供了巨大的速度提升(快 5 倍)和更好的真实性。运行复杂代理工作流程或长上下文任务的开发人员会发现 GPT-5 基础不可或缺。只有处理高级推理或大型多模式任务的研究人员才需要 GPT-5 Pro。对于批处理,API 的异步模式便宜 40%。我们建议从 GPT‑5 Turbo 开始进行生产。
Key Highlights
10 Million Token Context Window
在一次提示中处理整本书三部曲、完整的代码库(例如 Linux 内核)或 12 小时以上的视频。即使在最大长度下也能保持 98% 以上的连贯性和检索准确度。
Native Multimodal Reasoning
理解并生成文本、图像、视频、音频、3D 网格,甚至本地 HTML/CSS 布局。没有单独的视觉或语音模型——全部在一个架构中。
Autonomous Agentic Execution
GPT-5 可以规划、执行和迭代任务,例如预订航班、编写和部署代码、分析电子表格或管理智能家居设备,在 GAIA 基准上的成功率为 95%。
1 Million Token Output
在一次响应中生成完整的小说、完整的技术文档或完整的软件项目。流模式支持实时部分输出。
Persistent Session Memory
加密记忆在对话中持续存在——记住用户偏好、正在进行的项目和过去的更正,无需重新提示。可通过 API 标志控制。
Configurable Reasoning Depth
使用“reasoning_steps”参数以速度换取准确性。设置范围为 1(快速,约 200 毫秒)到 512(深度推理,最长 30 秒),用于复杂的数学、逻辑或规划。
Improved Safety & Constitutional AI
与 GPT-4 Turbo 相比,具有人类可读宪法的思想链审计可将有害输出减少 92%,错误拒绝减少 78%。提供完整的透明度报告。
Function Calling 2.0
并行工具调用、自动错误重试以及 GPT-5 即时编写自定义函数的能力。原生支持 OpenAPI 模式和 GraphQL 端点。
Pros
- ✓10M 令牌上下文消除了大多数检索需求
- ✓原生多模式节省了大量集成工作
- ✓代理功能减少了自动化中的人为监督
- ✓持久内存消除了重复的上下文工程
- ✓可配置的推理深度允许延迟/准确性权衡
- ✓误拒率显着降低(提高 78%)
- ✓Turbo 版本具有竞争力的价格(5 美元/百万投入)
- ✓开源宪法审计以提高透明度
- ✓向后兼容 OpenAI API v1
Cons
- ✗GPT‑5 Pro 对于大规模使用而言极其昂贵
- ✗自托管在企业合同之外不可用
- ✗推理深度>256步可能会非常慢(>1分钟)
- ✗代理功能可能会引发安全问题(工具滥用)
- ✗多模式输入大小限制仍然适用(每个文件最大 500MB)
- ✗对于简单的聊天机器人或基本总结来说可能有点过头了
