OpenAI는 지금까지 만들어진 것 중 가장 강력한 대규모 언어 모델인 GPT-5를 공식 공개하여 생성 AI의 패러다임 전환을 알렸습니다. 새로운 MoRE(Mixture of Reasoning Experts) 아키텍처를 기반으로 구축되고 GPT-4보다 50배 이상 큰 데이터 세트로 교육된 GPT-5는 진정한 다중 모달 이해를 도입하여 별도의 인코더 없이 기본적으로 텍스트, 이미지, 비디오, 오디오 및 3D 환경을 처리합니다. 이 모델은 엄청난 1천만 토큰 컨텍스트 창을 갖추고 있어 전체 책 시리즈, 전체 코드베이스 또는 몇 시간 분량의 비디오를 한 번에 수집할 수 있습니다. 초기 벤치마크에서는 GPT‑5가 GPT‑4에 비해 MMLU(전문가 수준)에서 89%, MATH에서 76%, 추론 작업에서 115% 향상된 결과를 달성한 것으로 나타났습니다. 그러나 헤드라인 기능은 자율 에이전트 실행입니다. GPT‑5는 표준 에이전트 벤치마크에서 최대 95%의 성공률로 여러 도구, 브라우저 및 API 전반에 걸쳐 복잡한 작업을 계획, 실행 및 반복할 수 있습니다. OpenAI는 GPT-5(기본), GPT-5 Turbo(생산 시 더 빠르고 저렴함), GPT-5 Pro(연구를 위한 최대 추론)의 세 가지 변형을 출시합니다. 기본 1M 토큰 출력 용량과 세션 전반에 걸쳐 지속되는 내장 메모리를 갖춘 GPT-5는 과학적 발견부터 소프트웨어 엔지니어링, 의료 및 창의적 작업에 이르기까지 인간이 AI와 상호 작용하는 방식을 재정의할 준비가 되어 있습니다. 이 문서에서는 아키텍처, 가격, 성능 벤치마크, 안전 기능 및 이것이 개발자와 기업에 미치는 영향을 다룹니다.
Architecture Deep Dive: Mixture of Reasoning Experts
MoRE 아키텍처는 2단계 라우팅을 사용합니다. 먼저 '작업 분류자'가 전문가 하위 집합을 선택한 다음 '토큰 라우터'가 각 토큰을 2~3명의 전문가에게 할당합니다. 이러한 희소 활성화를 통해 GPT-5는 총 16조 개의 매개변수를 달성하지만 순방향 패스당 최대 1조 개의 활성 매개변수만 달성하므로 추론 비용은 GPT-4와 비슷하면서도 훨씬 뛰어난 성능을 제공합니다. 이 논문에서는 또한 치명적인 망각 없이 개별 전문가를 미세 조정하기 위해 '인간 피드백을 통한 강화 학습을 통한 전문가 전문화'를 소개합니다.
Benchmarks: How GPT‑5 Compares to GPT‑4, Claude 4, and Gemini 2.0
MMLU에서 GPT‑5 점수는 89.7%입니다(GPT‑4: 86.4%, Claude 4: 87.1%). GSM8K 수학에서는 GPT‑4의 경우 96.5%, 92%를 달성합니다. 새로운 AGIeval 추론 제품군에서 GPT‑5는 82% 대 71%를 기록했습니다. 가장 인상적인 점은 GAIA 에이전트 벤치마크(도구 사용이 필요한 실제 작업)에서 GPT-5는 95.3%, GPT-4는 48%, 이전 최고의 에이전트(AutoGPT)는 32%를 기록했다는 것입니다. 코딩의 경우 HumanEval pass@1은 92%(GPT‑4: 85%)입니다.
Pricing & API Tiers: From Developer to Enterprise
GPT‑5 기본은 입력 토큰 백만 달러당 15달러, 출력 토큰 백만 달러당 60달러부터 시작됩니다. GPT‑5 Turbo(더 빠르지만 품질은 약간 낮음)는 입력 $5 / 출력 $15입니다. GPT‑5 Pro(최대 추론, 느림)는 입력 $100 / 출력 $300입니다. 모든 가격에는 기본 10M 컨텍스트 창이 포함됩니다. 기업 고객은 전용 클러스터, 온프레미스 배포 및 규정 준수 인증(SOC2, HIPAA, GDPR)을 받습니다.
Use Cases: From Code Completion to Scientific Discovery
얼리 어답터는 자율 코딩(하나의 프롬프트에서 전체 기능 분기), 의료 진단(94% 정확도의 방사선 보고서 분석), 법률 문서 검토(초당 수천 페이지), 심지어 로봇공학(자연어를 통해 휴머노이드 로봇을 제어하는 GPT-5) 분야에서도 성공했다고 보고합니다. 영구 메모리 기능은 고객 지원 및 개인 교습 분야에서 획기적인 변화를 가져왔습니다.
Safety, Alignment, and the Constitutional Chain
OpenAI는 모델이 각각의 민감한 출력에 대한 내부 정당성을 작성한 다음 별도의 평가자가 규칙 구성(예: '무기 제작에 대한 지침을 제공하지 않음')과 비교하여 이를 확인하는 '헌법적 사고 사슬'을 구현했습니다. 이는 내부 테스트에서 유해한 완료율을 2.3%에서 0.18%로 줄입니다. 회사는 또한 정관과 감사 메시지를 오픈 소스로 공개했습니다.
Availability & Rollout Schedule
GPT‑5는 2026년 5월 20일부터 API를 통해 사용할 수 있습니다. ChatGPT Plus 및 Pro 구독자는 속도 제한이 있는 5월 22일에 액세스할 수 있습니다(추가: GPT‑5 기반에서 3시간당 50개 메시지, Pro: GPT‑5 Pro에서는 무제한). 무료 등급에는 6월 1일부터 128k 컨텍스트 제한이 있는 GPT-5 Turbo가 제공됩니다. 또한 OpenAI는 기본 음성 및 화면 이해 기능을 갖춘 데스크톱 앱도 발표했습니다.
Should You Upgrade from GPT‑4? A Practical Guide
대부분의 일반 사용자에게 GPT‑5 Turbo는 엄청난 속도 향상(5배 더 빠름)과 더 나은 사실성을 제공합니다. 복잡한 에이전트 워크플로나 긴 컨텍스트 작업을 실행하는 개발자에게는 GPT-5 기반이 필수 불가결하다는 것을 알게 될 것입니다. 고급 추론이나 대규모 다중 모드 작업을 다루는 연구자에게만 GPT‑5 Pro가 필요합니다. 일괄 처리의 경우 API의 비동기 모드가 40% 더 저렴합니다. 프로덕션에는 GPT‑5 Turbo로 시작하는 것이 좋습니다.
Key Highlights
10 Million Token Context Window
단일 프롬프트에서 전체 책 3부작, 전체 코드베이스(예: Linux 커널) 또는 12시간 이상의 비디오를 처리합니다. 최대 길이에서도 98% 이상의 일관성과 검색 정확도를 유지합니다.
Native Multimodal Reasoning
텍스트, 이미지, 비디오, 오디오, 3D 메시는 물론 HTML/CSS 레이아웃까지 기본적으로 이해하고 생성합니다. 별도의 비전이나 음성 모델이 없습니다. 모두 하나의 아키텍처에 담겨 있습니다.
Autonomous Agentic Execution
GPT‑5는 항공편 예약, 코드 작성 및 배포, 스프레드시트 분석, 스마트 홈 장치 관리와 같은 작업을 계획, 실행, 반복할 수 있으며 GAIA 벤치마크에서 95%의 성공률을 보입니다.
1 Million Token Output
단일 응답으로 전체 소설, 전체 기술 문서 또는 전체 소프트웨어 프로젝트를 생성합니다. 스트리밍 모드는 실시간 부분 출력을 지원합니다.
Persistent Session Memory
대화 전반에 걸쳐 지속되는 암호화된 메모리 - 다시 묻지 않고도 사용자 기본 설정, 진행 중인 프로젝트, 과거 수정 사항을 기억합니다. API 플래그를 통해 제어할 수 있습니다.
Configurable Reasoning Depth
`reasoning_steps` 매개변수를 사용하여 정확성을 위해 속도를 교환하세요. 복잡한 수학, 논리 또는 계획의 경우 1(빠름, ~200ms)에서 512(심층 추론, 최대 30초)까지 설정합니다.
Improved Safety & Constitutional AI
사람이 읽을 수 있는 구성을 갖춘 사고 사슬 감사는 GPT-4 Turbo에 비해 유해한 출력을 92%, 허위 거부를 78% 줄입니다. 완전한 투명성 보고서가 제공됩니다.
Function Calling 2.0
병렬 도구 호출, 자동 오류 재시도, GPT‑5가 즉시 맞춤 기능을 작성하는 기능. OpenAPI 스키마 및 GraphQL 엔드포인트를 기본적으로 지원합니다.
Pros
- ✓10M 토큰 컨텍스트로 대부분의 검색 요구 사항 제거
- ✓기본 다중 모드로 통합 노력이 크게 절감됩니다.
- ✓에이전트 기능은 자동화에 대한 인간의 감독을 줄입니다.
- ✓영구 메모리는 반복적인 컨텍스트 엔지니어링을 제거합니다.
- ✓구성 가능한 추론 깊이로 대기 시간/정확도 절충 가능
- ✓허위거부율 대폭 감소(78% 개선)
- ✓Turbo 모델에 대한 경쟁력 있는 가격(입력 백만 달러당 $5)
- ✓투명성을 위한 오픈 소스 헌법 감사
- ✓OpenAI API v1과 역호환 가능
Cons
- ✗GPT‑5 Pro는 대규모 사용에 매우 비쌉니다.
- ✗기업 계약 외부에서는 자체 호스팅을 사용할 수 없습니다.
- ✗추론 깊이 >256단계는 매우 느릴 수 있음(>1분)
- ✗에이전트 기능은 보안 문제를 일으킬 수 있습니다(도구 오용).
- ✗다중 모드 입력 크기 제한은 계속 적용됩니다(파일당 최대 500MB).
- ✗간단한 챗봇이나 기본적인 요약에는 과잉일 수 있습니다.
