OpenAI GPT-5: The Next Generation AI Model Launches

OpenAI hat offiziell GPT-5 vorgestellt, das leistungsstärkste große Sprachmodell, das jemals erstellt wurde, und markiert damit einen Paradigmenwechsel in der generativen KI. GPT-5 basiert auf einer neuen Mixture of Reasoning Experts (MoRE)-Architektur und wurde auf einem Datensatz trainiert, der über 50-mal größer als GPT-4 ist. Es führt echtes multimodales Verständnis ein – die native Verarbeitung von Text, Bildern, Video, Audio und 3D-Umgebungen ohne separate Encoder. Das Modell verfügt über ein atemberaubendes 10-Millionen-Token-Kontextfenster, das die Aufnahme ganzer Buchreihen, vollständiger Codebasen oder stundenlanger Videos auf einmal ermöglicht. Erste Benchmarks zeigen, dass GPT-5 im Vergleich zu GPT-4 89 % bei MMLU (Expertenniveau), 76 % bei MATH und eine 115 % Verbesserung bei Denkaufgaben erreicht. Das Hauptmerkmal ist jedoch die autonome Agentenausführung: GPT-5 kann komplexe Aufgaben über mehrere Tools, Browser und APIs hinweg planen, ausführen und iterieren, mit einer Erfolgsquote von bis zu 95 % bei Standard-Agent-Benchmarks. OpenAI veröffentlicht drei Varianten: GPT-5 (Basis), GPT-5 Turbo (schneller, günstiger für die Produktion) und GPT-5 Pro (maximale Begründung für die Forschung). Mit einer nativen 1-Millionen-Token-Ausgabekapazität und integriertem Speicher, der über Sitzungen hinweg bestehen bleibt, ist GPT-5 bereit, die Art und Weise, wie Menschen mit KI interagieren, neu zu definieren – von wissenschaftlichen Entdeckungen bis hin zu Softwareentwicklung, Gesundheitswesen und kreativer Arbeit. In diesem Artikel werden Architektur, Preise, Leistungsbenchmarks, Sicherheitsfunktionen und deren Bedeutung für Entwickler und Unternehmen behandelt.

Architecture Deep Dive: Mixture of Reasoning Experts

Die MoRE-Architektur verwendet ein zweistufiges Routing: Zuerst wählt ein „Aufgabenklassifizierer“ eine Teilmenge von Experten aus, dann weist ein „Token-Router“ jedes Token zwei bis drei Experten zu. Diese spärliche Aktivierung ermöglicht es GPT-5, insgesamt 16 Billionen Parameter zu erreichen, aber nur etwa 1 Billion aktiv pro Vorwärtsdurchlauf, wodurch die Inferenzkosten mit denen von GPT-4 vergleichbar sind und gleichzeitig eine weitaus bessere Leistung liefern. Das Papier führt außerdem die „Expertenspezialisierung durch verstärkendes Lernen aus menschlichem Feedback“ ein, um einzelne Experten zu verfeinern, ohne dass es zu katastrophalem Vergessen kommt.

Benchmarks: How GPT‑5 Compares to GPT‑4, Claude 4, and Gemini 2.0

Bei MMLU erreicht GPT-5 89,7 % (GPT-4: 86,4 %, Claude 4: 87,1 %). Bei der GSM8K-Berechnung werden 96,5 % gegenüber 92 % bei GPT-4 erreicht. In der neuen AGIEval Reasoning Suite erreicht GPT-5 82 % gegenüber 71 %. Am beeindruckendsten ist, dass GPT-5 beim GAIA-Agenten-Benchmark (reale Aufgaben, die den Einsatz von Tools erfordern) 95,3 % erreicht, während GPT-4 48 % und der bisher beste Agent (AutoGPT) 32 % erreicht. Für die Codierung beträgt HumanEval pass@1 92 % (GPT-4: 85 %).

Pricing & API Tiers: From Developer to Enterprise

Die GPT-5-Basis beginnt bei 15 US-Dollar pro Million Input-Tokens und 60 US-Dollar pro Million Output. GPT-5 Turbo (schneller, etwas schlechtere Qualität) kostet 5 $ Eingabe / 15 $ Ausgabe. GPT-5 Pro (maximale Argumentation, langsamer) kostet 100 $ Eingabe / 300 $ Ausgabe. Alle Preise beinhalten das native 10M-Kontextfenster. Unternehmenskunden erhalten dedizierte Cluster, Bereitstellung vor Ort und Compliance-Zertifizierungen (SOC2, HIPAA, DSGVO).

Use Cases: From Code Completion to Scientific Discovery

Frühanwender berichten von Erfolgen bei der autonomen Codierung (Verzweigungen mit vollem Funktionsumfang in einer Eingabeaufforderung), der medizinischen Diagnose (Analyse von Radiologieberichten mit 94 % Genauigkeit), der Überprüfung von Rechtsdokumenten (Tausende von Seiten in Sekunden) und sogar der Robotik (GPT-5 steuert einen humanoiden Roboter über natürliche Sprache). Die Persistent-Memory-Funktion hat den Kundensupport und die persönliche Nachhilfe bahnbrechend verändert.

Safety, Alignment, and the Constitutional Chain

OpenAI hat eine „konstitutionelle Gedankenkette“ implementiert, bei der das Modell eine interne Begründung für jede sensible Ausgabe schreibt und diese dann von einem separaten Prüfer anhand einer Reihe von Regeln überprüft wird (z. B. „Geben Sie keine Anweisungen für den Waffenbau an“). Dies reduziert schädliche Abschlüsse bei internen Tests von 2,3 % auf 0,18 %. Das Unternehmen stellte auch die Satzung und die Prüfungsanweisungen als Open-Source-Lösung zur Verfügung.

Availability & Rollout Schedule

GPT‑5 ist ab dem 20. Mai 2026 über die API verfügbar. ChatGPT Plus- und Pro-Abonnenten erhalten am 22. Mai Zugang mit Ratenbegrenzungen (Plus: 50 Nachrichten alle 3 Stunden auf GPT‑5-Basis; Pro: unbegrenzt auf GPT‑5 Pro). Die kostenlose Stufe erhält ab dem 1. Juni GPT-5 Turbo mit einem Kontextlimit von 128.000. OpenAI kündigte außerdem eine Desktop-App mit nativer Sprach- und Bildschirmverständlichkeit an.

Should You Upgrade from GPT‑4? A Practical Guide

Für die meisten Gelegenheitsnutzer bietet GPT-5 Turbo einen enormen Geschwindigkeitsschub (5x schneller) und eine bessere Faktizität. Für Entwickler, die komplexe Agenten-Workflows oder Aufgaben mit langem Kontext ausführen, ist die GPT-5-Basis unverzichtbar. Nur Forscher, die sich mit fortgeschrittenem Denken oder großen multimodalen Aufgaben befassen, benötigen GPT-5 Pro. Für die Stapelverarbeitung ist der asynchrone Modus der API 40 % günstiger. Wir empfehlen, für die Produktion mit GPT-5 Turbo zu beginnen.

Key Highlights

10 Million Token Context Window

Verarbeiten Sie ganze Buchtrilogien, vollständige Codebasen (z. B. Linux-Kernel) oder mehr als 12 Stunden Video in einer einzigen Eingabeaufforderung. Behält Kohärenz und Abrufgenauigkeit über 98 % bei, selbst bei maximaler Länge.

Native Multimodal Reasoning

Verstehen und generieren Sie Text, Bilder, Videos, Audio, 3D-Netze und sogar HTML/CSS-Layouts nativ. Keine separaten Vision- oder Sprachmodelle – alles in einer Architektur.

Autonomous Agentic Execution

GPT-5 kann Aufgaben wie das Buchen von Flügen, das Schreiben und Bereitstellen von Code, das Analysieren von Tabellenkalkulationen oder das Verwalten von Smart-Home-Geräten planen, ausführen und wiederholen – mit einer Erfolgsquote von 95 % beim GAIA-Benchmark.

1 Million Token Output

Generieren Sie ganze Romane, vollständige technische Dokumentationen oder komplette Softwareprojekte in einer einzigen Antwort. Der Streaming-Modus unterstützt Teilausgaben in Echtzeit.

Persistent Session Memory

Verschlüsselter Speicher, der über Gespräche hinweg erhalten bleibt – erinnern Sie sich an Benutzereinstellungen, laufende Projekte und vergangene Korrekturen, ohne erneut nachfragen zu müssen. Steuerbar über API-Flags.

Configurable Reasoning Depth

Tauschen Sie Geschwindigkeit gegen Genauigkeit mit dem Parameter „reasoning_steps“. Stellen Sie für komplexe Mathematik, Logik oder Planung einen Wert von 1 (schnell, ~200 ms) bis 512 (tiefes Denken, bis zu 30 Sekunden) ein.

Improved Safety & Constitutional AI

Die Gedankenkettenprüfung mit einer für Menschen lesbaren Verfassung reduziert schädliche Ausgaben um 92 % und falsche Ablehnungen um 78 % im Vergleich zu GPT-4 Turbo. Vollständiger Transparenzbericht verfügbar.

Function Calling 2.0

Parallele Toolaufrufe, automatische Fehlerwiederholungsversuche und die Möglichkeit für GPT-5, benutzerdefinierte Funktionen im laufenden Betrieb zu schreiben. Unterstützt nativ OpenAPI-Schemas und GraphQL-Endpunkte.

Pros

✓Der 10-M-Token-Kontext macht den meisten Abrufbedarf überflüssig
✓Nativer Multimodal spart erheblichen Integrationsaufwand
✓Agentenfunktionen reduzieren die menschliche Aufsicht bei der Automatisierung
✓Persistenter Speicher macht repetitives Kontext-Engineering überflüssig
✓Die konfigurierbare Argumentationstiefe ermöglicht Kompromisse zwischen Latenz und Genauigkeit
✓Deutlich niedrigere Rate falscher Ablehnungen (Verbesserung um 78 %)
✓Wettbewerbsfähige Preise für die Turbo-Variante (Eingabe von 5 $/Million)
✓Open-Source-Verfassungsprüfung für Transparenz
✓Abwärtskompatibel mit OpenAI API v1

Cons

✗GPT‑5 Pro ist für den großflächigen Einsatz extrem teuer
✗Selbsthosting ist außerhalb von Unternehmensverträgen nicht verfügbar
✗Argumentationstiefe >256 Schritte kann sehr langsam sein (>1 Minute)
✗Agentenfunktionen können Sicherheitsbedenken hervorrufen (Tool-Missbrauch)
✗Es gelten weiterhin Größenbeschränkungen für multimodale Eingaben (maximal 500 MB pro Datei).
✗Für einfache Chatbots oder einfache Zusammenfassungen kann es übertrieben sein

Frequently Asked Questions

Wann wird GPT-5 für die Öffentlichkeit verfügbar sein?

Die GPT-5-API startet am 20. Mai 2026. ChatGPT Plus- und Pro-Abonnenten erhalten Zugang am 22. Mai 2026. Benutzer des kostenlosen Kontingents erhalten ab 1. Juni 2026 GPT-5 Turbo (mit 128.000 Kontext).

Wie funktioniert die Preisgestaltung für den 10-Millionen-Token-Kontext?

Ihnen wird die Gesamtzahl der Eingabe-Tokens (einschließlich aller Text-, Bild-Tokens oder Audio-Tokens) und Ausgabe-Tokens in Rechnung gestellt. Das große Kontextfenster verursacht keine zusätzlichen Kosten, die über den Preis pro Token hinausgehen. Beispielsweise kostet eine Eingabeaufforderung mit 5 Millionen Token 5 Millionen × 15 US-Dollar pro Million = 75 US-Dollar für die GPT-5-Basis.

Kann ich GPT‑5 auf meinen eigenen Servern ausführen?

Die Bereitstellung vor Ort ist nur für Unternehmenskunden mit Volumenverpflichtungen (mindestens 500.000 USD/Jahr) verfügbar. Für die meisten Entwickler ist die Cloud-API die einzige Option. OpenAI hat auch eine Partnerschaft mit Microsoft Azure für dedizierte Instanzen geschlossen.

Welche Ratenbegrenzungen gibt es für die API?

Standardratenbegrenzungen: GPT-5-Basis: 200 Anfragen pro Minute (RPM), 2 Millionen Token pro Minute (TPM). GPT-5 Turbo: 1.000 U/min, 10 Millionen TPM. GPT-5 Pro: 50 U/min, 500.000 TPM. Höhere Limits können über das OpenAI-Dashboard angefordert werden.

Unterstützt GPT‑5 die Feinabstimmung?

Ja, die Feinabstimmung ist für die GPT-5-Basis- und Turbo-Varianten ab Juni 2026 verfügbar. Preis: 20 $ pro Million Trainingstoken für die Eingabe, 40 $ für die Ausgabe. Feinabgestimmte Modelle behalten das gleiche Kontextfenster und die gleichen multimodalen Funktionen.

Wie funktioniert der persistente Speicher?

Wenn Sie über die API eine „session_id“ erstellen, speichert GPT‑5 Schlüsselwertpaare, die über alle Anfragen hinweg, die diese Sitzungs-ID verwenden, bestehen bleiben. Sie können Speichereinträge programmgesteuert lesen, schreiben und löschen. Der Speicher wird im Ruhezustand verschlüsselt und läuft automatisch nach 90 Tagen Inaktivität ab (konfigurierbar).

#openai#gpt5#ai#large-language-model#machine-learning#multimodal#agentic-ai#generative-ai#news