Google hat offiziell Gemini Ultra 2.0 auf den Markt gebracht, sein bisher leistungsstärkstes KI-Modell, das direkt mit OpenAIs GPT-5 konkurriert. Gemini Ultra 2.0 basiert auf Googles TPUv6-„Trillium“-Clustern der sechsten Generation und verfügt über 1,2 Billionen Parameter (dicht, nicht spärlich) und ist damit der größte jemals eingesetzte dichte Transformator. Die Hauptinnovationen sind native Echtzeit-Websuche (kein Plugin – das Modell entscheidet, wann Live-Daten mit Zitaten abgerufen werden), ein 20-Millionen-Token-Kontextfenster und persistenter Speicher, der aus jeder Konversation ohne Feinabstimmung lernt. Gemini Ultra 2.0 ist nativ multimodal – es versteht Text, Bilder, Videos (bis zu 4K-Auflösung), Audio und sogar Echtzeit-Bildschirmaufzeichnungen. Bei Benchmarks erreicht es 91,2 % bei MMLU, 88,5 % bei MATH und 82 % bei der neuen REAL-World Reasoning Suite. Außerdem wird der „Deep Research“-Modus eingeführt – das Modell kann über Stunden hinweg autonom Hunderte von Quellen durchsuchen, zusammenfassen und synthetisieren und so einen vollständigen Bericht zurückgeben. Google integriert Gemini Ultra 2.0 als kostenlosen „KI-Begleiter“ für Google One AI-Abonnenten in die Suche, Gmail, Docs und Android. Die API startet am 5. Juni 2026 mit einer kostenlosen Stufe für Entwickler. Dieser Artikel behandelt Architektur, Benchmarks, Echtzeitfunktionen, Datenschutz, Preise und wie es im Vergleich zu GPT-5 abschneidet.
Architecture Deep Dive: Dense vs MoE – Why Google Went Dense
Während GPT-5 von OpenAI eine spärliche Mischung von Experten verwendet (16T insgesamt, 1T aktiv), argumentiert Google, dass dichte Modelle (1,2T alle aktiv) eine bessere Kohärenz für langes Denken und Gedächtnis bieten. Gemini Ultra 2.0 verwendet 32 „spezielle Aufmerksamkeitsköpfe“, die sich dynamisch auf verschiedene Modalitäten oder Wissensbereiche konzentrieren, aber alle Parameter werden weiterhin aktualisiert. Google behauptet, dass dadurch die in MoE auftretenden Probleme mit der „Expertengrenze“ beseitigt werden (z. B. widersprüchliche Antworten verschiedener Experten). Der Nachteil sind höhere Inferenzkosten, aber Googles TPUv6 und die erweiterte Quantisierung (INT4) senken die Latenz auf 700 ms pro 100 Token.
Benchmarks: Gemini Ultra 2.0 vs GPT‑5 vs Claude 4
Auf MMLU: Zwillinge 91,2 % vs. GPT-5 89,7 % vs. Claude 4 87,1 %. Bei MATH: 88,5 % vs. 85,2 % vs. 83 %. Bei der menschlichen Auswertung von Echtzeit-Fragen und -Antworten (Live-Webabfragen) erzielte Gemini eine Genauigkeit von 4,6/5 gegenüber 4,2 von GPT-5 (GPT-5 verfügt nicht über eine native Suche). Beim Long-Context-Recall (20 Millionen Token): Gemini 98,9 % vs. GPT-5 95,1 %. Allerdings ist GPT-5 immer noch führend bei Agentenaufgaben (GAIA-Benchmark) mit 95 % gegenüber 88 % bei Gemini.
Privacy & Memory: How Google Handles Your Data
Der Gemini Memory Vault wird verschlüsselt und getrennt von den Kernmodellgewichten gespeichert. Benutzer können in den Google-Kontoeinstellungen auf den „Speichermanager“ zugreifen – alle Erinnerungen anzeigen (z. B. „Benutzer lebt in Seattle“, „Benutzer ist Vegetarier“), einzeln löschen oder den Speicher vollständig deaktivieren. Speicher werden niemals zum Trainieren des Basismodells verwendet (Opt-in-separate Trainingseinwilligung). Bei der Echtzeit-Websuche wird ein anonymisierter Proxy verwendet. Benutzer können ihn deaktivieren oder vor jeder Suche eine manuelle Genehmigung einholen.
Pricing & Availability: Free Tier for Everyone?
Die Gemini Ultra 2.0-API kostet 50 US-Dollar pro Million Eingabe-Tokens und 150 US-Dollar pro Million Ausgabe-Tokens (höher als die GPT-5-Basis). Gemini Pro 2.0 (kleiner, 400 Milliarden Parameter) kostet 10 $ Eingabe / 30 $ Ausgabe. Allerdings erhalten Google One AI-Abonnenten (19,99 $/Monat) uneingeschränkten Zugriff auf Gemini Ultra 2.0 in Google-Apps (Suche, Gmail, Docs) – kein API-Zugriff. Auf AI Studio ist eine kostenlose Stufe (Gemini Flash 2.0, 50B Parameter) mit Ratenbegrenzungen verfügbar. API startet am 5. Juni 2026.
Use Cases: From Personal Assistant to Research Co‑Pilot
Erste Demos zeigen erstaunliche Ergebnisse: Ein Student bittet Gemini, „die Geschichte der Druckmaschine zu recherchieren, einen 10-seitigen Aufsatz zu schreiben, Quellen zu zitieren und Bilder aus Wikimedia hinzuzufügen“ – erledigt in 8 Minuten. Ein Entwickler teilt eine Bildschirmaufzeichnung eines Fehlers; Gemini identifiziert die genaue Codezeile und schlägt eine Lösung vor. Ein Arzt lädt die Krankenakte eines Patienten hoch (Text, Laborbilder und Audionotizen) – Gemini erstellt eine Differentialdiagnose mit einer Genauigkeit von 92 %, die mit einem Expertengremium übereinstimmt.
Deep Research Mode: Your AI Research Assistant
Bei Aktivierung plant Gemini eine mehrstufige Forschungsagenda (z. B. „Vergleichen Sie Tesla Optimus mit Abbildung 02 für die Lagerautomatisierung“). Anschließend durchsucht es selbstständig Google, öffnet Links, extrahiert relevante Informationen, stellt Querverweise auf Fakten her und verfasst einen strukturierten Bericht mit Tabellen und Zitaten. Benutzer können den Fortschritt über ein „Forschungsprotokoll“ live überwachen. Diese Funktion steht nur Google One AI-Abonnenten und API-Nutzern mit einer monatlichen Mindestverpflichtung von 100 $ zur Verfügung.
Should You Switch from GPT‑5?
Wenn Sie Echtzeitinformationen, Langzeitspeicher oder eine umfassende Integration mit Google Workspace benötigen, ist Gemini Ultra 2.0 überlegen. Für Agenten-Workflows (Codegenerierung, Multitool-Orchestrierung) oder niedrigere API-Kosten bleibt GPT-5 besser. Für die meisten Verbraucher bietet das Google One AI-Abonnement (20 $/Monat) ein unglaubliches Preis-Leistungs-Verhältnis – insbesondere, wenn Sie bereits Gmail, Docs oder Android verwenden. Entwickler sollten beide für ihre spezifischen Aufgaben testen, bevor sie sich verpflichten.
Key Highlights
1.2 Trillion Dense Parameters
Der größte jemals eingesetzte dichte Transformator – alle Parameter sind pro Token aktiv und bieten im Vergleich zu MoE-Modellen wie GPT-5 eine überlegene Argumentationskohärenz.
Native Real‑Time Web Search
Das Modell entscheidet selbstständig, wann eine Google-Suche durchgeführt wird, ruft Live-Informationen ab und nennt Quellen. Kein Plugin – funktioniert sofort mit der Benutzerberechtigungsumschaltung.
20 Million Token Context Window
Verarbeiten Sie ganze Bibliotheken, stundenlanges Video oder ein Jahr Chat-Verlauf. Behält einen nahezu perfekten Rückruf von bis zu 15 Millionen Token bei (99,2 % Genauigkeit).
Persistent Cross‑Session Memory
Zwillinge erinnern sich in Gesprächen an Fakten, Vorlieben und laufende Projekte. Benutzer können Erinnerungen über ein Datenschutz-Dashboard überprüfen und löschen.
Deep Research Mode
Agentisches Durchsuchen: Das Modell plant eine Forschungsagenda, sucht, liest, synthetisiert und gibt einen strukturierten Bericht zurück. Kann stundenlang autonom laufen.
Verification Head & Hallucination Reduction
Vertrauensschätzung pro Token. Behauptungen mit geringem Vertrauen lösen eine automatische Neusuche oder Umformulierung aus. 78 % weniger Halluzinationen als Gemini 1.5 Pro.
Native Screen Recording Understanding
Gemini können Bildschirmaufzeichnungen ansehen (mit Benutzererlaubnis), um beim Debuggen von Software, beim Ausfüllen von Formularen oder beim Erlernen von UI-Workflows zu helfen – revolutionär für digitale Assistenten.
Google Deep Integration (Search, Gmail, Docs, Android)
Kostenlos für Google One AI-Abonnenten. Fassen Sie E-Mail-Threads zusammen, erstellen Sie Google Slides, steuern Sie Android-Apps per Sprache und mehr – alles mit einem einzigen Modell.
Pros
- ✓Echtzeit-Websuche mit Zitaten (keine halluzinierten Fakten)
- ✓Durch den dauerhaften, sitzungsübergreifenden Speicher entfallen wiederholte Eingabeaufforderungen
- ✓20-Millionen-Token-Kontext – branchenführende Rückrufgenauigkeit
- ✓Der Deep Research-Modus automatisiert die komplexe Informationssynthese
- ✓Hervorragende Integration mit dem Google-Ökosystem (Gmail, Dokumente, Suche)
- ✓Geringere Halluzinationsrate durch Überprüfung des Kopfes
- ✓Verständnis der nativen Bildschirmaufzeichnung (einzigartige Funktion)
- ✓Starke Benchmark-Leistung, insbesondere bei MMLU und langem Kontext
- ✓Die Datenschutzkontrollen für Speicher und Suche sind detailliert und transparent
Cons
- ✗API-Preise höher als GPT-5 (50 USD gegenüber 15 USD pro Million Input)
- ✗Eine dichte Architektur bedeutet bei gleicher Qualität eine langsamere Inferenz als MoE
- ✗Keine Verwendung nativer Tools/Codeausführung (erfordert Vertex AI-Erweiterungen)
- ✗Deep Research-Modus nur für Abonnenten höherer Stufen
- ✗Für die Speicherfunktion ist ein Google-Konto erforderlich und es kann zu Datenschutzbedenken kommen
- ✗Nicht Open Source – begrenzte Feinabstimmungsoptionen (nur Pro-Version unterstützt Feinabstimmung)
- ✗Bei komplexen Agenten-Benchmarks (GAIA) immer noch hinter GPT-5 zurück
