Google a officiellement lancé Gemini Ultra 2.0, son modèle d'IA le plus puissant à ce jour, en concurrence directe avec le GPT-5 d'OpenAI. Construit sur les clusters TPUv6 « Trillium » de sixième génération de Google, Gemini Ultra 2.0 présente 1 200 milliards de paramètres (denses, non clairsemés), ce qui en fait le plus grand transformateur dense jamais déployé. Les principales innovations sont la recherche Web native en temps réel (pas de plug-in : le modèle décide quand extraire les données en direct, avec des citations), une fenêtre contextuelle de 20 millions de jetons et une mémoire persistante qui apprend de chaque conversation sans réglage fin. Gemini Ultra 2.0 est nativement multimodal : il comprend le texte, les images, la vidéo (jusqu'à une résolution 4K), l'audio et même les enregistrements d'écran en temps réel. Sur les benchmarks, il obtient 91,2 % sur MMLU, 88,5 % sur MATH et 82 % sur la nouvelle suite de raisonnement du monde RÉEL. Il introduit également le mode « Recherche approfondie » : le modèle peut parcourir, résumer et synthétiser de manière autonome des centaines de sources pendant des heures, renvoyant ainsi un rapport complet. Google intègre Gemini Ultra 2.0 dans Search, Gmail, Docs et Android en tant que « compagnon IA » gratuit pour les abonnés Google One AI. L'API sera lancée le 5 juin 2026 avec un niveau gratuit pour les développeurs. Cet article couvre l'architecture, les benchmarks, les capacités en temps réel, la confidentialité, les prix et comment ils se comparent à GPT‑5.
Architecture Deep Dive: Dense vs MoE – Why Google Went Dense
Alors que le GPT‑5 d’OpenAI utilise un mélange d’experts clairsemé (16 T au total, 1 T actif), Google affirme que les modèles denses (1,2 T tous actifs) offrent une meilleure cohérence pour le raisonnement et la mémoire de longue durée. Gemini Ultra 2.0 utilise 32 « têtes d'attention spécialisées » qui se concentrent dynamiquement sur différentes modalités ou domaines de connaissances, mais tous les paramètres sont toujours mis à jour. Google affirme que cela élimine les problèmes de « limite d’expertise » observés dans le ministère de l’Environnement (par exemple, les réponses contradictoires de différents experts). Le compromis est un coût d'inférence plus élevé, mais le TPUv6 et la quantification avancée (INT4) de Google réduisent la latence à 700 ms pour 100 jetons.
Benchmarks: Gemini Ultra 2.0 vs GPT‑5 vs Claude 4
Sur MMLU : Gémeaux 91,2 % contre GPT‑5 89,7 % contre Claude 4 87,1 %. En MATH : 88,5% contre 85,2% contre 83%. Lors de l'évaluation humaine des questions et réponses en temps réel (requêtes Web en direct), Gemini a obtenu un score de 4,6/5 pour la précision, contre 4,2 pour GPT-5 (GPT-5 n'a pas de recherche native). Sur rappel de contexte long (20 millions de jetons) : Gemini 98,9 % contre GPT‑5 95,1 %. Cependant, GPT‑5 est toujours en tête sur les tâches agentiques (référence GAIA) à 95 % contre 88 % pour Gemini.
Privacy & Memory: How Google Handles Your Data
Le Gemini Memory Vault est crypté et stocké séparément des poids du modèle principal. Les utilisateurs peuvent accéder au « Gestionnaire de mémoire » dans les paramètres du compte Google : afficher tous les souvenirs (par exemple, « l'utilisateur vit à Seattle », « l'utilisateur est végétarien »), les supprimer individuellement ou désactiver complètement la mémoire. Les mémoires ne sont jamais utilisées pour entraîner le modèle de base (consentement d'entraînement séparé opt-in). La recherche Web en temps réel utilise un proxy anonymisé et les utilisateurs peuvent le désactiver ou exiger une approbation manuelle avant chaque recherche.
Pricing & Availability: Free Tier for Everyone?
L'API Gemini Ultra 2.0 coûte 50 $ par million de jetons d'entrée, 150 $ par million de jetons de sortie (supérieur à la base GPT‑5). Gemini Pro 2.0 (plus petit, 400 B de paramètres) coûte 10 $ en entrée / 30 $ en sortie. Cependant, les abonnés Google One AI (19,99 $/mois) bénéficient d'un accès illimité à Gemini Ultra 2.0 dans les applications Google (Recherche, Gmail, Docs) – pas d'accès API. Un niveau gratuit (Gemini Flash 2.0, paramètres 50B) est disponible sur AI Studio avec des limites de débit. L'API sera lancée le 5 juin 2026.
Use Cases: From Personal Assistant to Research Co‑Pilot
Les premières démos montrent des résultats étonnants : un étudiant demande à Gemini de « faire des recherches sur l’histoire de l’imprimerie, de rédiger un essai de 10 pages, de citer des sources et d’ajouter des images de Wikimédia » – le tout en 8 minutes. Un développeur partage un enregistrement d'écran d'un bug ; Gemini identifie la ligne exacte de code et suggère un correctif. Un médecin télécharge le dossier d’un patient (texte, images de laboratoire et notes audio) – Gemini génère un diagnostic différentiel avec une précision de 92 % correspondant à un panel de spécialistes.
Deep Research Mode: Your AI Research Assistant
Lorsqu'il est activé, Gemini planifie un programme de recherche en plusieurs étapes (par exemple, « comparez Tesla Optimus à la figure 02 pour l'automatisation des entrepôts »). Il effectue ensuite une recherche autonome sur Google, ouvre des liens, extrait des informations pertinentes, croise les faits et rédige un rapport structuré avec des tableaux et des citations. Les utilisateurs peuvent suivre les progrès en direct via un « journal de recherche ». Cette fonctionnalité est disponible uniquement pour les abonnés Google One AI et les utilisateurs de l'API avec un engagement mensuel minimum de 100 $.
Should You Switch from GPT‑5?
Si vous avez besoin d'informations en temps réel, de mémoire à long terme ou d'une intégration approfondie avec Google Workspace, Gemini Ultra 2.0 est supérieur. Pour les workflows agents (génération de code, orchestration multi-outils) ou un coût d'API inférieur, GPT‑5 reste meilleur. Pour la plupart des consommateurs, l'abonnement Google One AI (20 $/mois) offre une valeur incroyable, surtout si vous utilisez déjà Gmail, Docs ou Android. Les développeurs doivent tester les deux sur leurs tâches spécifiques avant de s'engager.
Key Highlights
1.2 Trillion Dense Parameters
Le plus grand transformateur dense jamais déployé : tous les paramètres sont actifs par jeton, offrant une cohérence de raisonnement supérieure à celle des modèles MoE comme GPT‑5.
Native Real‑Time Web Search
Le modèle décide de manière autonome quand effectuer une recherche sur Google, récupère des informations en direct et cite des sources. Aucun plugin – fonctionne immédiatement avec la bascule d'autorisation de l'utilisateur.
20 Million Token Context Window
Traitez des bibliothèques entières, des heures de vidéo ou un an d'historique de discussion. Maintient un rappel presque parfait jusqu'à 15 millions de jetons (précision de 99,2 %).
Persistent Cross‑Session Memory
Les Gémeaux se souviennent des faits, des préférences et des projets en cours au fil des conversations. Les utilisateurs peuvent consulter et supprimer des souvenirs via un tableau de bord de confidentialité.
Deep Research Mode
Navigation agentique : le modèle planifie un agenda de recherche, recherche, lit, synthétise et renvoie un rapport structuré. Peut fonctionner de manière autonome pendant des heures.
Verification Head & Hallucination Reduction
Estimation de la confiance par jeton. Les allégations peu fiables déclenchent une recherche ou une reformulation automatique. 78% d'hallucinations en moins que Gemini 1.5 Pro.
Native Screen Recording Understanding
Gemini peut regarder des enregistrements d'écran (avec l'autorisation de l'utilisateur) pour aider à déboguer des logiciels, à remplir des formulaires ou à apprendre les flux de travail de l'interface utilisateur, ce qui est révolutionnaire pour les assistants numériques.
Google Deep Integration (Search, Gmail, Docs, Android)
Gratuit pour les abonnés Google One AI. Résumez les fils de discussion, générez des Google Slides, contrôlez les applications Android via la voix, et bien plus encore, le tout avec un seul modèle.
Pros
- ✓Recherche Web en temps réel avec citations (pas de faits hallucinés)
- ✓La mémoire persistante entre sessions élimine les invites répétitives
- ✓Contexte de 20 millions de jetons – précision de rappel à la pointe du secteur
- ✓Le mode Deep Research automatise la synthèse d’informations complexes
- ✓Excellente intégration avec l'écosystème Google (Gmail, Docs, Search)
- ✓Taux d'hallucinations inférieur grâce à la tête de vérification
- ✓Compréhension native de l'enregistrement d'écran (fonctionnalité unique)
- ✓Forte performance de référence, notamment sur MMLU et contexte long
- ✓Les contrôles de confidentialité pour la mémoire et la recherche sont granulaires et transparents
Cons
- ✗Prix de l'API supérieur à GPT‑5 (50 $ contre 15 $ par million d'entrées)
- ✗Une architecture dense signifie une inférence plus lente que MoE pour la même qualité
- ✗Aucune utilisation d'outil natif/exécution de code (nécessite les extensions Vertex AI)
- ✗Mode Recherche approfondie uniquement pour les abonnés de niveau supérieur
- ✗La fonctionnalité de mémoire nécessite un compte Google et peut soulever des problèmes de confidentialité
- ✗Non open source – options de réglage fin limitées (seule la version Pro prend en charge le réglage fin)
- ✗Toujours en retard sur GPT‑5 sur les benchmarks agents complexes (GAIA)
