Google Gemini Ultra 2.0: The First Trillion‑Parameter Model with Real‑Time Web & Infinite Memory

Google официально представила Gemini Ultra 2.0, свою самую мощную на сегодняшний день модель искусственного интеллекта, напрямую конкурирующую с GPT‑5 от OpenAI. Gemini Ultra 2.0, созданный на основе кластеров Google TPUv6 «Trillium» шестого поколения, имеет 1,2 триллиона параметров (плотных, а не разреженных), что делает его самым большим плотным преобразователем, когда-либо развернутым. Главными нововведениями являются собственный веб-поиск в режиме реального времени (без плагинов — модель сама решает, когда извлекать актуальные данные с цитатами), контекстное окно на 20 миллионов токенов и постоянная память, которая учится на основе каждого разговора без тонкой настройки. Gemini Ultra 2.0 изначально мультимодален: он понимает текст, изображения, видео (с разрешением до 4K), аудио и даже записи экрана в реальном времени. По результатам тестов он набрал 91,2% по MMLU, 88,5% по MATH и 82% по новому пакету рассуждений REAL-world. Он также представляет режим «Глубокого исследования» — модель может автономно просматривать, обобщать и синтезировать данные из сотен источников в течение нескольких часов, возвращая полный отчет. Google интегрирует Gemini Ultra 2.0 в Поиск, Gmail, Документы и Android в качестве бесплатного «ИИ-компаньона» для подписчиков Google One AI. API запускается 5 июня 2026 г. с бесплатным уровнем для разработчиков. В этой статье рассказывается об архитектуре, тестах, возможностях работы в режиме реального времени, конфиденциальности, ценах и о том, как она соотносится с GPT‑5.

Architecture Deep Dive: Dense vs MoE – Why Google Went Dense

В то время как GPT-5 OpenAI использует разреженную смесь экспертов (всего 16T, 1T активных), Google утверждает, что плотные модели (1,2T все активны) обеспечивают лучшую согласованность для длинных рассуждений и памяти. Gemini Ultra 2.0 использует 32 «головы специализированного внимания», которые динамически фокусируются на различных модальностях или областях знаний, но все параметры по-прежнему обновляются. Google утверждает, что это устраняет проблемы «экспертных границ», наблюдаемые в МО (например, противоречивые ответы разных экспертов). Компромиссом является более высокая стоимость вывода, но TPUv6 от Google и расширенное квантование (INT4) сокращают задержку до 700 мс на 100 токенов.

Benchmarks: Gemini Ultra 2.0 vs GPT‑5 vs Claude 4

По MMLU: Близнецы 91,2% против GPT‑5 89,7% против Клода 4 87,1%. По МАТЕМАТИКЕ: 88,5% против 85,2% против 83%. При оценке человеком вопросов и ответов в реальном времени (живые веб-запросы) Gemini набрала 4,6 балла из 5 за точность по сравнению с 4,2 балла у GPT-5 (в GPT-5 отсутствует встроенный поиск). При долгом контекстном отзыве (20 миллионов токенов): Gemini 98,9% против GPT‑5 95,1%. Тем не менее, GPT‑5 по-прежнему лидирует по агентским задачам (тест GAIA) с результатом 95 % против 88 % у Gemini.

Privacy & Memory: How Google Handles Your Data

Хранилище памяти Gemini зашифровано и хранится отдельно от весов основных моделей. Пользователи могут получить доступ к «Диспетчеру памяти» в настройках учетной записи Google — просмотреть все воспоминания (например, «пользователь живет в Сиэтле», «пользователь вегетарианец»), удалить их по отдельности или полностью отключить память. Воспоминания никогда не используются для обучения базовой модели (предоставьте отдельное согласие на обучение). Веб-поиск в режиме реального времени использует анонимный прокси-сервер, и пользователи могут отключить его или требовать ручного подтверждения перед каждым поиском.

Pricing & Availability: Free Tier for Everyone?

API Gemini Ultra 2.0 стоит 50 долларов США за миллион входных токенов и 150 долларов США за миллион выходных токенов (выше, чем базовая цена GPT-5). Gemini Pro 2.0 (меньший размер, 400 млрд параметров) стоит 10 долларов США на входе/30 долларов США на выходе. Однако подписчики Google One AI (19,99 долларов США в месяц) получают неограниченный доступ к Gemini Ultra 2.0 в приложениях Google (Поиск, Gmail, Документы) — без доступа к API. Уровень бесплатного пользования (Gemini Flash 2.0, параметры 50 Б) доступен в AI Studio с ограничениями по скорости. API запускается 5 июня 2026 г.

Use Cases: From Personal Assistant to Research Co‑Pilot

Первые демонстрации показывают поразительные результаты: студент просит Gemini «изучить историю печатного станка, написать 10-страничное эссе, процитировать источники и добавить изображения из Викимедиа» — все это делается за 8 минут. Разработчик делится записью экрана с ошибкой; Gemini идентифицирует точную строку кода и предлагает исправление. Врач загружает карту пациента (текст, лабораторные изображения и аудиозаметки) — Gemini генерирует дифференциальный диагноз с точностью 92%, соответствующий панели специалистов.

Deep Research Mode: Your AI Research Assistant

При активации Gemini планирует многоэтапную программу исследований (например, «сравните Tesla Optimus и рисунок 02 для автоматизации складов»). Затем он автономно выполняет поиск в Google, открывает ссылки, извлекает соответствующую информацию, делает перекрестные ссылки на факты и пишет структурированный отчет с таблицами и цитатами. Пользователи могут отслеживать прогресс в режиме реального времени с помощью «журнала исследований». Эта функция доступна только подписчикам Google One AI и пользователям API с минимальным ежемесячным взносом в 100 долларов США.

Should You Switch from GPT‑5?

Если вам нужна информация в реальном времени, долговременная память или глубокая интеграция с Google Workspace, Gemini Ultra 2.0 — лучший выбор. Для агентских рабочих процессов (генерация кода, оркестровка нескольких инструментов) или более низкой стоимости API GPT-5 остается лучше. Для большинства потребителей подписка Google One AI (20 долларов США в месяц) предлагает невероятную ценность, особенно если вы уже используете Gmail, Docs или Android. Разработчикам следует протестировать оба варианта на своих конкретных задачах перед принятием решения.

Key Highlights

1.2 Trillion Dense Parameters

Самый большой из когда-либо применявшихся преобразователей с высокой плотностью — все параметры активны для каждого токена, что обеспечивает превосходную согласованность рассуждений по сравнению с моделями MoE, такими как GPT-5.

Native Real‑Time Web Search

Модель самостоятельно решает, когда искать в Google, извлекает актуальную информацию и цитирует источники. Нет плагина – работает «из коробки» с переключением прав пользователя.

20 Million Token Context Window

Обрабатывайте целые библиотеки, часы видео или историю чатов за год. Обеспечивает почти идеальный отзыв до 15 миллионов токенов (точность 99,2%).

Persistent Cross‑Session Memory

Близнецы запоминают факты, предпочтения и текущие проекты во время разговоров. Пользователи могут просматривать и удалять воспоминания через панель конфиденциальности.

Deep Research Mode

Агентический просмотр: модель планирует программу исследований, ищет, читает, синтезирует и возвращает структурированный отчет. Может работать автономно часами.

Verification Head & Hallucination Reduction

Оценка достоверности для каждого токена. Заявления с низким уровнем достоверности вызывают автоматическое исследование или перефразирование. На 78% меньше галлюцинаций, чем у Gemini 1.5 Pro.

Native Screen Recording Understanding

Gemini может просматривать записи экрана (с разрешения пользователя), чтобы помочь в отладке программного обеспечения, заполнении форм или изучении рабочих процессов пользовательского интерфейса — революционное решение для цифровых помощников.

Google Deep Integration (Search, Gmail, Docs, Android)

Бесплатно для подписчиков Google One AI. Обобщайте цепочки электронных писем, создавайте слайды Google, управляйте приложениями Android с помощью голоса и многое другое — и все это с помощью одной модели.

Pros

✓Веб-поиск в режиме реального времени с цитатами (без галлюцинаторных фактов)
✓Постоянная память между сеансами исключает повторяющиеся запросы
✓Контекст из 20 миллионов токенов – лучшая в отрасли точность отзыва
✓Режим Deep Research автоматизирует сложный синтез информации
✓Отличная интеграция с экосистемой Google (Gmail, Документы, Поиск)
✓Более низкий уровень галлюцинаций благодаря проверочной головке
✓Встроенное понимание записи экрана (уникальная функция)
✓Высокие результаты тестов, особенно на MMLU и в длинном контексте.
✓Элементы управления конфиденциальностью для памяти и поиска являются детализированными и прозрачными.

Cons

✗Цены на API выше, чем у GPT‑5 (50 долларов США против 15 долларов США за миллион входных данных).
✗Плотная архитектура означает более медленный вывод, чем MoE, при том же качестве
✗Не требуется использование собственных инструментов/исполнение кода (требуются расширения Vertex AI)
✗Режим глубокого исследования только для подписчиков более высокого уровня.
✗Функция памяти требует учетной записи Google и может вызвать проблемы конфиденциальности.
✗Не открытый исходный код — ограниченные возможности тонкой настройки (тонкую настройку поддерживает только версия Pro)
✗Все еще отстает от GPT‑5 по сложным агентным тестам (GAIA)

Frequently Asked Questions

Когда Gemini Ultra 2.0 станет общедоступной?

API будет запущен 5 июня 2026 г.. Подписчики Google One AI получат доступ к приложениям Google (Поиск, Gmail, Документы, Android) 10 июня 2026 г.. Бесплатная пробная версия Gemini Ultra 2.0 (10 запросов в день) доступна через Google AI Studio начиная с 15 июня.

Как поиск в Интернете в режиме реального времени влияет на конфиденциальность?

Поисковые запросы анонимны и не связаны с вашей учетной записью Google, если вы не вошли в Google One AI (в этом случае они могут использоваться для персонализации результатов, но вы можете отключить это в настройках). Вы также можете установить режим «ручного одобрения», в котором Gemini запрашивает перед каждым поиском.

Могу ли я использовать Gemini Ultra 2.0 в автономном режиме?

Нет. Полная модель работает на кластерах Google TPU. Однако позднее в 2026 году Google выпустит версию Gemini Nano 2.0 (на устройстве, параметры 7B) для устройств Android — она поддерживает базовую память и автономный поиск локальных файлов.

Какие языки программирования поддерживает Gemini Ultra 2.0 для генерации кода?

Он был обучен на более чем 120 языках, наилучшая производительность которого достигнута на Python, JavaScript, TypeScript, Go, Rust, C++, Java и SQL. Он также понимает сценарии оболочки, Dockerfiles и YAML. Головка проверки может запускать простой код в «песочнице» (требуется интеграция Vertex AI).

Есть ли возможность тонкой настройки для бизнеса?

Да, Gemini Pro 2.0 поддерживает тонкую настройку с помощью Vertex AI. Gemini Ultra 2.0 пока недоступен для тонкой настройки, но Google планирует представить «адаптеры» (тонкую настройку с малыми параметрами) в третьем квартале 2026 года. Свяжитесь с Google Cloud для настройки корпоративного уровня.

Как постоянная память обрабатывает конфиденциальные данные?

Воспоминания хранятся в зашифрованном виде и доступны модели только во время активных разговоров. Вы можете удалить отдельные воспоминания, полностью отключить память или установить автоматическое истечение срока действия (например, удалить все воспоминания через 30 дней). Google не использует воспоминания для обучения базовой модели без явного согласия.

#google#gemini#gemini-ultra-2#ai#large-language-model#multimodal#real-time-search#google-one-ai#news