Google Gemini Ultra 2.0: The First Trillion‑Parameter Model with Real‑Time Web & Infinite Memory

Google đã chính thức ra mắt Gemini Ultra 2.0, mẫu AI mạnh nhất tính đến thời điểm hiện tại, cạnh tranh trực tiếp với GPT‑5 của OpenAI. Được xây dựng trên cụm 'Trillium' TPUv6 thế hệ thứ sáu của Google, Gemini Ultra 2.0 có 1,2 nghìn tỷ tham số (dày đặc, không thưa thớt), khiến nó trở thành máy biến áp dày đặc lớn nhất từng được triển khai. Những đổi mới nổi bật là tìm kiếm web thời gian thực gốc (không có plugin – mô hình quyết định thời điểm lấy dữ liệu trực tiếp, kèm theo trích dẫn), cửa sổ ngữ cảnh 20 triệu mã thông báo và bộ nhớ liên tục học hỏi từ mỗi cuộc trò chuyện mà không cần tinh chỉnh. Gemini Ultra 2.0 bản chất là đa phương thức – nó hiểu được văn bản, hình ảnh, video (độ phân giải lên tới 4K), âm thanh và thậm chí cả bản ghi màn hình theo thời gian thực. Về điểm chuẩn, nó đạt 91,2% trên MMLU, 88,5% trên MATH và 82% trên bộ lý luận THỰC TẾ mới. Nó cũng giới thiệu chế độ 'Nghiên cứu sâu' - mô hình có thể tự động duyệt, tóm tắt và tổng hợp từ hàng trăm nguồn trong nhiều giờ, trả về một báo cáo đầy đủ. Google đang tích hợp Gemini Ultra 2.0 vào Tìm kiếm, Gmail, Tài liệu và Android dưới dạng 'người bạn đồng hành AI' miễn phí cho những người đăng ký Google One AI. API ra mắt vào ngày 5 tháng 6 năm 2026, với cấp độ miễn phí dành cho nhà phát triển. Bài viết này đề cập đến kiến trúc, điểm chuẩn, khả năng thời gian thực, quyền riêng tư, giá cả và cách nó so sánh với GPT-5.

Architecture Deep Dive: Dense vs MoE – Why Google Went Dense

Trong khi GPT‑5 của OpenAI sử dụng Hỗn hợp chuyên gia thưa thớt (tổng cộng 16T, hoạt động 1T), Google lập luận rằng các mô hình dày đặc (1,2T tất cả hoạt động) mang lại sự gắn kết tốt hơn cho lý luận và trí nhớ dạng dài. Gemini Ultra 2.0 sử dụng 32 'đầu chú ý chuyên môn' tập trung linh hoạt vào các phương thức hoặc lĩnh vực kiến thức khác nhau nhưng tất cả các thông số vẫn được cập nhật. Google tuyên bố điều này giúp loại bỏ các vấn đề về 'ranh giới chuyên gia' được thấy trong MoE (ví dụ: các câu trả lời trái ngược nhau từ các chuyên gia khác nhau). Sự đánh đổi là chi phí suy luận cao hơn, nhưng TPUv6 và lượng tử hóa nâng cao (INT4) của Google giúp giảm độ trễ xuống 700 mili giây trên 100 mã thông báo.

Benchmarks: Gemini Ultra 2.0 vs GPT‑5 vs Claude 4

Trên MMLU: Gemini 91,2% so với GPT‑5 89,7% so với Claude 4 87,1%. Về môn TOÁN: 88,5% so với 85,2% so với 83%. Khi đánh giá con người về phần Hỏi & Đáp theo thời gian thực (truy vấn web trực tiếp), Gemini đạt điểm 4,6/5 về độ chính xác so với 4,2 của GPT‑5 (GPT‑5 thiếu tìm kiếm gốc). Khi thu hồi theo ngữ cảnh dài (20 triệu mã thông báo): Gemini 98,9% so với GPT‑5 95,1%. Tuy nhiên, GPT‑5 vẫn dẫn đầu về các nhiệm vụ tác nhân (điểm chuẩn GAIA) ở mức 95% so với 88% của Gemini.

Privacy & Memory: How Google Handles Your Data

Gemini Memory Vault được mã hóa và lưu trữ riêng biệt với trọng lượng mô hình cốt lõi. Người dùng có thể truy cập 'Trình quản lý bộ nhớ' trong cài đặt Tài khoản Google - xem tất cả kỷ niệm (ví dụ: 'người dùng sống ở Seattle', 'người dùng ăn chay'), xóa riêng lẻ hoặc tắt hoàn toàn bộ nhớ. Bộ nhớ không bao giờ được sử dụng để đào tạo mô hình cơ sở (chọn tham gia đồng ý đào tạo riêng). Tìm kiếm trên web thời gian thực sử dụng proxy ẩn danh và người dùng có thể tắt proxy này hoặc yêu cầu phê duyệt thủ công trước mỗi lần tìm kiếm.

Pricing & Availability: Free Tier for Everyone?

API Gemini Ultra 2.0 có giá 50 USD trên một triệu mã thông báo đầu vào, 150 USD trên một triệu mã thông báo đầu ra (cao hơn cơ sở GPT‑5). Gemini Pro 2.0 (nhỏ hơn, thông số 400B) có giá đầu vào là 10 USD / đầu ra là 30 USD. Tuy nhiên, những người đăng ký Google One AI ($19,99/tháng) có quyền truy cập không giới hạn vào Gemini Ultra 2.0 trong các ứng dụng Google (Tìm kiếm, Gmail, Tài liệu) – không có quyền truy cập API. Cấp miễn phí (Gemini Flash 2.0, thông số 50B) có sẵn trên AI Studio với giới hạn tốc độ. API ra mắt vào ngày 5 tháng 6 năm 2026.

Use Cases: From Personal Assistant to Research Co‑Pilot

Các bản demo ban đầu cho thấy kết quả đáng kinh ngạc: một sinh viên yêu cầu Gemini 'nghiên cứu lịch sử của ngành in ấn, viết một bài luận dài 10 trang, trích dẫn nguồn và thêm hình ảnh từ Wikimedia' - thực hiện trong 8 phút. Nhà phát triển chia sẻ bản ghi màn hình của lỗi; Gemini xác định dòng mã chính xác và đề xuất cách khắc phục. Một bác sĩ tải lên biểu đồ của bệnh nhân (văn bản, hình ảnh phòng thí nghiệm và ghi chú âm thanh) - Gemini tạo ra chẩn đoán phân biệt với độ chính xác 92% phù hợp với hội đồng chuyên khoa.

Deep Research Mode: Your AI Research Assistant

Khi được kích hoạt, Gemini lập kế hoạch cho một chương trình nghiên cứu gồm nhiều bước (ví dụ: 'so sánh Tesla Optimus với Hình 02 về tự động hóa kho hàng'). Sau đó, nó tự động tìm kiếm trên Google, mở các liên kết, trích xuất thông tin có liên quan, tham khảo chéo các sự kiện và viết báo cáo có cấu trúc với các bảng và trích dẫn. Người dùng có thể theo dõi tiến trình trực tiếp thông qua ‘nhật ký nghiên cứu’. Tính năng này chỉ khả dụng với những người đăng ký Google One AI và người dùng API với cam kết hàng tháng tối thiểu 100 USD.

Should You Switch from GPT‑5?

Nếu bạn cần thông tin theo thời gian thực, bộ nhớ dài hạn hoặc tích hợp sâu với Google Workspace thì Gemini Ultra 2.0 sẽ vượt trội hơn. Đối với quy trình làm việc tác nhân (tạo mã, điều phối nhiều công cụ) hoặc chi phí API thấp hơn, GPT-5 vẫn tốt hơn. Đối với hầu hết người tiêu dùng, gói đăng ký Google One AI ($20/tháng) mang lại giá trị đáng kinh ngạc – đặc biệt nếu bạn đã sử dụng Gmail, Docs hoặc Android. Các nhà phát triển nên kiểm tra cả hai nhiệm vụ cụ thể của mình trước khi cam kết.

Key Highlights

1.2 Trillion Dense Parameters

Máy biến áp dày đặc lớn nhất từng được triển khai – tất cả các thông số hoạt động trên mỗi mã thông báo, mang lại sự mạch lạc lý luận vượt trội so với các mô hình MoE như GPT‑5.

Native Real‑Time Web Search

Mô hình tự động quyết định thời điểm tìm kiếm trên Google, truy xuất thông tin trực tiếp và trích dẫn nguồn. Không có plugin - hoạt động tốt với sự chuyển đổi quyền của người dùng.

20 Million Token Context Window

Xử lý toàn bộ thư viện, hàng giờ video hoặc lịch sử trò chuyện trong một năm. Duy trì khả năng thu hồi gần như hoàn hảo lên tới 15 triệu mã thông báo (độ chính xác 99,2%).

Persistent Cross‑Session Memory

Song Tử ghi nhớ các sự kiện, sở thích và các dự án đang diễn ra trong các cuộc trò chuyện. Người dùng có thể xem lại và xóa kỷ niệm thông qua bảng điều khiển quyền riêng tư.

Deep Research Mode

Duyệt tác nhân: mô hình lập kế hoạch chương trình nghiên cứu, tìm kiếm, đọc, tổng hợp và trả về một báo cáo có cấu trúc. Có thể chạy tự động trong nhiều giờ.

Verification Head & Hallucination Reduction

Ước tính độ tin cậy trên mỗi mã thông báo. Những tuyên bố có độ tin cậy thấp kích hoạt việc tự động tìm kiếm hoặc diễn đạt lại. Ít ảo giác hơn 78% so với Gemini 1.5 Pro.

Native Screen Recording Understanding

Gemini có thể xem các bản ghi màn hình (với sự cho phép của người dùng) để giúp gỡ lỗi phần mềm, điền biểu mẫu hoặc tìm hiểu quy trình làm việc trên giao diện người dùng – mang tính cách mạng dành cho trợ lý kỹ thuật số.

Google Deep Integration (Search, Gmail, Docs, Android)

Miễn phí cho người đăng ký Google One AI. Tóm tắt các chuỗi email, tạo Google Trang trình bày, điều khiển ứng dụng Android qua giọng nói và hơn thế nữa – tất cả chỉ bằng một mô hình duy nhất.

Pros

✓Tìm kiếm trên web theo thời gian thực có trích dẫn (không có sự thật ảo giác)
✓Bộ nhớ phiên liên tục giúp loại bỏ việc nhắc nhở lặp đi lặp lại
✓Bối cảnh 20 triệu mã thông báo – độ chính xác thu hồi hàng đầu trong ngành
✓Chế độ Deep Research tự động tổng hợp thông tin phức tạp
✓Tích hợp tuyệt vời với hệ sinh thái Google (Gmail, Docs, Search)
✓Tỷ lệ ảo giác thấp hơn do có đầu xác minh
✓Hiểu biết về ghi màn hình gốc (tính năng độc đáo)
✓Hiệu suất điểm chuẩn mạnh mẽ, đặc biệt là trên MMLU và bối cảnh dài
✓Kiểm soát quyền riêng tư cho bộ nhớ và tìm kiếm rất chi tiết và minh bạch

Cons

✗Giá API cao hơn GPT‑5 ($50 so với $15 trên một triệu đầu vào)
✗Kiến trúc dày đặc có nghĩa là suy luận chậm hơn MoE với cùng chất lượng
✗Không sử dụng công cụ gốc/thực thi mã (yêu cầu phần mở rộng Vertex AI)
✗Chế độ Nghiên cứu sâu chỉ dành cho người đăng ký cấp cao hơn
✗Tính năng bộ nhớ yêu cầu phải có Tài khoản Google và có thể gây lo ngại về quyền riêng tư
✗Không phải nguồn mở – tùy chọn tinh chỉnh hạn chế (chỉ phiên bản Pro mới hỗ trợ tinh chỉnh)
✗Vẫn xếp sau GPT‑5 về điểm chuẩn tác nhân phức tạp (GAIA)

Frequently Asked Questions

Khi nào Gemini Ultra 2.0 có sẵn cho công chúng?

API ra mắt vào ngày 5 tháng 6 năm 2026. Người đăng ký Google One AI sẽ có quyền truy cập vào các ứng dụng của Google (Tìm kiếm, Gmail, Docs, Android) vào ngày 10 tháng 6 năm 2026. Bản dùng thử miễn phí Gemini Ultra 2.0 (10 truy vấn/ngày) có sẵn thông qua Google AI Studio bắt đầu từ ngày 15 tháng 6.

Tìm kiếm trên web theo thời gian thực ảnh hưởng đến quyền riêng tư như thế nào?

Các truy vấn tìm kiếm được ẩn danh và không được liên kết với Tài khoản Google của bạn trừ khi bạn đăng nhập vào Google One AI (trong trường hợp đó chúng có thể được dùng để cá nhân hóa kết quả nhưng bạn có thể tắt tính năng này trong Cài đặt). Bạn cũng có thể đặt chế độ 'phê duyệt thủ công' trong đó Gemini hỏi trước mỗi lần tìm kiếm.

Tôi có thể sử dụng Gemini Ultra 2.0 ngoại tuyến không?

Không. Mô hình đầy đủ chạy trên cụm TPU của Google. Tuy nhiên, Google sẽ phát hành 'Gemini Nano 2.0' (trên thiết bị, thông số 7B) cho thiết bị Android vào cuối năm 2026 – nó hỗ trợ bộ nhớ cơ bản và tìm kiếm ngoại tuyến các tệp cục bộ.

Gemini Ultra 2.0 hỗ trợ những ngôn ngữ lập trình nào để tạo mã?

Nó đã được đào tạo trên hơn 120 ngôn ngữ, với hiệu suất tốt nhất trên Python, JavaScript, TypeScript, Go, Rust, C++, Java và SQL. Nó cũng hiểu các tập lệnh shell, Dockerfiles và YAML. Đầu xác minh có thể chạy mã đơn giản trong hộp cát (yêu cầu tích hợp Vertex AI).

Có phương án tinh chỉnh nào cho doanh nghiệp không?

Có, Gemini Pro 2.0 hỗ trợ tinh chỉnh thông qua Vertex AI. Gemini Ultra 2.0 chưa có sẵn để tinh chỉnh nhưng Google có kế hoạch giới thiệu 'bộ điều hợp' (tinh chỉnh thông số nhỏ hiệu quả) vào quý 3 năm 2026. Hãy liên hệ với Google Cloud để tùy chỉnh cho doanh nghiệp.

Bộ nhớ liên tục xử lý dữ liệu nhạy cảm như thế nào?

Ký ức được lưu trữ dưới dạng mã hóa và chỉ mô hình mới có thể truy cập được trong các cuộc trò chuyện đang diễn ra. Bạn có thể xóa từng kỷ niệm, tắt hoàn toàn bộ nhớ hoặc đặt thời gian tự động hết hạn (ví dụ: xóa tất cả kỷ niệm sau 30 ngày). Google không sử dụng bộ nhớ để huấn luyện mô hình cơ sở mà không có sự đồng ý rõ ràng.

#google#gemini#gemini-ultra-2#ai#large-language-model#multimodal#real-time-search#google-one-ai#news