Gemini 3.1 Pro
Google zveřejnil model Gemini 3.1 Pro, který představuje aktuálně nejpokročilejší variantu řady Gemini určenou pro náročné multimodální úlohy. Model je navržen pro práci s textem, obrazem, zvukem i videem v rámci jednoho kontextu a cílí především na složité analytické a vývojářské scénáře.
Gemini 3.1 Pro disponuje výrazně rozšířeným kontextovým oknem – zvládá až 1 milion vstupních tokenů a až 64 000 výstupních tokenů. To umožňuje práci s rozsáhlými dokumenty, dlouhými konverzacemi, velkými repozitáři kódu nebo kombinovanými multimediálními vstupy bez nutnosti jejich dělení na menší části.
Model vychází z architektury předchozí verze Gemini 3 Pro, přičemž přináší další zlepšení v oblasti kvality odpovědí, stability a schopnosti hlubšího uvažování nad komplexními zadáními. Nativní multimodalita znamená, že dokáže současně analyzovat například textový popis spolu s obrázkem či videem a vyvozovat z nich souvislosti.
Gemini 3.1 Pro je dostupný prostřednictvím několika kanálů – v aplikaci Gemini, přes Google Cloud (Vertex AI), Gemini API i nástroje určené vývojářům a experimentátorům. Model je tak cílen jak na běžné uživatele, tak na firmy a vývojáře, kteří potřebují pokročilé AI schopnosti integrovat do vlastních aplikací.
Podle zveřejněné modelové karty je Gemini 3.1 Pro určen především pro komplexní analýzy, práci s rozsáhlými datovými vstupy, vývoj softwaru, výzkum a další profesionální scénáře, kde je klíčová kombinace dlouhého kontextu a multimodálního porozumění.
| Benchmark | Notes | Gemini 3.1 ProThinking (High) | Gemini 3 ProThinking (High) | Sonnet 4.6Thinking (Max) | Opus 4.6Thinking (Max) | GPT-5.2Thinking (xhigh) | GPT-5.3-CodexThinking (xhigh) |
|---|---|---|---|---|---|---|---|
| Humanity’s Last Exam Academic reasoning (full set, text + MM) | No tools | 44.4% | 37.5% | 33.2% | 40.0% | 34.5% | — |
| Search (blocklist) + Code | 51.4% | 45.8% | 49.0% | 53.1% | 45.5% | — | |
| ARC-AGI-2 Abstract reasoning puzzles | ARC Prize Verified | 77.1% | 31.1% | 58.3% | 68.8% | 52.9% | — |
| GPQA Diamond Scientific knowledge | No tools | 94.3% | 91.9% | 89.9% | 91.3% | 92.4% | — |
| Terminal-Bench 2.0 Agentic terminal coding | Terminus-2 harness | 68.5% | 56.9% | 59.1% | 65.4% | 54.0% | 64.7% |
| Other best self-reported harness | — | — | — | — | 62.2%(Codex) | 77.3%(Codex) | |
| SWE-Bench Verified Agentic coding | Single attempt | 80.6% | 76.2% | 79.6% | 80.8% | 80.0% | — |
| SWE-Bench Pro (Public) Diverse agentic coding tasks | Single attempt | 54.2% | 43.3% | — | — | 55.6% | 56.8% |
| LiveCodeBench Pro Competitive coding problems from Codeforces, ICPC, and IOI | Elo | 2887 | 2439 | — | — | 2393 | — |
| SciCode Scientific research coding | 59% | 56% | 47% | 52% | 52% | — | |
| APEX-Agents Long horizon professional tasks | 33.5% | 18.4% | — | 29.8% | 23.0% | — | |
| GDPval-AA Elo Expert tasks | 1317 | 1195 | 1633 | 1606 | 1462 | — | |
| τ2-bench Agentic and tool use | Retail | 90.8% | 85.3% | 91.7% | 91.9% | 82.0% | — |
| Telecom | 99.3% | 98.0% | 97.9% | 99.3% | 98.7% | — | |
| MCP Atlas Multi-step workflows using MCP | 69.2% | 54.1% | 61.3% | 59.5% | 60.6% | — | |
| BrowseComp Agentic search | Search + Python + Browse | 85.9% | 59.2% | 74.7% | 84.0% | 65.8% | — |
| MMMU-Pro Multimodal understanding and reasoning | No tools | 80.5% | 81.0% | 74.5% | 73.9% | 79.5% | — |
| MMMLUMultilingual Q&A | 92.6% | 91.8% | 89.3% | 91.1% | 89.6% | — | |
| MRCR v2 (8-needle) Long context performance | 128k (average) | 84.9% | 77.0% | 84.9% | 84.0% | 83.8% | — |
| 1M (pointwise) | 26.3% | 26.3% | Not supported | Not supported | Not supported | — |
Původní zpráva: https://deepmind.google/models/model-cards/gemini-3-1-pro/