Gemini 3 相較於前一代 Gemini 2.5 Pro,在哪些關鍵指標上取得了顯著的突破?
Answer
Gemini 3 相較於 Gemini 2.5 Pro 的關鍵突破
Google 最新一代 AI 模型 Gemini 3 相較於前一代 Gemini 2.5 Pro,在多個關鍵指標上取得了顯著的突破。Gemini 3 Pro 作為該系列中首個發布且功能最強大的模型,在推理能力、代理能力、編碼性能以及長脈絡視窗等方面均有提升,旨在協助專業人士實現任何創意。
主要突破與提升
Gemini 3 在多個領域均有顯著提升,具體如下:
- 推理能力: Gemini 3 具備最先進的推理能力,能夠掌握前所未有的深度和細微差異。在所有主要 AI 基準測試中,表現均顯著超越 Gemini 2.5 Pro。例如,在複雜的科學知識測試(GPQA Diamond)中,Gemini 3 Pro 獲得 91.9% 的高分,展現出博士級的推理能力。
- 代理人與工具使用: Gemini 2.5 Pro 奠定了代理能力的基礎,而 Gemini 3 帶來了更卓越的指令遵循與更有意義的工具使用。在代理編碼和長期代理任務上表現優異。在衡量編碼代理能力的 SWE-bench Verified 中,得分 76.2%,大幅超越 Gemini 2.5 Pro 的 59.6%。
- 編碼性能: Gemini 3 超越 Gemini 2.5 Pro,擅長代理式工作流程和複雜的零樣本任務 (zero-shot tasks)。在 Terminal-Bench 2.0 上得分 54.2%,大幅高於 Gemini 2.5 Pro 的 32.6%。
- 長脈絡視窗: Gemini 3 支援 100 萬個詞元的輸入脈絡窗口。Gemini 3 Pro 在長脈絡性能(MRCR v2, 128k 平均)上得分 77.0%,遠高於 Gemini 2.5 Pro 的 58.0%。
- 多模態理解: Gemini 3 能夠跨文字、圖像、影片、音訊,甚至是程式碼進行推理,並在多模態理解基準測試上創下新高。在複雜圖像推理基準 MMMU-Pro 上得分 81.0%,在影片理解基準 Video-MMMU 上得分 87.6%。
應用場景與核心功能
Gemini 3 的核心功能包括最先進的推理能力、世界領先的多模態理解、改進的代理式能力、代理式編碼與 Vibe Coding,以及長脈絡視窗。這些功能使其在多個領域具有廣泛的應用前景,例如軟體開發、企業與法律、多模態處理等。Gemini 3 旨在幫助用戶實現學習、構建與規劃三大目標,例如解讀手寫食譜、打造互動性網頁 UI 和應用程式,以及協助規劃旅遊行程等。
總體而言,Gemini 3 在推理能力、代理能力、編碼性能和多模態理解等方面均取得了顯著突破,使其成為一個更強大、更智能的 AI 模型,有助於提升生產力並在快速變化的商業環境中保持競爭優勢。