Google DeepMind 近日發表全新一代大型語言模型 Gemini 2.5,主打「推理型模型」的能力。這是繼去年 Gemini 2.0 之後的重要升級,不只是加快運算與提升準確度,更關鍵的是引入「先思考再回答」的機制,讓 AI 的表現更貼近人類解題邏輯。
Gemini 2.5 的首發版本為「Gemini 2.5 Pro Experimental」,目前已開放在 Google AI Studio 與 Gemini App 的進階方案中使用,並預計將登陸 Google Cloud 的 Vertex AI 企業平台。
什麼是「推理型 AI」?
所謂推理型模型,指的是 AI 在作答前會先進行內部思考、分析上下文與多重資訊,而非僅靠機率模型快速生成文字。這讓 Gemini 2.5 能夠在處理較複雜的問題時,展現出更穩定的邏輯性與決策品質。
Google 表示,這項能力主要透過「強化學習」與「思維鏈提示(chain-of-thought prompting)」訓練技術實現,並將逐步內建於所有未來的 Gemini 模型之中。
推理能力實測成績亮眼
Gemini 2.5 Pro 在多項標準化測試中都取得領先地位,包括:
-
GPQA(專業問答)、
-
AIME 2025(數理推理)、
-
Humanity’s Last Exam(跨領域綜合測驗)等。
其中,Gemini 2.5 Pro 在不使用投票機制與額外推論技巧的情況下,仍拿下 18.8% 的高分,展現其自然推理的能力。
根據 Google 官方說明,在 LMArena(以人類偏好為標準的模型評比平台)中,Gemini 2.5 也首次打敗 GPT-4 和 Claude 3.7,在語言風格、回覆品質等面向獲得更高總分。

程式設計能力再升級
除了語言與邏輯能力,Gemini 2.5 Pro 的編碼表現也是一大亮點。在 SWE-bench Verified(業界常用的程式智能評估工具)中,Gemini 2.5 Pro 透過自訂代理設定,取得了 63.8% 的準確率。
更實際的應用像是:用一行指令生成完整的小型遊戲、重構整段程式碼、或根據需求修改功能模組,Gemini 都能完成,甚至能處理多步驟邏輯或介面互動的開發任務。

上下文記憶能力更強,多模態整合更進一步
Gemini 2.5 延續了系列模型擅長的「原生多模態處理」特性,可同時理解文字、圖片、語音、影片、程式碼等多種資訊格式。而本次推出的 Pro 版本,已可支援 100 萬 token 的上下文處理量,Google 表示未來將擴充至 200 萬 token。
這讓 AI 能夠處理如技術文件、長篇法律條文、影音教材分析等應用場景,變得更實用也更可靠。
適合開發者與企業導入使用
Gemini 2.5 Pro 已開放進行實測,開發者可在 Google AI Studio 操作,也能透過 Gemini App 的「進階使用者」方案體驗模型效能。預計未來幾週將正式上架至 Google Vertex AI 平台,並公布完整定價方案。
Google 表示,這次更新代表 AI 模型已經不只是語言生成器,而是進入「具邏輯推理與複雜決策」的新階段,將能支援更多實際應用,包括企業內部決策、教育輔助、技術服務等領域。

