谷歌近日在人工智能領域邁出了重要一步,推出了Gemini 2.5系列推理模型。這些模型具備在回答問題前進行“思考”的能力,標志著AI技術的進步。
其中,Gemini 2.5 Pro Experimental是這一系列中的佼佼者,谷歌稱其為迄今為止最智能的模型。這款多模式推理AI模型將于本周二在Google AI Studio和Gemini應用程序中上線,供Gemini Advanced計劃的訂閱者使用,該計劃每月費用為20美元。
隨著Gemini 2.5的發布,谷歌明確表示,未來所有新的人工智能模型都將具備推理能力。這一決策反映了科技行業對AI推理模型的重視,自OpenAI在2024年9月推出首個AI推理模型以來,眾多科技公司紛紛跟進,Anthropic、DeepSeek、Google和xAI等都推出了自己的推理模型。
這些推理模型通過增加計算能力和時間來核實事實、推理問題,從而提供更準確的答案。它們在數學和編碼任務上取得了顯著進步,被認為是未來自主系統(人工智能代理)的關鍵組成部分。然而,這也帶來了成本上的挑戰,推理模型通常比傳統模型更昂貴。
事實上,谷歌并非首次嘗試AI推理模型。去年12月,谷歌就發布了Gemini的思考版本。但Gemini 2.5無疑是谷歌迄今為止最認真的嘗試,旨在超越OpenAI的o系列模型。谷歌聲稱,Gemini 2.5 Pro在多個基準測試中均表現出色,優于其之前的前沿AI模型以及一些領先的競爭AI模型。
特別是在一項名為Aider Polyglot的代碼編輯評估中,Gemini 2.5 Pro的得分高達68.6%,超過了OpenAI、Anthropic和DeepSeek的頂尖模型。然而,在另一項衡量軟件開發能力的測試SWE-bench Verified中,Gemini 2.5 Pro雖然以63.8%的得分優于OpenAI的o3-mini和DeepSeek的R1,但仍略低于Anthropic的Claude 3.7 Sonnet,后者的得分為70.3%。
在人類的最后考試中,Gemini 2.5 Pro也表現出色,得分為18.8%,優于大多數競爭對手的旗艦機型。這場多模式測試包含了數千道涉及數學、人文和自然科學的眾包問題,是對AI模型綜合能力的全面考驗。
Gemini 2.5 Pro配備了100萬個token上下文窗口,這意味著AI模型一次可以接收大約75萬個單詞的信息,比整個《指環王》系列叢書的長度還要長。未來,Gemini 2.5 Pro還將支持兩倍的輸入長度,即200萬個token。
然而,關于Gemini 2.5 Pro的API定價,谷歌尚未公布具體信息。該公司表示將在未來幾周內提供更多詳情。