亚洲区一区二区三区,中文字幕亚洲精品乱码,国产亚洲综合在线

AI大考！七大模型挑戰馬斯克特斯拉入職數學題，誰能脫穎而出？

發布時間：2025-04-27 15:46 來源：ITBEAR 作者：楊凌霄

近期，一道由特斯拉CEO馬斯克在社交平臺發布的數學題引發了廣泛關注。這道看似簡單的算式題“6÷2 (1+2)”卻引發了網友們的熱烈討論，答案更是出現了“1”和“9”兩種截然不同的聲音。

為了解答這一疑惑，斯坦福大學的數學教授塔沃克早在8年前就通過視頻進行了詳細解釋。他強調，按照現代的運算規則，即遵循從左至右的順序，先進行括號內的運算，再執行乘除運算，最后得到的結果是9。然而，他也提到，在1917年的數學運算規則中，規定碰到除法時，應將左邊整個算式除以右邊整個算式，因此答案為1。

面對這一充滿爭議的數學題，人們不禁好奇，如果交給AI大模型來解答，它們能否給出正確答案，并識別出其中的爭議點呢？為了驗證這一點，多家知名廠商的最新AI大模型被用來進行對比測試。

在測試中，科大訊飛的訊飛星火X1大模型表現尤為突出。它不僅準確識別了圖片中的數學題，還詳細展示了推理過程。訊飛星火X1先按照現代運算規則得出了正確答案9，同時也考慮了將2 (1+2)視為一個整體的情況，并通過引用數學上的PEMDAS/BODMAS規則，解釋了為何這種情況下需要額外的括號，再次確認了正確答案為9。訊飛星火X1還提到了網絡上的爭議，并指出需要明確題目的書寫方式以避免歧義。

同樣表現出色的還有OpenAI的o3模型。雖然它沒有給出詳細的推理過程，但在輸出結果中，o3詳細展示了計算步驟，并準確給出了答案9。對于爭議點，o3的解釋同樣嚴謹，明確指出在沒有括號的情況下自行施加額外的運算次序并不符合普遍的約定，并科普了舊式計算工具中隱式乘法的優先級情況。

其他模型如DeepSeek R1、字節豆包1.5、文心X1 Turbo、騰訊混元T1以及Grok 3等也進行了測試。這些模型在解答過程中大多能夠按照現代運算規則得出正確答案，但在處理爭議點時，有的模型解釋較為含糊，有的則相對清晰。例如，豆包1.5在推理過程中簡潔明了地指出了將2 (1+2)看作整體時應寫作6÷[2 (1+2)]，但在輸出結果中反而沒有詳細解釋這一點。

通過這次測試，我們可以看到AI大模型在深度推理能力方面已經有了顯著提升。它們不僅能夠按照規則準確計算，還能夠識別并解釋爭議點，展現出類似人類的思考過程。隨著技術的不斷發展，AI將在未來為我們解決更多復雜問題，帶來更加便捷的生活和工作體驗。

更多>同類內容