蘋果與AI:思想幻覺論文及其爭議
人類、工具與AI
史蒂夫·賈伯斯曾與《科學美國人》雜誌的記者探討過電腦和人類的潛能。有書提及研究地球各類型及影響時指出,嬰兒車是最有效率的「動物」,但人類騎上自行車後,效率遠超嬰兒車,這體現人類善於創造工具擴展能力。對此,電腦就如同思想的自行車。如今AI問世,這是一種能創造工具的工具,人們可能以為蘋果會全力投入此領域,然而蘋果發表了一篇名為《思想幻覺》的論文。
蘋果對AI的態度
蘋果對AI的態度與谷歌、OpenAI、XAI、Athrabic和微軟不同。過去,蘋果就發表過關於大型語言模型在數學推理方面局限性的論文,而這篇新論文聚焦於問題的複雜性如何限制模型的推理能力。但蘋果公開的AI,如Siri,似乎在各項排名中表現不佳,今年的WWDC25也鮮少提及AI智能,與谷歌I.O.大會形成鮮明對比。
思想幻覺論文解析
兩種模型
要理解這篇論文,首先要清楚它分為兩種模型:普通的大型語言模型(LLM)和大型推理模型(LRM)。LLM就像大多數聊天機器人,用戶提問,它搜索並給出答案;LRM則不同,如OpenAI的O1和O3模型等,在給出最終答案前,會先生成一大段思考過程,類似草稿,展示推理步驟。
論文核心觀點
論文的核心觀點之一是,目前評估AI推理的方式存在局限。現有許多評估,尤其是流行的基於數學和代碼的標準測試,過度強調最終答案是否正確,且易受數據污染影響,無法了解推理軌跡的結構和質量。
實驗方法
蘋果採用了基於控制謎題環境的測試方法,如漢諾塔、跳棋、經典交叉參考問題和Gimu世界規劃問題等。這些謎題有幾個優勢:能準確控制複雜性;不太可能大量出現在模型訓練數據中,可避免數據污染;主要依靠邏輯推理和解決,能調查純算法推理能力;解決方案和中間步驟可準確驗證。
研究發現
研究發現可總結為不同複雜度範圍內的三種現象。在低複雜度區域,標準LLM表現更好,LRM可能存在過度思考現象;在中等複雜度區域,LRM的優勢體現,但其需消耗更多代碼;在高複雜度區域,LLM和LRM的性能完全崩潰,且LRM在高複雜度區域的響應長度下降。
爭議與反駁
對測試任務的質疑
論文發表後引發了很多爭議和質疑。有人認為選擇漢諾塔作為主要測試任務可能存在問題,因為漢諾塔的解決方案在網上隨處可見,模型在訓練中看到的概率可能很高。此外,大型推理模型的訓練重點主要是大量文本、代碼和數學知識,用這些謎題來衡量模型的整體推理能力並得出關於幻覺的宏大結論可能不公平。
對模型行為的誤讀
還有觀點認為,蘋果的工程師可能只關注那些容易衡量和觀察的領域,而忽略了更複雜、更真實的情況。有人做了類似實驗發現,當模型面對極其複雜的任務時,其響應並非錯誤或卡住,而是意識到列出所有步驟不現實,開始嘗試尋找捷徑或通用解決方案。不能因為模型沒找到完美捷徑就認為其推理是幻覺。
結語
這篇論文的邏輯鏈相對完整,但也存在爭議。一方面,AI展現出強大潛能,如谷歌的AlphaZero;另一方面,若蘋果論文嚴謹,也揭示了AI目前的邊界和限制。希望通過對這篇論文及相關爭議的分析,能幫助大家全面了解關於AI推理能力的這場辯論。