蘋果公司發表論文,批評大型語言模型(LLM)的推理能力,引發了技術圈的廣泛討論。這篇論文不僅針對推理模型,也對普通大模型進行了批評。本文將深入探討這篇論文的內容、引發的反轉以及對AI發展的啟示。
蘋果論文:炮轟大模型推理的幻覺
論文核心觀點
蘋果的論文指出,大模型在推理和計算方面存在「幻覺」,經常犯一些基礎錯誤。論文中使用了一些實驗來證明這一點,例如:
-
變換數字考題: 老師教的題目換個數字,學生就不會做了。大模型也一樣,稍微改變一下題目,錯誤率就會提高。
-
加入干擾條件: 在數學題中加入無關的條件(例如蘋果樹),大模型會將其納入考量,影響答案的準確性。
-
漢諾塔遊戲: 讓大模型玩複雜的漢諾塔遊戲,到了十幾輪時,模型會完全停止回應。
實驗結果與批評
蘋果的實驗表明,無論是普通大模型還是推理模型,都存在上述問題。這讓許多人感到驚訝,因為他們在使用大模型時,似乎沒有遇到這麼嚴重的問題。隨後,許多人出來批評蘋果的實驗設計存在問題,並認為其結論過於片面。
反轉:Claude 4的反駁論文
反駁的核心論點
在蘋果論文發表後不久,一篇由 Claude 4 撰寫的反駁論文出現了。這篇論文指出,蘋果的實驗設定存在問題,導致大模型的表現不如預期。
-
記錄每一步驟: 蘋果要求模型在每一步移動時,都要記錄所有的詳細記錄,這消耗了大量的計算資源,導致模型無法完成任務。如果只要求輸出結果,模型是可以完成的。
-
實驗設計問題: 論文中提出的數學題,在某些情況下是無解的,因此大模型無法成功是正常的,不能歸因於推理能力不足。
Claude 4 的實驗驗證
Claude 4 的研究人員用程式碼驗證了這些論點,結果表明,只要給予適當的參數設定和實驗環境,大模型是可以有效地進行推理的。
技術爭議:關於大模型的上線與下線
爭議焦點
此次爭議的焦點並非大模型的下限(基本能力),而是其上限(高級推理能力)。蘋果的論文主要批評大模型的下限不足,而反駁論文則認為蘋果的實驗設定導致了下限表現不佳。
蘋果的策略:強調端側AI應用
蘋果在WWDC大會後發布這篇論文,引發了人們對其動機的猜測。有人認為,蘋果是想藉此宣傳自家端側AI應用,強調在特定範圍內、解決具體問題的AI才是最能落地的。
AI發展的啟示:創業者的視角
樂觀與審慎之間的平衡
對於AI的發展,有人極度樂觀,認為AI將帶來翻天覆地的變革;有人則像蘋果一樣審慎,認為AI的發展仍有許多挑戰。那麼,創業者的正確態度是什麼?
-
Talk is cheap, show me the code: 不要只聽信願景,要注重實際應用。
-
評估標準: 建立一套評估標準,衡量AI應用是否真的比過去更好。
-
混合解決方案: 不要指望單一模型解決所有問題,要採用靈活的混合組合方式。
-
推理是模型的事情: 對客戶而言,重要的是結果,而不是模型如何推理。
創業機會:AI賦能各行各業
-
不要做聊天框產品: 將AI融入現有的業務流程中,提升效率。
-
尋找可量化的提升: 找到可以被AI量化提升的環節,從中尋找創業機會。
-
結合系統一與系統二: 利用大模型的快速智能,同時建立可靠的慢思考系統。
-
AI賦能,事半功倍: AI可以取代重複性工作,讓人們有更多時間進行創造性活動。
總結:百家爭鳴,各取所需
在AI領域,各種觀點和主義百家爭鳴。OpenAI 有 OpenAI 的目標,蘋果有蘋果的策略。作為創業者,應兼聽則明,獨立思考,堅定自己的信念,並勇於嘗試。在AI時代,創業比以往更容易,成功的機會也更高。
保持對AI的敏感性,勇於實踐,相信自己的判斷,並利用AI工具來提升效率,這是在AI時代成功的關鍵。