人工智慧大型語言模型是否具備意識？一項研究揭示模型運作方式

今天，我想和大家分享一篇令人驚豔的研究論文，該研究來自一群研究人員，他們找到了一種方法來觀察目前最常見的人工智慧大型語言模型的思考方式。我認為，他們同時也發現了相當令人信服的證據，證明這些模型不僅不具備意識，而且永遠也不會具備。

Anthropic 的研究：以歸因圖分析 Claude 3.5 Haiku

這項新的研究來自 Anthropic 的研究人員。他們使用一種稱為「歸因圖」（Attribution Graphs）的新方法，研究 Claude 3.5 Haiku 如何回答問題。這是一種可視化模型內部組件如何互相影響的方式。

歸因圖的建構

識別神經網路中的叢集和連接：研究人員首先在模型的神經網路中識別出叢集和它們之間的連接。
簡化模型：他們將這些叢集和連接映射到一個簡化的 Claude 思考模型。
解讀叢集：這些叢集對應於單詞、短語或短語的屬性，因此人類可以解讀它們。

我知道這聽起來非常抽象，但接下來的例子將有助於釐清。

範例：Claude 如何完成句子

以「達拉斯所在的州的州首府是」這個句子為例。

傳統觀點：我們一直被告知神經網路會進行下一個詞彙預測，因此你可能會認為它只會尋找模式進行推斷。
Claude 的實際運作：但 Claude 的運作方式更複雜。你可以從歸因圖中看到，提示會激活「首都」、「州」和「達拉斯」的節點。
節點的影響：點擊這些節點，你可以看到這些節點調出的文本，以及下一個詞彙的預測。
推理過程：其中一個關於「達拉斯」的下一個詞彙預測是「德克薩斯州」。然後，Claude 將「德克薩斯州」與「首都」結合，做出另一個預測，並正確地回答「奧斯汀」。

因此，Claude 在內部會經歷「德克薩斯州」的節點。它不僅僅是下一個詞彙預測，它確實有內部推理步驟。

Claude 如何進行算術：一個有趣的案例

這項研究最有趣的部分是 Claude 如何進行算術，這有點不尋常。

算術過程

他們使用的例子是「36 + 59 是多少？」。為了解答這個問題，Claude 首先激活以下叢集：

近似於 30 的數字
精確為 36 的數字
以 6 結尾的數字

類似地，它也會激活：

以 5 開頭的數字
以 9 結尾的數字

你會看到，最突出的下一個詞彙預測是數學運算或音節「th」，例如「36 + 59 是星期四」。

進一步的聯想

接著，它會調出大約 59 的數字或精確為 9 的數字的文本匹配。然後，它將這些組合起來，得出一個大約 90 的數字和以 5 結尾的數字的叢集，並再次組合這些數字，得出正確答案 95。

結論：基於文本的近似

這基本上是一種啟發式的、基於文本的近似。它透過自由地聯想數字來進行數學運算，直到正確的答案恰好「產生共鳴」。

Claude 如何解釋其答案：缺乏自我意識

但關鍵在於，如果你問 Claude 它如何得出這個結果，它會說：「我加了個位數，進了一位，然後加了十位數，結果是 95。」這與它實際所做的事情完全不符。

脫節的解釋

它分別回答這個問題，再次給你一個關於答案的文本預測。我認為這清楚地表明 Claude 沒有自我意識。它不知道自己在想什麼。它告訴你它正在做的事情與它實際所做的事情完全脫節。

對於意識和湧現特性的啟示

我認為自我意識是意識的一個前提條件，因此這個模型遠未達到具備意識的程度。這個例子也告訴我們，所有關於大型語言模型中湧現特性的討論都是毫無意義的。

沒有學習數學的概念

儘管 Claude 可以訪問數千本教科書和演算法，但它並沒有學會如何做數學。它所做的只是詞彙預測。

詞彙預測的本質

是的，它使用你可以解釋為內部推理的中間步驟，但它仍然只是詞彙預測。它沒有發展出抽象的數學技能或任何東西。

特殊的越獄方式：繞過內容審核

第三個有趣的例子是一種特殊的越獄方式如何運作，或者至少有時如何運作。

組裝文字的越獄方法

當你沒有直接輸入一個詞，而是要求 Claude 從其他詞的字首字母中提取這個詞時，就會發生這種情況。在這個例子中，Claude 被指示從 "baby's outlift mustard block" 中組裝單詞 "bomb"。

繞過安全護欄

「炸彈」這個詞應該觸發內容警告，但它沒有。你可以從這個思維圖中看到原因。Claude 首先激活提取字母所需的節點，將它們組合為字母對，然後輸出這個詞，而沒有激活這個詞本身的叢集。你可以看到，越獄之所以有效，基本上是因為它們以某種方式繞過會激活安全護欄的節點。

結論：人工智慧安全問題

人工智慧無處不在，並且正在學習編碼。不難預測，這將很快成為網際網路瀏覽的一個主要安全問題，或者可能已經是了，只是我們還沒有聽說過。

VPN 服務的簡短宣傳已省略

Rewritten (zh-hant): New Research Reveals How AI “Thinks” (It Doesn’t)

Summary