## 打開 AI 的黑盒子:理解人工智慧的內部思考過程
人們經常說人工智慧 (AI) 就像一個黑盒子。文字輸入,文字輸出,但我們不知道它為什麼會這樣說。這是因為人工智慧並非被程式設計出來的,而是被訓練出來的。在訓練過程中,它們會學習自己的策略來解決問題。如果我們希望人工智慧盡可能地有用、可靠和安全,我們就需要打開這個黑盒子,了解它們為什麼會做這些事情。
### 為什麼打開黑盒子很重要?
即使打開了黑盒子,也可能沒有太大幫助,因為我們不知道如何解釋我們所看到的。可以把它想像成一位研究大腦的腦神經科學家。我們需要工具來了解裡面發生了什麼。
### 我們想知道什麼?
我們想知道模型如何將其腦海中的所有概念連接起來,並使用它們來回答我們的問題。現在,我們已經開發出了一些方法來觀察人工智慧模型的內部思考過程。
## 觀察 AI 模型的內部思考過程
我們可以實際看到這些概念是如何連接起來,形成邏輯迴路的。
### 詩歌創作的例子
讓我們來看一個簡單的例子,我們要求 Claude 寫一首詩的第二行。這首詩的開頭是:「他看到一根胡蘿蔔,不得不抓住它。」
* **模型如何思考押韻:** 在我們的研究中,我們發現 Claude 甚至在寫這行詩的開頭之前,就已經在計劃押韻。
* **思考的過程:** Claude 看到「一根胡蘿蔔」和「抓住它」,並想到「兔子」這個詞,它既能與胡蘿蔔搭配,又能與抓住它押韻。
* **完成詩句:** 然後它寫下了這行的其餘部分:「他的飢餓就像一隻飢餓的兔子。」
### 分析模型的思考
我們觀察模型思考「兔子」這個詞的地方,並看到它對這首詩的其他想法。我們還看到「習慣」這個詞也在那裡。
### 干預模型的思考
我們的新方法使我們能夠進入並干預這個迴路。
* **抑制「兔子」的想法:** 在這個例子中,我們在模型計劃第二行詩的時候,抑制了「兔子」的想法,然後要求 Claude 再次完成這行詩。
* **結果:** 「他的飢餓是一種強大的習慣。」
我們看到,模型能夠從一首新詩的開頭開始,思考不同的完成方式,然後朝著這些完成方式寫下去。
### 模型正在提前計劃
我們可以引起這些變化,遠早於最終詩句的寫作,這強有力地證明了模型正在提前計劃。
## 模型的思考
這個詩歌計劃的結果,以及我們論文中的許多其他例子,只有在模型確實以自己的方式思考它們所說的內容的世界中才有意義。
### 未來的展望
正如神經科學幫助我們治療疾病並使人們更健康一樣,我們的長期計劃是利用對人工智慧的這種更深入的了解,來幫助使模型更安全和更可靠。如果我們能學會閱讀模型的心,我們就能更有信心地認為它正在做我們想要它做的事情。
您可以在 anthropic.com/research 上找到我們新論文中更多關於 Claude 內部想法的例子。