Meta AI 發布了一個基於 2024 年論文的新模型,徹底改變了大型語言模型的工作方式。現今使用的大型語言模型仰賴分詞 (tokenization),但 Meta AI 的這個新模型不採用分詞,而是採用名為動態位元潛在轉換器 (Dynamic Byte Latent Transformer, BLT) 的架構。
傳統大型語言模型的分詞問題
計算機基本上理解位元和位元組,但在大型語言模型中,會將文本分詞成稱為token (符記) 的單位。Token 是大型語言模型的基本單位,但如果可以完全消除 token,並建立一個能理解輸入位元組級細節的架構呢?這就是這個模型的靈感來源。
BLT 模型:基於位元組級處理
這個模型已經不只是一個靈感,而是一個已在 Hugging Face 模型中心發布的完整模型。使用者可以下載並開始使用它。
BLT 模型的性能
BLT 模型並非一個簡單的模型,其性能可與 Llama 3 相媲美。 儘管是一個擁有 80 億參數的模型,但在不同的基準測試中,幾乎可以與經過一兆 token 訓練的 Llama 3 相提並論。
BLT 模型的工作原理
BLT 模型包含以下元件:
- 本地編碼器 (Local Encoder):接收文本並將其轉換為位元組流。
- 潛在轉換器 (Latent Transformer):處理位元組流,將相似的位元組組合成patch (補丁)。 創建補丁的方式取決於預測下一個位元組的難易程度。
- 本地解碼器 (Local Decoder):使用補丁預測下一個補丁,最終解碼為下一個位元組的預測,而不是下一個 token 的預測。
例如,如果輸入是 "better than BPE",模型可以理解整個輸入並輸出 "better than BPE"。
BLT 模型的優勢
這個模型基於一個核心概念:如果消除分詞,並在位元組層級進行處理,可以顯著提高大型語言模型的效率。
-
提升效率: 傳統 Transformer 模型的一個主要問題源於分詞。BLT 模型完全消除了這個問題。
-
降低計算需求: 該模型能夠擴展模型規模,同時確保其性能與當前基於分詞器的模型相匹配,且計算量減少 50%。
應用範圍
BLT 模型不僅適用於文本生成,還可以在編碼基準測試 (例如 NBPP 和 HumanEval) 上工作。 雖然尚未達到目前最先進模型(例如 Quinn、Llama 4 和 ChatGPT 的最新模型)的水平,但此研究和模型的開源承諾了其潛力。
BLT 模型與傳統模型的差異
與 Llama 和 GPT 系列等基於 token 的模型相比,BLT 模型的主要區別在於:
-
輸入表示: BLT 模型僅使用原始位元組序列,而傳統模型則基於分詞。
-
詞彙表: 傳統大型語言模型具有預定義的固定 token 集合,稱為詞彙表,這限制了模型的創新。BLT 模型沒有固定的詞彙表,允許它創建動態補丁,從而產生新的概念和未學習過的事物。
-
計算分配: 對於基於 token 的模型,每個 token 的計算分配都是均勻的。而對於 BLT 模型,計算分配是動態的,基於內容的熵。
-
推論效率: 基於 token 的模型,推論效率會隨著 token 數量的增加而降低。 BLT 模型則通過使用更少但更大的補丁來減少計算量。
-
穩健性: BLT 模型對噪音、拼寫錯誤或字元級別的變化更具韌性,而基於 Llama 的分詞模型對分詞更敏感。
-
多語言公平性: BLT 模型可以成為一種與語言無關的模型,因為它不依賴 token,而是依賴位元組。
總結
總體而言,如果能夠產生性能相似但計算量更少的模型(例如,推論浮點運算減少 50%),這將對整個生態系統產生巨大的正面影響。這將大大提高大型語言模型的效率,並推動它們擴展到通用人工智慧 (AGI)。
無論通用人工智慧的最終形式如何,都需要在當前技術基礎上進行改進,而 BLT 架構有望提供這種改進。