關聯知識庫:# 大語言模型學術史:從分佈式表示到Transformer的演進路徑(Gregory Gundersen 2025)
大語言模型學術史:從分佈式表示到Transformer的演進路徑
發佈時間:2025年10月1日
核心主題:追溯大語言模型背後的核心思想的學術歷史
哲學視角:技術演進中的理想與折中
莊子《逍遙遊》:"萬物皆有所待"——所有事物都依賴於一定的條件
老子《道德經》:"少則得,多則惑"——簡單的方法往往更有效
"後退是向前":有時候放棄完美,反而能走得更遠
本文的哲學主題:
大語言模型的技術演進,本質上是一場關於理想與折中的哲學對話。每一個階段的技術選擇,都反映了在面對完美理解的烏托邦理想與計算可行性的現實約束之間的權衡。
- CNN和RNN代表了追求"完美理解"的理想方案——試圖完全理解所有信息,完全記住所有上下文。但正如莊子所言"萬物皆有所待",這種理想方案需要無限的計算資源,在現實世界中不可行。
- Transformer代表了"折中智慧"——放棄完美理解,採用"按需訪問"的策略。不需要掌握所有知識,但在需要時可以主動去調用。正如老子所言"少則得,多則惑",這種看似"後退"的方案,反而讓技術"向前"走得更遠。
- 幻覺問題正是這種折中的代價——按需訪問雖然讓Transformer變得強大且可行,但也可能導致模型在需要時調用錯誤的信息。這提醒我們:萬物皆有所待,沒有完美的技術,只有在不同約束下的折中選擇。
本文將從這一哲學視角出發,重新審視大語言模型的技術演進史。
要點速覽
核心故事
大語言模型的發展就像打怪升級:每解決一個Boss(問題),就會遇到新的Boss(新問題)。但好消息是,每個新Boss都比上一個弱一點(因為我們越來越強),直到現在我們站在GPT-4的肩膀上,還在琢磨:這玩意兒到底怎麼工作的?
更深層的哲學洞察:
這場技術演進的本質,是理想與折中的博弈。每一個技術選擇,都是在追求完美理解的理想與計算可行性的現實之間尋找平衡。萬物皆有所待——技術依賴於硬件、軟件、計算資源的條件,沒有完美的技術,只有在不同約束下的最優折中。
時間線速覽
1940s-2003: 分佈式表示時代 → 如何表示詞?
2003-2013: 神經語言模型時代 → 如何捕獲序列依賴?
2013-2017: 序列到序列+注意力時代 → 如何並行化?
2017-2020: Transformer+預訓練時代 → 如何利用大規模數據?
2020-2025: 規模化+對齊時代 → 如何理解涌現?
️ 五大階段核心對比
|
階段
|
時間
|
核心成果
|
解決的問題
|
遺留的問題
|
下一階段線索
|
|
分佈式表示 |
1940s-2003
|
神經網絡自動學習詞向量
|
規則系統太複雜
|
固定窗口,無法捕獲長距離依賴
|
需要序列模型
|
|
神經語言模型 |
2003-2013
|
用神經網絡預測下一個詞
|
統計模型的維度災難
|
仍是固定窗口,計算成本高
|
需要循環結構
|
|
序列到序列+注意力 |
2013-2017
|
RNN+注意力機制
|
固定大小表示的信息瓶頸
|
RNN串行計算慢
|
需要並行化
|
|
Transformer+預訓練 |
2017-2020
|
純注意力架構+大規模預訓練
|
RNN的串行限制
|
需要大量算力和數據
|
需要更好的泛化
|
|
規模化+對齊 |
2020-2025
|
GPT-3/GPT-4+RLHF對齊
|
模型規模與能力的平衡
|
涌現機制不明,對齊挑戰
|
待解決的問題
|
️ 階段一:分佈式表示時代(1940s-2003)
背景
1980s之前的技術背景:
- 計算機處理語言主要依賴手工編寫的規則系統
- 每個詞都需要手工編寫規則("cat" → 這是名詞,動物,寵物...)
- 需要大量語言學專業知識
- 系統脆弱,規則越多越容易出錯
核心問題:如何讓計算機理解和表示語言?
哲學思考:手工規則系統代表了人類對"完美理解"的追求——試圖為每個詞、每個規則都提供精確的定義。但正如老子所言"多則惑",規則越多,系統越脆弱。這是對"完美"的執念,卻忽略了萬物皆有所待——系統依賴於人類能夠編寫和維護規則的能力,而這種能力是有限的。
❌ 當前問題
1. 手工規則的不可行性
- 問題:手工寫規則寫不完(100萬詞寫不完)
- 問題:遇到新詞無法處理(需要手工寫新規則)
- 問題:計算機不理解詞的意思(只認識字符串)
2. 如何預測下一個詞?
- 問題:需要建立語言模型來預測下一個詞
- 問題:如何表示序列概率?
當前技術
1. 分佈式表示(1940s-1986)
- 關鍵論文:McCulloch & Pitts (1943)、Rumelhart et al. (1986)、Hinton (1986)
- 核心思想:神經網絡通過反向傳播自動學習詞向量,相似詞得到相似向量
- 核心目的:向量化的核心目的是語義理解和自動泛化,以解決手工規則的不可行性問題(手工寫規則寫不完、遇到新詞無法處理、計算機不理解詞的意思)
- 工作機制:神經網絡自動學習詞向量,相似詞自動得到相似向量
2. 統計語言模型(1990)
- 關鍵論文:Brown et al. (1990) - A statistical approach to machine translation
- 核心思想:將語言建模為概率分佈,下一個詞的概率取決於前面所有詞
- 序列概率模型:\(p(w_t \mid w_{1:t-1})\)
- 為什麼激進:不包含任何語法結構(名詞、動詞?那是什麼?),只靠統計
✅ 解決到哪種程度
解決的問題:
- ✅ 表示問題:神經網絡自動學習詞向量,解決了手工規則的不可行性
- ✅ 預測問題:引入了序列概率模型,可以預測下一個詞
遺留的問題:
- ❌ 維度災難:詞彙量巨大(100萬詞),組合爆炸,數據稀疏
- 如果考慮所有前面的詞:詞彙量100萬詞 × 序列長度100詞 → 可能的組合約 \(10^{600}\)(計算不可行)
- 估計序列概率 \(p(w_t \mid w_{1:t-1})\)
- ❌ 馬爾可夫假設的妥協:為了解決維度災難,只看前 \(N\) 個詞(如 \(N=3\))
- 可能的組合約 \(10^{18}\)(雖然還是很大,但至少可計算)
- 代價:犧牲了長距離依賴(第1個詞無法直接影響第100個詞,第11個詞開始完全看不見)
- 本質:在計算可行性(維度災難)和長距離依賴之間做妥協,選擇計算可行性
哲學思考:這是技術演進中的第一次重要折中。馬爾可夫假設犧牲了"完美理解"的理想(考慮所有前面的詞),選擇了"可行性"的現實(只看前N個詞)。正如莊子所言"萬物皆有所待",這種理想方案依賴於無限的計算資源,而現實中的計算資源是有限的。這是一種"後退"——放棄完美理解,但正是這種"後退"讓技術變得"向前"可行。
產生了什麼樣的新問題
1. 固定窗口限制
- 問題:只看前 \(N\)
- 問題:第11個詞開始完全看不見(固定窗口截斷,不是逐漸遺忘)
2. 無法捕獲長距離依賴
- 問題:第1個詞無法直接影響第100個詞
- 問題:長距離的語義關係無法捕獲
3. 需要序列模型
- 問題:固定窗口無法捕獲序列結構
- 問題:需要能夠處理變長序列的模型
階段二:神經語言模型時代(2003-2013)
背景
階段一的遺留問題:
- 序列概率模型已經引入,但遇到維度災難
- 馬爾可夫假設犧牲了長距離依賴
- 固定窗口無法處理變長序列
核心問題:如何在序列概率模型基礎上,用神經網絡自動學習,解決統計模型的維度災難?
❌ 當前問題
1. 統計模型的維度災難
- 問題:詞彙量巨大組合爆炸(100萬詞)
- 問題:數據稀疏無法估計概率(永遠無法遇到所有可能的組合)
- 問題:需要手工統計所有組合的概率
2. 固定窗口的限制
- 問題:仍然是固定窗口(只看前 \(N\)
- 問題:無法處理變長序列
當前技術
Bengio的突破(2003)
- 關鍵論文:Bengio et al. (2003) - A neural probabilistic language model
- 核心創新:
- 詞嵌入:每個詞 → 固定維度向量(如100維),相似詞自動得到相似向量
- 神經網絡聯合學習:前 \(N\)
- 核心目的:神經語言模型的核心目的是用神經網絡自動學習序列概率,以解決統計模型維度災難的不可行性問題(詞彙量巨大組合爆炸、數據稀疏無法估計概率)
- 工作機制:在已有序列概率模型基礎上(階段一已引入),用神經網絡來自動學習序列概率,解決統計模型的維度災難(不需要手工統計,神經網絡自動學習)
- 關鍵貢獻:明確了後續LLM的自迴歸訓練目標(預測下一個詞)
✅ 解決到哪種程度
解決的問題:
- ✅ 維度災難:用神經網絡自動學習序列概率,不需要手工統計所有組合
- ✅ 自動學習:神經網絡自動學習詞向量和序列概率
遺留的問題:
- ❌ 仍然是固定窗口:只看前 \(N\)
- ❌ 計算成本高:需要遍歷所有詞彙表計算概率(10萬個詞 → 10萬次前向傳播)
- ❌ 無法捕獲序列結構:前饋網絡是位置無關的("貓追狗"和"狗追貓"可能一樣)
產生了什麼樣的新問題
1. 固定窗口和位置無關的限制
- 問題:無法處理變長序列
- 問題:無法捕獲順序性語義("貓追狗"和"狗追貓"可能一樣)
2. 需要循環結構
- 問題:需要能夠逐步處理序列的模型
- 問題:需要能夠捕獲順序的模型
階段三:序列到序列+注意力時代(2013-2017)
背景
階段二的遺留問題:
- 仍然是固定窗口,無法處理變長序列
- 無法捕獲序列結構(位置無關)
- 需要循環結構來處理序列
核心問題:如何處理變長序列?如何捕獲順序性語義?
哲學思考:RNN的循環結構試圖通過逐步累積信息來實現"完美理解"——想要記住所有上下文信息。但這又陷入了"多則惑"的陷阱——信息過載,上下文負擔太重。注意力機制的引入,標誌着從"完全理解"向"按需訪問"的哲學轉向——不需要記住所有信息,但在需要時可以主動去調用。這正是"少則得,多則惑"的智慧。
❌ 當前問題
1. 固定窗口(只看前10個詞)
- 問題:只看前 \(N\)
- 問題:無法處理任意長度的序列
2. 無法捕獲序列結構(位置無關)
- 問題:前饋網絡只看詞的集合,不看順序
- 問題:"貓追狗"和"狗追貓"可能一樣(無法區分)
3. 信息瓶頸(Seq2Seq的問題)
- 問題:固定大小的向量無法編碼所有信息(13個詞的信息壓縮到256維,信息丟失)
- 問題:隨着序列變長,隱藏狀態需要存儲越來越多信息(信息過載)
- 問題:長距離信息經過多個時間步傳遞,容易丟失
當前技術
1. Seq2Seq框架(2013-2014)
- 關鍵論文:Kalchbrenner & Blunsom (2013)、Cho et al. (2014)、Sutskever et al. (2014)
- 核心架構:
編碼器:源序列 → RNN逐步處理 → 最後一個隱藏狀態(固定大小的向量)
解碼器:向量表示 → RNN逐步生成 → 目標序列
- 工作機制:
- 解決固定窗口:RNN可以逐步處理整個序列,從第一個詞到最後一個詞,不受固定窗口限制
- 解決序列結構:RNN的隱藏狀態會累積之前所有詞的信息,順序不同,累積的信息不同
- 核心機制:RNN的循環結構,逐步累積信息,順序不同,隱藏狀態不同
- RNN的核心價值:主要解決順序性的語義問題
- 順序性:詞的前後順序很重要("貓追狗"≠"狗追貓")
- 語義問題:順序不同,語義不同(主語、賓語、動作的關係不同)
2. 注意力機制(2014)
- 關鍵論文:Bahdanau et al. (2014) - Neural machine translation by jointly learning to align and translate
- 核心問題:固定大小的向量無法編碼所有信息(信息瓶頸)
- 工作機制:解碼器不再只依賴最後一個隱藏狀態,而是可以按需訪問編碼器的所有隱藏狀態
- 不再把13個詞的信息壓縮到1個向量
- 而是存儲13個隱藏狀態(每個詞一個)
- 解碼時按需訪問(需要哪個詞的信息就訪問哪個)
- 核心思想:對齊 + 加權求和(決定源序列的哪個部分與目標詞相關)
3. 自注意力(2016)
- 關鍵論文:Cheng et al. (2016)
- 核心思想:編碼器內部也可以相互關注(序列中的每個位置可以關注序列中的所有其他位置)
4. CNN在NLP中的嘗試(2014-2017)
- 關鍵論文:Kim (2014) - Convolutional Neural Networks for Sentence Classification
- CNN的優勢:可以並行化(卷積操作可以並行計算)
- CNN的問題:
- 只能捕獲局部依賴(卷積核大小有限,只能看到局部窗口內的詞)
- 無法捕獲長距離依賴(需要多層卷積才能"看到"更遠)
- 不適合序列順序(CNN的空間不變性不適合NLP的順序性語義問題)
✅ 解決到哪種程度
解決的問題:
- ✅ 變長序列:RNN可以處理任意長度的序列
- ✅ 順序性語義:RNN可以捕獲順序性語義("貓追狗"≠"狗追貓")
- ✅ 信息瓶頸:注意力機制解決了信息瓶頸(按需訪問,不需要壓縮所有信息)
遺留的問題:
- ❌ RNN的串行計算:必須按順序處理序列,無法並行化(GPU再強也沒用)
- ❌ 長距離依賴仍然困難:信息需要經過多個時間步傳遞,容易丟失
- ❌ 信息瓶頸仍然存在:長序列仍然困難(100個詞 → 需要存儲100個隱藏狀態)
產生了什麼樣的新問題
1. 串行計算的限制
- 問題:RNN必須串行計算,無法並行化
- 問題:訓練速度慢,GPU無法充分利用
2. 長距離依賴仍然困難
- 問題:信息需要經過多個時間步傳遞,容易丟失
- 問題:梯度可能消失(訓練時梯度傳遞困難)
3. 需要並行化
- 問題:需要能夠並行計算的架構
- 問題:需要能夠直接連接長距離依賴的架構
階段四:Transformer+預訓練時代(2017-2020)
背景
階段三的遺留問題:
- RNN的串行計算限制了並行化
- 長距離依賴仍然需要經過多個時間步傳遞
- 注意力機制解決了信息瓶頸,但RNN限制了並行化
歷史背景:
- 2014年:注意力機制被引入Seq2Seq(解決信息瓶頸)
- 2016年:自注意力被提出(編碼器內部相互關注)
- 2017年:Transformer誕生(純注意力架構,拋棄RNN)
核心問題:如何同時實現並行化和長距離依賴?
❌ 當前問題
1. RNN的串行計算
- 問題:必須按順序處理序列,無法並行化(GPU再強也沒用)
- 問題:訓練速度慢
2. 長距離依賴仍然困難
- 問題:信息需要經過多個時間步傳遞,容易丟失
- 問題:O(T)距離(需要經過T個時間步傳遞)
3. 信息瓶頸仍然存在
- 問題:長序列仍然困難(100個詞 → 需要存儲100個隱藏狀態)
當前技術
1. Transformer革命(2017)
- 關鍵論文:Vaswani et al. (2017) - Attention is all you need
- 核心思路:注意力機制已經包含了RNN的核心功能!
- RNN的核心功能:順序處理序列、捕獲順序性語義、累積上下文信息
- 注意力機制也能做到:可以同時關注序列的所有位置、可以通過位置編碼捕獲順序、可以按需訪問信息
- 結論:注意力機制可以替代RNN!而且還有並行化優勢!
哲學思考:這是技術演進中最深刻的哲學轉折。CNN和RNN都試圖追求"完美理解"——CNN想要完美捕獲所有局部依賴,RNN想要完美累積所有歷史信息。但正如莊子所言"萬物皆有所待",這種理想需要無限的計算資源,在現實世界中不可行。
Transformer的"按需訪問"策略,是對"完美理解"烏托邦的告別,是對現實的妥協。但正如老子所言"後退是向前",這種看似"後退"(放棄完美理解)的策略,反而讓技術"向前"走得更遠——獲得了並行化、長距離依賴、可擴展性。
這是"少則得,多則惑"的最佳印證:簡單但可擴展的注意力機制,勝過了複雜但不可擴展的RNN和CNN。
純注意力架構的工作機制:
1. 自注意力機制(Self-Attention)
- 核心思想:序列中的每個位置都可以直接關注序列中的所有其他位置
- 工作機制:
輸入序列:"The cat chased the mouse"
步驟1:計算注意力權重(哪些詞相關?)
步驟2:加權求和(按權重組合信息)
→ 每個位置都能看到序列中的所有其他位置!
→ 不再需要RNN的循環傳遞信息!
- 關鍵公式:注意力 = softmax(Q × K^T / √d) × V
2. 多頭自注意力(Multi-Head Self-Attention)
- 核心思想:多個注意力頭同時關注不同關係(語法、語義、位置等)
- 工作機制:不同頭關注不同的關係,綜合所有頭的信息
3. 位置編碼(Positional Encoding)
- 核心問題:注意力機制本身是位置無關的("貓追狗"和"狗追貓"會得到相同的注意力權重)
- 解決方案:顯式添加位置信息(詞嵌入 + 位置編碼 = 語義信息 + 位置信息)
- 工作機制:通過位置編碼,讓"貓追狗"和"狗追貓"得到不同的表示
4. 編碼器-解碼器架構
- 編碼器:輸入序列 → 多頭自注意力 → 前饋網絡 → 編碼表示
- 解碼器:編碼表示 → 多頭自注意力 → 前饋網絡 → 輸出序列
關鍵創新:
- 拋棄RNN和CNN:完全基於注意力機制
- 多頭自注意力:多個注意力頭同時關注不同關係
- 位置編碼:顯式添加位置信息
- 殘差連接和層歸一化:使深層網絡可訓練
2. GPT-1:生成式預訓練(2018)
- 關鍵論文:Radford et al. (2018) - Improving language understanding by generative pre-training
- 核心方法:大規模自監督預訓練 + 任務微調
- 關鍵洞察:預訓練+微調範式,數據需求減少1000倍!
3. BERT:雙向理解(2018)
- 關鍵論文:Devlin et al. (2018) - BERT: Pre-training of deep bidirectional transformers
- 核心創新:Masked Language Model (MLM) + 雙向編碼
- 應用場景:判別式任務(BERT更強)vs 生成式任務(GPT更強)
✅ 解決到哪種程度
解決的問題:
- ✅ 並行化:所有位置同時計算(矩陣運算,GPU友好),訓練速度提升10-100倍!
- ✅ 長距離依賴:直接連接所有位置(O(1)距離,不再需要經過多個時間步),信息不會丟失
- ✅ 順序性語義:通過位置編碼捕獲順序信息,可以區分"貓追狗"和"狗追貓"
- ✅ 預訓練:大規模自監督預訓練 + 任務微調,解決了"如何利用無標籤數據"的問題
與前作的差異:
|
維度
|
RNN(階段三)
|
CNN(嘗試)
|
Transformer(階段四)
|
|
並行化 |
❌ 串行計算
|
✅ 可以並行
|
✅ 完全並行 |
|
長距離依賴 |
⚠️ O(T)距離,容易丟失
|
❌ 只能局部
|
✅ O(1)距離,不丟失 |
|
順序性語義 |
✅ 逐步處理
|
❌ 空間不變性
|
✅ 位置編碼 |
|
計算效率 |
❌ 慢
|
⚠️ 中等
|
✅ 快(10-100倍) |
遺留的問題:
- ❌ 計算複雜度O(n²):注意力機制的計算複雜度是O(n²),序列越長,計算量指數增長
- ❌ 需要大量算力和數據:GPT-1需要TPU訓練數週,成本數萬美元
- ❌ 泛化能力有限:需要微調才能在特定任務上表現好,零樣本能力有限
- ❌ 位置編碼的侷限性:位置編碼是固定的(正弦/餘弦),無法學習位置關係
產生了什麼樣的新問題
1. 規模和泛化能力的關係
- 問題:更大的模型是否意味着更強的能力?
- 問題:能否不微調就執行各種任務?
2. 計算複雜度問題
- 問題:O(n²)的計算成本限制了序列長度(如GPT-3的上下文窗口是2048個token)
- 問題:雖然解決了長距離依賴,但計算成本限制了實際應用
3. 需要更好的泛化
- 問題:零樣本能力有限,需要微調
- 問題:預訓練+微調範式雖然有效,但還不夠通用
哲學思考:Transformer的"按需訪問"策略,雖然解決了並行化和長距離依賴的問題,但也帶來了新的代價——計算複雜度O(n²),以及按需訪問可能導致的幻覺問題。這再次印證了"萬物皆有所待"——沒有完美的技術,只有在不同約束下的折中選擇。Transformer獲得了可行性和擴展性,但也付出了準確性和計算成本的代價。
階段五:規模化+對齊時代(2020-2025)
背景
階段四的遺留問題:
- 規模和泛化能力的關係仍未明確
- 零樣本能力有限,需要微調
- 計算複雜度O(n²)限制了序列長度
核心問題:更大的模型是否意味着更強的能力?能否實現零樣本學習?
❌ 當前問題
1. 規模和泛化能力的關係
- 問題:更大的模型是否意味着更強的能力?
- 問題:能否不微調就執行各種任務?
2. 對齊問題
- 問題:如何讓模型輸出更符合人類偏好?
- 問題:如何減少有害內容,提升有用性?
當前技術
1. GPT-2:零樣本學習(2019)
- 關鍵論文:Radford et al. (2019) - Language models are unsupervised multitask learners
- 核心發現:無需微調,模型就能執行各種任務!
- 關鍵因素:15億參數(vs GPT-1的1.17億,13倍增長)+ 40GB數據(8倍增長)
2. GPT-3:少樣本學習(2020)
- 關鍵論文:Brown et al. (2020) - Language models are few-shot learners
- 核心創新:In-Context Learning(上下文學習)
輸入:給幾個例子
輸出:模型自動學習模式(無需訓練!)
- 模型規模:1750億參數(vs GPT-2的15億,117倍增長),成本數百萬美元
3. 規模定律(2020)
- 關鍵論文:Kaplan et al. (2020) - Scaling laws for neural language models
- 核心發現:能力 ∝ (參數數量)^α × (數據量)^β × (計算量)^γ
- 關鍵洞察:簡單但可擴展的方法勝過聰明但不可擴展的方法
4. 涌現能力(2022)
- 關鍵論文:Wei et al. (2022) - Emergent abilities of large language models
- 核心發現:小模型沒有這些能力,大模型突然出現這些能力(Chain-of-Thought推理、數學能力、代碼生成等)
- 關鍵問題:為什麼會涌現?機制是什麼?
5. RLHF:對齊的突破(2020-2022)
- 關鍵論文:Stiennon et al. (2020)、Ouyang et al. (2022)
- 核心方法:三階段訓練(監督微調 → 獎勵模型訓練 → 強化學習PPO)
- 關鍵效果:模型輸出更符合人類偏好,減少有害內容,提升有用性
✅ 解決到哪種程度
解決的問題:
- ✅ 零樣本/少樣本學習:更大規模的模型(GPT-2/GPT-3)實現了零樣本和少樣本學習
- ✅ 規模定律:明確了規模與能力的關係(能力 ∝ 參數數量^α × 數據量^β × 計算量^γ)
- ✅ 對齊:RLHF解決了"如何對齊"的問題(模型輸出更符合人類偏好)
遺留的問題:
- ❌ 涌現機制不明:無法解釋為什麼在某個規模閾值突然出現新能力
- ❌ 對齊挑戰:如何定義"對齊"?如何確保模型真正理解指令?
- ❌ 幻覺問題:模型會生成看似合理但錯誤的信息
- ❌ 成本與規模:更大規模的模型需要更多資源(只有大公司才能承擔)
產生了什麼樣的新問題
1. 涌現機制
- 問題:為什麼會涌現?機制是什麼?
- 問題:無法解釋為什麼在某個規模閾值突然出現新能力
2. 對齊理論
- 問題:如何形式化定義"對齊"?
- 問題:如何確保模型真正理解指令?
3. 幻覺問題
- 問題:模型會生成看似合理但錯誤的信息
- 問題:如何減少幻覺?
4. 成本與規模
- 問題:更大規模的模型需要更多資源
- 問題:只有大公司才能承擔訓練成本
關鍵論文時間線
基礎(1940s-2003)
- 1943: McCulloch & Pitts - 人工神經元
- 1986: Rumelhart et al. - 反向傳播;Hinton - 分佈式表示
- 1990: Brown et al. - 統計機器翻譯
- 2003: Bengio et al. - 神經概率語言模型
序列到序列+注意力(2013-2016)
- 2013-2014: Seq2Seq框架(Kalchbrenner, Cho, Sutskever)
- 2014: Bahdanau et al. - 注意力機制
- 2015: Luong et al. - 注意力分類
- 2016: Cheng et al. - 自注意力
Transformer時代(2017-2018)
- 2017: Vaswani et al. - Transformer
- 2018: Radford et al. - GPT-1;Devlin et al. - BERT
規模化時代(2019-2022)
- 2019: Radford et al. - GPT-2
- 2020: Brown et al. - GPT-3;Kaplan et al. - 規模定律;Stiennon et al. - RLHF
- 2022: Ouyang et al. - InstructGPT;Wei et al. - Chain-of-Thought & 涌現能力
現代LLM(2023-2025)
- 2023: OpenAI - GPT-4;Anthropic - Claude;Google - Gemini;Meta - LLaMA 2
- 2025: DeepSeek - DeepSeek-R1
核心洞察
核心教訓
- 簡單性價值:簡單但可擴展的方法往往是最好的(Transformer證明了這一點)
- 規模的力量:不要低估規模帶來的質變(GPT-2到GPT-3的跨越)
- 歷史的重要性:理解歷史才能避免重複發明
- 矛盾與演進:每個階段的突破都解決了上一階段的問題,但又帶來了新的挑戰
關鍵啓示
對研究者:理解Transformer是理解現代AI的基礎,規模的力量不容小覷
對工程師:實踐優先,理論理解需要配合實際應用,持續學習很重要
對決策者:計算資源和數據是核心競爭力,對齊和安全需要從開始就考慮
技術哲學:理想與折中
理想方案的困境
CNN和RNN的"烏托邦"理想:
- CNN:試圖通過卷積操作完全理解所有局部模式(想要完美捕獲所有局部依賴)
- RNN:試圖通過循環結構完全記住所有上下文信息(想要完美累積所有歷史信息)
- 共同特點:都追求"完美理解"——想要掌握所有信息,完全理解整個序列
理想方案的問題:
- ❌ 計算不可行:完全理解需要無限的計算資源
- ❌ 信息過載:試圖存儲和處理所有信息,導致信息過載
- ❌ 系統脆弱:對硬件和軟件的限制敏感,難以擴展
Transformer的折中智慧
注意力機制的"按需訪問"策略:
- 核心思想:不再試圖完全理解所有信息,而是按需訪問相關信息
- 工作機制:不需要記住所有信息,但在需要時可以主動去調用
- 本質:這是一種折中方案,犧牲了一定的準確性,換取了可行性和擴展性
折中的代價與收益:
- ✅ 可行性:計算複雜度從理想方案的不可行降到了O(n²)(雖然還是很高,但至少可計算)
- ✅ 擴展性:可以處理更長的序列,可以擴展到更大的模型
- ✅ 效率:只需要關注相關信息,不需要處理所有信息
- ⚠️ 準確性:犧牲了一定的準確性(可能遺漏某些信息)
- ⚠️ 幻覺問題:按需訪問可能導致模型在需要時調用錯誤的信息,產生幻覺
"萬物皆有所待":向現實的妥協
莊子《逍遙遊》的智慧:
"萬物皆有所待"——所有事物都依賴於一定的條件
技術演進的哲學:
- 理想的烏托邦方案(CNN/RNN):追求完美理解,但需要無限資源
- 現實的折中方案(Transformer):向現狀妥協,接受侷限性,但獲得可行性
- 本質:理想方案往往需要向現狀妥協,技術演進就是在完美與可行之間找到平衡
人腦的啓示:
- 人腦的工作方式:並不是完全記住所有信息,而是按需訪問相關信息
- 注意力機制:Transformer的注意力機制與人腦的注意力機制非常相似
- 啓示:也許"按需訪問"而不是"完全理解"才是智能的本質
後退是向前:少則得,多則惑
老子的智慧:
- "少則得,多則惑":簡單的方法往往更有效,複雜的方法反而容易迷惑
- "後退是向前":有時候後退一步(放棄完美),反而能走得更遠
技術演進的印證:
- CNN/RNN:追求完美(完全理解),反而受到限制(計算不可行)
- Transformer:放棄完美(按需訪問),反而走得更遠(可行且強大)
核心洞察:
理想方案往往需要向現實妥協。Transformer的"按需訪問"策略雖然犧牲了一定的準確性,但正是這種折中讓它獲得了可行性和擴展性,從而成為了現代AI的基礎。這種折中智慧,正如莊子所言"萬物皆有所待",也正如老子所言"少則得,多則惑"。
更深層的哲學思考:
技術演進的歷史,也是一部"理想與折中"的哲學史:
- 手工規則系統:追求"完美定義"的理想,但受限於人類編寫規則的能力(萬物皆有所待)
- 馬爾可夫假設:追求"完美理解"的理想(考慮所有前面的詞),但受限於計算資源,選擇折中(只看前N個詞)
- RNN的循環結構:追求"完美記憶"的理想(累積所有歷史信息),但受限於信息過載和串行計算
- Transformer的按需訪問:放棄"完美理解"的理想,選擇"按需訪問"的折中,反而獲得了可行性和擴展性("少則得,多則惑")
- 幻覺問題:這是折中的代價——按需訪問雖然讓Transformer變得強大,但也可能導致調用錯誤信息。萬物皆有所待,沒有完美的技術。
哲學啓示:
- "萬物皆有所待":所有技術都依賴於一定的條件,理想方案往往需要無限資源
- "少則得,多則惑":簡單但可擴展的方法,往往勝過複雜但不可擴展的方法
- "後退是向前":有時候放棄完美,反而能走得更遠
這正是從CNN/RNN到Transformer演進的核心哲學——在理想與折中之間尋找平衡,在完美與可行之間做出選擇。
當前的問題:幻覺的根源
幻覺問題的本質:
- 問題:Transformer的按需訪問可能導致模型在需要時調用錯誤的信息
- 根源:模型並不掌握所有知識,只是在需要時"猜測"相關信息
- 悖論:正是這種折中策略讓Transformer變得強大,但也正是這種策略導致了幻覺問題
未來的挑戰:
- 如何平衡:如何在"按需訪問"和"準確性"之間找到更好的平衡?
- 如何減少幻覺:如何在保持可行性的同時減少幻覺?
- 新的折中:是否會有新的折中方案,既能保持Transformer的優勢,又能減少幻覺?
哲學反思
技術演進的啓示
從CNN/RNN到Transformer的演進,反映了技術發展的一個深刻道理:
- 理想vs現實:理想方案(完美理解)往往不可行,需要向現實妥協
- 折中的智慧:折中方案(按需訪問)雖然不完美,但更實用
- 萬物皆有所待:所有技術都依賴於一定的條件(硬件、軟件、計算資源)
- 後退是向前:有時候放棄完美,反而能走得更遠
對於AI未來的思考:
- 也許"完美理解"不是智能的本質
- 也許"按需訪問"才是智能的本質
- 也許我們需要接受這種折中,並在此基礎上尋找更好的平衡
正如莊子所言:"萬物皆有所待",技術演進也是如此。
最終哲學思考:
大語言模型的技術演進,本質上是一場關於理想與折中的永恆對話。每一個階段的技術選擇,都反映了在面對完美理解的烏托邦理想與計算可行性的現實約束之間的權衡。
- CNN和RNN代表了人類對"完美理解"的執着追求——想要完全理解所有信息,完全記住所有上下文。但正如莊子所言"萬物皆有所待",這種理想需要無限的計算資源,在現實世界中不可行。
- Transformer代表了"折中智慧"的勝利——放棄完美理解,採用"按需訪問"。不需要掌握所有知識,但在需要時可以主動去調用。正如老子所言"少則得,多則惑",這種看似"後退"的方案,反而讓技術"向前"走得更遠。
- 幻覺問題正是這種折中的代價和警示——按需訪問雖然讓Transformer變得強大且可行,但也可能導致模型在需要時調用錯誤的信息。這提醒我們:萬物皆有所待,沒有完美的技術,只有在不同約束下的折中選擇。
對未來的哲學啓示:
也許,未來的AI技術演進,不是追求更完美的理解,而是尋找更好的折中——在"按需訪問"和"準確性"之間找到更精妙的平衡。正如莊子所言"萬物皆有所待",我們需要接受技術的侷限性,並在這種侷限性中尋找最優解。
也許,"按需訪問"而不是"完全理解",才是智能的本質——這不僅符合Transformer的設計,也符合人腦的工作方式。萬物皆有所待,智能也是如此。
延伸閲讀
必讀資源
- 原始論文:Transformer (2017)、GPT-1/2/3、BERT、Scaling Laws
- 博客和教程:The Illustrated Transformer (Jay Alammar)、The Annotated Transformer (Harvard NLP)
- 相關歷史文章:The Bitter Lesson (Rich Sutton)
結語:大語言模型的發展就像打怪升級:每解決一個Boss(問題),就會遇到新的Boss(新問題)。但好消息是,每個新Boss都比上一個弱一點(因為我們越來越強),直到現在我們站在GPT-4的肩膀上,還在琢磨:這玩意兒到底怎麼工作的?
理解這段歷史不僅有助於理解現在(知道我們是怎麼走到這裏的),也有助於預測未來(知道我們可能會遇到什麼問題)。就像看歷史書一樣,雖然不能完全預測未來,但至少知道歷史會重複。