前言
OpenAI發佈的ChatGPT火爆全球以來,全球互聯網大廠陸續跟進,紛紛宣佈了自家的Chat產品,如Google的Bard,百度的文心一言,阿里的通義千問等等。
這些Chat產品背後都是依賴的大語言模型(Large Language Model)。
如果是做一個垂直領域的Chat產品,有2種方案:
- 直接使用商業化產品,前提是商業化產品支持對模型做fine-tune(微調)。比如OpenAI就支持對它的基礎模型做fine-tune來實現個性化的模型。
- 使用開源的大語言模型,對開源模型做fine-tune來實現垂直領域的Chat產品。
本文重點介紹有較大參考價值的開源大語言模型,方便大家快速找到適合自己應用場景的開源模型。
開源大語言模型
| Model | 作者 | 參數量 | 訓練數據量(tokens) | 訓練成本 |
|---|---|---|---|---|
| LLaMA | Meta | 包括 70 億、130 億、330 億、650 億 4 種參數規模 | 1.4萬億 | 2048個A100 GPU |
| Alpaca | Stanford | 70億 | 52k條問答指令數據,指令數據來源於OpenAI的API返回結果 | 500美元數據成本+100美元訓練成本 |
| Vicuna | UC Berkeley, CMU, Stanford, UCSD and MBZUAI | 130億 | 70k條問答指令數據,指令數據來源於用户分享出來的對話記錄 | 300美元 |
| Koala | UC Berkeley | 130億 | 500k條問答直錄功能數據,指令數據來源於網上公開數據集 | 在公共雲計算平台上,預期訓練成本不超過100美元。一台 Nvidia DGX 服務器與8個A100 GPU,需要6個小時訓練完成2個epochs。 |
| Dolly 2.0 | Databricks | 120億 | 15k條問答指令數據,指令數據來源於Databricks員工 | 不到30美元 |
| ChatGLM | 清華大學KEG 實驗室和智譜AI | 60億和1300億共2種參數規模 | 4000億左右,中文和英文token各2000億 | 數百萬人民幣 |
| 鵬程·盤古α | 鵬程實驗室、華為 | 26億、130億和2000億共3種參數規模 | 2500億 | 2048 塊昇騰處理器 |
開源模型有幾個注意點:
- 第一,LLaMA由Meta開源,LLaMA目前僅用於學術、社會公益項目,不能用於商業化項目。
- 第二,Alpaca, Vicuna, Koala基於LLaMA衍生而來,是在LLaMA大語言模型基礎上做了fine-tune得到的,因此訓練成本極低,只需用比較少的指令數據做fine-tune即可。這也是為什麼這幾個模型的訓練成本很低,因為站在了LLaMA這個巨人的肩膀上。另外,這幾個模型由於本質上還是LLaMA,受限於LLaMA的license限制,同樣不能用於商業化目的。
- Dolly 2.0是在EleutherAI pythia模型衍生而來,指令微調的數據集稱為 databricks-dolly-15k,也已開源發佈,包含來自數千名 Databricks 員工的 15,000 個高質量的人工生成的問答數據,專為指令調優大型語言模型而設計。且 databricks-dolly-15k 根據(Creative Commons Attribution-ShareAlike 3.0 Unported License)的許可條款,任何人都可以出於任何目的使用、修改或擴展此數據集,包括商業應用。
- 國內目前開源的主要就是清華主導的ChatGLM,以及華為和鵬程實驗室主導的盤古alpha模型。
訓練模型
如果拿大語言模型做訓練,而不是簡單的指令微調,那訓練成本非常高昂,比如ChatGPT訓練一次的成本在140萬美元左右。
最近微軟開源了DeepSpeed,可以加速大語言模型的訓練,將ChatGPT 1750億參數模型的訓練成本降低到5120美元左右。
其本質是一個開源深度學習訓練優化庫,可以加速ChatGPT模型的訓練,比目前最快的訓練方法快大約15倍,如果想自己訓練大語言模型的可以參考下。
總結
GPT模型現在真的是日新月異,很多是基於基礎模型,結合問答的指令數據對模型做微調而得到的。
現在很多媒體報道的時候喜歡誇大,大家不要看到冒出一個新的開源模型就覺得多麼厲害了,絕大部分都是站在巨人肩膀上做了微調而來的。
上面開源大語言模型的表格也會持續更新,歡迎大家關注下面的開源地址。
開源地址
持續更新的開源大語言模型開源地址: ChatGPT模型教程。
公眾號:coding進階。
個人網站:Jincheng's Blog。
知乎:無忌。
福利
我為大家整理了一份後端開發學習資料禮包,包含編程語言入門到進階知識(Go、C++、Python)、後端開發技術棧、面試題等。
關注公眾號「coding進階」,發送消息 backend 領取資料禮包,這份資料會不定期更新,加入我覺得有價值的資料。還可以發送消息「進羣」,和同行一起交流學習,答疑解惑。
References
- https://mp.weixin.qq.com/s/7CW4p8RgAF3jYGmgefB_eg
- https://mp.weixin.qq.com/s/M-ToNk8SABoP2JG0xLUBxQ