博客 / 列表

fangpin - 深入解析:使用 Triton 實現 Flash Attention2 - 讓大模型訓練飛起來

引言 你是否曾經在訓練大型語言模型時,眼睜睜地看着 GPU 內存不斷飆升,最終因為 OOM(Out of Memory)錯誤而前功盡棄?或者在處理長序列時,發現注意力機制的計算時間呈平方級增長,讓人望而卻步? 如果你有過這樣的經歷,那麼今天這篇文章將為你帶來一個革命性的解決方案:Flash Attention2。更令人興奮的是,我們將通過 Triton 這個強大的 GPU 編程框

歸一化 , 人工智能 , 深度學習 , ide , Python

fangpin - 從0到1:揭秘LLM預訓練前的海量數據清洗全流程

讀完這篇文章,你將用監督微調(SFT)把一個 1.5B 規模的數學模型在 GSM8K 上的零樣本推理正確率從 1.56% → 62.9%,同時把輸出格式遵循率從 18.9% → 100%。我們將完整走通數據集下載、Prompt 架構、訓練配置和評估方法,所有代碼均來自本倉庫 alignment 文件夾,保證可復現與透明。 本文將深入剖析 llm-from-scratch

lua , 人工智能 , 深度學習 , Json , Python

fangpin - 從 0 搭建 LLM 不再難!這個 PyTorch 項目幫你吃透大模型底層邏輯

如果你曾想深入理解大語言模型(LLM)的 “五臟六腑”,卻被框架封裝的黑盒接口、複雜的源碼結構勸退;如果你希望親手實現 Transformer 的每一個組件,而非單純調用transformers庫 —— 那麼今天推薦的這個開源項目,絕對能成為你的 LLM 學習 “腳手架”。 它就是 GitHub 上的 llm-from-scratch(項目地址),一個基於 PyTorch、專為教育設

github , 自定義 , 人工智能 , 深度學習 , 開發者

fangpin - 從 0 搭建 LLM 不再難!這個 PyTorch 項目幫你吃透大模型底層邏輯

如果你曾想深入理解大語言模型(LLM)的 “五臟六腑”,卻被框架封裝的黑盒接口、複雜的源碼結構勸退;如果你希望親手實現 Transformer 的每一個組件,而非單純調用transformers庫 —— 那麼今天推薦的這個開源項目,絕對能成為你的 LLM 學習 “腳手架”。 它就是 GitHub 上的 llm-from-scratch(項目地址),一個基於 PyTorch、專為教育設

AIGC二三事 , llm , BPE , 人工智能 , transformer , 深度學習 , 大模型

fangpin - 從 1.56% 到 62.9%:SFT 推理微調優化實戰

讀完這篇文章,你將用監督微調(SFT)把一個 1.5B 規模的數學模型在 GSM8K 上的零樣本推理正確率從 1.56% → 62.9%,同時把輸出格式遵循率從 18.9% → 100%。我們將完整走通數據集下載、Prompt 架構、訓練配置和評估方法,所有代碼均來自本倉庫 alignment 文件夾,保證可復現與透明。 本文將深入剖析 llm-from-scratch

lua , 人工智能 , 深度學習 , Json , Python