博客 / 列表

大模型玩家七七 - 從零開始:PPO 微調大模型實戰(基於 PyTorch)

從零開始:PPO 微調大模型實戰(基於 PyTorch) PPO 真正難的,不是算法本身 如果你已經看過一些 PPO 的原理文章,大概率會有過這種感覺: 好像每個字都認識,但真讓我自己寫代碼,腦子還是一片空白。 這其實挺正常的。 至少我第一次準備動手寫 PPO 的時候,也是這種狀態。 問題不在你,而在 PPO 本身。 在論文裏,PPO 看起來是一個乾淨利落的算法; 但一旦落到工程裏,它

AI

大模型玩家七七 - RAG 選型避坑:5 種主流方案對比,輕量場景 vs 大規模場景怎麼選?

RAG 選型避坑:5 種主流方案對比,輕量場景 vs 大規模場景怎麼選? RAG選型核心邏輯,避開90%團隊踩過的坑 最近和多家企業的AI技術負責人深度交流,發現一個共性痛點:RAG(檢索增強生成)作為解決大模型“知識過期”“幻覺”的核心技術,80%的團隊都在選型上栽了跟頭——要麼用輕量方案硬扛大規模數據,導致檢索延遲飆升至3秒以上;要麼用複雜方案給小場景做“過度設計”,服務器成本翻倍卻沒提升效果

軟件設計

大模型玩家七七 - 10 萬文檔 RAG 落地實戰:從 Demo 到生產,我踩過的所有坑

10 萬文檔 RAG 落地實戰:從 Demo 到生產,我踩過的所有坑 引言:RAG 為什麼在企業級場景“必選但難用” 在過去一年裏,RAG(Retrieval-Augmented Generation)幾乎成了企業落地大模型的標準配置。 原因很簡單: 企業數據高度私有,無法直接丟給大模型訓練 業務知識更新頻繁,微調成本高、週期長 需要“可控、可解釋、可追溯”的回答來源 但當你真的把 RA

AI

大模型玩家七七 - 大模型微調評測入門:看懂這些指標,才知道模型好不好

大模型微調評測入門:看懂這些指標,才知道模型好不好 從“瞎評”到“精準評”:大模型微調核心評測指標全拆解 大家好,我是七七!最近後台收到很多粉絲的共性提問:“我用LoRA微調了Llama 2 7B模型做情感分析,怎麼判斷它好不好用?”“微調後的文案生成模型,憑感覺比原版好,但是怎麼證明?” 這其實戳中了大模型微調的一個核心痛點——很多新手只關注“怎麼調”,卻忽略了“怎麼評”。不少人微調完模型,僅

AI

大模型玩家七七 - 民用卡 vs 專業卡 vs 雲 GPU:大模型微調該選哪種?

民用卡 vs 專業卡 vs 雲 GPU:大模型微調該選哪種? 大模型微調 GPU 選型無優劣,核心是場景與成本的精準適配 大家好,我是七七!最近後台收到的GPU選型問題快堆成山了:學生黨問“16G民用卡能不能微調7B模型”,小團隊糾結“買專業卡還是租雲GPU”,企業負責人困惑“大規模微調該配多少張專業卡集羣”。 其實三類GPU沒有絕對的“好壞”,只有“適配與否”。之前幫一個跨境電商小團隊選型,他

AI

大模型玩家七七 - 顯存不夠?16G顯卡駕馭13B模型的計算與優化全指南

顯存不夠?16G顯卡駕馭13B模型的計算與優化全指南 低顯存逆襲,16G 顯卡駕馭 13B 模型的核心邏輯 大家好,我是七七!之前收到很多粉絲私信,核心痛點就一個:手裏只有16G顯卡,想微調13B模型提升效果,可要麼算錯顯存盲目下載後直接OOM(顯存溢出),要麼覺得“16G肯定不夠”直接放棄,眼睜睜看着別人用13B模型做出更優效果。 其實16G顯卡跑13B模型不是“天方夜譚”,關鍵在於兩點:一是

後端

大模型玩家七七 - 大模型成本刺客退散!1/3算力跑出同等效果的秘訣

大模型成本刺客退散!1/3算力跑出同等效果的秘訣 破解算力成本難題,1/3 算力實現同等效果 大家好,我是七七!前陣子幫一個創業團隊做大模型落地諮詢,他們吐槽最狠的就是算力成本——微調一個7B模型,用雲GPU跑一次要花800塊,推理時高併發場景每月算力賬單超2萬,本來小團隊預算就緊,硬生生被算力拖慢了項目進度。 其實這是很多人和企業的共同痛點:做大模型微調與推理,要麼盲目堆硬件、拉滿參數,導致算

AI

大模型玩家七七 - 微調 + RAG 組合方案:1+1>2 的大模型應用技巧

微調 + RAG 組合方案:1+1>2 的大模型應用技巧 微調 + RAG 互補發力,解鎖大模型 1+1>2 效果 大家好,我是七七!上個月幫一家連鎖藥店做智能客服項目,一開始踩了個大坑:只用微調,模型對最新的醫保政策一問三不知;只用RAG,模型又看不懂專業的醫學術語,回答總是驢唇不對馬嘴。後來我把微調與RAG結合起來,先用行業數據微調模型讓它“懂醫學”,再用RAG掛載實時醫保知識庫讓它“知政策

後端

大模型玩家七七 - 大模型從“瞎聊”到“幹活”:指令微調核心邏輯全拆解

大模型從“瞎聊”到“幹活”:指令微調核心邏輯全拆解 指令微調破局,讓大模型從 “瞎聊” 變 “能幹” 大家好,我是七七!剛入門大模型時,我總被一個問題困擾:明明Llama 2、Qwen這些模型能聊天説地,可一讓它幹具體活就掉鏈子——讓它寫電商文案,通篇空話套話;讓它整理會議紀要,邏輯混亂漏重點;讓它做客服話術,答非所問不專業。 後來才明白,預訓練大模型就像“剛識字的小孩”,只會基礎的語言表達,卻

AI

大模型玩家七七 - 企業大模型微調別亂花錢!從ROI看值不值(附測算工具)

企業大模型微調別亂花錢!從ROI看值不值(附測算工具) 企業微調避坑:以 ROI 為核心把控成本 大家好,我是七七!上個月幫朋友的電商公司做技術諮詢,他們老闆一拍腦袋要花20萬買GPU服務器,給大模型做微調,説“別人都調,我們也得跟上”。我幫他們算完賬發現:他們的客服對話任務用現成的Qwen 7B加提示詞就能達標,微調後轉化率提升不到2%,投入產出比直接倒掛,最後硬生生把項目攔了下來。 其實這是

AI

大模型玩家七七 - 5 分鐘搞懂開源大模型選型核心維度,16G顯卡也能選對

5 分鐘搞懂開源大模型選型核心維度,16G顯卡也能選對 快速拿捏開源大模型選型,關鍵維度一文説清 大家好,我是七七!剛入門大模型的時候,我踩過最蠢的坑就是“盲目跟風選模型”——當時看到朋友圈都在曬Llama 2 70B,腦子一熱就下載了,結果16G顯卡直接OOM(顯存溢出),折騰了整整一天,最後發現自己只是想做個簡單的中文情感分析,根本用不上70B模型。 後來跟身邊的技術大佬聊才明白:開源大模型

AI

大模型玩家七七 - 16G顯卡也能調大模型?先搞懂顯存消耗的3大核心原因

16G顯卡也能調大模型?先搞懂顯存消耗的3大核心原因 (一)引言:為什麼顯存是大模型微調的“攔路虎”? 大家好,我是七七,看到經常有網友:“博主,我用16G顯卡微調7B模型,一跑就報OOM(顯存溢出),是不是必須換24G以上的卡?”“同樣是微調13B模型,為什麼別人單卡能跑,我卻要多卡並行?” 其實在大模型微調場景裏,顯存不足是最常見的“踩坑點”,尤其是中小開發者、學生黨和個人研究者,手

後端

大模型玩家七七 - 告別盲目試錯!大模型微調核心參數的“油門、檔位與里程

告別盲目試錯!大模型微調核心參數的“油門、檔位與里程 (一)引言:參數沒調對,微調全白費 大家好,我是七七!剛入門大模型微調時,我踩過最致命的坑就是“瞎調參數”——拿着7B模型,隨便設個學習率、batch_size就跑訓練,結果要麼模型不收斂(損失一動不動),要麼顯存直接炸了,折騰兩三天都沒調出正經效果。 後來跟身邊的技術大佬請教才明白:大模型微調的核心不是“跑通代碼”,而是“調好參數”。

AI

大模型玩家七七 - 微調完怎麼判斷好不好?大模型效果評估入門指南(附代碼)

微調完怎麼判斷好不好?大模型效果評估入門指南(附代碼) (一)引言:微調評估不是“算個數”,是模型落地的關鍵一步 大家好,我是七七!每天都能看到一堆新手提問,核心就一個:“博主,我把7B模型微調完了,準確率82%,這效果算合格嗎?”“生成任務怎麼判斷模型調得好不好,總不能憑感覺吧?” 其實這也是我剛入門時踩過的坑——當時對着微調完的模型,只知道算個準確率就交差,結果落地到業務場景才發現,要

數據庫