tag llm

標籤
貢獻56
229
12:33 PM · Oct 26 ,2025

@llm / 博客 RSS 訂閱

deephub - DeepSeek-R1 與 OpenAI o3 的啓示:Test-Time Compute 技術不再迷信參數堆疊

過去2年,整個行業彷彿陷入了一場參數競賽,每一次模型發佈的敍事如出一轍:“我們堆了更多 GPU,用了更多數據,現在的模型是 1750 億參數,而不是之前的 1000 億。” 這種慣性思維讓人誤以為智能只能在訓練階段“烘焙”定型,一旦模型封裝發佈,能力天花板就被焊死了。 但到了 2025 年,這個假設徹底被打破了。 先是 DeepSeek-R1 證明了只要給予思考時間,Open-weight

llm , 人工智能 , 深度學習

收藏 評論

火雲大軍 - 程序員應該熟悉的概念(5)MoE

MoE(Mixture of Experts,專家混合模型))是當前大模型(尤其是 GPT-4、Gemini、Mixtral、DeepSeek 等)架構中非常核心的一個概念。 MoE 的思想非常直白:不同的 專家/Expert 只負責處理自己擅長的那一類輸入,而不是讓整個模型的所有參數都去處理所有任務。 也就是説: 一個 MoE 模型內部其實

指尖人生 , llm , 人工智能 , transformer , 深度學習 , MoE

收藏 評論

deephub - 從零開始:用Python和Gemini 3四步搭建你自己的AI Agent

很多人第一次看到 AI Agent 自己編輯文件、跑代碼、修 bug,還能一直運行下去的時候,都覺得挺神奇。其實遠沒有想象中那麼複雜。這裏沒什麼秘密算法,也沒有什麼"智能體大腦"這種玄學概念。 AI Agent核心就三件事:循環 + LLM + 工具函數。 如果你會寫個 while True 循環?那基本就算成功一半了。 這篇文章會完整展示怎麼用 Gemini 3 搭一個真正能用的 Agent:從

llm , agent , 教程 , 人工智能 , 深度學習

收藏 評論

Joas Pambou - On-Device AI: Building Smarter, Faster, And Private Applications

It’s not too far-fetched to say AI is a pretty handy tool that we all rely on for everyday tasks. It handles tasks like recognizing faces, understanding or cloning speech, analyzing large data, and

llm , Techniques , Tools , Apps , AI

收藏 評論

慧星雲 - 一文看懂如何選最適合你的 DeepSeek:最快3分鐘上手可用!

DeepSeek DeepSeek系列模型的現象級爆火,引發國內外廣泛關注與討論熱潮,然而對許多想要投身AI這一風口的個人和企業來説,缺乏專業的技術支持與技術平台,缺少穩定高性價比的算力資源,正成為他們試圖踏入AI領域的重重障礙。 近日,專業AI算力雲平台與AI生產力平台「慧星雲」,重磅推出DeepSeek全面解決方案,以全棧能力釋放國產大模型潛力,助力企業和用户高效接入DeepSeek等

llm , 雲平台 , 部署 , 雲服務 , 人工智能

收藏 評論

deephub - RAG系統的隨機失敗問題排查:LLM的非確定性與表格處理的工程實踐

RAG教程裏説的流程是:分塊、嵌入、向量搜索、生成答案。看起來非常簡單,按這個思路搭了一套系統,測試沒問題就上線了。但是結果出了怪事,經常會隨機的失敗。 輸入一樣,但是輸出卻不一樣,而且這不是偶發,是還有一定的規律,這是怎麼回事呢? 本文將介紹RAG在真實場景下為什麼會崩,底層到底有什麼坑,以及最後需要如何修改。 🚨 現象:測試結果飄忽不定 一套端到端的PDF處理管道,專門針對表格密集型文檔。比

generative-ai , llm , 人工智能 , 檢索系統

收藏 評論