vLLM(Virtual Large Language Model) 和 Ollama 都是用於運行大語言模型 大語言模型/LLM 的工具,旨在降低本地部署和使用大模型的門檻。應用程序可以通過它們的統一接口,使用不同大模型。 簡介 vLLM:是一個高性能的大模型推理引擎,專注於優化模型運行效率。通過 PagedAttention 等技術大幅提升吞吐量(每秒處理請求數)、降
大語言模型/LLM 通常是由海量通用知識(如語法、常識、邏輯)訓練的,在面對具體場景(如醫療問診、法律文書生成)時,能力往往不足。 Fine-tuning/微調 正是為解決這一問題而生的核心技術,其本質是在預訓練模型的基礎上,用特定領域 / 任務的小數據集進一步訓練,讓模型 適配具體需求,最終輸出更精準、更貼合場景的結果。 微調(Fine-tuning)的核心定義
MoE(Mixture of Experts,專家混合模型))是當前大模型(尤其是 GPT-4、Gemini、Mixtral、DeepSeek 等)架構中非常核心的一個概念。 MoE 的思想非常直白:不同的 專家/Expert 只負責處理自己擅長的那一類輸入,而不是讓整個模型的所有參數都去處理所有任務。 也就是説: 一個 MoE 模型內部其實
之前兩篇文章:MCP簡介和MCP能做什麼闡述了MCP的基本概念和原理。 本文將使用Visual Studio Code寫一個MCP服務端和MCP客户端,演示MCP的基本功能。 MCP版本迭代很快,能用把代碼順利跑起來並不是一件容易的事:) 準備運行環境 Windows 10 Visual studio code 1.104.3
在上一篇文章 MCP簡介 中,我們對 MCP(Model Context Protocol) 有了一個概念上的認識,本文將更加深入的介紹 MCP 的架構和功能。 MCP是什麼 如果我們認為 LLM(大語言模型) 是大腦的話, MCP 提供其它的能力將給這個大腦裝上四肢和五官,使得它具備與外界環境交互的能力。 使用 MCP,Claude 或 ChatGPT 等 AI 應用程序可