動態

詳情 返回 返回

【vLLM 學習】歡迎來到 vLLM! - 動態 詳情

vLLM 是一款專為大語言模型推理加速而設計的框架,實現了 KV 緩存內存幾乎零浪費,解決了內存管理瓶頸問題。

更多 vLLM 中文文檔及教程可訪問 →https://vllm.hyper.ai/

vLLM 是一個快速且易於使用的庫,專為大型語言模型 (LLM) 的推理和部署而設計。

vLLM 的核心特性包括:

  • 最先進的服務吞吐量
  • 使用 PagedAttention 高效管理注意力鍵和值的內存
  • 連續批處理傳入請求
  • 使用 CUDA/HIP 圖實現快速執行模型
  • 量化: GPTQ, AWQ, INT4, INT8, 和 FP8
  • 優化的 CUDA 內核,包括與 FlashAttention 和 FlashInfer 的集成
  • 推測性解碼
  • 分塊預填充

vLLM 的靈活性和易用性體現在以下方面:

  • 無縫集成流行的 HuggingFace 模型
  • 具有高吞吐量服務以及各種解碼算法,包括並行採樣、束搜索等
  • 支持張量並行和流水線並行的分佈式推理
  • 流式輸出
  • 提供與 OpenAI 兼容的 API 服務器
  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron
  • 前綴緩存支持
  • 支持多 LoRA

欲瞭解更多信息,請參閲以下內容:

  • vLLM announcing blog post (PagedAttention 教程)
  • vLLM paper (SOSP 2023)
  • How continuous batching enables 23x throughput in LLM inference while reducing p50 latency by Cade Daniel et al.
  • vLLM 聚會

文檔

入門

安裝

使用 ROCm 進行安裝

使用 OpenVINO 進行安裝

使用 CPU 進行安裝

使用 Neuron 進行安裝

使用 TPU 進行安裝

使用 XPU 進行安裝

快速入門

調試提示

示例

部署

OpenAI 兼容服務器

使用 Docker 部署

分佈式推理和服務

生產指標

環境變量

使用統計數據收集

整合

使用 CoreWeave 的 Tensorizer 加載模型

兼容性矩陣

常見問題解答

模型

支持的模型

添加新模型

啓用多模態輸入

引擎參數

使用 LoRA 適配器

使用 VLMs

在 vLLM 中使用推測性解碼

性能和調優

量化

量化內核支持的硬件

AutoAWQ

BitsAndBytes

GGUF

INT8 W8A8

FP8 W8A8

FP8 E5M2 KV 緩存

FP8 E4M3 KV 緩存

自動前綴緩存

簡介

實現

廣義緩存策略

性能基準測試

vLLM 的基準套件

開發者文檔

採樣參數

離線推理

  • LLM 類

    • LLM 輸入

vLLM 引擎

LLM 引擎

  • LLMEngine
  • AsyncLLMEngine

vLLM 分頁注意力

  • 輸入處理
  • 概念
  • 查詢
  • QK
  • Softmax
  • LV
  • 輸出

輸入處理

  • 指南
  • 模塊內容

多模態

  • 指南
  • 模塊內容

Docker 文件

vLLM 性能分析

  • 示例命令和用法
  • 離線推理
  • OpenAI 服務器

社區

vLLM 聚會

贊助商

索引和表格

  • 索引
  • 模塊索引
user avatar u_16756731 頭像 u_17400586 頭像 elhix0bg 頭像 u_15591470 頭像 leguandeludeng 頭像 infodator 頭像 zengjingaiguodekaomianbao 頭像 gmicloud 頭像 kuanrongdeshanyang 頭像 secretflow 頭像 chang_lehung 頭像 aitigou 頭像
點贊 20 用戶, 點贊了這篇動態!
點贊

Add a new 評論

Some HTML is okay.