vLLM - vLLM - vLLM 文档

External Player - 哔哩哔哩嵌入式外链播放器

vLLM(Vectorized Large Language Model) 是由加州大学伯克利分校提出的一种高性能大语言模型推理框架,专为提升 LLaMA、ChatGLM、Phi-3 等主流开源模型的推理效率而设计。

它通过一种名为 PagedAttention 的核心技术,在保持生成质量的同时大幅提升推理速度和资源利用率。

vLLM 的核心特性

1. PagedAttention:类比操作系统的内存分页机制

原理:
  • 每个序列的 Key/Value 缓存被分割成多个“块”(Page)
  • 块之间通过指针链接,实现非连续存储
  • 类似操作系统中的虚拟内存管理
优势:
  • 支持变长序列批处理
  • 显存利用率提高 24% 以上
  • 更好的支持并发推理

一、WSL (Windows S链接ubsystem for Linux) 安装 或 Linux

打开启用 cpu 虚拟化

article image

启用 适用于 Linux 的 Windows 子系统 和 虚拟机平台

article image

powershell
wsl --install

wsl --list --online 查看可以安装的列表

wsl --install Ubuntu-24.04 安装稳定版Ubuntu系统

wsl --list -verbose 查看已安装的系统

wsl --shutdown 关闭所有WSL实例,确保数据一致性,再次运行 wsl -l -v确认状态为 Stopped

wsl --export Ubuntu-24.04 G:\Ai\WSL\ubuntu_backup.tar 迁移到G:\Ai\WSL\

wsl --unregister Ubuntu-24.04 删除C盘上的原发行版

wsl --import Ubuntu-24.04 G:\Ai\WSL\Ubuntu G:\Ai\WSL\ubuntu_backup.tar --version 2 将备份文件导入到目标磁盘

del G:\Ai\WSL\ubuntu_backup.tar 确认迁移成功后,删除.tar备份文件释放空间

【哲风壁纸】人生格言-励志文案

二、切换至 root 用户

powershell
su -

article image

三、更新软件包

powershell
sudo apt update && sudo apt upgrade

四、安装 Python

4.1Python 安装

powershell
sudo apt upgrade python3

4.2pip 安装

powershell
sudo apt install python3-pip

4.3venv 安装

powershell
sudo apt install python3-venv

4.4pip 镜像设置

powershell
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
powershell
pip config list 

五、创建 vllm 项目目录

powershell
mkdir -p code/vllm_deploy
cd code/vllm_deploy

六、虚拟环境设置

powershell
python3 -m venv .venv
powershell
source .venv/bin/activate

七、安装依赖

powershell
pip install "vllm>=0.11.0"
pip install "qwen-vl-utils==0.0.14"
pip install modelscope

八、模型下载

powershell
modelscope download --model Qwen/Qwen3-0.6B --local_dir Qwen/Qwen3-0.6B

九、启动

先激活虚拟环境(source .venv/bin/activate)

powershell
vllm serve Qwen/Qwen3-0.6B \
  --host 0.0.0.0 \
  --port 8000 \
  --max-model-len 1024 \
  --gpu-memory-utilization 0.6 \
  --dtype float16 \
  --max-num-seqs 4 \
  --trust-remote-code
参数 说明 针对6GB显存的优化作用
–gpu-memory-utilization 0.6 设定vLLM可使用的GPU显存比例。 将可用显存限制在约3.6GB,为系统、WSL和其他进程预留充足空间,是防止因显存被完全占用导致启动失败的最关键参数
–max-model-len 1024 限制单个请求的输入和输出总Token数。 大幅降低KV Cache(键值缓存)的显存占用。上下文长度是影响长文本处理时显存需求的关键因素,适当降低此值能有效减少内存压力。
–max-num-seqs 4 控制同时处理的请求数量(并发数)。 降低系统并发处理的峰值显存压力,避免因多个请求同时处理而导致显存溢出(OOM)。
–dtype float16 指定模型推理时使用的数据精度。 使用半精度浮点数,能在保证模型性能的同时,减少显存占用。
–trust-remote-code 允许加载模型的自定义代码。 对于Qwen等使用了自定义架构的模型,此参数是必须的,以确保能正确解析和加载模型。

article image

十、接口测试

article image

curl:

article image

article image

postman:

article image

article image

article image

js
const language = "typescript";