vLLM（Vectorized Large Language Model） 是由加州大学伯克利分校提出的一种高性能大语言模型推理框架，专为提升 LLaMA、ChatGLM、Phi-3 等主流开源模型的推理效率而设计。

它通过一种名为 PagedAttention 的核心技术，在保持生成质量的同时大幅提升推理速度和资源利用率。

vLLM 的核心特性

1. PagedAttention：类比操作系统的内存分页机制

原理：

每个序列的 Key/Value 缓存被分割成多个“块”（Page）

块之间通过指针链接，实现非连续存储

类似操作系统中的虚拟内存管理

优势：

支持变长序列批处理

显存利用率提高 24% 以上

更好的支持并发推理

一、WSL （Windows S链接ubsystem for Linux）安装或 Linux

打开启用 cpu 虚拟化

启用适用于 Linux 的 Windows 子系统和虚拟机平台

powershell

wsl --install

wsl --list --online 查看可以安装的列表

wsl --install Ubuntu-24.04 安装稳定版Ubuntu系统

wsl --list -verbose 查看已安装的系统

wsl --shutdown 关闭所有WSL实例，确保数据一致性，再次运行 wsl -l -v确认状态为 Stopped

wsl --export Ubuntu-24.04 G:\Ai\WSL\ubuntu_backup.tar 迁移到G:\Ai\WSL\

wsl --unregister Ubuntu-24.04 删除C盘上的原发行版

wsl --import Ubuntu-24.04 G:\Ai\WSL\Ubuntu G:\Ai\WSL\ubuntu_backup.tar --version 2 将备份文件导入到目标磁盘

del G:\Ai\WSL\ubuntu_backup.tar 确认迁移成功后，删除.tar备份文件释放空间

【哲风壁纸】人生格言-励志文案

二、切换至 root 用户

powershell

su -

三、更新软件包

powershell

sudo apt update && sudo apt upgrade

四、安装 Python

4.1Python 安装

powershell

sudo apt upgrade python3

4.2pip 安装

powershell

sudo apt install python3-pip

4.3venv 安装

powershell

sudo apt install python3-venv

4.4pip 镜像设置

powershell

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

powershell

pip config list

五、创建 vllm 项目目录

powershell

mkdir -p code/vllm_deploy
cd code/vllm_deploy

六、虚拟环境设置

powershell

python3 -m venv .venv

powershell

source .venv/bin/activate

七、安装依赖

powershell

pip install "vllm>=0.11.0"
pip install "qwen-vl-utils==0.0.14"
pip install modelscope

八、模型下载

powershell

modelscope download --model Qwen/Qwen3-0.6B --local_dir Qwen/Qwen3-0.6B

九、启动

先激活虚拟环境（source .venv/bin/activate）

powershell

vllm serve Qwen/Qwen3-0.6B \
  --host 0.0.0.0 \
  --port 8000 \
  --max-model-len 1024 \
  --gpu-memory-utilization 0.6 \
  --dtype float16 \
  --max-num-seqs 4 \
  --trust-remote-code

参数	说明	针对6GB显存的优化作用
–gpu-memory-utilization 0.6	设定vLLM可使用的GPU显存比例。	将可用显存限制在约3.6GB，为系统、WSL和其他进程预留充足空间，是防止因显存被完全占用导致启动失败的最关键参数。
–max-model-len 1024	限制单个请求的输入和输出总Token数。	大幅降低KV Cache（键值缓存）的显存占用。上下文长度是影响长文本处理时显存需求的关键因素，适当降低此值能有效减少内存压力。
–max-num-seqs 4	控制同时处理的请求数量（并发数）。	降低系统并发处理的峰值显存压力，避免因多个请求同时处理而导致显存溢出（OOM）。
–dtype float16	指定模型推理时使用的数据精度。	使用半精度浮点数，能在保证模型性能的同时，减少显存占用。
–trust-remote-code	允许加载模型的自定义代码。	对于Qwen等使用了自定义架构的模型，此参数是必须的，以确保能正确解析和加载模型。