3.2 KiB
快速开始
从零到能用的完整说明。默认路线为 Windows 原生,WSL 和 Docker Compose 见末尾。
系统要求
| 项目 | 要求 |
|---|---|
| 操作系统 | Windows 10 / 11 |
| GPU | NVIDIA,驱动 ≥ 525,建议 ≥ 8 GB 显存 |
| Python | 3.10+,已加入 PATH |
| 磁盘 | ≥ 20 GB 可用空间 |
Q4_K_M 量化下模型加上视觉投影约占 6.1 GB 显存。8 GB 显存可正常运行。
Docker Compose 路线不需要在宿主机安装 Python,系统要求见 Docker Compose 文档。
1. 安装
双击 bootstrap.bat,或在命令行执行:
.\install.cmd
安装脚本会自动完成:
- 创建 Python 虚拟环境并安装依赖
- 下载 llama.cpp CUDA 运行时
- 下载 Qwen3.5-9B Q4_K_M 主模型与 mmproj 视觉投影模型
首次安装需要下载约 6 GB 模型文件,请确保网络通畅。
2. 启动
.\start_8080_toolhub_stack.cmd start
首次启动需要 30–60 秒加载模型到 GPU。看到"栈已启动"即表示就绪。
3. 打开网页
浏览器访问 http://127.0.0.1:8080。
4. 服务管理
.\start_8080_toolhub_stack.cmd start # 启动
.\start_8080_toolhub_stack.cmd stop # 停止
.\start_8080_toolhub_stack.cmd restart # 重启
.\start_8080_toolhub_stack.cmd status # 查看状态
.\start_8080_toolhub_stack.cmd logs # 查看日志
5. 可选:升级到 Q8 量化
显存 ≥ 12 GB 时,可以切换到 Q8 获得更高推理精度。
双击 bootstrap_q8.bat,或执行 .\install_q8.cmd。脚本会自动修改 .env 中的模型路径和下载地址,然后开始下载。视觉模型 mmproj 不需要更换。
下载完成后执行 .\start_8080_toolhub_stack.cmd restart 切换。
6. 配置
复制 .env.example 为 .env,按需修改,启动脚本会自动加载。
常见调整:
切换思考模式:
$env:THINK_MODE = 'think-off'; .\start_8080_toolhub_stack.cmd restart
缩小上下文以节省显存:
$env:CTX_SIZE = '8192'; .\start_8080_toolhub_stack.cmd restart
扩大文件系统可读范围: 修改 .env 中的 READONLY_FS_ROOTS,多个目录用分号分隔。留空时默认只读项目目录。
修改后执行 .\start_8080_toolhub_stack.cmd restart 生效。
7. API 调用
网关兼容 OpenAI API 格式:
curl http://127.0.0.1:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3.5-9B-Q4_K_M",
"stream": true,
"messages": [
{"role": "user", "content": "今天有什么科技新闻?"}
]
}'
支持 OpenAI API 的客户端可将 Base URL 设为 http://127.0.0.1:8080/v1。
其他入口
WSL
WSL 入口复用 Windows 主链路,不会创建独立的 Linux 虚拟环境。
./install.sh # 安装
./start_8080_toolhub_stack.sh start # 启动
服务管理命令与 Windows 一致,把 .cmd 换成 .sh 即可。
Docker Compose
不需要在宿主机安装 Python 或手动下载模型。详见 Docker Compose 文档。