<div class="entry themeform"
最近,llama.cpp 迎来了一次重大更新。对于那些经常在 Windows 环境下折腾本地 AI 大模型的用户来说,这次更新可谓是相当贴心。
因为现在官方已经真正开始着手:“降低 Windows 本地 AI 的使用门槛”!
<img src="https://www.foxnan.com/wp-content/uploads/2026/06/0285921b25deaa2-3.webp" alt="20260518064042 404956 scaled" width="867" height="488" class="wp-image-24212 aligncenter" decoding="async"</p
<p data-start="242" data-end="280"<img src="https://www.freedidi.com/wp-content/uploads/2026/05/20260518110005_256951-scaled.webp" alt="20260518110005 256951 scaled" width="674" height="379" class="wp-image-24235 aligncenter" decoding="async"</p
尤其是许多新手,教程还没看完,就已经被环境问题劝退了。
但如今情况不同了。
在 llama.cpp 最新发布的 b9196 版本中,官方已经直接提供了多种 Windows 预编译版本,很多场景下已经可以做到:下载 → 解压 → 双击运行!这对于 Windows 本地 AI 用户来说,绝对是一大利好。
<img src="https://www.foxnan.com/wp-content/uploads/2026/06/3b8a5051f811b55-3.webp" alt="20260518105919 469897 scaled" width="2560" height="1440" class="alignnone size-full wp-image-24234" decoding="async"</p
<h1 data-section-id="chrqe6" data-start="545" data-end="561"llama.cpp 是什么?</h1
<p data-start="563" data-end="625"<span class="" data-state="closed"llama.cpp 官方 GitHub</span 是目前最流行的本地 GGUF 模型推理框架之一。</p
<p data-start="563" data-end="625"<img src="https://www.freedidi.com/wp-content/uploads/2026/05/20260518064922_507431.webp" alt="20260518064922 507431" width="1500" height="500" class="alignnone size-full wp-image-24213" decoding="async"</p
<h2 data-start="563" data-end="625"</h2
<h2 data-start="563" data-end="625"<strong官方下载:【<span style="color: #0000ff;"<a style="color: #0000ff;" href="https://github.com/ggml-org/llama.cpp/releases/tag/b9196" target="_blank" rel="noopener"点击前往</a</span】 或 【<span style="color: #0000ff;"<a style="color: #0000ff;" href="https://pan.quark.cn/s/4c9a7547159b" target="_blank" rel="noopener"网盘下载</a</span】、【<span style="color: #0000ff;"<a style="color: #0000ff;" href="https://pan.cloudeop.com/s/55038F2FB7450D9F" target="_blank" rel="noopener"整合下载</a</span】</strong</h2
许多大家熟悉的本地模型,其实都可以通过 llama.cpp 来运行:
- Qwen
- Llama
- DeepSeek
- Gemma
- Hermes
- Dolphin
- Mistral
- Mixtral
尤其是现在 GGUF 生态越来越成熟,许多模型都会在第一时间发布 GGUF 量化版本。
视频教程:
而 llama.cpp 最大的优势在于:
轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF
而且现在甚至已经支持:
多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面
llama.cpp 最新 Windows 版本支持什么?
目前官方 Release 页面已经直接提供了以下版本:
- Windows x64 CPU
- Windows x64 CUDA 12.4
- Windows x64 CUDA 13.1
- Windows x64 Vulkan
- Windows x64 HIP Radeon
- Windows x64 SYCL
- Windows ARM64 CPU
这代表着:
NVIDIA 用户
可以直接选择:CUDA 12.4 或 CUDA 13.1
如果你是:
- RTX 3060
- RTX 4060
- RTX 4070
- RTX 4080
- RTX 4090
通常建议优先选择 CUDA。
AMD 用户
现在终于不必完全依赖 ROCm 了。
你可以选择:HIP 或 Vulkan
很多情况下,Vulkan 反而比 HIP 更稳定。
Intel 用户
现在 Intel 核显和 Arc 独显也终于有了用武之地。
可以尝试:SYCL 或 Vulkan
虽然性能与 NVIDIA 还有差距,但已经能正常运行许多 GGUF 小模型。
如何启动 GGUF 模型?
例如:gemma-4-31b-jang-crack-Q4_K_M.gguf
启动方法其实非常简单。
进入 llama.cpp 目录:
llama-server.exe -m models你的模型.gguf -ngl 999
其中:-ngl 999 表示尽可能将模型全部加载到 GPU。
启动成功后,在浏览器中打开:http://127.0.0.1:8080
即可进入网页聊天界面。
如何启动 GGUF 多模态视觉模型?
加载视觉模型需要两个文件,一个是主模型文件,另一个是 mmproj 视觉模型加载文件。
目前支持较好的包括:
Qwen2-VL / Qwen2.5-VL
目前中文视觉能力最强的之一:
- OCR
- 截图理解
- 网页识别
- 中文图片问答
表现都非常出色。
主模型下载:【点击前往】或 【】、【】

<div class="code-block code-block-center code-block-1 ai-track" data-ai="WzEsMCwiQmxvY2sg
安卿辰博客






