<div class="entry themeform"

最近，llama.cpp 迎来了一次重大更新。对于那些经常在 Windows 环境下折腾本地 AI 大模型的用户来说，这次更新可谓是相当贴心。

因为现在官方已经真正开始着手：“降低 Windows 本地 AI 的使用门槛”！

<img src="https://www.foxnan.com/wp-content/uploads/2026/06/0285921b25deaa2-3.webp" alt="20260518064042 404956 scaled" width="867" height="488" class="wp-image-24212 aligncenter" decoding="async"</p
<p data-start="242" data-end="280"<img src="https://www.freedidi.com/wp-content/uploads/2026/05/20260518110005_256951-scaled.webp" alt="20260518110005 256951 scaled" width="674" height="379" class="wp-image-24235 aligncenter" decoding="async"</p

CUDA 版本不匹配
DLL 文件缺失
驱动不兼容
CMake 编译失败
环境变量配置错误
Vulkan / HIP 配置繁琐
Windows 编译过程中报错

尤其是许多新手，教程还没看完，就已经被环境问题劝退了。

但如今情况不同了。

在 llama.cpp 最新发布的 b9196 版本中，官方已经直接提供了多种 Windows 预编译版本，很多场景下已经可以做到：下载 → 解压 → 双击运行！这对于 Windows 本地 AI 用户来说，绝对是一大利好。

<img src="https://www.foxnan.com/wp-content/uploads/2026/06/3b8a5051f811b55-3.webp" alt="20260518105919 469897 scaled" width="2560" height="1440" class="alignnone size-full wp-image-24234" decoding="async"</p
<h1 data-section-id="chrqe6" data-start="545" data-end="561"llama.cpp 是什么？</h1
<p data-start="563" data-end="625"<span class="" data-state="closed"llama.cpp 官方 GitHub</span 是目前最流行的本地 GGUF 模型推理框架之一。</p
<p data-start="563" data-end="625"<img src="https://www.freedidi.com/wp-content/uploads/2026/05/20260518064922_507431.webp" alt="20260518064922 507431" width="1500" height="500" class="alignnone size-full wp-image-24213" decoding="async"</p
<h2 data-start="563" data-end="625"</h2
<h2 data-start="563" data-end="625"<strong官方下载：【<span style="color: #0000ff;"<a style="color: #0000ff;" href="https://github.com/ggml-org/llama.cpp/releases/tag/b9196" target="_blank" rel="noopener"点击前往</a</span】或【<span style="color: #0000ff;"<a style="color: #0000ff;" href="https://pan.quark.cn/s/4c9a7547159b" target="_blank" rel="noopener"网盘下载</a</span】、【<span style="color: #0000ff;"<a style="color: #0000ff;" href="https://pan.cloudeop.com/s/55038F2FB7450D9F" target="_blank" rel="noopener"整合下载</a</span】</strong</h2

许多大家熟悉的本地模型，其实都可以通过 llama.cpp 来运行：

Qwen
Llama
DeepSeek
Gemma
Hermes
Dolphin
Mistral
Mixtral

尤其是现在 GGUF 生态越来越成熟，许多模型都会在第一时间发布 GGUF 量化版本。

视频教程：

而 llama.cpp 最大的优势在于：

轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF

而且现在甚至已经支持：

多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面

llama.cpp 最新 Windows 版本支持什么？

目前官方 Release 页面已经直接提供了以下版本：

Windows x64 CPU
Windows x64 CUDA 12.4
Windows x64 CUDA 13.1
Windows x64 Vulkan
Windows x64 HIP Radeon
Windows x64 SYCL
Windows ARM64 CPU

这代表着：

NVIDIA 用户

可以直接选择：CUDA 12.4 或 CUDA 13.1

如果你是：

RTX 3060
RTX 4060
RTX 4070
RTX 4080
RTX 4090

通常建议优先选择 CUDA。

AMD 用户

现在终于不必完全依赖 ROCm 了。

你可以选择：HIP 或 Vulkan

很多情况下，Vulkan 反而比 HIP 更稳定。

Intel 用户

现在 Intel 核显和 Arc 独显也终于有了用武之地。

可以尝试：SYCL 或 Vulkan

虽然性能与 NVIDIA 还有差距，但已经能正常运行许多 GGUF 小模型。

如何启动 GGUF 模型？

例如：gemma-4-31b-jang-crack-Q4_K_M.gguf

启动方法其实非常简单。

进入 llama.cpp 目录：

llama-server.exe -m models你的模型.gguf -ngl 999

其中：-ngl 999 表示尽可能将模型全部加载到 GPU。

启动成功后，在浏览器中打开：http://127.0.0.1:8080

即可进入网页聊天界面。

如何启动 GGUF 多模态视觉模型？

加载视觉模型需要两个文件，一个是主模型文件，另一个是 mmproj 视觉模型加载文件。

目前支持较好的包括：

Qwen2-VL / Qwen2.5-VL

目前中文视觉能力最强的之一：

OCR
截图理解
网页识别
中文图片问答

表现都非常出色。

主模型下载：【点击前往】或【
🔒 下载链接仅对登录用户可见，请登录或注册后查看。
】、【
🔒 下载链接仅对登录用户可见，请登录或注册后查看。
】

<div class="code-block code-block-center code-block-1 ai-track" data-ai="WzEsMCwiQmxvY2sg

Windows 本地 AI 再进化！llama.cpp 正式支持 CUDA 13 / Vulkan / HIP / SYCL，一键运行 GGUF 无审查模型

视频教程：

llama.cpp 最新 Windows 版本支持什么？

NVIDIA 用户

AMD 用户

Intel 用户

如何启动 GGUF 模型？

如何启动 GGUF 多模态视觉模型？

Qwen2-VL / Qwen2.5-VL

主模型下载：【点击前往】或【
🔒 下载链接仅对登录用户可见，请登录或注册后查看。
】、【
🔒 下载链接仅对登录用户可见，请登录或注册后查看。
】

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

相关推荐

热门推荐

评论抢沙发

安卿辰博客专业快捷

QUX主题是一款功能强大的收费 WordPress 主题，适配个人博客、资源分享站、资讯网站等多种场景

注册

QQ咨询

电话咨询

关注微信

视频教程：

llama.cpp 最新 Windows 版本支持什么？

NVIDIA 用户

AMD 用户

Intel 用户

如何启动 GGUF 模型？

如何启动 GGUF 多模态视觉模型？

Qwen2-VL / Qwen2.5-VL

主模型下载：【点击前往】或 【🔒 下载链接仅对登录用户可见，请 登录 或 注册 后查看。】、【🔒 下载链接仅对登录用户可见，请 登录 或 注册 后查看。】

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

微信扫码分享

相关推荐

热门推荐

评论 抢沙发

安卿辰博客 专业 快捷

QUX主题是一款功能强大的收费 WordPress 主题，适配个人博客、资源分享站、资讯网站等多种场景

登录

注册

QQ咨询

电话咨询

关注微信

主模型下载：【点击前往】或【
🔒 下载链接仅对登录用户可见，请登录或注册后查看。
】、【
🔒 下载链接仅对登录用户可见，请登录或注册后查看。
】

评论抢沙发

安卿辰博客专业快捷