欢迎光临
我们一直在努力

Windows 本地 AI 再进化!llama.cpp 正式支持 CUDA 13 / Vulkan / HIP / SYCL,一键运行 GGUF 无审查模型

<div class="entry themeform"

最近,llama.cpp 迎来了一次重大更新。对于那些经常在 Windows 环境下折腾本地 AI 大模型的用户来说,这次更新可谓是相当贴心。

因为现在官方已经真正开始着手:“降低 Windows 本地 AI 的使用门槛”!

<img src="https://www.foxnan.com/wp-content/uploads/2026/06/0285921b25deaa2-3.webp" alt="20260518064042 404956 scaled" width="867" height="488" class="wp-image-24212 aligncenter" decoding="async"</p
<p data-start="242" data-end="280"<img src="https://www.freedidi.com/wp-content/uploads/2026/05/20260518110005_256951-scaled.webp" alt="20260518110005 256951 scaled" width="674" height="379" class="wp-image-24235 aligncenter" decoding="async"</p

  • CUDA 版本不匹配
  • DLL 文件缺失
  • 驱动不兼容
  • CMake 编译失败
  • 环境变量配置错误
  • Vulkan / HIP 配置繁琐
  • Windows 编译过程中报错

尤其是许多新手,教程还没看完,就已经被环境问题劝退了。

但如今情况不同了。

llama.cpp 最新发布的 b9196 版本中,官方已经直接提供了多种 Windows 预编译版本,很多场景下已经可以做到:下载 → 解压 → 双击运行!这对于 Windows 本地 AI 用户来说,绝对是一大利好。

<img src="https://www.foxnan.com/wp-content/uploads/2026/06/3b8a5051f811b55-3.webp" alt="20260518105919 469897 scaled" width="2560" height="1440" class="alignnone size-full wp-image-24234" decoding="async"</p
<h1 data-section-id="chrqe6" data-start="545" data-end="561"llama.cpp 是什么?</h1
<p data-start="563" data-end="625"<span class="" data-state="closed"llama.cpp 官方 GitHub</span 是目前最流行的本地 GGUF 模型推理框架之一。</p
<p data-start="563" data-end="625"<img src="https://www.freedidi.com/wp-content/uploads/2026/05/20260518064922_507431.webp" alt="20260518064922 507431" width="1500" height="500" class="alignnone size-full wp-image-24213" decoding="async"</p
<h2 data-start="563" data-end="625"</h2
<h2 data-start="563" data-end="625"<strong官方下载:【<span style="color: #0000ff;"<a style="color: #0000ff;" href="https://github.com/ggml-org/llama.cpp/releases/tag/b9196" target="_blank" rel="noopener"点击前往</a</span】 或 【<span style="color: #0000ff;"<a style="color: #0000ff;" href="https://pan.quark.cn/s/4c9a7547159b" target="_blank" rel="noopener"网盘下载</a</span】、【<span style="color: #0000ff;"<a style="color: #0000ff;" href="https://pan.cloudeop.com/s/55038F2FB7450D9F" target="_blank" rel="noopener"整合下载</a</span】</strong</h2

许多大家熟悉的本地模型,其实都可以通过 llama.cpp 来运行:

  • Qwen
  • Llama
  • DeepSeek
  • Gemma
  • Hermes
  • Dolphin
  • Mistral
  • Mixtral

尤其是现在 GGUF 生态越来越成熟,许多模型都会在第一时间发布 GGUF 量化版本。

视频教程:

而 llama.cpp 最大的优势在于:

轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF

而且现在甚至已经支持:

多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面

llama.cpp 最新 Windows 版本支持什么?

目前官方 Release 页面已经直接提供了以下版本:

  • Windows x64 CPU
  • Windows x64 CUDA 12.4
  • Windows x64 CUDA 13.1
  • Windows x64 Vulkan
  • Windows x64 HIP Radeon
  • Windows x64 SYCL
  • Windows ARM64 CPU

这代表着:

NVIDIA 用户

可以直接选择:CUDA 12.4 或 CUDA 13.1

如果你是:

  • RTX 3060
  • RTX 4060
  • RTX 4070
  • RTX 4080
  • RTX 4090

通常建议优先选择 CUDA。

AMD 用户

现在终于不必完全依赖 ROCm 了。

你可以选择:HIP 或 Vulkan

很多情况下,Vulkan 反而比 HIP 更稳定。

Intel 用户

现在 Intel 核显和 Arc 独显也终于有了用武之地。

可以尝试:SYCL 或 Vulkan

虽然性能与 NVIDIA 还有差距,但已经能正常运行许多 GGUF 小模型。

如何启动 GGUF 模型?

例如:gemma-4-31b-jang-crack-Q4_K_M.gguf

启动方法其实非常简单。

进入 llama.cpp 目录:

llama-server.exe -m models你的模型.gguf -ngl 999

其中:-ngl 999 表示尽可能将模型全部加载到 GPU。

启动成功后,在浏览器中打开:http://127.0.0.1:8080

即可进入网页聊天界面。

如何启动 GGUF 多模态视觉模型?

加载视觉模型需要两个文件,一个是主模型文件,另一个是 mmproj 视觉模型加载文件。

目前支持较好的包括:

Qwen2-VL / Qwen2.5-VL

目前中文视觉能力最强的之一:

  • OCR
  • 截图理解
  • 网页识别
  • 中文图片问答

表现都非常出色。

主模型下载:【点击前往】或 【
🔒 下载链接仅对登录用户可见,请 登录注册 后查看。
】、【
🔒 下载链接仅对登录用户可见,请 登录注册 后查看。

20260518071309 620194

<div class="code-block code-block-center code-block-1 ai-track" data-ai="WzEsMCwiQmxvY2sg

 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

未经允许不得转载:安卿辰博客 » Windows 本地 AI 再进化!llama.cpp 正式支持 CUDA 13 / Vulkan / HIP / SYCL,一键运行 GGUF 无审查模型

热门推荐

评论 抢沙发

安卿辰博客 专业 快捷

QUX主题是一款功能强大的收费 WordPress 主题,适配个人博客、资源分享站、资讯网站等多种场景

联系我们联系我们
切换注册

登录

忘记密码 ?

切换登录

注册