欢迎光临
我们一直在努力

Mac 本地运行 AI 大模型利器:OMLX,让 Mac Mini 推理效率飙升 10 倍!

在过去的1个月里,越来越多的人开始在Mac上运行本地AI大模型。例如,通过Ollama来运行各种模型,再借助OpenCat或Ollama桌面客户端进行调用。但很多人都有一个非常痛苦的体验:速度慢、推理卡顿、token每秒只有个位数。

<img src="https://www.foxnan.com/wp-content/uploads/2026/06/61d77eb571ff3bb.webp" alt="2026 03 14 22 21 35.00 00 12 17.Still001 scaled" width="2560" height="1440" class="alignnone size-full wp-image-23371" decoding="async"</p
<p data-start="290" data-end="334"<span class="BZ_Pyq_fadeIn"尤其是</span<span class="BZ_Pyq_fadeIn"在 </span<span class="BZ_Pyq_fadeIn"Mac </span<span class="BZ_Pyq_fadeIn"Mini</span <span class="BZ_Pyq_fadeIn"或 </span<span class="BZ_Pyq_fadeIn"16GB </span<span class="BZ_Pyq_fadeIn"内存</span<span class="BZ_Pyq_fadeIn"设备</span <span class="BZ_Pyq_fadeIn"上,</span<span class="BZ_Pyq_fadeIn"这个</span<span class="BZ_Pyq_fadeIn"问题</span<span class="BZ_Pyq_fadeIn"更</span<span class="BZ_Pyq_fadeIn"明显。</span<span class="BZ_Pyq_fadeIn"今天</span<span class="BZ_Pyq_fadeIn"给</span<span class="BZ_Pyq_fadeIn"大家</span<span class="BZ_Pyq_fadeIn"介绍</span<span class="BZ_Pyq_fadeIn"一个 </span<span class="BZ_Pyq_fadeIn"Mac </span<span class="BZ_Pyq_fadeIn"本地</span<span class="BZ_Pyq_fadeIn"跑</span<span class="BZ_Pyq_fadeIn"模型</span<span class="BZ_Pyq_fadeIn"的</span<span class="BZ_Pyq_fadeIn"加速</span<span class="BZ_Pyq_fadeIn"神器 —— </span<span class="hover:entity-accent entity-underline inline cursor-pointer align-baseline"<span class="whitespace-normal"OMLX</span</span<span class="BZ_Pyq_fadeIn"。</span</p
<p data-start="410" data-end="467"<span class="BZ_Pyq_fadeIn"它</span<span class="BZ_Pyq_fadeIn"可以</span<span class="BZ_Pyq_fadeIn"让</span<span class="BZ_Pyq_fadeIn"本地</span<span class="BZ_Pyq_fadeIn"模型 </span<strong data-start="419" data-end="436"<span class="BZ_Pyq_fadeIn"推理</span<span class="BZ_Pyq_fadeIn"速度</span<span class="BZ_Pyq_fadeIn"提升 </span<span class="BZ_Pyq_fadeIn"10 </span<span class="BZ_Pyq_fadeIn"倍</span<span class="BZ_Pyq_fadeIn"以上</span</strong<span class="BZ_Pyq_fadeIn",</span<span class="BZ_Pyq_fadeIn"即使是 </span<strong data-start="441" data-end="456"<span class="BZ_Pyq_fadeIn"丐</span<span class="BZ_Pyq_fadeIn"版 </span<span class="BZ_Pyq_fadeIn"Mac </span<span class="BZ_Pyq_fadeIn"Mini</span</strong <span class="BZ_Pyq_fadeIn"也能</span<span class="BZ_Pyq_fadeIn"轻松</span<span class="BZ_Pyq_fadeIn"运行</span<span class="BZ_Pyq_fadeIn"大</span<span class="BZ_Pyq_fadeIn"模型。</span</p
<p data-start="469" data-end="492"<span class="BZ_Pyq_fadeIn"下面</span<span class="BZ_Pyq_fadeIn"我</span<span class="BZ_Pyq_fadeIn"带</span<span class="BZ_Pyq_fadeIn"大家 </span<span class="BZ_Pyq_fadeIn"完整</span<span class="BZ_Pyq_fadeIn"实</span<span class="BZ_Pyq_fadeIn"测 + </span<span class="BZ_Pyq_fadeIn"部署</span<span class="BZ_Pyq_fadeIn"教程</span</p
<div class="video-container"</div

一、为什么Mac本地模型这么慢?

许多人在Mac上运行本地模型时,通常会采用这样的架构:

Ollama → 本地模型 → OpenCat / AI工具

但在默认情况下:

  • 推理效率不高

  • KV Cache利用率低

  • CPU/GPU调度不充分

所以经常会出现这种情况:

  • 回复一个字一个字往外蹦

  • 每秒3~5 token

  • 一个简单问题几十秒甚至几分钟

这对于日常使用来说体验非常差。

二、OMLX:Mac本地模型加速神器

<img src="https://www.foxnan.com/wp-content/uploads/2026/06/029eb6505127c5b.webp" alt="https://omlx.ai/images/omlx_dashboard_light.png" width="1748" height="1592" class="aligncenter size-full wp-image-23419" decoding="async"</div
</div
</div
<div class="border-token-border-default relative w-32 shrink-0 overflow-hidden rounded-xl border-[0.5px] md:shrink max-h-64 sm:w-[calc((100%-0.5rem)/3)]"
<div class="group/search-image @container/search-image relative rounded-[inherit] h-full w-full"</div
</div
<div class="border-token-border-default relative w-32 shrink-0 overflow-hidden rounded-xl border-[0.5px] md:shrink max-h-64 sm:w-[calc((100%-0.5rem)/3)] rounded-e-xl"
<div class="group/search-image @container/search-image relative rounded-[inherit] h-full w-full"

<img src="https://www.foxnan.com/wp-content/uploads/2026/06/03898af466f2104.webp" alt="https://omlx.ai/images/omlx_dashboard_dark.png" width="1728" height="1584" class="aligncenter size-full wp-image-23421" decoding="async"</div
<div class="pointer-events-none absolute inset-x-2 bottom-2 z-20 flex max-w-[calc(100%-1rem)] flex-wrap items-end justify-end gap-1.5"
<div class="shrink-0"

OMLX的核心作用:
  • 优化本地模型推理

  • 提升token生成速度

  • 管理模型缓存

  • 提供OpenAI API接口

  • 支持压力测试

简单理解:

OMLX = Mac本地AI模型加速服务器

部署后,本地模型速度通常可以提升5~10倍以上

三、Mac Mini推荐模型

如果你的设备是16GB Mac Mini,推荐使用:

Qwen3.5-9B :[点击前往] 进行下载

原因:

模型 大小 推荐设备
Qwen3.5 4B ~3GB 8GB Mac
Qwen3.5 9B ~6.6GB 16GB Mac
Qwen3.5 27B ~17GB 32GB+

9B模型在性能和质量之间非常平衡

四、安装Ollama

<img src="https://www.foxnan.com/wp-content/uploads/2026/06/29af55168ceecf9.webp" alt="https://kodekloud.com/kk-media/image/upload/v1752883703/notes-assets/images/Running-Local-LLMs-With-Ollama-Installing-Ollama/ollama-download-page-macos-linux-windows.jpg" width="1280" height="720" class="aligncenter size-full wp-image-23422" decoding="async"</div
</div
</div
<div class="border-token-border-default relative w-32 shrink-0 overflow-hidden rounded-xl border-[0.5px] md:shrink max-h-64 sm:w-[calc((100%-0.5rem)/3)]"
<div class="group/search-image @container/search-image relative rounded-[inherit] h-full w-full"

首先安装Ollama

步骤:

1️⃣ 打开官网下载安装

点击前往

2️⃣ 安装完成后打开终端

下载Qwen3.5 9B模型

ollama run qwen2.5:9b

下载大小:约 6.6GB

下载完成后,就可以测试模型:

ollama run qwen2.5:9b

五、速度实测(未优化)

我们先测试一个简单的数学推理题:

2,6,12,20,30,(?)

规律是:

n(n+1)

第六个数:

6×7 = 42

但在Ollama默认推理下:

结果:

项目 时间
开始生成 20秒
完整回答 1分50秒

速度非常慢。

六、安装OMLX

在安装之前请确保你当前的mac上已经安装了Openclaw,没有安装的话可以通过下面的一键安装命令:

curl -fsSL https://openclaw.ai/install.sh | bash

来进行安装、升级到最新版本!

<img src="https://www.foxnan.com/wp-content/uploads/2026/06/97fdd052540eeb9.webp" alt="https://help.apple.com/assets/68FBBA193607B5D7D10E93FA/68FBBA1F5B40BB61910BDFBB/en_US/a3e401e82f9552fd51a8b7fc868df22c.png" width="1144" height="802" class="aligncenter size-full wp-image-23425" decoding="async"</div
<div class="pointer-events-none absolute inset-x-2 bottom-2 z-20 flex max-w-[calc(100%-1rem)] flex-wrap items-end justify-end gap-1.5"
<div class="shrink-0"

4、接下来安装OMLX

目前Github已经有4000+ Star

下载步骤:

1️⃣ 打开项目Release页面

下载最新版本【
🔒 下载链接仅对登录用户可见,请 登录注册 后查看。
】或 【
🔒 下载链接仅对登录用户可见,请 登录注册 后查看。

注意选择正确版本:

文件 适合设备
square版本 老Mac
tar版本 M5 / 最新macOS

下载后直接拖入Applications安装。

七、启动OMLX服务器

打开OMLX后:

配置如下

默认端口:8000

API Key:随便设置,例如:12345678

点击:

Start Server

当看到绿色状态就说明启动成功。

进入后台:

http://127.0.0.1:8000

八、配置模型缓存(非常关键)

在设置里建议这样配置:

内存限制

如果是16GB Mac

12GB

热缓存

8GB

冷缓存(强烈建议)

例如:

100GB

作用:

  • 保存KV cache

  • 模型下次启动更快

九、下载模型

OMLX不识别Ollama模型格式。

所以需要重新下载模型

在后台:

<div class="border border

 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

未经允许不得转载:安卿辰博客 » Mac 本地运行 AI 大模型利器:OMLX,让 Mac Mini 推理效率飙升 10 倍!

热门推荐

评论 抢沙发

安卿辰博客 专业 快捷

QUX主题是一款功能强大的收费 WordPress 主题,适配个人博客、资源分享站、资讯网站等多种场景

联系我们联系我们
切换注册

登录

忘记密码 ?

切换登录

注册