iPhone上也能跑Qwen3了!阿里一口气开源32款MLX模型

“源神”千问,又一次闷声干大事!

今天刷 Reddit 才发现:昨晚,阿里千问一口气开源了 32 款,适配苹果 MLX 架构的 Qwen3 模型。

没错,32 款,就是这么量大实惠。

此前,千问已经陆续发布了 Qwen3 模型的 GGUF、AWQ、GPTQ 等多种量化格式,受到开发者广泛好评。

这些格式主要用于兼容开源部署工具(如 llama.cpp、lmdeploy 等),而MLX 是苹果自研的本地 AI 推理框架,专为 M 系芯片打造——能不能原生适配 MLX,决定了 Qwen3 能不能“跑进苹果设备的底层”。

这次,干脆一口气全配齐了搭配苹果MLX的模型:每款模型都有4bit、6bit、8bit 和 BF16 等 4 种不同精度的量化版本。

最炸的消息是:iPhone 上跑千问,终于不是幻想了!

千问官方表示:

“现在,从 Mac Pro、Mac Studio 到 Mac mini、MacBook,再到 iPad,甚至内存更小的设备如 iPhone,都能轻松部署 Qwen3,真正做到全场景覆盖。”

而更值得注意的是:这是开源大模型首次系统性“杀入 Apple 端侧 AI 生态”,甚至被媒体一致解读为——Apple Intelligence 在中国落地的前奏。

Qwen3 的这一动作不仅收获了X上网友的好评,还被 MLX 框架的核心开发者 Vaibhav Srivastav 点赞。他在评论区写道:

祝贺你们的量化模型!你们把 MLX 放在优先级很高的位置,真的很棒!

虽然 Apple Intelligence 和 Siri 的中国上线一再跳票,令人失望,但这次——中国开源之神 + 苹果硬件霸主,终于有了正面交汇的一刻。

1.Qwen3 开源了什么?哪些设备能用?

Qwen3 成为苹果 Apple Intelligence 在中国市场的“本地模型供应商”,如今进一步全面适配 MLX,其实并不令人意外。

MLX 是一个开源的机器学习框架,专为苹果芯片深度适配。MLX 框架充分利用 Apple Silicon 的神经引擎和统一内存系统,兼容 PyTorch/Numpy 风格 API,可高效执行大模型,被越来越多的 AI 开发者采用。

从 Hugging Face 的 Qwen3-MLX 模型页来看,阿里这次开源的模型覆盖了从 0.6B 到 235B 的完整参数量级,而且每个模型都提供 4bit、6bit、8bit 和 BF16 四种不同精度版本,开发者可以根据设备性能自由选择。

地址:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

不同设备推荐部署范围如下:

  • 高端:Mac Pro、Mac Studio → 推荐运行 32B、235B
  • 主流:MacBook Pro/Air(16G/32G)→ 推荐 8B、14B
  • 轻量:iPad、iPhone(A17/M芯片)→ 可运行 0.6B / 1.7B 级模型,适合本地小推理

不过,根据 Reddit 上网友实测,即便是配备 128GB 内存的 Mac Studio,在运行 Qwen3‑235B 的 4bit 版本时依然存在内存瓶颈。

有用户吐槽说:

“可惜 Mac 用户即使有 128GB RAM,也无法运行 Qwen3 的 235B 模型的 4bit 版本。只差 3% 的内存。”

这也说明,即使 MLX 是苹果原生优化的推理框架,对于参数量巨大的 MoE 模型(如 Qwen3‑235B)而言,设备硬件依然是决定上限的关键。

2.Mac以前也能跑Qwen,为什么官方支持更值得关注?

在Qwen3官宣支持苹果 MLX 框架之前,你肯定也刷到过在Mac上跑Qwen的各种实测,或者亲自上手过。

这是因为此前社区已经通过第三方量化格式(如 GGUF、GPTQ)+ 推理框架(如 llama.cpp、llm.cpp、lmdeploy),实现了在 Mac 上加载 Qwen 模型的方式。

但这次官方 MLX 支持,仍然引发了 Reddit 上不少开发者的兴奋情绪:

用户 Ok-Pipe-5151 表示:“这是 Mac 用户的重大利好!官方支持来了,非常兴奋。”

另一位用户问:“这些模型不是早就通过第三方量化可以用了?”

他回复道:

“是的,但官方支持更好。”

“官方适配 MLX” 到底比第三方支持强在哪里,具体点来说有这几点:

  • 免去格式转换、参数调整、推理配置等繁琐步骤,开箱即用
  • 兼容 MLX 原生调度机制,在 Apple Silicon 芯片上可充分调用神经引擎与统一内存架构,运行效率更高
  • 模型结构与量化过程由官方调优,在推理稳定性、精度保持率上通常优于第三方版本
  • 长期可维护性更好,未来随着苹果系统/MLX 更新,官方适配模型能更快同步迭代

举个栗子:过去,很多用户要在 iOS 上跑模型,得靠 MNN 等轻量框架,整个流程包括自己编译 framework、签名打包、配置依赖,非常麻烦。

上图:此前,千问给的官方教程

而现在,得益于 MLX 的官方适配,Qwen3 终于能“跳过这套链路”,直接以苹果原生方式部署推理。

3.写在最后:苹果智能在中国的落地进入倒计时阶段?

苹果刚在本周一发布了 iOS 18.6 开发者测试版,但仍未就中国区上线 Apple Intelligence 给出时间表。

不过,阿里巴巴此次对 Qwen3 的 MLX 深度适配,被广泛解读为是为国行版 Apple Intelligence 打基础、铺路径。

此前,就有多家媒体报道称,苹果原计划在 iOS 18.5 或 18.6 中上线 Apple Intelligence,技术上已基本就绪,但由于本地的合规流程尚未完全走通,正式上线时间一再延后。

与此同时,值得特别关注的是:苹果官方已确认,全新的 deep LLM Siri 将随 iOS 26.4 于 2026 年春季正式推出。这意味着,一个真正具备对话理解能力、支持本地大模型推理的 Siri 正在缓步走来。

随着千问在开源上的知名度不断攀升,更多的人对国行苹果智能拥有信心。而千问本身也因此从“技术力”的象征,逐步走向“生态级别”的落地合作。

你认为国行 Apple Intelligence 会赶在 2025 年底前上线吗?