金磊 发自 凹非寺
量子位 | 公众号 qbitai
号称地表最强的m3 ultra,本地跑满血版deepseek r1,效果到底如何?
其实,有些deepseek玩家们已经提前拿到手做过实测了。
例如这位alex老哥就是其中之一:
他提前拿到了两台搭载m3 ultra的mac studio,配置是这样的:
m3 ultra(32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)
512g统一内存
1tb固态硬盘
具体来说,alex老哥用配备thunderbolt 5互连技术(传输速率为 80gbps)的exo labs设备,来运行完整的deepseek r1模型(671b、8-bit)。
然后效果是这样的:
嗯,跑通了!
alex老哥表示,两台mac studio本地跑满血版deepseek r1,实际速度是11 tokens/秒,理论上可以达到20 tokens/秒。
至于价格嘛,一台上述配置的mac studio是74249元,两台就是小15万元。
或许很多小伙伴觉得这个价格有点略贵。
但在m3 ultra之前啊,如果你想在本地使用显卡来推理v3或r1,那么就得起码需要6、7张a100……大约小100万元。
也正因如此,也有不少网友认为搭载m3 ultra的mac studio,堪称是“性价比最高的大模型一体机”。
值得注意的是,苹果这次似乎是主动给deepseek玩家们提前发货,有种让他们赶紧测一测的意味。
毕竟在发布之际,苹果就强调了可以在m3 ultra版mac studio中跑超过6000亿参数的大模型。
掀起一波本地跑deepseek的风
其实在m3 ultra版mac studio发布前后,已经有不少人做过类似的评测。
例如b站博主“虽然但是张黑黑”的测试结果是:
15.78 tokens/秒:采用ollama的gguf格式
19.17 tokens/秒:采用更适合苹果的mlx格式
这个速度已经跟在线使用deepseek r1的速度相媲美了。
除此之外,像外网博主xcreate还把m3 ultra版mac studio和m4 max版macbook pro的拉到一个“擂台”做了比较。
首先从性能上来看,geekbench测试的结果显示,m3 ultra在cpu性能方面与m4 max非常接近,但m3 ultra略胜一筹。
在本地运行大模型测试方面,博主在运行基于llama的deepseek r1 70b模型时,m3 ultra的速度为11.3 tokens/ 秒,而m4 max测试结果为10.69 tokens/秒,差距并不是很大。
但更重要的是测试满血版deepseek r1的结果。
对此,博主认为在本地完整运行671b的deepseek是有点困难的,因为已经有人宣告失败。
但也有成功的例子。
他举例另一位评测人员的结果,显示是运行8bit量化版本的deepseek r1,得到了9-21 tokens/秒的速度。
而在4bit量化版情况下,速度为16-18 tokens/秒。
至于为什么体量更大的671b的deepseek,会比70b运行速度更快,是因为deepseek将671b模型分片为 “专家混合体”,实际运行时根据问题切换,类似运行30b的模型。
最后,博主也提醒想要在本地运行大模型的友友们,网传苹果将在今年wwdc上发布m4 ultra,所以可以再观望一下。
参考链接:
[1]https://x.com/alexocheema/status/1899604613135028716[2]https://www.bilibili.com/video/bv1nkrnytewx/