DeepSeek玩家能提前拿蘋果新品!只要15萬元,在家跑滿血版R1

金磊 發自 凹非寺

量子位 | 公眾號 qbitai

號稱地表最強的m3 ultra,本地跑滿血版deepseek r1,效果到底如何?

其實,有些deepseek玩家們已經提前拿到手做過實測了。

例如這位alex老哥就是其中之一:

他提前拿到了兩台搭載m3 ultra的mac studio,配置是這樣的:

  • m3 ultra(32 核中央處理器、80 核圖形處理器和 32 核神經網絡引擎)

  • 512g統一內存

  • 1tb固態硬盤

具體來說,alex老哥用配備thunderbolt 5互連技術(傳輸速率為 80gbps)的exo labs設備,來運行完整的deepseek r1模型(671b、8-bit)。

然後效果是這樣的:

嗯,跑通了!

alex老哥表示,兩台mac studio本地跑滿血版deepseek r1,實際速度是11 tokens/秒,理論上可以達到20 tokens/秒。

至於價格嘛,一台上述配置的mac studio是74249元,兩台就是小15萬元

或許很多小夥伴覺得這個價格有點略貴。

但在m3 ultra之前啊,如果你想在本地使用顯卡來推理v3或r1,那麼就得起碼需要6、7張a100……大約小100萬元。

也正因如此,也有不少網友認為搭載m3 ultra的mac studio,堪稱是“性價比最高的大模型一體機”

值得注意的是,蘋果這次似乎是主動給deepseek玩家們提前發貨,有種讓他們趕緊測一測的意味。

畢竟在發布之際,蘋果就強調了可以在m3 ultra版mac studio中跑超過6000億參數的大模型。

掀起一波本地跑deepseek的風

其實在m3 ultra版mac studio發布前後,已經有不少人做過類似的評測。

例如b站博主“雖然但是張黑黑”的測試結果是:

  • 15.78 tokens/秒:採用ollama的gguf格式

  • 19.17 tokens/秒:採用更適合蘋果的mlx格式

這個速度已經跟在線使用deepseek r1的速度相媲美了。

除此之外,像外網博主xcreate還把m3 ultra版mac studio和m4 max版macbook pro的拉到一個“擂台”做了比較。

首先從性能上來看,geekbench測試的結果顯示,m3 ultra在cpu性能方面與m4 max非常接近,但m3 ultra略勝一籌。

在本地運行大模型測試方面,博主在運行基於llama的deepseek r1 70b模型時,m3 ultra的速度為11.3 tokens/ 秒,而m4 max測試結果為10.69 tokens/秒,差距並不是很大。

但更重要的是測試滿血版deepseek r1的結果。

對此,博主認為在本地完整運行671b的deepseek是有點困難的,因為已經有人宣告失敗。

但也有成功的例子。

他舉例另一位評測人員的結果,顯示是運行8bit量化版本的deepseek r1,得到了9-21 tokens/秒的速度。

而在4bit量化版情況下,速度為16-18 tokens/秒。

至於為什麼體量更大的671b的deepseek,會比70b運行速度更快,是因為deepseek將671b模型分片為 “專家混合體”,實際運行時根據問題切換,類似運行30b的模型。

最後,博主也提醒想要在本地運行大模型的友友們,網傳蘋果將在今年wwdc上發布m4 ultra,所以可以再觀望一下。

參考鏈接:[1]https://x.com/alexocheema/status/1899604613135028716[2]https://www.bilibili.com/video/bv1nkrnytewx/