Mistral AI推出24B開源模型，能運行於32GB RAM蘋果MacBook

2025年01月31日22:23:05 科技 1588

同樣面對 AI 大模型領域的“鯰魚”DeepSeek，不同於美國 AI 公司 Anthropic CEO 達里奧·阿莫迪（Dario Amodei）用“萬字檄文”施壓白宮加強管制的敵對態度，法國明星 AI 公司 Mistral AI 則在發布自家新模型的同時在其技術博文中兩次“致敬”DeepSeek。

圖 | Mistral AI 在技術博文中兩次提及 DeepSeek（來源：Mistral AI）

當地時間 1 月 30 日，Mistral AI 發布一款名為 Mistral Small 3 的開源模型。與此同時，其發表了一篇技術博文針對該模型加以詳細介紹。

Mistral AI 在博文中表示：“Mistral Small 3 既沒有經過強化學習訓練，也沒有經過合成數據訓練，因此比 Deepseek R1（一項偉大而互補的開源技術！）等模型更早進入模型生產流程。”

其還寫道：“對於開源社區來說，這是激動人心的日子！和最近發布的 DeepSeek 一樣，Mistral Small 3 為大型開源推理模型帶來了補充，作為一款強大的基礎模型，其推理能力得到了更進一步的發展。”言辭之間，似乎流露着 Mistral AI 對於 DeepSeek 的惺惺相惜。

（來源：Mistral AI）

據介紹，Mistral Small 3 是一個經過預訓練和指導的模型，其參數為 240 億，其在大規模多任務語言理解（MMLU，Massive Multitask Language Understanding）上的準確率超過 81%，延遲為 150 tokens/秒，並可以被部署在任何設備上，甚至能在 32GB RAM 的蘋果 MacBook 上運行。

值得一提的是，Mistral Small 3 的層數遠少於同類模型，大大減少了每次前向傳播的時間。

Mistral Small 3 與 Llama 3.3 70B 的指令相當，但在相同硬件上速度快出 3 倍以上。這讓 Mistral Small 3 能與 Llama 3.3 70B 或 Qwen 32B 等參數更大的模型相媲美。

Mistral AI 表示，Mistral Small 3 是 GPT-4o mini 等閉源專有模型的優秀開源替代品，還稱 Mistral Small 3 在延遲上得到了優化。

（來源：Mistral AI）

在評估該模型的性能時，Mistral AI 與外部第三方供應商一起針對 1k 多個專有編碼和通才提示進行並排評估。這項評估任務旨在從 Mistral Small 3 與從另一個匿名模型生成的內容中，挑選出來更受歡迎的模型響應。

Mistral AI 在博文中寫道：“我們意識到在某些情況下，人類判斷的基準與公開可用的基準截然不同，但在核實公平評估時我們格外謹慎。因此我們相信，上述基準是有效的。”

評估結果顯示，相比三倍於其大小的開源權重模型和專有 GPT4o-mini 模型，Mistral Small 3 的指令調優模型在代碼、數學、常識和指令遵循基準測試上更加出色。

由於所有基準測試的性能準確性，均是通過相同的內部評估流程獲得。因此，測試結果可能與 Qwen2.5-32B-Instruct、Llama-3.3-70B-Instruct、Gemma-2-27B-IT 這幾款模型之前報告的性能略有不同。

而 Wildbench、Arena hard 和 MTBench 等基於評判的評估，均基於 OpenAI 於 2024 年 5 月 13 日發布的 GPT-4o 模型。

Mistral AI 表示，Mistral Small 3 是目前同類產品中最有效的模型，它很好地補全了大型開源推理模型，其還稱 Mistral Small 3 極大降低了計算成本，並表示這可能會重塑先進 AI 部署的經濟性。

正因此，Mistral AI 在其領英主頁上稱 Mistral Small 3 是“加速全球各行各業採用生成式 AI 的遊戲規則改變者（game-changer）”。

（來源：Mistral AI）

Mistral AI 的聯合創始人兼首席科學官紀堯姆·蘭普萊（Guillaume Lample）也告訴媒體：“我們認為，它在所有參數小於 700 億的模型中是最好的。”“我們估計它基本上與幾個月前發布的 Meta Llama 3.3 70B 相當，而 Mistral Small 3 卻比它小了近三倍。”

據介紹，Mistral AI 之所研發這款新模型，是為了在適合本地部署的規模上拉滿模型性能。Mistral AI 的技術方法側重於效率而非規模，其主要通過迭代模型訓練技術來提高模型性能，這樣一來無需再投入更多的計算能力。

事實上，不僅 Mistral AI 的模型訓練方式有所不同，其模型優化的方式也有所不同。據介紹，Mistral Small 3 在 8 萬億個 tokens 上進行訓練，而同類模型的訓練量為 15 萬億，這讓那些重視計算成本的企業更容易獲得先進的 AI 功能。

據該公司稱，Mistral Small 3 可以在單個圖形處理器（GPU，graphics processing unit）上運行，並能處理 80-90% 的典型業務，這些業務往往需要嚴格的語言和指令遵循表現、以及對於延遲要求非常低。與此同時，Mistral AI 在 Apache 2.0 協議下發布了預訓練和指令調優的檢查點。

（來源：Hugging Face）

目前，該模型已經可以在 Hugging Face、Ollama、Kaggle、Together AI、Fireworks AI 等平台下載使用，未來不久開發者也能在 NVIDIA NIM、Amazon SageMaker、Groq、Databricks 和 Snowflake 等平台下載使用。

Mistral Small 3 允許企業自由修改和部署它，因此 Mistral AI 表示它非常期待開源社區來採用 Mistral Small 3 以及基於定製其進行模型性質，並表示非常歡迎開發者通過破解 Mistral Small 3 來使其變得更好。

同時，Mistral AI 還在官網預告稱，預計未來幾周內 Mistral AI 的小模型和大模型將具有更強的推理能力。

隨着 AI 行業的成熟，Mistral AI 對更小、更高效模型的關注，可能會被證明是一種具有先見之明的做法。目前，OpenAI 和 Anthropic 等公司更專註於開發越來越大、越來越昂貴的模型，而 Mistral AI 的做法則和其形成鮮明對比。

該公司的聯合創始人兼首席科學官紀堯姆·蘭普萊（Guillaume Lample）也預測稱：“很多開源模型都可能帶有非常寬鬆的許可證。我們認為，這種‘條件型（conditional）’模型很可能會成為一種商品。”

另據悉，Mistral AI 成立於 2023 年 4 月，一共有三位創始人。他們分別是：擔任聯合創始人兼 CEO 的阿瑟·曼斯（Arthur Mensch）、擔任聯合創始人兼首席科學家的紀堯姆·蘭普萊（Guillaume Lample）以及擔任聯合創始人兼 CTO 的蒂莫西·拉克魯瓦（Timothée Lacroix）。