天天要聞

最好的7B模型易主，免費開源可商用，來自「歐洲的OpenAI」

分類：科技

瀏覽數：1007

2023-10-09

夢晨發自凹非寺
量子位 | 公眾號 QbitAI

一個神秘磁力鏈接，成了開源大模型社區的新寵。

裡面是來自法國的開源大模型Mistral-7B，大家試用下來，覺得Llama 2都不香了。

有開發者建議，代碼之外的數據微調，34B以下規模先試試它就對了。

也有公司開始把它用在簡歷自動解析和評估業務上。

想基於Mistral創業的更是大有人在。

發布不到2周，配套生態也迅速發展起來，如何在單卡上微調的教程有了。

各種基礎設施和工具鏈也添加了對Mistral-7B的支持。

專用於代碼補全的微調版本也有人搞出來了。

甚至有人基於它微調了一個神秘學玄學大模型，也很受歡迎。

與Meta剛剛發布Llama的時候，迅速出現各種其他駝和神獸，發展成大模型動物園的場景太像了。

Mistral這個單詞在法語里代表冬季的一種強風。

羊駝們，準備好過冬了嗎？

Mistral為什麼火了？

先上總結，綜合官方公告和社區反饋，主要有5個方面：

性能更強，硬體需求更少，有2023年的知識，安全對齊沒那麼離譜，開源協議更寬鬆，

目前最好的7B模型

根據官方發布公告，Mistral 7B在所有嘗試過的評測基準中超過Llama 2 13B。

並在代碼、數學和推理評測中超過Llama 1 34B。

另外代碼任務上的表現接近專門的CodeLlama 7B，同時保留了自然語言能力。

上下文窗口也達到了8k。

更詳細的測評數據如下。

筆記本輕鬆跑

以小勝大，意味著取得相似的效果硬體需求更少。

官方也特別說明用了各種優化手段，FlashAttention，Grouped-Query Attention，Sliding Window Attention一起上。

現在已經看到很多開發者曬自己在蘋果筆記本跑起來的經驗。

量化後只需要6G顯存。

訓練數據更新

官方沒有具體說明訓練數據截止日期。

但經網友測試，2023年3月OpenAI發布GPT-4的事它也知道。

相比之下Llama 2的預訓練數據截止到2022年9月，只有部分微調數據最多到2023年6月。

實用性更強

Llama 2的安全對齊措施非常充分嚴格，甚至損失了一部分實用性。

比如拒絕回答如何「殺死」一個Linux線程，只能說過於禮貌也是一種不禮貌了。

還有創業者根據自己經歷總結了3點是Mistral-7B能做但Llama 2做不好的。

他做的是檢索複雜SQL語句，對比測試發現Llama 2 13B有幾個缺點：

即使提供少樣本示例，也會在結構化輸出中插入評論
會在時間欄位上出錯
在數據結構定義DDL中如果有多個表，總是漏掉至少一個表

而Mistral-7B具體效果還在測試中，至少這些問題都不存在。

另外Mistral-7B還非常適合用來微調，官方也出了經過指令微調的聊天版本作為補充。

開源協議更寬鬆

Mistral基於非常寬鬆的Apache2.0協議開源，免費，允許商業使用、修改和分發。

相比之下Meta為Llama 2準備的協議，甚至被開源界批評為嚴格來講不算真正的開源。

比如有附加商業條款，月活超過7億的產品或服務需要單獨申請許可，這條主要針對大公司。

針對個人和小公司的也有不能使用Llama生成的結果來改進其他模型等。

歐洲的OpenAI

Mistral AI成立於今年5月，總部法國巴黎，3位創始人是DeepMind和Meta前員工，

外界將這家公司看成是歐洲的OpenAI。

當初剛成立4周還沒有產品時，就靠6個員工7頁PPT拿到超過1億美元融資，當時還引起一番爭議，被當成是AI泡沫的代表。

Mistral AI最初計劃在2024年發布首個大模型，沒想到剛到9月底就已拿出成果，團隊也擴大了不少。

三位聯合創始人中，CEO Arthur Mensch此前在DeepMind巴黎工作。

CTO Timothée Lacroix和首席科學家Guillaume Lample則在Meta共同參與過Llama系列的研發，Lample是通訊作者之一。

事實上Llama初始團隊中已有過半離職，其中Marie-Anne Lachaux後來也加入了Mistral AI。

有點子當年OpenAI部分員工出走成立Anthropic的意思了，歷史總是驚人的相似。

Mistral AI接下來也會繼續推出規模更大的模型，增強推理能力以及多語言能力。

如果你對Mistral-7B感興趣，可以在Perplexity或HuggingChat試玩。

labs.perplexity.ai

https://huggingface.co/chat

還有一個與Llama 2同台競技的小遊戲可玩。

https://llmboxing.com

下載模型也可以去Hugging Face。

https://huggingface.co/mistralai

參考鏈接：
[1]https://mistral.ai/news/announcing-mistral-7b
[2]https://predibase.com/blog/fine-tuning-mistral-7b-on-a-single-gpu-with-ludwig
[3]https://x.com/hrishioa/status/1710702855491879027
[4]https://twitter.com/Teknium1/status/1710505270043189523

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

「最好的7B模型易主，免費開源可商用，來自「歐洲的OpenAI」」相關視頻

科技分類資訊推薦

↑