最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」

2023年10月09日12:41:10 科技 1007

夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

一個神秘磁力鏈接,成了開源大模型社區的新寵。

裏面是來自法國的開源大模型Mistral-7B,大家試用下來,覺得Llama 2都不香了

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

有開發者建議,代碼之外的數據微調,34B以下規模先試試它就對了。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

也有公司開始把它用在簡歷自動解析和評估業務上。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

想基於Mistral創業的更是大有人在。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

發佈不到2周,配套生態也迅速發展起來,如何在單卡上微調的教程有了。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

各種基礎設施和工具鏈也添加了對Mistral-7B的支持。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

專用於代碼補全的微調版本也有人搞出來了。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

甚至有人基於它微調了一個神秘學玄學大模型,也很受歡迎。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

Meta剛剛發佈Llama的時候,迅速出現各種其他駝和神獸,發展成大模型動物園的場景太像了。

Mistral這個單詞在法語里代表冬季的一種強風。

羊駝們,準備好過冬了嗎?

Mistral為什麼火了?

先上總結,綜合官方公告和社區反饋,主要有5個方面:

性能更強,硬件需求更少,有2023年的知識,安全對齊沒那麼離譜,開源協議更寬鬆,

目前最好的7B模型

根據官方發佈公告,Mistral 7B在所有嘗試過的評測基準中超過Llama 2 13B。

並在代碼、數學和推理評測中超過Llama 1 34B。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

另外代碼任務上的表現接近專門的CodeLlama 7B,同時保留了自然語言能力。

上下文窗口也達到了8k。

更詳細的測評數據如下。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

筆記本輕鬆跑

以小勝大,意味着取得相似的效果硬件需求更少。

官方也特別說明用了各種優化手段,FlashAttention,Grouped-Query Attention,Sliding Window Attention一起上。

現在已經看到很多開發者曬自己在蘋果筆記本跑起來的經驗。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

量化後只需要6G顯存。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

訓練數據更新

官方沒有具體說明訓練數據截止日期。

但經網友測試,2023年3月OpenAI發佈GPT-4的事它也知道。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

相比之下Llama 2的預訓練數據截止到2022年9月,只有部分微調數據最多到2023年6月。

實用性更強

Llama 2的安全對齊措施非常充分嚴格,甚至損失了一部分實用性。

比如拒絕回答如何「殺死」一個Linux線程,只能說過於禮貌也是一種不禮貌了。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

還有創業者根據自己經歷總結了3點是Mistral-7B能做但Llama 2做不好的。

他做的是檢索複雜SQL語句,對比測試發現Llama 2 13B有幾個缺點:

  • 即使提供少樣本示例,也會在結構化輸出中插入評論
  • 會在時間字段上出錯
  • 在數據結構定義DDL中如果有多個表,總是漏掉至少一個表

而Mistral-7B具體效果還在測試中,至少這些問題都不存在。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

另外Mistral-7B還非常適合用來微調,官方也出了經過指令微調的聊天版本作為補充。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

開源協議更寬鬆

Mistral基於非常寬鬆的Apache2.0協議開源,免費,允許商業使用、修改和分發。

相比之下Meta為Llama 2準備的協議,甚至被開源界批評為嚴格來講不算真正的開源。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

比如有附加商業條款,月活超過7億的產品或服務需要單獨申請許可,這條主要針對大公司。

針對個人和小公司的也有不能使用Llama生成的結果來改進其他模型等。

歐洲的OpenAI

Mistral AI成立於今年5月,總部法國巴黎,3位創始人是DeepMind和Meta前員工,

外界將這家公司看成是歐洲的OpenAI

當初剛成立4周還沒有產品時,就靠6個員工7頁PPT拿到超過1億美元融資,當時還引起一番爭議,被當成是AI泡沫的代表。

Mistral AI最初計劃在2024年發佈首個大模型,沒想到剛到9月底就已拿出成果,團隊也擴大了不少。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

三位聯合創始人中,CEO Arthur Mensch此前在DeepMind巴黎工作。

CTO Timothée Lacroix和首席科學家Guillaume Lample則在Meta共同參與過Llama系列的研發,Lample是通訊作者之一。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

事實上Llama初始團隊中已有過半離職,其中Marie-Anne Lachaux後來也加入了Mistral AI。

有點子當年OpenAI部分員工出走成立Anthropic的意思了,歷史總是驚人的相似。

Mistral AI接下來也會繼續推出規模更大的模型,增強推理能力以及多語言能力。

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

如果你對Mistral-7B感興趣,可以在Perplexity或HuggingChat試玩。

labs.perplexity.ai

https://huggingface.co/chat

還有一個與Llama 2同台競技的小遊戲可玩。

https://llmboxing.com

最好的7B模型易主,免費開源可商用,來自「歐洲的OpenAI」 - 天天要聞

下載模型也可以去Hugging Face。

https://huggingface.co/mistralai

參考鏈接:
[1]https://mistral.ai/news/announcing-mistral-7b

[2]https://predibase.com/blog/fine-tuning-mistral-7b-on-a-single-gpu-with-ludwig
[3]https://x.com/hrishioa/status/1710702855491879027
[4]https://twitter.com/Teknium1/status/1710505270043189523

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

三星One UI 8部分更新名單曝光:涉及這些S系列機型 - 天天要聞

三星One UI 8部分更新名單曝光:涉及這些S系列機型

【CNMO科技消息】隨着Android 16穩定版本的提前發佈,三星旗下的定製系統One UI 8也進入最後開發階段。根據最新消息,三星正在加快One UI 8的開發進度,並已啟動相關Beta測試程序,距離正式推送的時間已經不遠。 雖然三星尚未正式公布完整的升級設備名單,但基於其一貫透明的軟件更新政策,有海外媒體已經整理出即將獲得On...
中央媒體看安徽 | 科技創新與網絡文明同頻共振 - 天天要聞

中央媒體看安徽 | 科技創新與網絡文明同頻共振

第三屆中國(安徽)科技創新成果轉化交易會上,磐石科技生產的機械人正在彈鋼琴。何曉珺攝2025年中國網絡文明大會現場。侯莉莉攝合肥城市風光。皖宣 攝網絡空間是億萬民眾共同的精神家園。作為社會主義精神文明在網絡空間的延伸和拓展,加強網絡文明建設是順應信息時代潮流、提高社會文明程度的必然要求。6月10日至11日,以...
雷軍感謝北京這片沃土,透露未來五年將投入2000億元做研發 - 天天要聞

雷軍感謝北京這片沃土,透露未來五年將投入2000億元做研發

6月16日,「活力中國調研行」北京市主題採訪活動首站來到北京小米汽車工廠。該工廠於2024年3月揭幕,坐落於北京經濟技術開發區,佔地約72萬平方米,建有6大車間、29個研發實驗室,投資超50億元。今年是小米創業15周年。在當天的調研活動現場,小米集團創始人、董事長兼CEO雷軍表示,「一直以來,小米都是一家土生土長的北京...
余承東揭秘華為鴻蒙系統命名由來 - 天天要聞

余承東揭秘華為鴻蒙系統命名由來

6月16日,華為常務董事、終端BG董事長余承東透露了華為鴻蒙系統名字的由來。余承東介紹,華為早在10年前就開始研發操作系統等根技術,當時該系統尚未命名。2019年,華為為操作系統的內核申請了「鴻蒙」商標。由於網友誤將「鴻蒙」內核商標當作操作系統的名字,華為便順勢將操作系統命名為「鴻蒙」,寓意「萬物初開的元氣」...
廣州新華攜手華為、訊方成立人工智能產業學院,今年擬招生150人 - 天天要聞

廣州新華攜手華為、訊方成立人工智能產業學院,今年擬招生150人

近日,廣州新華學院與華為技術有限公司簽署全面框架合作協議,聯合深圳市訊方技術股份有限公司共建「人工智能產業學院」,該學院今年開始招生,擬招150人。此次簽約揭牌儀式在東莞校區舉行,校企三方將通過整合教育資源、技術優勢與行業經驗,共同構建「產學研用」一體化人才培養體系,助力人工智能技術創新與教育數字化轉...
被冷落的高端旗艦!驍龍8至尊版+16G+512G+真全面屏,低至3499元 - 天天要聞

被冷落的高端旗艦!驍龍8至尊版+16G+512G+真全面屏,低至3499元

開頭問大家一個問題,如果你的預算達到了5000元左右,你會選擇哪個品牌的高端手機呢?相信大部分網友第一印象都是選擇蘋果或者是華為手機。之所以會出現這樣的局面,主要是因為這兩個品牌的產品已經給消費者留下了比較刻板的印象,一聽到這兩個品牌,不少
雷軍:造車難度極高 - 天天要聞

雷軍:造車難度極高

作者 |第一財經武子曄「小米汽車工廠目前每月能生產兩三萬輛車,工廠實現了高度自動化,絕大部分工序都由機器完成。」小米集團創始人雷軍6月16日在「活力中國調研行」活動上表示。雷軍認為,小米汽車首戰告捷,在過去的14個月銷售了25萬輛汽車,智能製造能力是小米汽車成功的原因之一。他還表示,造車難度極高,小米汽車的...
華為Pura80Ultra和華為Pura70Ultra的區別是什麼? - 天天要聞

華為Pura80Ultra和華為Pura70Ultra的區別是什麼?

華為Pura系列一直憑藉著出色的影像深受大家的喜愛,那麼這次發佈的Pura80Ultra和上代Pura70Ultra相比,又有什麼區別呢?老規矩,先來了解雙方的參數配置:一、屏幕方面華為P80 Ultra和P70 Ultra都是6.