最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”

2023年10月09日12:41:10 科技 1007

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

一个神秘磁力链接,成了开源大模型社区的新宠。

里面是来自法国的开源大模型Mistral-7B,大家试用下来,觉得Llama 2都不香了

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

有开发者建议,代码之外的数据微调,34B以下规模先试试它就对了。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

也有公司开始把它用在简历自动解析和评估业务上。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

想基于Mistral创业的更是大有人在。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

发布不到2周,配套生态也迅速发展起来,如何在单卡上微调的教程有了。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

各种基础设施和工具链也添加了对Mistral-7B的支持。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

专用于代码补全的微调版本也有人搞出来了。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

甚至有人基于它微调了一个神秘学玄学大模型,也很受欢迎。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

Meta刚刚发布Llama的时候,迅速出现各种其他驼和神兽,发展成大模型动物园的场景太像了。

Mistral这个单词在法语里代表冬季的一种强风。

羊驼们,准备好过冬了吗?

Mistral为什么火了?

先上总结,综合官方公告和社区反馈,主要有5个方面:

性能更强,硬件需求更少,有2023年的知识,安全对齐没那么离谱,开源协议更宽松,

目前最好的7B模型

根据官方发布公告,Mistral 7B在所有尝试过的评测基准中超过Llama 2 13B。

并在代码、数学和推理评测中超过Llama 1 34B。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

另外代码任务上的表现接近专门的CodeLlama 7B,同时保留了自然语言能力。

上下文窗口也达到了8k。

更详细的测评数据如下。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

笔记本轻松跑

以小胜大,意味着取得相似的效果硬件需求更少。

官方也特别说明用了各种优化手段,FlashAttention,Grouped-Query Attention,Sliding Window Attention一起上。

现在已经看到很多开发者晒自己在苹果笔记本跑起来的经验。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

量化后只需要6G显存。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

训练数据更新

官方没有具体说明训练数据截止日期。

但经网友测试,2023年3月OpenAI发布GPT-4的事它也知道。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

相比之下Llama 2的预训练数据截止到2022年9月,只有部分微调数据最多到2023年6月。

实用性更强

Llama 2的安全对齐措施非常充分严格,甚至损失了一部分实用性。

比如拒绝回答如何“杀死”一个Linux线程,只能说过于礼貌也是一种不礼貌了。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

还有创业者根据自己经历总结了3点是Mistral-7B能做但Llama 2做不好的。

他做的是检索复杂SQL语句,对比测试发现Llama 2 13B有几个缺点:

  • 即使提供少样本示例,也会在结构化输出中插入评论
  • 会在时间字段上出错
  • 在数据结构定义DDL中如果有多个表,总是漏掉至少一个表

而Mistral-7B具体效果还在测试中,至少这些问题都不存在。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

另外Mistral-7B还非常适合用来微调,官方也出了经过指令微调的聊天版本作为补充。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

开源协议更宽松

Mistral基于非常宽松的Apache2.0协议开源,免费,允许商业使用、修改和分发。

相比之下Meta为Llama 2准备的协议,甚至被开源界批评为严格来讲不算真正的开源。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

比如有附加商业条款,月活超过7亿的产品或服务需要单独申请许可,这条主要针对大公司。

针对个人和小公司的也有不能使用Llama生成的结果来改进其他模型等。

欧洲的OpenAI

Mistral AI成立于今年5月,总部法国巴黎,3位创始人是DeepMind和Meta前员工,

外界将这家公司看成是欧洲的OpenAI

当初刚成立4周还没有产品时,就靠6个员工7页PPT拿到超过1亿美元融资,当时还引起一番争议,被当成是AI泡沫的代表。

Mistral AI最初计划在2024年发布首个大模型,没想到刚到9月底就已拿出成果,团队也扩大了不少。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

三位联合创始人中,CEO Arthur Mensch此前在DeepMind巴黎工作。

CTO Timothée Lacroix和首席科学家Guillaume Lample则在Meta共同参与过Llama系列的研发,Lample是通讯作者之一。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

事实上Llama初始团队中已有过半离职,其中Marie-Anne Lachaux后来也加入了Mistral AI。

有点子当年OpenAI部分员工出走成立Anthropic的意思了,历史总是惊人的相似。

Mistral AI接下来也会继续推出规模更大的模型,增强推理能力以及多语言能力。

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

如果你对Mistral-7B感兴趣,可以在Perplexity或HuggingChat试玩。

labs.perplexity.ai

https://huggingface.co/chat

还有一个与Llama 2同台竞技的小游戏可玩。

https://llmboxing.com

最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI” - 天天要闻

下载模型也可以去Hugging Face。

https://huggingface.co/mistralai

参考链接:
[1]https://mistral.ai/news/announcing-mistral-7b

[2]https://predibase.com/blog/fine-tuning-mistral-7b-on-a-single-gpu-with-ludwig
[3]https://x.com/hrishioa/status/1710702855491879027
[4]https://twitter.com/Teknium1/status/1710505270043189523

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

科技分类资讯推荐

1699元能买到!荣耀Power有这些优缺点,选它续航焦虑真没了! - 天天要闻

1699元能买到!荣耀Power有这些优缺点,选它续航焦虑真没了!

有一天,一款主流手机的电池容量来到了8000mAh,且最关键的是,这样的产品并没有过多的牺牲手感,甚至可以说手感比主流旗舰机还好,这样的一款手机也许会在其他方面稍微有所妥协,但不得不说,它确实从根源上杜绝了我们的续航焦虑问题。没错了!今天咱们来聊聊荣耀POWER,一款定价在千元左右产品,按照笔者的理解,荣耀是将...
倒计时3天!第二届“兴智杯”全国人工智能创新应用大赛即将启动,线上直播预约开启 - 天天要闻

倒计时3天!第二届“兴智杯”全国人工智能创新应用大赛即将启动,线上直播预约开启

前期,工业和信息化部、科学技术部、深圳市人民政府共同主办了首届“兴智杯”全国人工智能创新应用大赛(以下简称“大赛”),以需求为牵引,推动了一批关键技术加快突破,加快人工智能与重点行业融合赋能,成为了目前国内规模最大、参赛主体最丰富的人工智能专业赛事。为进一步发挥“以赛促研、以赛促用、以赛育人”的作用...
国产芯片杀疯了!利润暴涨26倍,这些小芯片藏着大突破 - 天天要闻

国产芯片杀疯了!利润暴涨26倍,这些小芯片藏着大突破

最近翻看国产芯片企业的成绩单,可把我这个外行人看乐了——利润动辄涨个两三倍都是常规操作,最夸张的翻了26倍!您别误会,这可不是在炒股,而是实打实的造芯片挣来的真金白银。要说这波国产替代的浪潮,还真让咱们在芯片领域啃下了几块硬骨头。先说个身边
iStorage 推出 26TB 容量 diskAshur 加密硬盘,1541 美元起 - 天天要闻

iStorage 推出 26TB 容量 diskAshur 加密硬盘,1541 美元起

IT之家 5 月 5 日消息,硬盘制造商 iStorage 宣布推出 26TB 版本 diskAshur DT2/3 系列加密硬盘,相应硬盘主打“提供物理密码按键”,其中 diskAshur DT2 26TB 版本售价为 1541 美元(IT之家注:现汇率约合 11147 元人民币),diskAshur DT3 26TB 版本定价为 1814 美元(现汇率约
无线信号增强秘籍,桥接和中继模式哪个更强? - 天天要闻

无线信号增强秘籍,桥接和中继模式哪个更强?

【ZOL中关村在线原创技术解析】随着无线通信与计算机技术飞速发展,人们愈发渴望随时随地享受稳定的数据通信服务。无线路由器作为无线网络核心设备,作用关键。但当其信号覆盖不足,如穿过两堵墙后信号微弱时,可通过无线桥接或中继模式连接两个无线路由器,扩展网络、增强信号。中继模式和桥接模式虽都能扩展网络覆盖,但...
流畅更耐用 魅族Note 16将预装Flyme 12 - 天天要闻

流畅更耐用 魅族Note 16将预装Flyme 12

魅族官方透露,将于5月发布的魅族Note 16系列将出厂预装Flyme 12新系统,这也是Flyme系统大版本首次在非旗舰机型上首发。魅族Note 16搭载紫光展锐T765处理器,配备6.78英寸LCD屏,分辨率达2460*1080。后置采用八边形相机模组,由5000万像素主摄和200万像素镜头组成。续航方面,内置6600mAh大容量电池,支持40W有线充电
跨境电商迎“成本地震”,行业洗牌加速 - 天天要闻

跨境电商迎“成本地震”,行业洗牌加速

【环球网财经综合报道】近日,美国正式终止了对中国价值不超过800美元的小额包裹免征关税的政策,这一变化引发了中国跨境电商行业的连锁反应。多家物流公司随即调整策略,物流费用普遍上涨,并增加了高额预收税金。(图片来源:东方IC)美国的800美元小额免税政策(De Minimis)自2016年实施以来,极大地推动了全球跨境电商...