我们在网上吹的牛,成了大模型的香饽饽

2024年05月21日11:32:04 搞笑 9654

就在前两天,openai 发布的 gpt-4o,又一次震撼了整个互联网科技行业。

我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

gpt-4o 融合了所有模态,可以识别并生成文字、语音和图像内容,还能根据人的语气判断对方情绪变化……电影《her》里面的情节,似乎就要变成现实。

而且,gpt-4o 还免费给所有用户使用,这一决策也在促使大模型开始往免费、低价这个方向卷。

最近,又有新闻爆出,openai 与 reddit 达成了一项协议,openai 将使用 reddit 的帖子内容来训练大模型。

我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

可能很多人没听过 reddit 这个网站,它是一个社交新闻网站,上面有许多社区板块,由用户发布的帖子构成,简单来说,咱们可以将它理解为美国版的“贴吧”或是“虎扑”。

根据最新财报,reddit 日活用户超过 7000 万,每个月有 12 亿独立用户访问 reddit,这也使得 reddit 上聚集了各种各样的社区,什么体育、游戏、音乐、新闻事件……

在 reddit 上,就有一个关于李子柒的社区。

我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

这些由上亿用户创建的内容,本身就是一个非常宝贵的资源,跟贴吧一样,reddit 帖子内容涉及到方方面面,回复里是用户对各种事物真实的反馈,而且还紧跟时事。

用 reddit 的内容训练,能让大模型更好的理解人类世界的语言逻辑,在不同主题的对话里生成更接近真人的反馈内容。

打个比方,如果大模型不接触中文互联网,大概率不知道“yyds”是什么意思,也无法在回答里输出“uzi,yyds”。

事实上,这不是 reddit 第一次跟人工智能企业合作,早在今年 2 月份,reddit 就与谷歌达成了协议,允许谷歌使用 reddit 的帖子内容训练大模型。reddit 能从这里面每年获得 6000 万美元。

我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

reddit 又能从跟 openai 合作里获利多少,媒体没有报道,双方聊得应该很愉快,毕竟 openai 现在的 ceo 山姆·奥特曼也是 reddit 的大股东。

值得一提的是,腾讯也是 reddit 的大股东之一。

我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

扯远了,openai 用 reddit 数据训练大模型还是一件新闻,但在国内,用贴吧、知乎的帖子数据训练大模型,早已不是什么新鲜事。

今年 4 月初,弱智吧又火了一把,说是一个团队用弱智吧训练出来的大模型,评分远超知乎豆瓣小红书的。

我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

一个号称是“弱智”的贴吧,内容的文本质量“爆杀”知乎豆瓣小红书这些平台,看起来简直是一部爽文,天才主人公扮猪吃老虎,让人热血沸腾。

毕竟弱智吧,平常看起来就很不着调,每个帖子的标题五花八门,但短短几个字里,玩出了欧亨利小说那样出人意料的结尾,甚至包含深刻的人生哲理。

我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

于是网友惊讶地发现,弱智吧的人不仅不弱智,还可能是最睿智的群体。

不过,后来该团队成员对这件事进行了澄清:

虽然团队选取了知乎、豆瓣、小红书还有弱智吧的语料来训练大模型,但该团队在选取弱智吧点赞数最高的 500 个帖子时,只保留了标题。回答内容因为有冒犯性表述和实质性错误,都被排除了。

团队于是采用 gpt-4 生成回答,并经过人工挑选、优化,获得了 240 组样本。其他平台比如知乎、豆瓣,则保留了高赞回答。

我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

因此,在投喂语料训练大模型时,弱智吧语料本身更符合 gpt-4 的要求,而最终评分也来自 gpt-4,这可能就是弱智吧训练数据评分高的原因。

虽然最终的解释给不少人浇了一盆冷水,但也反映了一个事实,那就是国内的大模型团队会在各大网络平台收集训练数据。

有很大可能,咱们在网上吹牛获得高赞的内容,已经被人工智能团队拿来训练大模型,甚至赞数越高,越被认为是优质的语料。

不过,这样的数据使用也引来了争议。比如在 reddit 上,曾经有许多大模型团队通过免费的 api 接口引用 reddit 的语料来训练数据,其中就包括 openai 和谷歌。

苦于为营收增长发难的 reddit,从中发现了商业机会,开始对 api 收费,这才有了后来与谷歌和 openai 的合作。

另一边,alphabet(谷歌母公司)的 ceo 则公开警告openai,对方不要用 youtube 的数据训练生成视频的人工智能模型。

我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

皮查伊指的就是早些时候 openai 发布 sora,之前 openai 的技术负责人被问到 sora 的训练数据来源时,表达很模糊,被认为用了 youtube 的视频数据,

作为全球最大的视频创作平台,如果能够用 youtube 的视频来训练,对大模型水平的提高有很大帮助。

在大模型这波浪潮下,企业之间卷的不仅是硬件资源,用户创作的内容正成为越来越珍贵的机器食料。

reddit 已经成为当下最大的受益者,而国内的知乎、豆瓣、虎扑也有受益的可能,改变自身当下商业化难的困境。

只希望他们能借此机会,减少广告投放,改善用户的使用体验吧。

参考资料:

the verge、科学网、新浪科技、reddit

编辑:木易

搞笑分类资讯推荐

“老司机加油只加200块”,这样真的更划算吗? - 天天要闻

“老司机加油只加200块”,这样真的更划算吗?

“每次加油,只加200块更划算”这种说法靠谱吗?有许多新手司机咨询“加油技巧”,例如:“加油到底加200块还是加满?”“油箱剩多少时加油最合适?”“为什么后半箱油烧得快?”油箱剩余多少时加油合适?部分车主朋友习惯等油表灯亮了再去加油,他们认为这样能减少跑加能站的频率,既节省了时间,又可以达到省油效果。提醒...
AI上车,小鹏下一个10年的稳了? - 天天要闻

AI上车,小鹏下一个10年的稳了?

2014年成立的小鹏汽车可以说是新能源汽车上一个10年最忙碌的车企之一,它们经历了新能源汽车从“蓝海”到“红海”再到现在的“血海”。 “上一个10年,是新能源汽车的时代,下一个10年,是智....
明早提醒:这两双「重磅联名」抢到赚到! - 天天要闻

明早提醒:这两双「重磅联名」抢到赚到!

在曝光多时之后,这双全新的 Futura Laboratories x Nike SB Dunk Low 终于将在明天正式与玩家见面。昨天下午,国区终于正式上架了这双大家期待已久的重磅联名。将于明天上午 9 点开启 DAN 模式抽签,参考此前的情况,顺利 “上跑道” 应该没什么问题。定价方面为 ¥999 元,目前二级市场行情男码普遍在 3k 附近。目前的消.
“6月只要上班19天”上热搜!最新放假通知来了! - 天天要闻

“6月只要上班19天”上热搜!最新放假通知来了!

盼望着盼望着下一个假期就要来了!6月8日至10日端午节假期共3天不调休!不调休!不调休!重要的事说三遍~有网友发现惊喜消息六月只要上班19天就能拿一整个月的工资相关话题 #六月上班好划算#  #突然发现六月只要上19天班# 更是冲上热搜引发广泛讨论 六月只用上19天班?根据网友的算法六月共有30天,去掉6月1日至2日、...
我们在网上吹的牛,成了大模型的香饽饽 - 天天要闻

我们在网上吹的牛,成了大模型的香饽饽

就在前两天,OpenAI 发布的 GPT-4o,又一次震撼了整个互联网科技行业。GPT-4o 融合了所有模态,可以识别并生成文字、语音和图像内容,还能根据人的语气判断对方情绪变化……电影《her》里面的情节,似乎就要变成现实。而且,GPT-4o 还免费给所有用户使用,这一决策也在促使大模型开始往免费、低价这个方向卷。最近,又有新...
手握10多万,现在能买哪些二手大牌电动车? - 天天要闻

手握10多万,现在能买哪些二手大牌电动车?

在当前的汽车市场,随着电动车技术的不断进步和更新,越来越多的消费者开始关注二手电动车市场。对于预算有限的消费者来说,现在可以用10多万元购买到原本售价在20~30万元的二手大牌电动车,这无疑是一个非常好的选择。二手电动车由于车龄和行驶里程相对较低,甚至有很多准新车,因此受到了精打细算的消费者的欢迎。众所周...
新闻早资讯丨放假通知!不调休 - 天天要闻

新闻早资讯丨放假通知!不调休

天气提示今天白天:雅安、乐山、宜宾、泸州、广安、达州6市和盆地西北部沿山多云间阴有分散阵雨,盆地其余地方多云间晴;川西高原和攀西地区大部多云间阴有阵雨或雷雨。24小时内,盆地最低气温:18~21℃;最高气温:东北部28~30℃,其余地方30~33℃。(四川气象)要闻5月20日,国家主席习近平就伊朗伊斯兰共和国总统莱希在直...
赌博“输红眼”,打个电话报个警…… - 天天要闻

赌博“输红眼”,打个电话报个警……

都说十赌九输可会泽这一男子偏偏不信在打“三吃一”输了800余元后拨打电话报警请警察来帮忙“讨说法”……5月6日19时57分,马路派出所接到辖区群众贾某报警称:在马路乡马路街上的董某家中,其因打“三吃一”与金某发生纠纷,请出警处置。接警后,正在附近开展巡逻的民辅警迅速赶到现场调查。经了解,当天下午,报警人贾某...