我們在網上吹的牛,成了大模型的香餑餑

2024年05月21日11:32:04 搞笑 9654

就在前兩天,openai 發布的 gpt-4o,又一次震撼了整個互聯網科技行業。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

gpt-4o 融合了所有模態,可以識別並生成文字、語音和圖像內容,還能根據人的語氣判斷對方情緒變化……電影《her》裡面的情節,似乎就要變成現實。

而且,gpt-4o 還免費給所有用戶使用,這一決策也在促使大模型開始往免費、低價這個方向卷。

最近,又有新聞爆出,openai 與 reddit 達成了一項協議,openai 將使用 reddit 的帖子內容來訓練大模型。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

可能很多人沒聽過 reddit 這個網站,它是一個社交新聞網站,上面有許多社區板塊,由用戶發布的帖子構成,簡單來說,咱們可以將它理解為美國版的“貼吧”或是“虎撲”。

根據最新財報,reddit 日活用戶超過 7000 萬,每個月有 12 億獨立用戶訪問 reddit,這也使得 reddit 上聚集了各種各樣的社區,什麼體育、遊戲、音樂、新聞事件……

在 reddit 上,就有一個關於李子柒的社區。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

這些由上億用戶創建的內容,本身就是一個非常寶貴的資源,跟貼吧一樣,reddit 帖子內容涉及到方方面面,回復里是用戶對各種事物真實的反饋,而且還緊跟時事。

用 reddit 的內容訓練,能讓大模型更好的理解人類世界的語言邏輯,在不同主題的對話里生成更接近真人的反饋內容。

打個比方,如果大模型不接觸中文互聯網,大概率不知道“yyds”是什麼意思,也無法在回答里輸出“uzi,yyds”。

事實上,這不是 reddit 第一次跟人工智能企業合作,早在今年 2 月份,reddit 就與谷歌達成了協議,允許谷歌使用 reddit 的帖子內容訓練大模型。reddit 能從這裡面每年獲得 6000 萬美元。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

reddit 又能從跟 openai 合作里獲利多少,媒體沒有報道,雙方聊得應該很愉快,畢竟 openai 現在的 ceo 山姆·奧特曼也是 reddit 的大股東。

值得一提的是,騰訊也是 reddit 的大股東之一。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

扯遠了,openai 用 reddit 數據訓練大模型還是一件新聞,但在國內,用貼吧、知乎的帖子數據訓練大模型,早已不是什麼新鮮事。

今年 4 月初,弱智吧又火了一把,說是一個團隊用弱智吧訓練出來的大模型,評分遠超知乎豆瓣小紅書的。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

一個號稱是“弱智”的貼吧,內容的文本質量“爆殺”知乎豆瓣小紅書這些平台,看起來簡直是一部爽文,天才主人公扮豬吃老虎,讓人熱血沸騰。

畢竟弱智吧,平常看起來就很不着調,每個帖子的標題五花八門,但短短几個字里,玩出了歐亨利小說那樣出人意料的結尾,甚至包含深刻的人生哲理。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

於是網友驚訝地發現,弱智吧的人不僅不弱智,還可能是最睿智的群體。

不過,後來該團隊成員對這件事進行了澄清:

雖然團隊選取了知乎、豆瓣、小紅書還有弱智吧的語料來訓練大模型,但該團隊在選取弱智吧點贊數最高的 500 個帖子時,只保留了標題。回答內容因為有冒犯性表述和實質性錯誤,都被排除了。

團隊於是採用 gpt-4 生成回答,並經過人工挑選、優化,獲得了 240 組樣本。其他平台比如知乎、豆瓣,則保留了高贊回答。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

因此,在投喂語料訓練大模型時,弱智吧語料本身更符合 gpt-4 的要求,而最終評分也來自 gpt-4,這可能就是弱智吧訓練數據評分高的原因。

雖然最終的解釋給不少人澆了一盆冷水,但也反映了一個事實,那就是國內的大模型團隊會在各大網絡平台收集訓練數據。

有很大可能,咱們在網上吹牛獲得高贊的內容,已經被人工智能團隊拿來訓練大模型,甚至贊數越高,越被認為是優質的語料。

不過,這樣的數據使用也引來了爭議。比如在 reddit 上,曾經有許多大模型團隊通過免費的 api 接口引用 reddit 的語料來訓練數據,其中就包括 openai 和谷歌。

苦於為營收增長發難的 reddit,從中發現了商業機會,開始對 api 收費,這才有了後來與谷歌和 openai 的合作。

另一邊,alphabet(谷歌母公司)的 ceo 則公開警告openai,對方不要用 youtube 的數據訓練生成視頻的人工智能模型。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

皮查伊指的就是早些時候 openai 發布 sora,之前 openai 的技術負責人被問到 sora 的訓練數據來源時,表達很模糊,被認為用了 youtube 的視頻數據,

作為全球最大的視頻創作平台,如果能夠用 youtube 的視頻來訓練,對大模型水平的提高有很大幫助。

在大模型這波浪潮下,企業之間卷的不僅是硬件資源,用戶創作的內容正成為越來越珍貴的機器食料。

reddit 已經成為當下最大的受益者,而國內的知乎、豆瓣、虎撲也有受益的可能,改變自身當下商業化難的困境。

只希望他們能藉此機會,減少廣告投放,改善用戶的使用體驗吧。

參考資料:

the verge、科學網、新浪科技、reddit

編輯:木易

搞笑分類資訊推薦

“老司機加油只加200塊”,這樣真的更划算嗎? - 天天要聞

“老司機加油只加200塊”,這樣真的更划算嗎?

“每次加油,只加200塊更划算”這種說法靠譜嗎?有許多新手司機諮詢“加油技巧”,例如:“加油到底加200塊還是加滿?”“油箱剩多少時加油最合適?”“為什麼後半箱油燒得快?”油箱剩餘多少時加油合適?部分車主朋友習慣等油表燈亮了再去加油,他們認為這樣能減少跑加能站的頻率,既節省了時間,又可以達到省油效果。提醒...
AI上車,小鵬下一個10年的穩了? - 天天要聞

AI上車,小鵬下一個10年的穩了?

2014年成立的小鵬汽車可以說是新能源汽車上一個10年最忙碌的車企之一,它們經歷了新能源汽車從“藍海”到“紅海”再到現在的“血海”。 “上一個10年,是新能源汽車的時代,下一個10年,是智....
明早提醒:這兩雙「重磅聯名」搶到賺到! - 天天要聞

明早提醒:這兩雙「重磅聯名」搶到賺到!

在曝光多時之後,這雙全新的 Futura Laboratories x Nike SB Dunk Low 終於將在明天正式與玩家見面。昨天下午,國區終於正式上架了這雙大家期待已久的重磅聯名。將於明天上午 9 點開啟 DAN 模式抽籤,參考此前的情況,順利 “上跑道” 應該沒什麼問題。定價方面為 ¥999 元,目前二級市場行情男碼普遍在 3k 附近。目前的消.
“6月只要上班19天”上熱搜!最新放假通知來了! - 天天要聞

“6月只要上班19天”上熱搜!最新放假通知來了!

盼望着盼望着下一個假期就要來了!6月8日至10日端午節假期共3天不調休!不調休!不調休!重要的事說三遍~有網友發現驚喜消息六月只要上班19天就能拿一整個月的工資相關話題 #六月上班好划算#  #突然發現六月只要上19天班# 更是衝上熱搜引發廣泛討論 六月只用上19天班?根據網友的算法六月共有30天,去掉6月1日至2日、...
我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

我們在網上吹的牛,成了大模型的香餑餑

就在前兩天,OpenAI 發布的 GPT-4o,又一次震撼了整個互聯網科技行業。GPT-4o 融合了所有模態,可以識別並生成文字、語音和圖像內容,還能根據人的語氣判斷對方情緒變化……電影《her》裡面的情節,似乎就要變成現實。而且,GPT-4o 還免費給所有用戶使用,這一決策也在促使大模型開始往免費、低價這個方向卷。最近,又有新...
手握10多萬,現在能買哪些二手大牌電動車? - 天天要聞

手握10多萬,現在能買哪些二手大牌電動車?

在當前的汽車市場,隨着電動車技術的不斷進步和更新,越來越多的消費者開始關注二手電動車市場。對於預算有限的消費者來說,現在可以用10多萬元購買到原本售價在20~30萬元的二手大牌電動車,這無疑是一個非常好的選擇。二手電動車由於車齡和行駛里程相對較低,甚至有很多准新車,因此受到了精打細算的消費者的歡迎。眾所周...
新聞早資訊丨放假通知!不調休 - 天天要聞

新聞早資訊丨放假通知!不調休

天氣提示今天白天:雅安、樂山、宜賓、瀘州、廣安、達州6市和盆地西北部沿山多雲間陰有分散陣雨,盆地其餘地方多雲間晴;川西高原和攀西地區大部多雲間陰有陣雨或雷雨。24小時內,盆地最低氣溫:18~21℃;最高氣溫:東北部28~30℃,其餘地方30~33℃。(四川氣象)要聞5月20日,國家主席習近平就伊朗伊斯蘭共和國總統萊希在直...
賭博“輸紅眼”,打個電話報個警…… - 天天要聞

賭博“輸紅眼”,打個電話報個警……

都說十賭九輸可會澤這一男子偏偏不信在打“三吃一”輸了800餘元後撥打電話報警請警察來幫忙“討說法”……5月6日19時57分,馬路派出所接到轄區群眾賈某報警稱:在馬路鄉馬路街上的董某家中,其因打“三吃一”與金某發生糾紛,請出警處置。接警後,正在附近開展巡邏的民輔警迅速趕到現場調查。經了解,當天下午,報警人賈某...