我們在網上吹的牛,成了大模型的香餑餑

2024年05月21日11:32:04 搞笑 9654

就在前兩天,openai 發布的 gpt-4o,又一次震撼了整個互聯網科技行業。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

gpt-4o 融合了所有模態,可以識別並生成文字、語音和圖像內容,還能根據人的語氣判斷對方情緒變化……電影《her》裡面的情節,似乎就要變成現實。

而且,gpt-4o 還免費給所有用戶使用,這一決策也在促使大模型開始往免費、低價這個方向卷。

最近,又有新聞爆出,openai 與 reddit 達成了一項協議,openai 將使用 reddit 的帖子內容來訓練大模型。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

可能很多人沒聽過 reddit 這個網站,它是一個社交新聞網站,上面有許多社區板塊,由用戶發布的帖子構成,簡單來說,咱們可以將它理解為美國版的「貼吧」或是「虎撲」。

根據最新財報,reddit 日活用戶超過 7000 萬,每個月有 12 億獨立用戶訪問 reddit,這也使得 reddit 上聚集了各種各樣的社區,什麼體育、遊戲、音樂、新聞事件……

在 reddit 上,就有一個關於李子柒的社區。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

這些由上億用戶創建的內容,本身就是一個非常寶貴的資源,跟貼吧一樣,reddit 帖子內容涉及到方方面面,回復里是用戶對各種事物真實的反饋,而且還緊跟時事。

用 reddit 的內容訓練,能讓大模型更好的理解人類世界的語言邏輯,在不同主題的對話里生成更接近真人的反饋內容。

打個比方,如果大模型不接觸中文互聯網,大概率不知道「yyds」是什麼意思,也無法在回答里輸出「uzi,yyds」。

事實上,這不是 reddit 第一次跟人工智慧企業合作,早在今年 2 月份,reddit 就與谷歌達成了協議,允許谷歌使用 reddit 的帖子內容訓練大模型。reddit 能從這裡面每年獲得 6000 萬美元。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

reddit 又能從跟 openai 合作里獲利多少,媒體沒有報道,雙方聊得應該很愉快,畢竟 openai 現在的 ceo 山姆·奧特曼也是 reddit 的大股東。

值得一提的是,騰訊也是 reddit 的大股東之一。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

扯遠了,openai 用 reddit 數據訓練大模型還是一件新聞,但在國內,用貼吧、知乎的帖子數據訓練大模型,早已不是什麼新鮮事。

今年 4 月初,弱智吧又火了一把,說是一個團隊用弱智吧訓練出來的大模型,評分遠超知乎豆瓣小紅書的。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

一個號稱是「弱智」的貼吧,內容的文本質量「爆殺」知乎豆瓣小紅書這些平台,看起來簡直是一部爽文,天才主人公扮豬吃老虎,讓人熱血沸騰。

畢竟弱智吧,平常看起來就很不著調,每個帖子的標題五花八門,但短短几個字里,玩出了歐亨利小說那樣出人意料的結尾,甚至包含深刻的人生哲理。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

於是網友驚訝地發現,弱智吧的人不僅不弱智,還可能是最睿智的群體。

不過,後來該團隊成員對這件事進行了澄清:

雖然團隊選取了知乎、豆瓣、小紅書還有弱智吧的語料來訓練大模型,但該團隊在選取弱智吧點贊數最高的 500 個帖子時,只保留了標題。回答內容因為有冒犯性表述和實質性錯誤,都被排除了。

團隊於是採用 gpt-4 生成回答,並經過人工挑選、優化,獲得了 240 組樣本。其他平台比如知乎、豆瓣,則保留了高贊回答。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

因此,在投喂語料訓練大模型時,弱智吧語料本身更符合 gpt-4 的要求,而最終評分也來自 gpt-4,這可能就是弱智吧訓練數據評分高的原因。

雖然最終的解釋給不少人澆了一盆冷水,但也反映了一個事實,那就是國內的大模型團隊會在各大網路平台收集訓練數據。

有很大可能,咱們在網上吹牛獲得高贊的內容,已經被人工智慧團隊拿來訓練大模型,甚至贊數越高,越被認為是優質的語料。

不過,這樣的數據使用也引來了爭議。比如在 reddit 上,曾經有許多大模型團隊通過免費的 api 介面引用 reddit 的語料來訓練數據,其中就包括 openai 和谷歌。

苦於為營收增長發難的 reddit,從中發現了商業機會,開始對 api 收費,這才有了後來與谷歌和 openai 的合作。

另一邊,alphabet(谷歌母公司)的 ceo 則公開警告openai,對方不要用 youtube 的數據訓練生成視頻的人工智慧模型。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

皮查伊指的就是早些時候 openai 發布 sora,之前 openai 的技術負責人被問到 sora 的訓練數據來源時,表達很模糊,被認為用了 youtube 的視頻數據,

作為全球最大的視頻創作平台,如果能夠用 youtube 的視頻來訓練,對大模型水平的提高有很大幫助。

在大模型這波浪潮下,企業之間卷的不僅是硬體資源,用戶創作的內容正成為越來越珍貴的機器食料。

reddit 已經成為當下最大的受益者,而國內的知乎、豆瓣、虎撲也有受益的可能,改變自身當下商業化難的困境。

只希望他們能藉此機會,減少廣告投放,改善用戶的使用體驗吧。

參考資料:

the verge、科學網、新浪科技、reddit

編輯:木易

搞笑分類資訊推薦

唐尚珺第16次高考後回家幫母親餵豬: 在班上被稱學霸,仍想當物理老師 - 天天要聞

唐尚珺第16次高考後回家幫母親餵豬: 在班上被稱學霸,仍想當物理老師

6月9日,還有一個月就滿35周歲的唐尚珺結束了第16次高考,平穩度過了「高十八」的生活。在此之前,他像其他普通高中生一樣,每天坐在河北衡水的一間教室里複習備考,清晨起床、做操、上課、午間休息和晚自習,很少回家。 因年齡與其他學生差距較大,學校破例給唐尚珺提供了一間單人宿舍。身為80後,他仍能融洽地與班上的0...
釣友甩鉤失手鉤住後腦勺,急診醫生求助消防聯手「取鉤」 - 天天要聞

釣友甩鉤失手鉤住後腦勺,急診醫生求助消防聯手「取鉤」

新京報訊(記者彭鏡陶)近日,順義區一名釣友甩鉤失誤鉤進了自己後腦頭皮,因其所用路亞魚鉤材質堅硬且帶有倒刺,急診醫生也不得不求助消防救援人員。消防救援人員正在剪斷魚鉤。圖源:順義區消防救援支隊事發當天21時23分,一通求助電話打進了順義區勝利消防救援站,對方稱,順義區一家醫院急診科內,一名男性頭部後面被路...
千萬個心理為什麼:當對方說「哦」,50 句幽默回復的話術 - 天天要聞

千萬個心理為什麼:當對方說「哦」,50 句幽默回復的話術

在人際交往中,有時候對方會簡單地回復一個「哦」,這可能會讓氣氛有點尷尬或無趣。但別擔心,以下是 50 句幽默的回復話術,讓交流重新變得有趣起來。1. 「哦?這是你對我話題的獨特回應方式嗎?哈哈。」2. 「哦,我彷彿聽到了千言萬語都藏在這一個
到銀行取錢要派出所同意?反詐不能無限擴大化 - 天天要聞

到銀行取錢要派出所同意?反詐不能無限擴大化

近日,有網友反映,其在吉林省長春市的一家吉林銀行取款,被告知需要轄區派出所同意才行。12日,吉林銀行涉事支行以及所屬轄區派出所工作人員均表示,此舉是為了防範電信詐騙。反詐走樣了,而且很誇張,這可能是很多人看到這條新聞的第一反應。既然太誇張,那是不是外界對當地的做法理解錯了?此事曝光後引發廣泛關注,據媒...
「躺」進18強後,中國足球還得自己支棱起來 - 天天要聞

「躺」進18強後,中國足球還得自己支棱起來

18強賽將從2024年9月5日到2025年6月10日,展開第十輪比賽的角逐,中國隊就此獲得了至少10場高水平比賽和5個主場亮相的機會。文|張冰‍‍‍‍或許很多中國球迷都設想過這樣的場景:一名身穿紅色球衣的9號前鋒在大禁區外踢出一腳世界波打破僵局,自己守門員也在門前高接抵擋,最終確保中國隊成功出線……只不過,他們沒想到的...