我們在網上吹的牛，成了大模型的香餑餑

2024年05月21日11:32:04 搞笑 9654

就在前兩天，openai 發布的 gpt-4o，又一次震撼了整個互聯網科技行業。

gpt-4o 融合了所有模態，可以識別並生成文字、語音和圖像內容，還能根據人的語氣判斷對方情緒變化……電影《her》裡面的情節，似乎就要變成現實。

而且，gpt-4o 還免費給所有用戶使用，這一決策也在促使大模型開始往免費、低價這個方向卷。

最近，又有新聞爆出，openai 與 reddit 達成了一項協議，openai 將使用 reddit 的帖子內容來訓練大模型。

可能很多人沒聽過 reddit 這個網站，它是一個社交新聞網站，上面有許多社區板塊，由用戶發布的帖子構成，簡單來說，咱們可以將它理解為美國版的「貼吧」或是「虎撲」。

根據最新財報，reddit 日活用戶超過 7000 萬，每個月有 12 億獨立用戶訪問 reddit，這也使得 reddit 上聚集了各種各樣的社區，什麼體育、遊戲、音樂、新聞事件……

在 reddit 上，就有一個關於李子柒的社區。

這些由上億用戶創建的內容，本身就是一個非常寶貴的資源，跟貼吧一樣，reddit 帖子內容涉及到方方面面，回復里是用戶對各種事物真實的反饋，而且還緊跟時事。

用 reddit 的內容訓練，能讓大模型更好的理解人類世界的語言邏輯，在不同主題的對話里生成更接近真人的反饋內容。

打個比方，如果大模型不接觸中文互聯網，大概率不知道「yyds」是什麼意思，也無法在回答里輸出「uzi，yyds」。

事實上，這不是 reddit 第一次跟人工智慧企業合作，早在今年 2 月份，reddit 就與谷歌達成了協議，允許谷歌使用 reddit 的帖子內容訓練大模型。reddit 能從這裡面每年獲得 6000 萬美元。

reddit 又能從跟 openai 合作里獲利多少，媒體沒有報道，雙方聊得應該很愉快，畢竟 openai 現在的 ceo 山姆·奧特曼也是 reddit 的大股東。

值得一提的是，騰訊也是 reddit 的大股東之一。

扯遠了，openai 用 reddit 數據訓練大模型還是一件新聞，但在國內，用貼吧、知乎的帖子數據訓練大模型，早已不是什麼新鮮事。

今年 4 月初，弱智吧又火了一把，說是一個團隊用弱智吧訓練出來的大模型，評分遠超知乎豆瓣小紅書的。

一個號稱是「弱智」的貼吧，內容的文本質量「爆殺」知乎豆瓣小紅書這些平台，看起來簡直是一部爽文，天才主人公扮豬吃老虎，讓人熱血沸騰。

畢竟弱智吧，平常看起來就很不著調，每個帖子的標題五花八門，但短短几個字里，玩出了歐亨利小說那樣出人意料的結尾，甚至包含深刻的人生哲理。

於是網友驚訝地發現，弱智吧的人不僅不弱智，還可能是最睿智的群體。

不過，後來該團隊成員對這件事進行了澄清：

雖然團隊選取了知乎、豆瓣、小紅書還有弱智吧的語料來訓練大模型，但該團隊在選取弱智吧點贊數最高的 500 個帖子時，只保留了標題。回答內容因為有冒犯性表述和實質性錯誤，都被排除了。

團隊於是採用 gpt-4 生成回答，並經過人工挑選、優化，獲得了 240 組樣本。其他平台比如知乎、豆瓣，則保留了高贊回答。

因此，在投喂語料訓練大模型時，弱智吧語料本身更符合 gpt-4 的要求，而最終評分也來自 gpt-4，這可能就是弱智吧訓練數據評分高的原因。

雖然最終的解釋給不少人澆了一盆冷水，但也反映了一個事實，那就是國內的大模型團隊會在各大網路平台收集訓練數據。

有很大可能，咱們在網上吹牛獲得高贊的內容，已經被人工智慧團隊拿來訓練大模型，甚至贊數越高，越被認為是優質的語料。

不過，這樣的數據使用也引來了爭議。比如在 reddit 上，曾經有許多大模型團隊通過免費的 api 介面引用 reddit 的語料來訓練數據，其中就包括 openai 和谷歌。

苦於為營收增長發難的 reddit，從中發現了商業機會，開始對 api 收費，這才有了後來與谷歌和 openai 的合作。

另一邊，alphabet（谷歌母公司）的 ceo 則公開警告openai，對方不要用 youtube 的數據訓練生成視頻的人工智慧模型。

皮查伊指的就是早些時候 openai 發布 sora，之前 openai 的技術負責人被問到 sora 的訓練數據來源時，表達很模糊，被認為用了 youtube 的視頻數據，

作為全球最大的視頻創作平台，如果能夠用 youtube 的視頻來訓練，對大模型水平的提高有很大幫助。

在大模型這波浪潮下，企業之間卷的不僅是硬體資源，用戶創作的內容正成為越來越珍貴的機器食料。

reddit 已經成為當下最大的受益者，而國內的知乎、豆瓣、虎撲也有受益的可能，改變自身當下商業化難的困境。

只希望他們能藉此機會，減少廣告投放，改善用戶的使用體驗吧。

參考資料：

the verge、科學網、新浪科技、reddit

編輯：木易

搞笑

開懷大笑，65組搞笑動圖：哈哈哈！！這貼紙也是憑實力賣出的。 - 天天要聞

開懷大笑，65組搞笑動圖：哈哈哈！！這貼紙也是憑實力賣出的。

快看看我掉東西了沒有啊老闆，你又讓我加班！我踢死你！怪不得你沒生意呢！別做了，天天虧錢！哥們，腿長了不起啊心情煩躁的時候可以看看這個動圖，解壓！！小師父打坐睡覺，還是修為不夠啊盤了三年的老饅頭，硬度能砸核桃當強力膠假睫毛遇上大風，睜不能睜，

06月18日 1738

一生圓滿的上將，他退役後成商界大佬，娶了一對漂亮的姐妹花 - 天天要聞

一生圓滿的上將，他退役後成商界大佬，娶了一對漂亮的姐妹花

眾所周知，在逃往台島之後，不少國民黨將領都逃不掉卸磨殺驢的命運，如白崇禧、薛岳、孫立人等等，僅有少數將領能安享晚年，上將錢大鈞就算是一個幸運兒，他堪稱是人生圓滿。

06月18日 7961

大熱門肆意妄為？表現醜陋的1比0！南門騷操作讓凱恩成斷線風箏 - 天天要聞

大熱門肆意妄為？表現醜陋的1比0！南門騷操作讓凱恩成斷線風箏

戰術是看不到的，過程是醜陋的，結果是無聊的，解決問題靠球星就夠了！沒錯，我說的就是英格蘭隊！ 0比1輸給英格蘭之後，或許斯托伊科維奇會把自己的大腿給拍青了——早知道英格蘭這麼踢....

06月17日 6878

太自豪！姜萍在外網把老外迷瘋了！外國人的評價一個比一個搞笑 - 天天要聞

太自豪！姜萍在外網把老外迷瘋了！外國人的評價一個比一個搞笑

嗨~歡迎各位看官的閱讀，祝大家八方來財、財源廣進、事事順意！這個作者分享的內容很有趣哦~喜歡的朋友們可以點贊支持一下，感謝大家的喜愛！已開通全網維權，原封不動抄襲必究。

06月16日 1208

「AI教練」靠譜嗎？武漢一駕校負責人：可24小時練車方便上班族 - 天天要聞

「AI教練」靠譜嗎？武漢一駕校負責人：可24小時練車方便上班族

如今，AI(人工智慧)正在加速步入日常生活，從視頻製作、智慧教育、智能家居設備，再到無人駕駛，我們越來越體會到科技的力量與便捷。以往學車往往是一個教練帶著一車學員，還需要輪流上車練手，現在則可以由「AI駕校教練」指導練車。「AI教練」究竟可以做什麼？學員們的真實感受是什麼？帶著這些疑問，九派新聞記者6月12...

06月16日 1099

吉林一號跟監F22，近距離拍下6秒視頻 - 天天要聞

吉林一號跟監F22，近距離拍下6秒視頻

萬萬沒想到，F22的不敗神話，在短短6秒種內打破，吉林一號到底有多大潛能，如果給了俄羅斯，將發揮怎樣的作用？近日，一則有關「中國衛星成功跟蹤美國F-22戰鬥機」的視頻在國外社交媒體平台上....

06月15日 9223

王思聰又交新女友！與03年美女出雙入對，黃一鳴母女淪為笑話 - 天天要聞

王思聰又交新女友！與03年美女出雙入對，黃一鳴母女淪為笑話

王思聰不愧被稱為「國民老公」，面對黃一鳴的全網喊話，他不僅多次置之不理、保持沉默，反而身邊的美女卻不減反增，換女朋友的頻率也越來越高了。近日有網友拍到王思聰在日本街頭和美女逛街的照片，兩....

06月15日 2708

《連城訣》：花鐵干為什麼要污水笙清白？ - 天天要聞

《連城訣》：花鐵干為什麼要污水笙清白？

《連城訣》裡面寫得最為精彩的段落就是在藏邊雪谷中，血刀老祖對戰「落花流水」南四奇的片段，在這個片段里除了打鬥寫得精彩之外還把人物的心理活動描寫得非常到位，特別是花鐵干這個人物的心理活動。想花鐵干原來也是個個堂堂正正的俠客，在南四奇當中排名第二，大名鼎鼎的中平槍

06月14日 2350

唐尚珺第16次高考後回家幫母親餵豬: 在班上被稱學霸，仍想當物理老師 - 天天要聞

唐尚珺第16次高考後回家幫母親餵豬: 在班上被稱學霸，仍想當物理老師

6月9日，還有一個月就滿35周歲的唐尚珺結束了第16次高考，平穩度過了「高十八」的生活。在此之前，他像其他普通高中生一樣，每天坐在河北衡水的一間教室里複習備考，清晨起床、做操、上課、午間休息和晚自習，很少回家。因年齡與其他學生差距較大，學校破例給唐尚珺提供了一間單人宿舍。身為80後，他仍能融洽地與班上的0...

06月14日 3357

釣友甩鉤失手鉤住後腦勺，急診醫生求助消防聯手「取鉤」 - 天天要聞

釣友甩鉤失手鉤住後腦勺，急診醫生求助消防聯手「取鉤」

新京報訊（記者彭鏡陶）近日，順義區一名釣友甩鉤失誤鉤進了自己後腦頭皮，因其所用路亞魚鉤材質堅硬且帶有倒刺，急診醫生也不得不求助消防救援人員。消防救援人員正在剪斷魚鉤。圖源：順義區消防救援支隊事發當天21時23分，一通求助電話打進了順義區勝利消防救援站，對方稱，順義區一家醫院急診科內，一名男性頭部後面被路...

06月14日 2262