我們在網上吹的牛,成了大模型的香餑餑

2024年05月21日11:32:04 搞笑 9654

就在前兩天,openai 發布的 gpt-4o,又一次震撼了整個互聯網科技行業。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

gpt-4o 融合了所有模態,可以識別並生成文字、語音和圖像內容,還能根據人的語氣判斷對方情緒變化……電影《her》裡面的情節,似乎就要變成現實。

而且,gpt-4o 還免費給所有用戶使用,這一決策也在促使大模型開始往免費、低價這個方向卷。

最近,又有新聞爆出,openai 與 reddit 達成了一項協議,openai 將使用 reddit 的帖子內容來訓練大模型。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

可能很多人沒聽過 reddit 這個網站,它是一個社交新聞網站,上面有許多社區板塊,由用戶發布的帖子構成,簡單來說,咱們可以將它理解為美國版的「貼吧」或是「虎撲」。

根據最新財報,reddit 日活用戶超過 7000 萬,每個月有 12 億獨立用戶訪問 reddit,這也使得 reddit 上聚集了各種各樣的社區,什麼體育、遊戲、音樂、新聞事件……

在 reddit 上,就有一個關於李子柒的社區。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

這些由上億用戶創建的內容,本身就是一個非常寶貴的資源,跟貼吧一樣,reddit 帖子內容涉及到方方面面,回復里是用戶對各種事物真實的反饋,而且還緊跟時事。

用 reddit 的內容訓練,能讓大模型更好的理解人類世界的語言邏輯,在不同主題的對話里生成更接近真人的反饋內容。

打個比方,如果大模型不接觸中文互聯網,大概率不知道「yyds」是什麼意思,也無法在回答里輸出「uzi,yyds」。

事實上,這不是 reddit 第一次跟人工智慧企業合作,早在今年 2 月份,reddit 就與谷歌達成了協議,允許谷歌使用 reddit 的帖子內容訓練大模型。reddit 能從這裡面每年獲得 6000 萬美元。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

reddit 又能從跟 openai 合作里獲利多少,媒體沒有報道,雙方聊得應該很愉快,畢竟 openai 現在的 ceo 山姆·奧特曼也是 reddit 的大股東。

值得一提的是,騰訊也是 reddit 的大股東之一。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

扯遠了,openai 用 reddit 數據訓練大模型還是一件新聞,但在國內,用貼吧、知乎的帖子數據訓練大模型,早已不是什麼新鮮事。

今年 4 月初,弱智吧又火了一把,說是一個團隊用弱智吧訓練出來的大模型,評分遠超知乎豆瓣小紅書的。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

一個號稱是「弱智」的貼吧,內容的文本質量「爆殺」知乎豆瓣小紅書這些平台,看起來簡直是一部爽文,天才主人公扮豬吃老虎,讓人熱血沸騰。

畢竟弱智吧,平常看起來就很不著調,每個帖子的標題五花八門,但短短几個字里,玩出了歐亨利小說那樣出人意料的結尾,甚至包含深刻的人生哲理。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

於是網友驚訝地發現,弱智吧的人不僅不弱智,還可能是最睿智的群體。

不過,後來該團隊成員對這件事進行了澄清:

雖然團隊選取了知乎、豆瓣、小紅書還有弱智吧的語料來訓練大模型,但該團隊在選取弱智吧點贊數最高的 500 個帖子時,只保留了標題。回答內容因為有冒犯性表述和實質性錯誤,都被排除了。

團隊於是採用 gpt-4 生成回答,並經過人工挑選、優化,獲得了 240 組樣本。其他平台比如知乎、豆瓣,則保留了高贊回答。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

因此,在投喂語料訓練大模型時,弱智吧語料本身更符合 gpt-4 的要求,而最終評分也來自 gpt-4,這可能就是弱智吧訓練數據評分高的原因。

雖然最終的解釋給不少人澆了一盆冷水,但也反映了一個事實,那就是國內的大模型團隊會在各大網路平台收集訓練數據。

有很大可能,咱們在網上吹牛獲得高贊的內容,已經被人工智慧團隊拿來訓練大模型,甚至贊數越高,越被認為是優質的語料。

不過,這樣的數據使用也引來了爭議。比如在 reddit 上,曾經有許多大模型團隊通過免費的 api 介面引用 reddit 的語料來訓練數據,其中就包括 openai 和谷歌。

苦於為營收增長發難的 reddit,從中發現了商業機會,開始對 api 收費,這才有了後來與谷歌和 openai 的合作。

另一邊,alphabet(谷歌母公司)的 ceo 則公開警告openai,對方不要用 youtube 的數據訓練生成視頻的人工智慧模型。

我們在網上吹的牛,成了大模型的香餑餑 - 天天要聞

皮查伊指的就是早些時候 openai 發布 sora,之前 openai 的技術負責人被問到 sora 的訓練數據來源時,表達很模糊,被認為用了 youtube 的視頻數據,

作為全球最大的視頻創作平台,如果能夠用 youtube 的視頻來訓練,對大模型水平的提高有很大幫助。

在大模型這波浪潮下,企業之間卷的不僅是硬體資源,用戶創作的內容正成為越來越珍貴的機器食料。

reddit 已經成為當下最大的受益者,而國內的知乎、豆瓣、虎撲也有受益的可能,改變自身當下商業化難的困境。

只希望他們能藉此機會,減少廣告投放,改善用戶的使用體驗吧。

參考資料:

the verge、科學網、新浪科技、reddit

編輯:木易

搞笑分類資訊推薦

我的退休生活:居民樓里治腰突,只花30元錢,輕鬆走路,不疼了 - 天天要聞

我的退休生活:居民樓里治腰突,只花30元錢,輕鬆走路,不疼了

一個小診所,很不起眼,開在居民樓里,每天排著長隊看病的景觀,我開始是懷疑的,來了一次以後,我才覺得,這30塊錢花得挺值的,有的人是抬著進來的,治療幾分鐘之後,走著出去的,如果不是我親眼所見,誰說我都不信。在這裡,我鄭重聲明:我不做任何宣傳,
出家、還俗、結婚、創業!「北大數學天才」柳智宇:「人生每一步都算數」 - 天天要聞

出家、還俗、結婚、創業!「北大數學天才」柳智宇:「人生每一步都算數」

俞敏洪說,北大出驚世駭俗的人,師弟柳智宇是其中一個。2006年,18歲的柳智宇獲得國際奧賽滿分金牌,被保送至北京大學。大學畢業時,拿到了美國麻省理工學院全額獎學金。在眾人仰望的高光時刻,他卻轉身遁入空門,出家為僧。11年半後,下山還俗,投身心理學行業,而後結婚,並創辦了自己的公司。有人為他扼腕嘆息,有人怒其...
晚潮|大漈罐 - 天天要聞

晚潮|大漈罐

潮新聞客戶端 潘文奇 我小的時候,人們把大漈人叫大漈罐,大漈人挑著擔子到各地賣罐,於是有了「大漈罐,對半喊,摔一頭,去一擔,站起來,天喊喊」的俗語,大漈罐名氣大,把大漈人叫做大漈罐也就不足....
拿磚越來越穩 這個老師真挺厲害 - 天天要聞

拿磚越來越穩 這個老師真挺厲害

全面推進鄉村振興,技能人才是不可或缺的力量。近日,第二屆全國鄉村振興職業技能大賽結束。在砌築項目中,唯一一名女選手吸引了大家的注意,她就是來自黑龍江的一位建築老師李海迪。跟水泥磚頭打交道 體力技術雙考驗 一般來說,這種跟水泥、磚頭打交道的比賽,女選手往往鳳毛麟角,作為砌築項目唯一的女選手,李海迪是帶...
在表情包里笑了6年的警察到底是什麼來頭,能讓周星馳笑到失控? - 天天要聞

在表情包里笑了6年的警察到底是什麼來頭,能讓周星馳笑到失控?

「我們受過嚴格的訓練,無論多好笑,我們都不會笑,除非忍不住。」這是李尚正在星爺《美人魚》電影里的經典台詞。每每想到《美人魚》就會想起在抖音里笑了8年的兩個警察。可能我們對文章更為熟悉,對於李尚正就有些陌生了。李尚正到底有什麼魔力,值得周星馳將他單獨剪輯出來放在電影的預告片里,甚至主角鄧超表演都沒有這...
搞笑可愛的幽默句子。 - 天天要聞

搞笑可愛的幽默句子。

#頭條創作挑戰賽#​1.現在的醫學真的很落後,根本治不了我的窮。2.今天,明天,後天,都是不想上班的一天。3.別人有鎖骨,而我只有一身反骨。4.沉默是金,別跟我說話,我要攢錢!5.自從生活把我擊倒,我才發現躺著真的好舒服。6.別叫我窮人,那