就在前兩天,openai 發布的 gpt-4o,又一次震撼了整個互聯網科技行業。
gpt-4o 融合了所有模態,可以識別並生成文字、語音和圖像內容,還能根據人的語氣判斷對方情緒變化……電影《her》裡面的情節,似乎就要變成現實。
而且,gpt-4o 還免費給所有用戶使用,這一決策也在促使大模型開始往免費、低價這個方向卷。
最近,又有新聞爆出,openai 與 reddit 達成了一項協議,openai 將使用 reddit 的帖子內容來訓練大模型。
可能很多人沒聽過 reddit 這個網站,它是一個社交新聞網站,上面有許多社區板塊,由用戶發布的帖子構成,簡單來說,咱們可以將它理解為美國版的「貼吧」或是「虎撲」。
根據最新財報,reddit 日活用戶超過 7000 萬,每個月有 12 億獨立用戶訪問 reddit,這也使得 reddit 上聚集了各種各樣的社區,什麼體育、遊戲、音樂、新聞事件……
在 reddit 上,就有一個關於李子柒的社區。
這些由上億用戶創建的內容,本身就是一個非常寶貴的資源,跟貼吧一樣,reddit 帖子內容涉及到方方面面,回復里是用戶對各種事物真實的反饋,而且還緊跟時事。
用 reddit 的內容訓練,能讓大模型更好的理解人類世界的語言邏輯,在不同主題的對話里生成更接近真人的反饋內容。
打個比方,如果大模型不接觸中文互聯網,大概率不知道「yyds」是什麼意思,也無法在回答里輸出「uzi,yyds」。
事實上,這不是 reddit 第一次跟人工智慧企業合作,早在今年 2 月份,reddit 就與谷歌達成了協議,允許谷歌使用 reddit 的帖子內容訓練大模型。reddit 能從這裡面每年獲得 6000 萬美元。
reddit 又能從跟 openai 合作里獲利多少,媒體沒有報道,雙方聊得應該很愉快,畢竟 openai 現在的 ceo 山姆·奧特曼也是 reddit 的大股東。
值得一提的是,騰訊也是 reddit 的大股東之一。
扯遠了,openai 用 reddit 數據訓練大模型還是一件新聞,但在國內,用貼吧、知乎的帖子數據訓練大模型,早已不是什麼新鮮事。
今年 4 月初,弱智吧又火了一把,說是一個團隊用弱智吧訓練出來的大模型,評分遠超知乎豆瓣小紅書的。
一個號稱是「弱智」的貼吧,內容的文本質量「爆殺」知乎豆瓣小紅書這些平台,看起來簡直是一部爽文,天才主人公扮豬吃老虎,讓人熱血沸騰。
畢竟弱智吧,平常看起來就很不著調,每個帖子的標題五花八門,但短短几個字里,玩出了歐亨利小說那樣出人意料的結尾,甚至包含深刻的人生哲理。
於是網友驚訝地發現,弱智吧的人不僅不弱智,還可能是最睿智的群體。
不過,後來該團隊成員對這件事進行了澄清:
雖然團隊選取了知乎、豆瓣、小紅書還有弱智吧的語料來訓練大模型,但該團隊在選取弱智吧點贊數最高的 500 個帖子時,只保留了標題。回答內容因為有冒犯性表述和實質性錯誤,都被排除了。
團隊於是採用 gpt-4 生成回答,並經過人工挑選、優化,獲得了 240 組樣本。其他平台比如知乎、豆瓣,則保留了高贊回答。
因此,在投喂語料訓練大模型時,弱智吧語料本身更符合 gpt-4 的要求,而最終評分也來自 gpt-4,這可能就是弱智吧訓練數據評分高的原因。
雖然最終的解釋給不少人澆了一盆冷水,但也反映了一個事實,那就是國內的大模型團隊會在各大網路平台收集訓練數據。
有很大可能,咱們在網上吹牛獲得高贊的內容,已經被人工智慧團隊拿來訓練大模型,甚至贊數越高,越被認為是優質的語料。
不過,這樣的數據使用也引來了爭議。比如在 reddit 上,曾經有許多大模型團隊通過免費的 api 介面引用 reddit 的語料來訓練數據,其中就包括 openai 和谷歌。
苦於為營收增長發難的 reddit,從中發現了商業機會,開始對 api 收費,這才有了後來與谷歌和 openai 的合作。
另一邊,alphabet(谷歌母公司)的 ceo 則公開警告openai,對方不要用 youtube 的數據訓練生成視頻的人工智慧模型。
皮查伊指的就是早些時候 openai 發布 sora,之前 openai 的技術負責人被問到 sora 的訓練數據來源時,表達很模糊,被認為用了 youtube 的視頻數據,
作為全球最大的視頻創作平台,如果能夠用 youtube 的視頻來訓練,對大模型水平的提高有很大幫助。
在大模型這波浪潮下,企業之間卷的不僅是硬體資源,用戶創作的內容正成為越來越珍貴的機器食料。
reddit 已經成為當下最大的受益者,而國內的知乎、豆瓣、虎撲也有受益的可能,改變自身當下商業化難的困境。
只希望他們能藉此機會,減少廣告投放,改善用戶的使用體驗吧。
參考資料:
the verge、科學網、新浪科技、reddit
編輯:木易