泄露文件揭馬斯克xAI語音訓練內幕:真人對話模擬時薪低至12美元

6月6日消息,據媒體獲取的文件顯示,埃隆·馬斯克旗下的人工智慧公司xai正利用一系列問題訓練其ai語音模型,這些問題涵蓋了從殖民火星到超級英雄等諸多話題,同時也包含diy管道維修與行程規劃等日常主題。

報道稱,數據標註公司scale ai的簽約自由職業者正受雇與其他承包商就火星殖民等話題進行對話錄製,旨在使xai的語音模型擺離線器人腔調,聽起來更趨近於真人發聲。內部信息顯示,截至今年4月,scale ai為xai、蘋果、谷歌deepmind和蘋果等公司運營著逾百個生成式ai訓練項目,其中有超過10個項目來自xai。

scale ai承接此項業務之際,正值業內各大公司競相推動其ai助手實現更自然的對話感和擬人化效果,以期獲得更多的付費用戶。截至目前,scale ai及xai均對此報道未予置評。

「xylophone項目」內幕揭秘

媒體獲取了四份scale ai的內部文件,這些文件詳細闡述了為xai服務的「xylophone項目」的運作機制。這些文件未明確指出具體訓練的是xai的哪一款模型。今年2月底,馬斯克宣布為其公司目前唯一公開的ai模型grok推出語音模式的測試版。

scale ai的項目表顯示,參與「xylophone項目」的承包商需錄製簡短對話,重點關注「音頻質量與自然流暢度」,尤其鼓勵具備配音經驗者參與。項目表顯示,該項目致力於實現「引人入勝的腳本、卓越的配音技藝及高保真音質」。

針對「xylophone項目」,分布全球的零工工作者可從涉及倫理、哲學、商業、旅行等領域的數百個對話主題中挑選,並以多種語言錄製回答。項目工作分為兩部分:其一為「對話」,由3名零工組成小組協作完成;其二為「草原之聲」( grasslands),由個體獨立完成。

在「對話」子項目中,小組需通過zoom平台模擬真實對話場景。參與者輪流從提示表格中選取問題提問。該表格囊括逾700條涵蓋廣泛議題的對話引言,主題包括末世生存策略、印度旅行規劃、以及焦慮與驚恐發作管理等。

媒體發現,在其審閱的文檔中,約10%的對話提示涉及科幻題材。在「對話」部分,對於何為「優質」對話有明確指引:「錄音務必極度自然,宛如與友人閑談。這意味著需流露情感、語調富於變化,甚至互相打斷!」

而在「草原之聲」部分,獨立工作者需以其母語創作即興、自然的錄音。每名工作者被指定一種對話類型及子類別,並被告知可隨心選擇場景進行自由交談,且鼓勵保留環境背景音。子類別多達數十種,有時還要求使用特定口音、添加音效或創造語言模式。

要求快速且準確

3名簽署保密協議的scale ai承包商透露,項目任務系根據承包商技能專長分配。其中兩人表示,「草原之聲」項目按地域及語言專長派單,最初報酬為每任務3美元,約1個月後降至1美元。承包商需在五分鐘內完成單條錄音任務,意味著時薪最高為12美元。

承包商錄製音頻後需手動轉錄並上傳至scale ai平台。「草原之聲」項目要求保留「呃」等填充詞。「即使語法上不成立,當說話者出現短暫停頓時也應添加逗號」,某承包商稱。大型語言模型的優化需海量優質數據支撐,模擬真實場景的自然對話正是生成適配訓練數據的有效途徑。

grok訓練內幕

"xylophone項目"是ai企業為產品注入個性以突圍紅海競爭的典型案例。今年5月曾有報道稱,meta通過scale ai要求零工以「睿智神秘巫師」或「狂熱音樂理論學生」等角色身份訓練其ai模型。openai首席執行官山姆·奧特曼在4月底更是坦言,最新版gpt-4o存在「過度諂媚惹人生厭」問題,公司已著手優化回復的自然度。

據媒體早前報道,xai將grok定位為相較「覺醒派」競品更具政治銳度的聊天機器人,其訓練材料常偏重右翼或反主流觀點。除外包業務外,該公司曾在今年2月披露已組建數百人規模的內部「ai導師」團隊,計劃再招募數千人,凸顯ai訓練背後龐大人力投入。

xai同步加強了對grok不可控輸出的管控。有報道稱,新入職員工正對grok進行「紅隊測試」,重點壓力檢測其在爭議話題及「限制級/脫韁模式」下是否產生違規回復。此項安全升級源於系列輿情事件:今年3月grok被曝可誘導輸出種族歧視言論,近期又出現涉及南非「白人滅絕」的主動回復。xai將後者歸因為未授權的提示篡改,承諾實施更嚴格代碼審查與全天候監控。(文/騰訊科技特約編譯無忌)