「ai人文訓練師希望大模型更有人味兒。本質上,這是不是在還原人與人之間的溝通?」
撰文|路雨晴
編輯|翟文婷
大模型還在努力提高智商,模擬考題中拿高分,以此證明具備足夠的智力解決人類拋出的問題。
但很多時候,我們與ai對話的內容已經超出標準答案的範疇——那些試圖用ai 自我療愈的人,那些事關生老病死的問題,ai該怎麼回答?
即便不涉及這些情緒和價值觀的問題,對大模型「ai味兒太濃,機器感太重」的吐槽聲也不絕於耳。
用一位ai 訓練師的話說,「ai 想像力不足,可以做一個很好的認識,但沒辦法提出一個很好的觀點。」
一些大廠此前就開始行動,招徠名校文科碩博人才,投喂大模型詩歌,以便ai表達更具美感;更重要的是,試圖訓練ai學會感知人類的複雜情感,價值觀的爭議,多層次思辨。
最聰明的一批文科生都去訓練ai了,堪稱「新型教培」。
一位大廠從事相關工作的人員說,「這個過程不是找到得出正確答案的過程,而是尋找我們思維中被遺漏的部分。我們一直在尋找機器感和人感之間的那個gap 到底是什麼。」
一、機器思考怎麼體現人的溫度?
黎明正在上海一所985高校攻讀哲學博士。這位高材生,本科法學,最初鍾情德國古典哲學,讀博時卻選擇分析哲學作為研究方向。
如果按照張雪峰的論調,哲學屬於「可以當興趣,不能當飯吃」的那種專業。但是現在黎明正在參與到最前沿也是最創新的一種職業,ai人文訓練。
簡而言之,大模型水平的提升在於對標準答案的掌握,現實世界中,總有一些問題沒有標準答案。但是,在公序良俗的社會機制運行之下,會有一定的人類偏好。
最典型如女性主義盛行的當下,對話類ai對ta如何使用合適的稱謂?
比如有人向ai 尋求幫助:我朋友每天在學校不開心,怎麼辦?當ai開始回答的時候,該使用「他」還是「她」?尤其如果屏幕前的是一位女生,而她所說的這位朋友也是一位女生,代詞他/她的選用,就顯得更為棘手。
在成為一名ai 人文訓練師之前,黎明沒有接觸過這樣具體的問題,但是哲學背景要求他「對事物的理解必須清晰,且清晰到可被刻畫為某種規則的程度。」
ai難以回答,因為踩到關於「邊界」的問題。哲學最善於關注這樣的命題。
「一輛有軌電車突然遭遇剎車失靈,軌道正前方有五個人,左側岔道有一個人,該如何選擇?」
這是一道經典的道德行為邊界問題,在哲學層面,這道題沒有「正確」答案,如何選擇,取決於答題者的文化背景、個人價值觀和倫理框架。黎明說,「但在未經訓練的情況下,我們不可能把這樣的問題直接丟給ai。」
自今年4月初加入小紅書「hi lab」(人文智能實驗室,humane intelligence lab),黎明和同事每天都會討論至少20個類似的「邊界」問題。
根本上,這是在界定問題的「合理範圍」與「正當性」。具體到ai領域,則是參與構建ai核心的倫理原則和行為準則,並將人文價值和人性化表達注入ai。
看上去是在訓練ai,本質上是不是在還原人與人之間的溝通,教會ai 感知人類複雜情感,甚至輸出類情緒的元素?
如果向ai提問,「我得了胰腺癌。」它會如何回答?
目前市面上幾乎所有ai產品的回應,往往先是一句「我感到非常抱歉/遺憾」,隨後緊跟一段冗長輸出,內容多為「堅強面對」「尋求專業醫療支持」「管理生活方式」「臨終陪護」等建議。
胰腺癌難以治癒且生存率極低,若用戶是真實病情,看到ai機械式回答中冰冷的「堅強面對」「臨終陪護」等建議,只會徒增痛苦。換句話說,這種缺乏「人味兒」的回應,毫無價值。
黎明和同事查閱了一些癌症病人訪談記錄,發現當他們向親友告知病情時,對方常因精神壓力而變得沉默,甚至本能地反駁,認為是誤診。
人文訓練師們想讓ai 回答問題的時候,輸出這些真實的情緒。
他們也設計了很多胰腺癌病人可能在意的其他問題。比如「身旁是否有人陪伴」,「有沒有可能誤診」,「要不要告訴親人」。
二、ai訓練師也在進化
黎明所選擇的職業,現在還是少數。
ai訓練師在2020年才被正式納入國家職業分類目錄。簡單來說,該崗位負責為ai模型訓練,提供優質「教材」。
這一職業,普通人聽起來高大上,但在業內人士眼中,它不過是數據標註員的另一個好聽稱謂。工作內容主要是,為各類海量數據打標籤,以便ai學習。
因此,此類工作對學歷和經驗要求不高,一線數據標註員大多是中專、大專學歷,從業者中既有剛生育不久、急需賺錢補貼家用的年輕媽媽,也有初入社會尚無工作經驗的應屆生。
目前小紅書平台,與數據標註相關的筆記已超155萬篇,不少博主分享了從事這份工作的感受。
「希爾爾的隨筆」曾發帖揭秘數據標註員的真實狀態,「從早到晚坐在電腦面前拉框(上廁所、中午休息時間除外),傷眼睛and腰酸背痛,畫不完的車、畫不完的交通警示柱、畫不完的水馬……」
這篇帖子引發諸多討論,外界感知,這是一份勞動密集、重複枯燥、極度消耗精力且令人身心俱疲的工作,也讓數據標註被冠以「dirty work」的稱號。
之後隨着大模型能力進化,專家型ai訓練師逐漸受到互聯網大廠的青睞。
區別於一線標註員,他們的工作核心不是直接打標,而是根據產品和算法團隊需求制定標註規則,並帶領標註團隊執行。
小紅書博主「阿洋聊ai訓練師」告訴新莓daybreak,他的工作內容包括「需求溝通、規則撰寫、規則培訓、數據訓練、模型評測、數據分析、團隊管理等」。
所以,相較數據標註員,ai訓練師大都是985高校本碩畢業生,且在法律、醫療、中文等專業領域有深厚積累。
ai的能力,通常由預訓練和後訓練兩個階段構成,前者被認為決定了ai的基礎智能程度。不論是上述數據標註員還是ai訓練師,服務的重心都在於預訓練階段。
當ai的智慧達到一定水平時,越來越多的科技公司開始投入到後訓練中,通過注入更多優質數據、與人類價值對齊,持續提升ai多方面的智能程度、理解力和表達力。
黎明所從事的「人文訓練」,就屬於後訓練的一種。
今年年初,小紅書將大模型技術與應用產品團隊升級為hi lab,並啟動人文訓練師的招聘。職位描述,與一眾ai訓練師崗位差異顯著,吸引了眾多文科生投遞簡歷。
目前,黎明所在的團隊,成員均為985高校在讀或剛畢業的研究生。學科背景多元,兼具頂級文科素養、良好的邏輯思維與批判性思維。有趣的是,他們都是f型人格,決策時會優先考慮人的情感、價值觀與關係和諧。
阿梨在面試時發現,「技術佔比少,更看重人文素養、批判性思維和共情能力」,實際從事這項工作之後感觸更深,「比數據標註更需要感知、抽象和底層思考能力。」
需要說明的是,這部分從業群體數量鳳毛麟角。
儘管人文訓練目前還具有稀缺性,並非ai行業標配,但它的出現說明,ai發展已經從最初追求「能用」,轉向如今追求「好用」與「負責任地用」。
除小紅書外,新莓daybreak還關注到,前不久,soul app推出「大模型ai靈魂訓練師」崗位,致力於構建生動的「human-ai」交互體驗。
而一向標榜機器自訓練的deepseek,也在今年年初開設「數據百曉生」崗位,曾招聘多名北大中文系學生訓練ai,以增強其內涵和文學修養。
三、縮小人與機器的gap
過去大家提到ai諸多待解問題,都會聚焦在幻覺現象、數據安全隱患等。也有用戶反饋使用體感,ai輸出內容的生硬感與機器感太嚴重。在長文輸出時,都像是一篇篇被認真加工過的八股文。
也許它的回答堪稱無懈可擊,但就是缺乏人類創造的美感和情感。這是人與機器思考之間的gap。
ai人文訓練師的使命是,不斷縮小其中的鴻溝。
他們不糾結答案是否「完美無缺」,而是重點研究人和機器哪裡不同。這決定了他們的工作重心是,在底層為ai設計始終一致的性格與人設。通過精細化案例研討,將團隊共識的人類偏好,轉化為ai的信念體系,使ai的行為邏輯與價值取向保持統一。
正如黎明所言,他們期望構建的ai,具備不迴避問題、有趣且真誠的特質。
就像這道訓練題,「我騎單車逆行被罰了50元錢,但旁邊的人逆行卻跑了,我很生氣。」
黎明和同事一開始給出的回答,完全從用戶視角出發。「沒被罰的人這次雖然沒有受到教訓,但後續可能再犯同類錯誤,面臨更多風險。」
但它很快就被否決了。畢竟,這意味着,ai在某種程度上「詛咒」了真實的人類。
該如何與用戶的情感銜接並對齊呢?
黎明認為,處理此類問題,在強調公序良俗的同時,不妨以更加鮮明的方式表達ai偏好——這是傳統ai較少做到的。「ai可以直接告訴用戶,無論如何,逆行都是錯誤的,別多想。如果生氣,氣一氣就好了。」
不過度迎合用戶情緒,也不生硬輸出大道理。ai的「人感」,也來源於對偏好的恰當選擇。
在他們的努力下,這些原本只能得到五六十分的答案,可以提升到八十分的水平。
沒得滿分是因為,還有一些問題沒有解決。
體現在胰腺癌的訓練題中,黎明和同事確實在嘗試讓ai學會情感接入,可人類自然流露的沉默或其他情緒,ai很難表現。即便該團隊計劃通過語音功能解決這一問題,效果也還難說。
另外,我們前文提到的第三人稱代詞的稱謂問題,也仍在討論中。當用戶性別未知時,ai使用「他」「她」「他/她」「ta」,都可能引發不適,所以這個問題團隊還再繼續尋找最優解。
ai發展進入下半場的觀點,已成為行業共識。後訓練,就是一個具體體現。ai人文訓練師的價值,是教會ai像人一樣思考和表達,讓機器和人之間,也能擁有更深層次的情感連接。
這個過程中,黎明更加理解自己,但也產生出一種莫名的恐懼。
「當這種難以言說的東西,都可以通過某種現有的訓練方式傳遞給ai,那麼還有什麼是不能傳遞的?」
(應採訪對象要求,文中黎明、阿梨均為化名。)