

棋類運動往往是人們了解人工智慧突破的窗口,比如近30年前的「深藍」計算機和近10年前的阿爾法狗(AlphaGO)。最近,上海人工智慧實驗室的科研團隊利用強化學習的方法,讓大模型從不會下棋到突破專業圍棋水平。據職業選手估算,目前這一名為「書生·思客」的大模型棋力在職業3-5段之間。
「大模型還首次打破了圍棋思維『黑盒』。」上海人工智慧實驗室青年科學家陳愷說。圍棋是公認的複雜任務,一般來說任務越複雜,通過語料習得的可能性越低,這一突破為大模型處理複雜推理任務,進而解決科學發現等難題奠定了基礎。
去年的世界人工智慧大會上,上海人工智慧實驗室主任、首席科學家周伯文提出「通專融合」的大模型發展技術路線。那時,人們還很難理解其中深意,如今「通專融合」的里程碑已經到來——大模型可通過與環境的交互反饋,在專業任務上獲得能力提升。
打破「黑盒」,像人腦一樣下圍棋
2016年,阿爾法狗擊敗圍棋世界冠軍李世石,刷新了公眾對AI的認知。但以現在的眼光看,阿爾法狗更像是一個為圍棋而生的專業模型,它眼中只有19乘19的棋盤,將所有算力用于思考下一步該落子在361個點位的哪一處,且整個思考過程完全處於「黑盒」。「阿爾法狗是以人不太能理解的方式在下棋,有時會下出『天外飛仙』的棋步,但為何會出如此高招,當時難以解釋。」陳愷說。


書生·思客應對李世石「神之一手」,語言風格風趣幽默。受訪者提供
如果大模型能打破這個「黑盒」,就證明其推理能力又上一個新台階。為持續提升大模型的推理能力,上海人工智慧實驗室青年研究員李林陽及團隊以強化學習演算法為大模型構造了一個「加速訓練營」,讓大模型像初學者一樣探索如何下圍棋。通過對評價建模,與大模型進行交互並提供反饋,從而使模型持續進化。
隨著一次次訓練,大模型棋力飛漲。「有一天,我們發現大模型的下棋成功率從30%提升到70%,由此我們觀察到了『智能湧現』,也就是人們常說的『啊哈時刻』。」李林陽說。
經「加速訓練營」強化後的大模型不僅棋力顯著增強,還成功打破了圍棋思維「黑盒」——在對弈時,它能科學、直觀地「講解」下棋思路,真正「像人腦一樣下圍棋」。大模型的「語言」風格還十分多樣,當用戶下了一步好棋,它會加油鼓勵:「這步棋相當有力,可以說是『以攻代守』的好手。」當用戶局勢不利時,它會化身「雞湯大師」:「只要應對得當,勝負尚在未定之天。」
探索大模型推理能力提升新範式
圍棋中有個術語叫做「試應手」,是指通過一步棋試探對方反應,為後續變化做準備。從某種意義來說,上海人工智慧實驗室的此次突破相當於提升大模型推理能力的「試應手」。在李林陽看來,這步「試應手」不在於研發一個會下棋的大模型,而在於讓大模型通過與環境的交互獲得能力提升,從而獲得處理複雜事物的能力。
「這對解決其他領域的複雜問題非常有用,比如科學任務。」陳愷說,科學任務中的語料不僅數量稀少,而且收集困難,這也制約了科學垂類大模型的迭代。除下圍棋外,「書生·思客」已在奧賽級數學、科學對象理解與推理、演算法編程、棋類遊戲、智力謎題等多個專業任務實現同步學習演進,並在多任務混合強化學習過程中出現智能「湧現時刻」。
當大模型具備了解決複雜問題的方法論,提出有價值的問題更顯重要。下月,上海人工智慧實驗室將發起首屆明珠湖會議,以「尋找定義AI未來的提問者」為目標,鎖定一批影響科學與未來的前沿課題。
「有組織科研」推動「通專融合」落地
「當初步探索取得實質性進展後,我馬上向實驗室申請了人員和算力,在充足的人手和算力保障下,項目準確率很快達到90%以上。」李陽林說,2023年,他以實習生的身份加入實驗室,如今已開始帶領團隊開展「通專融合」技術路徑可行性的相關研究。
在上海人工智慧實驗室的技術願景中,「通專融合」是通往通用人工智慧(AGI)的戰略路徑。這一路徑的關鍵在於同步提升深度推理與專業泛化能力,使模型不僅在廣泛的複雜任務上表現出色,還能在特定領域中達到專業水平。
陳愷表示,上海人工智慧實驗室正以「有組織的科研」推動「通專融合」:一方面各團隊有主線研究方向,可形成規模效應;另一方面,團隊成員的專業研判有助於迅速把握技術趨勢,快速形成創新成果。
在帶隊攻關書生·思客的項目中,李陽林感受到實驗室的人才密度之高和科研資源之豐富。2022年以來,上海人工智慧實驗室攜手十餘所國內頂尖高校開展博士生聯合培養項目,目前已有近800名本科生和研究生通過聯培博士項目入選實驗室,其中不乏AI細分專業領域的佼佼者。年輕人的不斷加入和快速成長,正在推動更多「啊哈時刻」。
原標題:《大模型棋力飛漲,還會解說圍棋,這條AGI之路可行!》
欄目主編:任荃 題圖來源:本報資料圖片
來源:作者:文匯報 沈湫莎