我國科學家首次證實大模型能像人類一樣「理解」事物

2025年06月10日18:32:08 科學 1379

來源：科技日報

科技日報記者陸成寬

記者10日從中國科學院自動化研究所獲悉，來自該所等單位的科研人員首次證實，多模態大語言模型在訓練過程中自己學會了「理解」事物，而且這種理解方式和人類非常像。這一發現為探索人工智慧如何「思考」開闢了新路，也為未來打造像人類一樣「理解」世界的人工智慧系統打下了基礎。相關研究成果在線發表於《自然·機器智能》雜誌。

人類智能的核心，就是能真正「理解」事物。當看到「狗」或「蘋果」時，我們不僅能識別它們長什麼樣，如大小、顏色、形狀等，還能明白它們有什麼用、能帶給我們什麼感受、有什麼文化意義。這種全方位的理解，是我們認知世界的基礎。而隨著像ChatGPT這樣的大模型飛速發展，科學家們開始好奇：它們能否從海量的文字和圖片中，自己學會像人類一樣「理解」事物？

傳統人工智慧研究聚焦於物體識別準確率，卻鮮少探討模型是否真正「理解」物體含義。「當前人工智慧可以區分貓狗圖片，但這種『識別』與人類『理解』貓狗有什麼本質區別，仍有待揭示。」論文通訊作者、中國科學院自動化研究所研究員何暉光說。

在這項研究中，科研人員借鑒人腦認知的原理，設計了一個巧妙的實驗：讓大模型和人類玩「找不同」遊戲。實驗人員會給出三個物品概念（選自1854種常見物品），要求選出最不搭的那個。通過分析高達470萬次的判斷數據，科研人員首次繪製出了大模型的「思維導圖」——「概念地圖」。

何暉光介紹，他們從海量實驗數據里總結出66個代表人工智慧如何「理解」事物的關鍵角度，並給它們起了名字。研究發現，這些角度非常容易解釋清楚，而且與人腦中負責物體加工的區域的神經活動方式高度一致。更重要的是，能同時看懂文字和圖片的多模態模型，「思考」和做選擇的方式比其他模型更接近人類。

此外，研究還有個有趣發現，我們人類做判斷時，既會看東西長什麼樣，比如形狀、顏色，也會想它的含義或用途；但大模型更依賴給它貼上的「文字標籤」和它學到的抽象概念。「這證明，大模型內部確實發展出了一種有點類似人類的理解世界的方式。」何暉光說道。

（中國科學院自動化研究所供圖）