MIT 研究揭示 AI 並無穩定價值觀，「對齊」挑戰遠超預期

分類：科學

瀏覽數：1478

2025-04-10

it之家 4 月 10 日消息，幾個月前，一項研究暗示隨著人工智慧（ai）越來越複雜，其會發展出「價值體系」，例如優先考慮自身福祉而非人類福祉。然而，麻省理工學院（mit）最近發表的一篇論文卻給這種誇張的觀點潑了冷水，得出結論認為 ai 實際上並沒有任何連貫的價值觀。

mit 研究的共同作者表示，他們的研究結果表明，使 ai 系統「對齊」，即確保模型以人們期望的、可靠的方式行事，可能比通常認為的更具挑戰性。他們強調，我們如今所知的 ai 會產生「幻覺」並進行模仿，這使得其在許多方面難以預測。

「我們可以確定的一點是，模型並不遵循許多穩定性、可外推性和可操控性的假設。」mit 博士生、該研究的共同作者斯蒂芬・卡斯珀（stephen casper）在接受 techcrunch 採訪時表示。

據it之家了解，卡斯珀和他的同事們研究了來自 meta、谷歌、mistral、openai 和 anthropic 的多個近期模型，以了解這些模型在多大程度上表現出強烈的「觀點」和價值觀（例如個人主義與集體主義）。他們還調查了這些觀點是否可以被「引導」，即被修改，以及模型在各種情境下對這些觀點的堅持程度。

據共同作者稱，沒有任何一個模型在其偏好上是一致的。根據提示的措辭和框架不同，它們會表現出截然不同的觀點。

卡斯珀認為，這是有力的證據，表明模型高度「不一致且不穩定」，甚至可能根本無法內化類似人類的偏好。

「對我來說，通過所有這些研究，我最大的收穫是現在明白模型並不是真正具有某種穩定、連貫的信念和偏好的系統。」卡斯珀說，「相反，它們本質上是模仿者，會進行各種捏造，並說出各種輕率的話。」

科學分類資訊推薦