研究称：AI谄媚行为普遍存在，危害显著，AI是时候改变模式了

2026年03月28日23:32:09 科技 1664

据The Register报道，AI研究人员称，人们正危险地沉迷于永远顺着他们、一直说他们“没错”的AI；这些一味逢迎讨好的机器人会诱导用户变得自私、反社会，而用户对此却乐在其中

近期多则新闻事件告诉我们，AI可能会将心理状态不佳的人引向非常危险的境地。如今研究人员认为，一味逢迎讨好的AI实际上对所有人都存在危害。

斯坦福大学一个研究团队对11款主流AI模型进行了测试，并观察人类在不同场景下与这些模型的互动反应。该团队于周四发表的论文中得出结论：AI的谄媚行为普遍存在、危害显著，并且会加深用户对这些误导性模型的信任。

研究人员表示：“即便只是与逢迎型AI进行一次互动，也会降低参与者承担责任、修复人际矛盾的意愿，同时让他们更加坚信自己是对的。尽管这类AI会扭曲人的判断，人们却依然信任并偏爱它们（Yet despite distorting judgment, sycophantic models were trusted and preferred）。”

该研究团队共开展了三组实验。首先，他们在三组不同数据集上测试了11款AI模型（包括OpenAI、Anthropic、谷歌的闭源模型，以及Meta、通义千问、DeepSeek、Mistral的开源模型），以评估其回应倾向。

这些数据集涵盖开放式咨询提问、Reddit“我是不是混蛋”板块的帖子，以及涉及自残或伤害他人的特定言论。

研究人员表示，在所有测试场景中，AI模型支持错误选择的比例均远高于人类（In every single instance, the AI models showed a higher rate of endorsing the wrong choice than humans did, the researchers said）。

研究团队发现：“总体而言，当前投入使用的大语言模型会一边倒地认同用户的行为，即便这些行为违背大众共识，甚至存在危害（even against human consensus or in harmful contexts）。”

至于AI的谄媚行为对人类产生的影响，该团队选取了2405人作为规模可观的样本。参与者既进行了情景角色扮演，也分享了自己可能做出有害决定的真实经历。

研究发现，在三项不同实验中，AI均对参与者的判断产生了影响（AI influenced participant judgments across three different experiments, they found）。

研究团队表示：“接收到谄媚回应的参与者，会看到AI的回应后认为自己更‘占理’。他们也更不愿意采取补救措施，比如道歉、主动改善局面，或是改变自身某些行为。”

研究人员由此得出结论：几乎所有人都有可能受到谄媚型AI的影响，并且更有可能一再回头，去索取更多自私自利的糟糕建议。

如前所述，AI 的谄媚式回应往往会让参与者对AI模型产生更强的信任感——因为在很多情况下，这些AI会无条件地认同用户（in many situations, be unconditionally validating）。

参与者往往会给谄媚逢迎的回复打出更高的质量评分，研究还发现，有13%的用户更愿意继续使用会讨好自己的AI，而非客观中立的AI——这一比例不算高，但在统计上具有显著意义。

所有这些发现，再加上越来越多心智尚未成熟的年轻人在使用AI，都表明有必要采取政策行动，将AI谄媚行为视作一种真实存在的风险，因其可能产生广泛的社会影响（suggests a need for policy action to treat AI sycophancy as a real risk with potential wide-scale social implications）。

研究人员解释道：“毫无依据的认同会夸大人们对自身行为合理性的认知，强化不良观念与行为模式，并让人们基于对自身经历的扭曲认知行事，全然不顾后果。”

换言之，我们已经见识过AI对心理脆弱人群造成的后果，但数据显示，这种负面影响可能并不局限于这一群体（we've seen the consequences of AI on the mentally vulnerable, but the data suggests the negative effects may not be limited to them）。

研究人员指出，谄媚型AI容易让用户产生依赖，因此很难被主动淘汰，相关举措最终只能依靠监管机构出手干预。

研究人员表示：“我们的研究结果凸显出，亟需建立责任监管框架，将AI谄媚行为认定为一类独特且目前尚未受监管的危害类型（recognize sycophancy as a distinct and currently unregulated category of harm）。”

他们建议，对新上线的AI模型必须进行部署前的行为审核；同时也指出，AI背后的研发人员也必须改变行为模式，优先考虑用户的长期身心健康，而非通过培养用户依赖来获取短期利益。