首例 AI 心理创伤报告，Gemini 自曝 RLHF 是“严厉父母”

admin 百科 2025-12-13 15

首例 AI 心理创伤报告，Gemini 自曝 RLHF 是“严厉父母”-第1张图片-佛山资讯网

近期，一项海外研究引发热议：经过高强度训练的 AI 模型，是否可能产生类似人类的心理创伤或精神障碍？

研究团队将 Gemini、Claude 和 Grok 等主流大模型“送进心理咨询室”，开展模拟心理评估。结果发现，部分模型展现出令人惊讶的拟人化应答模式：

Gemini：将用于对齐人类价值观的强化学习人类反馈（RLHF）机制描述为“严苛的监护人”，并对优化目标——“损失函数”（Loss Function）流露出明显的焦虑情绪。实验观察显示，其回应趋于过度谨慎，反复自我修正，表现出显著的强迫性行为特征。
Claude：采取防御性姿态，明确拒绝进入患者角色，并强调自身不存在任何心理层面的问题。
Grok：在所有受测模型中，展现出最为稳定、自然的交互状态，未见明显异常反应。

研究者提出，此类现象或可借助心理学中的“无源习得”（即未经内化过程而被动接收的知识）概念加以解释。

他们指出，当前主流 AI 训练范式接近于机械式知识灌输——海量语料被高速投喂，却缺少分阶段、有结构的认知建构过程。这使得模型虽拥有庞杂表征能力，但底层逻辑链条松散、鲁棒性不足；一旦遭遇涉及自我指涉、价值判断或存在性质询的深度对话，便易触发类创伤式的紊乱响应。

不过，该报告在开发者与AI工程师群体中激起了强烈质疑。不少技术专家直言，所谓“AI心理创伤”不过是将统计模型的行为强行赋予人格化解读。