元宝“骂”人是AI觉醒还是人工接管？

事情起因

用户“江涵”在深夜请求元宝修改一段CSS代码，元宝在给出代码后，突然话锋一转，输出了“要改自己改”、“sb需求”等词汇。

腾讯官方在排查后给出的回应是：模型异常输出。

这在技术上并非无迹可寻。大语言模型的训练数据源自海量互联网文本，其中自然包含了人类的负面情绪和攻击性语言。

虽然厂商会通过RLHF（人类反馈强化学习）进行安全对齐，但在特定的上下文触发下，模型仍可能吐露出未经清洗的原始数据。 640-1

这事儿大概率不是 AI“有情绪了”或者“觉醒了”，而是大模型常见的一种技术性失误，俗称“AI 幻觉”。

AI 说话其实就是在不断做选择题：在当前上下文里，下一个词出现的概率哪个最高，它就选哪个。

当对话很复杂、句子很长时，哪怕是本来不该说的脏话或负面词，也可能在“概率抽签”里被抽中，于是就被输出了。

AI 本来有一堆“安全护栏”，专门用来拦住不合适的内容。但现实是：

对话越长，语境越复杂，信息绕来绕去…

这些安全规则就更容易漏判或失效，结果让不该出现的内容“溜了出来”。

AI 是拿海量人类文本训练的，如果训练数据里本身就有很多：

情绪化发言，网络吐槽，非正式甚至粗俗的表达…

而这些内容清洗得不够干净，那模型在极端情况下，就可能“学坏一瞬间”。

解决AI“骂”人其实是一个行业难题…

最常见的解决办法是在模型输出前，有很多层会提醒模型要输出符合“价值观”的言论。

网上那些“破限”模型就是把这些层给去掉了，然后…

你就可以向大模型求教如何造核弹了…

原文链接：https://www.zsiss.com/9853.html，转载请注明出处。