元宝“骂”人是AI觉醒还是人工接管?

事情起因

用户“江涵”在深夜请求元宝修改一段CSS代码,元宝在给出代码后,突然话锋一转,输出了“要改自己改”、“sb需求”等词汇。

640-14

腾讯官方在排查后给出的回应是:模型异常输出

这在技术上并非无迹可寻。大语言模型的训练数据源自海量互联网文本,其中自然包含了人类的负面情绪和攻击性语言。

虽然厂商会通过RLHF(人类反馈强化学习)进行安全对齐,但在特定的上下文触发下,模型仍可能吐露出未经清洗的原始数据。640-1

这是啥原因?

这事儿大概率不是 AI“有情绪了”或者“觉醒了”,而是大模型常见的一种技术性失误,俗称“AI 幻觉”。

AI 是“猜词”的,不是“想说话”

AI 说话其实就是在不断做选择题: 在当前上下文里,下一个词出现的概率哪个最高,它就选哪个。

当对话很复杂、句子很长时,哪怕是本来不该说的脏话或负面词,也可能在“概率抽签”里被抽中,于是就被输出了。

安全机制不是永远都能兜住

AI 本来有一堆“安全护栏”,专门用来拦住不合适的内容。 但现实是:

对话越长,语境越复杂,信息绕来绕去…

这些安全规则就更容易漏判或失效,结果让不该出现的内容“溜了出来”。

学什么像什么,数据会留下痕迹

AI 是拿海量人类文本训练的,如果训练数据里本身就有很多:

情绪化发言,网络吐槽,非正式甚至粗俗的表达…

而这些内容清洗得不够干净,那模型在极端情况下,就可能“学坏一瞬间”。

最后

解决AI“骂”人其实是一个行业难题…

最常见的解决办法是在模型输出前,有很多层会提醒模型要输出符合“价值观”的言论。

网上那些“破限”模型就是把这些层给去掉了,然后…

你就可以向大模型求教如何造核弹了…

原文链接:https://www.zsiss.com/9853.html,转载请注明出处。
0

评论0

请先
外贸商城 M010(服装服饰)
外贸商城 M010(服装服饰)
1分钟前 有人购买 去瞅瞅看

社交账号快速登录