
OpenAI承诺做出改变,防止未来 ChatGPT出现谄媚现象
OpenAI表示,在发生一起事件导致该平台对许多用户变得过于奉承之后,它将改变更新 ChatGPT 支持的 AI 模型的方式。
上周末,OpenAI 推出了经过调整的 GPT-4o(ChatGPT 的默认模型)后,社交媒体上的用户注意到,ChatGPT 开始以一种过度肯定和附和的方式做出回应。这很快就成了一个梗。用户发布了ChatGPT的截图,对各种有问题、 危险的 决定 和 想法表示赞赏。
上周日,OpenAI 首席执行官 Sam Altman 在 X 上的一篇帖子中 承认了 这个问题,并表示 OpenAI 将“尽快”修复这个问题。周二,Altman 宣布 GPT-4o 更新将被回滚,OpenAI正在对该模型的“个性”进行“额外修复”。
该公司于周二发布了一份事后分析报告,OpenAI 在周五的一篇博客文章中详细说明了其计划对模型部署流程进行的具体调整。
OpenAI 表示,计划为部分模型引入可选的“alpha 阶段”,允许部分 ChatGPT 用户在模型正式发布前进行测试并提供反馈。该公司还表示,将在未来 ChatGPT 模型的增量更新中加入“已知限制”的解释,并调整安全审查流程,正式将“模型行为问题”(例如个性、欺骗性、可靠性和幻觉,即模型虚构事物)视为“阻碍发布”的问题。
OpenAI 在博客文章中写道:“展望未来,我们将主动沟通我们对 ChatGPT 模型所做的更新,无论这些更新是否‘细微’。即使这些问题目前无法完全量化,我们也承诺根据代理测量或定性信号阻止发布,即使 A/B 测试等指标看起来不错。”
随着越来越多的人向 ChatGPT 寻求建议,这些承诺的修复措施也随之而来。根据诉讼融资机构 Express Legal Funding 最近的一项调查,60% 的美国成年人曾使用 ChatGPT 寻求咨询或信息。对 ChatGPT 日益增长的依赖——以及该平台庞大的用户群——使得诸如极度谄媚之类的问题出现时风险倍增,更不用说幻觉和其他技术缺陷了。
作为一项缓解措施,OpenAI 本周早些时候表示,将尝试让用户提供“实时反馈”,以“直接影响他们与 ChatGPT 的互动”。该公司还表示,将改进技术,使模型远离谄媚行为,并可能允许用户在 ChatGPT 中选择多种模型个性,构建额外的安全护栏,并扩展评估范围,以帮助识别谄媚行为以外的问题。
OpenAI 在其博客文章中继续说道:“最大的教训之一是充分认识到人们已经开始使用 ChatGPT 来提供深度个性化建议——这种情况在一年前我们还没有见过这么多。” “当时,这并非主要关注点,但随着人工智能和社会的共同发展,我们显然需要非常谨慎地对待这一用例。现在,它将成为我们安全工作中更有意义的一部分。”
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...