生成式人工智能模型实际上并不像人类。它们没有智力或个性——它们只是预测句子中最有可能出现的下一个单词的统计系统。但就像专制工作场所的实习生一样,它们会毫无怨言地遵循指令——包括最初的“系统提示”,这些提示会向模型灌输基本素质以及它们应该做什么和不应该做什么。
从 OpenAI 到 Anthropic,每个生成式 AI 供应商都使用系统提示来防止(或至少尝试防止)模型行为不当,并控制模型回复的总体语气和情绪。例如,提示可能会告诉模型应该礼貌但绝不能道歉,或者要诚实地承认它不可能知道一切。
但供应商通常会对系统提示保密——大概是出于竞争原因,但也可能是因为了解系统提示可能会提供绕过它的方法。例如,暴露GPT-4o系统提示的唯一方法是通过提示注入攻击。即便如此,系统的输出也不能完全信任。
然而,Anthropic 不断努力将自己塑造成一个更有道德、更透明的人工智能供应商,已经在Claude iOS 和 Android 应用程序以及网络上发布了其最新模型( Claude 3.5 Opus、Sonnet 和 Haiku)的系统提示。
Anthropic 开发者关系主管 Alex Albert 在 X 上的一篇文章中表示,Anthropic 计划在更新和微调系统提示时定期进行此类披露。
最新的提示,日期为 7 月 12 日,非常清楚地列出了 Claude 模型不能做什么 — — 例如“Claude 无法打开 URL、链接或视频”。面部识别是大忌;Claude 3.5 Opus 的系统提示告诉模型“始终像完全脸盲一样做出反应”并且“避免识别或命名[图像]中的任何人”。
但提示也描述了某些性格特征和特点——Anthropic 希望 Claude 模型能够体现这些特征和特点。
例如,Opus 的提示说,Claude 应该表现得“非常聪明,求知欲强”,并且“喜欢听取人们对某个问题的看法,并参与各种话题的讨论”。它还指示 Claude 以公正和客观的态度对待有争议的话题,提供“仔细的想法”和“清晰的信息”——并且永远不要以“当然”或“绝对”等词开头回答。
这些系统提示对这个人类来说有点奇怪,就像舞台剧演员写角色分析表一样。Opus 的提示以“克劳德现在正在与人类连接”结束,给人的印象是克劳德是屏幕另一端的某种意识,其唯一目的是满足其人类对话伙伴的奇想。
但这当然只是幻觉。如果克劳德的提示告诉我们什么的话,那就是如果没有人类的指导和帮助,这些模型就像一张可怕的白板。
凭借这些新系统提示更新日志(这是主要 AI 供应商首次推出此类更新日志),Anthropic 正在向竞争对手施加压力,要求他们发布相同的更新日志。我们得看看这个策略是否有效。