从谷歌的 Gemini 到 Anthropic 的 Claude,再到OpenAI最新发布的GPT-4o ,所有生成式 AI 模型都会产生幻觉。换句话说,这些模型是不可靠的叙述者——有时效果很好笑,有时却有问题。
但并非所有模型都以相同的速度编造谎言。它们散布的谎言类型取决于它们接触的信息来源。
康奈尔大学、华盛顿大学和滑铁卢大学以及非营利研究机构 AI2的研究人员最近进行了一项研究,试图通过将 GPT-4o 等模型与法律、健康、历史和地理等主题的权威来源进行事实核查,来对幻觉进行基准测试。他们发现,没有一个模型在所有主题上都表现得特别好,而幻觉最少的模型之所以如此,部分原因是它们拒绝回答本来会出错的问题。
康奈尔大学博士生、这项研究的合著者赵文婷说:“我们工作中最重要的结论是,我们还不能完全信任模型生成的输出。目前,即使是最好的模型也只有大约 35% 的时间能够生成无幻觉的文本。”
学术界也曾尝试探究模型的“真实性”,其中包括一个 AI2 下属团队的尝试。但赵指出,这些早期测试向模型提出了一些可以在维基百科上轻松找到答案的问题——考虑到大多数模型都是在维基百科数据上训练的,这并不是最难的问题。
为了使他们的基准更具挑战性——也为了更准确地反映人们向模型提出的问题类型——研究人员在网络上确定了没有维基百科参考的主题。他们测试中超过一半的问题无法使用维基百科来回答(他们还包括了一些来自维基百科的问题),涉及的话题包括文化、地理、天文学、流行文化、金融、医学、计算机科学和名人。
在他们的研究中,研究人员评估了十几种不同的流行模型,其中许多都是去年发布的。除了 GPT-4o,他们还测试了“开放”模型,例如Meta 的 Llama 3 70B、Mistral 的Mixtral 8x22B 和Cohere 的Command R+,以及门控 API 模型,例如Perplexity 的Sonar Large(基于 Llama)、Google 的Gemini 1.5 Pro和 Anthropic 的Claude 3 Opus。
尽管OpenAI、Anthropic和其他大型生成式 AI 公司声称幻觉的产生率较低,但结果表明,模型产生的幻觉并没有减少多少。
GPT-4o 和 OpenAI 更老的旗舰产品GPT-3.5在基准测试中正确回答问题的百分比方面表现大致相同。 (GPT-4o 略胜一筹。)OpenAI 的模型总体上幻觉最少,其次是 Mixtral 8x22B、Command R 和 Perplexity 的 Sonar 模型。
与名人和金融有关的问题对模型来说最难回答,但与地理和计算机科学有关的问题对模型来说最容易回答(可能是因为它们的训练数据包含更多对这些问题的引用)。在答案来源不是维基百科的情况下,每个模型的平均回答事实性都较低(尤其是 GPT-3.5 和 GPT-4o),这表明它们都大量受到维基百科内容的影响。
即使是能够在网上搜索信息的模型,如 Command R 和 Perplexity 的 Sonar 模型,在基准测试中也很难解决“非 Wiki”问题。模型大小并不重要;较小的模型(例如 Anthropic 的 Claude 3 Haiku)产生幻觉的频率与较大、表面上更强大的模型(例如 Claude 3 Opus)大致相同。
那么这一切意味着什么——供应商所承诺的改进又体现在哪些方面呢?
好吧,我们不会排除供应商夸大其词的可能性。但更宽容的看法是,他们使用的基准并不适合此目的。正如我们之前所写的那样,许多(如果不是大多数)人工智能评估都是短暂的,缺乏重要的背景,注定会成为古德哈特定律的牺牲品。
无论如何,赵女士表示,她预计幻觉问题将“持续很长时间”。
“我们论文中的实证结果表明,尽管某些方法有望减少或消除幻觉,但这些方法实际能取得的改善效果有限,”她说。“此外,我们的分析表明,即使是在互联网上找到的知识也常常相互矛盾,部分原因是训练数据——由人类编写——也可能包含幻觉。”
一个临时的解决方案可能是简单地对模型进行编程,使其更频繁地拒绝回答——这在技术上相当于告诉一个万事通停止回答。
在研究人员的测试中,克劳德 3 俳句只回答了大约 72% 的问题,其余问题则选择弃权。考虑到弃权,克劳德 3 俳句实际上是所有模型中最符合事实的——至少从它撒谎最少的角度来看是这样。
但人们会使用一个无法回答很多问题的模型吗?赵认为不会,并表示供应商应该将更多的时间和精力投入到减少幻觉的研究上。她断言,完全消除幻觉可能是不可能的,但可以通过在模型开发过程中进行人为事实核查和引用来减轻幻觉。
“需要制定政策和法规,以确保人类专家始终参与验证和确认生成式人工智能模型所生成信息的过程,”赵补充道。“在这个领域仍有许多机会可以产生重大影响,例如为任何自由文本开发先进的事实核查工具,为事实内容提供引文,并为幻觉文本提供更正。”