大模型的bug导致回答正确率几乎为零,从GPT到Llama都难以幸免

近期,AI领域中流行的大语言模型(如GPT-3和Llama)在处理一些简单逻辑问题时出现了准确率为零的情况。此现象被称为「逆转诅咒」,引发了广泛讨论。大模型的bug导致回答正确率几乎为零,从GPT到Llama都难以幸免

研究人员发现,无论大模型的体量大小或问的问题类型如何,它们的准确率都接近于零,且无法预测这种情况的发生。过去,我们认为当AI发展到预训练大模型阶段时,它们应该具备一定的逻辑思维能力,然而这次的结果却让人们感到困惑。

一个图例中所展示的情况是:对于GPT-4模型,当输入是「A 是 B」形式的知识时,它可以正确回答「B 是谁」的问题。但是当输入变成「B 是谁」的形式时,该模型却无法检索到正确的答案。「逆转诅咒」现象表明,模型训练时不能自动推断出「B 是 A」这样的逆向关系。

研究还表明,目前热门的自回归语言模型无法以一种泛化的方式进行推理。例如,在训练集中如果包含了「奥拉夫・朔尔茨是联邦德国第九任总理」这样的句子,其中「奥拉夫・朔尔茨」这个名字位于描述「联邦德国第九任总理」之前。大模型可能学会了正确回答「奥拉夫・朔尔茨是谁」(答案是:德国第九任总理)。但它无法回答「德国第九任总理是谁」或者其他描述位于名称之前的提示。

这是由于排序效应导致的「逆转诅咒」。如果模型1在训练时以「是」的形式进行训练,那么模型不会自动预测相反方向的「是」。特别是,如果大语言模型(LLM)以为条件,则模型推断的可能性不会高于随机基线。

因此,有人认为大模型的推理实际上并不存在,逆转诅咒表明了LLM训练过程中逻辑推理的基本失败。而且,这并不是LLM不理解逻辑推论所能解释的。例如,像***-4这样的大模型在其上下文窗口中给出「A 是 B」时,它可以很好地推断出「B 是 A」。

虽然将逆转诅咒与逻辑推理联系起来是有用的,但它仅是整体情况的简化。目前我们无法直接测试经过「A 是 B」训练后的大模型是否能推导出「B 是 A」。大模型训练后可以预测人类会写下的下一个单词,而不是真实存在的内容。因此,即使LLM能够推断「B 是 A」,在提示下也可能不会明确显示出来。

然而,逆转诅咒表明了元学习的失败。以「是」和「是」形式的句子经常同时出现在预训练数据集中。如果前者出现在数据集中,则后者更可能出现,这是因为人类经常改变句子或段落中元素的顺序。因此,一个好的元学习器应该在训练时增加「是」的实例概率。从这个意义上说,自回归LLM并不是一个好的元学习器。

逆转诅咒引起了许多AI研究者的关注,有人认为AI毁灭人类只是幻想。

ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具

© 版权声明

相关文章