DeepMind通过改进GPT-4模型提高归纳和演绎能力,准确率提升13.7%
近期,大型语言模型(LLM)在推理任务上的表现引起了广泛关注,尤其在给定一些样例和中间步骤的情况下。然而,prompt 方法往往高度依赖于 LLM 中的隐性知识,一旦这些知识存在错误或者与具体任务要求不一致,LLM 就可能提供不正确的答案。
为了解决这一问题,来自谷歌、Mila 研究所等知名研究机构的科学家们共同探索了一种创新方法 —— 让 LLM 学习如何进行推理,并提出了一种名为“假设到理论(Hypotheses-to-Theories,HtT)”的新框架。此方法不仅优化了多步推理过程,还突显出可解释性、可迁移性等优势。
实验结果表明,与现有的 prompt 方法相比,HtT 显著提高了推理任务的准确性,提升了11-27%之多。除此之外,通过学习到的规则,这种方法可以轻松迁移到不同的模型或同一问题的不同形式中去。 总的来说,HtT 框架包括两个阶段:归纳阶段和演绎阶段,它们类似于传统机器学习中的训练和测试。
在归纳阶段,LLM 需要首先生成并验证一组训练样例的规则。该研究使用了一种名为“规则声明与推导”的方法,来指导 LLM 声明规则并推导答案。该方法会统计规则的出现频率和准确性,然后收集那些经常出现并导致正确答案的规则,从而形成一个规则库。
有了这样一个良好的规则库,下一步就是如何应用这些规则来解决问题。在演绎阶段,该研究在 prompt 中添加了规则库,并要求 LLM 从规则库中检索规则来进行演绎,将隐式推理转换为显式推理。
然而,该研究发现,即使是非常强大的 LLM(例如 GPT-4)也很难在每一步都检索到正确的规则。为了解决这个问题,该研究开发了一种名为“XML tagging trick”的方法,用于增强 LLM 的上下文检索能力。这种方法可以帮助 LLM 更好地理解上下文信息,并准确地检索到相关规则,从而提高演绎的准确性。