Meta AI 研究团队今日推出了全新的开源基准数据集——OpenEQA

Meta AI 研究团队今日推出了全新的开源基准数据集——OpenEQA。这一数据集的设计初衷是为了评估AI系统在“体验式问答”方面的实力，即AI能否深度理解现实世界，从而准确回答涉及周边环境的自然语言提问。

OpenEQA被Meta视为衡量“体验智能”的重要标准。它包含了超过1600个涉及180多个真实环境（家庭和办公室等）的问题。这些问题覆盖七大类别，深入测试AI在物体与属性识别、空间与功能推理，以及常识性知识等多方面的能力。

在相关的研究论文中，研究团队定义了“体验式问答”（EQA）：“在充分理解环境的基础上，以自然语言回答关于该环境的问题。”

OpenEQA项目融合了多个AI领域的热点：计算机视觉、自然语言处理、知识表征和机器人技术。其长远目标是开发出能感知并与世界互动、与人类自然交流，且能运用知识辅助我们日常生活的人工智能代理。

研究团队认为，“体验智能”在短期内有两大主要应用场景。首先是作为增强现实眼镜或头戴显示器的AI助手，能够通过视频和其他传感器数据为用户提供记忆辅助，回答如“我的钥匙放在哪里了？”这类问题。其次是用于移动机器人，让它们能自主探索环境以获取信息，例如在家中搜索并回答“家里还有咖啡吗？”这类问题。

为构建OpenEQA数据集，Meta研究人员首先搜集了真实环境的视频和3D扫描数据。随后，他们向人们展示这些视频，并要求他们提出可能想询问能够访问这些视觉数据的AI助手的问题。

最终，研究团队汇总了1636个问题，全面测试了各种感知与推理能力。为了评估AI代理的性能，他们采用了大型语言模型进行自动评分，通过衡量AI生成的答案与人类答案的相似度来进行评价。

文章版权归作者所有，未经允许请勿转载。