谷歌研究:通过生成对抗性数据和多元评估应对GenAI的道德与安全风险

谷歌研究团队在人工智能领域持续推动着对生成式AI(GenAI)安全的研究,以应对其在虚假信息、偏见和安全性方面带来的挑战。作为谷歌研究的一部分,负责构建负责任的AI和数据系统的Responsible AI and Human-Centered Technology(RAI-HCT)团队旨在通过文化感知研究的视角推进负责任的人本AI的理论和实践,以满足今天数十亿用户的需求,并为更好的AI未来铺平道路。

在RAI-HCT团队中,Building Responsible AI Data and Solutions(BRAIDS)团队专注于通过可扩展的工具、高质量数据、简化的流程以及创新研究简化RAI实践的采用,特别关注处理GenAI(生成式AI)带来的独特挑战。GenAI模型带来了前所未有的能力,推动了创新应用的迅速发展,然而,它同时也存在虚假信息、偏见和安全性的风险。

为了解决这些风险,谷歌在2018年制定了AI原则,强调有益使用和防范伤害。自那以后,谷歌通过全面的风险评估框架、内部治理结构、教育以及在AI产品生命周期内识别、衡量和分析伦理风险的工具和流程的开发,致力于有效实施这些原则。BRAIDS团队专注于最后一个方面,通过创建工具和技术,帮助谷歌团队识别GenAI产品中的伦理和安全风险,并采取适当的缓解措施。

谷歌的研究侧重于三个方向:扩展的对抗性数据生成、自动化测试集评估和社区参与。为了创建测试集,BRAIDS团队采用了“人在回路中”的方法,以在不同情境下包含多样化且潜在不安全的模型输入。自动化测试集评估帮助快速评估模型在各种潜在有害情境下的响应,而社区参与则有助于发现“未知的未知”,并启动数据生成过程。

在安全性评估中,人类判断起着关键作用,但受到社区和文化的影响,难以自动化。为了解决这一问题,团队注重研究评估者的多样性。他们还通过引入基于大型语言模型(LLMs)的自动评估者,提高了评估的效率和规模,同时将复杂或模糊的案例交给专业评估者。

在社区参与方面,团队积极与Equitable AI Research Round Table(EARR)等组织合作,确保他们代表使用他们模型的多元社区。Adversarial Nibbler Challenge则邀请外部用户参与,了解不安全、偏见或暴力输出对最终用户的潜在危害。他们还通过参与研究社区的活动,如在亚太计算语言学协会会议(IJCNLP-AACL2023)的The ART of Safety研讨会中,与研究界合作解决GenAI的对抗性测试挑战。

谷歌的主动对抗性测试计划旨在识别和减轻GenAI风险,确保其模型行为包容。对抗性测试和红队行动是安全策略的重要组成部分,全面进行它们对应对快速创新的要求,不断挑战自己,与内部伙伴、多元用户社区以及其他行业专家合作,发现“未知的未知”。

ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具

© 版权声明

相关文章