谷歌研究：通过生成对抗性数据和多元评估应对GenAI的道德与安全风险

ai导航-热门ai工具网友投稿2年前 (2024)更新热门ai平台网友投稿收录

谷歌研究团队在人工智能领域持续推动着对生成式AI（GenAI）安全的研究，以应对其在虚假信息、偏见和安全性方面带来的挑战。作为谷歌研究的一部分，负责构建负责任的AI和数据系统的Responsible AI and Human-Centered Technology(RAI-HCT)团队旨在通过文化感知研究的视角推进负责任的人本AI的理论和实践，以满足今天数十亿用户的需求，并为更好的AI未来铺平道路。

在RAI-HCT团队中，Building Responsible AI Data and Solutions（BRAIDS）团队专注于通过可扩展的工具、高质量数据、简化的流程以及创新研究简化RAI实践的采用，特别关注处理GenAI(生成式AI)带来的独特挑战。GenAI模型带来了前所未有的能力，推动了创新应用的迅速发展，然而，它同时也存在虚假信息、偏见和安全性的风险。

为了解决这些风险，谷歌在2018年制定了AI原则，强调有益使用和防范伤害。自那以后，谷歌通过全面的风险评估框架、内部治理结构、教育以及在AI产品生命周期内识别、衡量和分析伦理风险的工具和流程的开发，致力于有效实施这些原则。BRAIDS团队专注于最后一个方面，通过创建工具和技术，帮助谷歌团队识别GenAI产品中的伦理和安全风险，并采取适当的缓解措施。

谷歌的研究侧重于三个方向:扩展的对抗性数据生成、自动化测试集评估和社区参与。为了创建测试集，BRAIDS团队采用了“人在回路中”的方法，以在不同情境下包含多样化且潜在不安全的模型输入。自动化测试集评估帮助快速评估模型在各种潜在有害情境下的响应，而社区参与则有助于发现“未知的未知”，并启动数据生成过程。

在安全性评估中，人类判断起着关键作用，但受到社区和文化的影响，难以自动化。为了解决这一问题，团队注重研究评估者的多样性。他们还通过引入基于大型语言模型（LLMs）的自动评估者，提高了评估的效率和规模，同时将复杂或模糊的案例交给专业评估者。

在社区参与方面，团队积极与Equitable AI Research Round Table（EARR）等组织合作，确保他们代表使用他们模型的多元社区。Adversarial Nibbler Challenge则邀请外部用户参与，了解不安全、偏见或暴力输出对最终用户的潜在危害。他们还通过参与研究社区的活动，如在亚太计算语言学协会会议(IJCNLP-AACL2023)的The ART of Safety研讨会中，与研究界合作解决GenAI的对抗性测试挑战。

谷歌的主动对抗性测试计划旨在识别和减轻GenAI风险，确保其模型行为包容。对抗性测试和红队行动是安全策略的重要组成部分，全面进行它们对应对快速创新的要求，不断挑战自己，与内部伙伴、多元用户社区以及其他行业专家合作，发现“未知的未知”。

ai工具箱
 ai导航
免费aigc导航
 aigc工具
 免费ai工具