微软在开发AI模型期间遭泄露了38TB的敏感数据
最近发生的微软数据泄露事件凸显了AI模型训练过程中存在的安全风险和挑战。该事件发生在GitHub公共存储库上,由于对Azure平台的共享访问签名令牌(SAS)的错误使用,导致私人数据泄露达到了38TB。
微软的AI研究人员通过一个权限过于宽松的SAS令牌在GitHub上分享文件,其中包括用于图像识别的开源代码和AI模型。然而,SAS令牌的危险在于缺乏监控和管理,难以追踪和控制。因此,微软的数据暴露了很长时间,严重威胁了数据的安全性。
除了用于AI模型训练的数据外,微软还泄露了两名员工工作站的磁盘备份,其中包括了“秘密”、私人加密密钥、密码以及属于359名微软员工的超过30,000条内部Microsoft Teams消息。总计有38TB的私人文件可能被任何人访问,直到微软于2023年6月24日吊销了危险的SAS令牌。
这次事件突显了SAS令牌的安全风险,因为它们缺乏监控和治理。Wiz公司指出,应尽量限制SAS令牌的使用,因为微软没有提供通过Azure门户进行集中管理的方式。
此外,SAS令牌可以配置为“实际上永久有效”,这使得难以追踪和控制其使用。微软首次提交到其AI GitHub存储库的令牌于2020年7月20日添加,有效期一直延续到2021年10月5日。随后又添加了第二个令牌,有效期设置为2051年10月6日。
综上所述,微软的这起多TB数据泄露事件凸显了AI模型训练的风险。这种新兴技术需要大规模的数据用于训练,许多开发团队需要处理大量数据,并与同行分享数据或参与公共开源项目的合作。然而,类似微软的事件变得越来越难以监控和避免,因此需要采取更强的安全措施和协同工作来确保数据的安全性和隐私保护。
© 版权声明
文章版权归作者所有,未经允许请勿转载。