上海AI实验室发布高质量多模态预训练语料“书生・万卷”1.0
上海AI实验室与语料数据联盟成员共同开源发布高质量多模态预训练语料库“书生・万卷”1.0,包含文本、图文和视频数据,总量超过2TB,包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。经过细粒度清洗、去重和价值对齐等处理,具有多元融合、精细处理、价值对齐和易用高效的特点,有助于降低大模型技术的门槛,推动应用和创新。该语料数据联盟旨在联合多方机构打造高质量的语料数据,探索形成可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
© 版权声明
文章版权归作者所有,未经允许请勿转载。