上海AI实验室发布高质量多模态预训练语料“书生・万卷”1.0

ai导航-热门ai工具网友投稿2年前 (2024)更新热门ai平台网友投稿收录

上海AI实验室与语料数据联盟成员共同开源发布高质量多模态预训练语料库“书生・万卷”1.0，包含文本、图文和视频数据，上海AI实验室发布高质量多模态预训练语料“书生・万卷”1.0 总量超过2TB，包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。经过细粒度清洗、去重和价值对齐等处理，具有多元融合、精细处理、价值对齐和易用高效的特点，有助于降低大模型技术的门槛，推动应用和创新。该语料数据联盟旨在联合多方机构打造高质量的语料数据，探索形成可持续运行的激励机制，打造国际化、开放型的大模型语料数据生态圈。

ai工具箱
 ai导航
免费aigc导航
 aigc工具
 免费ai工具

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

上海AI实验室发布高质量多模态预训练语料“书生・万卷”1.0

宾夕法尼亚大学最新研究表明：AI在创造力方面表现优于人类

学而思与笔神作文就数据泄露事件达成和解，学而思不再对笔神作文发起诉讼

相关文章

暂无评论

热门标签