#AI开源项目推荐:opendatalab/WanJuan1.0
2TB多模态语料库 “书生·万卷”
上海人工智能实验室(上海 AI 实验室)于 8 月 14 日宣布,联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布 “书生・万卷” 1.0 多模态预训练语料。
“书生・万卷” 1.0 目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过 2TB。集合语料数据联盟成员丰富的内容积累与上海 AI 实验室领先的数据处理能力等优势,“书生・万卷” 将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。
https://t.co/kqKd6vWwHO
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图