近日,上海人工智能實驗室發布聯合語言資料數據聯盟會員單位,共同發布“生萬權”1.0多模式詞典訓練語言資料開源。
“書生·萬卷”1.0將集中語言資料數據聯盟會員們豐富的內容積累和上海人工智能實驗室的數據處理能力等優勢,為學術界及產業界提供高品質的大規模模型多模態事前訓練語言資料。開放源代碼提供2tb以上的數據,多種融合,精細處理,價值排序,使用方便高效。
此次開放源代碼“書生·萬卷”1.0包含文本、圖片、文本和視頻三部分數據集。其中,文本數據來自網頁,百科全書,書籍,專利,教材,考試題等,數據總量超過5億個,數據大小也超過1tb,涵蓋科技,文學,媒體,教育,法律等多個領域。
圖像和文字數據主要來自公開網頁,經過處理形成圖像和文字交叉的文件??倲底殖^2200萬個,數據大小超過140gb,涵蓋新聞事件、人物、自然景觀、社會生活等多個領域。
視頻數據主要是中國中央電視臺(cctv)和上海文廣集團提供,新聞、電影、電視等多種類型的節目,包括視頻,視頻文件總數超過1000個,數據大小超過900gb,內容是軍事、文藝、體育、自然、知識、影像藝術等領域覆蓋著。
-
人工智能
+關注
關注
1796文章
47678瀏覽量
240297 -
源代碼
+關注
關注
96文章
2946瀏覽量
66958 -
模型
+關注
關注
1文章
3310瀏覽量
49226
發布評論請先 登錄
相關推薦
評論