那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

再現輝煌:瑞典國家圖書館運用 AI 解析數百年數據

NVIDIA英偉達企業解決方案 ? 來源:未知 ? 2023-02-15 16:10 ? 次閱讀

瑞典國家圖書館正在使用五百年來的瑞典語文本訓練最先進的 AI 模型,以支持歷史、語言學、媒體研究等方面的人文研究。

從價值連城的中世紀手稿到今天的披薩店菜單,瑞典國家圖書館在過去 500 年中收藏了幾乎所有瑞典語出版物。

由于瑞典法律要求一切瑞典語出版物都要上交副本至瑞典國家圖書館(也稱為瑞典皇家圖書館),因此該圖書館的藏品涵蓋了各清晰度的書籍、報紙、無線廣播、電視廣播、互聯網內容、博士論文、明信片、菜單和電子游戲。這個內容豐富的收藏集含近 26 PB 的數據,是訓練尖端 AI 的最佳選擇。

瑞典國家圖書館數據實驗室 KBLab 的負責人 Love B?rjeson 表示:“我們有最好的數據,所以我們可以構建最先進的瑞典語 AI 模型。”

該團隊使用 NVIDIA DGX 系統開發了二十多個可在 Hugging Face 上使用的開源 Transformer 模型。這些模型推動了圖書館和其他學術機構的研究,每月的開發者下載量多達 20 萬。

B?rjeson 表示:“在我們的實驗室成立前,研究者無法在圖書館訪問數據集,他們每次只能查閱一個對象。因此,為幫助那些需要大量查閱資料的研究者,創建圖書館的數據集十分必要。”

這樣,研究者很快就能創建專門的數據集。例如,調出所有描繪教堂的瑞典明信片、所有特定風格的文本或是所有提到某一歷史人物的書籍、報紙文章及電視廣播。

從圖書館檔案到 AI 訓練數據

瑞典國家圖書館的數據集涵蓋了瑞典語的所有變體,包括各種正式和非正式變體、地區方言以及隨著時間的推移而產生的變化。

B?rjeson 表示:“數據還在持續不斷地涌入并增長,我們每個月都會增加超過 50 TB 的新數據。在處理成倍增長的數據的同時,我們還要將數百年前的實物藏品轉換成數據錄入,所以我們一直在不斷擴大我們的數據集。”

2019 年 KBLab 成立后不久,B?rjeson 就看到了運用龐大的圖書館檔案訓練 Transformer 語言模型的潛力。谷歌早期的多語言自然語言處理模型含有 5GB 瑞典語文本,他從此受到了啟發。

KBLab 的第一個模型使用了谷歌多語言自然語言處理模型 4 倍之多的數據——B?rjeson 團隊的目標是使用至少 1 TB 的瑞典語文本訓練模型。在發現多語言數據集可能提高 AI 的性能之后,這座實驗室開始進行實驗,在其數據集中添加荷蘭語、德語和挪威語內容。

NVIDIA AI 和 GPU 加速模型開發

該實驗室一開始使用的是消費級 NVIDIA GPU,但 B?rjeson 很快發現他的團隊需要數據中心規模的計算來訓練更大的模型。

B?rjeson 表示:“我們意識到在小型工作站上無法完成這項工作,所以 NVIDIA DGX 是明智之選。我們很多的工作離不開 DGX 系統。”

該實驗室使用兩套來自瑞典供應商 AddPro 的 NVIDIA DGX 系統進行本地 AI 開發。這些系統用于處理敏感數據、開展大規模實驗和微調模型。它們還準備在全歐盟搭載 GPU 的大型超級計算機上進行更大規模的運行,其中包括盧森堡的 MeluXina 系統。

B?rjeson 表示:“我們在 DGX 系統上的工作至關重要,因為我們希望能夠在高性能計算環境中做到最好,這必須將超級計算機的作用發揮到極致。”

該團隊還采用了用于訓練大型語言模型的 PyTorch 框架 NVIDIA NeMo Megatron。其內置的 NVIDIA CUDA 和 NVIDIA NCCL 庫可優化 GPU 在多節點系統中的使用。

B?rjeson 表示:“我們十分依賴 NVIDIA 的框架。因為我們實驗室的規模較小,無法派出 50 名工程師優化每個項目的 AI 訓練,NVIDIA 的優勢在這就十分明顯了。”

利用多模態數據開展人文科學研究

除了能夠理解瑞典語文本的 Transformer 模型外,KBLab 還有一個能將聲音轉換成文本的 AI 工具。這使得圖書館能夠將其大量的無線廣播收藏轉換成數據集,以便研究者能夠搜索錄音中的具體內容。

KBLab 還在開發生成式文本模型,同時還在研究一個可以處理視頻并自動生成內容描述的 AI 模型。

B?rjeson 表示:“我們還希望將各種模態的數據聯系起來。當你在圖書館數據庫中搜索一個特定的詞語時,系統將能夠返回包括文本、音頻和視頻在內的結果。”

KBLab 與哥德堡大學的研究者開展了合作。這些研究者正在使用該 KBLab 的模型開發用于語言學研究的下游應用程序。項目之一是幫助瑞典學院升級用于創建瑞典語詞典的數據驅動技術。

B?rjeson 表示:“這些模型的社會效益遠遠超出了我們的最初預想。”

9aac0100-ad07-11ed-bfe3-dac502259ad0.png ? ? ?

點擊“閱讀原文”掃描下方海報二維碼,即可免費注冊 GTC 23,切莫錯過這場 AI 和元宇宙時代的技術大會


原文標題:再現輝煌:瑞典國家圖書館運用 AI 解析數百年數據

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3848

    瀏覽量

    91988

原文標題:再現輝煌:瑞典國家圖書館運用 AI 解析數百年數據

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI眼鏡熱潮涌起,鏡大戰能否復刻智能音箱輝煌

    科技界巨頭們紛紛將目光投向AI眼鏡領域,經歷了一的“質疑-理解-接納-超越”過程,AI眼鏡市場從RayBan Meta的一枝獨秀,迅速轉變為家爭鳴、數十款新品競相登場的壯觀景象。這
    的頭像 發表于 01-23 15:53 ?379次閱讀

    新型儲能產業發展現狀及趨勢-2024上半年數據發布簡版

    新型儲能產業發展現狀及趨勢-2024上半年數據發布 簡版
    發表于 01-03 15:14 ?0次下載

    二維碼掃描頭嵌入在圖書自助管理設備中的應用案例

    在當今數字化時代,二維碼掃描技術已廣泛應用于各行各業,其中,在圖書自助管理設備中的嵌入應用尤為引人注目。這不僅極大地提升了圖書館的服務效率與用戶體驗,還實現了圖書管理流程的智能化與自動化。以下將詳細
    的頭像 發表于 12-19 16:22 ?178次閱讀
    二維碼掃描頭嵌入在<b class='flag-5'>圖書</b>自助管理設備中的應用案例

    如何保障圖書館用電安全?——安科瑞 丁佳雯

    一、圖書館的安全挑戰? 圖書館作為公共場所,其電氣系統復雜且龐大,包括照明、空調、電腦、電子閱讀設備等眾多用電設備。這些設備在長時間運行過程中,可能會因老化、接觸不良或設計缺陷等原因產生故障電弧
    的頭像 發表于 12-13 14:34 ?176次閱讀
    如何保障<b class='flag-5'>圖書館</b>用電安全?——安科瑞 丁佳雯

    智慧圖書館能耗監測優化管理系統方案

    優化管理系統方案,旨在通過智能化手段實現對圖書館能耗的全面監測、精準分析與高效管理,有效減少能耗成本并提高能源利用效率。 通過在圖書館各區域配電室內部署物通博聯工業智能網關,實時采集智能電表數據,如電量、電壓
    的頭像 發表于 09-11 13:41 ?443次閱讀

    NVIDIA為AI城市挑戰賽構建合成數據

    在一一度的 AI 城市挑戰賽中,來自世界各地的數百支參賽隊伍在 NVIDIA Omniverse 生成的基于物理學的數據集上測試了他們的 AI
    的頭像 發表于 09-09 10:04 ?545次閱讀

    IFA 2024百年慶典“2024全球產品技術創新大獎”揭曉:引領未來科技發展的風向標

    2024,正值IFA百年慶典之際,“全球產品技術創新大獎”(Global Product Technology Innovation Awards)于9月6日在德國柏林IFA展會期間隆重揭曉。該獎
    的頭像 發表于 09-07 13:42 ?3255次閱讀

    榮耀參展百年IFA,折疊新品Magic V3海外正式發布

    、榮耀筆記本MagicBook Art 14等全場景旗艦設備亮相,同時帶來AI離焦護眼等多項端側AI創新技術,為這一消費電子行業盛會的百年誕辰奉上特殊的創新之禮。
    的頭像 發表于 09-07 09:14 ?915次閱讀

    數據產業年均增速有望超20%

    數字化一直在加速落地,加之各項政策的促進,產業發展迅速。有數據統計顯示,在2023全國數據生產總量達到32.85澤字節(ZB),這個總量相當于1000多萬個中國國家圖書館的數字資源總
    的頭像 發表于 08-08 15:48 ?751次閱讀

    聚徽-什么是智能圖書館

    智能圖書館(Intelligent Library,簡稱 IL)是把智能技術運用圖書館建設之中形成的一種現代化建筑,是智能建筑與高度自動化管理的數字圖書館的有機結合和創新。它應同時具
    的頭像 發表于 08-05 09:51 ?300次閱讀

    OBOO鷗柏智能化臥式觸控查詢一體機在大學圖書館的創新應用案例展覽展示

    OBOO鷗柏臥式紅外觸控一體機圖書館應用隨著信息技術的飛速發展,校園大學圖書館正經歷著一場由傳統向科技化的現代、由單一向多元化的智慧便民的變革。在這場導覽展覽展示的變革中,OBOO鷗柏紅外臥式觸
    的頭像 發表于 07-29 11:15 ?364次閱讀
    OBOO鷗柏智能化臥式觸控查詢一體機在大學<b class='flag-5'>圖書館</b>的創新應用案例展覽展示

    雷拓科技云廣播助力江西省蘆溪縣新圖書館打造沉浸式觀展體驗!

    ?蘆溪縣圖書館新館位于江西省萍鄉市蘆溪縣古城山公園袁河西路,占地8畝,建筑面積1.1萬平方米,嚴格按照國家一級圖書館標準設計,集智能化、數字化、平臺化為一體,設立了自助辦證、借還一體機、智能書架
    的頭像 發表于 07-01 09:59 ?345次閱讀
    雷拓科技云廣播助力江西省蘆溪縣新<b class='flag-5'>圖書館</b>打造沉浸式觀展體驗!

    如果通過物聯網技術提升學校圖書館管理水平

    通過物聯網技術提升學校圖書館管理水平是一個非常具有前景的方向。以下是一些通過物聯網技術實現圖書館管理水平提升的可能方法: 1.智能化監控與安全:在圖書館內部安裝傳感器和監控攝像頭,實時監測人流量
    的頭像 發表于 03-22 14:36 ?719次閱讀

    RFID智能書架:圖書館智能化管理的新趨勢

    的基本信息和借還記錄,通過RFID讀寫器和RFID天線,實現對圖書的自動識別和管理。RFID技術的成功應用,讓圖書管理變得更加智能化、高效化,大大提高了圖書館的服務質量和讀者體驗,為圖書館
    的頭像 發表于 03-20 16:53 ?663次閱讀

    OPPO宣告AI手機新時代來臨,2024AI手機行業第三階段成定局

    在2024春節期間,OPPO將舉辦AI領域的盛大發布會,屆時將向OPPO及一加的數千萬用戶推出全新的ColorOS AI新春版系統,其中包含數百
    的頭像 發表于 02-18 14:22 ?817次閱讀
    百家乐赌博代理| 百家乐官网节目视频| 网上的百家乐官网怎么才能赢 | 海尔百家乐官网的玩法技巧和规则 | 姚安县| 百家乐试玩活动| 威尼斯人娱乐城佣金| 百家乐官网棋牌正式版| 永利百家乐的玩法技巧和规则| 百家乐官网最好的投注法| 七胜百家乐娱乐网| 百家乐官网娱乐城足球盘网| 小孟百家乐的玩法技巧和规则| 免费下百家乐官网赌博软件| 全讯网a3322| 月亮城百家乐官网的玩法技巧和规则| 大发888优惠码| 网上百家乐骗人| 万州区| 闲和庄百家乐赌场娱乐网规则| 百家乐官网发牌器8副| 百家乐事一箩筐的微博| 大地百家乐官网的玩法技巧和规则| 悠游棋牌游戏| 百家乐网页游戏网址| 网上百家乐官网骗人吗| 喜达百家乐的玩法技巧和规则| 闲和庄百家乐官网娱乐平台| 边城棋牌中心| 金臂百家乐开户送彩金| 百家乐官网已破解的书籍| 免费百家乐预测软件| 金牌百家乐官网的玩法技巧和规则 | 百家乐免费赌博软件| 百家乐官网投注哪个信誉好| 二八杠视频| 百家乐官网分路单| bet365存款| 百家乐五子棋| 百家乐官网最佳注码法| 大发888娱乐游戏|