那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

全球規(guī)模最大的多類別、病灶級別標注的開放獲取臨床醫(yī)療圖像數(shù)據(jù)集

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-16 09:41 ? 次閱讀

NIH臨床中心最新公布了一個迄今規(guī)模最大的多類別、病灶級別標注臨床醫(yī)療CT圖像開放數(shù)據(jù)集DeepLesion,研究人員在此基礎上訓練深度神經(jīng)網(wǎng)絡,創(chuàng)建了一個具有統(tǒng)一框架的大規(guī)模通用病灶檢測器,能夠更準確、更自動地衡量患者體內所有病灶的大小,實現(xiàn)全身范圍的癌癥初步評估。

4427名獨立的匿名患者

10594次CT掃描(平均每位患者有3次隨訪)

32735個帶標記的病灶實例

一共928020張CT橫切圖像(512×512分辨率)

這就是美國國家衛(wèi)生研究院(NIH)臨床中心最新公開發(fā)布的大型CT圖像數(shù)據(jù)集DeepLesion,也是迄今全球規(guī)模最大的多類別、病灶級別標注的開放獲取臨床醫(yī)療圖像數(shù)據(jù)集。

“我們希望這項工作能更好地幫助放射科醫(yī)生進行診斷,解決真正有意義的臨床問題。”DeepLesion項目技術負責人、現(xiàn)在已經(jīng)離開NIH、出任平安科技美國東部研究院院長的呂樂博士在接受新智元采訪時說:“這件工作首先離不開我們在NIH的臨床醫(yī)生合作者羅納德·撒莫斯(Ronald M. Summers),他是醫(yī)生里面對技術理解特別深刻的,為獲取這個臨床的大規(guī)模醫(yī)療數(shù)據(jù)集提供了極大的幫助和指導。”

“基于DeepLesion數(shù)據(jù)集,我們開發(fā)了一種通用的病變檢測器,第一次為幫助放射科醫(yī)生找到患者身上所有類型的病灶提供了技術可能。”DeepLesion項目的主要完成人,NIH臨床中心的博士后研究員閆軻介紹說。

目前,大多數(shù)公開可用的醫(yī)學圖像數(shù)據(jù)集,都只含有圖像級別的分類標簽,而有病灶級別標注的數(shù)據(jù)集,數(shù)量往往不足1000,而且大都針對單一類型的病灶,因此訓練出的模型只能檢測一種病灶。而實際病灶的種類非常之多,這種方式就顯得有些低效。

2017年,同樣由呂樂和羅納德·撒莫斯博士率領的另一個NIH臨床中心研究團隊,發(fā)布了一個含有超過10萬匿名胸部X光片的標注圖像數(shù)據(jù)集,大幅推進了相關醫(yī)療AI研發(fā),為醫(yī)生提供了更好的臨床診斷決策輔助。

這一次,呂樂、羅納德·撒莫斯和他們在NIH的同事,朝著一個更加宏大的目標進發(fā)——構建一個囊括各種不同病灶的標注數(shù)據(jù)集,并在此基礎上設計一個能夠檢測多種病灶的深度學習模型,從而更準確、自動地衡量患者體內所有病灶的大小,實現(xiàn)全身范圍的癌癥評估。

基于DeepLesion構建的通用病灶檢測流程圖。來源:[1]

醫(yī)生手工標注CT圖像,不適合用于訓練AI

“美國的臨床醫(yī)療數(shù)據(jù)庫里,積累了醫(yī)生在臨床實踐中留下的成千上萬個病人的標注數(shù)據(jù),”呂樂博士說:“但是,這些標注往往不完整,是醫(yī)生為了輔助他們自己的工作進行的,不適合用于訓練AI系統(tǒng)。”

而為了訓練AI系統(tǒng),請醫(yī)生專門對大量的醫(yī)療圖像進行標注又是不現(xiàn)實的,因為這需要耗費大量的人力和時間成本。因此,這件事情只有靠計算機設計深度學習算法來完成。

而要設計深度學習算法,關鍵就是帶有準確標記的醫(yī)療圖像大數(shù)據(jù)。去除隱私后的公共醫(yī)療大數(shù)據(jù)本就不多,而且不同于其他類型的數(shù)據(jù)標注,醫(yī)療圖像標注需要豐富的臨床經(jīng)驗,即使是資深醫(yī)生,有時候也會在某個標注上產(chǎn)生意見分歧。

其結果就是,真正可用的標注醫(yī)療圖像數(shù)據(jù)集稀缺,盡管各種醫(yī)院診所里積累了大量的醫(yī)療圖像數(shù)據(jù)。

要設計深度學習算法解決臨床問題,“需要對技術和臨床實踐兩方面都擁有深刻的理解,”呂樂博士說:“AI 不是把放射科里面的東西再重新做一遍。哪些需求是臨床上迫切需要的,哪些需求是當前技術能夠滿足的,將放射科學、計算機科學和人工智能結合在一起時,有很多需要深度考量和仔細權衡的東西,蠻干是不行的。”

為了構建DeepLesion數(shù)據(jù)集,研究人員傾注了一年多的時間,期間在國際醫(yī)學圖像計算與計算機輔助干預大會(MICCAI)、北美放射學年會(RSNA)等醫(yī)學和放射影像國際頂會以及CVPR上,先后發(fā)表了12篇研究論文。

他們將工作成果匯聚為《DeepLesion: automated mining of large-scale lesion annotations anduniversal lesion detection with deep learning》,刊發(fā)在《Journalof Medical Imaging》。

現(xiàn)在,任何人都能訪問并使用NIH的DeepLesion數(shù)據(jù)集(鏈接見文末),醫(yī)生能夠更好地進行自動臨床病灶測量或者檢索相似病例,AI研究人員則能進一步完善和推動AI診療技術和產(chǎn)品的研發(fā)。

接下來,NIH臨床中心希望通過收集更多數(shù)據(jù),不斷完善DeepLesion,提高其檢測的準確性。研究人員還考慮將現(xiàn)在僅含CT圖像的DeepLesion進一步擴展,比如納入MRI圖像,并與其他醫(yī)院的數(shù)據(jù)相結合,構建更加豐富的臨床醫(yī)療圖像庫。

DeepLesion:迄今最大的多類別、病灶級標注臨床醫(yī)療圖像開源數(shù)據(jù)集

在NIH臨床中心,每當有患者做完CT掃描后,相應的掃描圖像都會被送至放射科醫(yī)生處,然后醫(yī)生會對圖像進行解讀。

接著,放射科醫(yī)生會使用一種類似電子書簽的工具,測量并標記CT掃描中具有臨床意義的發(fā)現(xiàn)。與普通的實體書簽類似,放射科醫(yī)生會保存書簽的位置,并將重要發(fā)現(xiàn)加上標記,以便以后能再次查閱。

這些書簽的內容和形式很復雜,包括箭頭、線條、長短徑和文字說明等,用于標記病灶的確切位置和大小,以便專家識別病情發(fā)展或發(fā)現(xiàn)新的疾病。

計算機視覺領域,為了收集圖像標簽,研究者會采用眾包或搜索引擎抓取,但這并不適用于醫(yī)學圖像,因為醫(yī)學圖像的標注需要大量的醫(yī)學知識和臨床經(jīng)驗。

在開發(fā)DeepLesion數(shù)據(jù)集時,研究人員決定使用NIH臨床PACS數(shù)據(jù)庫中的“RECIST diameters”(Response Evaluation Criteria In Solid Tumors)長短徑標注,這種標注是醫(yī)生用來測量病灶大小的,被測量的一般都是醫(yī)生認為比較重要的病灶,能夠提供最精確的信息,從而確保數(shù)據(jù)的有效性。此外,這種類型的標注也是NIH數(shù)據(jù)庫中所有標注類型中占比最高的一種。

藍線代表醫(yī)生在日常工作中對病灶進行的長短徑標注。來源: [1]

決定了要使用的標注類型后,DeepLesion項目的命名人、NIH臨床中心的王潚崧博士與NIH PACS技術管理人員協(xié)商,確定了下載方案。隨后團隊編寫程序,把含有長短徑標注的圖像、圖像屬性和標注從原始數(shù)據(jù)中提取出來,再按照病人編號、CT掃描編號(study index)、序列號(series number)和橫斷層編號(slice number)等進行整理。

在實際場景中,每個病人會進行多次CT掃描(每次掃描的時間點不同),每次掃描會生成多個序列(每個序列的造影劑增強、掃描重建參數(shù)等不同),而每個序列都是由幾十到上百個橫斷層圖像組成的3D影像。

數(shù)據(jù)清理和脫敏是一項浩大的工程。由于下載的電子書簽中含有個別錯誤,研究人員設計了一些規(guī)則,清除掉這些錯誤,噪聲、slice interval 信息的計算等,也都進行了手工糾正。

十字交叉的紅線代表醫(yī)生日常標注的長短徑標注,綠框代表根據(jù)長短徑計算出的邊界框,黃點代表邊界框的中心,兩條相互垂直的藍線表示病灶的 x 軸和 y 軸,z 軸根據(jù)SSBR[3]算出。來源:[3]

對于圖像里可能含有的隱私信息,他們先用算法檢測圖像里的文字,然后人力檢查了圖像里是否有特別的首飾或者明顯的人臉,最后手工抹除相關部分。

“CT圖像的動態(tài)范圍較大,因此我們采用16比特無損壓縮png格式來保存所有圖像。這些圖像的使用方法可以參考數(shù)據(jù)集的FAQ文件,也可以參考論文[5]的源代碼。”

“在開始這個項目之前,沒想到構建數(shù)據(jù)庫有這么復雜,”DeepLesion論文的第一作者、NIH臨床中心的博士后研究員閆軻告訴新智元:“不過想到能給其他研究者帶來好處,我們就有了持續(xù)前行的動力。”

構建通用疾病檢測模型,推進精準個性化醫(yī)療

最終整理好的DeepLesion數(shù)據(jù)集,含有32735個帶標記的病灶實例,包括來自全身各個部位的關鍵影像學發(fā)現(xiàn),比如肺結節(jié)、肝腫瘤、淋巴結腫大等。

DeepLesion數(shù)據(jù)集中一個子集(15%)的可視化結果,包含骨骼、肝臟、肺部、腹部、軟組織等全身各個部位的數(shù)據(jù)。散點圖是按照病灶在身體中的相對位置繪制的,可以看做一個人體的正面照。來源:[1]

在實驗過程中,研究人員意識到,雖然不同病灶的外觀差異較大,但目前的深度學習算法完全有能力同時檢測出各種病灶,從而提供了一個很有希望的新方向——創(chuàng)建一個具有統(tǒng)一框架的大規(guī)模通用病灶檢測器。

這個通用檢測器可以作為一種初步的檢測工具來使用,如有需要再將其檢測結果發(fā)送給在某些特定類型的病灶上訓練過的其他專用檢測模型。

閆軻說:“我們的數(shù)據(jù)集里包含了各種病灶,訓練得到的是一個通用的檢測器,雖然在特定種類的病灶上精度可能比不過專用的檢測器,但優(yōu)點在于覆蓋了各種病灶,可以用來對病人的掃描影像進行一次性的初篩,降低漏檢。”

黃色和橙色框是ground-truth,綠色框是算法正確檢測到的病灶,紅色框是誤檢。算法可以較好地檢測出各種病灶,但仍有一些漏檢和誤檢。來源:論文[5]

通用病灶檢測的難度遠高于特定病灶檢測,DeepLesion中包含肺、肝、腎、淋巴、胰腺、骨骼、軟組織等各種病灶,病灶類內差異大,類間差異小(肺、肝的病灶相對容易檢測一些,而一些腹腔中的病灶與周圍正常組織差異較小)。繼續(xù)收集數(shù)據(jù),可以進一步提高準確率。另外,算法的改進空間也還有很大。

為了改進病灶檢測的精度,NIH研究人員在MICCAI 2018上發(fā)表論文《3D Context Enhanced Region-based Convolutional Neural Network for End-to-End Lesion Detection》[5],提出了一種利用3D信息的檢測算法,將病灶識別準確率提高到了84.37%(4 false positives per image)。算法代碼見[5]。

大規(guī)模的臨床醫(yī)療數(shù)據(jù)庫,是AI在臨床真正落地的唯一路徑

除了自動檢測病灶,DeepLesion還可以用于一些其他問題,比如對數(shù)據(jù)集中每個病灶進行測量。“病灶的測量是放射科醫(yī)生的主要任務之一,”閆軻表示:“DeepLesion可以用于設計訓練一個自動測量病灶的算法,減輕醫(yī)生的負擔,同時降低不同醫(yī)生帶來的個體差異。”

此外,這個數(shù)據(jù)集還可以用于進行病灶的分割、分類研究。NIH臨床中心的蔡進錚博士和唐有寶博士利用DeepLesion,提出了弱監(jiān)督病灶分割算法,相關論文《AccurateWeakly-Supervised Deep Lesion Segmentation using Large-Scale Clinical Annotations: Slice-Propagated 3D Mask Generation from 2D RECIST》發(fā)表在了今年的醫(yī)學影像頂會MICCAI 2018。蔡進錚和唐有寶的工作還把所有的二維直徑測量,用弱標注的深度學習算法,變成了高質量的腫瘤三維體積測量。

基于DeepLesion,提出的弱監(jiān)督病灶分割算法得到北美放射科醫(yī)生廣泛好評。來源:Twitter

這項工作在北美放射科專科醫(yī)生領域里引發(fā)了強烈反響,并收到了非常高的正面評價!主要原因是目前為止基于放射科醫(yī)生人工標注的、在腫瘤圖像最大橫截面上的二維直徑測量,也即前文提到的RECIST,是記算并比較腫瘤大小的現(xiàn)行臨床標準。在實際工作中會造成很大的不決定性。基于絕對三維體積的腫瘤大小測量是公認的黃金標準,但因為制作費事費時,在臨床中并沒有被廣泛應用。

這項工作基于DeepLesion數(shù)據(jù)庫,提出了基于弱監(jiān)督的深度學習腫瘤圖像分割算法,從臨床大數(shù)據(jù)中的直接利用原有的RECIST標注,無需任何額外的人工標注,即可學習和恢復三維的腫瘤分割和體積測量,并取得了好的定量和定性結果。擴展的期刊版本正在準備投稿《Radiology》。

“醫(yī)療AI技術的發(fā)展就是要讓醫(yī)生用起來有價值,真心愛用,”呂樂博士說:“Augmented intelligence for adding clinical value!”

把所有的二維直徑測量變成高質量的腫瘤三維體積測量

DeepLesion里大部分病人都有多次CT掃描的數(shù)據(jù),而每次掃描又有多個不同病灶的標注,這為研究不同病灶之間的關系,以及同一病灶隨時間的變化提供了可能。

“總之,這是一個給人很大想象和發(fā)揮空間的數(shù)據(jù)集。”閆軻說。

大規(guī)模的臨床數(shù)據(jù)庫是AI在臨床真正落地的唯一路徑;但標注幾乎永遠不可能是完美的,這就對新的更魯棒的深度學習算法提出了更多以及更高的要求。

DeepLesion的獲取方式也決定了它存在著一定的局限性。例如,醫(yī)生在工作中通常只會標注有代表性的病灶,因此,數(shù)據(jù)集中存在著一些沒有標出來的病灶。“我們也鼓勵有余力的醫(yī)生能夠在DeepLesion上繼續(xù)補全病灶標注,以造福廣大研究者。”

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:NIH開源迄今最大臨床醫(yī)療圖像數(shù)據(jù)集,用深度學習構建通用疾病檢測模型!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    智能醫(yī)療市場發(fā)展的規(guī)模及趨勢

    產(chǎn)品將會廣泛應用,借助智能手持終端和傳感器,有效地測量和傳輸健康數(shù)據(jù)。未來幾年,中國智能醫(yī)療市場規(guī)模將超過一百億元,并且涉及的周邊產(chǎn)業(yè)范圍很廣,設備和產(chǎn)品種類繁多。這個市場的真正啟動,其影響將不
    發(fā)表于 08-06 09:51

    2017美國AACC-全球最大規(guī)模臨床實驗室醫(yī)療

    AACC-Clinical Lab Expo是全球最大規(guī)模臨床實驗室醫(yī)療展與全球臨床實驗室醫(yī)學
    發(fā)表于 01-22 17:06

    計算機視覺/深度學習領域常用數(shù)據(jù)匯總

    訓練,100張用于測試;這100個類分組成20個超類。圖像類別均有明確標注。CIFAR對于圖像分類算法測試來說是一個非常不錯的中小規(guī)模數(shù)據(jù)
    發(fā)表于 08-29 10:36

    清洗誤標注的開發(fā)和測試樣本

    在進行誤差分析時,你可能會注意到一些開發(fā)的樣本被誤標注(mislabeled )了。此處的“誤標注”指的是圖像在使用算法處理前,已經(jīng)被負責標注
    發(fā)表于 12-19 09:48

    一個benchmark實現(xiàn)大規(guī)模數(shù)據(jù)上的OOD檢測

    操作,感知的環(huán)境類別也更多。因此,針對大規(guī)模圖像分類任務的OOD檢測算法的開發(fā)和評估存在一個關鍵的gap。本文首先志在提出一個benchmark實現(xiàn)大規(guī)模數(shù)據(jù)
    發(fā)表于 08-31 15:11

    PCNN與粗理論用于聚焦圖像融合

    PCNN與粗理論用于聚焦圖像融合:現(xiàn)有技術不能保證獲取圖像時,對圖像每個位置都具有同樣的聚焦
    發(fā)表于 10-20 17:49 ?17次下載

    基于邊緣檢測的類別醫(yī)學圖像分類方法_沈健

    基于邊緣檢測的類別醫(yī)學圖像分類方法_沈健
    發(fā)表于 01-08 11:13 ?0次下載

    基于卷積神經(jīng)網(wǎng)絡的圖像標注模型

    ,構建一個標簽學習的卷積神經(jīng)網(wǎng)絡( CNN-MLL)模型,然后利用圖像標注詞間的相關性對網(wǎng)絡模型輸出結果進行改善。通過在IAPR TC-12標準圖像
    發(fā)表于 12-07 14:30 ?4次下載
    基于卷積神經(jīng)網(wǎng)絡的<b class='flag-5'>圖像</b><b class='flag-5'>標注</b>模型

    基于圖像自動標注技術研究

    的問題模型及其功能特點,并歸納了圖像自動標注算法中主要的優(yōu)化求解方法及算法評價中常用的圖像數(shù)據(jù)和性能評價指標。最后,指出了
    發(fā)表于 12-14 11:46 ?2次下載

    顯著對象圖像標注方法

    對同一幅圖像中包含的多個顯著對象的不同認知。上述問題導致了在已有數(shù)據(jù)上對顯著性檢測算法進行評估,不能體現(xiàn)算法在實際應用中的真實效果。為此,提出體現(xiàn)用戶認知的顯著對象
    發(fā)表于 01-04 13:51 ?0次下載

    基于形式概念分析的圖像場景語義標注模型

    為生成有效表示圖像場景語義的視覺詞典,提高場景語義標注性能,提出一種基于形式概念分析( FCA)的圖像場景語義標注模型。該方法首先將訓練圖像
    發(fā)表于 01-12 15:49 ?1次下載
    基于形式概念分析的<b class='flag-5'>圖像</b>場景語義<b class='flag-5'>標注</b>模型

    基于隱馬爾科夫模型和卷積神經(jīng)網(wǎng)絡的圖像標注方法

    開發(fā)大規(guī)模圖像庫的搜索和瀏覽算法,使得圖像自動標注的重要性日益增強。基于隱馬爾科夫模型(HMM)與卷積神經(jīng)網(wǎng)絡(CNN),我們提出了一種新的圖像
    發(fā)表于 11-16 17:17 ?4次下載
    基于隱馬爾科夫模型和卷積神經(jīng)網(wǎng)絡的<b class='flag-5'>圖像</b><b class='flag-5'>標注</b>方法

    醫(yī)學影像是AI醫(yī)療最熱門應用場景之一 病灶區(qū)識別與標注領域企業(yè)最多

    AI醫(yī)學影像是目前我國人工智能+醫(yī)療領域最為熱門的應用場景之一。根據(jù)Global Market Insight的數(shù)據(jù),2024年,AI醫(yī)學影像將達到25億美元規(guī)模,占整個AI醫(yī)療市場
    發(fā)表于 03-15 14:28 ?5001次閱讀
    醫(yī)學影像是AI<b class='flag-5'>醫(yī)療</b>最熱門應用場景之一 <b class='flag-5'>病灶</b>區(qū)識別與<b class='flag-5'>標注</b>領域企業(yè)最多

    數(shù)據(jù)標注類相關文章:揭秘數(shù)據(jù)標注的奧秘

    數(shù)據(jù)標注類相關文章:揭秘數(shù)據(jù)標注的奧秘 隨著人工智能技術的不斷發(fā)展,數(shù)據(jù)標注已成為人工智能領域中
    的頭像 發(fā)表于 05-16 17:35 ?842次閱讀

    圖像標注如何提升效率?

    圖像標注是通過一定方式對圖像進行標記分類,是對數(shù)據(jù)圖像進行標記以訓練機器學習模型的過程。當
    的頭像 發(fā)表于 12-19 08:29 ?495次閱讀
    <b class='flag-5'>圖像</b><b class='flag-5'>標注</b>如何提升效率?
    西盟| 百家乐官网秘籍下注法| 百家乐买闲打法| 武功县| YY百家乐官网的玩法技巧和规则 | 百家乐那个平台好| 明升m88娱乐城| 真人百家乐来博| 博狗百家乐的玩法技巧和规则 | 澳门百家乐官网赌技巧| 百家乐食杂店| 网上百家乐官网玩法| 百家乐赢家球讯网| 网络真人赌场| 闲和庄百家乐官网的玩法技巧和规则| 大发888假冒网站| 诺贝尔百家乐官网的玩法技巧和规则 | 现金轮盘游戏| 百家乐官网必赢| 真钱轮盘游戏| 大世界百家乐娱乐城| 永清县| 百家乐斗地主| 澳门百家乐官网赢钱公式不倒翁 | 咸宁市| 粤港澳百家乐娱乐| 百家乐官网赌博软件下载| 太阳城娱乐网可信吗| 娱乐网百家乐官网的玩法技巧和规则| 香港六合彩开奖现场直播| 百家乐平台网| 百家乐官网纯数字玩法| 多台百家乐的玩法技巧和规则 | 顶尖百家乐官网开户| 百家乐官网| 百家乐官网群dmwd| 百家乐官网最新打法| 威尼斯人娱乐场官网网站是多少| 金牌百家乐官网的玩法技巧和规则 | 百家乐官网游戏机出千| 威尼斯人娱乐项目|