那曲檬骨新材料有限公司

電子發(fā)燒友App

硬聲App

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>視障人士和盲人的圖像說明

視障人士和盲人的圖像說明

2023-06-12 | zip | 0.00 MB | 次下載 | 免費(fèi)

資料介紹

描述

盲人和視障人士經(jīng)常遇到各種社會經(jīng)濟(jì)挑戰(zhàn),這些挑戰(zhàn)可能會阻礙他們獨(dú)立生活和充分參與社會的能力。然而,機(jī)器學(xué)習(xí)的出現(xiàn)為輔助技術(shù)的發(fā)展開辟了新的可能性。在這項(xiàng)研究中,我們利用圖像字幕和文本轉(zhuǎn)語音技術(shù)創(chuàng)建了一種設(shè)備,可以幫助視力受損或失明的人。圖像字幕與文字轉(zhuǎn)語音技術(shù)相結(jié)合,可以為視障人士和盲人提供幫助。

此外,我想分享我使用TensorRT優(yōu)化深度學(xué)習(xí)模型以縮短其推理時間的經(jīng)驗(yàn)。有關(guān)詳細(xì)信息,請參閱 TechRxiv 上的預(yù)印本,標(biāo)題為:適用于視障人士和盲人的圖像字幕:低資源語言的秘訣

為簡單起見,我們假設(shè)一切都已安裝。

隨著單板計算機(jī) (SBC) 越來越流行用于運(yùn)行 AI 和深度學(xué)習(xí)項(xiàng)目,有些甚至專門設(shè)計用于運(yùn)行 AI 和深度學(xué)習(xí)項(xiàng)目。我們使用來自SeeedStudio (@seeedstudio)的 reComputer NVIDIA Jetson Xavier NX作為我們系統(tǒng)的大腦。reComputer J20 配備 Jetson Xavier NX,可提供高達(dá) 21 TOPS 的性能,使其成為嵌入式和邊緣系統(tǒng)中高性能計算和 AI 的理想選擇。

poYBAGSBRf6ADOShAAJU90nGzkY14.jpeg
?

NVIDIA Jetson 設(shè)備緊湊且節(jié)能,能夠?qū)崟r執(zhí)行機(jī)器學(xué)習(xí)算法然而,在這些內(nèi)存有限的設(shè)備上部署復(fù)雜的深度學(xué)習(xí)模型可能很困難。為了克服這個問題,我們使用了TensorRT等推理優(yōu)化工具它使我們能夠通過減少內(nèi)存占用來在邊緣設(shè)備上執(zhí)行深度學(xué)習(xí)模型。

圖像描述模型部署管道

我們使用流行的 Microsoft COCO 2014 (COCO) 基準(zhǔn)數(shù)據(jù)集來訓(xùn)練ExpansionNet v2圖像描述模型。該數(shù)據(jù)集由 123, 287 張圖像組成,每張圖像都有五個人工注釋的說明,總共有超過 600, 000 個圖像-文本對。我們將數(shù)據(jù)集拆分為訓(xùn)練(113、287 張圖像)、驗(yàn)證(5、000 張圖像)和測試(5、000 張圖像)集,使用Karpathy拆分策略進(jìn)行離線評估。為了生成哈薩克語的字幕,我們使用免費(fèi)提供的谷歌翻譯服務(wù)翻譯了原始的英文字幕。

pYYBAGSBRgGASN7lAAD_Axdlr-o414.jpg
?

為了訓(xùn)練哈薩克語字幕的模型,我們遵循了ExpansioNet v2的原始工作中定義的模型架構(gòu)。預(yù)訓(xùn)練的 Swin Transformer 被用作骨干網(wǎng)絡(luò),從輸入圖像生成視覺特征。該模型在Nvidia DGX-2 服務(wù)器的四個 V100 圖形處理單元 (GPU) 上進(jìn)行訓(xùn)練。

最后,圖像字幕模型 ExpansionNet v2 部署在 Nvidia Jetson Xavier NX 板上。按下按鈕觸發(fā)相機(jī)捕捉分辨率為 640 × 480 像素的 RGB 圖像。然后,將捕獲的圖像調(diào)整為 384 × 384 并傳遞給 ExpansionNet v2 模型以生成說明。接下來,使用文本到語音模型將生成的字幕文本轉(zhuǎn)換為音頻在我們的研究中,我們利用KazakhTTS模型將哈薩克文本轉(zhuǎn)換為語音。最后,生成的音頻通過用戶的耳機(jī)播放,使盲人或視障人士能夠理解他們面前的內(nèi)容。

ONNX 概述

poYBAGSBRgSAILbyAAA1AtUSXuc609.png
來源:https://developer-blogs.nvidia.com/wp-content/uploads/2021/07/onnx-workflow.png
?

ONNX 是一種用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的開放格式。它允許您將來自不同框架(例如 TensorFlow、PyTorch、MATLAB、Caffe 和 Keras)的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)模型轉(zhuǎn)換為單一格式。

該工作流程包括以下步驟:

  • 將常規(guī) PyTorch 模型文件轉(zhuǎn)換為 ONNX 格式。ONNX 轉(zhuǎn)換腳本可在此處獲得。
  • 使用 trtexec 實(shí)用程序創(chuàng)建 TensorRT 引擎
trtexec --onnx=./model.onnx --saveEngine=./model_fp32.engine --workspace=200
  • 從 TensorRT 引擎運(yùn)行推理。

使用 TensorRT 進(jìn)行推理優(yōu)化

TensorRT 是 NVIDIA 開發(fā)的高性能深度學(xué)習(xí)推理引擎。它優(yōu)化神經(jīng)網(wǎng)絡(luò)模型并生成可在 NVIDIA GPU 上運(yùn)行的高度優(yōu)化的推理引擎。TensorRT 使用靜態(tài)和動態(tài)優(yōu)化的組合來實(shí)現(xiàn)高性能,包括層融合、內(nèi)核自動調(diào)整和精度校準(zhǔn)。

另一方面,PyTorch 是一種流行的深度學(xué)習(xí)框架,廣泛用于研究和開發(fā)。PyTorch 提供了一個動態(tài)計算圖,允許用戶動態(tài)定義和修改他們的模型,這使得嘗試不同的架構(gòu)和訓(xùn)練方法變得容易。

pYYBAGSBRgaAM25tAACympvPiHg853.png
?

與 PyTorch 模型相比,TensorRT 模型似乎提供了更快的推理結(jié)果。與 PyTorch 模型相比,TensorRT 模型處理圖像的時間減少了大約 50%,盡管它的文件大小更小。

簡而言之,如果速度和效率是您的首要關(guān)注點(diǎn),那么 TensorRT 可能是更好的選擇。這對于大多數(shù)實(shí)時對象檢測應(yīng)用來說已經(jīng)足夠快了。

在推理過程中,您可以使用jetson-stats實(shí)用程序檢查 Nvidia Jetson 板的當(dāng)前性能。您可以實(shí)時監(jiān)控模型正在使用的資源,并最大限度地利用硬件。

以佩戴圖像字幕輔助設(shè)備的人類為對象的真實(shí)世界實(shí)驗(yàn)

該圖說明了我們的圖像字幕輔助系統(tǒng)的真實(shí)世界實(shí)驗(yàn),該系統(tǒng)包括一個攝像頭、一個單板深度學(xué)習(xí)計算機(jī)(Nvidia Jetson Xavier NX)、一個按鈕和耳機(jī)。

poYBAGSBRgmAKs3nAAEW0minFrk313.jpg
以佩戴圖像字幕輔助設(shè)備的人類為對象的真實(shí)世界實(shí)驗(yàn)
?

攝像頭通過通用串行總線(USB)連接到單板機(jī),按鈕和耳機(jī)分別連接到單板機(jī)的通用輸入/輸出(GPIO)引腳和音頻端口. 攝像頭使用可調(diào)節(jié)的帶子固定在用戶的額頭上,而用戶則將單板計算機(jī)(和移動電源)放在背包中,并在操作過程中佩戴耳機(jī)。

結(jié)論和進(jìn)一步改進(jìn)

視障人士和盲人在日常生活中面臨著獨(dú)特的挑戰(zhàn),包括無法獨(dú)立獲取視覺信息。圖像字幕技術(shù)已顯示出為該社區(qū)提供幫助的希望。

除了現(xiàn)有的圖像字幕和文本轉(zhuǎn)語音技術(shù)外,我們的目標(biāo)是將視覺問答 (VQA) 功能整合到我們?yōu)橐曊先耸亢兔と颂峁┑妮o助設(shè)備中。這將使用戶能夠提出有關(guān)圖像的問題并獲得口頭答復(fù)。

為了進(jìn)一步優(yōu)化我們的深度學(xué)習(xí)模型并提高其性能,我們將執(zhí)行從 FP32 到 FP16 或 INT8 的量化。這將減少推理所需的內(nèi)存占用和計算時間,使我們的輔助設(shè)備更加高效。

如果您對我們的項(xiàng)目感興趣,請考慮為我們在github上的存儲庫加星多謝!

我希望您發(fā)現(xiàn)這項(xiàng)研究有用,并感謝您閱讀它。如果您有任何問題或反饋,請在下方發(fā)表評論。敬請關(guān)注!

致謝

  • 該項(xiàng)目得到了智能系統(tǒng)與人工智能研究所工作人員的支持、指導(dǎo)和協(xié)助,得以順利完成。
  • Image captioning 模型的實(shí)現(xiàn)依賴于ExpansioNet v2

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1山景DSP芯片AP8248A2數(shù)據(jù)手冊
  2. 1.06 MB  |  532次下載  |  免費(fèi)
  3. 2RK3399完整板原理圖(支持平板,盒子VR)
  4. 3.28 MB  |  339次下載  |  免費(fèi)
  5. 3TC358743XBG評估板參考手冊
  6. 1.36 MB  |  330次下載  |  免費(fèi)
  7. 4DFM軟件使用教程
  8. 0.84 MB  |  295次下載  |  免費(fèi)
  9. 5元宇宙深度解析—未來的未來-風(fēng)口還是泡沫
  10. 6.40 MB  |  227次下載  |  免費(fèi)
  11. 6迪文DGUS開發(fā)指南
  12. 31.67 MB  |  194次下載  |  免費(fèi)
  13. 7元宇宙底層硬件系列報告
  14. 13.42 MB  |  182次下載  |  免費(fèi)
  15. 8FP5207XR-G1中文應(yīng)用手冊
  16. 1.09 MB  |  178次下載  |  免費(fèi)

本月

  1. 1OrCAD10.5下載OrCAD10.5中文版軟件
  2. 0.00 MB  |  234315次下載  |  免費(fèi)
  3. 2555集成電路應(yīng)用800例(新編版)
  4. 0.00 MB  |  33566次下載  |  免費(fèi)
  5. 3接口電路圖大全
  6. 未知  |  30323次下載  |  免費(fèi)
  7. 4開關(guān)電源設(shè)計實(shí)例指南
  8. 未知  |  21549次下載  |  免費(fèi)
  9. 5電氣工程師手冊免費(fèi)下載(新編第二版pdf電子書)
  10. 0.00 MB  |  15349次下載  |  免費(fèi)
  11. 6數(shù)字電路基礎(chǔ)pdf(下載)
  12. 未知  |  13750次下載  |  免費(fèi)
  13. 7電子制作實(shí)例集錦 下載
  14. 未知  |  8113次下載  |  免費(fèi)
  15. 8《LED驅(qū)動電路設(shè)計》 溫德爾著
  16. 0.00 MB  |  6656次下載  |  免費(fèi)

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935054次下載  |  免費(fèi)
  3. 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
  4. 78.1 MB  |  537798次下載  |  免費(fèi)
  5. 3MATLAB 7.1 下載 (含軟件介紹)
  6. 未知  |  420027次下載  |  免費(fèi)
  7. 4OrCAD10.5下載OrCAD10.5中文版軟件
  8. 0.00 MB  |  234315次下載  |  免費(fèi)
  9. 5Altium DXP2002下載入口
  10. 未知  |  233046次下載  |  免費(fèi)
  11. 6電路仿真軟件multisim 10.0免費(fèi)下載
  12. 340992  |  191187次下載  |  免費(fèi)
  13. 7十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
  14. 158M  |  183279次下載  |  免費(fèi)
  15. 8proe5.0野火版下載(中文版免費(fèi)下載)
  16. 未知  |  138040次下載  |  免費(fèi)
百家乐官网娱乐平台开户 | 线上百家乐官网攻略| 莆田棋牌游戏下载| 大发百家乐现金| 百家乐官网新庄| 长寿区| 威尼斯人娱乐城信誉好吗| 风水97年农历6月24八字| 现金百家乐官网伟易博| 大发888官网用户登录| 百家乐赌博分析网| 玩百家乐官网怎么能赢呢| 百家乐官网视频游戏盗号| bet365维护| 百家乐补第三张牌规则| 百家乐官网手论坛48491| 百家乐官网赌坊| 色中色最新网址| 大发888游戏注册送98| 网上百家乐是现场吗| 百家乐官网旺门打法| 金宝博百家乐官网娱乐城| 多彩娱乐城| 大发888下载官网| 莫斯科百家乐的玩法技巧和规则 | 百家乐庄闲机率| 百家乐官网21点游戏| 石城县| 老虎机控制器| 多伦多百家乐的玩法技巧和规则 | 免费百家乐在线| 丽星百家乐官网的玩法技巧和规则| 百家乐官网注册赠金| 优博国际娱乐| 大发888提款之后多久到账| 金三角百家乐的玩法技巧和规则| 百家乐投注系统| 属猪与属狗 做生意| 百家乐官网视频软件下载| 盐亭县| 澳门赌场分布|