那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

手語翻譯系統系列之使用旭日X3派實時識別播報手語

地瓜機器人 ? 2022-12-20 09:24 ? 次閱讀

一、準備工作

硬件部分:旭日X3派,USB免驅攝像頭,電源適配器,燒錄Ubuntu系統的SD卡,USB揚聲器,顯示屏(或者VNC/SSH遠程連接)

軟件部分:Thonny IDE集成開發環境

1.jfif

首先,關于Ubuntu系統鏡像的燒錄官方有詳細的教程,這里不再贅述,我自己是選擇桌面Ubuntu 20.04,大家選擇最新的即可。如果是第一次進入系統,記得使用命令行更新一下軟件源等,使用快捷鍵ctrl+alt+T打開命令行,輸入以下命令:

# 更新軟件源 apt-get update # 更新升級所有軟件 apt-get upgrade

接下來就可以開始安裝Thonny IDE,作為一款輕量化的python集成開發環境,對新手十分友好,簡單易上手,后續安裝各種python依賴庫也相當方便。安裝方式Thonny官方網址提供了三種Linux的命令行下載方式,大家可以根據自己的情況進行選擇。

flatpak install org.thonny.Thonny //Flatpak sudo apt install thonny //Debian,Raspbian,Ubuntu,Mintand others sudo dnf install thonny //FedoraFedora

耐心等待程序安裝即可,如果中途出現異常大概率是網絡不穩定導致,檢查網絡連接并再次運行命令行即可。由于Ubuntu系統不會自動生成快捷方式,所以安裝成功后在命令行輸入Thonny即可啟動IDE。

重頭戲來了,安裝項目依賴庫。啟動Thonny IDE后,選擇左上方工具>>管理包,根據附件中提供的程序開始安裝python依賴庫。過程可能會比較漫長,這取決于當前網絡情況,還有部分庫文件可能會出現下載失敗的情況,請耐心多嘗試幾次。

2.jfif

import os import threading import cv2 import mediapipe as mp import time import torch as t from model import HandModel from tools.landmark_handle import landmark_handle from tools.draw_landmarks import draw_landmarks from tools.draw_bounding_rect import draw_bounding_rect import numpy as np from tools.draw_rect_text import draw_rect_txt from PIL import Image, ImageFont, ImageDraw import pyttsx3 # 大家可以根據這個來添加項目依賴

(PS.cv2是opencv-python的縮寫,在import的時候采用這種縮寫,但添加庫的時候不能直接搜索cv2,而是要打全稱opencv-python。)

二、實現原理

智能手語識別系統共包括語音播報模塊,模型訓練模塊,手勢識別模塊,文字轉寫模塊,一共可識別播報“也”、“吸引”、“美麗的”、 “相信”、“的”、“懷疑”、“夢想”、“表達”、“眼睛”、 “給”、“很難”、“有”、“許多”、“我”、“方法”、“不”, “只有”、“超過”、“請”、“放”、“說”、“微笑”、“星星”、“十分”、“看”、“你”等27個國家通用手語。

model_path = 'checkpoints/model_test1.pth' label = ["也", "吸引", "美麗的", "相信", "的", "懷疑", "夢想", "表達", "眼睛", "給", "很難","有","許多","我", "方法", "不", "只有", "結束", "請", "放", "說", "微信", "星星", "十分","看","你"]

語音播報模塊采用pyttsx3第三方庫,它是一個用于文字轉語音的第三方python庫,還可實現對音量,聲源,語速的調整,可脫機工作,兼容python2和python3。

def run(): str_show = this_label star_date = open("2.txt", "w", encoding="utf-8") star_date.write(str_show) star_date.close() star_data = open("2.txt", "r", encoding="utf-8") star_read = star_data.readlines() star_data.close() file = "2.txt" res = open(file, encoding="utf-8").read() engine = pyttsx3.init() content = res engine.say(content) engine.runAndWait() time.sleep(1)

模型訓練模塊采用torch第三方庫,torch廣泛運用深度學習。它能夠幫助我們構建深度學習項目,強調靈活性,而且允許使用我們習慣的python表示方法來表達深度學習模型。算力高,易學習,比較容易入門。

# 模型保存地址 targetX = [0 for xx in range(label_num)] target = [] for xx in range(label_num): target_this = copy.deepcopy(targetX) target_this[xx] = 1 target.append(target_this) # 獨熱碼 lr = 1e-3 # learning rate model_saved = 'checkpoints/model' # 模型定義 model = HandModel() optimizer = t.optim.Adam(model.parameters(), lr=lr) criterion = nn.CrossEntropyLoss() loss_meter = meter.AverageValueMeter() epochs = 40 for epoch in range(epochs): print("epoch:" + str(epoch)) loss_meter.reset() count = 0 allnum = 1 for i in range(len(label)): data = np.load('./npz_files/' + label[i] + ".npz", allow_pickle=True) data = data['data'] for j in range(len(data)): xdata = t.tensor(data[j]) optimizer.zero_grad() this_target = t.tensor(target[i]).float() input_, this_target = Variable(xdata), Variable(this_target) output = model(input_) outLabel = label[output.tolist().index(max(output))] targetIndex = target[i].index(1) targetLabel = label[targetIndex] if targetLabel == outLabel: count += 1 allnum += 1 output = t.unsqueeze(output, 0) this_target = t.unsqueeze(this_target, 0) loss = criterion(output, this_target) loss.backward() optimizer.step() loss_meter.add(loss.data) print("correct_rate:", str(count / allnum)) t.save(model.state_dict(), '%s_%s.pth' % (model_saved, epoch))

準備好數據集就可以開始進行模型訓練,模型推薦電腦上進行訓練,我自己的電腦是win10的系統,用的pycharm IDE的集成開發環境,如果只是想體驗一下的話也可以直接使用附件里訓練好的模型。

3.png

手勢識別模塊采用Mediapipe和OpenCV庫對人手進行特征提取與骨骼綁定,旭日X3派根據攝像頭捕捉的關鍵幀的進行特征提取,基于PyTorch模型進行推理,并將推理翻譯結果顯示到屏幕上,同時將翻譯結果以txt文件形式進行保存和API接入后上傳到百度語音開發平臺,由平臺進行人聲的合成,然后將生成的mp3文件下載到旭日X3派終端用揚聲器進行播放,實現了為語言障礙人士發聲,為“礙”發聲。

# 百度大腦AI開放平臺API接入實現語音合成的示例 def fetch_token(): print("fetch token begin") params = {'grant_type': 'client_credentials', 'client_id': API_KEY, 'client_secret': SECRET_KEY} post_data = urlencode(params) if (IS_PY3): post_data = post_data.encode('utf-8') req = Request(TOKEN_URL, post_data) try: f = urlopen(req, timeout=5) result_str = f.read() except URLError as err: print('token http response http code : ' + str(err.code)) result_str = err.read() if (IS_PY3): result_str = result_str.decode() print(result_str) result = json.loads(result_str) print(result) if ('access_token' in result.keys() and 'scope' in result.keys()): if not SCOPE in result['scope'].split(' '): raise DemoError('scope is not correct') print('SUCCESS WITH TOKEN: %s ; EXPIRES IN SECONDS: %s' % (result['access_token'], result['expires_in'])) return result['access_token'] else: raise DemoError('MAYBE API_KEY or SECRET_KEY not correct: access_token or scope not found in token response') """ TOKEN end """ if __name__ == '__main__': token = fetch_token() tex = quote_plus(TEXT) # 此處TEXT需要兩次urlencode print(tex) params = {'tok': token, 'tex': tex, 'per': PER, 'spd': SPD, 'pit': PIT, 'vol': VOL, 'aue': AUE, 'cuid': CUID, 'lan': 'zh', 'ctp': 1} # lan ctp 固定參數 data = urlencode(params) print('test on Web Browser' + TTS_URL + '?' + data) req = Request(TTS_URL, data.encode('utf-8')) has_error = False try: f = urlopen(req) result_str = f.read() headers = dict((name.lower(), value) for name, value in f.headers.items()) has_error = ('content-type' not in headers.keys() or headers['content-type'].find('audio/') < 0) except URLError as err: print('asr http response http code : ' + str(err.code)) result_str = err.read() has_error = True save_file = "error.txt" if has_error else 'result.' + FORMAT with open(save_file, 'wb') as of: of.write(result_str) if has_error: if (IS_PY3): result_str = str(result_str, 'utf-8') print("tts api error:" + result_str) print("result saved as :" + save_file) # 骨架綁定的可視化 draw_landmarks(frame, hand_local) brect = draw_bounding_rect(frame, hand_local)

4.png

文字轉寫模塊通過旭日X3派外接麥克風進行收音,API接入后將錄制的mp3文件上傳,通過云端語音平臺實時轉寫為文字后顯示到旭日X3派終端的屏幕上。最后利用python的多線程將手勢識別,語音播報,文字轉寫同時運行,至此,實現了聾啞人士與普通人的雙向無障礙溝通交流。

三、效果展示

得益于旭日X3派的強大算力,系統對手勢的識別展示并播報十分靈敏,畫面流程度也得到保障(溫馨提示:長時間運行請準備小風扇給開發板降溫哦)。

5.jfif


6.jfif

四、性能測試

系統測試方案:將訓練好模型導入旭日X3派中,接入電源后等待初始化完成,由小組成員們隨機在鏡頭前做出27個國家通用手語,將翻譯終端識別播報的準確率記錄,同時將識別的總時長記錄收集。

測試數據如下:

7.jfif


8.jfif

結果分析:實驗數據表明,27個國家通用手語隨機檢驗的識別準確率均在90%以上,單次執行時間也均在1秒之內。

結論:手語翻譯終端有很高的實時性,充分保障聾啞殘障人士的無障礙溝通交流。

本文轉自地平線開發者社區
原作者:鑫辰大海王

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 嵌入式
    +關注

    關注

    5094

    文章

    19178

    瀏覽量

    307731
  • python
    +關注

    關注

    56

    文章

    4807

    瀏覽量

    85041
收藏 人收藏

    評論

    相關推薦

    AI助力實時翻譯耳機

    是一種能夠實時將一種語言翻譯成另一種語言的耳機設備。它通常由一個耳機和一個配套的應用程序組成,用戶可以通過應用程序選擇需要翻譯的語言,并通過耳機聽到翻譯結果。 2
    的頭像 發表于 01-24 11:14 ?492次閱讀
    AI助力<b class='flag-5'>實時</b><b class='flag-5'>翻譯</b>耳機

    Cadence推出Palladium Z3與Protium X3系統

    楷登電子(Cadence)公司近日宣布,正式推出新一代Cadence? Palladium? Z3 Emulation和Protium? X3 FPGA原型驗證系統。這一組合標志著數字孿生
    的頭像 發表于 01-07 13:48 ?293次閱讀

    HarmonyOS NEXT 應用開發練習:AI智能語音播報

    (Text-To-Speech,文本轉語音)技術將文本轉換為語音進行播報。 當然除了基本的文本輸入和播報功能外,我們還增加了語音識別的功能,允許用戶通過語音輸入要播報的文本。 還優化了
    發表于 01-06 15:33

    英飛凌AURIX? TC3x MCU系列新增FreeRTOS支持

    全球功率系統和物聯網領域的半導體領軍企業英飛凌科技股份公司,近日宣布其AURIX? TC3x微控制器(MCU)系列新增了對FreeRTOS的支持。這一舉措標志著AURIX? TC3x
    的頭像 發表于 12-11 14:06 ?286次閱讀

    中山大學:基于定制裂紋設計的超靈敏透氣水凝膠纖維應變傳感器及無線手語識別應用

    和地域多樣性可能會給不懂手語的人造成交流障礙。目前,各種識別人類手勢的技術,包括視覺圖像處理、肌電圖和可穿戴應變傳感器,在改善聾啞人群體的溝通方面發揮了重要作用。特別地,視覺圖像處理在手語識別
    的頭像 發表于 12-02 17:29 ?545次閱讀
    中山大學:基于定制裂紋設計的超靈敏透氣水凝膠纖維應變傳感器及無線<b class='flag-5'>手語</b><b class='flag-5'>識別</b>應用

    Simplelink? Wi-Fi? CC3x3x網絡子系統電源管理

    電子發燒友網站提供《Simplelink? Wi-Fi? CC3x3x網絡子系統電源管理.pdf》資料免費下載
    發表于 09-23 11:17 ?0次下載
    Simplelink? Wi-Fi? CC<b class='flag-5'>3x3x</b>網絡子<b class='flag-5'>系統</b>電源管理

    樹莓x86還是arm

    樹莓(Raspberry Pi)是一款由英國樹莓基金會(Raspberry Pi Foundation)開發的微型計算機。它基于ARM架構,而非x86架構。 一、樹莓的發展歷程
    的頭像 發表于 08-30 15:42 ?1386次閱讀

    F2800x C2000?實時MCU系列硬件設計指南

    電子發燒友網站提供《F2800x C2000?實時MCU系列硬件設計指南.pdf》資料免費下載
    發表于 08-30 11:32 ?2次下載
    F2800<b class='flag-5'>x</b> C2000?<b class='flag-5'>實時</b>MCU<b class='flag-5'>系列</b>硬件設計指南

    我用香橙做了一個Klipper 3D打印控制器

    系列就已經成為替代樹莓做上位機的不二選,搭載全志H616/H618的百元開發板,可以很好的滿足做為Klipper宿主的所有需求,甚至有點性能過剩。 Klipper有諸多獨特的功能需要使用到gpio
    發表于 06-11 09:45

    開源項目!設計一款智能手語翻譯眼鏡

    這個項目是一款創新的智能手語翻譯眼鏡,它能夠實時地將手語轉換為聽得見的語音。這款眼鏡采用了VIAM平臺和樹莓Zero 2 W,能夠幫助聾
    發表于 05-20 15:59

    NRK330X系列語音識別IC的功能及應用

    NRK330X系列語音識別IC,作為現代智能科技的重要組成部分,其應用領域已經日益廣泛且多元化。在眾多領域均展現出強大的應用潛力。接下來,讓我為您介紹NRK330X
    的頭像 發表于 05-15 14:05 ?538次閱讀
    NRK330<b class='flag-5'>X</b><b class='flag-5'>系列</b>語音<b class='flag-5'>識別</b>IC的功能及應用

    Meta探索開發AI耳機:識別物體和翻譯外語

    據外媒The Information透露,Facebook母公司Meta正積極研究研發配備攝像頭的人工智能耳機,旨在實現物體識別與外語實時翻譯功能。
    的頭像 發表于 05-14 14:26 ?561次閱讀

    用悟空全志H3開發板做一個基于ROS系統的全向輪小車

    H3和ROS系統的協同工作,我們能夠遠程操控小車,實時獲取行駛里程數據,并在復雜的環境中靈活導航。 在接下來的視頻中,我將詳細展示這款全向輪小車的詳細設計和性能表現,以及如何利用悟空
    發表于 05-06 11:15

    創客打造智能眼鏡,助聽障人士理解手語

    據悉,知名創客Nekhil近期將樹莓進行深度改裝,成功研發出一款可用于解讀手語的智能眼鏡,以解決聽障人士的溝通問題。
    的頭像 發表于 04-23 15:32 ?582次閱讀

    寶馬(中國)召回部分進口X3、2系和X4車型

    此次型號覆蓋的具體數量包括:2023年8月29日生產的進口X3車型1輛,2023年9月21日至9月25日生產的進口2系車型2輛,以及同一期間生產的進口X4車型48輛。
    的頭像 發表于 03-01 14:56 ?856次閱讀
    威尼斯人娱乐城打造| 大发888客户端 运行| 皇冠现金网是真的吗| 百家乐官网怎么稳赚| 大中华百家乐官网的玩法技巧和规则 | 7位百家乐官网扑克桌| 网上的百家乐怎么才能赚钱| 大发在线体育| 门头沟区| 澳门百家乐官网官方网站破解百家乐官网技巧| 澳门百家乐赌| 敦煌市| 澳门百家乐官网赌场| 威尼斯人娱乐城 色情| 百家乐官网斗视频游戏| 希尔顿百家乐官网娱乐城 | 大发888 护栏| 百家乐官网技巧-百家乐官网开户指定代理网址 | 绿春县| 百家乐预测和局| 大发888娱乐场下载iyou qrd| 赌场百家乐官网试玩| 南京百家乐赌博现场被| 鄂伦春自治旗| 百家乐视频游戏世界| 扑克百家乐麻将筹码防伪| 延边| 百家乐庄闲必赢| 葡京娱乐| 虎在什么方位做生意好| 新时代娱乐城开户| 百家乐官网买闲打法| 百家乐特殊计| 百家乐官网珠盘路| 威尼斯人娱乐城梧州店| 在线玩轮盘| 百家乐园胎教网| 新乡县| 百家乐赌博代理合作| 金盈会百家乐官网现金网| 百家乐必胜方程式|