想想這樣一個(gè)畫面:在劇院的舞臺(tái)上,一名女子坐在一架鋼琴前。
那么她將要:
A)坐在長(zhǎng)凳上,同時(shí),她的妹妹在玩洋娃娃;
B)當(dāng)音樂響起時(shí)朝某人微笑;
C)在人群中,看舞者起舞;
D)緊張地把手指放置在琴鍵上;
事實(shí)上,作為人類,我們很容易地就能推斷出可能的情況:一個(gè)女人在演奏鋼琴,一群人在看著她。我們甚至還能推斷她即將進(jìn)行的下一步行動(dòng):她將自己的手放在鋼琴鍵上,并開始演奏。
這是2018年8月,一家總部位于美國(guó)西雅圖的艾倫人工智能研究所(Allen Institute for Artificial Intelligence),在一篇文獻(xiàn)中提到的一道給機(jī)器的英語測(cè)試題。當(dāng)時(shí),機(jī)器的正確率只有大約60%。
但是現(xiàn)在看來,機(jī)器的理解能力正在,或許已經(jīng)超越人類。
機(jī)器理解能力究竟如何?
所謂的機(jī)器閱讀理解,其概念和大家學(xué)生時(shí)代所做的閱讀理解基本相似,同樣是給出一段材料和問題,給出正確答案,不過主角從人類換成AI模型。
雖然機(jī)器閱讀理解看起來只是讓AI上陣來一場(chǎng)考試,但是卻是自然語言處理技術(shù)中,繼語音判斷、語義理解之后最大的挑戰(zhàn):讓智能體理解全文語境。
簡(jiǎn)單的來看,語音識(shí)別幫助機(jī)器“聽”,圖像識(shí)別幫助機(jī)器“看”,但機(jī)器如何做到聽懂和看懂,是語義理解解決的問題。
相比于拼寫檢查和自動(dòng)翻譯,語義理解不只是運(yùn)算和記錄,而是主動(dòng)分析和理解,所以閱讀理解問題一直被認(rèn)為是自然語言處理(NLP)的標(biāo)志性臨界點(diǎn)。
自然語言處理的其中一個(gè)關(guān)鍵就是語義理解,因?yàn)闄C(jī)器無法做到人類對(duì)自然語言的理解,就比如文章開頭的問題。所以,語義理解也一直被認(rèn)為是“人工智能皇冠上的明珠”,它融合了語言學(xué)、計(jì)算機(jī)科學(xué)、人工智能,其目的就是“讓機(jī)器可以理解自然語言”。
語義理解也一直是科研和資本關(guān)注的重要方向。據(jù)2018年年底騰訊研究院統(tǒng)計(jì),在中國(guó)人工智能企業(yè)中,融資占比排名前三的領(lǐng)域分別是計(jì)算機(jī)視覺與圖像,自然語言處理,以及自動(dòng)駕駛/輔助駕駛,而排在第二名的自然語言處理,融資122億元,占比19%。
“就像人去看電視一樣,人是同時(shí)看著畫面、聽著聲音、看著字幕來綜合理解,人腦所作的工作就是多模態(tài)語義理解。”深思考人工智能CEO兼AI算法科學(xué)家楊志明在此前的“2019WISE超級(jí)進(jìn)化者”中提到。
事實(shí)上,機(jī)器閱讀理解的一些重要賽事和指標(biāo)也正在被不斷刷新和突破。
2018年,斯坦福大學(xué)著名的機(jī)器閱讀理解賽事SQuAD,阿里巴巴曾憑借82.440的精準(zhǔn)率打破了世界紀(jì)錄,超越了人類82.304的平均得分。2018年11月,谷歌發(fā)布的BERT模型,在機(jī)器閱讀理解頂級(jí)水平測(cè)試SQuAD1.1中,全部?jī)蓚€(gè)衡量指標(biāo)上全面超越人類,并且還在11種不同NLP測(cè)試中創(chuàng)出最佳成績(jī)。
而最近由中國(guó)計(jì)算機(jī)學(xué)會(huì)(中國(guó)計(jì)算機(jī)領(lǐng)域最權(quán)威學(xué)會(huì))、中國(guó)中文信息學(xué)會(huì)(人工智能自然語義理解最權(quán)威學(xué)會(huì))和百度公司聯(lián)合舉辦的“2019機(jī)器閱讀理解競(jìng)賽”中,經(jīng)過全球2502個(gè)團(tuán)隊(duì)長(zhǎng)達(dá)2個(gè)月的激烈角逐,深思考人工智能在兩項(xiàng)評(píng)測(cè)指標(biāo)中均登頂全球榜首,成功奪取全球冠軍。
目前在很多公開的數(shù)據(jù)集上,如在英文最具權(quán)威的SQuAD2.0數(shù)據(jù)集中:EM和F1兩個(gè)指標(biāo)上,人類的表現(xiàn)分類為86.831和89.452,而目前PINGAN團(tuán)隊(duì)所研發(fā)的模型已取得了EM值88.592,F(xiàn)1值90.859的表現(xiàn)。
換句話說,某種程度上,機(jī)器的閱讀理解水平已超越人類。
而在中文最具權(quán)威的DuReader數(shù)據(jù)集中,ROUGE-L和BLEU-4兩個(gè)指標(biāo)上,人類的表現(xiàn)為57.4和56.1,深思考所研發(fā)的BMAnet模型在這兩項(xiàng)指標(biāo)上取得了63.13和59.34的表現(xiàn)。
機(jī)器閱讀理解是機(jī)器理解的重要任務(wù),也是語義理解的重要組成部分。機(jī)器閱讀理解中數(shù)據(jù)指標(biāo)的突破,往往也就代表著機(jī)器理解或是語義理解的突破。
而深思考所取得的技術(shù)性突破,會(huì)在現(xiàn)實(shí)生活的應(yīng)用場(chǎng)景中如何落地?
多模態(tài),語義理解的不可或缺
“機(jī)器翻譯準(zhǔn)確度90%以上,萬字翻譯只需5秒鐘”,或是“語音識(shí)別準(zhǔn)確度超過98%”,這樣的描述,代表著人工智能正在快速發(fā)展,圖像和語音識(shí)別的準(zhǔn)確率正在飛速提升。
但這距離真正的人工智能,仍然有不小的距離。尤其是在人工智能落地的場(chǎng)景之中,光靠圖像識(shí)別的“看到”,和語音識(shí)別的“聽到”是不足夠的。
2017年Mingke Luo的《為什么現(xiàn)在的人工智能都像人工智障》曾刷屏朋友圈,而在今年年初,作者又寫了一篇名為《所有智能音箱都是智障,包括Siri !深度學(xué)習(xí)對(duì)此無能為力》的文章。其中提到一個(gè)有趣的實(shí)現(xiàn),2016年底,作者對(duì)幾個(gè)智能助理提一個(gè)看似簡(jiǎn)單的需求,“推薦餐廳,不要日本菜”,結(jié)果所有智能助理都給出一堆日本菜餐廳的推薦,而2年后,再做這個(gè)實(shí)驗(yàn),問題依然沒有解決,“不要”兩個(gè)字仍然被一致忽略。
“人類說話的時(shí)候,往往是口語化的、不連續(xù)的、支離破碎的,甚至語序顛倒的。語音識(shí)別只停留在語音指令,不能理解用戶語言及背后的邏輯,實(shí)際無法解決用戶在很多場(chǎng)景中的剛需?!睏钪久髟诓稍L中告訴36氪。
他以智能家居的對(duì)話場(chǎng)景舉例。
比如用戶對(duì)著家里的空調(diào)說,“請(qǐng)把空調(diào)調(diào)到28度”,這時(shí)幾乎所有的空調(diào)都能夠完成這樣的指令。
但是如果用戶對(duì)空調(diào)說,“我有點(diǎn)熱了,把空調(diào)調(diào)低一點(diǎn),調(diào)到我習(xí)慣的溫度”,這時(shí)候語音識(shí)別就不能解決問題。這背后就有兩層邏輯,第一,用戶覺得熱了,應(yīng)該把空調(diào)打開,第二,就是調(diào)到用戶平時(shí)習(xí)慣的溫度,即存在個(gè)性化設(shè)置,機(jī)器需要理解用戶語言背后的意義。
無論車載智能設(shè)備,還是智能音響、智能家居,用戶使用這些產(chǎn)品的目的,都是為了更方便的生活,而目前來看,使用這些設(shè)備更多是用戶通過“背”指令表完成。
楊志明提到一個(gè)形象的比喻,現(xiàn)實(shí)生活中,不少企業(yè)家和高管,都配備秘書,他們想要的秘書,絕不是一個(gè)只能遵從命令辦事的執(zhí)行員,更多是聽懂他們,只需要一句“你去幫我辦這個(gè)事情吧”,就能幫助他們解決問題的角色。有時(shí),甚至是他們不用開口就知道該做什么的可以信任的人。
通過上下文的指代消解、意圖理解、對(duì)話管理等技術(shù),深思考推出的產(chǎn)品提升了機(jī)器閱讀理解的能力,并為更多行業(yè)解決方案的落地,提供有效的產(chǎn)品支持。
以車聯(lián)網(wǎng)場(chǎng)景為例,傳統(tǒng)智能車載系統(tǒng),通常通過駕駛室的智能語音交互屏幕實(shí)現(xiàn)人機(jī)互動(dòng)。但隨著座艙的發(fā)展,如今的駕駛室不再是一個(gè)簡(jiǎn)單的駕駛室,而是汽車行駛過程中的中央多模態(tài)信息的匯聚地。比如智能車聯(lián)網(wǎng)場(chǎng)景下,汽車跟道路基礎(chǔ)設(shè)施之間、汽車跟汽車之間、汽車跟互聯(lián)網(wǎng)之間都能夠做信息的連接和交互。車輛本身也通過視覺對(duì)車外的環(huán)境做感知與理解,再加上溫度傳感器、語音信息輸入傳感器等。
在智能車聯(lián)網(wǎng)有很多模態(tài)的信息,有手勢(shì)的模態(tài)、語音的模態(tài)、圖像的模態(tài)。數(shù)字化場(chǎng)景下,深思考提供的技術(shù),就能為對(duì)上述多模態(tài)信息進(jìn)行綜合理解,為人車交互提供智能大腦。同時(shí),還可以在座艙環(huán)境下,實(shí)現(xiàn)人、車和家庭的連接。
再加上RPA自動(dòng)軟件機(jī)器人,不光可以實(shí)現(xiàn)人車對(duì)話,車輛還可以自動(dòng)幫助駕駛員完成任務(wù),比如預(yù)定會(huì)議室、與其他智能設(shè)備的聯(lián)動(dòng)、執(zhí)行等。
“比如看一個(gè)電視劇,眼睛看畫面、耳朵聽聲音、眼睛看字幕,對(duì)不同事物不同狀態(tài),人腦可以同時(shí)做理解。但AI還停留在識(shí)別與感知階段,人腦更多是語義理解,而且是多模態(tài)理解?!睏钪久髟谌ツ甑囊淮畏窒碇刑岬?,模擬的人腦舉一反三,在目前AI小的計(jì)算資源下快速和低功耗的運(yùn)行,是深思考致力解決的類腦AI技術(shù)。
作為人工智能研究中最難的部分,語義理解技術(shù)的發(fā)展,讓機(jī)器有了更強(qiáng)的閱讀理解能力,這也讓未來人機(jī)交互有了更多可能性。
未來的可能性
“最新語義理解的技術(shù),可以像人一樣,看完一本書以后,問你這本書里面的問題。它對(duì)這本書里面的非結(jié)構(gòu)化的信息進(jìn)行多模態(tài)理解以后,可以像人腦理解以后再回答問題?!睏钪久髟诓稍L中提到,人在看完一本書回答問題時(shí),不會(huì)先整理出問答對(duì)或者知識(shí)圖譜,而是憑借大腦的理解,直接回答別人的問題。
目前,深思考所研發(fā)的技術(shù)已經(jīng)具備了上述能力。通過非結(jié)構(gòu)化、長(zhǎng)文本的機(jī)器閱讀理解,避免了傳統(tǒng)語義理解或者智能客服,用大量的人力物力去構(gòu)建知識(shí)圖譜或者問答對(duì)。而借此,深思考能讓語義理解,像語音識(shí)別和圖像識(shí)別一樣,進(jìn)行大規(guī)模的商業(yè)化場(chǎng)景的落地。
楊志明解釋,深度學(xué)習(xí)的快速發(fā)展,也為語義理解帶來更多的提升。比如意圖分類等統(tǒng)計(jì)學(xué)記憶方法的準(zhǔn)確不高,深度學(xué)習(xí)進(jìn)一步發(fā)展,進(jìn)一步提高了這類語義識(shí)別的技術(shù)。其次,深度學(xué)習(xí)之下的新型語義理解模型,讓語義理解準(zhǔn)確度變得更高了,實(shí)現(xiàn)了突破。
今年6月,工信部正式對(duì)國(guó)內(nèi)運(yùn)營(yíng)商發(fā)放5G牌照,國(guó)內(nèi)的第四大運(yùn)營(yíng)商也正式誕生,讓人們看到,無人駕駛和遠(yuǎn)程手術(shù)的近在咫尺。雖然離大規(guī)模商業(yè)化應(yīng)用還有一定時(shí)間,但是5G對(duì)人工智能帶來的改變也是值得期待的。
《2019年中國(guó)人工智能行業(yè)市場(chǎng)分析》中提到,國(guó)際會(huì)計(jì)師事務(wù)所畢馬威近日發(fā)布研究認(rèn)為,當(dāng)前,5G技術(shù)在主要垂直行業(yè)的全球市場(chǎng)潛在價(jià)值預(yù)計(jì)可達(dá)4.3萬億美元,而這4.3萬美元的市場(chǎng),顯然離不開AI的作用。
“更重要的是解決及提升物聯(lián)網(wǎng)和AIoT設(shè)備語義理解的能力?!睏钪久鞲嬖V36氪,5G的三大技術(shù)特點(diǎn)“高速率、低延遲、超大數(shù)量終端”讓物聯(lián)網(wǎng)設(shè)備大有可為,但離線端語義識(shí)別的技術(shù)突破,也不可小覷,未來在端的部分,也可能會(huì)有語義理解芯片的成功研發(fā)。
楊志明舉例,比如在無人駕駛場(chǎng)景中,時(shí)常會(huì)面對(duì)信號(hào)弱的情況,例如過山洞、隧道等,同時(shí),雖然5G能夠連接超大數(shù)量的終端,但是終端連接的越多,傳輸?shù)乃俣染驮铰?,這就需要終端同樣具備部分的語義理解的能力。
未來的場(chǎng)景之中,更多的情況是,終端設(shè)備首先具備各項(xiàng)傳感器,能夠多維度的收集信息和數(shù)據(jù),同時(shí)芯片的植入,又能讓這類設(shè)備具有如圖像識(shí)別、語音識(shí)別、語義理解等人工智能能力,而云端則是更強(qiáng)大和更準(zhǔn)確的技術(shù)支持。一方面,如果所有終端的處理,都由云完成,云的壓力過大,另一方面終端設(shè)備必須具備復(fù)合的能力,才能讓機(jī)器更好的理解人類意圖。這也印證了,楊志明始終堅(jiān)持的方向,語義理解一定是多模態(tài)的。
同時(shí),產(chǎn)業(yè)互聯(lián)網(wǎng)的發(fā)展,也為人工智能應(yīng)用的落地,提供了良好的環(huán)境,產(chǎn)業(yè)互聯(lián)網(wǎng)實(shí)現(xiàn)的是,不同行業(yè)之中的互聯(lián)網(wǎng)等技術(shù)的落地以及場(chǎng)景閉環(huán),這和人工智能所在做的突破是一樣的。
楊志明此前提到,AI語義理解里面的關(guān)鍵點(diǎn),實(shí)現(xiàn)AI的落地場(chǎng)景的四個(gè)閉環(huán),包括,業(yè)務(wù)閉環(huán)、數(shù)據(jù)閉環(huán)、模型閉環(huán)和產(chǎn)品閉環(huán)。目前深思考在智能車聯(lián)、醫(yī)療健康、智能家居、智能手機(jī)等方向,均有頭部客戶實(shí)現(xiàn)成功的商業(yè)落地。
-
機(jī)器
+關(guān)注
關(guān)注
0文章
784瀏覽量
40821 -
理解
+關(guān)注
關(guān)注
0文章
4瀏覽量
8038
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.初步理解具身智能
《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在具身人工智能中的價(jià)值
使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動(dòng)能力
![使用ReMEmbR實(shí)現(xiàn)<b class='flag-5'>機(jī)器</b>人推理與行動(dòng)<b class='flag-5'>能力</b>](https://file1.elecfans.com/web1/M00/F5/6B/wKgaoWc8QNSAZSSiAABGZuNRmKk405.png)
心智理論測(cè)試:人工智能擊敗人類
使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)
機(jī)器人技術(shù)的發(fā)展趨勢(shì)
如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集
Al大模型機(jī)器人
請(qǐng)問ESP32-C3藍(lán)牙如何獲取RSSI的值?
開發(fā)者申請(qǐng)Gemini 1.5 Pro API Key:輕松獲取Gemini 1.5 Pro模型API Key并開發(fā)部署AI應(yīng)用
![開發(fā)者申請(qǐng)Gemini 1.5 Pro API Key:輕松獲取Gemini 1.5 Pro模型API Key并開發(fā)部署AI應(yīng)用](https://file1.elecfans.com/web2/M00/ED/6B/wKgaomZjMZKAUzVZAAFCO3l90r4358.png)
AI具備特定任務(wù)中接近甚至超越人類的心理狀態(tài)能力
【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗
機(jī)器視覺網(wǎng)卡:連接攝像頭和計(jì)算設(shè)備之間的橋梁
![<b class='flag-5'>機(jī)器</b>視覺網(wǎng)卡:連接攝像頭和計(jì)算設(shè)備之間的橋梁](https://file1.elecfans.com/web2/M00/C6/9A/wKgaomYBSvGAYJe-AABhagomsaw926.png)
評(píng)論