那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展

機(jī)器視覺 ? 來源:CSDN ? 作者:xtyang315 ? 2022-05-13 10:00 ? 次閱讀

一、深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展(Yoshua Bengio)

二、深度語義學(xué)習(xí) (Xiaodong He)

三、深度神經(jīng)網(wǎng)絡(luò)GPU(Julie Bernauer)

四、深度視覺Keynote(Rahul Sukthankar)

五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)

六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)

一直自稱研究方向是“機(jī)器視覺機(jī)器學(xué)習(xí)和深度學(xué)習(xí)”,然而除了做過幾個相關(guān)的項(xiàng)目以外,感覺自己對這個領(lǐng)域并沒有足夠深入的認(rèn)識和理解。趁著這個假期我要好好補(bǔ)補(bǔ)課了。今天先來看一些high level的內(nèi)容,看看深度學(xué)習(xí)近期的最近進(jìn)展以及其在機(jī)器視覺問題中的應(yīng)用。學(xué)習(xí)資料來源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides,介紹了理論、應(yīng)用、實(shí)現(xiàn)等方面的內(nèi)容,應(yīng)該是干貨滿滿的。對于每一個talk,我會把內(nèi)容框架記錄下來(可以check一下對這些點(diǎn)是否有一定了解?),并記下一些個人覺得有趣的點(diǎn)。

一、深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展(Yoshua Bengio)

顧名思義,Bengio的talk主要講了兩個部分:理論進(jìn)展和attention mechanism。理論進(jìn)展介紹了:

分布式表示的“指數(shù)級”優(yōu)點(diǎn)

深度的“指數(shù)級”優(yōu)點(diǎn)

非凸優(yōu)化和局部最小值

編碼器的概率解釋

Attention 機(jī)制則介紹了在機(jī)器翻譯、語音、圖像、視頻和記憶單元中的應(yīng)用。

分布式表示和深度的優(yōu)點(diǎn)Bengio之前的talk里已經(jīng)講過不少次了。簡單的說,雖然類似local partition的方法可以得到有用的表示,淺層(2層)的神經(jīng)網(wǎng)絡(luò)也可近似任意的函數(shù),但是分布式表示和深度的引入可以使特征表示和模型變得更加緊湊(compact),達(dá)到exponentially more statistically efficient的效果。

接下來提到了在深度學(xué)習(xí)中凸性質(zhì)(convexity)可能并不是必要的。因?yàn)樵诟呔S空間中,鞍點(diǎn)(saddle point)的存在是主要問題,而局部最小值通常都會很接近全局最小值了。這部分的內(nèi)容比較陌生,有興趣可以看看最近的論文。

Attention 機(jī)制方面,講了很多最新的進(jìn)展。有很多相關(guān)的paper都非常有趣,我要找個時間好好看看這個系列了。一個基本的思路是:我們給每一層引入一個額外的輸入,這個輸入反應(yīng)的是之前的一個加權(quán),來表示它們的關(guān)注程度。在所謂的soft-attention中,這個加權(quán)的值可以直接通過BP訓(xùn)練得到。記下幾句有趣的話:
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long

二、深度語義學(xué)習(xí) (Xiaodong He)

來自微軟研究院的報告,主要內(nèi)容:

學(xué)習(xí)文本的語義性(semantic)表示

知識庫和問答系統(tǒng)

多模態(tài)(圖片——文本)語義模型

講座開始引入了一點(diǎn)有趣的motivation:一般我們測試機(jī)器是否能夠理解圖片(其實(shí)就是訓(xùn)練對了),方法是給圖片標(biāo)記標(biāo)簽然后計算其錯誤率。然而對于含有豐富內(nèi)容的復(fù)雜場景來說,很難定義所有fine-grained的類別。因此,用自然語言的描述來測試對圖片的理解是比較好的方式。

從 Word2Vec 到 Sent2Vec:Deep Structured Semantic Model (DSSM),雖然我們不知道該如何標(biāo)記一個句子的語義,但我們知道哪些句子的語義是比較接近的,因此文章通過優(yōu)化一個基于相似性的目標(biāo)函數(shù)來訓(xùn)練模型,使具有相近語義的句子產(chǎn)生距離相近的向量。接著還介紹了很多模型的細(xì)節(jié)和變種(卷積DSSM、遞歸DSSM),在此就不贅述了。

Deep Multimodal Similarity Model (DMSM):將目標(biāo)函數(shù)中兩個句子的相似性改成句子和圖片的相似性,便可以將DSSM擴(kuò)展為一個多模態(tài)的模型。

09c15960-d260-11ec-bce3-dac502259ad0.png

MSR系統(tǒng)解決圖片–>語言問題:

圖片詞語檢測(Image word detection)

句子生成(Language generation)

全局語義性重排序(Global semantic re-ranking)

其中圖片詞語檢測用了CNN+MIL(Multiple Instance Learning)的方法,個人對此比較感興趣,文章在此。

三、深度神經(jīng)網(wǎng)絡(luò)和GPU(Julie Bernauer)

換個口味,我們來看看NVIDIA關(guān)于深度學(xué)習(xí)和GPU的結(jié)合。總的來說,內(nèi)容上跟NVIDIA官網(wǎng)上介紹深度學(xué)習(xí)的slides沒什么不同。主要介紹了GPU有什么好處、GPU有多牛,還有一些支持GPU的庫和工具。

一張比較好的圖:

09e39f02-d260-11ec-bce3-dac502259ad0.png

有用的工具:

Lasagne:基于theano上的開源庫,能方便搭建一個深度網(wǎng)絡(luò)。(Keras用得不太爽,可以試試這個)

四、深度視覺Keynote(Rahul Sukthankar)

來看看來自google的報告。這個talk里面的內(nèi)容都不太熟悉,但是看起來都非常有意思。主要內(nèi)容有:

用Peer Presssure方法來找high value mistake

結(jié)合深度學(xué)習(xí)和其他機(jī)器學(xué)習(xí)方法來更好解決視覺問題

首先來看看Peer Pressure。這是Rahul組最近的一個工作:The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所謂“high-value mistake”,指的是那些我們認(rèn)為訓(xùn)練好的模型可以準(zhǔn)確預(yù)測的樣本,結(jié)果它卻“犯傻”了。因此這些樣本也叫做“hard positive”,難以答對的樣子。

從頭說起,深度神經(jīng)網(wǎng)絡(luò)雖然有很多成功的應(yīng)用,但同時也被發(fā)現(xiàn)很容易犯愚蠢的錯誤(比如上述的high-value mistake)。因此作者提出了Peer Pressure:集成+對抗訓(xùn)練(emsembles+adversarial training)的方法,來找到這些錯誤。簡單來說就是,有一組訓(xùn)練于同樣數(shù)據(jù)但是初始化或者結(jié)構(gòu)不同的NN分類器(稱作peers),如果一個樣本出現(xiàn)其中一個NN輸出與其它都不一致的情況(其它NN淡然都是一致的了),那么它應(yīng)該就是high-value mistake。尋找這類錯誤當(dāng)然是有價值的啦:(1)它可以用在發(fā)掘無標(biāo)簽的數(shù)據(jù)中(2)可以用來合成新的hard positive樣本。

接下來提到將上述的方法應(yīng)用到視頻當(dāng)中,找出anchor frame附近的hard positive 幀,用來訓(xùn)練更好的模型。其中具有semantic consistency的幀是通過Dense Trajectory來確定的。感覺挺有意思,可惜沒找到相應(yīng)的paper,那就上張圖吧。

0a499e56-d260-11ec-bce3-dac502259ad0.png

五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)

來自牛津大學(xué)的報告,題目看起來還是很吸引人的。大綱如下(略有失望,好像就是講CNN的):

黑盒:一個將CNN用于圖片文字識別的例子

架構(gòu):卷積和紋理

可視化:CNN所知道的圖片

性質(zhì):對比CNN和視覺幾何

第一個例子用CNN做OCR,感覺并不是很有趣。一個challenge是它的類別特別多(90k個類,對應(yīng)90k個單詞)。他們解決的辦法是增量地訓(xùn)練網(wǎng)絡(luò),即先只訓(xùn)練5k個類,再逐步添加5k個新的類。。。效果好像還不錯。

第二部分講分辨紋理。提出用CNN的卷積層加上Fisher Vector(替換全連接層)來做,效果不錯不錯的。

第三部分可視化,看看就好。

第四部分還不錯,講的是圖像變換對特征表示的影響。除去語義層面上的影響(特征的不變性跟任務(wù)相關(guān)),我們通常希望圖像的特征表示不受圖像變換的影響,如翻轉(zhuǎn)和仿射變換。

類內(nèi)差異大,包括:部分出現(xiàn)(part existence)、顏色、遮擋、變形

0a68b372-d260-11ec-bce3-dac502259ad0.png

0ac6f1c6-d260-11ec-bce3-dac502259ad0.png

六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)

最后一個talk,講的是我最近比較關(guān)注的目標(biāo)檢測問題,主要介紹他們的DeepID-Net。

第一部分他們的工作,用深度學(xué)習(xí)進(jìn)行行人識別。其中著重講了通過設(shè)計大小可變的卷積核來實(shí)現(xiàn)部分檢測器(Part detector),對于行人識別應(yīng)該是重要的一部分。

第二部分講更general的目標(biāo)檢測問題。首先介紹目標(biāo)檢測的困難有(經(jīng)篩選):

對比了他們的DeepID-Net和RCNN:

0b03452c-d260-11ec-bce3-dac502259ad0.png

后面詳細(xì)的介紹了他們模型的每個環(huán)節(jié)。總體來說,感覺每個環(huán)節(jié)都比較tricky,暫時也看不到有什么insight,故先略過了。之后專門研究object detection時可能還會重新看看他們的工作。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機(jī)器視覺
    +關(guān)注

    關(guān)注

    162

    文章

    4406

    瀏覽量

    120734
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5515

    瀏覽量

    121551

原文標(biāo)題:學(xué)習(xí)筆記 ——深度學(xué)習(xí)和機(jī)器視覺

文章出處:【微信號:www_51qudong_com,微信公眾號:機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學(xué)習(xí)近年來在多個領(lǐng)域取得了顯著的進(jìn)展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個分支,因其在圖像處理
    的頭像 發(fā)表于 11-15 14:52 ?402次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?891次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識別 圖像識別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?506次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?1275次閱讀

    深度學(xué)習(xí)中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動識別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個領(lǐng)域。隨著深度
    的頭像 發(fā)表于 07-09 15:54 ?1169次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個重要分支,近年來在多個領(lǐng)域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領(lǐng)域。然而,深度學(xué)習(xí)模型
    的頭像 發(fā)表于 07-09 10:50 ?946次閱讀

    基于AI深度學(xué)習(xí)的缺陷檢測系統(tǒng)

    在工業(yè)生產(chǎn)中,缺陷檢測是確保產(chǎn)品質(zhì)量的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的人工檢測方法不僅效率低下,且易受人為因素影響,導(dǎo)致誤檢和漏檢問題頻發(fā)。隨著人工智能技術(shù)的飛速發(fā)展,特別是深度學(xué)習(xí)技術(shù)的崛起,基于AI深度學(xué)
    的頭像 發(fā)表于 07-08 10:30 ?1668次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計算機(jī)科學(xué)領(lǐng)域中兩個非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。 深度
    的頭像 發(fā)表于 07-05 09:47 ?1064次閱讀

    深度學(xué)習(xí)中的模型權(quán)重

    深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是模型智能的源泉。本文將從模型權(quán)重的定義、作用、優(yōu)化、管理以及應(yīng)用等多個方面,深入探討
    的頭像 發(fā)表于 07-04 11:49 ?1996次閱讀

    深度學(xué)習(xí)的典型模型和訓(xùn)練過程

    深度學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支,近年來在圖像識別、語音識別、自然語言處理等多個領(lǐng)域取得了顯著進(jìn)展。其核心在于通過構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,從大規(guī)模數(shù)據(jù)中自動學(xué)習(xí)并提取特征,進(jìn)而實(shí)
    的頭像 發(fā)表于 07-03 16:06 ?1672次閱讀

    深度學(xué)習(xí)常用的Python庫

    深度學(xué)習(xí)作為人工智能的一個重要分支,通過模擬人類大腦中的神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。Python作為一種流行的編程語言,憑借其簡潔的語法和豐富的庫支持,成為了深度學(xué)習(xí)研究和應(yīng)用的首選工具。
    的頭像 發(fā)表于 07-03 16:04 ?725次閱讀

    TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

    深度學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支,在過去十年中取得了顯著的進(jìn)展。在構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型的過程中,
    的頭像 發(fā)表于 07-02 14:04 ?1075次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)深度學(xué)習(xí)無疑是兩大核心驅(qū)動力。它們各自以其獨(dú)特的方式推動著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器學(xué)習(xí)的范疇,但
    的頭像 發(fā)表于 07-01 11:40 ?1540次閱讀

    深度解析深度學(xué)習(xí)下的語義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)的檢測、識別和分類等領(lǐng)域。近年來,研究人員開始在視覺SLAM算法中引入深度
    發(fā)表于 04-23 17:18 ?1380次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>下的語義SLAM

    為什么深度學(xué)習(xí)的效果更好?

    導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個子集,已成為人工智能領(lǐng)域的一項(xiàng)變革性技術(shù),在從計算機(jī)視覺、自然語言處理到自動駕駛汽車等廣泛的應(yīng)用中取得了顯著的成功。深度
    的頭像 發(fā)表于 03-09 08:26 ?687次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的效果更好?
    百家乐官网专业术语| 三元风水24山水法| 贝博百家乐的玩法技巧和规则| 澳门百家乐官网打法精华| 菲律宾百家乐娱乐网| 大家旺娱乐| 利高百家乐娱乐城| 百胜百家乐官网软件| 百家乐使用技法| 利高百家乐官网游戏| 百家乐的看路技巧| 百家乐官网信誉平台现金投注 | 百家乐官网园鼎盛娱乐场| 百家乐庄89| 百家乐官网路单规则| 大发888创建账号翻译| 百家乐官网方案| 娱乐城新用户送彩金| 百家乐大眼仔用法| 百家乐官网为什么庄5| 百家乐送錢平臺| 百家乐官网开放词典新浪| 威尼斯人娱乐城赌球| 巴宝莉百家乐官网的玩法技巧和规则| 太阳城代理| 澳门百家乐出千吗| 百家乐官网透视牌靴| 博彩评级网| 澳门百家乐官网才能| 德州扑克| 作弊百家乐赌具价格| 金城百家乐官网买卖路| 宾利娱乐城| 至尊百家乐奇热| 玩百家乐官网去哪个平台好| 大发888下载新澳博| G3百家乐官网的玩法技巧和规则| 长武县| 利来百家乐的玩法技巧和规则| 百家乐官网筹码套装| 大发888官网df888|