深度學(xué)習(xí)技術(shù)應(yīng)用于目標(biāo)視覺檢測(cè)時(shí)存在的困難和挑戰(zhàn)

摘要：目標(biāo)視覺檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問題，在視頻監(jiān)控、自主駕駛、人機(jī)交互等方面具有重要的研究意義和應(yīng)用價(jià)值.近年來，深度學(xué)習(xí)在圖像分類研究中取得了突破性進(jìn)展，也帶動(dòng)著目標(biāo)視覺檢測(cè)取得突飛猛進(jìn)的發(fā)展.本文綜述了深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用進(jìn)展與展望.首先對(duì)目標(biāo)視覺檢測(cè)的基本流程進(jìn)行總結(jié)，并介紹了目標(biāo)視覺檢測(cè)研究常用的公共數(shù)據(jù)集；然后重點(diǎn)介紹了目前發(fā)展迅猛的深度學(xué)習(xí)方法在目標(biāo)視覺檢測(cè)中的最新應(yīng)用進(jìn)展；最后討論了深度學(xué)習(xí)方法應(yīng)用于目標(biāo)視覺檢測(cè)時(shí)存在的困難和挑戰(zhàn)，并對(duì)今后的發(fā)展趨勢(shì)進(jìn)行展望.

目標(biāo)視覺檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)非常重要的研究問題.隨著電子設(shè)備的應(yīng)用在社會(huì)生產(chǎn)和人們生活中越來越普遍,?數(shù)字圖像已經(jīng)成為不可缺少的信息媒介,?每時(shí)每刻都在產(chǎn)生海量的圖像數(shù)據(jù).與此同時(shí),對(duì)圖像中的目標(biāo)進(jìn)行精確識(shí)別變得越來越重要[1].我們不僅關(guān)注對(duì)圖像的簡單分類,?而且希望能夠準(zhǔn)確獲得圖像中存在的感興趣目標(biāo)及其位置[2],?并將這些信息應(yīng)用到視頻監(jiān)控、自主駕駛等一系列現(xiàn)實(shí)任務(wù)中,?因此目標(biāo)視覺檢測(cè)技術(shù)受到了廣泛關(guān)注[3].

目標(biāo)視覺檢測(cè)具有巨大的實(shí)用價(jià)值和應(yīng)用前景.應(yīng)用領(lǐng)域包括智能視頻監(jiān)控、機(jī)器人導(dǎo)航、數(shù)碼相機(jī)中自動(dòng)定位和聚焦人臉的技術(shù)、飛機(jī)航拍或衛(wèi)星圖像中道路的檢測(cè)、車載攝像機(jī)圖像中的障礙物檢測(cè)等.同時(shí),?目標(biāo)視覺檢測(cè)也是眾多高層視覺處理和分析任務(wù)的重要前提,?例如行為分析、事件檢測(cè)、場景語義理解等都要求利用圖像處理和模式識(shí)別技術(shù),?檢測(cè)出圖像中存在的目標(biāo),?確定這些目標(biāo)對(duì)象的語義類型,?并且標(biāo)出目標(biāo)對(duì)象在圖像中的具體區(qū)域[4].

在自然環(huán)境條件下,?目標(biāo)視覺檢測(cè)經(jīng)常遇到以下幾個(gè)方面的挑戰(zhàn):

1)?類內(nèi)和類間差異

對(duì)于很多物體,?它們自身就存在很大的差異性,?同類物體的不同實(shí)例在顏色、材料、形狀等方面可能存在巨大的差異,?很難訓(xùn)練一個(gè)能夠包含所有類內(nèi)變化的特征描述模型.另外,?不同類型物體之間又可能具有很大的相似性,?甚至非專業(yè)人員從外觀上很難區(qū)分它們.類內(nèi)差異可能很大,?而類間差異可能很小,?給目標(biāo)視覺檢測(cè)提出了挑戰(zhàn).

2)?圖像采集條件

在圖像采集過程中,?由于環(huán)境、光照、天氣、拍攝視角和距離的不同、物體自身的非剛體形變以及可能被其他物體部分遮擋,?導(dǎo)致物體在圖像中的表觀特征具有很大的多樣性,?對(duì)視覺算法的魯棒性提出了很高要求.

3)?語義理解的差異

對(duì)同一幅圖像,?不同的人可能會(huì)有不同的理解,?這不僅與個(gè)人的觀察視角和關(guān)注點(diǎn)有關(guān),?也與個(gè)人的性格、心理狀態(tài)和知識(shí)背景等有關(guān),?這明顯增加了從仿生或類腦角度來研究視覺算法的難度.

4)?計(jì)算復(fù)雜性和自適應(yīng)性

目標(biāo)視覺檢測(cè)的計(jì)算復(fù)雜性主要來自于待檢測(cè)目標(biāo)類型的數(shù)量、特征描述子的維度和大規(guī)模標(biāo)記數(shù)據(jù)集的獲取.由于在真實(shí)世界中存在大量的目標(biāo)類型,?每種類型都包含大量的圖像,?同時(shí)識(shí)別每種類型需要很多視覺特征,?這導(dǎo)致高維空間稀疏的特征描述[4].另外,?目標(biāo)模型經(jīng)常從大規(guī)模標(biāo)記數(shù)據(jù)集中學(xué)習(xí)得到,?在許多情況下,?數(shù)據(jù)采集和標(biāo)注很困難,?需要耗費(fèi)大量的人力物力.這些情況導(dǎo)致目標(biāo)檢測(cè)的計(jì)算復(fù)雜性很高,?需要設(shè)計(jì)高效的目標(biāo)檢測(cè)算法.同時(shí),?在動(dòng)態(tài)變化的環(huán)境中,?為了提高目標(biāo)檢測(cè)精度,?還需要探索合適的機(jī)制來自動(dòng)更新視覺模型,?提高模型對(duì)復(fù)雜環(huán)境的自適應(yīng)能力.

為了克服上述挑戰(zhàn),?已經(jīng)提出了許多目標(biāo)視覺檢測(cè)算法,?它們?cè)谀繕?biāo)區(qū)域建議、圖像特征表示、候選區(qū)域分類等步驟采用了不同的處理策略.近年來,?隨著深度學(xué)習(xí)技術(shù)的發(fā)展,?很多基于深度學(xué)習(xí)的目標(biāo)視覺檢測(cè)方法陸續(xù)被提出,?在精度上顯著優(yōu)于傳統(tǒng)方法,?成為最新的研究熱點(diǎn).本文首先介紹目標(biāo)視覺檢測(cè)的基本流程,?然后重點(diǎn)介紹深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用進(jìn)展.

1?目標(biāo)視覺檢測(cè)的基本流程

目標(biāo)視覺檢測(cè)的根本問題是估計(jì)特定類型目標(biāo)出現(xiàn)在圖像中的哪些位置.如圖?1所示,?目標(biāo)視覺檢測(cè)技術(shù)在流程上大致分為三個(gè)步驟:區(qū)域建議(Region proposal)、特征表示(Feature representation)和區(qū)域分類(Region classification).首先對(duì)圖像中可能的目標(biāo)位置提出建議,?也就是提出一些可能含有目標(biāo)的候選區(qū)域.然后采用合適的特征模型得到特征表示.最后借助分類器判斷各個(gè)區(qū)域中是否含有特定類型的目標(biāo),?并且通過一些后處理操作,?例如非極大值抑制、邊框位置回歸等,?得到最終的目標(biāo)邊框.該基本流程被許多工作所采用,?例如文獻(xiàn)[5]提出的HOG-SVM檢測(cè)方法、文獻(xiàn)[6]提出的Selective search區(qū)域建議方法、目前在PASCAL VOC、MS COCO、ImageNet等數(shù)據(jù)集上取得領(lǐng)先精度的Faster R-CNN[7]檢測(cè)方法以及Faster R-CNN采用的特征表示和區(qū)域分類方法ResNet[8]等.

圖?1?目標(biāo)視覺檢測(cè)的基本流程

Figure 1?Basic procedure for object detection

本節(jié)接下來從區(qū)域建議、特征表示和區(qū)域分類三個(gè)方面來總結(jié)目標(biāo)視覺檢測(cè)的關(guān)鍵技術(shù).?

1.1?區(qū)域建議?

目標(biāo)檢測(cè)要求獲得目標(biāo)的位置和尺度信息,?這需要借助區(qū)域建議來實(shí)現(xiàn).區(qū)域建議是指在輸入圖像中搜尋特定類型目標(biāo)的可能區(qū)域的一種策略.傳統(tǒng)的區(qū)域建議策略包括三種[4]:基于滑動(dòng)窗的區(qū)域建議、基于投票機(jī)制的區(qū)域建議和基于圖像分割的區(qū)域建議.?

1.1.1?基于滑動(dòng)窗的區(qū)域建議?

基于滑動(dòng)窗的方法是在輸入圖像所有可能的子窗口中執(zhí)行目標(biāo)檢測(cè)算法來定位潛在的目標(biāo).在文獻(xiàn)[5]中,?檢測(cè)窗口是一個(gè)給定大小的矩形框,?在整幅圖像的所有位置和尺度上進(jìn)行掃描,?并對(duì)區(qū)域分類結(jié)果做非極大值抑制.基于滑動(dòng)窗的區(qū)域建議方法采用窮舉搜索,?原理簡單,?易于實(shí)現(xiàn),?但是計(jì)算復(fù)雜性高,?太過耗時(shí).于是一些研究者提出加快窗口搜索的方法. Lampert等[9]提出了一種高效的子窗口搜索策略(簡稱為ESS),?采用分支限界法來減少搜索范圍.但是它的性能在很大程度上取決于輸入圖像中的物體,?當(dāng)沒有物體出現(xiàn)時(shí),該算法退化到窮舉搜索. An等[10]提出一種改進(jìn)的ESS算法. Wei等[11]提出一種在直方圖維度上具有常數(shù)復(fù)雜度的滑動(dòng)窗口策略. Van de Sande等[12]引入圖像分割信息,?將其作為目標(biāo)假設(shè)區(qū)域,?從而只對(duì)這些假設(shè)區(qū)域進(jìn)行目標(biāo)檢測(cè).?

1.1.2?基于投票機(jī)制的區(qū)域建議?

基于投票機(jī)制的方法主要用于基于部件的模型,?通常投票機(jī)制的實(shí)現(xiàn)可歸納為兩步[13-14]: 1)?找到輸入圖像與模型中各個(gè)局部區(qū)域最匹配的區(qū)域,?并最大化所有局部區(qū)域的匹配得分; 2)?利用拓?fù)湓u(píng)價(jià)方法取得最佳的結(jié)構(gòu)匹配.由于投票機(jī)制是一種貪心算法,?可能得不到最優(yōu)的拓?fù)浼僭O(shè),?并且部件匹配通常采用窮舉搜索來實(shí)現(xiàn),?計(jì)算代價(jià)很高.?

1.1.3?基于圖像分割的區(qū)域建議?

基于圖像分割的區(qū)域建議建立在圖像分割的基礎(chǔ)上,?分割的圖像區(qū)域就是目標(biāo)的位置候選.語義分割是一種最直接的圖像分割方法,?需要對(duì)每個(gè)像素所屬的目標(biāo)類型進(jìn)行標(biāo)注[15].目前主要采用的方法是概率圖模型,?例如采用CRF[16]或MRF[17]方法來鼓勵(lì)相鄰像素之間的標(biāo)記一致性.圖像分割是一個(gè)耗時(shí)而又復(fù)雜的過程,?而且很難將單個(gè)目標(biāo)完整地分割出來.?

不同于以上策略,?文獻(xiàn)[6]先將圖片分割成若干小區(qū)域,?然后再聚合,?通過對(duì)聚合后的區(qū)域打分并排序,獲得較有可能是目標(biāo)區(qū)域的窗口.文獻(xiàn)[18-19]中采用生成大量窗口并打分,?然后過濾掉低分的方法.文獻(xiàn)[20]對(duì)這些方法進(jìn)行了討論和比較.這些方法存在的主要問題是,?采樣數(shù)目較少時(shí)召回率不高、定位精度較低等.對(duì)于一個(gè)目標(biāo)檢測(cè)系統(tǒng)來說,?少量的候選區(qū)域不僅可以減少運(yùn)行時(shí)間,?而且使得檢測(cè)準(zhǔn)確率更高,?因此保證采樣數(shù)目少的情況下召回率仍然很高是至關(guān)重要的.為了解決這些問題,?一些研究者開始采用深度學(xué)習(xí)方法來產(chǎn)生候選區(qū)域.在MultiBox[21-22]中,?通過采用深度神經(jīng)網(wǎng)絡(luò)回歸模型定位出若干可能的包圍邊框.在Deepbox[23]中, Kuo等采用訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型來給通過EdgeBoxes[19]產(chǎn)生的候選區(qū)域進(jìn)行排序.在DeepProposal[24]中, Ghodrati等評(píng)估了用卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生目標(biāo)候選區(qū)域的質(zhì)量,?發(fā)現(xiàn)最后一層卷積層可以以很高的召回率找到感興趣的目標(biāo),?但是定位精度很低,?而第一層網(wǎng)絡(luò)可以很好地定位目標(biāo),?但是召回率很低.基于此發(fā)現(xiàn),?他們?cè)O(shè)計(jì)了一種通過多層CNN特征由粗到細(xì)地串聯(lián)來產(chǎn)生候選區(qū)域的方法.文獻(xiàn)[7]提出區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN),?把產(chǎn)生候選區(qū)域和區(qū)域分類聯(lián)合到一個(gè)深度神經(jīng)網(wǎng)絡(luò),?通過端到端訓(xùn)練,?在提高精度的同時(shí)降低了計(jì)算時(shí)間.最近, Gidaris等[25]使用概率預(yù)測(cè)方式來進(jìn)一步提高目標(biāo)檢測(cè)的定位精度,?不同于邊框位置回歸的方法,?該方法首先將搜索區(qū)域劃分成若干個(gè)水平區(qū)域和豎直區(qū)域,?然后給搜索區(qū)域的每列或每行分配概率,?利用這些概率信息來不斷迭代獲得更精確的檢測(cè)框.?

1.2?特征表示?

特征表示是實(shí)現(xiàn)目標(biāo)視覺檢測(cè)必備的步驟,?選擇合適的特征模型將圖像區(qū)域映射為特征向量,?然后利用從訓(xùn)練樣本學(xué)習(xí)到的分類器對(duì)該特征向量進(jìn)行分類,?判斷其所屬類型.特征的表達(dá)能力直接影響分類器精度,決定了算法的最終性能.特征模型主要分為手工設(shè)計(jì)的特征和自動(dòng)學(xué)習(xí)的特征.?

1.2.1?手工設(shè)計(jì)的特征?

在深度學(xué)習(xí)熱潮之前,?主要采用手工設(shè)計(jì)的特征.手工特征數(shù)目繁多,?可以分為三大類:基于興趣點(diǎn)檢測(cè)的方法、基于密集提取的方法和基于多種特征組合的方法.?

1)?基于興趣點(diǎn)檢測(cè)的方法?

興趣點(diǎn)檢測(cè)方法通過某種準(zhǔn)則,?選擇具有明確定義并且局部紋理特征比較明顯的像素、邊緣和角點(diǎn)等[3].其中Sobel、Prewitt、Roberts、Canny和LoG (Laplacian of Gaussian)等是典型的邊緣檢測(cè)算子[26-29].而Harris、FAST (Features from accelerated segment test)、CSS (Curvature scale space)和DOG (Difference of Gaussian)等是典型的角點(diǎn)檢測(cè)算子[30-32].興趣點(diǎn)檢測(cè)方法通常具有一定的幾何不變性,?能夠以較小的計(jì)算代價(jià)得到有意義的表達(dá).?

2)?基于密集提取的方法?

密集提取方法主要提取局部特征.區(qū)別于顏色直方圖等全局特征,?局部特征有利于處理目標(biāo)部分遮擋問題.常用的局部特征有SIFT (Scale-invariant feature transform)[33]、HOG (Histogram of oriented gradient)[5]、Haar-like[34]和LBP (Local binary pattern)[35-36]等.局部特征包含的信息豐富、獨(dú)特性好,?并且具有較強(qiáng)的不變性和可區(qū)分性,?能夠最大程度地對(duì)圖像進(jìn)行底層描述.但是其計(jì)算一般比較復(fù)雜,?近些年圖像的局部特征正在向快速和低存儲(chǔ)方向發(fā)展.?

3)?基于多種特征組合的方法?

手工特征具有良好的可擴(kuò)展性,?將興趣點(diǎn)檢測(cè)與密集提取相結(jié)合的多種特征組合方法,?能夠彌補(bǔ)利用單一特征進(jìn)行目標(biāo)表示的不足. DPM (Deformable part-based model)[2]提出了一種有效的多種特征組合模型,?被廣泛應(yīng)用于目標(biāo)檢測(cè)任務(wù)并取得了良好效果,?例如行人檢測(cè)[37-38]、人臉檢測(cè)[39-40]和人體姿態(tài)估計(jì)[41]等.另外,?文獻(xiàn)[42]提出了一種改進(jìn)的DPM方法,?大大提升了檢測(cè)速度.?

依靠手工設(shè)計(jì)特征,?需要豐富的專業(yè)知識(shí)并且花費(fèi)大量的時(shí)間.特征的好壞在很大程度上還要依靠經(jīng)驗(yàn)和運(yùn)氣,?往往整個(gè)算法的測(cè)試和調(diào)節(jié)工作都集中于此,?需要手工完成,?十分費(fèi)力.與之相比,?近年來受到廣泛關(guān)注的深度學(xué)習(xí)理論中的一個(gè)重要觀點(diǎn)就是手工設(shè)計(jì)的特征描述子作為視覺計(jì)算的第一步,?往往過早地丟失掉有用信息,?而直接從圖像中學(xué)習(xí)到與任務(wù)相關(guān)的特征表示,?比手工設(shè)計(jì)特征更加有效[3].?

1.2.2?自動(dòng)學(xué)習(xí)的特征?

近年來,?深度學(xué)習(xí)在圖像分類和目標(biāo)檢測(cè)等領(lǐng)域取得了突破性進(jìn)展,?成為目前最有效的自動(dòng)特征學(xué)習(xí)方法.深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力,?通過監(jiān)督或非監(jiān)督的方式,?逐層自動(dòng)地學(xué)習(xí)目標(biāo)的特征表示,將原始數(shù)據(jù)經(jīng)過一系列非線性變換,?生成高層次的抽象表示,?避免了手工設(shè)計(jì)特征的繁瑣低效.深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的研究現(xiàn)狀是本文的核心內(nèi)容,?將在第3節(jié)進(jìn)行詳細(xì)介紹.?

1.3?區(qū)域分類?

區(qū)域分類是指把候選區(qū)域的特征向量作為分類器輸入,?預(yù)測(cè)候選區(qū)域所屬的目標(biāo)類型.分類器在目標(biāo)檢測(cè)中的作用可以概括為:先利用訓(xùn)練數(shù)據(jù)集進(jìn)行模型學(xué)習(xí),?然后利用學(xué)習(xí)到的模型對(duì)新的候選區(qū)域進(jìn)行類型預(yù)測(cè).分類器一般是利用監(jiān)督學(xué)習(xí)方法訓(xùn)練得到的,?常用的有支持向量機(jī)(Support vector machine, SVM)、Adaboost、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等.目前,?圖像識(shí)別任務(wù)中廣泛采用一對(duì)多(One-vs-others)的分類器訓(xùn)練方式[43],?就是把其中一類模式作為正樣本,?其余模式作為負(fù)樣本,?針對(duì)每一類模式分別訓(xùn)練一個(gè)分類器;?在測(cè)試階段,?將圖像特征分別輸入到所有的分類器,?選擇分類器響應(yīng)最大的一類模式作為類型預(yù)測(cè). Girshick等[44]就是采用這種方式,?提取候選區(qū)域的特征表示,?利用一對(duì)多SVM分類器實(shí)現(xiàn)對(duì)PASCAL VOC圖像集20種目標(biāo)的檢測(cè).?

2?目標(biāo)視覺檢測(cè)的公共數(shù)據(jù)集?

為了促進(jìn)目標(biāo)視覺檢測(cè)的研究進(jìn)展,?建設(shè)大規(guī)模的公共數(shù)據(jù)集成為必然要求.目前,?目標(biāo)視覺檢測(cè)研究常用的公共數(shù)據(jù)集有ImageNet、PASCAL VOC、SUN和MS COCO等.下面將從這些數(shù)據(jù)集包含的圖像數(shù)目、類型數(shù)目、每類樣本數(shù)等方面對(duì)它們進(jìn)行介紹.直觀對(duì)比如圖?2所示.

圖?2?幾種公共數(shù)據(jù)集的對(duì)比圖

Figure 2?Comparison of several common datasets

1) ImageNet數(shù)據(jù)集[45]

該數(shù)據(jù)集是目前世界上最大的圖像分類數(shù)據(jù)集,?包含1 400萬幅圖像、2.2萬個(gè)類型,?平均每個(gè)類型包含1 000幅圖像.此外, ImgeNet還建立了一個(gè)包含1 000類物體,?有120萬圖像的數(shù)據(jù)集,?并將該數(shù)據(jù)集作為圖像識(shí)別競賽的數(shù)據(jù)平臺(tái).

2) PASCAL VOC數(shù)據(jù)集[46]

2005 ~ 2012年,?該數(shù)據(jù)集每年都發(fā)布關(guān)于圖像分類、目標(biāo)檢測(cè)和圖像分割等任務(wù)的數(shù)據(jù)集,?并在相應(yīng)數(shù)據(jù)集上舉行算法競賽,?極大地推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域的研究進(jìn)展.該數(shù)據(jù)集最初只提供了4個(gè)類型的圖像,到2007年穩(wěn)定在20個(gè)類;?測(cè)試圖像的數(shù)量從最初的1 578幅,?到2011年穩(wěn)定在11 530幅.雖然該數(shù)據(jù)集類型數(shù)目比較少,?但是由于圖像中物體變化極大,?每幅圖像可能包含多個(gè)不同類型目標(biāo)對(duì)象,?并且目標(biāo)尺度變化很大,?因而檢測(cè)難度非常大.

3) SUN數(shù)據(jù)集[47]

該數(shù)據(jù)集是一個(gè)覆蓋較大場景、位置、物體變化的數(shù)據(jù)集,?其中的場景名主要是從WorldNet中描述場景、位置、環(huán)境等任何具體的名詞得來. SUN數(shù)據(jù)集包含兩個(gè)評(píng)測(cè)集:一個(gè)是場景識(shí)別數(shù)據(jù)集,?稱為SUN 397,?共包含397類場景,?每類至少包含100幅圖像,?總共有108 754幅圖像;?另一個(gè)評(píng)測(cè)集為物體檢測(cè)數(shù)據(jù)集,稱為SUN 2012,?包含16 873幅圖像.

4) MS COCO數(shù)據(jù)集[48]

該數(shù)據(jù)集包含約30多萬幅圖像、200多萬個(gè)標(biāo)注物體、91個(gè)物體類型.雖然比ImageNet和SUN包含的類型少,?但是每一類物體的圖像多,?另外圖像中包含精確的分割信息,?是目前每幅圖像平均包含目標(biāo)數(shù)最多的數(shù)據(jù)集. MS COCO不但能夠用于目標(biāo)視覺檢測(cè)研究,?還能夠用來研究圖像中目標(biāo)之間的上下文關(guān)系.

3?深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用進(jìn)展

3.1?深度學(xué)習(xí)簡介

深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力, 通過監(jiān)督或非監(jiān)督的訓(xùn)練方式, 能夠逐層、自動(dòng)地學(xué)習(xí)目標(biāo)的特征表示, 實(shí)現(xiàn)對(duì)物體層次化的抽象和描述. 1986年, Rumelhart等[49]提出人工神經(jīng)網(wǎng)絡(luò)的反向傳播(Back propagation, BP)算法. BP算法指導(dǎo)機(jī)器如何從后一層獲取誤差而改變前一層的內(nèi)部參數(shù), 深度學(xué)習(xí)能夠利用BP算法發(fā)現(xiàn)大數(shù)據(jù)中的復(fù)雜結(jié)構(gòu), 把原始數(shù)據(jù)通過一些簡單的非線性函數(shù)變成高層次的抽象表達(dá)[50], 使計(jì)算機(jī)自動(dòng)學(xué)習(xí)到模式特征, 從而避免了手工設(shè)計(jì)特征的繁瑣低效問題. Hinton等[51-52]于2006年首次提出以深度神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù), 引起學(xué)術(shù)界的關(guān)注.之后, Bengio[53]、LeCun[54]和Lee[55]等迅速開展了重要的跟進(jìn)工作, 開啟了深度學(xué)習(xí)研究的熱潮.深度學(xué)習(xí)技術(shù)首先在語音識(shí)別領(lǐng)域取得了突破性進(jìn)展[56].在圖像識(shí)別領(lǐng)域, Krizhevsky等[57]于2012年構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò), 在大規(guī)模圖像分類問題上取得了巨大成功.隨后在目標(biāo)檢測(cè)任務(wù)中, 深度學(xué)習(xí)方法[7, 44, 58]也超過了傳統(tǒng)方法。

目前應(yīng)用于圖像識(shí)別和分析研究的深度學(xué)習(xí)模型主要包括堆疊自動(dòng)編碼器(Stacked auto-encoders, SAE)[53]、深度信念網(wǎng)絡(luò)(Deep belief network, DBN)[51-52]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)[59]等.

SAE模型的實(shí)質(zhì)是多個(gè)自動(dòng)編碼器(Auto-encoder, AE)的堆疊.一個(gè)自動(dòng)編碼器是由編碼器和解碼器兩部分組成,?能夠盡可能復(fù)現(xiàn)輸入信號(hào).作為一種無監(jiān)督學(xué)習(xí)的非線性特征提取方法,?其輸出與輸入具有相同的維度,?隱藏層則被用來進(jìn)行原始數(shù)據(jù)的特征表示或編碼. SAE模型將前一層自動(dòng)編碼器的輸出作為后一層自動(dòng)編碼器的輸入,?逐層地對(duì)自動(dòng)編碼器進(jìn)行預(yù)訓(xùn)練,?然后利用BP算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào).目前基于SAE的擴(kuò)展模型有很多,?例如,?堆疊去噪自動(dòng)編碼器(Stacked denoising autoencoders, SDA)[60],?以及堆疊卷積自動(dòng)編碼器(Stacked convolutional auto-encoders, SCAE)[61].

DBN類似于SAE,?它的基本單元是受限玻爾茲曼機(jī)(Restricted Boltzmann machines, RBM),?整個(gè)網(wǎng)絡(luò)的訓(xùn)練分為兩個(gè)階段:預(yù)訓(xùn)練和全局微調(diào).首先以原始輸入為可視層,?訓(xùn)練一個(gè)單層的RBM,?該RBM訓(xùn)練完成后,其隱層輸出作為下一層RBM的輸入,?繼續(xù)訓(xùn)練下一層RBM.以此類推,?逐層訓(xùn)練,?直至將所有RBM訓(xùn)練完成,通過這種貪婪式的無監(jiān)督訓(xùn)練,?使整個(gè)DBN模型得到一個(gè)比較好的初始值,?然后加入數(shù)據(jù)標(biāo)簽對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的微調(diào),?進(jìn)一步改善網(wǎng)絡(luò)性能.

CNN是圖像和視覺識(shí)別中的研究熱點(diǎn),?近年來取得了豐碩成果.?圖?3給出了由LeCun等[59]提出的用于數(shù)字手寫體識(shí)別的CNN網(wǎng)絡(luò)結(jié)構(gòu), CNN通常包含卷積層、池化層和全連接層.卷積層通過使用多個(gè)濾波器與整個(gè)圖像進(jìn)行卷積,?可以得到圖像的多個(gè)特征圖表示;?池化層實(shí)際上是一個(gè)下采樣層,?通過求局部區(qū)域的最大值或平均值來達(dá)到降采樣的目的,?進(jìn)一步減少特征空間;?全連接層用于進(jìn)行高層推理,?實(shí)現(xiàn)最終分類. CNN的權(quán)值共享和局部連接大大減少了參數(shù)的規(guī)模,?降低了模型的訓(xùn)練復(fù)雜度,?同時(shí)卷積操作保留了圖像的空間信息,?具有平移不變性和一定的旋轉(zhuǎn)、尺度不變性. 2012年, Krizhevsky等[57]將CNN模型用于ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ImageNet large scale visual recognition challenge, ILSVRC)的圖像分類問題,?使錯(cuò)誤率大幅降低,?在國際上引起了對(duì)CNN模型的高度重視,?也因此推動(dòng)了目標(biāo)視覺檢測(cè)的研究進(jìn)展.

圖?3?卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)[59]

Figure 3?Basic structure of convolutional neural network[59]

3.2 AlexNet及其改進(jìn)模型

隨著深度學(xué)習(xí)的發(fā)展,?人們將深度學(xué)習(xí)應(yīng)用于圖像分類和目標(biāo)檢測(cè)任務(wù)中,?在許多公開競賽中取得了明顯優(yōu)于傳統(tǒng)方法的結(jié)果. Krizhevsky等[57]提出了一種新型卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet,?隨后其他研究者相繼提出ZFNet[62]、VGG[63]、GoogLeNet[64]和ResNet[8]等改進(jìn)模型,?進(jìn)一步提高了模型精度.?表?1顯示了幾種經(jīng)典CNN模型在圖像分類任務(wù)中的性能對(duì)比. ILSVRC的圖像分類錯(cuò)誤率每年都在被刷新,?如圖?4所示.隨著模型變得越來越深,?圖像分類的Top-5錯(cuò)誤率也越來越低,?目前已經(jīng)降低到3.08%附近[65].而在同樣的ImageNet數(shù)據(jù)集上,?人眼的辨識(shí)錯(cuò)誤率大約在5.1%.盡管這些模型都是針對(duì)圖像分類來做的,?但是都在解決一個(gè)最根本的問題,?即更強(qiáng)大的特征表示.采用這些CNN模型得到更強(qiáng)大的特征表示,?然后應(yīng)用到目標(biāo)檢測(cè)任務(wù),?可以獲得更高的檢測(cè)精度.

表?1?經(jīng)典CNN模型在ILSVRC圖像分類任務(wù)上的性能對(duì)比

Table 1?Performance comparison of classical CNN model in image classification task of ILSVRC

圖?4?ILSVRC圖像分類任務(wù)歷年冠軍方法的Top-5錯(cuò)誤率(下降曲線)和網(wǎng)絡(luò)層數(shù)(上升曲線)

Figure 4?Top-5 error rate (descent curve) and network layers (rise curve) of the champion methods each year in image classification task of ILSVRC

AlexNet[57]在ILSVRC 2012圖像分類任務(wù)上取得了Top-5錯(cuò)誤率16.4%,?明顯優(yōu)于基于傳統(tǒng)方法的第2名的結(jié)果(Top-5錯(cuò)誤率26.2%). AlexNet神經(jīng)網(wǎng)絡(luò)由5個(gè)卷積層、最大池化層、Dropout層和3個(gè)全連接層組成,網(wǎng)絡(luò)能夠?qū)? 000個(gè)圖像類型進(jìn)行分類.由于AlexNet的成功,?許多研究人員開始關(guān)注和改進(jìn)CNN結(jié)構(gòu). Zeiler等[62]通過可視化AlexNet網(wǎng)絡(luò),?發(fā)現(xiàn)第1層濾波器是非常高頻和低頻信息的混合,?很少覆蓋中間頻率.并且由于第2層卷積采用比較大的步長,?導(dǎo)致第2層出現(xiàn)混疊失真(Aliasing artifacts).為了解決這些問題,?他們將第1層濾波器的尺寸從11 × 11減小到7 × 7,?將步長從4減小到2,?形成ZFNet模型. ZFNet在網(wǎng)絡(luò)的第1層和第2層保留了更多信息,?降低了分類錯(cuò)誤率.

Simonyan等[63]隨后提出VGG網(wǎng)絡(luò),?探索在網(wǎng)絡(luò)參數(shù)總數(shù)基本不變的情況下, CNN隨著層數(shù)的增加,?導(dǎo)致其性能的變化.不同于AlexNet, VGG采用的濾波器尺寸是3 × 3,?通過將多個(gè)3 × 3濾波器堆疊的方式來代替一個(gè)大尺寸的濾波器,?因?yàn)槎鄠€(gè)3 × 3尺寸的卷積層比一個(gè)大尺寸濾波器卷積層具有更高的非線性,?使模型更有判別能力,?而且多個(gè)3 × 3尺寸的卷積層比一個(gè)大尺寸的濾波器有更少的參數(shù).通過加入1 × 1卷積層,?在不影響輸入輸出維數(shù)的情況下,?進(jìn)一步增加網(wǎng)絡(luò)的非線性表達(dá)能力.

Szegedy等[64]提出了一種新的深度CNN模型GoogLeNet,?習(xí)慣上稱為Inception-v1.只利用了比AlexNet[57]少12倍的參數(shù),?但分類錯(cuò)誤率更低. GoogLeNet采用Inception結(jié)構(gòu),?上一層的輸出經(jīng)過1×1?、3×3、5×5?的卷積層和3×3的池化層,?然后拼接在一起作為Inception的輸出.并且在3×3?、5 × 5卷積層之前采用1×1卷積層來降維,?既增加了網(wǎng)絡(luò)的深度,?又減少了網(wǎng)絡(luò)參數(shù). Inception結(jié)構(gòu)既提高了網(wǎng)絡(luò)對(duì)尺度的適應(yīng)性,?又提高了網(wǎng)絡(luò)計(jì)算資源的利用率.但是深度網(wǎng)絡(luò)在訓(xùn)練時(shí),?由于模型參數(shù)在不斷更新,?各層輸入的概率分布在不斷變化,?因此必須使用較小的學(xué)習(xí)率和較好的參數(shù)初值,?導(dǎo)致網(wǎng)絡(luò)訓(xùn)練很慢,?同時(shí)也導(dǎo)致采用飽和的非線性激活函數(shù)(例如Sigmoid)時(shí)訓(xùn)練困難.為了解決這些問題,?又出現(xiàn)了GoogLeNet的續(xù)作Inception-v2[66].它加入了批規(guī)范化(Batch normalization)處理,?將每一層的輸出都進(jìn)行規(guī)范化,?保持各層輸入的分布穩(wěn)定,?使得梯度受參數(shù)初值的影響減小.批規(guī)范化加快了網(wǎng)絡(luò)訓(xùn)練速度,?并且在一定程度上起到正則化的作用. Inception-v2在ILSVRC 2012圖像分類任務(wù)上的Top-5錯(cuò)誤率降低到4.8%.隨著Szegedy等研究GoogLeNet的深入,?網(wǎng)絡(luò)的復(fù)雜度也逐漸提高. Inception-v3[67]變得更加復(fù)雜,?它通過將大的濾波器拆解成若干個(gè)小的濾波器的堆疊,?在不降低網(wǎng)絡(luò)性能的基礎(chǔ)上,?增加了網(wǎng)絡(luò)的深度和非線性. Inception-v3在ILSVRC 2012圖像分類任務(wù)上的Top-5錯(cuò)誤率降低到3.5%.

2015年, He等[8]提出了深度高達(dá)上百層的殘差網(wǎng)絡(luò)ResNet,?網(wǎng)絡(luò)層數(shù)(152層)比以往任何成功的神經(jīng)網(wǎng)絡(luò)的層數(shù)多5倍以上,?在ImageNet測(cè)試集上的圖像分類錯(cuò)誤率低至3.57%. ResNet使用一種全新的殘差學(xué)習(xí)策略來指導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),?重新定義了網(wǎng)絡(luò)中信息流動(dòng)的方式,?重構(gòu)了網(wǎng)絡(luò)學(xué)習(xí)的過程,?很好地解決了深度神經(jīng)網(wǎng)絡(luò)層數(shù)與錯(cuò)誤率之間的矛盾(即網(wǎng)絡(luò)達(dá)到一定層數(shù)后,?更深的網(wǎng)絡(luò)導(dǎo)致更高的訓(xùn)練和測(cè)試錯(cuò)誤率). ResNet具有很強(qiáng)的通用性,?不但在圖像分類任務(wù),?而且在ImageNet數(shù)據(jù)集的目標(biāo)檢測(cè)、目標(biāo)定位任務(wù)以及MS COCO數(shù)據(jù)集的目標(biāo)檢測(cè)和分割任務(wù)上都取得了當(dāng)時(shí)最好的競賽成績.此后, Szegedy等[65]通過將Inception結(jié)構(gòu)與ResNet結(jié)構(gòu)相結(jié)合,?提出了Inception-ResNet-v1和Inception-ResNet-v2兩種混合網(wǎng)絡(luò),?極大地加快了訓(xùn)練速度,?并且性能也有所提升.除了這種混合結(jié)構(gòu),?他們還設(shè)計(jì)了一個(gè)更深更優(yōu)化的Inception-v4網(wǎng)絡(luò),?單純依靠Inception結(jié)構(gòu),?達(dá)到與Inception-ResNet-v2相近的性能. Szegedy等[65]將3個(gè)Inception-ResNet-v2網(wǎng)絡(luò)和1個(gè)Inception-v4網(wǎng)絡(luò)相集成,?在ILSVRC 2012圖像分類任務(wù)上的Top-5錯(cuò)誤率降低到3.08%.

3.3?深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用

深度學(xué)習(xí)技術(shù)的發(fā)展,?極大推動(dòng)了目標(biāo)視覺檢測(cè)研究.目標(biāo)檢測(cè)與圖像分類最主要的不同在于目標(biāo)檢測(cè)關(guān)注圖像的局部結(jié)構(gòu)信息,?而圖像分類關(guān)注圖像的全局表達(dá).與圖像分類一樣,?目標(biāo)檢測(cè)的輸入也是整幅圖像.目標(biāo)檢測(cè)和圖像分類在特征表示和分類器設(shè)計(jì)上有很大的相通性.

接下來,?我們從基于區(qū)域建議的方法和無區(qū)域建議的方法兩方面來介紹深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的研究現(xiàn)狀.

3.3.1?基于區(qū)域建議(Proposal-based)的方法

Girshick等[44]提出的R-CNN (Region-based convolutional neural networks)方法,?是近年來基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究的重要參考方法. R-CNN將目標(biāo)區(qū)域建議(Region proposal)和CNN相結(jié)合,?在PASCAL VOC 2012上的檢測(cè)平均精度mAP (Mean average precision)達(dá)到53.3%,?比傳統(tǒng)方法有了明顯改進(jìn). R-CNN的基本流程如圖?5所示,?首先對(duì)每一幅輸入圖像,?采用選擇性搜索(Selective search)[6]來提取候選區(qū)域;?然后用CNN網(wǎng)絡(luò)從每個(gè)區(qū)域提取一個(gè)固定長度的特征向量,?這里采用AlexNet[57]結(jié)構(gòu),?圖像經(jīng)過5個(gè)卷積層和2個(gè)全連接層,?得到一個(gè)4 096維的特征向量;?接著把提取到的特征向量送入支持向量機(jī)進(jìn)行分類.由于一些區(qū)域存在高度交疊, Girshick等采用非極大值抑制(Non-maximum suppression)來舍棄那些與更高得分區(qū)域的IoU (Intersection-over-Union)過大的區(qū)域.為了得到更精確的結(jié)果,?還采用了邊框回歸方法來進(jìn)一步改善檢測(cè)結(jié)果.在R-CNN模型的訓(xùn)練過程中,?由于目標(biāo)檢測(cè)標(biāo)注數(shù)據(jù)集的規(guī)模不夠, Girshick等先將網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集ImageNet上進(jìn)行預(yù)訓(xùn)練,?然后用N+1?類(N個(gè)目標(biāo)類和1個(gè)背景類)的輸出層來替換1 000類的Softmax層,?再針對(duì)目標(biāo)檢測(cè)任務(wù),?用PASCAL VOC數(shù)據(jù)集進(jìn)行微調(diào).這種方法很好地解決了訓(xùn)練數(shù)據(jù)不足的問題,?進(jìn)一步提升了檢測(cè)精度.得益于CNN的參數(shù)共享以及更低維度的特征,?整個(gè)檢測(cè)算法更加高效.但是, R-CNN也存在一些不容忽視的問題: 1)?候選區(qū)域之間的交疊使得特征被重復(fù)提取,?造成了嚴(yán)重的速度瓶頸,?降低了計(jì)算效率; 2)?將候選區(qū)域直接縮放到固定大小,?破壞了物體的長寬比,?可能導(dǎo)致物體的局部細(xì)節(jié)損失; 3)?使用邊框回歸有助于提高物體的定位精度,?但是如果待檢測(cè)物體存在遮擋,?該方法將難以奏效.

圖?5?R-CNN的計(jì)算流程[44]

Figure 5?Calculation flow of R-CNN[44]

He等[68]針對(duì)R-CNN速度慢{以及要求輸入圖像塊尺寸固定}的問題,?提出空間金字塔池化(Spatial pyramid pooling, SPP)模型.在R-CNN中,?要將提取到的目標(biāo)候選區(qū)域變換到固定尺寸,?再輸入到卷積神經(jīng)網(wǎng)絡(luò), He等加入了一個(gè)空間金字塔池化層來避免了這個(gè)限制. SPP-net網(wǎng)絡(luò)不論輸入圖像的尺寸大小,?都能產(chǎn)生固定長度的特征表示. SPP-net是對(duì)整幅圖像提取特征,?在最后一層卷積層得到特征圖后,?再針對(duì)每個(gè)候選區(qū)域在特征圖上進(jìn)行映射,?由此得到候選區(qū)域的特征.因?yàn)楹蜻x區(qū)域的尺寸各不相同,?導(dǎo)致它們映射所得到的特征圖大小也不同,?但CNN的全連接層需要固定維度的輸入,?因此引入了空間金字塔池化層來把特征轉(zhuǎn)換到相同的維度.空間金字塔池化的思想來源于空間金字塔模型(Spatial pyramid model, SPM)[43],?它采用多個(gè)尺度的池化來替代原來單一的池化. SPP層用不同大小的池化窗口作用于卷積得到的特征圖,?池化窗口的大小和步長根據(jù)特征圖的尺寸進(jìn)行動(dòng)態(tài)計(jì)算. SPP-net對(duì)于一幅圖像的所有候選區(qū)域,?只需要進(jìn)行一次卷積過程,避免了重復(fù)計(jì)算,?顯著提高了計(jì)算效率,?而且空間金字塔池化層使得檢測(cè)網(wǎng)絡(luò)可以處理任意尺寸的圖像,?因此可以采用多尺度圖像來訓(xùn)練網(wǎng)絡(luò),?從而使得網(wǎng)絡(luò)對(duì)目標(biāo)的尺度有很好的魯棒性.該方法在速度上比R-CNN提高24 ~ 102倍,?并且在PASCAL VOC 2007和Caltech 101數(shù)據(jù)集上取得了當(dāng)時(shí)最好的成績.但是它存在以下缺點(diǎn): 1) SPP-net的檢測(cè)過程是分階段的,?在提取特征后用SVM分類,?然后還要進(jìn)一步進(jìn)行邊框回歸,?這使得訓(xùn)練過程復(fù)雜化; 2) CNN提取的特征存儲(chǔ)需要的空間和時(shí)間開銷大; 3)?在微調(diào)階段, SPP-net只能更新空間金字塔池化層后的全連接層,?而不能更新卷積層,?這限制了檢測(cè)性能的提升.

后來, Girshick等[58]對(duì)R-CNN和SPP-net進(jìn)行了改進(jìn),?提出能夠?qū)崿F(xiàn)特征提取、區(qū)域分類和邊框回歸的端到端聯(lián)合訓(xùn)練的Fast R-CNN算法,?計(jì)算流程如圖?6所示.與R-CNN類似, Fast R-CNN首先在圖像中提取感興趣區(qū)域(Regions of Interest, RoI);?然后采用與SPP-net相似的處理方式,?對(duì)每幅圖像只進(jìn)行一次卷積,?在最后一個(gè)卷積層輸出的特征圖上對(duì)每個(gè)RoI進(jìn)行映射,?得到相應(yīng)的RoI的特征圖,?并送入RoI池化層(相當(dāng)于單層的SPP層,?通過該層把各尺寸的特征圖統(tǒng)一到相同的大小);?最后經(jīng)過全連接層得到兩個(gè)輸出向量,?一個(gè)進(jìn)行Softmax分類,?另一個(gè)進(jìn)行邊框回歸.在微調(diào)階段, Fast R-CNN采用一種新的層級(jí)采樣方法,?先采樣圖像,?再從采樣出的圖像中對(duì)RoI進(jìn)行采樣,?同一幅圖像的RoI共享計(jì)算和內(nèi)存,?使得訓(xùn)練更加高效. Fast R-CNN采用Softmax分類與邊框回歸一起進(jìn)行訓(xùn)練,?省去了特征存儲(chǔ),?提高了空間和時(shí)間利用率,?同時(shí)分類和回歸任務(wù)也可以共享卷積特征,?相互促進(jìn).與R-CNN相比,?在訓(xùn)練VGG網(wǎng)絡(luò)時(shí), Fast R-CNN的訓(xùn)練階段快9倍,?測(cè)試階段快213倍;?與SPP-net相比, Fast R-CNN的訓(xùn)練階段快3倍,?測(cè)試階段快10倍,?并且檢測(cè)精度有一定提高.然而, Fast R-CNN仍然存在速度上的瓶頸,?就是區(qū)域建議步驟耗費(fèi)了整個(gè)檢測(cè)過程的大量時(shí)間.

圖?6?Fast R-CNN的計(jì)算流程[58]

Figure 6?Calculation flow of Fast R-CNN[58]

為了解決區(qū)域建議步驟消耗大量計(jì)算資源,?導(dǎo)致目標(biāo)檢測(cè)不能實(shí)時(shí)的問題, Ren等[7]提出區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN),?并且把RPN和Fast R-CNN融合到一個(gè)統(tǒng)一的網(wǎng)絡(luò)(稱為Faster R-CNN),?共享卷積特征. RPN將一整幅圖像作為輸入,?輸出一系列的矩形候選區(qū)域.它是一個(gè)全卷積網(wǎng)絡(luò)模型,?通過在與Fast R-CNN共享卷積層的最后一層輸出的特征圖上滑動(dòng)一個(gè)小型網(wǎng)絡(luò),?這個(gè)網(wǎng)絡(luò)與特征圖上的小窗口全連接,?每個(gè)滑動(dòng)窗口映射到一個(gè)低維的特征向量,?再輸入給兩個(gè)并列的全連接層,?即分類層(cls layer)和邊框回歸層(reg layer),?由于網(wǎng)絡(luò)是以滑動(dòng)窗的形式來進(jìn)行操作,?所以全連接層的參數(shù)在所有空間位置是共享的.因此該結(jié)構(gòu)由一個(gè)卷積層后連接兩個(gè)并列的1×1卷積層實(shí)現(xiàn),?如圖?7所示.對(duì)于每個(gè)小窗口,?以中心點(diǎn)為基準(zhǔn)點(diǎn)選取k?(作者采用k=9?)個(gè)不同尺度、不同長寬比的Anchor.對(duì)于每個(gè)Anchor,?分類層輸出2個(gè)值,?分別表示其屬于目標(biāo)的概率與屬于背景的概率;?邊框回歸層輸出4個(gè)值,?表示其坐標(biāo)位置. RPN的提出,?以及與Fast R-CNN進(jìn)行卷積特征的共享,?使得區(qū)域建議步驟的計(jì)算代價(jià)很小.與以前的方法相比,?提取的候選區(qū)域數(shù)量大幅減少,?同時(shí)改進(jìn)了候選區(qū)域的質(zhì)量,?從而提高了整個(gè)目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能,?幾乎可以做到實(shí)時(shí)檢測(cè).在PASCAL VOC 2007和2012、MS COCO等數(shù)據(jù)集上, Faster R-CNN取得了當(dāng)時(shí)最高的檢測(cè)精度.但是由于深度特征丟失了物體的細(xì)節(jié)信息,?造成定位性能差, Faster R-CNN對(duì)小尺寸物體的檢測(cè)效果不好.

圖?7?區(qū)域建議網(wǎng)絡(luò)的基本結(jié)構(gòu)[7]

Figure 7?Basic structure of region proposal network[7]

Bell等[69]提出的ION (Inside-outside net)也是基于區(qū)域建議的目標(biāo)檢測(cè)方法.為了提高檢測(cè)精度, ION同時(shí)利用RoI的內(nèi)部和外部信息.其中內(nèi)部信息是指多尺度的信息提取.不同于以前的方法將最后一層卷積層輸出作為特征圖, Bell等將不同卷積層的特征連接在一起,?作為一個(gè)多尺度特征用來預(yù)測(cè),?這樣做的目的是對(duì)于一些很小的物體,?不會(huì)丟失在低層的高分辨率信息. RoI的外部信息是指上下文信息,?在視覺識(shí)別中上下文信息具有很重要的作用.為了得到上下文特征, Bell等采用沿著圖像的橫軸或縱軸獨(dú)立地使用RNN的方法,?并把它們的輸出組合在一起,?重復(fù)該過程得到的輸出作為上下文特征.最后把這兩種特征組合在一起,?并調(diào)整到固定的大小輸入到全連接層,?進(jìn)行Softmax分類和邊框回歸.該方法在檢測(cè)小物體上的性能比以前的方法更好,?在PASCAL VOC 2012目標(biāo)檢測(cè)任務(wù)上將平均精度mAP從73.9 %提高到76.4 %,?在MS COCO 2015目標(biāo)檢測(cè)任務(wù)上取得第3名的成績.

Yang等[70]為了處理不同尺度的目標(biāo),?并且提高對(duì)候選區(qū)域的計(jì)算效率,?提出了兩個(gè)策略,?統(tǒng)稱為SDP-CRC.一個(gè)策略是采用與尺度相關(guān)的池化層(Scale-dependent pooling, SDP),?由于不同尺寸的物體可能在不同的卷積層上得到不同的響應(yīng),?小尺寸物體會(huì)在淺層得到強(qiáng)響應(yīng),?而大尺寸物體可能在深層得到強(qiáng)響應(yīng).基于這一思想, SDP根據(jù)每個(gè)候選區(qū)域的尺寸,?從對(duì)應(yīng)的卷積特征圖上池化特征.對(duì)于小尺度的候選區(qū)域,?從第三層卷積特征圖上池化特征;?對(duì)于中等尺度的候選區(qū)域,?從第四層卷積特征圖上池化特征;?對(duì)于大尺度的候選區(qū)域,?從第五層卷積特征圖上池化特征.另一個(gè)策略是采用級(jí)聯(lián)拒絕分類器(Cascaded rejection classifier, CRC),?快速排除一些明顯不包含目標(biāo)的候選區(qū)域,?只保留那些更可能包含目標(biāo)的候選區(qū)域,?交由Fast R-CNN做最終分類.與Fast R-CNN相比,?該方法能夠更加準(zhǔn)確地檢測(cè)小尺寸目標(biāo),?在平均檢測(cè)精度和檢測(cè)速度上都有很大提升.

為了提高Fast R-CNN訓(xùn)練時(shí)的效率, Shrivastava等[71]提出了困難樣本在線挖掘(Online hard example mining, OHEM)的思想,?該方法利用Bootstrapping[72]技術(shù),?對(duì)隨機(jī)梯度下降算法進(jìn)行修改,?使得在訓(xùn)練過程中加入在線挖掘困難樣本的策略. OHEM機(jī)制的加入提高了Fast R-CNN方法在PASCAL VOC 2007和2012上的檢測(cè)精度.

在Faster R-CNN基礎(chǔ)上, Kong等[73]提出了HyperNet,?計(jì)算流程如圖?8所示.通過把不同卷積層得到的特征圖像聚集起來得到超特征(Hyper feature)來獲得質(zhì)量更高的候選區(qū)域.由于不同卷積層的輸出尺寸不同,?較淺層的特征圖像分辨率較高,?邊框定位精度高,?但是召回率低;?較深層的特征圖像分辨率低,?對(duì)小尺寸物體的邊框定位精度低,?但是這些特征有利于提高召回率.因此,?他們通過多層特征的融合,?解決了對(duì)小物體很難提取到精細(xì)特征的問題.該方法在每幅圖像中僅提取100個(gè)候選區(qū)域,?在PASCAL VOC 2007和2012數(shù)據(jù)集上獲得了很好的檢測(cè)效果.

圖?8?HyperNet的計(jì)算流程[73]

Figure 8?Calculation flow of HyperNet[73]

許多基于區(qū)域建議的目標(biāo)檢測(cè)方法存在一個(gè)共同問題,?就是有一部分子網(wǎng)絡(luò)需要重復(fù)計(jì)算.例如最早提出的R-CNN,?每一個(gè)候選區(qū)域都要經(jīng)歷一次CNN網(wǎng)絡(luò)提取特征,?這導(dǎo)致目標(biāo)檢測(cè)速度非常慢.之后提出的Fast R-CNN和Faster R-CNN等方法,?在最后一個(gè)卷積層通過RoI pooling把每一個(gè)候選區(qū)域變成一個(gè)尺寸一致的特征圖,?但是對(duì)于每一個(gè)特征圖,?還要經(jīng)過若干次全連接層才能得到結(jié)果.于是, Dai等[74]提出了一種新的基于區(qū)域的全卷積網(wǎng)絡(luò)檢測(cè)方法R-FCN.為了給網(wǎng)絡(luò)引入平移變化,?用專門的卷積層構(gòu)建位置敏感的分?jǐn)?shù)圖(Position-sensitive score maps),?編碼感興趣區(qū)域的相對(duì)空間位置信息.該網(wǎng)絡(luò)解決了Faster R-CNN由于重復(fù)計(jì)算全連接層而導(dǎo)致的耗時(shí)問題,?實(shí)現(xiàn)了讓整個(gè)網(wǎng)絡(luò)中所有的計(jì)算都可以共享.

最近, Kim等[75]提出PVANET網(wǎng)絡(luò),?在TITAN X上實(shí)現(xiàn)了基于輕量級(jí)模型的目標(biāo)檢測(cè),?處理一幅圖像僅需要46 ms,?在PASCAL VOC 2012數(shù)據(jù)集上的檢測(cè)平均精度達(dá)到82.5 %.為了減少網(wǎng)絡(luò)參數(shù), PVANET采用了Concatenated ReLU[76]結(jié)構(gòu),?在不損失精度的情況下使通道數(shù)減少一半,?并在拼接操作之后加入了尺度變化和偏移.網(wǎng)絡(luò)中還加入了Inception[64]模型來更有效地捕捉各種尺度的物體,?以及HyperNet[73]中多尺度特征融合的思想,?來增加對(duì)細(xì)節(jié)的提取.

3.3.2?無區(qū)域建議(Proposal-free)的方法

基于區(qū)域建議的目標(biāo)檢測(cè)方法不能利用局部目標(biāo)在整幅圖像中的空間信息,?所以一些研究者開展了無區(qū)域建議的目標(biāo)檢測(cè)研究,?主要采用回歸的思想.早期提出的無區(qū)域建議的方法,?檢測(cè)效果不太理想.

DPM模型[2]是一種性能較好的傳統(tǒng)目標(biāo)檢測(cè)模型.它對(duì)目標(biāo)內(nèi)在部件進(jìn)行結(jié)構(gòu)化建模,?可以更好地適應(yīng)非剛體目標(biāo)的較大形變,?大大提高了檢測(cè)性能.但是DPM模型的構(gòu)建需要關(guān)于物體結(jié)構(gòu)的先驗(yàn)知識(shí)(例如部件個(gè)數(shù)),?并且模型訓(xùn)練也比較復(fù)雜. Szegedy等[1]將目標(biāo)檢測(cè)看做一個(gè)回歸問題,?估計(jì)圖像中的目標(biāo)位置和目標(biāo)類型概率.作者通過采用基于深度神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)的回歸來輸出目標(biāo)包圍窗口的二元掩膜(Mask),?從掩膜中提取目標(biāo)窗口.該方法的運(yùn)行框架如圖?9所示,?網(wǎng)絡(luò)中采用的卷積神經(jīng)網(wǎng)絡(luò)是AlexNet結(jié)構(gòu),?但是用回歸層代替最后一層.基于DNN的回歸不僅能學(xué)習(xí)到有利于分類的特征表示,?還能捕獲到很強(qiáng)的目標(biāo)幾何信息, Szegedy等還采用DNN定位器進(jìn)一步提高了定位準(zhǔn)確度.由于用單一的掩膜很難區(qū)分出識(shí)別的前景是單個(gè)物體還是粘連的多個(gè)物體,?作者采用了多個(gè)掩膜,?為每種掩膜訓(xùn)練一個(gè)單獨(dú)的DNN,?這也使得網(wǎng)絡(luò)訓(xùn)練復(fù)雜度很高,?很難擴(kuò)展到多種目標(biāo)類型.

圖?9?基于DNN回歸的目標(biāo)檢測(cè)框架[1]

Figure 9?Object detection framework based on DNN regression[1]

Sermanet等[77]提出Overfeat模型,?把一個(gè)卷積神經(jīng)網(wǎng)絡(luò)同時(shí)用于分類、定位和檢測(cè)這幾個(gè)不同的任務(wù).卷積層作為特征提取層保持不變,?只需要針對(duì)不同的任務(wù)改變網(wǎng)絡(luò)的最后幾層為分類或回歸層. Overfeat的模型結(jié)構(gòu)與AlexNet結(jié)構(gòu)[57]基本相同.其中,?前面5個(gè)卷積層為不同任務(wù)的共享層,?其余的層則根據(jù)任務(wù)進(jìn)行相應(yīng)的調(diào)整,?并對(duì)網(wǎng)絡(luò)做了一些改動(dòng).為了避免圖像的某些位置被忽略, Sermanet等采用偏置池化層來替換最后一層池化層,?既實(shí)現(xiàn)了池化操作,?也減小了采樣間隔. Overfeat訓(xùn)練分類模型時(shí)只使用單個(gè)尺度(221×221?)進(jìn)行訓(xùn)練,?測(cè)試時(shí)使用多個(gè)尺度輸入圖像,?沒有使用AlexNet中的對(duì)比歸一化.對(duì)于檢測(cè)問題,?傳統(tǒng)的方法是采用不同尺寸的滑動(dòng)窗對(duì)整幅圖像進(jìn)行密集采樣,?然后對(duì)每一個(gè)采樣所得的圖像塊進(jìn)行檢測(cè),?從而確定目標(biāo)物體的位置. Overfeat使用CNN來進(jìn)行滑動(dòng)窗操作,?避免了對(duì)各圖像塊的單獨(dú)操作,?提高了算法效率;?而且將全連接層看作卷積層,?使得輸入圖像的尺寸不受限制.但是Overfeat對(duì)于較小尺寸目標(biāo)的識(shí)別依然存在困難.

近年來, Redmon等[78]提出了一種新的無區(qū)域建議的目標(biāo)檢測(cè)方法,?稱為YOLO (You only look once).作為一種統(tǒng)一的、實(shí)時(shí)的檢測(cè)框架, YOLO的檢測(cè)速度非常快,?可以達(dá)到45 fps (Frame per second). YOLO用一個(gè)單一的卷積網(wǎng)絡(luò)直接基于整幅圖像來預(yù)測(cè)包圍邊框的位置及所屬類型,?首先將一幅圖像分成S×S?個(gè)網(wǎng)格,每個(gè)網(wǎng)格要預(yù)測(cè)B個(gè)邊框,?每個(gè)邊框除了要回歸自身的位置之外,?還要附帶預(yù)測(cè)一個(gè)置信度.置信度不僅反映了包含目標(biāo)的可信程度,?也反映了預(yù)測(cè)位置的準(zhǔn)確度.另外對(duì)每個(gè)網(wǎng)格還要預(yù)測(cè)C個(gè)類型的條件概率,?將這些預(yù)測(cè)結(jié)果編碼為一個(gè)S×S×(B×5+C)維的張量(Tensor).整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)類似于GoogLeNet,?包含24個(gè)卷積層和2個(gè)全連接層,?卷積層用來從圖像中提取特征,?全連接層預(yù)測(cè)邊框的位置坐標(biāo)和類型概率. YOLO模型通過采用空間限制,?減少了對(duì)同一目標(biāo)的重復(fù)檢測(cè),?大大提高了效率,?能夠達(dá)到實(shí)時(shí)的效果.但是YOLO的整體性能不如Fast R-CNN和Faster R-CNN,?并且對(duì)于相鄰的目標(biāo)和成群的小尺寸目標(biāo)(例如成群的鳥)的檢測(cè)效果不好,?對(duì)于新的或異常尺度的目標(biāo)泛化能力較差.

與YOLO類似, Najibi等[79]提出的G-CNN模型也著重于檢測(cè)速度的提升.該方法將目標(biāo)檢測(cè)模型轉(zhuǎn)化為迭代回歸問題,?通過對(duì)整個(gè)圖像進(jìn)行不同尺度的網(wǎng)格劃分得到初始檢測(cè)框,?然后采用分段回歸模型多次迭代,?不斷提高邊框準(zhǔn)確度. G-CNN使用了約180個(gè)初始邊框,?經(jīng)過5次迭代達(dá)到與Fast R-CNN相當(dāng)?shù)臋z測(cè)精度,但是計(jì)算速度比Fast R-CNN快5倍.

針對(duì)YOLO存在的不足, Liu等[80]提出SSD模型,?在提高mAP的同時(shí)兼顧實(shí)時(shí)性的要求. SSD使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行卷積后,?在不同層次的特征圖上生成一系列不同尺寸和長寬比的邊框.在測(cè)試階段,?該網(wǎng)絡(luò)對(duì)每一個(gè)邊框中分別包含各個(gè)類型的物體的可能性進(jìn)行預(yù)測(cè),?并且調(diào)整邊框來適應(yīng)目標(biāo)物體的形狀.在PASCAL VOC、MS COCO和ILSVRC數(shù)據(jù)集上的實(shí)驗(yàn)顯示, SSD在保證精度的同時(shí),?其速度要比用候選區(qū)域的方法快很多.與YOLO相比,?即使是在輸入圖像較小的情況下, SSD也能取得更高的精度.例如輸入300×300?尺寸的PASCAL VOC 2007測(cè)試圖像,?在單臺(tái)Nvidia Titan X上的處理速度達(dá)到58 fps,?平均精度mAP達(dá)到72.1%;如果輸入圖像尺寸為500×500?,?平均精度mAP達(dá)到75.1%.

與基于候選區(qū)域的方法相比, YOLO定位準(zhǔn)確率低且召回率不高.因此, Redmon等[81]提出了改進(jìn)的YOLO模型,?記作YOLOv2,?主要目標(biāo)是在保持分類準(zhǔn)確率的同時(shí)提高召回率和定位準(zhǔn)確度.通過采用多尺度訓(xùn)練、批規(guī)范化和高分辨率分類器等多種策略,?提升了檢測(cè)準(zhǔn)確率的同時(shí)速度超過其他檢測(cè)方法,?例如Faster R-CNN和SSD. Redmon等還提出了一種新的聯(lián)合訓(xùn)練算法,?同時(shí)在檢測(cè)數(shù)據(jù)集和分類數(shù)據(jù)集上訓(xùn)練物體檢測(cè)器,?用檢測(cè)數(shù)據(jù)集的數(shù)據(jù)學(xué)習(xí)物體的準(zhǔn)確位置,?用分類數(shù)據(jù)集的數(shù)據(jù)增加分類的類別量,?提升健壯性,采用這種方法訓(xùn)練出來的YOLO9000模型可以實(shí)時(shí)地檢測(cè)超過9 000種物體分類.

3.3.3?總結(jié)

基于區(qū)域建議的目標(biāo)檢測(cè)方法,?特別是R-CNN系列方法(包括R-CNN、SPPnet、Fast R-CNN和Faster R-CNN等),?取得了非常好的檢測(cè)精度,?但是在速度方面還達(dá)不到實(shí)時(shí)檢測(cè)的要求.在不損失精度的情況下實(shí)現(xiàn)實(shí)時(shí)檢測(cè),?或者在提高檢測(cè)精度的同時(shí)兼顧速度,?逐漸成為目標(biāo)檢測(cè)的研究趨勢(shì). R-FCN比Faster R-CNN計(jì)算效率更高,?在檢測(cè)精度和速度上平衡的很好. PVANET是一種輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu),?通過調(diào)整和結(jié)合最新的技術(shù)達(dá)到最小化計(jì)算資源的目標(biāo).無區(qū)域建議的方法(例如YOLO)雖然能夠達(dá)到實(shí)時(shí)的效果,?但是其檢測(cè)精度與Faster R-CNN相比有很大的差距. SSD對(duì)YOLO進(jìn)行了改進(jìn),?同時(shí)兼顧檢測(cè)精度和實(shí)時(shí)性的要求,?在滿足實(shí)時(shí)性的條件下,?縮小了與Faster R-CNN檢測(cè)精度的差距. YOLOv2在檢測(cè)精度和速度上都超過了SSD.一些目標(biāo)視覺檢測(cè)方法在公共數(shù)據(jù)集上的性能對(duì)比如圖?10所示.

圖?10?一些目標(biāo)視覺檢測(cè)方法在公共數(shù)據(jù)集上的性能比較

Figure 10?Performance comparison of some object visual detection methods on public datasets

4?思考與展望

近年來,?由于深度學(xué)習(xí)技術(shù)的迅猛發(fā)展和應(yīng)用,?目標(biāo)視覺檢測(cè)研究取得了很大進(jìn)展.未來若干年,?基于深度學(xué)習(xí)的目標(biāo)視覺檢測(cè)研究仍然是該領(lǐng)域的主流研究方向.不同于傳統(tǒng)方法利用手工設(shè)計(jì)的特征,?可能忽視掉一些重要的特征信息,?深度學(xué)習(xí)方法可以通過端到端訓(xùn)練自動(dòng)學(xué)習(xí)與任務(wù)相關(guān)的特征,?通過多層的非線性變換獲得圖像的高層次抽象表示.盡管深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)領(lǐng)域取得了一定成功,?但是還存在一些問題:

1)?深度學(xué)習(xí)理論還不完善

深度學(xué)習(xí)的優(yōu)勢(shì)之一是能夠自動(dòng)學(xué)習(xí)表達(dá)能力強(qiáng)的抽象特征,?不需要由專家手工進(jìn)行特征設(shè)計(jì)和選擇.但是,?將深度學(xué)習(xí)模型應(yīng)用于目標(biāo)檢測(cè)時(shí)還缺乏足夠的理論支撐,?學(xué)習(xí)到的模型的可解釋性較弱.目前的研究通常是把深度學(xué)習(xí)模型當(dāng)作一個(gè)黑盒子(Black box)來直接使用,?對(duì)于如何選擇和構(gòu)建模型、如何確定模型的深度以及深度學(xué)習(xí)的本質(zhì)等基本問題還沒有給出很好的解釋.理論的不完善導(dǎo)致研究時(shí)缺乏充分的原理性指導(dǎo),?在設(shè)計(jì)新的模型時(shí)往往只能憑借經(jīng)驗(yàn)和運(yùn)氣. Pepik等[82]利用Pascal 3D+[83]數(shù)據(jù)集對(duì)R-CNN方法進(jìn)行分析,?結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)對(duì)于場景和目標(biāo)的各種外觀因素的變化不具有視覺不變性,?目前大多數(shù)深度學(xué)習(xí)方法在處理多目標(biāo)遮擋和小尺寸目標(biāo)等困難問題時(shí)效果還不是很好,?增加額外的訓(xùn)練數(shù)據(jù)并不能克服這些缺陷,?有必要對(duì)模型結(jié)構(gòu)做出改變.因此必須進(jìn)一步完善深度學(xué)習(xí)理論,?為改進(jìn)模型結(jié)構(gòu)、加速模型訓(xùn)練和提高檢測(cè)效果等提供指導(dǎo).

2)?大規(guī)模多樣性數(shù)據(jù)集還很缺乏

深度學(xué)習(xí)模型主要是數(shù)據(jù)驅(qū)動(dòng)的,?依賴于大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集.對(duì)一個(gè)特定的任務(wù),?增加訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性,?可以提高深度學(xué)習(xí)模型的泛化能力,?避免過擬合.但是目前缺乏可用于目標(biāo)檢測(cè)的大規(guī)模多樣性數(shù)據(jù)集,?即便是最大的公共數(shù)據(jù)集也只提供了很有限的標(biāo)記類型,?比如PASCAL VOC有20個(gè)類型, MS COCO有80個(gè)類型, ImageNet有1 000個(gè)類型.由人工采集和標(biāo)注含有大量目標(biāo)類型的大規(guī)模多樣性數(shù)據(jù)集非常費(fèi)時(shí)耗力,?并且由于光照、天氣、復(fù)雜背景、目標(biāo)外觀、攝像機(jī)視角和物體遮擋等導(dǎo)致的復(fù)雜性和挑戰(zhàn)性,?同一類型目標(biāo)在不同圖像中可能看起來非常不同,?使得人工標(biāo)注變得困難甚至容易出錯(cuò).雖然可以采用眾包方法(例如Amazon MTurk[84])進(jìn)行數(shù)據(jù)標(biāo)注,?但是同樣要耗費(fèi)大量的人力財(cái)力,?并且標(biāo)注困難.另外在一些特殊領(lǐng)域(例如在醫(yī)療和軍事等領(lǐng)域)很難獲得大規(guī)模實(shí)際圖像.標(biāo)記數(shù)據(jù)集的不足,?可能導(dǎo)致訓(xùn)練出的目標(biāo)檢測(cè)模型的可靠性和魯棒性達(dá)不到要求.目前許多目標(biāo)檢測(cè)模型都采用先在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,?再針對(duì)具體任務(wù)進(jìn)行微調(diào)的方式.如果針對(duì)具體的目標(biāo)檢測(cè)任務(wù),?有大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集可供使用,?那么目標(biāo)檢測(cè)效果可以得到進(jìn)一步提高.

為了解決上述問題,?我們認(rèn)為可以采用平行視覺[85-86]的思路進(jìn)行研究. 2016年,?王坤峰等[85]將復(fù)雜系統(tǒng)建模與調(diào)控的ACP (Artificial societies, computational experiments, and parallel execution)理論[87-89]推廣到視覺計(jì)算領(lǐng)域,?提出平行視覺的基本框架和關(guān)鍵技術(shù).其核心是利用人工場景來模擬和表示復(fù)雜挑戰(zhàn)的實(shí)際場景,?通過計(jì)算實(shí)驗(yàn)進(jìn)行各種視覺模型的設(shè)計(jì)與評(píng)估,?最后借助平行執(zhí)行來在線優(yōu)化視覺系統(tǒng),?實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境的智能感知與理解.?圖?11顯示了平行視覺的基本框架.為了解決復(fù)雜環(huán)境下的目標(biāo)視覺檢測(cè)問題,?我們可以按照平行視覺的ACP三步曲開展研究.

圖?11?平行視覺的基本框架[85]

Figure 11?Basic framework of parallel vision[85]

1)?人工場景(Artificial scenes)

構(gòu)建色彩逼真的人工場景,?模擬實(shí)際場景中可能出現(xiàn)的環(huán)境條件,?自動(dòng)得到精確的目標(biāo)位置、尺寸和類型等標(biāo)注信息,?生成大規(guī)模多樣性數(shù)據(jù)集.另外,?實(shí)際場景通常不可重復(fù),?而人工場景具有可重復(fù)性,?通過固定一些物理模型和參數(shù),?改變另外一些,?可以定制圖像生成要素,?以便從各種角度評(píng)價(jià)視覺算法.人工場景可以不受現(xiàn)有實(shí)際場景的限制,?預(yù)見未來的實(shí)際場景,?為視覺算法設(shè)計(jì)與評(píng)估提供超前信息.總之,?人工場景能夠提供一種可靠的數(shù)據(jù)來源,?是對(duì)實(shí)際場景數(shù)據(jù)的有效補(bǔ)充.

2)?計(jì)算實(shí)驗(yàn)(Computational experiments)

結(jié)合人工場景數(shù)據(jù)集和實(shí)際場景數(shù)據(jù)集,?進(jìn)行全面充分的計(jì)算實(shí)驗(yàn),?把計(jì)算機(jī)變成視覺計(jì)算實(shí)驗(yàn)室,?設(shè)計(jì)和評(píng)價(jià)視覺算法,?提高其在復(fù)雜環(huán)境下的性能.與基于實(shí)際場景的實(shí)驗(yàn)相比,?在人工場景中實(shí)驗(yàn)過程可控、可觀、可重復(fù),?并且可以真正地產(chǎn)生實(shí)驗(yàn)大數(shù)據(jù),?用于知識(shí)提取和算法優(yōu)化.計(jì)算實(shí)驗(yàn)包含兩種操作模式,?即學(xué)習(xí)與訓(xùn)練、實(shí)驗(yàn)與評(píng)估.學(xué)習(xí)與訓(xùn)練是針對(duì)視覺算法設(shè)計(jì)而言,?實(shí)驗(yàn)與評(píng)估是針對(duì)視覺算法評(píng)價(jià)而言.兩種操作模式都需要結(jié)合人工場景數(shù)據(jù)集和實(shí)際場景數(shù)據(jù)集,?能夠增加實(shí)驗(yàn)的深度和廣度.

3)?平行執(zhí)行(Parallel execution)

將視覺算法在實(shí)際場景與人工場景中平行執(zhí)行,?使模型訓(xùn)練和評(píng)估在線化、長期化,?通過實(shí)際與人工之間的虛實(shí)互動(dòng),?持續(xù)優(yōu)化視覺系統(tǒng).由于應(yīng)用環(huán)境的復(fù)雜性、挑戰(zhàn)性和變化性,?不存在一勞永逸的解決方案,只能接受這些困難,?在系統(tǒng)運(yùn)行過程中不斷調(diào)節(jié)和改善.平行執(zhí)行基于物理和網(wǎng)絡(luò)空間的大數(shù)據(jù),?以人工場景的在線構(gòu)建和利用為主要手段,?通過在線自舉(Online bootstrapping)或困難實(shí)例挖掘(Hard example mining),?自動(dòng)挖掘?qū)е乱曈X算法失敗或性能不佳的實(shí)例,?利用它們重新調(diào)節(jié)視覺算法和系統(tǒng),?提高對(duì)動(dòng)態(tài)變化環(huán)境的自適應(yīng)能力.

目前,?已經(jīng)有一些工作基于人工場景數(shù)據(jù)進(jìn)行目標(biāo)檢測(cè)模型的訓(xùn)練.例如, Peng等[90]利用3D CAD模型自動(dòng)合成2D圖像,?使用這種虛擬圖像數(shù)據(jù)來擴(kuò)大深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集非常有效,?尤其是在真實(shí)的訓(xùn)練數(shù)據(jù)很有限或不能很好地匹配目標(biāo)領(lǐng)域的情況下,?避免了代價(jià)昂貴的大規(guī)模手工標(biāo)注. Johnson-Roberson等[91]利用游戲引擎生成逼真的虛擬圖像,?用于目標(biāo)檢測(cè)模型的訓(xùn)練.實(shí)驗(yàn)表明,?在KITTI數(shù)據(jù)集上,?使用大規(guī)模的虛擬圖像集訓(xùn)練的模型比基于較小規(guī)模的真實(shí)世界數(shù)據(jù)集訓(xùn)練的檢測(cè)器精度更高.但是,?已有的工作主要集中在人工場景和計(jì)算實(shí)驗(yàn),?忽視了平行執(zhí)行.我們認(rèn)為,?將視覺算法在實(shí)際場景與人工場景中平行執(zhí)行,持續(xù)優(yōu)化視覺系統(tǒng),?提高其在復(fù)雜環(huán)境下的魯棒性和適應(yīng)性是非常重要的.

許多機(jī)器學(xué)習(xí)算法假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)具有相同的數(shù)據(jù)分布以及特征空間[92],?然而使用ACP時(shí)會(huì)遇到虛擬數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布差異問題.遷移學(xué)習(xí)[93]能夠很好解決分布差異問題.通過遷移學(xué)習(xí),?我們能夠運(yùn)用ACP中人工模擬出的虛擬數(shù)據(jù)來不斷提高模型的精準(zhǔn)度與魯棒性.

另外,?在深度學(xué)習(xí)模型自身方面,?如何提高模型的可解釋性,?改善模型結(jié)構(gòu),?設(shè)計(jì)新的優(yōu)化方法,?降低模型訓(xùn)練和應(yīng)用時(shí)的計(jì)算復(fù)雜性,?提高計(jì)算效率,?得到更加有用(More effective)和更加有效的(More efficient)深度學(xué)習(xí)模型,?這些問題都需要深入研究.目前,?基于候選區(qū)域的目標(biāo)檢測(cè)方法精度最高,?而基于回歸的SSD方法在實(shí)時(shí)性上表現(xiàn)最好,?如何將這兩類方法相結(jié)合,?借鑒和吸收彼此的優(yōu)點(diǎn),?在檢測(cè)精度和速度上取得新的突破還有待研究.

5?結(jié)論

目標(biāo)視覺檢測(cè)在計(jì)算機(jī)視覺領(lǐng)域具有重要的研究意義和應(yīng)用價(jià)值,?深度學(xué)習(xí)是目前最熱門的機(jī)器學(xué)習(xí)方法,?被廣泛研究和應(yīng)用.本文綜述了深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用進(jìn)展與展望.首先說明了目標(biāo)視覺檢測(cè)的基本流程和常用的公共數(shù)據(jù)集,?然后重點(diǎn)介紹了深度學(xué)習(xí)方法在目標(biāo)視覺檢測(cè)中的最新應(yīng)用進(jìn)展,?最后對(duì)深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)研究中的困難和挑戰(zhàn)進(jìn)行了分析,?對(duì)未來的發(fā)展趨勢(shì)進(jìn)行了思考與展望.

在今后的工作中,?還需要進(jìn)一步完善深度學(xué)習(xí)理論,?提高目標(biāo)視覺檢測(cè)的精度和效率.另外,?平行視覺作為一種新的智能視覺計(jì)算方法學(xué),?通過人工場景提供大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集,?通過計(jì)算實(shí)驗(yàn)全面設(shè)計(jì)和評(píng)價(jià)目標(biāo)視覺檢測(cè)方法,?通過平行執(zhí)行在線優(yōu)化視覺系統(tǒng),?能夠激發(fā)深度學(xué)習(xí)的潛力.我們相信,?深度學(xué)習(xí)與平行視覺相結(jié)合,?必將大力推動(dòng)目標(biāo)視覺檢測(cè)的研究和應(yīng)用進(jìn)展.

參考文獻(xiàn)

1???? Szegedy C, Toshev A, Erhan D. Deep neural networks for object detection. In: Proceedings of the 2013 Advances in Neural Information Processing Systems (NIPS). Harrahs and Harveys, Lake Tahoe, USA: MIT Press, 2013, 2553-2561.

2???? Felzenszwalb P F, Girshick R B, McAllester D, Ramanan D. Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

3???? Huang Kai-Qi, Ren Wei-Qiang, Tan Tie-Niu. A review on image object classification and detection. Chinese Journal of Computers, 2014, 37(6): 1225-1240.

(?黃凱奇,?任偉強(qiáng),?譚鐵牛.?圖像物體分類與檢測(cè)算法綜述.?計(jì)算機(jī)學(xué)報(bào), 2014, 37(6): 1225-1240.)

4???? Zhang X, Yang Y H, Han Z G, Wang H, Gao C. Object class detection: a survey. ACM Computing Surveys (CSUR), 2013, 46(1): Article No. 10.

5???? Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). San Diego, CA, USA: IEEE, 2005, 1:886-893

6???? Uijlings J R R, van de Sande K E A, Gevers T, Smeulders A W M. Selective search for object recognition. International Journal of Computer Vision, 2013, 104(2): 154-171.

7???? Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

8 He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, Nevada, USA: IEEE, 2016. 770-778

9???? Lampert C H, Blaschko M B, Hofmann T. Beyond sliding windows: object localization by efficient subwindow search. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, Alaska, USA: IEEE, 2008. 1-8

10?? An S J, Peursum P, Liu W Q, Venkatesh S. Efficient algorithms for subwindow search in object detection and localization. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, Florida, USA: IEEE, 2009. 264-271

11?? Wei Y C, Tao L T. Efficient histogram-based sliding window. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA: IEEE, 2010. 3003-3010

12?? Van de Sande K E A, Uijlings J R R, Gevers T, Smeulders A W M. Segmentation as selective search for object recognition. In: Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona, Spain: IEEE, 2011. 1879-1886

13?? Shotton J, Blake A, Cipolla R. Multiscale categorical object recognition using contour fragments. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(7): 1270-1281.

14?? Leibe B, Leonardis A, Schiele B. Robust object detection with interleaved categorization and segmentation. International Journal of Computer Vision, 2008, 77(1-3): 259-289.

15?? Arbelaez P, Maire M, Fowlkes C, Malik J. Contour detection and hierarchical image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 898-916.

16?? Shotton J, Winn J, Rother C, Criminisi A. TextonBoost: joint appearance, shape and context modeling for multi-class object recognition and segmentation. In: Proceedings of the 9th European Conference on Computer Vision (ECCV). Berlin, Heidelberg, Germany: Springer, 2006. 1-15

17?? Verbeek J, Triggs B. Region classification with Markov field aspect models. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Minneapolis, Minnesota, USA: IEEE, 2007. 1-8

18?? Cheng M M, Zhang Z M, Lin W Y, Torr P. BING: binarized normed gradients for objectness estimation at 300fps. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, USA: IEEE, 2014. 3286-3293

19?? Zitnick C L, Dollár P. Edge boxes:locating object proposals from edges. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland:Springer, 2014. 391-405

20?? Hosang J, Benenson R, Schiele B. How good are detection proposals, really? arXiv:1406.6962, 2014.

21?? Szegedy C, Reed S, Erhan D, Anguelov D, Ioffe S. Scalable, high-quality object detection. arXiv:1412.1441, 2014.

22?? Erhan D, Szegedy C, Toshev A, Anguelov D. Scalable object detection using deep neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE, 2014. 2155-2162

23?? Kuo W C, Hariharan B, Malik J. Deepbox: learning objectness with convolutional networks. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2479-2487

24?? Ghodrati A, Diba A, Pedersoli M, Tuytelaars T, Van Gool L. Deepproposal: hunting objects by cascading deep convolutional layers. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2578-2586

25?? Gidaris S, Komodakis N. Locnet: improving localization accuracy for object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 789-798

26?? Lawrence G R. Machine Perception of Three-dimensional Solids[Ph.D. dissertation], Massachusetts Institute of Technology, USA, 1963.

27?? Canny J. A computational approach to edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8(6): 679-698.

28?? Marr D, Hildreth E. Theory of edge detection. Proceedings of the Royal Society B: Biological Sciences, 1980, 207(1167): 187-217.

29?? Pellegrino F A, Vanzella W, Torre V. Edge detection revisited. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2004, 34(3): 1500-1518.

30?? Harris C, Stephens M. A combined corner and edge detector. In: Proceedings of the 4th Alvey Vision Conference. Manchester, UK: University of Sheffield Printing Unit, 1988. 147-151

31?? Rosten E, Porter R, Drummond T. Faster and better: a machine learning approach to corner detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 105-119.

32?? Lowe D G. Object recognition from local scale-invariant features. In: Proceedings of the 7th IEEE International Conference on Computer Vision (ICCV). Kerkyra, Greece: IEEE, 1999, 2:1150-1157

33?? Lowe D G. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004, 60(2): 91-110.

34?? Papageorgiou C P, Oren M, Poggio T. A general framework for object detection. In: Proceedings of the 6th International Conference on Computer Vision (ICCV). Bombay, India: IEEE, 1998. 555-562

35?? Ojala T, Pietikäinen M, Harwood D. Performance evaluation of texture measures with classification based on Kullback discrimination of distributions. In: Proceedings of the 12th IAPR International Conference on Pattern Recognition, Conference A: Computer Vision and Image Processing. Jerusalem, Israel, Palestine: IEEE, 1994, 1:582-585

36?? Ojala T, Pietikäinen M, Harwood D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, 1996, 29(1): 51-59.

37?? Yan J J, Lei Z, Yi D, Li S Z. Multi-pedestrian detection in crowded scenes: a global view. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA: IEEE, 2012. 3124-3129

38?? Yan J J, Zhang X C, Lei Z, Liao S C, Li S Z. Robust multi-resolution pedestrian detection in traffic scenes. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, Oregon, USA: IEEE, 2013. 3033-3040

39?? Yan J J, Zhang X C, Lei Z, Yi D, Li S Z. Structural models for face detection. In: Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Shanghai, China: IEEE, 2013. 1-6

40?? Zhu X X, Ramanan D. Face detection, pose estimation, and landmark localization in the wild. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA: IEEE, 2012. 2879-2886

41?? Yang Y, Ramanan D. Articulated pose estimation with flexible mixtures-of-parts. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2011. 1385-1392

42?? Yan J J, Lei Z, Wen L Y, Li S Z. The fastest deformable part model for object detection. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE, 2014. 2497-2504

43?? Lazebnik S, Schmid C, Ponce J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories. In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York, NY, USA: IEEE, 2006. 2169-2178

44?? Girshick R, Donahue J, Darrell T, Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE, 2014. 580-587

45?? Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z H, Karpathy A, Khosla A, Bernstein M, Berg A C, Fei-Fei L. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115(3): 211-252.

46?? Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A. The PASCAL visual object classes (VOC) challenge. International Journal of Computer Vision, 2010, 88(2): 303-338.

47?? Xiao J X, Hays J, Ehinger K A, Oliva A, Torralba A. Sun database: large-scale scene recognition from abbey to zoo. In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA: IEEE, 2010. 3485-3492

48?? Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P, Zitnick C L. Microsoft COCO: common objects in context. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland:Springer, 2014. 740-755

49?? Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors. Nature, 1986, 323(6088): 533-536.

50?? LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444.

51?? Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507.

52?? Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.

53?? Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. In: Proceedings of the 19th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2006. 153-160

54?? LeCun Y, Chopra S, Hadsell R, Ranzato M, Huang F. A tutorial on energy-based learning. Predicting Structured Data. Cambridge, MA, USA: MIT Press, 2006.

55?? Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2. In: Proceedings of the 2007 Advances in Neural Information Processing Systems (NIPS). Vancouver, British Columbia, Canada:MIT Press, 2007. 873-880

56?? Hinton G, Deng L, Yu D, Dahl G E, Mohamed A R, Jaitly N, Senior A, Vanhoucke V, Nguyen P, Sainath T N, Kingsbury B. Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

57?? Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: MIT Press, 2012. 1097-1105

58?? Girshick R. Fast R-CNN. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile:IEEE, 2015. 1440-1448

59?? Lecun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

60?? Vincent P, Larochelle H, Bengio Y, Manzagol P A. Extracting and composing robust features with denoising Autoencoders. In:Proceedings of the 25th IEEE International Conference on Machine Learning (ICML). Helsinki, Finland: IEEE, 2008. 1096-1103

61?? Masci J, Meier U, Cire?an D, Schmidhuber J. Stacked convolutional auto-encoders for hierarchical feature extraction. In:Proceedings of the 21th International Conference on Artificial Neural Networks. Berlin, Heidelberg, Germany: Springer, 2011. 52-59

62?? Zeiler M D, Fergus R. Visualizing and understanding convolutional networks. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland:Springer, 2014. 818-833

63?? Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, 2014.

64?? Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, Massachusetts, USA: IEEE, 2015. 1-9

65?? Szegedy C, Ioffe S, Vanhoucke V, Alemi A. Inception-v4, Inception-ResNet and the impact of residual connections on learning. arXiv:1602.07261, 2016.

66?? Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift. arXiv:1502.03167, 2015.

67?? Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z. Rethinking the inception architecture for computer vision. arXiv:1512.00567, 2015.

68?? He K, Zhang X, Ren S, Sun J. Spatial pyramid pooling in deep convolutional networks for visual recognition. In: Proceedings of the 2014 European Conference on Computer Vision (ECCV). Zurich, Switzerland: Springer, 2014. 346-361

69?? Bell S, Lawrence Zitnick C, Bala K, Girshick R. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA:IEEE, 2016. 2874-2883

70?? Yang F, Choi W, Lin Y Q. Exploit all the layers: fast and accurate CNN object detector with scale dependent pooling and cascaded rejection classifiers. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 2129-2137

71?? Shrivastava A, Gupta A, Girshick R. Training region-based object detectors with online hard example mining. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 761-769

72?? Sung K K. Learning and Example Selection for Object and Pattern Detection[Ph.D. dissertation], Massachusetts Institute of Technology, USA, 1996.

73?? Kong T, Yao A B, Chen Y R, Sun F C. Hyper Net:towards accurate region proposal generation and joint object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 845-853

74?? Dai J F, Li Y, He K M, Sun J. R-FCN:object detection via region-based fully convolutional networks. In: Proceedings of the 2016 Advances in Neural Information Processing Systems (NIPS). Barcelona, Spain: MIT Press, 2016. 379-387

75?? Kim K H, Hong S, Roh B, Cheon Y, Park M. PVANET: deep but lightweight neural networks for real-time object detection. arXiv: 1608.08021, 2016.

76?? Shang W L, Sohn K, Almeida D, Lee H. Understanding and improving convolutional neural networks via concatenated rectified linear units. In: Proceedings of the 33rd International Conference on Machine Learning (ICML). New York, USA: IEEE, 2016. 2217-2225

77?? Sermanet P, Eigen D, Zhang X, Mathieu M, Fergus R, LeCun Y. Overfeat: integrated recognition, localization and detection using convolutional networks. arXiv:1312.6229, 2013.

78?? Redmon J, Divvala S, Girshick R, Farhadi A. You only look once:unified, real-time object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 779-788

79?? Najibi M, Rastegari M, Davis L S. G-CNN:an iterative grid based object detector. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 2369-2377

80?? Liu W, Anguelov D, Erhan D, Szegedy C, Reed S E, Fu C Y, Berg A C. SSD: single shot multibox detector. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, Netherlands:Springer, 2016. 21-37

81?? Redmon J, Farhadi A. YOLO9000: better, faster, stronger. arXiv:1612.08242, 2016.

82?? Pepik B, Benenson R, Ritschel T, Schiele B. What is holding back convnets for detection? In: Proceedings of the 2015 German Conference on Pattern Recognition. Cham, Germany:Springer, 2015. 517-528

83?? Xiang Y, Mottaghi R, Savarese S. Beyond PASCAL:a benchmark for 3d object detection in the wild. In: Proceedings of the 2014 IEEE Winter Conference on Applications of Computer Vision (WACV). Steamboat Springs, Colorado, USA: IEEE, 2014. 75-82

84?? Amazon Mechanical Turk[Online], available: https://www.mturk.com/, February 13, 2017

85?? Wang Kun-Feng, Gou Chao, Wang Fei-Yue. Parallel vision: an ACP-based approach to intelligent vision computing. Acta Automatica Sinica, 2016, 42(10): 1490-1500.

(?王坤峰,?茍超,?王飛躍.?平行視覺:基于ACP的智能視覺計(jì)算方法.?自動(dòng)化學(xué)報(bào), 2016, 42(10): 1490-1500.)

86?? Wang K F, Gou C, Zheng N N, Rehg J M, Wang F Y. Parallel vision for perception and understanding of complex scenes: methods, framework, and perspectives. Artificial Intelligence Review[Online], available//link.springer.com/article/10.1007/s10462-017-9569-z, July 18, 2017

87?? Wang Fei-Yue. Parallel system methods for management and control of complex systems. Control and Decision, 2004, 19(5): 485-489, 514.

(?王飛躍.?平行系統(tǒng)方法與復(fù)雜系統(tǒng)的管理和控制.?控制與決策, 2004, 19(5): 485-489, 514.)

88?? Wang F Y. Parallel control and management for intelligent transportation systems: concepts, architectures, and applications. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3): 630-638.

89?? Wang Fei-Yue. Parallel control:a method for data-driven and computational control. Acta Automatica Sinica, 2013, 39(4): 293-302.

(?王飛躍.?平行控制:數(shù)據(jù)驅(qū)動(dòng)的計(jì)算控制方法.?自動(dòng)化學(xué)報(bào), 2013, 39(4): 293-302.)

90?? Peng X C, Sun B C, Ali K, Saenko K. Learning deep object detectors from 3D models. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1278-1286

91?? Johnson-Roberson M, Barto C, Mehta R, Sridhar S N, Rosaen K, Vasudevan R. Driving in the matrix: can virtual worlds replace human-generated annotations for real world tasks? arXiv: 1610.01983, 2016.

92?? Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.

93?? Taylor M E, Stone P. Transfer learning for reinforcement learning domains: a survey. The Journal of Machine Learning Research, 2009, 10: 1633-1685.?

編輯：黃飛

閱讀全文

計(jì)算機(jī)視覺(45543) 計(jì)算機(jī)視覺(45543)
深度學(xué)習(xí)(119798) 深度學(xué)習(xí)(119798)

評(píng)論

相關(guān)推薦

深度學(xué)習(xí)中的YOLOv2-Tiny目標(biāo)檢測(cè)算法詳細(xì)設(shè)計(jì)

近年來，以卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，DNN）為代表的深度學(xué)習(xí)算法在許多計(jì)算機(jī)視覺任務(wù)上取得了巨大突破，如圖像分類、目標(biāo)檢測(cè)、畫質(zhì)增強(qiáng)等［1-2］。然而

2020-11-30 14:01:46

10735

什么是機(jī)器視覺深度解析機(jī)器視覺技術(shù)應(yīng)用

機(jī)器視覺是一門學(xué)科技術(shù)，廣泛應(yīng)用于生產(chǎn)制造檢測(cè)等工業(yè)領(lǐng)域，用來保證產(chǎn)品質(zhì)量，控制生產(chǎn)流程，感知環(huán)境等。機(jī)器視覺系統(tǒng)是將被攝取目標(biāo)轉(zhuǎn)換成圖像信號(hào)，傳送給專用的圖像處理系統(tǒng)，根據(jù)像素分布和亮度、顏色

2022-04-20 11:27:57

7172

2017全國深度學(xué)習(xí)技術(shù)應(yīng)用大會(huì)

與分割深度學(xué)習(xí)的發(fā)展及應(yīng)用　　報(bào) 告人：季向陽清華大學(xué)　　報(bào)告摘要：物體檢測(cè)與分割是圖像處理與計(jì)算機(jī)視覺重要基礎(chǔ)研究方向之一。首先介紹全卷積網(wǎng)絡(luò)在語義分割與實(shí)例掩模研究方面的進(jìn)展，之后介紹面向?qū)嵗P(guān)聯(lián)

2017-03-22 17:16:00

應(yīng)用于操作系統(tǒng)中的動(dòng)態(tài)擴(kuò)展技術(shù)有哪幾種

應(yīng)用于操作系統(tǒng)中的動(dòng)態(tài)擴(kuò)展技術(shù)有哪幾種動(dòng)態(tài)擴(kuò)展技術(shù)面臨的挑戰(zhàn)和發(fā)展趨勢(shì)是什么

2021-04-27 06:54:51

深度學(xué)習(xí)存在哪些問題？

深度學(xué)習(xí)常用模型有哪些？深度學(xué)習(xí)常用軟件工具及平臺(tái)有哪些？深度學(xué)習(xí)存在哪些問題？

2021-10-14 08:20:47

深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺簡介

文章目錄1 簡介1.1 深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺1.2 性能考量1.3 社區(qū)支持2 結(jié)論3 參考在計(jì)算機(jī)視覺領(lǐng)域中，不同的場景不同的應(yīng)用程序需要不同的解決方案。在本文中，我們將快速回顧可用于在

2021-12-23 06:17:19

深度學(xué)習(xí)中的機(jī)器視覺（網(wǎng)絡(luò)壓縮、視覺問答、可視化等）

)。DeepFace 第一個(gè)將深度神經(jīng)網(wǎng)絡(luò)成功用于人臉驗(yàn)證/識(shí)別的模型。DeepFace使用了非共享參數(shù)的局部連接。這是由于人臉不同區(qū)域存在不同的特征(例如眼睛和嘴巴具有不同的特征)，經(jīng)典卷積層

2019-07-21 13:00:00

深度學(xué)習(xí)在汽車中的應(yīng)用

安全系統(tǒng)的發(fā)展進(jìn)步中發(fā)揮重要的作用。而這些系統(tǒng)遠(yuǎn)不止僅供典型消費(fèi)者群體掌握和使用。深度學(xué)習(xí)這一概念在幾十年前就已提出，但如今它與特定的應(yīng)用程序、技術(shù)以及通用計(jì)算平臺(tái)上的可用性能更密切相關(guān)。深度學(xué)習(xí)

2019-03-13 06:45:03

深度學(xué)習(xí)實(shí)現(xiàn)目標(biāo)檢測(cè)俄羅斯總統(tǒng)***對(duì)沙特王儲(chǔ)攤的“友好攤手”瞬間

CV：2108足球世界杯—深度學(xué)習(xí)實(shí)現(xiàn)目標(biāo)檢測(cè)俄羅斯總統(tǒng)***對(duì)沙特王儲(chǔ)攤的“友好攤手”瞬間—東道主俄羅斯5-0完勝沙特

2018-12-21 10:31:24

目標(biāo)檢測(cè)實(shí)戰(zhàn)

深度學(xué)習(xí)目標(biāo)檢測(cè)系列：faster RCNN實(shí)現(xiàn)附python源碼

2019-08-29 08:49:13

AI視覺檢測(cè)在工業(yè)領(lǐng)域的應(yīng)用

醫(yī)藥行業(yè)：工業(yè)AI視覺檢測(cè)系統(tǒng)可以用于檢測(cè)藥品包裝、藥品外觀、藥品標(biāo)簽、污損等。總之，隨著人工智能以及工業(yè)技術(shù)的不斷發(fā)展，AI視覺檢測(cè)系統(tǒng)將被廣泛應(yīng)用于各種行業(yè)，助力制造業(yè)實(shí)現(xiàn)高效精準(zhǔn)化生產(chǎn)。

2023-06-15 16:21:56

LabVIEW人臉識(shí)別“3天挑戰(zhàn)賽”，邀你來戰(zhàn)！

，達(dá)到80分以上即算合格即挑戰(zhàn)成功，獲得全額學(xué)費(fèi)退款課程介紹本課程主要以LabVIEW視覺和第三方開源深度學(xué)習(xí)庫，實(shí)現(xiàn)人臉識(shí)別功能。人臉識(shí)別，是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)。用

2019-05-13 15:06:11

Labview深度學(xué)習(xí)tensorflow人工智能目標(biāo)檢測(cè)-教學(xué)貼【連載】

連載深度學(xué)習(xí)入門教學(xué)貼。●機(jī)器視覺缺陷檢測(cè)的痛點(diǎn)●仍存在下面主要的問題和難點(diǎn)1）受環(huán)境、光照、生產(chǎn)工藝和噪聲等多重因素影響，檢測(cè)系統(tǒng)的信噪比一般較低，微弱信號(hào)難以檢出或不能與噪聲有效區(qū)分。如何構(gòu)建穩(wěn)定

2021-05-28 11:58:52

labview+yolov4+tensorflow+openvion深度學(xué)習(xí)

我們通過傳統(tǒng)算法無法量化，或者說很難去做到的，深度學(xué)習(xí)可以搞定。特別是在圖像分類， 目標(biāo)檢測(cè)這些問題上取得了顯著的提升。下圖是近幾年來深度學(xué)習(xí)在圖像分類問題上取得的成績。之所以提出上面的算法

2021-05-10 22:33:46

labview深度學(xué)習(xí)應(yīng)用于缺陷檢測(cè)

標(biāo)注產(chǎn)品后通過訓(xùn)練平臺(tái)完成模型訓(xùn)練經(jīng)過少量樣品訓(xùn)練得到測(cè)試結(jié)果，表明深度學(xué)習(xí)對(duì)傳統(tǒng)視覺算法比較棘手的缺陷檢測(cè)方面，能簡單粗暴的解決問題，后續(xù)就是增加缺陷樣品的收集，標(biāo)注，以及模型的訓(xùn)練。龍哥手把手教

2020-08-16 18:12:01

labview實(shí)現(xiàn)深度學(xué)習(xí)，還在用python？

算法。其編程特點(diǎn)是上手快，開發(fā)效率高，兼容性強(qiáng)，能快速調(diào)用c++，c#等平臺(tái)的dll類庫。如何將labview與深度學(xué)習(xí)結(jié)合起來，來解決視覺行業(yè)越來越復(fù)雜的應(yīng)用場景所遇到的困難。下面以開關(guān)面板為例講解

2020-07-23 20:33:10

　　華為云深度學(xué)習(xí)服務(wù)，讓企業(yè)智能從此不求人

深度學(xué)習(xí)訓(xùn)練的第一個(gè)困難是技術(shù)難度高。企業(yè)要進(jìn)行深度學(xué)習(xí)的模型訓(xùn)練，有很高的技術(shù)門檻。比如要自己搭建深度學(xué)習(xí)平臺(tái)，要有懂得編程的技術(shù)人員，還要有海量的訓(xùn)練數(shù)據(jù)等等。而華為云深度學(xué)習(xí)服務(wù)，可以提供深度

2018-08-02 20:44:09

【HarmonyOS HiSpark AI Camera】基于深度學(xué)習(xí)的目標(biāo)檢測(cè)系統(tǒng)設(shè)計(jì)

項(xiàng)目名稱：基于深度學(xué)習(xí)的目標(biāo)檢測(cè)系統(tǒng)設(shè)計(jì)試用計(jì)劃：嘗試在硬件平臺(tái)實(shí)現(xiàn)對(duì)Yolo卷積神經(jīng)網(wǎng)絡(luò)的加速運(yùn)算，期望提出的方法能夠使目標(biāo)檢測(cè)技術(shù)更便捷，運(yùn)用領(lǐng)域更廣泛。針對(duì)課題的研究一是研究基于開發(fā)板低功耗

2020-09-25 10:11:49

人工智能AI-深度學(xué)習(xí)C#&LabVIEW視覺控制演示效果

不斷變化的，因此深度學(xué)習(xí)是人工智能AI的重要組成部分。可以說人腦視覺系統(tǒng)和神經(jīng)網(wǎng)絡(luò)。2、目標(biāo)檢測(cè)、目標(biāo)跟蹤、圖像增強(qiáng)、強(qiáng)化學(xué)習(xí)、模型壓縮、視頻理解、人臉技術(shù)、三維視覺、SLAM、GAN、GNN等。

2020-11-27 11:54:42

什么是深度學(xué)習(xí)？使用FPGA進(jìn)行深度學(xué)習(xí)的好處？

) 來解決更復(fù)雜的問題，深度神經(jīng)網(wǎng)絡(luò)是一種將這些問題多層連接起來的更深層網(wǎng)絡(luò)。這稱為深度學(xué)習(xí)。目前，深度學(xué)習(xí)被用于現(xiàn)實(shí)世界中的各種場景，例如圖像和語音識(shí)別、自然語言處理和異常檢測(cè)，并且在某些情況下，它

2023-02-17 16:56:59

什么是SFS陰影重建視覺技術(shù)？有什么優(yōu)勢(shì)？

什么是SFS陰影重建視覺技術(shù)？如何處理運(yùn)動(dòng)中目標(biāo)物的檢測(cè)？SFS陰影重建技術(shù)的優(yōu)勢(shì)是什么？

2021-06-01 06:10:16

使用AI進(jìn)行視覺檢測(cè)的知識(shí)盤點(diǎn)

，基于深度學(xué)習(xí)的圖像分析在概念化和概括零件外觀的能力上都與傳統(tǒng)的機(jī)器視覺有所不同。更好的感知機(jī)器視覺具有非常高的光學(xué)分辨率，這取決于用于圖像采集的技術(shù)和設(shè)備。與人的視覺相比，機(jī)器視覺具有“更廣

2020-08-17 15:12:48

全網(wǎng)唯一一套labview深度學(xué)習(xí)教程：tensorflow+目標(biāo)檢測(cè)：龍哥教你學(xué)視覺—LabVIEW深度學(xué)習(xí)教程

`【新課上線】tensorflow+目標(biāo)檢測(cè)：龍哥教你學(xué)視覺—LabVIEW深度學(xué)習(xí)教程（強(qiáng)推）課程目標(biāo)：1、讓沒有任何python，tensorflow基礎(chǔ)的學(xué)員學(xué)習(xí)到如何搭建深度學(xué)習(xí)訓(xùn)練平臺(tái)。2

2020-08-10 10:38:12

吳恩達(dá)深度學(xué)習(xí)

吳恩達(dá)深度學(xué)習(xí) 第三課第三周 目標(biāo)檢測(cè)

2020-05-28 09:03:14

圖像法應(yīng)用于各種設(shè)備的檢測(cè)

　　圖像法應(yīng)用于各種設(shè)備的檢測(cè)　　圖像法是利用計(jì)算機(jī)來處理、分析和理解視覺信息的一項(xiàng)技術(shù)。它是伴隨著計(jì)算機(jī)硬件、圖像獲取設(shè)備、顯示設(shè)備的不斷改進(jìn)和各種高性能工作站的出現(xiàn)而蓬勃發(fā)展起來的技術(shù)。圖像處理

2018-12-10 10:25:48

基于深度學(xué)習(xí)技術(shù)的智能機(jī)器人

“狗”。深度學(xué)習(xí)主要應(yīng)用在數(shù)據(jù)分析上，其核心技術(shù)包括：神經(jīng)網(wǎng)絡(luò)搭建、神經(jīng)網(wǎng)絡(luò)訓(xùn)練及調(diào)用。CNN神經(jīng)網(wǎng)絡(luò)訓(xùn)練機(jī)器視覺中的圖像預(yù)處理屬于傳統(tǒng)技術(shù)，包括形態(tài)變換、邊緣檢測(cè)、BLOB分析等。圖像在人眼和機(jī)器下

2018-05-31 09:36:03

基于深度學(xué)習(xí)和3D圖像處理的精密加工件外觀缺陷檢測(cè)系統(tǒng)

的要求；創(chuàng)新點(diǎn)三：深度學(xué)習(xí)應(yīng)用于3D圖像的分析處理。直接聯(lián)通三維圖像數(shù)據(jù)與深度學(xué)習(xí)算法，使3D圖像不僅單純用于測(cè)量以及一些簡單的有無判斷，而且能應(yīng)用于外觀檢測(cè)，彌補(bǔ)了2d圖像處理信息缺失的不足。創(chuàng)新

2022-03-08 13:59:00

基于深度學(xué)習(xí)的異常檢測(cè)的研究方法

ABSTRACT1.基于深度學(xué)習(xí)的異常檢測(cè)的研究方法進(jìn)行結(jié)構(gòu)化和全面的概述2.回顧這些方法在各個(gè)領(lǐng)域這個(gè)中的應(yīng)用情況，并評(píng)估他們的有效性。3.根據(jù)基本假設(shè)和采用的方法將最先進(jìn)的深度異常檢測(cè)技術(shù)分為

2021-07-12 06:36:22

基于深度學(xué)習(xí)的異常檢測(cè)的研究方法

異常檢測(cè)的深度學(xué)習(xí)研究綜述原文：arXiv:1901.03407摘要異常檢測(cè)是一個(gè)重要的問題，在不同的研究領(lǐng)域和應(yīng)用領(lǐng)域都得到了很好的研究。本文的研究目的有兩個(gè)：首先，我們對(duì)基于深度學(xué)習(xí)的異常檢測(cè)

2021-07-12 07:10:19

基于AI技術(shù)的嵌入式視覺系統(tǒng)與傳統(tǒng)檢測(cè)方法有哪些不同之處呢

，有無、損傷等；測(cè)量，即目標(biāo)物體的幾何形狀測(cè)量；識(shí)別，即認(rèn)識(shí)物體的內(nèi)容，如一維碼二維碼，字符文字等；這些技術(shù)廣泛應(yīng)用于工業(yè)（產(chǎn)品質(zhì)量）、軍工（導(dǎo)彈制導(dǎo)）、醫(yī)療（生理再現(xiàn)）等領(lǐng)域！所謂機(jī)器視覺技術(shù)，主要

2021-12-14 06:06:20

將普通比較器應(yīng)用于精密電壓檢測(cè)時(shí)會(huì)遇到哪些問題？

將普通比較器應(yīng)用于精密電壓檢測(cè)時(shí)會(huì)遇到哪些問題？如何利用精密比較器解決門限和滯后交互問題？

2021-04-08 06:33:04

機(jī)器視覺技術(shù)

、PLC控制系統(tǒng)等等。工作原理機(jī)器視覺檢測(cè)系統(tǒng)采用CCD照相機(jī)將被檢測(cè)的目標(biāo)轉(zhuǎn)換成圖像信號(hào)，傳送給專用的圖像處理系統(tǒng)，根據(jù)像素分布和亮度、顏色等信息，轉(zhuǎn)變成數(shù)字化信號(hào)，圖像處理系統(tǒng)對(duì)這些信號(hào)進(jìn)行各種運(yùn)算

2016-01-17 07:56:01

機(jī)器視覺檢測(cè)設(shè)備的優(yōu)勢(shì)

的結(jié)果來控制現(xiàn)場的設(shè)備動(dòng)作。是用于生產(chǎn)、裝配或包裝的有價(jià)值的機(jī)制。它在檢測(cè)缺陷和防止缺陷產(chǎn)品被配送到消費(fèi)者的功能方面具有不可估量的價(jià)值。深圳市思普泰克科技有限公司一直致力于圖像技術(shù)及視覺檢測(cè)設(shè)備的研發(fā)

2019-10-14 15:31:02

機(jī)器視覺表面缺陷檢測(cè)技術(shù)

結(jié)果的不精確。當(dāng)今社會(huì)，隨著計(jì)算機(jī)技術(shù)，人工智能等科學(xué)技術(shù)的出現(xiàn)和發(fā)展，以及研究的深入，出現(xiàn)了基于機(jī)器視覺技術(shù)的表面缺陷檢測(cè)技術(shù)。這種技術(shù)的出現(xiàn)，大大提高了生產(chǎn)作業(yè)的效率，避免了因作業(yè)條件，主觀判斷等

2016-01-20 10:29:58

求教Labview視覺檢測(cè)的學(xué)習(xí)方法

學(xué)生接觸Labview有一定時(shí)間了，也算積累了一些小經(jīng)驗(yàn)，現(xiàn)在想要用來做類似物體表面缺陷檢測(cè)這樣的機(jī)器視覺項(xiàng)目，對(duì)于Labview中的視覺模塊以及視覺助手也比較熟悉，但是到具體應(yīng)用還存在一定距離

2015-05-29 12:33:05

深圳CCD視覺檢測(cè)技術(shù)在測(cè)量時(shí)有哪些優(yōu)點(diǎn)？

、圖像與視覺傳感等工業(yè)自動(dòng)化技術(shù)的研發(fā)和應(yīng)用，產(chǎn)品廣泛應(yīng)用于印刷設(shè)備、模切設(shè)備、貼合設(shè)備、多軸數(shù)控設(shè)備、機(jī)械手、電子加工和檢測(cè)設(shè)備、激光加工設(shè)備、拋光機(jī)械生產(chǎn)自動(dòng)化等工業(yè)控制領(lǐng)域。以上就是深圳四元數(shù)小編給你們介紹的深圳CCD視覺檢測(cè)技術(shù)在測(cè)量時(shí)有哪些優(yōu)點(diǎn)，希望大家看后有所幫助！

2021-08-31 15:03:04

深圳機(jī)器視覺檢測(cè)項(xiàng)目包括哪些？

2020-11-11 10:07:06

瑞盟MS51xx系列芯片高精準(zhǔn)應(yīng)用于機(jī)器視覺行業(yè)

分析和處理，軟硬系統(tǒng)相輔相成，為下游自動(dòng)化、智能化制造行業(yè)賦予視覺能力。隨著深度學(xué)習(xí)、 3D 視覺技術(shù)、高精度成像技術(shù)和機(jī)器視覺互聯(lián)互通技術(shù)的發(fā)展，機(jī)器視覺性能優(yōu)勢(shì)進(jìn)一步提升，應(yīng)用領(lǐng)域也向多個(gè)維度

2022-04-25 22:10:06

電流檢測(cè)技術(shù)有哪幾種類型？面臨了哪些挑戰(zhàn)?

電流檢測(cè)技術(shù)有哪幾種類型？電阻檢測(cè)技術(shù)存在哪些挑戰(zhàn)？是什么因素影響到電阻檢測(cè)技術(shù)的精度？

2021-04-13 06:30:40

解析深度學(xué)習(xí)：卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實(shí)踐

解析深度學(xué)習(xí)：卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實(shí)踐

2020-06-14 22:21:12

計(jì)算機(jī)視覺/深度學(xué)習(xí)領(lǐng)域常用數(shù)據(jù)集匯總

、定位、檢測(cè)等研究工作大多基于此數(shù)據(jù)集展開。Imagenet數(shù)據(jù)集文檔詳細(xì)，有專門的團(tuán)隊(duì)維護(hù)，使用非常方便，在計(jì)算機(jī)視覺領(lǐng)域研究論文中應(yīng)用非常廣，幾乎成為了目前深度學(xué)習(xí)圖像領(lǐng)域算法性能檢驗(yàn)的“標(biāo)準(zhǔn)

2018-08-29 10:36:45

計(jì)算機(jī)視覺應(yīng)用深度學(xué)習(xí)

怎樣從傳統(tǒng)機(jī)器學(xué)習(xí)方法過渡到深度學(xué)習(xí)？

2021-10-14 06:51:23

計(jì)算機(jī)視覺領(lǐng)域的關(guān)鍵技術(shù)/典型算法模型/通信工程領(lǐng)域的應(yīng)用方案

，傳統(tǒng)的人工圖像質(zhì)檢存在檢測(cè)準(zhǔn)確率低且人力成本高的問題，本文采用基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)，基于VGG19模型構(gòu)建了相應(yīng)的檢測(cè)算法模塊（圖5）。圖5 基于VGG19的尾纖質(zhì)檢基本算法基于樣本圖像（66張

2020-12-03 13:58:12

請(qǐng)問計(jì)算機(jī)視覺與深度學(xué)習(xí)要看什么書？

計(jì)算機(jī)視覺與深度學(xué)習(xí)，看這本書就夠了

2020-05-21 12:43:42

龍哥手把手教你學(xué)視覺-深度學(xué)習(xí)YOLOV5篇

步數(shù)的課程，希望學(xué)員學(xué)習(xí)后能在實(shí)際工業(yè)項(xiàng)目中落地應(yīng)用。龍哥視覺團(tuán)隊(duì)利用深度學(xué)習(xí)技術(shù)解決了PCB插件AOI檢測(cè)中元件錯(cuò)漏，極性反等疑難問題，說明深度學(xué)習(xí)在傳統(tǒng)視覺領(lǐng)域也具有廣闊的前景

2021-09-03 09:39:28

基于深度學(xué)習(xí)的安卓惡意應(yīng)用檢測(cè)

和動(dòng)態(tài)特征生成應(yīng)用程序的特征向量；然后，使用深度學(xué)習(xí)算法中的深度置信網(wǎng)絡(luò)（ DBN）對(duì)收集到的訓(xùn)練集進(jìn)行訓(xùn)練，生成深度學(xué)習(xí)網(wǎng)絡(luò)；最后，利用生成的深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)待測(cè)安卓應(yīng)用程序進(jìn)行檢測(cè)。實(shí)驗(yàn)結(jié)果表明，在使用相同測(cè)試集的情況下

2017-12-01 15:04:27

基于深度學(xué)習(xí)的圖片中商品參數(shù)識(shí)別方法

計(jì)算機(jī)計(jì)算性能的提升使得深度學(xué)習(xí)成為了可能．作為計(jì)算機(jī)視覺領(lǐng)域的重要發(fā)展方向之一的目標(biāo)檢測(cè)也開始結(jié)合深度學(xué)習(xí)方法并廣泛應(yīng)用于各行各業(yè)，受限于網(wǎng)絡(luò)的復(fù)雜度和檢測(cè)算法的設(shè)計(jì)。目標(biāo)檢測(cè)的速度和精度成為

2017-12-15 10:15:02

機(jī)器視覺軟件開發(fā)商積極部署深度學(xué)習(xí)技術(shù)

Cognex認(rèn)為深度學(xué)習(xí)是對(duì)傳統(tǒng)機(jī)器視覺的補(bǔ)充。傳統(tǒng)的幾何圖案發(fā)現(xiàn)和邊緣檢測(cè)仍為用于機(jī)器人引導(dǎo)或其它精確測(cè)量的亞像素精度的最佳方法。深度學(xué)習(xí)在零件質(zhì)量和其它基于范例的類人判斷中最有價(jià)值，而且由于它是由范例來訓(xùn)練，因此不需要之前檢查應(yīng)用所需的高級(jí)視覺技能。

2017-12-20 08:54:02

2737

一種新的目標(biāo)分類特征深度學(xué)習(xí)模型

為提高低配置計(jì)算環(huán)境中的視覺目標(biāo)實(shí)時(shí)在線分類特征提取的時(shí)效性和分類準(zhǔn)確率，提出一種新的目標(biāo)分類特征深度學(xué)習(xí)模型。根據(jù)高時(shí)效性要求，選用分類器模型離線深度學(xué)習(xí)的策略，以節(jié)約在線訓(xùn)練時(shí)間。針對(duì)網(wǎng)絡(luò)深度

2018-03-20 17:30:42

基于深度自編碼網(wǎng)絡(luò)的慢速移動(dòng)目標(biāo)檢測(cè)

強(qiáng)雜波背景下的慢速目標(biāo)檢測(cè)存在低多普勒頻移、雜波干擾嚴(yán)重、魯棒性不足、特征提取困難與信息利用不充分等問題。為此，提出一種基于深度自編碼網(wǎng)絡(luò)的寬帶信號(hào)目標(biāo)檢測(cè)方法。利用時(shí)頻變換解析回波信息，通過深度

2018-03-29 11:29:40

【干貨】計(jì)算機(jī)視覺必讀：目標(biāo)跟蹤、網(wǎng)絡(luò)壓縮、圖像分類、人臉識(shí)別等

深度學(xué)習(xí)應(yīng)用于計(jì)算機(jī)視覺，最新進(jìn)展梳理

2018-03-30 10:02:31

5565

基于深度學(xué)習(xí)模型的點(diǎn)云目標(biāo)檢測(cè)及ROS實(shí)現(xiàn)

近年來，隨著深度學(xué)習(xí)在圖像視覺領(lǐng)域的發(fā)展，一類基于單純的深度學(xué)習(xí)模型的點(diǎn)云目標(biāo)檢測(cè)方法被提出和應(yīng)用，本文將詳細(xì)介紹其中一種模型——SqueezeSeg，并且使用ROS實(shí)現(xiàn)該模型的實(shí)時(shí)目標(biāo)檢測(cè)。

2018-11-05 16:47:29

17181

如何使用深度學(xué)習(xí)進(jìn)行視頻行人目標(biāo)檢測(cè)

近年來，隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用，基于深度學(xué)習(xí)的視頻運(yùn)動(dòng)目標(biāo)檢測(cè)受到廣大學(xué)者的青睞。這種方法的基本原理是利用大量目標(biāo)樣本數(shù)據(jù)訓(xùn)練一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的分類器，然后通過分類器在線檢測(cè)目標(biāo)

2018-11-19 16:01:44

探究深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用與展望

目標(biāo)視覺檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問題，在視頻監(jiān)控、自主駕駛、人機(jī)交互等方面具有重要的研究意義和應(yīng)用價(jià)值.近年來，深度學(xué)習(xí)在圖像分類研究中取得了突破性進(jìn)展，也帶動(dòng)著目標(biāo)視覺檢測(cè)取得突飛猛進(jìn)的發(fā)展。

2019-01-13 10:59:23

5482

深度學(xué)習(xí)改變的五大計(jì)算機(jī)視覺技術(shù)

摘要：本文主要介紹計(jì)算機(jī)視覺中主要的五大技術(shù)，分別為圖像分類、目標(biāo)檢測(cè)、目標(biāo)跟蹤、語義分割以及實(shí)例分割。

2019-07-05 09:51:28

3281

傳統(tǒng)視覺檢測(cè)和深度學(xué)習(xí)檢測(cè)的分析，它們的差異是什么

如今，工業(yè)自動(dòng)化快速發(fā)展，工業(yè)4.0的概念已經(jīng)被提上日程。在產(chǎn)品生產(chǎn)流水線上，對(duì)于產(chǎn)品的質(zhì)量檢測(cè)，許多企業(yè)也逐漸嘗試用機(jī)器視覺代替人工肉眼進(jìn)行檢測(cè)，但時(shí)代瞬息萬變，神經(jīng)網(wǎng)絡(luò)之深度學(xué)習(xí)這項(xiàng)技術(shù)的不斷

2020-08-25 11:56:38

1184

深度學(xué)習(xí)在計(jì)算機(jī)視覺上的四大應(yīng)用

計(jì)算機(jī)視覺中比較成功的深度學(xué)習(xí)的應(yīng)用，包括人臉識(shí)別，圖像問答，物體檢測(cè)，物體跟蹤。

2020-08-24 16:16:19

3971

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)比作一場“熱兵器革命”

從應(yīng)用的角度來看，目標(biāo)檢測(cè)可以被分為兩個(gè)研究主題：“ 通用目標(biāo)檢測(cè)(General Object Detection) ” 及 “檢測(cè)應(yīng)用(Detection Applications)” ，前者

2020-08-28 10:59:29

1877

深度學(xué)習(xí)推動(dòng)機(jī)器視覺識(shí)別技術(shù)已發(fā)展到新階段

近年來在機(jī)器人行業(yè)出現(xiàn)了許多有關(guān)機(jī)器視覺的新技術(shù)，尤其是在物體檢測(cè)識(shí)別方面，如何讓機(jī)器人真正實(shí)現(xiàn)“開眼看世界、看懂世界”已成為各家視覺設(shè)備廠商角力的戰(zhàn)略重心。深度學(xué)習(xí)技術(shù)推動(dòng)機(jī)器視覺識(shí)別技術(shù)

2021-01-27 10:27:47

2949

深度學(xué)習(xí)模型的對(duì)抗攻擊及防御措施

深度學(xué)習(xí)作為人工智能技術(shù)的重要組成部分，被廣泛應(yīng)用于計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域。盡管深度學(xué)習(xí)在圖像分類和目標(biāo)檢測(cè)等任務(wù)中取得了較好性能，但是對(duì)抗攻擊的存在對(duì)深度學(xué)習(xí)模型的安全應(yīng)用構(gòu)成了潛在威脅

2021-03-12 13:45:53

視覺SLAM基于深度學(xué)習(xí)閉環(huán)檢測(cè)

的來說，如果只是關(guān)注閉環(huán)檢測(cè)中圖像檢索的部分，與深度學(xué)習(xí)相關(guān)的工作還是很多很好的。難點(diǎn)在于要應(yīng)對(duì)閉環(huán)檢測(cè)中的一些實(shí)際挑戰(zhàn)，比如cross-view乃至opposite-view，appearance changes，perceptual aliasing，dynamics，textless這些問題。

2021-03-20 09:59:53

1999

基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的數(shù)據(jù)集和評(píng)估準(zhǔn)則

隨著深度學(xué)習(xí)的不斷發(fā)展，基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)堿的一個(gè)研究熱點(diǎn)。首先對(duì)現(xiàn)有的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法分別從邊界/語義増強(qiáng)、全局/局部結(jié)合和輔助網(wǎng)絡(luò)個(gè)角度進(jìn)行了分類

2021-04-01 14:58:13

視覺檢測(cè)技術(shù)如何應(yīng)用于布匹檢測(cè)

及資金成本，而且所要求的質(zhì)量也并不是能保證百分百的合格率。而采用機(jī)器視覺，則可將這一結(jié)果標(biāo)準(zhǔn)化，提高結(jié)果穩(wěn)定性。面對(duì)家紡布瑕疵檢測(cè)、簾子布瑕疵檢測(cè)、纖維布瑕疵檢測(cè)等各類布匹檢測(cè)，機(jī)器視覺都能穩(wěn)定發(fā)揮。下面國辰機(jī)器人便來與大家聊聊視覺檢測(cè)是如何應(yīng)用于布匹檢測(cè)中的吧。

2021-04-23 13:20:56

757

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法

整體框架 目標(biāo)檢測(cè)算法主要包括：【兩階段】目標(biāo)檢測(cè)算法、【多階段】目標(biāo)檢測(cè)算法、【單階段】目標(biāo)檢測(cè)算法什么是兩階段目標(biāo)檢測(cè)算法，與單階段目標(biāo)檢測(cè)有什么區(qū)別？兩階段目標(biāo)檢測(cè)算法因需要進(jìn)行兩階

2021-04-30 10:22:04

10070

OpenCV使用深度學(xué)習(xí)做邊緣檢測(cè)的流程

導(dǎo)讀分析了Canny的優(yōu)劣，并給出了OpenCV使用深度學(xué)習(xí)做邊緣檢測(cè)的流程。在這篇文章中，我們將學(xué)習(xí)如何在OpenCV中使用基于深度學(xué)習(xí)的邊緣檢測(cè)，它比目前流行的canny邊緣檢測(cè)器更精

2021-05-08 11:05:30

1923

攝像頭傳統(tǒng)視覺算法與深度學(xué)習(xí)算法區(qū)別

引言攝像頭傳統(tǒng)視覺技術(shù)在算法上相對(duì)容易實(shí)現(xiàn)，因此已被現(xiàn)有大部分車廠用于輔助駕駛功能。但是隨著自動(dòng)駕駛技術(shù)的發(fā)展，基于深度學(xué)習(xí)的算法開始興起，本期小編就來說說深度視覺算法相關(guān)技術(shù)方面的資料，讓我們

2021-05-27 17:00:35

8192

傳統(tǒng)視覺檢測(cè)與深度學(xué)習(xí)檢測(cè)有什么區(qū)別

2021-05-28 09:09:23

1215

深度學(xué)習(xí)為傳統(tǒng)視覺檢測(cè)帶來希望

，模仿人腦的機(jī)制來解釋數(shù)據(jù)，例如圖像，聲音和文本。當(dāng)理論與技術(shù)日趨成熟，深度學(xué)習(xí)的應(yīng)用領(lǐng)域也不斷擴(kuò)張，那么在視覺檢測(cè)領(lǐng)域，深度學(xué)習(xí)又帶來了哪些影響呢？國辰機(jī)器人便來與大家聊一聊。

2021-06-17 10:32:02

438

基于深度學(xué)習(xí)的道路表面裂縫檢測(cè)技術(shù)

基于深度學(xué)習(xí)的道路表面裂縫檢測(cè)技術(shù)

2021-07-05 16:30:30

大華深度學(xué)習(xí)的視頻動(dòng)作檢測(cè)技術(shù)賦能千行百業(yè)

近日，大華股份基于深度學(xué)習(xí)的視頻動(dòng)作檢測(cè)技術(shù)，在計(jì)算機(jī)視覺頂級(jí)會(huì)議ICCV-2021 DeeperAction挑戰(zhàn)賽FineAction數(shù)據(jù)集上取得全球最好成績，各項(xiàng)指標(biāo)以絕對(duì)優(yōu)勢(shì)超越其他一流AI公司和頂尖的學(xué)術(shù)研究機(jī)構(gòu)，取得標(biāo)志性進(jìn)展，彰顯了大華在視頻動(dòng)作檢測(cè)領(lǐng)域深厚的技術(shù)實(shí)力和創(chuàng)新能力。

2021-09-30 17:06:01

3887

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究綜述

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究綜述來源：《電子學(xué)報(bào)》?，作者羅會(huì)蘭等摘要：?目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域內(nèi)的熱點(diǎn)課題，在機(jī)器人導(dǎo)航、智能視頻監(jiān)控及航天航空等領(lǐng)域都有廣泛的應(yīng)用.本文首先綜述了目標(biāo)檢測(cè)

2022-01-06 09:14:58

1702

基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)研究

(Deep Convolutional Neural Networks)憑借其特征學(xué)習(xí)和遷移學(xué)習(xí)的強(qiáng)大能力在圖像分類方面取得了一系列突破，在目標(biāo)檢測(cè)方面，它越來越受到人們的重視。因此，如何將CNN應(yīng)用于目標(biāo)

2022-02-11 08:51:11

1144

基于深度學(xué)習(xí)的三種目標(biāo)檢測(cè)方法

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺的一個(gè)非常重要的核心方向，它的主要任務(wù)目標(biāo)定位和目標(biāo)分類。

2022-04-06 14:56:38

6269

基于深度學(xué)習(xí)的機(jī)器人目標(biāo)識(shí)別和跟蹤

如今，深度學(xué)習(xí)算法的發(fā)展越來越迅速，并且在圖像處理以及目標(biāo)對(duì)象識(shí)別方面已經(jīng)得到了較為顯著的突破，無論是對(duì)檢測(cè)對(duì)象的類型判斷，亦或者對(duì)檢測(cè)對(duì)象所處方位的檢測(cè)，深度學(xué)習(xí)算法都取得了遠(yuǎn)超過傳統(tǒng)機(jī)器學(xué)習(xí)算法

2022-08-02 12:07:06

1388

深度學(xué)習(xí)在目標(biāo)檢測(cè)中的應(yīng)用

R-CNN 算法在 2014 年提出，可以說是歷史性的算法，將深度學(xué)習(xí)應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域，相較于之前的目標(biāo)檢測(cè)方法，提升多達(dá) 30% 以上

2022-10-31 10:08:05

1143

基于深度學(xué)習(xí)的視覺檢測(cè)系統(tǒng)的特點(diǎn)及應(yīng)用

在深度學(xué)習(xí)算法出來之前，對(duì)于視覺算法來說，大致可以分為以下5個(gè)步驟：特征感知，圖像預(yù)處理，特征提取，特征篩選，推理預(yù)測(cè)與識(shí)別。早期的機(jī)器學(xué)習(xí)中，占優(yōu)勢(shì)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)群體中，對(duì)特征是不大關(guān)心的。

2022-11-24 14:55:15

1296

深度學(xué)習(xí)和傳統(tǒng)計(jì)算機(jī)視覺技術(shù)在新興領(lǐng)域的比較

是不是深度學(xué)習(xí)就可以解決所有問題呢？是不是它就比傳統(tǒng)計(jì)算機(jī)視覺方法好呢？但是深度學(xué)習(xí)無法解決所有的問題，在一些問題上，具備全部特征的傳統(tǒng)技術(shù)仍是更好的方案。此外，深度學(xué)習(xí)可以和傳統(tǒng)算法結(jié)合，以克服深度學(xué)習(xí)帶來的計(jì)算力，時(shí)間，特點(diǎn)，輸入的質(zhì)量等方面的挑戰(zhàn)。

2022-11-28 11:01:15

1133

基于深度學(xué)習(xí)的復(fù)雜背景下目標(biāo)檢測(cè)

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的重要研究方向. 傳統(tǒng)的目標(biāo)檢測(cè)方法在特征設(shè)計(jì)上花費(fèi)了大量時(shí)間, 且手工設(shè)計(jì)的特征對(duì)于目標(biāo)多樣性的問題并沒有好的魯棒性, 深度學(xué)習(xí)技術(shù)逐漸成為近年來計(jì)算機(jī)視覺領(lǐng)域的突破口

2022-12-01 10:00:01

534

機(jī)器學(xué)習(xí)技術(shù)的理論背景

專為視覺識(shí)別、對(duì)象檢測(cè)、語音識(shí)別、異常檢測(cè)或基因組學(xué)而設(shè)計(jì)的系統(tǒng)精度。深度學(xué)習(xí)的關(guān)鍵方面是，用于解釋數(shù)據(jù)的特征是從訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)的，而不是由工程師手動(dòng)制作的。

2022-12-02 14:53:35

1005

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法

為驗(yàn)證本文算法對(duì)不同大小目標(biāo)的檢測(cè)精度, 實(shí)驗(yàn)中隨機(jī)選取100張圖片, 其中包含198個(gè)目標(biāo), 將其分為大、中、小三類. 由于該網(wǎng)絡(luò)的輸入圖像尺寸為300××300, 將圖像中的檢測(cè)目標(biāo)按照其面積占圖像總面積的比例分為三類。

2022-12-05 12:20:54

974

簡述深度學(xué)習(xí)的基準(zhǔn)目標(biāo)檢測(cè)及其衍生算法

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法根據(jù)有無區(qū)域提案階段劃分為區(qū)域提案檢測(cè)模型和單階段檢測(cè)模型

2023-02-27 15:31:49

814

國內(nèi)機(jī)器視覺技術(shù)的現(xiàn)狀和未來趨勢(shì)

機(jī)器視覺是指利用機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)來檢測(cè)和分析圖像和視頻的技術(shù)。它可以廣泛應(yīng)用于工業(yè)生產(chǎn)、醫(yī)療診斷、安防監(jiān)控等領(lǐng)域。在國內(nèi)，機(jī)器視覺技術(shù)已經(jīng)逐漸走向成熟。在質(zhì)量檢測(cè)、產(chǎn)品識(shí)別等領(lǐng)域，機(jī)器視覺技術(shù)得到了廣泛應(yīng)用。然而，與國際先進(jìn)水平相比，國內(nèi)機(jī)器視覺技術(shù)仍存在一定差距。

2023-06-07 16:20:42

2076

傅里葉變換如何用于深度學(xué)習(xí)領(lǐng)域

到另一個(gè)域的數(shù)學(xué)方法，它也可以應(yīng)用于深度學(xué)習(xí)。本文將討論傅里葉變換，以及如何將其用于深度學(xué)習(xí)領(lǐng)域。什么是傅里葉變換？在數(shù)學(xué)中，變換技術(shù)用于將函數(shù)映射到與其原始函數(shù)空間不同的函數(shù)空間。傅里葉變換時(shí)也是一種變換

2023-06-14 10:01:16

721

如何學(xué)習(xí)基于Tansformer的目標(biāo)檢測(cè)算法

，也是近年來理論研究的熱點(diǎn)。作為計(jì)算機(jī)視覺中的基礎(chǔ)算法，目標(biāo)檢測(cè)對(duì)后續(xù)的人臉識(shí)別、目標(biāo)跟蹤、實(shí)例分割等任務(wù)都起著至關(guān)重要的作用。基于深度學(xué)習(xí)的卷積學(xué)習(xí)網(wǎng)絡(luò)（CNN）在目標(biāo)檢測(cè)任務(wù)上取得了優(yōu)越的性能，例如FasterRCNN、

2023-06-25 10:37:48

357

機(jī)器視覺檢測(cè)應(yīng)用于哪些行業(yè)

機(jī)器視覺檢測(cè)應(yīng)用于哪些行業(yè) 機(jī)器視覺可說是工業(yè)自動(dòng)化系統(tǒng)的靈魂之窗，從物件/條碼辨識(shí)、產(chǎn)品檢測(cè)、外觀尺寸量測(cè)到機(jī)械手臂/傳動(dòng)設(shè)備定位，都是機(jī)器視覺技術(shù)可以發(fā)揮的舞臺(tái)，因此它的應(yīng)用范圍十分廣泛，行業(yè)

2023-06-29 11:24:46

288

基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測(cè)算法案例

摘要：基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測(cè)算法在檢測(cè)過程中通常采用預(yù)定義搜索行為，其產(chǎn)生的候選區(qū)域形狀和尺寸變化單一，導(dǎo)致目標(biāo)檢測(cè)精確度較低。為此，在基于深度強(qiáng)化學(xué)習(xí)的視覺目標(biāo)檢測(cè)算法基礎(chǔ)上，提出聯(lián)合回歸與深度

2023-07-19 14:35:02

?2023年十大目標(biāo)檢測(cè)模型介紹

“目標(biāo)檢測(cè)是計(jì)算機(jī)視覺中最令人興奮和具有挑戰(zhàn)性的問題之一，深度學(xué)習(xí)已經(jīng)成為解決該問題的強(qiáng)大工具。”

2023-08-17 11:49:58

523

深度學(xué)習(xí)是什么領(lǐng)域

深度學(xué)習(xí)是什么領(lǐng)域? 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種子集，由多層神經(jīng)網(wǎng)絡(luò)組成。它是一種自動(dòng)學(xué)習(xí)技術(shù)，可以從數(shù)據(jù)中學(xué)習(xí)高層次的抽象模型，以進(jìn)行推斷和預(yù)測(cè)。深度學(xué)習(xí)廣泛應(yīng)用于計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理

2023-08-17 16:02:59

995

現(xiàn)場液位計(jì)信號(hào)檢測(cè)時(shí)存在哪些安全隱患

在現(xiàn)場液位計(jì)檢測(cè)時(shí)，測(cè)量液位計(jì)的輸出信號(hào)時(shí)存在以下幾種安全隱患：如果產(chǎn)能站流程出現(xiàn)問題，水罐會(huì)產(chǎn)生危險(xiǎn)氣體；如果檢測(cè)油罐液位，油罐頂部必然存在揮發(fā)性可燃?xì)怏w，檢測(cè)液位計(jì)輸出信號(hào)時(shí)，如果不小心短路

2023-08-18 09:20:04

334

計(jì)算機(jī)視覺中的九種深度學(xué)習(xí)技術(shù)

計(jì)算機(jī)視覺中仍有許多具有挑戰(zhàn)性的問題需要解決。然而，深度學(xué)習(xí)方法正在針對(duì)某些特定問題取得最新成果。在最基本的問題上，最有趣的不僅僅是深度學(xué)習(xí)模型的表現(xiàn);事實(shí)上，單個(gè)模型可以從圖像中學(xué)習(xí)意義并執(zhí)行視覺任務(wù)，從而無需使用專門的手工制作方法。

2023-08-21 09:56:05

306

瑞薩電子深度學(xué)習(xí)算法在缺陷檢測(cè)領(lǐng)域的應(yīng)用

缺陷檢測(cè)在電子制造業(yè)中是非常重要的應(yīng)用。然而，由于存在的缺陷多種多樣，傳統(tǒng)的機(jī)器視覺算法很難對(duì)缺陷特征進(jìn)行完全建模和遷移缺陷特征，致使傳統(tǒng)機(jī)器視覺算法可重復(fù)使用性不是很大，并且需要區(qū)分工作條件，這將

2023-09-22 12:19:00

449

深度學(xué)習(xí)在語音識(shí)別中的應(yīng)用及挑戰(zhàn)

一、引言隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，其在語音識(shí)別領(lǐng)域的應(yīng)用也日益廣泛。深度學(xué)習(xí)技術(shù)可以有效地提高語音識(shí)別的精度和效率，并且被廣泛應(yīng)用于各種應(yīng)用場景。本文將探討深度學(xué)習(xí)在語音識(shí)別中的應(yīng)用及所面臨

2023-10-10 18:14:53

449

深度學(xué)習(xí)技術(shù)與邊緣學(xué)習(xí)技術(shù)的不同之處

設(shè)計(jì)上的側(cè)重點(diǎn)不同，它們之間存在著差異。本文將幫助您深入理解深度學(xué)習(xí)技術(shù)與邊緣學(xué)習(xí)技術(shù)的不同之處，以便您能更有效地將它們應(yīng)用于您的行業(yè)領(lǐng)域，針對(duì)性地解決各種需求問題。

2023-11-17 10:44:29

242

深度學(xué)習(xí)在植物病害目標(biāo)檢測(cè)研究進(jìn)展

關(guān)注。中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所/農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室聯(lián)手甘肅農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院，組成科研團(tuán)隊(duì)，針對(duì)深度學(xué)習(xí)在植物葉部病害檢測(cè)與識(shí)別展開研究，植物病害目標(biāo)檢測(cè)是利用計(jì)算機(jī)視覺技術(shù)在復(fù)雜自然條件

2023-11-20 17:19:42

247

Neuro-T：零代碼自動(dòng)深度學(xué)習(xí)訓(xùn)練平臺(tái)

友思特 Neuro-T為傳統(tǒng)的深度學(xué)習(xí)視覺檢測(cè)方案提供了“自動(dòng)深度學(xué)習(xí)”的解決方案，結(jié)合自動(dòng)標(biāo)注功能，一鍵生成高性能視覺檢測(cè)模型，無需AI領(lǐng)域?qū)I(yè)知識(shí)即可創(chuàng)建深度學(xué)習(xí)視覺檢測(cè)模型。

2023-11-24 17:58:33

242

兩種應(yīng)用于3D對(duì)象檢測(cè)的點(diǎn)云深度學(xué)習(xí)方法

是標(biāo)準(zhǔn) RGB 圖像與其關(guān)聯(lián)的“深度圖”的組合，目前由 Kinect 或英特爾實(shí)感技術(shù)使用。3D 數(shù)據(jù)可以對(duì)傳感器周圍環(huán)境進(jìn)行豐富的空間表示，并可應(yīng)用于機(jī)器人、智能家居設(shè)備、無人駕駛汽車或醫(yī)學(xué)成像。

2024-01-03 10:32:10

207

基于機(jī)器視覺和深度學(xué)習(xí)的焊接質(zhì)量檢測(cè)系統(tǒng)

基于機(jī)器視覺和深度學(xué)習(xí)的焊接質(zhì)量檢測(cè)系統(tǒng)是一種創(chuàng)新性的技術(shù)解決方案，它結(jié)合了先進(jìn)的計(jì)算機(jī)視覺和深度學(xué)習(xí)算法，用于實(shí)時(shí)監(jiān)測(cè)和評(píng)估焊接過程中的焊縫質(zhì)量。這一系統(tǒng)在工業(yè)制造中發(fā)揮著重要作用，提高了焊接質(zhì)量

2024-01-18 17:50:52

239

維視智造VisionBank深度學(xué)習(xí)軟件在哪里下載？

易于上手，與深度學(xué)習(xí)技術(shù)融合后，使檢測(cè)準(zhǔn)確性提高到100%，同時(shí)簡化了開發(fā)流程，提高了效率，簡單易用。相對(duì)單純的深度視覺系統(tǒng)優(yōu)勢(shì)VisionBank Ai深度學(xué)習(xí)

2021-04-02 14:07:08

已全部加載完成

搜索歷史

深度學(xué)習(xí)技術(shù)應(yīng)用于目標(biāo)視覺檢測(cè)時(shí)存在的困難和挑戰(zhàn)

評(píng)論