摘要:目標(biāo)視覺檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問題,在視頻監(jiān)控、自主駕駛、人機(jī)交互等方面具有重要的研究意義和應(yīng)用價(jià)值.近年來,深度學(xué)習(xí)在圖像分類研究中取得了突破性進(jìn)展,也帶動(dòng)著目標(biāo)視覺檢測(cè)取得突飛猛進(jìn)的發(fā)展.本文綜述了深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用進(jìn)展與展望.首先對(duì)目標(biāo)視覺檢測(cè)的基本流程進(jìn)行總結(jié),并介紹了目標(biāo)視覺檢測(cè)研究常用的公共數(shù)據(jù)集;然后重點(diǎn)介紹了目前發(fā)展迅猛的深度學(xué)習(xí)方法在目標(biāo)視覺檢測(cè)中的最新應(yīng)用進(jìn)展;最后討論了深度學(xué)習(xí)方法應(yīng)用于目標(biāo)視覺檢測(cè)時(shí)存在的困難和挑戰(zhàn),并對(duì)今后的發(fā)展趨勢(shì)進(jìn)行展望.
目標(biāo)視覺檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)非常重要的研究問題.隨著電子設(shè)備的應(yīng)用在社會(huì)生產(chǎn)和人們生活中越來越普遍,?數(shù)字圖像已經(jīng)成為不可缺少的信息媒介,?每時(shí)每刻都在產(chǎn)生海量的圖像數(shù)據(jù).與此同時(shí),對(duì)圖像中的目標(biāo)進(jìn)行精確識(shí)別變得越來越重要[1].我們不僅關(guān)注對(duì)圖像的簡單分類,?而且希望能夠準(zhǔn)確獲得圖像中存在的感興趣目標(biāo)及其位置[2],?并將這些信息應(yīng)用到視頻監(jiān)控、自主駕駛等一系列現(xiàn)實(shí)任務(wù)中,?因此目標(biāo)視覺檢測(cè)技術(shù)受到了廣泛關(guān)注[3].
目標(biāo)視覺檢測(cè)具有巨大的實(shí)用價(jià)值和應(yīng)用前景.應(yīng)用領(lǐng)域包括智能視頻監(jiān)控、機(jī)器人導(dǎo)航、數(shù)碼相機(jī)中自動(dòng)定位和聚焦人臉的技術(shù)、飛機(jī)航拍或衛(wèi)星圖像中道路的檢測(cè)、車載攝像機(jī)圖像中的障礙物檢測(cè)等.同時(shí),?目標(biāo)視覺檢測(cè)也是眾多高層視覺處理和分析任務(wù)的重要前提,?例如行為分析、事件檢測(cè)、場景語義理解等都要求利用圖像處理和模式識(shí)別技術(shù),?檢測(cè)出圖像中存在的目標(biāo),?確定這些目標(biāo)對(duì)象的語義類型,?并且標(biāo)出目標(biāo)對(duì)象在圖像中的具體區(qū)域[4].
在自然環(huán)境條件下,?目標(biāo)視覺檢測(cè)經(jīng)常遇到以下幾個(gè)方面的挑戰(zhàn):
1)?類內(nèi)和類間差異
對(duì)于很多物體,?它們自身就存在很大的差異性,?同類物體的不同實(shí)例在顏色、材料、形狀等方面可能存在巨大的差異,?很難訓(xùn)練一個(gè)能夠包含所有類內(nèi)變化的特征描述模型.另外,?不同類型物體之間又可能具有很大的相似性,?甚至非專業(yè)人員從外觀上很難區(qū)分它們.類內(nèi)差異可能很大,?而類間差異可能很小,?給目標(biāo)視覺檢測(cè)提出了挑戰(zhàn).
2)?圖像采集條件
在圖像采集過程中,?由于環(huán)境、光照、天氣、拍攝視角和距離的不同、物體自身的非剛體形變以及可能被其他物體部分遮擋,?導(dǎo)致物體在圖像中的表觀特征具有很大的多樣性,?對(duì)視覺算法的魯棒性提出了很高要求.
3)?語義理解的差異
對(duì)同一幅圖像,?不同的人可能會(huì)有不同的理解,?這不僅與個(gè)人的觀察視角和關(guān)注點(diǎn)有關(guān),?也與個(gè)人的性格、心理狀態(tài)和知識(shí)背景等有關(guān),?這明顯增加了從仿生或類腦角度來研究視覺算法的難度.
4)?計(jì)算復(fù)雜性和自適應(yīng)性
目標(biāo)視覺檢測(cè)的計(jì)算復(fù)雜性主要來自于待檢測(cè)目標(biāo)類型的數(shù)量、特征描述子的維度和大規(guī)模標(biāo)記數(shù)據(jù)集的獲取.由于在真實(shí)世界中存在大量的目標(biāo)類型,?每種類型都包含大量的圖像,?同時(shí)識(shí)別每種類型需要很多視覺特征,?這導(dǎo)致高維空間稀疏的特征描述[4].另外,?目標(biāo)模型經(jīng)常從大規(guī)模標(biāo)記數(shù)據(jù)集中學(xué)習(xí)得到,?在許多情況下,?數(shù)據(jù)采集和標(biāo)注很困難,?需要耗費(fèi)大量的人力物力.這些情況導(dǎo)致目標(biāo)檢測(cè)的計(jì)算復(fù)雜性很高,?需要設(shè)計(jì)高效的目標(biāo)檢測(cè)算法.同時(shí),?在動(dòng)態(tài)變化的環(huán)境中,?為了提高目標(biāo)檢測(cè)精度,?還需要探索合適的機(jī)制來自動(dòng)更新視覺模型,?提高模型對(duì)復(fù)雜環(huán)境的自適應(yīng)能力.
為了克服上述挑戰(zhàn),?已經(jīng)提出了許多目標(biāo)視覺檢測(cè)算法,?它們?cè)谀繕?biāo)區(qū)域建議、圖像特征表示、候選區(qū)域分類等步驟采用了不同的處理策略.近年來,?隨著深度學(xué)習(xí)技術(shù)的發(fā)展,?很多基于深度學(xué)習(xí)的目標(biāo)視覺檢測(cè)方法陸續(xù)被提出,?在精度上顯著優(yōu)于傳統(tǒng)方法,?成為最新的研究熱點(diǎn).本文首先介紹目標(biāo)視覺檢測(cè)的基本流程,?然后重點(diǎn)介紹深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用進(jìn)展.
1?目標(biāo)視覺檢測(cè)的基本流程
目標(biāo)視覺檢測(cè)的根本問題是估計(jì)特定類型目標(biāo)出現(xiàn)在圖像中的哪些位置.如圖?1所示,?目標(biāo)視覺檢測(cè)技術(shù)在流程上大致分為三個(gè)步驟:區(qū)域建議(Region proposal)、特征表示(Feature representation)和區(qū)域分類(Region classification).首先對(duì)圖像中可能的目標(biāo)位置提出建議,?也就是提出一些可能含有目標(biāo)的候選區(qū)域.然后采用合適的特征模型得到特征表示.最后借助分類器判斷各個(gè)區(qū)域中是否含有特定類型的目標(biāo),?并且通過一些后處理操作,?例如非極大值抑制、邊框位置回歸等,?得到最終的目標(biāo)邊框.該基本流程被許多工作所采用,?例如文獻(xiàn)[5]提出的HOG-SVM檢測(cè)方法、文獻(xiàn)[6]提出的Selective search區(qū)域建議方法、目前在PASCAL VOC、MS COCO、ImageNet等數(shù)據(jù)集上取得領(lǐng)先精度的Faster R-CNN[7]檢測(cè)方法以及Faster R-CNN采用的特征表示和區(qū)域分類方法ResNet[8]等.
圖?1?目標(biāo)視覺檢測(cè)的基本流程
Figure 1?Basic procedure for object detection
本節(jié)接下來從區(qū)域建議、特征表示和區(qū)域分類三個(gè)方面來總結(jié)目標(biāo)視覺檢測(cè)的關(guān)鍵技術(shù).?
1.1?區(qū)域建議?
目標(biāo)檢測(cè)要求獲得目標(biāo)的位置和尺度信息,?這需要借助區(qū)域建議來實(shí)現(xiàn).區(qū)域建議是指在輸入圖像中搜尋特定類型目標(biāo)的可能區(qū)域的一種策略.傳統(tǒng)的區(qū)域建議策略包括三種[4]:基于滑動(dòng)窗的區(qū)域建議、基于投票機(jī)制的區(qū)域建議和基于圖像分割的區(qū)域建議.?
1.1.1?基于滑動(dòng)窗的區(qū)域建議?
基于滑動(dòng)窗的方法是在輸入圖像所有可能的子窗口中執(zhí)行目標(biāo)檢測(cè)算法來定位潛在的目標(biāo).在文獻(xiàn)[5]中,?檢測(cè)窗口是一個(gè)給定大小的矩形框,?在整幅圖像的所有位置和尺度上進(jìn)行掃描,?并對(duì)區(qū)域分類結(jié)果做非極大值抑制.基于滑動(dòng)窗的區(qū)域建議方法采用窮舉搜索,?原理簡單,?易于實(shí)現(xiàn),?但是計(jì)算復(fù)雜性高,?太過耗時(shí).于是一些研究者提出加快窗口搜索的方法. Lampert等[9]提出了一種高效的子窗口搜索策略(簡稱為ESS),?采用分支限界法來減少搜索范圍.但是它的性能在很大程度上取決于輸入圖像中的物體,?當(dāng)沒有物體出現(xiàn)時(shí),該算法退化到窮舉搜索. An等[10]提出一種改進(jìn)的ESS算法. Wei等[11]提出一種在直方圖維度上具有常數(shù)復(fù)雜度的滑動(dòng)窗口策略. Van de Sande等[12]引入圖像分割信息,?將其作為目標(biāo)假設(shè)區(qū)域,?從而只對(duì)這些假設(shè)區(qū)域進(jìn)行目標(biāo)檢測(cè).?
1.1.2?基于投票機(jī)制的區(qū)域建議?
基于投票機(jī)制的方法主要用于基于部件的模型,?通常投票機(jī)制的實(shí)現(xiàn)可歸納為兩步[13-14]: 1)?找到輸入圖像與模型中各個(gè)局部區(qū)域最匹配的區(qū)域,?并最大化所有局部區(qū)域的匹配得分; 2)?利用拓?fù)湓u(píng)價(jià)方法取得最佳的結(jié)構(gòu)匹配.由于投票機(jī)制是一種貪心算法,?可能得不到最優(yōu)的拓?fù)浼僭O(shè),?并且部件匹配通常采用窮舉搜索來實(shí)現(xiàn),?計(jì)算代價(jià)很高.?
1.1.3?基于圖像分割的區(qū)域建議?
基于圖像分割的區(qū)域建議建立在圖像分割的基礎(chǔ)上,?分割的圖像區(qū)域就是目標(biāo)的位置候選.語義分割是一種最直接的圖像分割方法,?需要對(duì)每個(gè)像素所屬的目標(biāo)類型進(jìn)行標(biāo)注[15].目前主要采用的方法是概率圖模型,?例如采用CRF[16]或MRF[17]方法來鼓勵(lì)相鄰像素之間的標(biāo)記一致性.圖像分割是一個(gè)耗時(shí)而又復(fù)雜的過程,?而且很難將單個(gè)目標(biāo)完整地分割出來.?
不同于以上策略,?文獻(xiàn)[6]先將圖片分割成若干小區(qū)域,?然后再聚合,?通過對(duì)聚合后的區(qū)域打分并排序,獲得較有可能是目標(biāo)區(qū)域的窗口.文獻(xiàn)[18-19]中采用生成大量窗口并打分,?然后過濾掉低分的方法.文獻(xiàn)[20]對(duì)這些方法進(jìn)行了討論和比較.這些方法存在的主要問題是,?采樣數(shù)目較少時(shí)召回率不高、定位精度較低等.對(duì)于一個(gè)目標(biāo)檢測(cè)系統(tǒng)來說,?少量的候選區(qū)域不僅可以減少運(yùn)行時(shí)間,?而且使得檢測(cè)準(zhǔn)確率更高,?因此保證采樣數(shù)目少的情況下召回率仍然很高是至關(guān)重要的.為了解決這些問題,?一些研究者開始采用深度學(xué)習(xí)方法來產(chǎn)生候選區(qū)域.在MultiBox[21-22]中,?通過采用深度神經(jīng)網(wǎng)絡(luò)回歸模型定位出若干可能的包圍邊框.在Deepbox[23]中, Kuo等采用訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型來給通過EdgeBoxes[19]產(chǎn)生的候選區(qū)域進(jìn)行排序.在DeepProposal[24]中, Ghodrati等評(píng)估了用卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生目標(biāo)候選區(qū)域的質(zhì)量,?發(fā)現(xiàn)最后一層卷積層可以以很高的召回率找到感興趣的目標(biāo),?但是定位精度很低,?而第一層網(wǎng)絡(luò)可以很好地定位目標(biāo),?但是召回率很低.基于此發(fā)現(xiàn),?他們?cè)O(shè)計(jì)了一種通過多層CNN特征由粗到細(xì)地串聯(lián)來產(chǎn)生候選區(qū)域的方法.文獻(xiàn)[7]提出區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN),?把產(chǎn)生候選區(qū)域和區(qū)域分類聯(lián)合到一個(gè)深度神經(jīng)網(wǎng)絡(luò),?通過端到端訓(xùn)練,?在提高精度的同時(shí)降低了計(jì)算時(shí)間.最近, Gidaris等[25]使用概率預(yù)測(cè)方式來進(jìn)一步提高目標(biāo)檢測(cè)的定位精度,?不同于邊框位置回歸的方法,?該方法首先將搜索區(qū)域劃分成若干個(gè)水平區(qū)域和豎直區(qū)域,?然后給搜索區(qū)域的每列或每行分配概率,?利用這些概率信息來不斷迭代獲得更精確的檢測(cè)框.?
1.2?特征表示?
特征表示是實(shí)現(xiàn)目標(biāo)視覺檢測(cè)必備的步驟,?選擇合適的特征模型將圖像區(qū)域映射為特征向量,?然后利用從訓(xùn)練樣本學(xué)習(xí)到的分類器對(duì)該特征向量進(jìn)行分類,?判斷其所屬類型.特征的表達(dá)能力直接影響分類器精度,決定了算法的最終性能.特征模型主要分為手工設(shè)計(jì)的特征和自動(dòng)學(xué)習(xí)的特征.?
1.2.1?手工設(shè)計(jì)的特征?
在深度學(xué)習(xí)熱潮之前,?主要采用手工設(shè)計(jì)的特征.手工特征數(shù)目繁多,?可以分為三大類:基于興趣點(diǎn)檢測(cè)的方法、基于密集提取的方法和基于多種特征組合的方法.?
1)?基于興趣點(diǎn)檢測(cè)的方法?
興趣點(diǎn)檢測(cè)方法通過某種準(zhǔn)則,?選擇具有明確定義并且局部紋理特征比較明顯的像素、邊緣和角點(diǎn)等[3].其中Sobel、Prewitt、Roberts、Canny和LoG (Laplacian of Gaussian)等是典型的邊緣檢測(cè)算子[26-29].而Harris、FAST (Features from accelerated segment test)、CSS (Curvature scale space)和DOG (Difference of Gaussian)等是典型的角點(diǎn)檢測(cè)算子[30-32].興趣點(diǎn)檢測(cè)方法通常具有一定的幾何不變性,?能夠以較小的計(jì)算代價(jià)得到有意義的表達(dá).?
2)?基于密集提取的方法?
密集提取方法主要提取局部特征.區(qū)別于顏色直方圖等全局特征,?局部特征有利于處理目標(biāo)部分遮擋問題.常用的局部特征有SIFT (Scale-invariant feature transform)[33]、HOG (Histogram of oriented gradient)[5]、Haar-like[34]和LBP (Local binary pattern)[35-36]等.局部特征包含的信息豐富、獨(dú)特性好,?并且具有較強(qiáng)的不變性和可區(qū)分性,?能夠最大程度地對(duì)圖像進(jìn)行底層描述.但是其計(jì)算一般比較復(fù)雜,?近些年圖像的局部特征正在向快速和低存儲(chǔ)方向發(fā)展.?
3)?基于多種特征組合的方法?
手工特征具有良好的可擴(kuò)展性,?將興趣點(diǎn)檢測(cè)與密集提取相結(jié)合的多種特征組合方法,?能夠彌補(bǔ)利用單一特征進(jìn)行目標(biāo)表示的不足. DPM (Deformable part-based model)[2]提出了一種有效的多種特征組合模型,?被廣泛應(yīng)用于目標(biāo)檢測(cè)任務(wù)并取得了良好效果,?例如行人檢測(cè)[37-38]、人臉檢測(cè)[39-40]和人體姿態(tài)估計(jì)[41]等.另外,?文獻(xiàn)[42]提出了一種改進(jìn)的DPM方法,?大大提升了檢測(cè)速度.?
依靠手工設(shè)計(jì)特征,?需要豐富的專業(yè)知識(shí)并且花費(fèi)大量的時(shí)間.特征的好壞在很大程度上還要依靠經(jīng)驗(yàn)和運(yùn)氣,?往往整個(gè)算法的測(cè)試和調(diào)節(jié)工作都集中于此,?需要手工完成,?十分費(fèi)力.與之相比,?近年來受到廣泛關(guān)注的深度學(xué)習(xí)理論中的一個(gè)重要觀點(diǎn)就是手工設(shè)計(jì)的特征描述子作為視覺計(jì)算的第一步,?往往過早地丟失掉有用信息,?而直接從圖像中學(xué)習(xí)到與任務(wù)相關(guān)的特征表示,?比手工設(shè)計(jì)特征更加有效[3].?
1.2.2?自動(dòng)學(xué)習(xí)的特征?
近年來,?深度學(xué)習(xí)在圖像分類和目標(biāo)檢測(cè)等領(lǐng)域取得了突破性進(jìn)展,?成為目前最有效的自動(dòng)特征學(xué)習(xí)方法.深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力,?通過監(jiān)督或非監(jiān)督的方式,?逐層自動(dòng)地學(xué)習(xí)目標(biāo)的特征表示,將原始數(shù)據(jù)經(jīng)過一系列非線性變換,?生成高層次的抽象表示,?避免了手工設(shè)計(jì)特征的繁瑣低效.深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的研究現(xiàn)狀是本文的核心內(nèi)容,?將在第3節(jié)進(jìn)行詳細(xì)介紹.?
1.3?區(qū)域分類?
區(qū)域分類是指把候選區(qū)域的特征向量作為分類器輸入,?預(yù)測(cè)候選區(qū)域所屬的目標(biāo)類型.分類器在目標(biāo)檢測(cè)中的作用可以概括為:先利用訓(xùn)練數(shù)據(jù)集進(jìn)行模型學(xué)習(xí),?然后利用學(xué)習(xí)到的模型對(duì)新的候選區(qū)域進(jìn)行類型預(yù)測(cè).分類器一般是利用監(jiān)督學(xué)習(xí)方法訓(xùn)練得到的,?常用的有支持向量機(jī)(Support vector machine, SVM)、Adaboost、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等.目前,?圖像識(shí)別任務(wù)中廣泛采用一對(duì)多(One-vs-others)的分類器訓(xùn)練方式[43],?就是把其中一類模式作為正樣本,?其余模式作為負(fù)樣本,?針對(duì)每一類模式分別訓(xùn)練一個(gè)分類器;?在測(cè)試階段,?將圖像特征分別輸入到所有的分類器,?選擇分類器響應(yīng)最大的一類模式作為類型預(yù)測(cè). Girshick等[44]就是采用這種方式,?提取候選區(qū)域的特征表示,?利用一對(duì)多SVM分類器實(shí)現(xiàn)對(duì)PASCAL VOC圖像集20種目標(biāo)的檢測(cè).?
2?目標(biāo)視覺檢測(cè)的公共數(shù)據(jù)集?
為了促進(jìn)目標(biāo)視覺檢測(cè)的研究進(jìn)展,?建設(shè)大規(guī)模的公共數(shù)據(jù)集成為必然要求.目前,?目標(biāo)視覺檢測(cè)研究常用的公共數(shù)據(jù)集有ImageNet、PASCAL VOC、SUN和MS COCO等.下面將從這些數(shù)據(jù)集包含的圖像數(shù)目、類型數(shù)目、每類樣本數(shù)等方面對(duì)它們進(jìn)行介紹.直觀對(duì)比如圖?2所示.
圖?2?幾種公共數(shù)據(jù)集的對(duì)比圖
Figure 2?Comparison of several common datasets
1) ImageNet數(shù)據(jù)集[45]
該數(shù)據(jù)集是目前世界上最大的圖像分類數(shù)據(jù)集,?包含1 400萬幅圖像、2.2萬個(gè)類型,?平均每個(gè)類型包含1 000幅圖像.此外, ImgeNet還建立了一個(gè)包含1 000類物體,?有120萬圖像的數(shù)據(jù)集,?并將該數(shù)據(jù)集作為圖像識(shí)別競賽的數(shù)據(jù)平臺(tái).
2) PASCAL VOC數(shù)據(jù)集[46]
2005 ~ 2012年,?該數(shù)據(jù)集每年都發(fā)布關(guān)于圖像分類、目標(biāo)檢測(cè)和圖像分割等任務(wù)的數(shù)據(jù)集,?并在相應(yīng)數(shù)據(jù)集上舉行算法競賽,?極大地推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域的研究進(jìn)展.該數(shù)據(jù)集最初只提供了4個(gè)類型的圖像,到2007年穩(wěn)定在20個(gè)類;?測(cè)試圖像的數(shù)量從最初的1 578幅,?到2011年穩(wěn)定在11 530幅.雖然該數(shù)據(jù)集類型數(shù)目比較少,?但是由于圖像中物體變化極大,?每幅圖像可能包含多個(gè)不同類型目標(biāo)對(duì)象,?并且目標(biāo)尺度變化很大,?因而檢測(cè)難度非常大.
3) SUN數(shù)據(jù)集[47]
該數(shù)據(jù)集是一個(gè)覆蓋較大場景、位置、物體變化的數(shù)據(jù)集,?其中的場景名主要是從WorldNet中描述場景、位置、環(huán)境等任何具體的名詞得來. SUN數(shù)據(jù)集包含兩個(gè)評(píng)測(cè)集:一個(gè)是場景識(shí)別數(shù)據(jù)集,?稱為SUN 397,?共包含397類場景,?每類至少包含100幅圖像,?總共有108 754幅圖像;?另一個(gè)評(píng)測(cè)集為物體檢測(cè)數(shù)據(jù)集,稱為SUN 2012,?包含16 873幅圖像.
4) MS COCO數(shù)據(jù)集[48]
該數(shù)據(jù)集包含約30多萬幅圖像、200多萬個(gè)標(biāo)注物體、91個(gè)物體類型.雖然比ImageNet和SUN包含的類型少,?但是每一類物體的圖像多,?另外圖像中包含精確的分割信息,?是目前每幅圖像平均包含目標(biāo)數(shù)最多的數(shù)據(jù)集. MS COCO不但能夠用于目標(biāo)視覺檢測(cè)研究,?還能夠用來研究圖像中目標(biāo)之間的上下文關(guān)系.
3?深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用進(jìn)展
3.1?深度學(xué)習(xí)簡介
深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力, 通過監(jiān)督或非監(jiān)督的訓(xùn)練方式, 能夠逐層、自動(dòng)地學(xué)習(xí)目標(biāo)的特征表示, 實(shí)現(xiàn)對(duì)物體層次化的抽象和描述. 1986年, Rumelhart等[49]提出人工神經(jīng)網(wǎng)絡(luò)的反向傳播(Back propagation, BP)算法. BP算法指導(dǎo)機(jī)器如何從后一層獲取誤差而改變前一層的內(nèi)部參數(shù), 深度學(xué)習(xí)能夠利用BP算法發(fā)現(xiàn)大數(shù)據(jù)中的復(fù)雜結(jié)構(gòu), 把原始數(shù)據(jù)通過一些簡單的非線性函數(shù)變成高層次的抽象表達(dá)[50], 使計(jì)算機(jī)自動(dòng)學(xué)習(xí)到模式特征, 從而避免了手工設(shè)計(jì)特征的繁瑣低效問題. Hinton等[51-52]于2006年首次提出以深度神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù), 引起學(xué)術(shù)界的關(guān)注.之后, Bengio[53]、LeCun[54]和Lee[55]等迅速開展了重要的跟進(jìn)工作, 開啟了深度學(xué)習(xí)研究的熱潮.深度學(xué)習(xí)技術(shù)首先在語音識(shí)別領(lǐng)域取得了突破性進(jìn)展[56].在圖像識(shí)別領(lǐng)域, Krizhevsky等[57]于2012年構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò), 在大規(guī)模圖像分類問題上取得了巨大成功.隨后在目標(biāo)檢測(cè)任務(wù)中, 深度學(xué)習(xí)方法[7, 44, 58]也超過了傳統(tǒng)方法。
目前應(yīng)用于圖像識(shí)別和分析研究的深度學(xué)習(xí)模型主要包括堆疊自動(dòng)編碼器(Stacked auto-encoders, SAE)[53]、深度信念網(wǎng)絡(luò)(Deep belief network, DBN)[51-52]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)[59]等.
SAE模型的實(shí)質(zhì)是多個(gè)自動(dòng)編碼器(Auto-encoder, AE)的堆疊.一個(gè)自動(dòng)編碼器是由編碼器和解碼器兩部分組成,?能夠盡可能復(fù)現(xiàn)輸入信號(hào).作為一種無監(jiān)督學(xué)習(xí)的非線性特征提取方法,?其輸出與輸入具有相同的維度,?隱藏層則被用來進(jìn)行原始數(shù)據(jù)的特征表示或編碼. SAE模型將前一層自動(dòng)編碼器的輸出作為后一層自動(dòng)編碼器的輸入,?逐層地對(duì)自動(dòng)編碼器進(jìn)行預(yù)訓(xùn)練,?然后利用BP算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào).目前基于SAE的擴(kuò)展模型有很多,?例如,?堆疊去噪自動(dòng)編碼器(Stacked denoising autoencoders, SDA)[60],?以及堆疊卷積自動(dòng)編碼器(Stacked convolutional auto-encoders, SCAE)[61].
DBN類似于SAE,?它的基本單元是受限玻爾茲曼機(jī)(Restricted Boltzmann machines, RBM),?整個(gè)網(wǎng)絡(luò)的訓(xùn)練分為兩個(gè)階段:預(yù)訓(xùn)練和全局微調(diào).首先以原始輸入為可視層,?訓(xùn)練一個(gè)單層的RBM,?該RBM訓(xùn)練完成后,其隱層輸出作為下一層RBM的輸入,?繼續(xù)訓(xùn)練下一層RBM.以此類推,?逐層訓(xùn)練,?直至將所有RBM訓(xùn)練完成,通過這種貪婪式的無監(jiān)督訓(xùn)練,?使整個(gè)DBN模型得到一個(gè)比較好的初始值,?然后加入數(shù)據(jù)標(biāo)簽對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的微調(diào),?進(jìn)一步改善網(wǎng)絡(luò)性能.
CNN是圖像和視覺識(shí)別中的研究熱點(diǎn),?近年來取得了豐碩成果.?圖?3給出了由LeCun等[59]提出的用于數(shù)字手寫體識(shí)別的CNN網(wǎng)絡(luò)結(jié)構(gòu), CNN通常包含卷積層、池化層和全連接層.卷積層通過使用多個(gè)濾波器與整個(gè)圖像進(jìn)行卷積,?可以得到圖像的多個(gè)特征圖表示;?池化層實(shí)際上是一個(gè)下采樣層,?通過求局部區(qū)域的最大值或平均值來達(dá)到降采樣的目的,?進(jìn)一步減少特征空間;?全連接層用于進(jìn)行高層推理,?實(shí)現(xiàn)最終分類. CNN的權(quán)值共享和局部連接大大減少了參數(shù)的規(guī)模,?降低了模型的訓(xùn)練復(fù)雜度,?同時(shí)卷積操作保留了圖像的空間信息,?具有平移不變性和一定的旋轉(zhuǎn)、尺度不變性. 2012年, Krizhevsky等[57]將CNN模型用于ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ImageNet large scale visual recognition challenge, ILSVRC)的圖像分類問題,?使錯(cuò)誤率大幅降低,?在國際上引起了對(duì)CNN模型的高度重視,?也因此推動(dòng)了目標(biāo)視覺檢測(cè)的研究進(jìn)展.
圖?3?卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)[59]
Figure 3?Basic structure of convolutional neural network[59]
3.2 AlexNet及其改進(jìn)模型
隨著深度學(xué)習(xí)的發(fā)展,?人們將深度學(xué)習(xí)應(yīng)用于圖像分類和目標(biāo)檢測(cè)任務(wù)中,?在許多公開競賽中取得了明顯優(yōu)于傳統(tǒng)方法的結(jié)果. Krizhevsky等[57]提出了一種新型卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet,?隨后其他研究者相繼提出ZFNet[62]、VGG[63]、GoogLeNet[64]和ResNet[8]等改進(jìn)模型,?進(jìn)一步提高了模型精度.?表?1顯示了幾種經(jīng)典CNN模型在圖像分類任務(wù)中的性能對(duì)比. ILSVRC的圖像分類錯(cuò)誤率每年都在被刷新,?如圖?4所示.隨著模型變得越來越深,?圖像分類的Top-5錯(cuò)誤率也越來越低,?目前已經(jīng)降低到3.08%附近[65].而在同樣的ImageNet數(shù)據(jù)集上,?人眼的辨識(shí)錯(cuò)誤率大約在5.1%.盡管這些模型都是針對(duì)圖像分類來做的,?但是都在解決一個(gè)最根本的問題,?即更強(qiáng)大的特征表示.采用這些CNN模型得到更強(qiáng)大的特征表示,?然后應(yīng)用到目標(biāo)檢測(cè)任務(wù),?可以獲得更高的檢測(cè)精度.
表?1?經(jīng)典CNN模型在ILSVRC圖像分類任務(wù)上的性能對(duì)比
Table 1?Performance comparison of classical CNN model in image classification task of ILSVRC
圖?4?ILSVRC圖像分類任務(wù)歷年冠軍方法的Top-5錯(cuò)誤率(下降曲線)和網(wǎng)絡(luò)層數(shù)(上升曲線)
Figure 4?Top-5 error rate (descent curve) and network layers (rise curve) of the champion methods each year in image classification task of ILSVRC
AlexNet[57]在ILSVRC 2012圖像分類任務(wù)上取得了Top-5錯(cuò)誤率16.4%,?明顯優(yōu)于基于傳統(tǒng)方法的第2名的結(jié)果(Top-5錯(cuò)誤率26.2%). AlexNet神經(jīng)網(wǎng)絡(luò)由5個(gè)卷積層、最大池化層、Dropout層和3個(gè)全連接層組成,網(wǎng)絡(luò)能夠?qū)? 000個(gè)圖像類型進(jìn)行分類.由于AlexNet的成功,?許多研究人員開始關(guān)注和改進(jìn)CNN結(jié)構(gòu). Zeiler等[62]通過可視化AlexNet網(wǎng)絡(luò),?發(fā)現(xiàn)第1層濾波器是非常高頻和低頻信息的混合,?很少覆蓋中間頻率.并且由于第2層卷積采用比較大的步長,?導(dǎo)致第2層出現(xiàn)混疊失真(Aliasing artifacts).為了解決這些問題,?他們將第1層濾波器的尺寸從11 × 11減小到7 × 7,?將步長從4減小到2,?形成ZFNet模型. ZFNet在網(wǎng)絡(luò)的第1層和第2層保留了更多信息,?降低了分類錯(cuò)誤率.
Simonyan等[63]隨后提出VGG網(wǎng)絡(luò),?探索在網(wǎng)絡(luò)參數(shù)總數(shù)基本不變的情況下, CNN隨著層數(shù)的增加,?導(dǎo)致其性能的變化.不同于AlexNet, VGG采用的濾波器尺寸是3 × 3,?通過將多個(gè)3 × 3濾波器堆疊的方式來代替一個(gè)大尺寸的濾波器,?因?yàn)槎鄠€(gè)3 × 3尺寸的卷積層比一個(gè)大尺寸濾波器卷積層具有更高的非線性,?使模型更有判別能力,?而且多個(gè)3 × 3尺寸的卷積層比一個(gè)大尺寸的濾波器有更少的參數(shù).通過加入1 × 1卷積層,?在不影響輸入輸出維數(shù)的情況下,?進(jìn)一步增加網(wǎng)絡(luò)的非線性表達(dá)能力.
Szegedy等[64]提出了一種新的深度CNN模型GoogLeNet,?習(xí)慣上稱為Inception-v1.只利用了比AlexNet[57]少12倍的參數(shù),?但分類錯(cuò)誤率更低. GoogLeNet采用Inception結(jié)構(gòu),?上一層的輸出經(jīng)過1×1?、3×3、5×5?的卷積層和3×3的池化層,?然后拼接在一起作為Inception的輸出.并且在3×3?、5 × 5卷積層之前采用1×1卷積層來降維,?既增加了網(wǎng)絡(luò)的深度,?又減少了網(wǎng)絡(luò)參數(shù). Inception結(jié)構(gòu)既提高了網(wǎng)絡(luò)對(duì)尺度的適應(yīng)性,?又提高了網(wǎng)絡(luò)計(jì)算資源的利用率.但是深度網(wǎng)絡(luò)在訓(xùn)練時(shí),?由于模型參數(shù)在不斷更新,?各層輸入的概率分布在不斷變化,?因此必須使用較小的學(xué)習(xí)率和較好的參數(shù)初值,?導(dǎo)致網(wǎng)絡(luò)訓(xùn)練很慢,?同時(shí)也導(dǎo)致采用飽和的非線性激活函數(shù)(例如Sigmoid)時(shí)訓(xùn)練困難.為了解決這些問題,?又出現(xiàn)了GoogLeNet的續(xù)作Inception-v2[66].它加入了批規(guī)范化(Batch normalization)處理,?將每一層的輸出都進(jìn)行規(guī)范化,?保持各層輸入的分布穩(wěn)定,?使得梯度受參數(shù)初值的影響減小.批規(guī)范化加快了網(wǎng)絡(luò)訓(xùn)練速度,?并且在一定程度上起到正則化的作用. Inception-v2在ILSVRC 2012圖像分類任務(wù)上的Top-5錯(cuò)誤率降低到4.8%.隨著Szegedy等研究GoogLeNet的深入,?網(wǎng)絡(luò)的復(fù)雜度也逐漸提高. Inception-v3[67]變得更加復(fù)雜,?它通過將大的濾波器拆解成若干個(gè)小的濾波器的堆疊,?在不降低網(wǎng)絡(luò)性能的基礎(chǔ)上,?增加了網(wǎng)絡(luò)的深度和非線性. Inception-v3在ILSVRC 2012圖像分類任務(wù)上的Top-5錯(cuò)誤率降低到3.5%.
2015年, He等[8]提出了深度高達(dá)上百層的殘差網(wǎng)絡(luò)ResNet,?網(wǎng)絡(luò)層數(shù)(152層)比以往任何成功的神經(jīng)網(wǎng)絡(luò)的層數(shù)多5倍以上,?在ImageNet測(cè)試集上的圖像分類錯(cuò)誤率低至3.57%. ResNet使用一種全新的殘差學(xué)習(xí)策略來指導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),?重新定義了網(wǎng)絡(luò)中信息流動(dòng)的方式,?重構(gòu)了網(wǎng)絡(luò)學(xué)習(xí)的過程,?很好地解決了深度神經(jīng)網(wǎng)絡(luò)層數(shù)與錯(cuò)誤率之間的矛盾(即網(wǎng)絡(luò)達(dá)到一定層數(shù)后,?更深的網(wǎng)絡(luò)導(dǎo)致更高的訓(xùn)練和測(cè)試錯(cuò)誤率). ResNet具有很強(qiáng)的通用性,?不但在圖像分類任務(wù),?而且在ImageNet數(shù)據(jù)集的目標(biāo)檢測(cè)、目標(biāo)定位任務(wù)以及MS COCO數(shù)據(jù)集的目標(biāo)檢測(cè)和分割任務(wù)上都取得了當(dāng)時(shí)最好的競賽成績.此后, Szegedy等[65]通過將Inception結(jié)構(gòu)與ResNet結(jié)構(gòu)相結(jié)合,?提出了Inception-ResNet-v1和Inception-ResNet-v2兩種混合網(wǎng)絡(luò),?極大地加快了訓(xùn)練速度,?并且性能也有所提升.除了這種混合結(jié)構(gòu),?他們還設(shè)計(jì)了一個(gè)更深更優(yōu)化的Inception-v4網(wǎng)絡(luò),?單純依靠Inception結(jié)構(gòu),?達(dá)到與Inception-ResNet-v2相近的性能. Szegedy等[65]將3個(gè)Inception-ResNet-v2網(wǎng)絡(luò)和1個(gè)Inception-v4網(wǎng)絡(luò)相集成,?在ILSVRC 2012圖像分類任務(wù)上的Top-5錯(cuò)誤率降低到3.08%.
3.3?深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用
深度學(xué)習(xí)技術(shù)的發(fā)展,?極大推動(dòng)了目標(biāo)視覺檢測(cè)研究.目標(biāo)檢測(cè)與圖像分類最主要的不同在于目標(biāo)檢測(cè)關(guān)注圖像的局部結(jié)構(gòu)信息,?而圖像分類關(guān)注圖像的全局表達(dá).與圖像分類一樣,?目標(biāo)檢測(cè)的輸入也是整幅圖像.目標(biāo)檢測(cè)和圖像分類在特征表示和分類器設(shè)計(jì)上有很大的相通性.
接下來,?我們從基于區(qū)域建議的方法和無區(qū)域建議的方法兩方面來介紹深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的研究現(xiàn)狀.
3.3.1?基于區(qū)域建議(Proposal-based)的方法
Girshick等[44]提出的R-CNN (Region-based convolutional neural networks)方法,?是近年來基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究的重要參考方法. R-CNN將目標(biāo)區(qū)域建議(Region proposal)和CNN相結(jié)合,?在PASCAL VOC 2012上的檢測(cè)平均精度mAP (Mean average precision)達(dá)到53.3%,?比傳統(tǒng)方法有了明顯改進(jìn). R-CNN的基本流程如圖?5所示,?首先對(duì)每一幅輸入圖像,?采用選擇性搜索(Selective search)[6]來提取候選區(qū)域;?然后用CNN網(wǎng)絡(luò)從每個(gè)區(qū)域提取一個(gè)固定長度的特征向量,?這里采用AlexNet[57]結(jié)構(gòu),?圖像經(jīng)過5個(gè)卷積層和2個(gè)全連接層,?得到一個(gè)4 096維的特征向量;?接著把提取到的特征向量送入支持向量機(jī)進(jìn)行分類.由于一些區(qū)域存在高度交疊, Girshick等采用非極大值抑制(Non-maximum suppression)來舍棄那些與更高得分區(qū)域的IoU (Intersection-over-Union)過大的區(qū)域.為了得到更精確的結(jié)果,?還采用了邊框回歸方法來進(jìn)一步改善檢測(cè)結(jié)果.在R-CNN模型的訓(xùn)練過程中,?由于目標(biāo)檢測(cè)標(biāo)注數(shù)據(jù)集的規(guī)模不夠, Girshick等先將網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集ImageNet上進(jìn)行預(yù)訓(xùn)練,?然后用N+1?類(N個(gè)目標(biāo)類和1個(gè)背景類)的輸出層來替換1 000類的Softmax層,?再針對(duì)目標(biāo)檢測(cè)任務(wù),?用PASCAL VOC數(shù)據(jù)集進(jìn)行微調(diào).這種方法很好地解決了訓(xùn)練數(shù)據(jù)不足的問題,?進(jìn)一步提升了檢測(cè)精度.得益于CNN的參數(shù)共享以及更低維度的特征,?整個(gè)檢測(cè)算法更加高效.但是, R-CNN也存在一些不容忽視的問題: 1)?候選區(qū)域之間的交疊使得特征被重復(fù)提取,?造成了嚴(yán)重的速度瓶頸,?降低了計(jì)算效率; 2)?將候選區(qū)域直接縮放到固定大小,?破壞了物體的長寬比,?可能導(dǎo)致物體的局部細(xì)節(jié)損失; 3)?使用邊框回歸有助于提高物體的定位精度,?但是如果待檢測(cè)物體存在遮擋,?該方法將難以奏效.
圖?5?R-CNN的計(jì)算流程[44]
Figure 5?Calculation flow of R-CNN[44]
He等[68]針對(duì)R-CNN速度慢{以及要求輸入圖像塊尺寸固定}的問題,?提出空間金字塔池化(Spatial pyramid pooling, SPP)模型.在R-CNN中,?要將提取到的目標(biāo)候選區(qū)域變換到固定尺寸,?再輸入到卷積神經(jīng)網(wǎng)絡(luò), He等加入了一個(gè)空間金字塔池化層來避免了這個(gè)限制. SPP-net網(wǎng)絡(luò)不論輸入圖像的尺寸大小,?都能產(chǎn)生固定長度的特征表示. SPP-net是對(duì)整幅圖像提取特征,?在最后一層卷積層得到特征圖后,?再針對(duì)每個(gè)候選區(qū)域在特征圖上進(jìn)行映射,?由此得到候選區(qū)域的特征.因?yàn)楹蜻x區(qū)域的尺寸各不相同,?導(dǎo)致它們映射所得到的特征圖大小也不同,?但CNN的全連接層需要固定維度的輸入,?因此引入了空間金字塔池化層來把特征轉(zhuǎn)換到相同的維度.空間金字塔池化的思想來源于空間金字塔模型(Spatial pyramid model, SPM)[43],?它采用多個(gè)尺度的池化來替代原來單一的池化. SPP層用不同大小的池化窗口作用于卷積得到的特征圖,?池化窗口的大小和步長根據(jù)特征圖的尺寸進(jìn)行動(dòng)態(tài)計(jì)算. SPP-net對(duì)于一幅圖像的所有候選區(qū)域,?只需要進(jìn)行一次卷積過程,避免了重復(fù)計(jì)算,?顯著提高了計(jì)算效率,?而且空間金字塔池化層使得檢測(cè)網(wǎng)絡(luò)可以處理任意尺寸的圖像,?因此可以采用多尺度圖像來訓(xùn)練網(wǎng)絡(luò),?從而使得網(wǎng)絡(luò)對(duì)目標(biāo)的尺度有很好的魯棒性.該方法在速度上比R-CNN提高24 ~ 102倍,?并且在PASCAL VOC 2007和Caltech 101數(shù)據(jù)集上取得了當(dāng)時(shí)最好的成績.但是它存在以下缺點(diǎn): 1) SPP-net的檢測(cè)過程是分階段的,?在提取特征后用SVM分類,?然后還要進(jìn)一步進(jìn)行邊框回歸,?這使得訓(xùn)練過程復(fù)雜化; 2) CNN提取的特征存儲(chǔ)需要的空間和時(shí)間開銷大; 3)?在微調(diào)階段, SPP-net只能更新空間金字塔池化層后的全連接層,?而不能更新卷積層,?這限制了檢測(cè)性能的提升.
后來, Girshick等[58]對(duì)R-CNN和SPP-net進(jìn)行了改進(jìn),?提出能夠?qū)崿F(xiàn)特征提取、區(qū)域分類和邊框回歸的端到端聯(lián)合訓(xùn)練的Fast R-CNN算法,?計(jì)算流程如圖?6所示.與R-CNN類似, Fast R-CNN首先在圖像中提取感興趣區(qū)域(Regions of Interest, RoI);?然后采用與SPP-net相似的處理方式,?對(duì)每幅圖像只進(jìn)行一次卷積,?在最后一個(gè)卷積層輸出的特征圖上對(duì)每個(gè)RoI進(jìn)行映射,?得到相應(yīng)的RoI的特征圖,?并送入RoI池化層(相當(dāng)于單層的SPP層,?通過該層把各尺寸的特征圖統(tǒng)一到相同的大小);?最后經(jīng)過全連接層得到兩個(gè)輸出向量,?一個(gè)進(jìn)行Softmax分類,?另一個(gè)進(jìn)行邊框回歸.在微調(diào)階段, Fast R-CNN采用一種新的層級(jí)采樣方法,?先采樣圖像,?再從采樣出的圖像中對(duì)RoI進(jìn)行采樣,?同一幅圖像的RoI共享計(jì)算和內(nèi)存,?使得訓(xùn)練更加高效. Fast R-CNN采用Softmax分類與邊框回歸一起進(jìn)行訓(xùn)練,?省去了特征存儲(chǔ),?提高了空間和時(shí)間利用率,?同時(shí)分類和回歸任務(wù)也可以共享卷積特征,?相互促進(jìn).與R-CNN相比,?在訓(xùn)練VGG網(wǎng)絡(luò)時(shí), Fast R-CNN的訓(xùn)練階段快9倍,?測(cè)試階段快213倍;?與SPP-net相比, Fast R-CNN的訓(xùn)練階段快3倍,?測(cè)試階段快10倍,?并且檢測(cè)精度有一定提高.然而, Fast R-CNN仍然存在速度上的瓶頸,?就是區(qū)域建議步驟耗費(fèi)了整個(gè)檢測(cè)過程的大量時(shí)間.
圖?6?Fast R-CNN的計(jì)算流程[58]
Figure 6?Calculation flow of Fast R-CNN[58]
為了解決區(qū)域建議步驟消耗大量計(jì)算資源,?導(dǎo)致目標(biāo)檢測(cè)不能實(shí)時(shí)的問題, Ren等[7]提出區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN),?并且把RPN和Fast R-CNN融合到一個(gè)統(tǒng)一的網(wǎng)絡(luò)(稱為Faster R-CNN),?共享卷積特征. RPN將一整幅圖像作為輸入,?輸出一系列的矩形候選區(qū)域.它是一個(gè)全卷積網(wǎng)絡(luò)模型,?通過在與Fast R-CNN共享卷積層的最后一層輸出的特征圖上滑動(dòng)一個(gè)小型網(wǎng)絡(luò),?這個(gè)網(wǎng)絡(luò)與特征圖上的小窗口全連接,?每個(gè)滑動(dòng)窗口映射到一個(gè)低維的特征向量,?再輸入給兩個(gè)并列的全連接層,?即分類層(cls layer)和邊框回歸層(reg layer),?由于網(wǎng)絡(luò)是以滑動(dòng)窗的形式來進(jìn)行操作,?所以全連接層的參數(shù)在所有空間位置是共享的.因此該結(jié)構(gòu)由一個(gè)卷積層后連接兩個(gè)并列的1×1卷積層實(shí)現(xiàn),?如圖?7所示.對(duì)于每個(gè)小窗口,?以中心點(diǎn)為基準(zhǔn)點(diǎn)選取k?(作者采用k=9?)個(gè)不同尺度、不同長寬比的Anchor.對(duì)于每個(gè)Anchor,?分類層輸出2個(gè)值,?分別表示其屬于目標(biāo)的概率與屬于背景的概率;?邊框回歸層輸出4個(gè)值,?表示其坐標(biāo)位置. RPN的提出,?以及與Fast R-CNN進(jìn)行卷積特征的共享,?使得區(qū)域建議步驟的計(jì)算代價(jià)很小.與以前的方法相比,?提取的候選區(qū)域數(shù)量大幅減少,?同時(shí)改進(jìn)了候選區(qū)域的質(zhì)量,?從而提高了整個(gè)目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能,?幾乎可以做到實(shí)時(shí)檢測(cè).在PASCAL VOC 2007和2012、MS COCO等數(shù)據(jù)集上, Faster R-CNN取得了當(dāng)時(shí)最高的檢測(cè)精度.但是由于深度特征丟失了物體的細(xì)節(jié)信息,?造成定位性能差, Faster R-CNN對(duì)小尺寸物體的檢測(cè)效果不好.
圖?7?區(qū)域建議網(wǎng)絡(luò)的基本結(jié)構(gòu)[7]
Figure 7?Basic structure of region proposal network[7]
Bell等[69]提出的ION (Inside-outside net)也是基于區(qū)域建議的目標(biāo)檢測(cè)方法.為了提高檢測(cè)精度, ION同時(shí)利用RoI的內(nèi)部和外部信息.其中內(nèi)部信息是指多尺度的信息提取.不同于以前的方法將最后一層卷積層輸出作為特征圖, Bell等將不同卷積層的特征連接在一起,?作為一個(gè)多尺度特征用來預(yù)測(cè),?這樣做的目的是對(duì)于一些很小的物體,?不會(huì)丟失在低層的高分辨率信息. RoI的外部信息是指上下文信息,?在視覺識(shí)別中上下文信息具有很重要的作用.為了得到上下文特征, Bell等采用沿著圖像的橫軸或縱軸獨(dú)立地使用RNN的方法,?并把它們的輸出組合在一起,?重復(fù)該過程得到的輸出作為上下文特征.最后把這兩種特征組合在一起,?并調(diào)整到固定的大小輸入到全連接層,?進(jìn)行Softmax分類和邊框回歸.該方法在檢測(cè)小物體上的性能比以前的方法更好,?在PASCAL VOC 2012目標(biāo)檢測(cè)任務(wù)上將平均精度mAP從73.9 %提高到76.4 %,?在MS COCO 2015目標(biāo)檢測(cè)任務(wù)上取得第3名的成績.
Yang等[70]為了處理不同尺度的目標(biāo),?并且提高對(duì)候選區(qū)域的計(jì)算效率,?提出了兩個(gè)策略,?統(tǒng)稱為SDP-CRC.一個(gè)策略是采用與尺度相關(guān)的池化層(Scale-dependent pooling, SDP),?由于不同尺寸的物體可能在不同的卷積層上得到不同的響應(yīng),?小尺寸物體會(huì)在淺層得到強(qiáng)響應(yīng),?而大尺寸物體可能在深層得到強(qiáng)響應(yīng).基于這一思想, SDP根據(jù)每個(gè)候選區(qū)域的尺寸,?從對(duì)應(yīng)的卷積特征圖上池化特征.對(duì)于小尺度的候選區(qū)域,?從第三層卷積特征圖上池化特征;?對(duì)于中等尺度的候選區(qū)域,?從第四層卷積特征圖上池化特征;?對(duì)于大尺度的候選區(qū)域,?從第五層卷積特征圖上池化特征.另一個(gè)策略是采用級(jí)聯(lián)拒絕分類器(Cascaded rejection classifier, CRC),?快速排除一些明顯不包含目標(biāo)的候選區(qū)域,?只保留那些更可能包含目標(biāo)的候選區(qū)域,?交由Fast R-CNN做最終分類.與Fast R-CNN相比,?該方法能夠更加準(zhǔn)確地檢測(cè)小尺寸目標(biāo),?在平均檢測(cè)精度和檢測(cè)速度上都有很大提升.
為了提高Fast R-CNN訓(xùn)練時(shí)的效率, Shrivastava等[71]提出了困難樣本在線挖掘(Online hard example mining, OHEM)的思想,?該方法利用Bootstrapping[72]技術(shù),?對(duì)隨機(jī)梯度下降算法進(jìn)行修改,?使得在訓(xùn)練過程中加入在線挖掘困難樣本的策略. OHEM機(jī)制的加入提高了Fast R-CNN方法在PASCAL VOC 2007和2012上的檢測(cè)精度.
在Faster R-CNN基礎(chǔ)上, Kong等[73]提出了HyperNet,?計(jì)算流程如圖?8所示.通過把不同卷積層得到的特征圖像聚集起來得到超特征(Hyper feature)來獲得質(zhì)量更高的候選區(qū)域.由于不同卷積層的輸出尺寸不同,?較淺層的特征圖像分辨率較高,?邊框定位精度高,?但是召回率低;?較深層的特征圖像分辨率低,?對(duì)小尺寸物體的邊框定位精度低,?但是這些特征有利于提高召回率.因此,?他們通過多層特征的融合,?解決了對(duì)小物體很難提取到精細(xì)特征的問題.該方法在每幅圖像中僅提取100個(gè)候選區(qū)域,?在PASCAL VOC 2007和2012數(shù)據(jù)集上獲得了很好的檢測(cè)效果.
圖?8?HyperNet的計(jì)算流程[73]
Figure 8?Calculation flow of HyperNet[73]
許多基于區(qū)域建議的目標(biāo)檢測(cè)方法存在一個(gè)共同問題,?就是有一部分子網(wǎng)絡(luò)需要重復(fù)計(jì)算.例如最早提出的R-CNN,?每一個(gè)候選區(qū)域都要經(jīng)歷一次CNN網(wǎng)絡(luò)提取特征,?這導(dǎo)致目標(biāo)檢測(cè)速度非常慢.之后提出的Fast R-CNN和Faster R-CNN等方法,?在最后一個(gè)卷積層通過RoI pooling把每一個(gè)候選區(qū)域變成一個(gè)尺寸一致的特征圖,?但是對(duì)于每一個(gè)特征圖,?還要經(jīng)過若干次全連接層才能得到結(jié)果.于是, Dai等[74]提出了一種新的基于區(qū)域的全卷積網(wǎng)絡(luò)檢測(cè)方法R-FCN.為了給網(wǎng)絡(luò)引入平移變化,?用專門的卷積層構(gòu)建位置敏感的分?jǐn)?shù)圖(Position-sensitive score maps),?編碼感興趣區(qū)域的相對(duì)空間位置信息.該網(wǎng)絡(luò)解決了Faster R-CNN由于重復(fù)計(jì)算全連接層而導(dǎo)致的耗時(shí)問題,?實(shí)現(xiàn)了讓整個(gè)網(wǎng)絡(luò)中所有的計(jì)算都可以共享.
最近, Kim等[75]提出PVANET網(wǎng)絡(luò),?在TITAN X上實(shí)現(xiàn)了基于輕量級(jí)模型的目標(biāo)檢測(cè),?處理一幅圖像僅需要46 ms,?在PASCAL VOC 2012數(shù)據(jù)集上的檢測(cè)平均精度達(dá)到82.5 %.為了減少網(wǎng)絡(luò)參數(shù), PVANET采用了Concatenated ReLU[76]結(jié)構(gòu),?在不損失精度的情況下使通道數(shù)減少一半,?并在拼接操作之后加入了尺度變化和偏移.網(wǎng)絡(luò)中還加入了Inception[64]模型來更有效地捕捉各種尺度的物體,?以及HyperNet[73]中多尺度特征融合的思想,?來增加對(duì)細(xì)節(jié)的提取.
3.3.2?無區(qū)域建議(Proposal-free)的方法
基于區(qū)域建議的目標(biāo)檢測(cè)方法不能利用局部目標(biāo)在整幅圖像中的空間信息,?所以一些研究者開展了無區(qū)域建議的目標(biāo)檢測(cè)研究,?主要采用回歸的思想.早期提出的無區(qū)域建議的方法,?檢測(cè)效果不太理想.
DPM模型[2]是一種性能較好的傳統(tǒng)目標(biāo)檢測(cè)模型.它對(duì)目標(biāo)內(nèi)在部件進(jìn)行結(jié)構(gòu)化建模,?可以更好地適應(yīng)非剛體目標(biāo)的較大形變,?大大提高了檢測(cè)性能.但是DPM模型的構(gòu)建需要關(guān)于物體結(jié)構(gòu)的先驗(yàn)知識(shí)(例如部件個(gè)數(shù)),?并且模型訓(xùn)練也比較復(fù)雜. Szegedy等[1]將目標(biāo)檢測(cè)看做一個(gè)回歸問題,?估計(jì)圖像中的目標(biāo)位置和目標(biāo)類型概率.作者通過采用基于深度神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)的回歸來輸出目標(biāo)包圍窗口的二元掩膜(Mask),?從掩膜中提取目標(biāo)窗口.該方法的運(yùn)行框架如圖?9所示,?網(wǎng)絡(luò)中采用的卷積神經(jīng)網(wǎng)絡(luò)是AlexNet結(jié)構(gòu),?但是用回歸層代替最后一層.基于DNN的回歸不僅能學(xué)習(xí)到有利于分類的特征表示,?還能捕獲到很強(qiáng)的目標(biāo)幾何信息, Szegedy等還采用DNN定位器進(jìn)一步提高了定位準(zhǔn)確度.由于用單一的掩膜很難區(qū)分出識(shí)別的前景是單個(gè)物體還是粘連的多個(gè)物體,?作者采用了多個(gè)掩膜,?為每種掩膜訓(xùn)練一個(gè)單獨(dú)的DNN,?這也使得網(wǎng)絡(luò)訓(xùn)練復(fù)雜度很高,?很難擴(kuò)展到多種目標(biāo)類型.
圖?9?基于DNN回歸的目標(biāo)檢測(cè)框架[1]
Figure 9?Object detection framework based on DNN regression[1]
Sermanet等[77]提出Overfeat模型,?把一個(gè)卷積神經(jīng)網(wǎng)絡(luò)同時(shí)用于分類、定位和檢測(cè)這幾個(gè)不同的任務(wù).卷積層作為特征提取層保持不變,?只需要針對(duì)不同的任務(wù)改變網(wǎng)絡(luò)的最后幾層為分類或回歸層. Overfeat的模型結(jié)構(gòu)與AlexNet結(jié)構(gòu)[57]基本相同.其中,?前面5個(gè)卷積層為不同任務(wù)的共享層,?其余的層則根據(jù)任務(wù)進(jìn)行相應(yīng)的調(diào)整,?并對(duì)網(wǎng)絡(luò)做了一些改動(dòng).為了避免圖像的某些位置被忽略, Sermanet等采用偏置池化層來替換最后一層池化層,?既實(shí)現(xiàn)了池化操作,?也減小了采樣間隔. Overfeat訓(xùn)練分類模型時(shí)只使用單個(gè)尺度(221×221?)進(jìn)行訓(xùn)練,?測(cè)試時(shí)使用多個(gè)尺度輸入圖像,?沒有使用AlexNet中的對(duì)比歸一化.對(duì)于檢測(cè)問題,?傳統(tǒng)的方法是采用不同尺寸的滑動(dòng)窗對(duì)整幅圖像進(jìn)行密集采樣,?然后對(duì)每一個(gè)采樣所得的圖像塊進(jìn)行檢測(cè),?從而確定目標(biāo)物體的位置. Overfeat使用CNN來進(jìn)行滑動(dòng)窗操作,?避免了對(duì)各圖像塊的單獨(dú)操作,?提高了算法效率;?而且將全連接層看作卷積層,?使得輸入圖像的尺寸不受限制.但是Overfeat對(duì)于較小尺寸目標(biāo)的識(shí)別依然存在困難.
近年來, Redmon等[78]提出了一種新的無區(qū)域建議的目標(biāo)檢測(cè)方法,?稱為YOLO (You only look once).作為一種統(tǒng)一的、實(shí)時(shí)的檢測(cè)框架, YOLO的檢測(cè)速度非常快,?可以達(dá)到45 fps (Frame per second). YOLO用一個(gè)單一的卷積網(wǎng)絡(luò)直接基于整幅圖像來預(yù)測(cè)包圍邊框的位置及所屬類型,?首先將一幅圖像分成S×S?個(gè)網(wǎng)格,每個(gè)網(wǎng)格要預(yù)測(cè)B個(gè)邊框,?每個(gè)邊框除了要回歸自身的位置之外,?還要附帶預(yù)測(cè)一個(gè)置信度.置信度不僅反映了包含目標(biāo)的可信程度,?也反映了預(yù)測(cè)位置的準(zhǔn)確度.另外對(duì)每個(gè)網(wǎng)格還要預(yù)測(cè)C個(gè)類型的條件概率,?將這些預(yù)測(cè)結(jié)果編碼為一個(gè)S×S×(B×5+C)維的張量(Tensor).整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)類似于GoogLeNet,?包含24個(gè)卷積層和2個(gè)全連接層,?卷積層用來從圖像中提取特征,?全連接層預(yù)測(cè)邊框的位置坐標(biāo)和類型概率. YOLO模型通過采用空間限制,?減少了對(duì)同一目標(biāo)的重復(fù)檢測(cè),?大大提高了效率,?能夠達(dá)到實(shí)時(shí)的效果.但是YOLO的整體性能不如Fast R-CNN和Faster R-CNN,?并且對(duì)于相鄰的目標(biāo)和成群的小尺寸目標(biāo)(例如成群的鳥)的檢測(cè)效果不好,?對(duì)于新的或異常尺度的目標(biāo)泛化能力較差.
與YOLO類似, Najibi等[79]提出的G-CNN模型也著重于檢測(cè)速度的提升.該方法將目標(biāo)檢測(cè)模型轉(zhuǎn)化為迭代回歸問題,?通過對(duì)整個(gè)圖像進(jìn)行不同尺度的網(wǎng)格劃分得到初始檢測(cè)框,?然后采用分段回歸模型多次迭代,?不斷提高邊框準(zhǔn)確度. G-CNN使用了約180個(gè)初始邊框,?經(jīng)過5次迭代達(dá)到與Fast R-CNN相當(dāng)?shù)臋z測(cè)精度,但是計(jì)算速度比Fast R-CNN快5倍.
針對(duì)YOLO存在的不足, Liu等[80]提出SSD模型,?在提高mAP的同時(shí)兼顧實(shí)時(shí)性的要求. SSD使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行卷積后,?在不同層次的特征圖上生成一系列不同尺寸和長寬比的邊框.在測(cè)試階段,?該網(wǎng)絡(luò)對(duì)每一個(gè)邊框中分別包含各個(gè)類型的物體的可能性進(jìn)行預(yù)測(cè),?并且調(diào)整邊框來適應(yīng)目標(biāo)物體的形狀.在PASCAL VOC、MS COCO和ILSVRC數(shù)據(jù)集上的實(shí)驗(yàn)顯示, SSD在保證精度的同時(shí),?其速度要比用候選區(qū)域的方法快很多.與YOLO相比,?即使是在輸入圖像較小的情況下, SSD也能取得更高的精度.例如輸入300×300?尺寸的PASCAL VOC 2007測(cè)試圖像,?在單臺(tái)Nvidia Titan X上的處理速度達(dá)到58 fps,?平均精度mAP達(dá)到72.1%;如果輸入圖像尺寸為500×500?,?平均精度mAP達(dá)到75.1%.
與基于候選區(qū)域的方法相比, YOLO定位準(zhǔn)確率低且召回率不高.因此, Redmon等[81]提出了改進(jìn)的YOLO模型,?記作YOLOv2,?主要目標(biāo)是在保持分類準(zhǔn)確率的同時(shí)提高召回率和定位準(zhǔn)確度.通過采用多尺度訓(xùn)練、批規(guī)范化和高分辨率分類器等多種策略,?提升了檢測(cè)準(zhǔn)確率的同時(shí)速度超過其他檢測(cè)方法,?例如Faster R-CNN和SSD. Redmon等還提出了一種新的聯(lián)合訓(xùn)練算法,?同時(shí)在檢測(cè)數(shù)據(jù)集和分類數(shù)據(jù)集上訓(xùn)練物體檢測(cè)器,?用檢測(cè)數(shù)據(jù)集的數(shù)據(jù)學(xué)習(xí)物體的準(zhǔn)確位置,?用分類數(shù)據(jù)集的數(shù)據(jù)增加分類的類別量,?提升健壯性,采用這種方法訓(xùn)練出來的YOLO9000模型可以實(shí)時(shí)地檢測(cè)超過9 000種物體分類.
3.3.3?總結(jié)
基于區(qū)域建議的目標(biāo)檢測(cè)方法,?特別是R-CNN系列方法(包括R-CNN、SPPnet、Fast R-CNN和Faster R-CNN等),?取得了非常好的檢測(cè)精度,?但是在速度方面還達(dá)不到實(shí)時(shí)檢測(cè)的要求.在不損失精度的情況下實(shí)現(xiàn)實(shí)時(shí)檢測(cè),?或者在提高檢測(cè)精度的同時(shí)兼顧速度,?逐漸成為目標(biāo)檢測(cè)的研究趨勢(shì). R-FCN比Faster R-CNN計(jì)算效率更高,?在檢測(cè)精度和速度上平衡的很好. PVANET是一種輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu),?通過調(diào)整和結(jié)合最新的技術(shù)達(dá)到最小化計(jì)算資源的目標(biāo).無區(qū)域建議的方法(例如YOLO)雖然能夠達(dá)到實(shí)時(shí)的效果,?但是其檢測(cè)精度與Faster R-CNN相比有很大的差距. SSD對(duì)YOLO進(jìn)行了改進(jìn),?同時(shí)兼顧檢測(cè)精度和實(shí)時(shí)性的要求,?在滿足實(shí)時(shí)性的條件下,?縮小了與Faster R-CNN檢測(cè)精度的差距. YOLOv2在檢測(cè)精度和速度上都超過了SSD.一些目標(biāo)視覺檢測(cè)方法在公共數(shù)據(jù)集上的性能對(duì)比如圖?10所示.
圖?10?一些目標(biāo)視覺檢測(cè)方法在公共數(shù)據(jù)集上的性能比較
Figure 10?Performance comparison of some object visual detection methods on public datasets
4?思考與展望
近年來,?由于深度學(xué)習(xí)技術(shù)的迅猛發(fā)展和應(yīng)用,?目標(biāo)視覺檢測(cè)研究取得了很大進(jìn)展.未來若干年,?基于深度學(xué)習(xí)的目標(biāo)視覺檢測(cè)研究仍然是該領(lǐng)域的主流研究方向.不同于傳統(tǒng)方法利用手工設(shè)計(jì)的特征,?可能忽視掉一些重要的特征信息,?深度學(xué)習(xí)方法可以通過端到端訓(xùn)練自動(dòng)學(xué)習(xí)與任務(wù)相關(guān)的特征,?通過多層的非線性變換獲得圖像的高層次抽象表示.盡管深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)領(lǐng)域取得了一定成功,?但是還存在一些問題:
1)?深度學(xué)習(xí)理論還不完善
深度學(xué)習(xí)的優(yōu)勢(shì)之一是能夠自動(dòng)學(xué)習(xí)表達(dá)能力強(qiáng)的抽象特征,?不需要由專家手工進(jìn)行特征設(shè)計(jì)和選擇.但是,?將深度學(xué)習(xí)模型應(yīng)用于目標(biāo)檢測(cè)時(shí)還缺乏足夠的理論支撐,?學(xué)習(xí)到的模型的可解釋性較弱.目前的研究通常是把深度學(xué)習(xí)模型當(dāng)作一個(gè)黑盒子(Black box)來直接使用,?對(duì)于如何選擇和構(gòu)建模型、如何確定模型的深度以及深度學(xué)習(xí)的本質(zhì)等基本問題還沒有給出很好的解釋.理論的不完善導(dǎo)致研究時(shí)缺乏充分的原理性指導(dǎo),?在設(shè)計(jì)新的模型時(shí)往往只能憑借經(jīng)驗(yàn)和運(yùn)氣. Pepik等[82]利用Pascal 3D+[83]數(shù)據(jù)集對(duì)R-CNN方法進(jìn)行分析,?結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)對(duì)于場景和目標(biāo)的各種外觀因素的變化不具有視覺不變性,?目前大多數(shù)深度學(xué)習(xí)方法在處理多目標(biāo)遮擋和小尺寸目標(biāo)等困難問題時(shí)效果還不是很好,?增加額外的訓(xùn)練數(shù)據(jù)并不能克服這些缺陷,?有必要對(duì)模型結(jié)構(gòu)做出改變.因此必須進(jìn)一步完善深度學(xué)習(xí)理論,?為改進(jìn)模型結(jié)構(gòu)、加速模型訓(xùn)練和提高檢測(cè)效果等提供指導(dǎo).
2)?大規(guī)模多樣性數(shù)據(jù)集還很缺乏
深度學(xué)習(xí)模型主要是數(shù)據(jù)驅(qū)動(dòng)的,?依賴于大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集.對(duì)一個(gè)特定的任務(wù),?增加訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性,?可以提高深度學(xué)習(xí)模型的泛化能力,?避免過擬合.但是目前缺乏可用于目標(biāo)檢測(cè)的大規(guī)模多樣性數(shù)據(jù)集,?即便是最大的公共數(shù)據(jù)集也只提供了很有限的標(biāo)記類型,?比如PASCAL VOC有20個(gè)類型, MS COCO有80個(gè)類型, ImageNet有1 000個(gè)類型.由人工采集和標(biāo)注含有大量目標(biāo)類型的大規(guī)模多樣性數(shù)據(jù)集非常費(fèi)時(shí)耗力,?并且由于光照、天氣、復(fù)雜背景、目標(biāo)外觀、攝像機(jī)視角和物體遮擋等導(dǎo)致的復(fù)雜性和挑戰(zhàn)性,?同一類型目標(biāo)在不同圖像中可能看起來非常不同,?使得人工標(biāo)注變得困難甚至容易出錯(cuò).雖然可以采用眾包方法(例如Amazon MTurk[84])進(jìn)行數(shù)據(jù)標(biāo)注,?但是同樣要耗費(fèi)大量的人力財(cái)力,?并且標(biāo)注困難.另外在一些特殊領(lǐng)域(例如在醫(yī)療和軍事等領(lǐng)域)很難獲得大規(guī)模實(shí)際圖像.標(biāo)記數(shù)據(jù)集的不足,?可能導(dǎo)致訓(xùn)練出的目標(biāo)檢測(cè)模型的可靠性和魯棒性達(dá)不到要求.目前許多目標(biāo)檢測(cè)模型都采用先在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,?再針對(duì)具體任務(wù)進(jìn)行微調(diào)的方式.如果針對(duì)具體的目標(biāo)檢測(cè)任務(wù),?有大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集可供使用,?那么目標(biāo)檢測(cè)效果可以得到進(jìn)一步提高.
為了解決上述問題,?我們認(rèn)為可以采用平行視覺[85-86]的思路進(jìn)行研究. 2016年,?王坤峰等[85]將復(fù)雜系統(tǒng)建模與調(diào)控的ACP (Artificial societies, computational experiments, and parallel execution)理論[87-89]推廣到視覺計(jì)算領(lǐng)域,?提出平行視覺的基本框架和關(guān)鍵技術(shù).其核心是利用人工場景來模擬和表示復(fù)雜挑戰(zhàn)的實(shí)際場景,?通過計(jì)算實(shí)驗(yàn)進(jìn)行各種視覺模型的設(shè)計(jì)與評(píng)估,?最后借助平行執(zhí)行來在線優(yōu)化視覺系統(tǒng),?實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境的智能感知與理解.?圖?11顯示了平行視覺的基本框架.為了解決復(fù)雜環(huán)境下的目標(biāo)視覺檢測(cè)問題,?我們可以按照平行視覺的ACP三步曲開展研究.
圖?11?平行視覺的基本框架[85]
Figure 11?Basic framework of parallel vision[85]
1)?人工場景(Artificial scenes)
構(gòu)建色彩逼真的人工場景,?模擬實(shí)際場景中可能出現(xiàn)的環(huán)境條件,?自動(dòng)得到精確的目標(biāo)位置、尺寸和類型等標(biāo)注信息,?生成大規(guī)模多樣性數(shù)據(jù)集.另外,?實(shí)際場景通常不可重復(fù),?而人工場景具有可重復(fù)性,?通過固定一些物理模型和參數(shù),?改變另外一些,?可以定制圖像生成要素,?以便從各種角度評(píng)價(jià)視覺算法.人工場景可以不受現(xiàn)有實(shí)際場景的限制,?預(yù)見未來的實(shí)際場景,?為視覺算法設(shè)計(jì)與評(píng)估提供超前信息.總之,?人工場景能夠提供一種可靠的數(shù)據(jù)來源,?是對(duì)實(shí)際場景數(shù)據(jù)的有效補(bǔ)充.
2)?計(jì)算實(shí)驗(yàn)(Computational experiments)
結(jié)合人工場景數(shù)據(jù)集和實(shí)際場景數(shù)據(jù)集,?進(jìn)行全面充分的計(jì)算實(shí)驗(yàn),?把計(jì)算機(jī)變成視覺計(jì)算實(shí)驗(yàn)室,?設(shè)計(jì)和評(píng)價(jià)視覺算法,?提高其在復(fù)雜環(huán)境下的性能.與基于實(shí)際場景的實(shí)驗(yàn)相比,?在人工場景中實(shí)驗(yàn)過程可控、可觀、可重復(fù),?并且可以真正地產(chǎn)生實(shí)驗(yàn)大數(shù)據(jù),?用于知識(shí)提取和算法優(yōu)化.計(jì)算實(shí)驗(yàn)包含兩種操作模式,?即學(xué)習(xí)與訓(xùn)練、實(shí)驗(yàn)與評(píng)估.學(xué)習(xí)與訓(xùn)練是針對(duì)視覺算法設(shè)計(jì)而言,?實(shí)驗(yàn)與評(píng)估是針對(duì)視覺算法評(píng)價(jià)而言.兩種操作模式都需要結(jié)合人工場景數(shù)據(jù)集和實(shí)際場景數(shù)據(jù)集,?能夠增加實(shí)驗(yàn)的深度和廣度.
3)?平行執(zhí)行(Parallel execution)
將視覺算法在實(shí)際場景與人工場景中平行執(zhí)行,?使模型訓(xùn)練和評(píng)估在線化、長期化,?通過實(shí)際與人工之間的虛實(shí)互動(dòng),?持續(xù)優(yōu)化視覺系統(tǒng).由于應(yīng)用環(huán)境的復(fù)雜性、挑戰(zhàn)性和變化性,?不存在一勞永逸的解決方案,只能接受這些困難,?在系統(tǒng)運(yùn)行過程中不斷調(diào)節(jié)和改善.平行執(zhí)行基于物理和網(wǎng)絡(luò)空間的大數(shù)據(jù),?以人工場景的在線構(gòu)建和利用為主要手段,?通過在線自舉(Online bootstrapping)或困難實(shí)例挖掘(Hard example mining),?自動(dòng)挖掘?qū)е乱曈X算法失敗或性能不佳的實(shí)例,?利用它們重新調(diào)節(jié)視覺算法和系統(tǒng),?提高對(duì)動(dòng)態(tài)變化環(huán)境的自適應(yīng)能力.
目前,?已經(jīng)有一些工作基于人工場景數(shù)據(jù)進(jìn)行目標(biāo)檢測(cè)模型的訓(xùn)練.例如, Peng等[90]利用3D CAD模型自動(dòng)合成2D圖像,?使用這種虛擬圖像數(shù)據(jù)來擴(kuò)大深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集非常有效,?尤其是在真實(shí)的訓(xùn)練數(shù)據(jù)很有限或不能很好地匹配目標(biāo)領(lǐng)域的情況下,?避免了代價(jià)昂貴的大規(guī)模手工標(biāo)注. Johnson-Roberson等[91]利用游戲引擎生成逼真的虛擬圖像,?用于目標(biāo)檢測(cè)模型的訓(xùn)練.實(shí)驗(yàn)表明,?在KITTI數(shù)據(jù)集上,?使用大規(guī)模的虛擬圖像集訓(xùn)練的模型比基于較小規(guī)模的真實(shí)世界數(shù)據(jù)集訓(xùn)練的檢測(cè)器精度更高.但是,?已有的工作主要集中在人工場景和計(jì)算實(shí)驗(yàn),?忽視了平行執(zhí)行.我們認(rèn)為,?將視覺算法在實(shí)際場景與人工場景中平行執(zhí)行,持續(xù)優(yōu)化視覺系統(tǒng),?提高其在復(fù)雜環(huán)境下的魯棒性和適應(yīng)性是非常重要的.
許多機(jī)器學(xué)習(xí)算法假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)具有相同的數(shù)據(jù)分布以及特征空間[92],?然而使用ACP時(shí)會(huì)遇到虛擬數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布差異問題.遷移學(xué)習(xí)[93]能夠很好解決分布差異問題.通過遷移學(xué)習(xí),?我們能夠運(yùn)用ACP中人工模擬出的虛擬數(shù)據(jù)來不斷提高模型的精準(zhǔn)度與魯棒性.
另外,?在深度學(xué)習(xí)模型自身方面,?如何提高模型的可解釋性,?改善模型結(jié)構(gòu),?設(shè)計(jì)新的優(yōu)化方法,?降低模型訓(xùn)練和應(yīng)用時(shí)的計(jì)算復(fù)雜性,?提高計(jì)算效率,?得到更加有用(More effective)和更加有效的(More efficient)深度學(xué)習(xí)模型,?這些問題都需要深入研究.目前,?基于候選區(qū)域的目標(biāo)檢測(cè)方法精度最高,?而基于回歸的SSD方法在實(shí)時(shí)性上表現(xiàn)最好,?如何將這兩類方法相結(jié)合,?借鑒和吸收彼此的優(yōu)點(diǎn),?在檢測(cè)精度和速度上取得新的突破還有待研究.
5?結(jié)論
目標(biāo)視覺檢測(cè)在計(jì)算機(jī)視覺領(lǐng)域具有重要的研究意義和應(yīng)用價(jià)值,?深度學(xué)習(xí)是目前最熱門的機(jī)器學(xué)習(xí)方法,?被廣泛研究和應(yīng)用.本文綜述了深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用進(jìn)展與展望.首先說明了目標(biāo)視覺檢測(cè)的基本流程和常用的公共數(shù)據(jù)集,?然后重點(diǎn)介紹了深度學(xué)習(xí)方法在目標(biāo)視覺檢測(cè)中的最新應(yīng)用進(jìn)展,?最后對(duì)深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)研究中的困難和挑戰(zhàn)進(jìn)行了分析,?對(duì)未來的發(fā)展趨勢(shì)進(jìn)行了思考與展望.
在今后的工作中,?還需要進(jìn)一步完善深度學(xué)習(xí)理論,?提高目標(biāo)視覺檢測(cè)的精度和效率.另外,?平行視覺作為一種新的智能視覺計(jì)算方法學(xué),?通過人工場景提供大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集,?通過計(jì)算實(shí)驗(yàn)全面設(shè)計(jì)和評(píng)價(jià)目標(biāo)視覺檢測(cè)方法,?通過平行執(zhí)行在線優(yōu)化視覺系統(tǒng),?能夠激發(fā)深度學(xué)習(xí)的潛力.我們相信,?深度學(xué)習(xí)與平行視覺相結(jié)合,?必將大力推動(dòng)目標(biāo)視覺檢測(cè)的研究和應(yīng)用進(jìn)展.
參考文獻(xiàn)
1???? Szegedy C, Toshev A, Erhan D. Deep neural networks for object detection. In: Proceedings of the 2013 Advances in Neural Information Processing Systems (NIPS). Harrahs and Harveys, Lake Tahoe, USA: MIT Press, 2013, 2553-2561.
2???? Felzenszwalb P F, Girshick R B, McAllester D, Ramanan D. Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
3???? Huang Kai-Qi, Ren Wei-Qiang, Tan Tie-Niu. A review on image object classification and detection. Chinese Journal of Computers, 2014, 37(6): 1225-1240.
(?黃凱奇,?任偉強(qiáng),?譚鐵牛.?圖像物體分類與檢測(cè)算法綜述.?計(jì)算機(jī)學(xué)報(bào), 2014, 37(6): 1225-1240.)
4???? Zhang X, Yang Y H, Han Z G, Wang H, Gao C. Object class detection: a survey. ACM Computing Surveys (CSUR), 2013, 46(1): Article No. 10.
5???? Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). San Diego, CA, USA: IEEE, 2005, 1:886-893
6???? Uijlings J R R, van de Sande K E A, Gevers T, Smeulders A W M. Selective search for object recognition. International Journal of Computer Vision, 2013, 104(2): 154-171.
7???? Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
8 He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, Nevada, USA: IEEE, 2016. 770-778
9???? Lampert C H, Blaschko M B, Hofmann T. Beyond sliding windows: object localization by efficient subwindow search. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, Alaska, USA: IEEE, 2008. 1-8
10?? An S J, Peursum P, Liu W Q, Venkatesh S. Efficient algorithms for subwindow search in object detection and localization. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, Florida, USA: IEEE, 2009. 264-271
11?? Wei Y C, Tao L T. Efficient histogram-based sliding window. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA: IEEE, 2010. 3003-3010
12?? Van de Sande K E A, Uijlings J R R, Gevers T, Smeulders A W M. Segmentation as selective search for object recognition. In: Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona, Spain: IEEE, 2011. 1879-1886
13?? Shotton J, Blake A, Cipolla R. Multiscale categorical object recognition using contour fragments. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(7): 1270-1281.
14?? Leibe B, Leonardis A, Schiele B. Robust object detection with interleaved categorization and segmentation. International Journal of Computer Vision, 2008, 77(1-3): 259-289.
15?? Arbelaez P, Maire M, Fowlkes C, Malik J. Contour detection and hierarchical image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 898-916.
16?? Shotton J, Winn J, Rother C, Criminisi A. TextonBoost: joint appearance, shape and context modeling for multi-class object recognition and segmentation. In: Proceedings of the 9th European Conference on Computer Vision (ECCV). Berlin, Heidelberg, Germany: Springer, 2006. 1-15
17?? Verbeek J, Triggs B. Region classification with Markov field aspect models. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Minneapolis, Minnesota, USA: IEEE, 2007. 1-8
18?? Cheng M M, Zhang Z M, Lin W Y, Torr P. BING: binarized normed gradients for objectness estimation at 300fps. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, USA: IEEE, 2014. 3286-3293
19?? Zitnick C L, Dollár P. Edge boxes:locating object proposals from edges. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland:Springer, 2014. 391-405
20?? Hosang J, Benenson R, Schiele B. How good are detection proposals, really? arXiv:1406.6962, 2014.
21?? Szegedy C, Reed S, Erhan D, Anguelov D, Ioffe S. Scalable, high-quality object detection. arXiv:1412.1441, 2014.
22?? Erhan D, Szegedy C, Toshev A, Anguelov D. Scalable object detection using deep neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE, 2014. 2155-2162
23?? Kuo W C, Hariharan B, Malik J. Deepbox: learning objectness with convolutional networks. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2479-2487
24?? Ghodrati A, Diba A, Pedersoli M, Tuytelaars T, Van Gool L. Deepproposal: hunting objects by cascading deep convolutional layers. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2578-2586
25?? Gidaris S, Komodakis N. Locnet: improving localization accuracy for object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 789-798
26?? Lawrence G R. Machine Perception of Three-dimensional Solids[Ph.D. dissertation], Massachusetts Institute of Technology, USA, 1963.
27?? Canny J. A computational approach to edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8(6): 679-698.
28?? Marr D, Hildreth E. Theory of edge detection. Proceedings of the Royal Society B: Biological Sciences, 1980, 207(1167): 187-217.
29?? Pellegrino F A, Vanzella W, Torre V. Edge detection revisited. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2004, 34(3): 1500-1518.
30?? Harris C, Stephens M. A combined corner and edge detector. In: Proceedings of the 4th Alvey Vision Conference. Manchester, UK: University of Sheffield Printing Unit, 1988. 147-151
31?? Rosten E, Porter R, Drummond T. Faster and better: a machine learning approach to corner detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 105-119.
32?? Lowe D G. Object recognition from local scale-invariant features. In: Proceedings of the 7th IEEE International Conference on Computer Vision (ICCV). Kerkyra, Greece: IEEE, 1999, 2:1150-1157
33?? Lowe D G. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004, 60(2): 91-110.
34?? Papageorgiou C P, Oren M, Poggio T. A general framework for object detection. In: Proceedings of the 6th International Conference on Computer Vision (ICCV). Bombay, India: IEEE, 1998. 555-562
35?? Ojala T, Pietikäinen M, Harwood D. Performance evaluation of texture measures with classification based on Kullback discrimination of distributions. In: Proceedings of the 12th IAPR International Conference on Pattern Recognition, Conference A: Computer Vision and Image Processing. Jerusalem, Israel, Palestine: IEEE, 1994, 1:582-585
36?? Ojala T, Pietikäinen M, Harwood D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, 1996, 29(1): 51-59.
37?? Yan J J, Lei Z, Yi D, Li S Z. Multi-pedestrian detection in crowded scenes: a global view. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA: IEEE, 2012. 3124-3129
38?? Yan J J, Zhang X C, Lei Z, Liao S C, Li S Z. Robust multi-resolution pedestrian detection in traffic scenes. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, Oregon, USA: IEEE, 2013. 3033-3040
39?? Yan J J, Zhang X C, Lei Z, Yi D, Li S Z. Structural models for face detection. In: Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Shanghai, China: IEEE, 2013. 1-6
40?? Zhu X X, Ramanan D. Face detection, pose estimation, and landmark localization in the wild. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA: IEEE, 2012. 2879-2886
41?? Yang Y, Ramanan D. Articulated pose estimation with flexible mixtures-of-parts. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2011. 1385-1392
42?? Yan J J, Lei Z, Wen L Y, Li S Z. The fastest deformable part model for object detection. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE, 2014. 2497-2504
43?? Lazebnik S, Schmid C, Ponce J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories. In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York, NY, USA: IEEE, 2006. 2169-2178
44?? Girshick R, Donahue J, Darrell T, Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE, 2014. 580-587
45?? Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z H, Karpathy A, Khosla A, Bernstein M, Berg A C, Fei-Fei L. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115(3): 211-252.
46?? Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A. The PASCAL visual object classes (VOC) challenge. International Journal of Computer Vision, 2010, 88(2): 303-338.
47?? Xiao J X, Hays J, Ehinger K A, Oliva A, Torralba A. Sun database: large-scale scene recognition from abbey to zoo. In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA: IEEE, 2010. 3485-3492
48?? Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P, Zitnick C L. Microsoft COCO: common objects in context. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland:Springer, 2014. 740-755
49?? Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors. Nature, 1986, 323(6088): 533-536.
50?? LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444.
51?? Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507.
52?? Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.
53?? Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. In: Proceedings of the 19th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2006. 153-160
54?? LeCun Y, Chopra S, Hadsell R, Ranzato M, Huang F. A tutorial on energy-based learning. Predicting Structured Data. Cambridge, MA, USA: MIT Press, 2006.
55?? Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2. In: Proceedings of the 2007 Advances in Neural Information Processing Systems (NIPS). Vancouver, British Columbia, Canada:MIT Press, 2007. 873-880
56?? Hinton G, Deng L, Yu D, Dahl G E, Mohamed A R, Jaitly N, Senior A, Vanhoucke V, Nguyen P, Sainath T N, Kingsbury B. Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
57?? Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: MIT Press, 2012. 1097-1105
58?? Girshick R. Fast R-CNN. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile:IEEE, 2015. 1440-1448
59?? Lecun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
60?? Vincent P, Larochelle H, Bengio Y, Manzagol P A. Extracting and composing robust features with denoising Autoencoders. In:Proceedings of the 25th IEEE International Conference on Machine Learning (ICML). Helsinki, Finland: IEEE, 2008. 1096-1103
61?? Masci J, Meier U, Cire?an D, Schmidhuber J. Stacked convolutional auto-encoders for hierarchical feature extraction. In:Proceedings of the 21th International Conference on Artificial Neural Networks. Berlin, Heidelberg, Germany: Springer, 2011. 52-59
62?? Zeiler M D, Fergus R. Visualizing and understanding convolutional networks. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland:Springer, 2014. 818-833
63?? Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, 2014.
64?? Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, Massachusetts, USA: IEEE, 2015. 1-9
65?? Szegedy C, Ioffe S, Vanhoucke V, Alemi A. Inception-v4, Inception-ResNet and the impact of residual connections on learning. arXiv:1602.07261, 2016.
66?? Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift. arXiv:1502.03167, 2015.
67?? Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z. Rethinking the inception architecture for computer vision. arXiv:1512.00567, 2015.
68?? He K, Zhang X, Ren S, Sun J. Spatial pyramid pooling in deep convolutional networks for visual recognition. In: Proceedings of the 2014 European Conference on Computer Vision (ECCV). Zurich, Switzerland: Springer, 2014. 346-361
69?? Bell S, Lawrence Zitnick C, Bala K, Girshick R. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA:IEEE, 2016. 2874-2883
70?? Yang F, Choi W, Lin Y Q. Exploit all the layers: fast and accurate CNN object detector with scale dependent pooling and cascaded rejection classifiers. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 2129-2137
71?? Shrivastava A, Gupta A, Girshick R. Training region-based object detectors with online hard example mining. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 761-769
72?? Sung K K. Learning and Example Selection for Object and Pattern Detection[Ph.D. dissertation], Massachusetts Institute of Technology, USA, 1996.
73?? Kong T, Yao A B, Chen Y R, Sun F C. Hyper Net:towards accurate region proposal generation and joint object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 845-853
74?? Dai J F, Li Y, He K M, Sun J. R-FCN:object detection via region-based fully convolutional networks. In: Proceedings of the 2016 Advances in Neural Information Processing Systems (NIPS). Barcelona, Spain: MIT Press, 2016. 379-387
75?? Kim K H, Hong S, Roh B, Cheon Y, Park M. PVANET: deep but lightweight neural networks for real-time object detection. arXiv: 1608.08021, 2016.
76?? Shang W L, Sohn K, Almeida D, Lee H. Understanding and improving convolutional neural networks via concatenated rectified linear units. In: Proceedings of the 33rd International Conference on Machine Learning (ICML). New York, USA: IEEE, 2016. 2217-2225
77?? Sermanet P, Eigen D, Zhang X, Mathieu M, Fergus R, LeCun Y. Overfeat: integrated recognition, localization and detection using convolutional networks. arXiv:1312.6229, 2013.
78?? Redmon J, Divvala S, Girshick R, Farhadi A. You only look once:unified, real-time object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 779-788
79?? Najibi M, Rastegari M, Davis L S. G-CNN:an iterative grid based object detector. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 2369-2377
80?? Liu W, Anguelov D, Erhan D, Szegedy C, Reed S E, Fu C Y, Berg A C. SSD: single shot multibox detector. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, Netherlands:Springer, 2016. 21-37
81?? Redmon J, Farhadi A. YOLO9000: better, faster, stronger. arXiv:1612.08242, 2016.
82?? Pepik B, Benenson R, Ritschel T, Schiele B. What is holding back convnets for detection? In: Proceedings of the 2015 German Conference on Pattern Recognition. Cham, Germany:Springer, 2015. 517-528
83?? Xiang Y, Mottaghi R, Savarese S. Beyond PASCAL:a benchmark for 3d object detection in the wild. In: Proceedings of the 2014 IEEE Winter Conference on Applications of Computer Vision (WACV). Steamboat Springs, Colorado, USA: IEEE, 2014. 75-82
84?? Amazon Mechanical Turk[Online], available: https://www.mturk.com/, February 13, 2017
85?? Wang Kun-Feng, Gou Chao, Wang Fei-Yue. Parallel vision: an ACP-based approach to intelligent vision computing. Acta Automatica Sinica, 2016, 42(10): 1490-1500.
(?王坤峰,?茍超,?王飛躍.?平行視覺:基于ACP的智能視覺計(jì)算方法.?自動(dòng)化學(xué)報(bào), 2016, 42(10): 1490-1500.)
86?? Wang K F, Gou C, Zheng N N, Rehg J M, Wang F Y. Parallel vision for perception and understanding of complex scenes: methods, framework, and perspectives. Artificial Intelligence Review[Online], available//link.springer.com/article/10.1007/s10462-017-9569-z, July 18, 2017
87?? Wang Fei-Yue. Parallel system methods for management and control of complex systems. Control and Decision, 2004, 19(5): 485-489, 514.
(?王飛躍.?平行系統(tǒng)方法與復(fù)雜系統(tǒng)的管理和控制.?控制與決策, 2004, 19(5): 485-489, 514.)
88?? Wang F Y. Parallel control and management for intelligent transportation systems: concepts, architectures, and applications. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3): 630-638.
89?? Wang Fei-Yue. Parallel control:a method for data-driven and computational control. Acta Automatica Sinica, 2013, 39(4): 293-302.
(?王飛躍.?平行控制:數(shù)據(jù)驅(qū)動(dòng)的計(jì)算控制方法.?自動(dòng)化學(xué)報(bào), 2013, 39(4): 293-302.)
90?? Peng X C, Sun B C, Ali K, Saenko K. Learning deep object detectors from 3D models. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1278-1286
91?? Johnson-Roberson M, Barto C, Mehta R, Sridhar S N, Rosaen K, Vasudevan R. Driving in the matrix: can virtual worlds replace human-generated annotations for real world tasks? arXiv: 1610.01983, 2016.
92?? Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
93?? Taylor M E, Stone P. Transfer learning for reinforcement learning domains: a survey. The Journal of Machine Learning Research, 2009, 10: 1633-1685.?
編輯:黃飛
?
評(píng)論