論文地址：https://openaccess.thecvf.com/content_cvpr_2018/papers/He_A_Twofold_Siamese_CVPR_2018_paper.pdf

摘要

1.本文核心一：將圖像分類任務中的 語義特征 （Semantic features）與相似度匹配任務中的外觀特征（Appearance features）互補結合，非常適合與目標跟蹤任務，因此本文方法可以簡單概括為：SA-Siam=語義分支+外觀分支；

2.Motivation：目標跟蹤的特點是，我們想從眾多背景中區分出變化的目標物體，其中難點為：背景和變化。本文的思想是用一個語義分支過濾掉背景，同時用一個外觀特征分支來泛化目標的變化，如果一個物體被語義分支判定為不是背景，并且被外觀特征分支判斷為該物體由目標物體變化而來，那么我們認為這個物體即需要被跟蹤的物體；

3.本文的目的是提升SiamFC在目標跟蹤任務中的判別力。在深度CNN訓練目標分類的任務中，網絡中深層的特征具有強的語義信息并且對目標的外觀變化擁有不變性。這些語義特征是可以用于互補SiamFC在目標跟蹤任務中使用的外觀特征。基于此發現，我們提出了SA-Siam，這是一個雙重孿生網絡，由語義分支和外觀分支組成。每一個分支都使用孿生網絡結構計算候選圖片和目標圖片的相似度。為了保持兩個分支的獨立性，兩個孿生網絡在訓練過程中沒有任何關系，僅僅在測試過程中才會結合。

4.本文核心二：對于新引入的語義分支，本文進一步提出了通道注意力機制。在使用網絡提取目標物體的特征時，不同的目標激活不同的特征通道，我們應該對被激活的通道賦予高的權值，本文通過目標物體在網絡特定層中的響應計算這些不同層的權值。實驗證實，通過此方法，可以進一步提升語義孿生網絡的判別力。

其仍然沿用SiamFC在跟蹤過程中所有幀都和第一幀對比，是該類方法的主要缺陷。

框架

提議的雙重SA-Siam網絡的體系結構。A-Net表示外觀網絡。用虛線連接的網絡和數據結構與SiamFC完全相同。S-Net表示語義網絡。提取最后兩個卷積層的特征。信道關注模塊基于目標和上下文信息確定每個特征信道的權重。外觀分支和語義分支是單獨訓練的，直到測試時間才結合。

1.外觀分支（藍色部分）

一個目標A送到網絡P里，一個比目標大的搜索域S送到網絡P里，A出來的特征圖與S出來的特征圖進行卷積操作得到相關系數圖，相關系數越大，越可能是同一個目標，網絡則采用和SiamFC中一樣的網絡。

外觀分支以（z，X）為輸入。它克隆了SiamFC網絡。用于提取外觀特征的卷積網絡稱為A-Net。來自外觀分支的響應映射可以寫為：

L(y,v)=\\frac{1}{D}\\sum_{u\\in D}l(y[u],v[u])

在相似性學習問題中，A-Net中的所有參數都是從頭開始訓練的。

通過最小化邏輯損失函數L（·）來優化A-Net，如下：

arg \\min_{\\theta_a}\\frac{1}{N} \\sum^N_{i=1}{(L(h_a(z_i,X_i,\\theta_a),Y_i))}

其中θa表示A-Net中的參數，N是訓練樣本的數量，Yi是ground truth的響應。

2.語義分支（橙色部分）

這篇文章的重點便是此。橙色的表示語義網絡，用的是預訓練好的AlexNet，在訓練和測試時固定所有參數，只提取最后conv4和conv5的特征，目標模板變為zs，zs和X一樣大，和z有一樣的中心，但包含了上下文信息，因為支路上加了通道注意力模型，通過目標和周圍的信息來決定權重，選擇對特定跟蹤目標影響更大的通道。另外，為了更好的進行后續的相關操作，作者將上下兩支路加入融合模型，加入了1×1的卷積層，對提取的兩層每層進行卷積操作，使目標模板支路和檢測支路的特征通道相同，而且通道總數和外觀網絡的通道一樣。

語義分支網絡訓練時只訓練通道注意力模塊和融合模塊。

來自語義分支的響應映射可以寫為：

h_s(z^s,X)=corr(g(\\xi ·f_s(z)),g(f_s(X)))

ξ是通道權重，g()是對特征進行融合，便于相關操作。

損失函數L（·）如下：

arg \\min_{\\theta_a}\\frac{1}{N} \\sum^N_{i=1}{(L(h_s(z_i^s,X_s,\\theta_a),Y_i))}

其中θs表示可訓練參數，N是訓練樣本的數量。

3.結合

外觀網絡和語義網絡分開訓練，語義網絡只訓練通道注意力模塊和融合模塊。在測試時間內，最終的響應圖計算為來自兩個分支的圖的加權平均值：

h(z^s,X)=\\lambda h_a(z,X)+(1-\\lambda)h_s(z^s,X)

其中 λ 是加權參數，以平衡兩個分支的重要性。在實踐中，λ可以從驗證集估計。作者通過實驗得出 λ=0.3 最好。

4.語義分支中的Channel Attention機制

為什么要這么做：高維語義特征對目標的外觀（圖片的形變、旋轉等）變化是魯棒的，導致判別力低。為了提升語義分支的判別力，我們設計了一個Channel Attention模塊。直覺上，在跟蹤不同的物體時，不同的通道扮演著不同的角色，某些通道對于一些物體來說是極其重要的，但是對于其他物體而言則可以被忽略，甚至可能引入噪聲。如果我們能自適應的調整通道的重要性，那么我們將獲得目標跟可靠地特征表達。為了達到這個目的，不僅目標對于我們來說是重要的，其周圍一定范圍內的背景對于我們來說同樣重要，因此這里輸入網絡的模板要比外觀分支大一圈。

下面講具體怎么實現這個功能的。

通道注意力通過最大池化層和多層感知器（MLP）生成通道i的加權系數ξi。

上述圖中，假設是conv5層的第i個通道特征圖，維度為22×22，將該圖分割成3×3份（其中中間的那份為6×6，是準確的目標），經過max-pooling操作后變成3×3的圖，經過一個兩層的MLP網絡（Multi-Layer Perceptron多層感知機，含有9個神經元和一個隱層，隱層采用ReLU函數）后得到分數，在sigmoid一下（為了讓得分系數在0~1之間）得到最終的得分系數。值得注意的是：這里的得分系數計算操作僅僅在第一幀進行計算，后續幀沿用第一幀的結果，所以其計算時間是可以忽略不計的。

實驗

數據維度：在我們的實現中，目標圖像塊z的尺寸為127×127×3，并且zs和X都具有255×255×3的尺寸。對于z和X，A-Net的輸出特征具有尺寸分別為6×6×256和22×22×256。來自S-Net的conv4和conv5功能具有尺寸為24×24×384和22×22×256通道的zs和X。這兩組功能的1×1 ConvNet每個輸出128個通道（最多可達256個通道）），空間分辨率不變。響應圖具有相同的17×17維度。