噪音對比估計是通常用于訓練帶有大輸出詞匯的分類器的采樣損失(sampling loss)。在大量可能的類上計算 softmax 是異常昂貴的。使用 NCE,可以將問題降低成二元分類問題,這可以通過訓練分類器區別對待取樣和「真實」分布以及人工生成的噪聲分布來實現。
論文:噪音對比估計:一種用于非標準化統計模型的新估計原理
(Noise-contrastive estimation: A new estimation principlefor unnormalized statistical models )
論文:使用噪音對比估計有效地學習詞向量(Learning word embeddings efficientlywith noise-contrastive estimation)
四十三、池化
參見最大池化(Max-Pooling)或平均池化(Average-Pooling)。
四十四、受限玻爾茲曼機(RBN:RestrictedBoltzmann Machine)
RBN?可被看作隨機人工神經網絡的概率圖形模型。RBN 以無監督的形式學習數據的表征。RBN 由可見層、隱藏層和這些層中的二元神經元的連接構成。RBN 可以使用對比散度(contrastive divergence)進行有效的訓練,這是梯度下降的一種近似。
論文:受限玻爾茲曼機簡介(An Introduction to Restricted BoltzmannMachines)
四十五、循環神經網絡(RNN:Recurrent NeuralNetwork)
RNN?模型通過隱藏狀態(或稱記憶)連續相互作用。它可以使用最多 N 個輸入,并產生最多 N 個輸出。例如,輸入是一個句子,輸出是每個單詞的詞性標注(part-of-speechtag)(N 到 N),或是這個句子的情感分類(N 到 1);再如,輸入是單個圖像,輸出是描述該圖像所對應一系列詞語(1 到 N)。在每一個時間步驟中,RNN會基于當前輸入和之前的隱藏狀態,計算新的隱藏狀態「記憶」。其中,「循環(recurrent)」一詞是指,在每一步中都使用了同樣的參數,該網絡根據不同的輸入執行同樣的計算。
四十六、遞歸神經網絡(Recursive Neural Network)
遞歸神經網絡是循環神經網絡的樹狀結構的一種泛化(generalization)。每一次遞歸都使用相同的權重。就像 RNN 一樣,遞歸神經網絡可以使用向后傳播(backpropagation)進行端到端的訓練。盡管可以學習樹結構以將其用作優化問題的一部分,但遞歸神經網絡通常被用在已有預定義結構的問題中,如自然語言處理的解析樹中。
論文:使用遞歸神經網絡解析自然場景和自然語言(Parsing Natural Scenes and NaturalLanguage with Recursive Neural Networks )
四十七、ReLU
線性修正單元(Rectified Linear Unit)常在深度神經網絡中被用作激活函數。它們的定義是 f(x) = max(0, x) 。較于tanh 等函數,ReLU往往很稀疏(它們的活化可以很容易設置為 0),而且它們受到梯度消失問題的影響也更小。ReLU 主要被用在卷積神經網絡中用作激活函數。ReLU 存在幾種變體,如Leaky ReLUs、Parametric ReLU (PReLU) 或更為流暢的 softplus近似。
論文:深入研究修正器(Rectifiers):在 ImageNet 分類上超越人類水平的性能(Delving Deep into Rectifiers: Surpassing Human-Level Performance onImageNet Classification)
論文:修正非線性改進神經網絡聲學模型(Rectifier Nonlinearities Improve NeuralNetwork Acoustic Models )
論文:線性修正單元改進受限玻爾茲曼機(Rectified Linear Units ImproveRestricted Boltzmann Machines? )
四十八、殘差網絡(ResNet)
深度殘差網絡(Deep Residual Network)贏得了2015 年的 ILSVRC 挑戰賽。這些網絡的工作方式是,引入跨層堆棧的快捷連接,讓優化器可以學習更「容易」的殘差映射(residual mapping)而非更為復雜的原映射(original mapping)。這些快捷連接與 Highway Layer 類似,但它們與數據無關且不會引入額外的參數或訓練復雜度。ResNet在 ImageNet 測試集中實現了 3.57% 的錯誤率。
論文:用于圖像識別的深度殘差網絡(Deep Residual Learning for ImageRecognition)
四十九、RMSProp
RMSProp?是一種基于梯度的優化算法。它與 Adagrad 類似,但引入了一個額外的衰減項抵消 Adagrad 下降的學習率。
五十、序列到序列(Seq2Seq)
序列到序列(Sequence-to-Sequence)模型讀取一個序列(如一個句子)作為輸入,然后產生另一個序列作為輸出。它與標準的 RNN 不同。在標準的 RNN 中,輸入序列會在網絡開始產生任何輸出之前被完整地讀取。通常,Seq2Seq 通過兩個分別作為編碼器和解碼器的 RNN 實現。神經網絡機器翻譯是典型的 Seq2Seq 模型。
論文:使用神經網絡的序列到序列學習(Sequence to Sequence Learning withNeural Networks)
五十一、隨機梯度下降(SGD:Stochastic GradientDescent)
隨機梯度下降是用于訓練階段學習網絡參數的基于梯度的優化算法。梯度通常使用反向傳播算法計算。使用微小批量版本的 SGD,其中的參數更新基于批案例而非單個案例進行執行,這能增加計算效率。vanilla SGD 存在許多擴展,包括動量(Momentum)、Adagrad、rmsprop、Adadelta或 Adam。
論文:用于在線學習和隨機優化的自適應次梯度方法(Adaptive Subgradient Methods forOnline Learning and Stochastic Optimization)
五十二、Softmax
Softmax?函數通常用于將原始分數(raw score)的矢量轉換成用于分類的神經網絡的輸出層上的類概率(class probability)。它通過對歸一化常數(normalizationconstant)進行指數化和相除運算而對分數進行規范化。如果我們正在處理大量的類,例如機器翻譯中的大量詞匯,計算歸一化常數是很昂貴的。有許多種可以讓計算更高效的替代選擇,如分層 Softmax(Hierarchical Softmax),或使用基于取樣的損失函數,如 NCE。
五十三、TensorFlow
TensorFlow是一個開源 C ++ / Python 軟件庫,用于使用數據流圖的數值計算,尤其是深度神經網絡。它由谷歌創建。在設計方面,它最類似于 Theano,但比 Caffe 或Keras 更低級。
五十四、Theano
Theano?是一個讓你可以定義、優化和評估數學表達式的 Python 庫。它包含許多用于深度神經網絡的構造模塊。Theano 是類似于 TensorFlow 的低級別庫。更高級別的庫包括Keras 和 Caffe。
五十五、梯度消失問題(Vanishing Gradient Problem)
梯度消失問題出現在使用梯度很小(在 0 到 1 的范圍內)的激活函數的非常深的神經網絡中,通常是循環神經網絡。因為這些小梯度會在反向傳播中相乘,它們往往在這些層中傳播時「消失」,從而讓網絡無法學習長程依賴。解決這一問題的常用方法是,使用 ReLU 這樣的不受小梯度影響的激活函數,或使用明確針對消失梯度問題的架構,如LSTM。這個問題的反面被稱為梯度爆炸問題(exploding gradient problem)。
論文:訓練循環神經網絡的困難之處(On the difficulty of training RecurrentNeural Networks)
五十六、VGG
VGG?是在 2014 年 ImageNet 定位和分類比賽中分別獲得第一和第二名的卷積神經網絡模型。這個 VGG 模型包含 16-19 個權重層,并使用了大小為 3×3 和 1×1 的小型卷積過濾器。
論文:用于大規模圖像識別的非常深度的卷積網絡(Very Deep Convolutional Networksfor Large-Scale Image Recognition)
五十七、word2vec
word2vec?是一種試圖通過預測文檔中話語的上下文來學習詞向量(word embedding)的算法和工具 (https://code.google.com/p/word2vec/)。最終得到的詞矢量(word vector)有一些有趣的性質,例如vector('queen') ~=vector('king') - vector('man') + vector('woman') (女王~=國王-男人+女人)。兩個不同的目標函數可以用來學習這些嵌入:Skip-Gram 目標函數嘗試預測一個詞的上下文,CBOW? 目標函數則嘗試從上下文預測這個詞。
論文:向量空間中詞匯表征的有效評估(Efficient Estimation of WordRepresentations in Vector Space)
論文:分布式詞匯和短語表征以及他們的組合性(Distributed Representations of Wordsand Phrases and their Compositionality)
論文:解釋 word2vec 參數學習(word2vecParameter Learning Explained)
評論