Google AI最新研究用無監督數據增強推進半監督學習,取得令人矚目的成果。該方法超越了所有現有的半監督學習方法,并實現了僅使用極少量標記樣本即可達到使用大量標記樣本訓練集的精度。
深度學習之所以能夠成功的關鍵因素,是算法的進步,以及并行處理硬件(GPU / TPU)以及大型標記數據集(如ImageNet)。
然而,當標記數據稀缺時,深度學習就像缺了一條腿。在這種情況下,需要應用數據增強方法,例如對句子進行釋義或將圖像進行旋轉,以有效地增加標記的訓練數據的量。
如今,在諸如自然語言處理(NLP),視覺和語音等各種領域的數據增強方法的設計上,已經取得了重大進展。不幸的是,數據增加通常僅限于監督學習,需要標簽從原始示例轉移到增強示例。
上圖:基于文本(頂部)或基于圖像(底部)訓練數據的示例增強操作。
在谷歌最近“用于一致性訓練的無監督數據增強(UDA)”的研究中,證明還可以對未標記數據執行數據增強,以顯著改善半監督學習(SSL)。
谷歌的結果促進了半監督學習的復興,而且還發現3點有趣的現象:(1)SSL可以匹配甚至優于使用數量級更多標記數據的純監督學習。(2)SSL在文本和視覺兩個領域都能很好地工作。(3)SSL能夠與遷移學習很好地結合。
此外谷歌還開放了代碼在GitHub。
GitHub地址:
https://github.com/google-research/uda
無監督數據擴充
無監督數據增強同時使用標記數據和未標記數據。在標記數據方面,它使用監督學習的標準方法來計算損失函數以訓練模型,如下圖的左側部分所示。
而對于未標記的數據,則應用一致性訓練來強制預測未標記的示例和增強的未標記示例是否相似,如下圖的右側部分所示。
這里,相同的模型被同時應用于未標記的示例和增強的對應物,以產生兩個模型預測,從中計算一致性損失(即,兩個預測分布之間的距離)。
然后,UDA通過聯合優化標記數據的監督損失和未標記數據的無監督一致性損失,來計算最終損失。
通過最小化一致性損失,UDA允許標簽信息從標記的示例平滑地傳播到未標記的示例。
直覺上,人們可以將UDA視為隱含的迭代過程:該模型依賴于少量標記的示例,來對一些未標記的示例進行正確的預測,從中通過一致性損失,并將標簽信息傳播到增強的對應物。隨著時間的推移,越來越多未標記的示例終將被正確預測,這反映了模型的改進的泛化。
谷歌對各種其他類型的噪聲進行一致性訓練測試(例如高斯噪聲、對抗性噪聲等)后,在各種各樣的噪聲上實現了最先進的性能。
UDA根據任務應用不同的現有增強方法,包括反向翻譯、自動增強和TF-IDF單詞替換。
新的NLP和計算機視覺的基準
UDA在低數據體系中出乎意料地有效。只用20個標記示例,UDA通過50000個未標記的示例,在IMDb情緒分析任務中實現了4.20的錯誤率。
該結果優于先前使用25000個標記示例訓練的最先進模型(錯誤率為4.32)。在大數據制度中,通過完整的訓練集,UDA也提供了強大的收益。
IMDb的基準,是一種情緒分析任務。UDA在不同培訓規模的監督學習中超越了最先進的成果,如下圖。
在CIFAR-10半監督學習基準測試中,UDA的表現同樣優于所有現有的SSL方法,如VAT、ICT和MixMatch。
在4k示例情況下,UDA實現了5.27的錯誤率,與使用50k示例的完全監督模型的性能相匹配。
此外,通過更先進的PyramidNet+ShakeDro架構p,UDA實現了2.7的新的最新錯誤率,與之前的最佳半監督結果相比,錯誤率降低了45%以上。
在SVHN上,UDA僅使用250個標記示例,就實現了2.85的錯誤率,與使用70k標記示例訓練的完全監督模型的性能相匹配。
CIFAR-10的SSL基準測試,圖像分類任務。UDA超越了所有現有的半監督學習方法,所有這些方法都使用Wide-ResNet-28-2架構。在4000個示例中,UDA將完全監督設置的性能與50000個示例相匹配。
在具有10%標記示例的ImageNet上,UDA將TOP 1精度從55.1%提高到68.7%。
在具有完全標記集和1.3M額外未標記示例的高數據體系中,UDA繼續為前1精度提供78.3%至79.0%的增益。
-
Google
+關注
關注
5文章
1772瀏覽量
57801 -
函數
+關注
關注
3文章
4346瀏覽量
62972 -
數據集
+關注
關注
4文章
1209瀏覽量
24834
原文標題:讓半監督學習再次偉大!谷歌最新無監督數據增強研究,全面超越現有半監督學習方法
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論