首頁?行業  »   正文

安靜的半監督學習革命,一起清理未標記的數據

安靜的半監督學習革命,一起清理未標記的數據

對于機器學習工程師來說,訪問大量數據十分重要,但有標記的數據很有限。處于此困境的人可能會查閱文獻,思考下一步該做什么,而文獻似乎都會給出一個現成的答案:半監督學習。

這通常是出現問題的地方。

半監督學習一直是每個工程師都要經歷的,然后又回到經過標記的普通舊數據上。對于每個問題細節都是獨一無二的,但從廣義上講,它們通常可以描述如下:

安靜的半監督學習革命,一起清理未標記的數據

在數據少的情況下,半監督培訓確實傾向于提高績效。但在實際環境中,經常會從糟糕且不可用的性能水平變為不太糟糕但仍然完全無法使用。從本質上講,當你處在一個半監督學習確實有幫助的數據環境中,這意味著你也處在一個分類器很差、沒有實際用途的環境中。

此外,半監督通常不是憑空而來的,使用半監督學習的方法通常不能提供監督學習在數據多的情況下的相同漸近性質,未標記的數據可能會引入偏差。

在深度學習的早期,一種非常流行的半監督學習方法是首先在未標記數據上學習自動編碼器,然后對標記數據進行微調。幾乎再沒有人這樣做了,因為通過自動編碼學習的表示傾向于憑經驗限制微調的漸近性能。

即使是改進很大的生成方法也沒有改善多少,一個好的生成模型并不一定是一個好的分類器。因此,當你看到工程師對模型進行微調時,通常從在監督數據上學習的表示開始,是的,文本是用于語言建模目的的自我監督數據。在任何可行的情況下,從其他預訓練模型轉移學習是一個更加強大的起點,半監督方法難以超越。

因此,典型的機器學習工程師在半監督學習的困境中的處理如下:

安靜的半監督學習革命,一起清理未標記的數據

1:一切都很糟糕,讓我們嘗試一下半監督學習(畢竟,這是工程師的工作,比標記數據更有趣)。

2:看,數字上升了!但是仍然很可怕。看起來我們畢竟必須標記數據。

3:數據越多越好,但是你有沒有嘗試過丟棄半監督機器會發生什么?

4:嘿,你知道什么,它實際上更簡單更好。我們完全可以跳過2和3來節省時間和技術。

如果你非常幸運,你的問題也可能具有這樣的性能特征:

安靜的半監督學習革命,一起清理未標記的數據

在這種情況下,存在一種狹窄的數據體系,半監督并不可怕,并且還提高了數據效率。根據我的經驗,很難達到這個完美的點。考慮到額外復雜性的成本,標記數據量的差距通常不會有更好的數量級,并且收益遞減,這種麻煩不太值得,除非你是在學術基準上競爭。

但等一下,這篇文章叫“安靜的半監督革命”不是嗎?

一個引人入勝的趨勢是,半監督學習的前景可能會變成這樣:

安靜的半監督學習革命,一起清理未標記的數據

這會改變一切。

首先,這些曲線與人們的半監督方法的心理模型相匹配:更多數據總是更好。即使對于監督學習表現良好的數據體制,半監督和監督之間的差距也應嚴格為正。而且這種情況越來越多地發生,沒有任何代價,額外的復雜性也非常小。“魔法區域”開始走低,同樣重要的是,它不受高數據體制的限制。

有什么是新鮮的?很多東西:許多聰明的方法來自我標記數據并以這樣的方式表達損失,即它們與噪聲和自我標記的潛在偏差兼容。最近的兩部研究舉例說明了最近的進展: MixMatch: A Holistic Approach to Semi-Supervised Learning(arxiv.org/abs/1905.02249)

Unsupervised Data Augmentation(arxiv.org/abs/1904.12848)

半監督學習世界的另一個根本轉變是,人們認識到它可能在機器學習隱私中扮演非常重要的角色。

例如,PATE方法:

Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data(arxiv.org/abs/1610.05755)

Scalable Private Learning with PATE(arxiv.org/abs/1802.08908)

在這種情況下,受監督的數據被假定為私有,而具有強大隱私保障的學生模型僅使用未標記(假定公共)的數據進行訓練。

用于提取知識的隱私敏感方法正在成為聯合學習(federated.withgoogle.com)的關鍵推動者之一,聯合學習提供了有效的分布式學習的承諾,不依賴于具有訪問用戶數據的模型,具有強大的數學隱私保證。

在實際環境中重新審視半監督學習的價值是激動人心的。看到一個長期存在的假設受到挑戰,這是該領域出現驚人進展的征兆。

這種趨勢都是最新的,我們必須看看這些方法是否經得起時間的考驗,但這些進步導致機器學習工具架構發生根本轉變的可能性非常大。

歡迎關注ATYUN官方公眾號,商務合作及內容投稿請聯系郵箱:[email protected]

發表評論