首頁?行業  »   正文

IBM開發AI模型LaSO網絡,使用語義內容創建新的帶標記的圖像集

IBM開發AI模型LaSO網絡,使用語義內容創建新的帶標記的圖像集

IBM,特拉維夫大學和以色列理工學院的科學家設計了一種新穎的AI模型:標簽集操作(LaSO)網絡,用于組合成對的帶標記的圖像示例,以創建包含種子圖像標記的新示例。未來LaSO網絡可用于增加缺乏足夠的真實數據的語料庫。

“我們的方法能夠生成含有兩個輸入樣本中存在標記的樣本,”研究人員寫道,“提出的方法也可能應用于有趣的視覺對話用例,用戶可以通過指出或顯示她喜歡或不喜歡的視覺示例來操作返回的查詢結果。”

LaSO網絡學會對給定樣本的標簽集進行操作,并合成與組合標簽集相對應的新標簽集,將不同類型的照片作為輸入,在隱式地從另一個樣本中刪除一個樣本中的概念之前,識別共同的語義內容。

例如,LaOS網絡中的“聯合”操作將會生成標記為“人”,“狗”,“貓”和“綿羊”的合成示例,而“交叉”和“減法”操作將導致示例分別標記為“人”和“狗”或“綿羊”。

因為AI模型直接在圖像表示上運行,并且不需要額外的輸入來控制操作,所以它們能夠泛化到訓練期間沒有看到過的類別的圖像。

正如研究人員所解釋的那樣,在使用非常少的數據訓練模型的實踐中,每個類別通常只有一個或非常少的樣本可用。圖像分類領域的大多數方法只涉及單個標簽,其中每個訓練圖像只包含一個對象和相應的類別標簽。

IBM開發AI模型LaSO網絡,使用語義內容創建新的帶標記的圖像集

團隊的論文研究的一個更具挑戰性的場景是多標記少鏡頭學習,其中訓練圖像包含跨多個類別標簽的多個對象。

研究人員將幾個LaSO網絡作為單個多任務網絡聯合訓練,每個圖像有多個標記映射到該圖像上出現的對象。然后,通過使用在多標簽數據上預訓練的分類器來評估網絡對輸出示例進行分類的能力。

在另一個獨立的少鏡頭學習實驗中,研究小組利用LaSO網絡從提供的少數訓練例子中隨機抽取額外的例子,并為多標記少鏡頭分類設計了一個新的基準。

研究人員表示,“多標簽少鏡頭分類是一項新的,具有挑戰性和實用性的任務。在提議的基準測試中使用神經網絡評估LaSO標簽集操作的結果表明,LaSO具有很好的潛力,我們希望這項工作能激勵更多研究人員研究這個有趣的問題。”

歡迎關注ATYUN官方公眾號,商務合作及內容投稿請聯系郵箱:[email protected]

發表評論