首頁?行業  »   機器學習  »   正文

研究人員發現,基于文本的人工智能模型更容易被改寫攻擊

研究人員發現,基于文本的人工智能模型更容易被改寫攻擊

由于自然語言處理(NLP)的進步,公司和組織越來越多地使用人工智能算法來執行與文本相關的任務,例如過濾垃圾郵件、分析社交媒體帖子和在線評論的情緒、評估簡歷和檢測假新聞。

但是,我們可以相信這些算法能夠可靠地執行任務嗎?IBM、Amazon和德克薩斯大學的最新研究證明,圖謀不軌的人可以使用某些未知的工具來攻擊文本分類算法,并操縱其行為。

這項研究今天在斯坦福大學的SysML人工智能會議上發表,“文本改寫”攻擊的過程涉及修改輸入文本,以便人工智能算法在不改變其實際含義的情況下對其進行不同的分類。

要了解轉述攻擊的工作原理,請考慮一個評估電子郵件文本并將其分類為“垃圾郵件”或“非垃圾郵件”的人工智能算法。轉述攻擊會修改垃圾郵件的內容,以便人工智能將其分類為“非垃圾郵件”,但是人們在點開垃圾郵件后,顯示出來的仍然是垃圾內容。

對抗性攻擊文本模型的挑戰

在過去的幾年里,幾個研究小組已經探索了文本對抗性攻擊的各個方面,輸入修改意味著人工智能算法會錯誤分類文字、圖像和音頻樣本,同時保留其原始內容。當然攻擊文本模型比篡改計算機視覺和音頻識別算法要困難得多,所以我們也得以制止。

研究人員發現,基于文本的人工智能模型更容易被改寫攻擊

人工智能研究員、語言模型專家斯蒂芬·梅里提說:“對于音頻和圖像,你有完全的可辨別性。”例如,在圖像分類算法中,可以逐漸更改像素的顏色,并觀察這些修改如何影響模型的輸出。這可以幫助研究人員在模型中找到漏洞。

“傳統上,文本更難被攻擊,因為語言本身是離散的。當你想改變一句話的含義時,你不能說我想在這句話里多說10%的“我有一條狗”,你想改變文本的意思就只能通過增加文字或者刪除其他文字,這就導致研究人員不能有效地搜索一個模型中的漏洞,”Merity說。“目前文本攻擊的想法,首先要找出機器的弱點,并利用這個弱點進行攻擊?“

“對于圖像和音頻,進行對抗性干擾是有意義的。對于文本,即使你對一個摘錄文本做一些小小的改動,比如改變一兩個詞的順序,那這段話對人類來說讀起來就會不順暢,”IBM的研究員、今天發表的這篇研究論文的合著者Pin Yu Chen說。

創建釋義示例

過去針對文本模型的對抗性攻擊研究涉及改變句子中的單個單詞。雖然這種方法成功地改變了人工智能算法的輸出,但它常常導致句子不通順,聽起來就像是人工合成的。“我們正在改寫單詞和句子的組成。我們要通過創建語義上類似于目標句子的序列,給攻擊提供更大的空間。然后我們看看這個AI模型是否像對待最初的句子那樣對修改后的句子進行分類,”。

研究人員開發了一種算法來尋找句子的最佳變化,這種變化可以操縱NLP模型的行為。“主要約束是確保修改后的文本在語義上與原始文本相似。我們開發了一種算法,在很大的空間內搜索同義詞和表意想死的句子進行修改,這將對人工智能模型的輸出產生最大的影響。在相似空間找到最好的對抗性例子是非常耗時的。該算法的計算效率很高,而且提供了理論上的保證,目前它是我們能找到的最佳搜索方法”IBM Research的科學家、論文的另一位合著者Lingfei Wu說。

在他們的論文中,研究人員提供了一些修改后的例子,這些修改可以改變情緒分析算法、假新聞檢測器和垃圾郵件過濾器的行為。例如,在一次產品評論中,通過簡單地用“價格也比一些大公司便宜”這句話與“價格比下面的一些大公司便宜”交換,評論的情緒從100%積極變為100%消極。

人類看不到釋義攻擊

釋義攻擊能夠成功的關鍵在于它們對人類是不可察覺的,因為它們保留了原文和含義。

研究人員發現,基于文本的人工智能模型更容易被改寫攻擊

“我們把原來的段落和修改過的段落交給了人類評估者,他們很難看到意義上的差異。但對于機器來說,情況完全不同,”研究人員說。

梅里蒂指出,“人類無法正確的檢測出這些文本問題,因為人們自己都會犯錯。對我們來說,一段奇怪的文字只是一個人的胡言亂語罷了,”他說。“當人們看到錯字或者語義不流暢時,他們不認為這是安全問題,甚至會自行理解其中的意思。但在不久的將來,這可能是我們必須面對的問題。”

梅里蒂還指出,釋義和對抗性攻擊將引發一種新的安全風險。“許多科技公司依靠自動化決策來對內容進行分類,實際上不涉及人與人之間的交互。這使得這個過程更容易受到這樣的攻擊,”梅里蒂說。“它將與數據泄露同時存在。”例如,一個人可能會欺騙文本分類器來批準他們的內容,或者利用簡歷處理模型中的改寫漏洞將他們的工作應用程序推到列表的頂部。

“這些新的問題將會劃分出一個新的安全領域,我擔心大多數公司在這些新興安全領域的預算將與其他安全領域的預算一樣少,因為他們專注于可自動化和可擴展性,對背后的隱患視而不見”Merity警告說。

充分利用這項技術

研究人員還發現,通過逆向轉述攻擊,他們可以建立更加健壯和準確的模型。

在生成模型錯誤分類的釋義語句后,開發人員可以使用修改后的語句和正確的標簽重新定義其模型。這將使模型對改寫攻擊更有彈性,更加準確。

“這是我們在這個項目中得到的最令人驚訝的發現之一。最初,我們從穩健性的角度開始。但我們發現,這種方法不僅提高了魯棒性,而且還提高了可歸納性,”吳說。“如果不考慮攻擊,只考慮增強模型的最佳方法是什么,那么釋義對抗性攻擊是提高模型功能的非常好的泛化工具。”

研究人員在對抗性訓練前后測試了不同的單詞和句子模型,經過訓練的模型都有性能和抗攻擊能力的提高。

歡迎關注ATYUN官方公眾號,商務合作及內容投稿請聯系郵箱:[email protected]

發表評論