首頁?行業  »   正文

英特爾開發模型訓練新技術,效率更高且不影響準確性

英特爾開發模型訓練新技術,效率更高且不影響準確性

一般而言,AI模型的大小與其訓練時間相關,因此較大的模型需要更多的時間來訓練。通過修剪可以優化數學函數(或神經元)之間的連接,從而減小其整體尺寸而不會影響準確性,但是訓練之后才能進行修剪。

英特爾的研究人員設計了一種技術,從相反的方向進行訓練,以一個緊湊的模型開始,在訓練期間根據數據修改結構。

他們聲稱,與從一個大模型開始然后進行壓縮相比,它具有更高的可伸縮性和計算效率,因為訓練直接在緊湊模型上進行。與過去的嘗試不同,它能夠訓練一個性能相當于大型修剪模型的小模型。

大多數AI系統的核心神經網絡由神經元組成,神經元呈層狀排列,并將信號傳遞給其他神經元。這些信號是數據或輸入的產物,輸入到神經網絡中,從一層傳遞到另一層,然后通過調整每個連接的突觸權重來緩慢地調整網絡。隨著時間的推移,該網絡從數據集中提取特征,并識別跨樣本趨勢,最終學會做出預測。

神經網絡不會攝取原始圖像,視頻,音頻或文本。相反,來自訓練語料庫的樣本被代數轉換為多維數組,如標量(單個數字),向量(有序的標量數組)和矩陣(標量排列成一列或多列和一行或多行)。第四種實體類型封裝標量、向量和矩陣張量,用于描述有效的線性變換或關系。

英特爾開發模型訓練新技術,效率更高且不影響準確性

團隊在論文中描述了該方案,他們訓練了一種深度卷積神經網絡(CNN),其中大多數層具有稀疏權重張量,或者包含大多數零值的張量。所有這些張量都以相同的稀疏度級別初始化,非稀疏參數(具有一系列值的函數參數)用于大多其他的層。

在整個訓練過程中,當參數在張量內部或跨張量移動時,網絡中的非零參數總數保持不變,每幾百次訓練迭代進行一次,分兩個階段進行,修剪階段之后緊接著是增長階段。基于大小的剪枝的類型用于刪除具有最小權值的鏈接,并且在訓練期間跨層重新分配參數。

對于相同的模型尺寸,該方法比靜態方法獲得了更高的準確性,同時需要的訓練要少得多,并且它比以前的動態方法準確性更高。

實驗表明,在訓練過程中探索網絡結構對于達到最佳準確性至關重要。如果構造一個靜態稀疏網絡,復制動態參數化方案發現的稀疏網絡的最終結構,那么這個靜態網絡將無法訓練到相同的精度水平。

歡迎關注ATYUN官方公眾號,商務合作及內容投稿請聯系郵箱:[email protected]

發表評論