作為一種自適應步長隨機梯度優(yōu)化器,自2014年提出以來,Adam 算法便以其卓越的性能風靡深度學習領(lǐng)域。為了提高應用于訓練大規(guī)模任務時的效率,該算法通常與同步隨機梯度(Synchronous Stochastic Gradient,SSG)技術(shù)相結(jié)合,采用數(shù)據(jù)并行(data parallel)的方式在多臺機器上執(zhí)行。在本文中,我們稱這一方法為 Sync-Adam。
本質(zhì)上來講,Sync-Adam 通過將一個 minibatch 內(nèi)樣本的梯度計算分布到多臺機器上達到加速目的,因此通信十分頻繁,并且隨著并行機器數(shù)目增多,minibatch 內(nèi)樣本的數(shù)量也成比例增加,這種情況下,通常會損害最終得到的模型的性能。為解決基于 SSG 的 Adam 算法可擴展性差的難題,我們把目光投向了逐區(qū)塊模型更新濾波(Blockwise Model-Update Filtering, BMUF)框架。
BMUF 是一種通信高效的通用分布式優(yōu)化算法框架,于2016年由微軟亞洲研究院語音組的研究人員提出并發(fā)表。該算法在多個并行工作機之間周期性同步模型更新信息,并與歷史更新信息相結(jié)合提升全局模型性能。與基于 SSG 的算法相比,BMUF 具有通信頻率較低、訓練幾乎線性加速、模型性能基本無損的特點。這一算法已經(jīng)在工業(yè)界廣泛用于大規(guī)模深度學習模型的訓練。
本文中,我們采用 BMUF 框架并行化 Adam 算法,并在微軟大規(guī)模 OCR 和語音產(chǎn)品數(shù)據(jù)集上進行了測試。實驗結(jié)果表明,在大規(guī)模 OCR 任務中,BMUF-Adam 在多達64機的并行訓練中幾乎實現(xiàn)了線性加速的同時,基本沒有模型性能損失,在32機大詞匯量連續(xù)語音識別任務中也獲得了類似效果。
接下來我們探討如何采用 BMUF 框架賦能 Adam 算法,在大規(guī)模深度學習任務上成就不凡。
在基于 BMUF 的訓練框架下,假設我們總共有 N 個并行工作機,一個工作機可以是一塊或多塊 GPU 卡,也可以是一個計算節(jié)點。給定一個包含 Nτ 個 minibatch 的訓練數(shù)據(jù)子集,首先我們將這些數(shù)據(jù)均勻分布到 N 個并行工作機,每臺工作機獲得 τ 個 minibatch。從一個共同的初始模型 θ_(t-τ)^((init)) 開始,N 個工作機獨立更新各自的局部模型 τ 步,得到 {θ_(t,1),θ_(t,2),…,θ_(t,N)},對局部模型取平均得到 θ ̅_t。這一過程稱之為數(shù)據(jù)塊內(nèi)并行優(yōu)化(Intra-Block Parallel Optimization, IBPO)。與直接將 θ ̅_t 作為全局模型不同,BMUF 技術(shù)將歷史更新信息與當前更新信息結(jié)合,得到全局模型:
商用機器人 Disinfection Robot 展廳機器人 智能垃圾站 輪式機器人底盤 迎賓機器人 移動機器人底盤 講解機器人 紫外線消毒機器人 大屏機器人 霧化消毒機器人 服務機器人底盤 智能送餐機器人 霧化消毒機 機器人OEM代工廠 消毒機器人排名 智能配送機器人 圖書館機器人 導引機器人 移動消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 導覽機器人 酒店送物機器人 云跡科技潤機器人 云跡酒店機器人 智能導診機器人 |