拿下斯坦福AI競賽雙冠！獨家解讀華為雲ModelArts性能翻倍的秘密

2022年10月07日10:36:31 熱門 1419

智東西（公眾號：zhidxcom）文 | 心緣

就在上周三，斯坦福大學發佈了最新的 DAWNBench 榜單，這是全球人工智能領域最權威的競賽之一。華為雲 ModelArts 一站式AI開發平台，將圖像識別總訓練時間和推理性能榜單的冠軍收入囊中。

此次華為雲 ModelArts 將訓練時間縮短至4分8秒，比3個月前榜單公布的紀錄足足快了一倍。而此前幾次 DAWNBench 圖像識別訓練的最佳紀錄也均由華為雲 ModelArts 創造。

大洋彼岸的喜訊剛剛公布，僅隔一日，榕城福州又為AI開發者們帶來新的好消息。在華為中國生態夥伴大會上，華為雲 AI 市場正式發佈。這個在華為雲 ModelArts 平台基礎上構建的開發者生態社區，為高校、企業及個人開發者等群體提供安全開放、公平可靠的 AI 模型、API、數據集以及競賽案例等內容共享和交易。

那麼，勢頭強勁的華為雲 ModelArts 究竟有何超能力？它如何在高手如雲的基準測試中，僅用短短3個月便打破自己的紀錄？它又分別對訓練和推理做了哪些優化，從而實現如此出色的性能？新發佈的AI市場又為 AI 開發者們帶來了哪些便利？本文將一一揭曉華為雲 ModelArts 的技術硬實力究竟強在哪兒。

捧走訓練推理雙料冠軍，比此前最高訓練紀錄快1倍

斯坦福 DAWNBench 榜單是用以衡量端到端的深度學習模型訓練和推理性能的國際權威基準測試平台，相應的排行榜反映了當前業界深度學習平台技術的領先性。

該榜單最新的圖像識別排行榜顯示，在訓練性能方面，華為雲 ModelArts 用128塊 V100 GPU，在 ResNet50_on_ImageNet（93%以上精度）上訓練模型，訓練時間僅為4分08秒，較其2018年12月創下的9分22秒紀錄快了1倍，比此前 fast.ai 在 AWS 平台上的訓練速度快4倍。

▲斯坦福大學 DAWNBench 訓練時間榜單

在推理性能方面，華為雲 ModelArts 識別圖片的速度是第二名的1.72倍、亞馬遜的4倍、谷歌的9.1倍。

▲斯坦福大學 DAWNBench 推理性能榜單

華為雲 ModelArts 是如何做到在國際權威深度學習模型基準平台上表現出色，並在短短3個月的時間打破自己創造的紀錄？

這就要歸功於 ModelArts 團隊從訓練和推理兩大部分着手，包括高性能分佈式模型訓練和極速推理技術在內的一系列優化。

優化訓練的三大維度：網絡結構、框架和算法

在訓練方面，華為雲 ModelArts 團隊主要從深度神經網絡結構、分佈式訓練框架、深度學習訓練算法三個維度展開優化。

1、深度神經網絡結構優化

本次使用的網絡結構是基於經典的 ResNet50 結構。由於在訓練中使用了 128*128 的低分辨率輸入圖片來提升訓練的速度，對訓練精度產生了一定影響，原始模型無法在維持訓練 epoch 數的情況下將模型訓練到指定的 top5 93% 精度。

為此，ModelArts 團隊對 ResNet50 中的卷積結構進行了優化，從而在低分辨率訓練模式下也能夠穩定達到目標精度。

2、分佈式訓練框架優化

深度學習訓練過程涉及大規模的參數的網絡間傳遞。TensorFlow 使用中心化的網絡參數服務器（Parameter Server）來承擔梯度的收集、平均和分發工作，對 server 節點的訪問會成為瓶頸，帶寬利用率低。為此 ModelArts 團隊使用 AllReduce 算法來進行梯度聚合來優化帶寬。

同時對傳輸的梯度進行融合，對小於閾值大小的梯度多次傳輸合併為一次，提升帶寬利用率；另外在通信底層採用 NVIDIA 的 NvLink、P2P 等技術來提升節點內和節點間通信帶寬，降低通信時延。

3、深度學習訓練算法優化

在本次的訓練過程中使用的分佈式全局 batch size 為32768，這樣的超大 batch size 提升了訓練的並行度，但也導致了收斂精度降低的問題。為此 ModelArts 團隊實現《Large Batch Training of Convolutional Networks》中提出的層次自適應速率縮放（LARS）算法，在全局學習率調度方面，使用了帶 warmup 的 linear cosine decay scheduler，訓練優化器則採用 momentum 算法。

在本次提交的訓練結果中，ModelArts 僅用了35個 epoch 即將模型訓練到了指定精度，並在全程除了最後一個 epoch 外均保持在32K的大 batch size 下，最終用時4分08秒，比之前的成績再次提升了一倍。

優化推理的三大維度：網絡結構、量化與剪枝

在推理方面，ModelArts 團隊從以下三個方面進行了優化：1.網絡結構優化2. Int8 量化3. 神經網絡卷積通道剪枝。

1、網絡結構優化

在推理中同樣採用了 ResNet50 模型，並且是推理效率更優的 ResNet50-v1 版本。在此模型的基礎上將降採樣提前並使用了信息損失更小的降採樣方法，既提升了推理速度，又獲得了更高的模型精度。

2、Int8 量化

低比特量化是提升推理性能的一種主要手段，其中 int8 量化方法的通用性強且對模型精度的損失小。在量化的過程中先加載原始模型，再對原始模型創建對應的 int8 量化模型，然後提取訓練中典型樣本對量化模型進行校準，最後基於校準結果產生優化後的 int8 模型。

在此量化中模型的推理精度僅損失了0.15%，而模型的推理速度提升了2倍以上。

3、神經網絡卷積通道剪枝

研究表明網絡中很多連接都是接近0或者冗餘的，對這些參數進行剔除對精度影響相對較小。模型剪枝方法包含結構剪枝和非結構剪枝。非結構化剪枝設定一個閾值，當權重低於這個閾值時候會被設置為0，不再更新。

這個方法使得模型連接變得稀疏，但是由於這些連接分散在各個權重里，而由於 GPU 並不支持稀疏矩陣卷積和乘法加速，因此並不能有效提升推理速度。

結構化剪枝主要使用的方法是卷積通道剪枝，即通過一些方法評估神經網絡中的每個卷積核的影響係數，然後將其中影響係數較低的卷積核整體去掉，而使得整個模型變小，推理速度提升。

正式發佈國內首個AI模型市場

值得一提的是，這次在華為中國生態夥伴大會上，華為將「平台+生態」戰略演進為「平台+AI+生態」，為合作夥伴提供「行業+AI」的支持。

華為副總裁、雲 BU 總裁鄭葉來也正式啟動了華為雲 AI 市場並宣布投入專項激勵，在 AI 市場上幫助開發者、合作夥伴加速企業的 AI 應用落地。

如前所述，華為雲 AI 市場主要包括 AI 模型市場、API 市場、WIKI 數據集和競賽 Hub 和案例 Hub 等模塊資源，用戶可自由選擇感興趣的資源進行交易。

從高校科研機構、AI應用開發商、解決方案集成商、企業到個人開發者，這些 AI 開發生態鏈各參與方均被有效連接，AI 市場不僅幫助他們加速 AI 產品開發和落地，而且確保共享及交易環境足夠安全、開放。

我們來重點談談華為雲 AI 市場中的 AI 模型市場，這也是國內首個提供發佈及訂閱 AI 模型服務的平台。AI 模型市場的主要功能是發佈和訂閱 AI 模型，通過市場中間人機制及 ModelArts 平台，保證買賣雙方模型和數據安全。

賣方用戶在認證自己的賬號後進行信用經營，可以將自己的模型上傳到市場中，並為模型指定不同的發佈權限和計費策略，例如按次、包年、包月。買方用戶則可以在 AI 模型市場尋找和訂閱感興趣的模型，用於自己的 AI 推理。

賣方用戶還可以為其模型畫像屬性，這樣一來，買方用戶可以更快地定位目標。此外，AI 模型市場支持為發佈的模型配置推理/再訓練代碼，買方用戶就可以用這些模型做再訓練或者部署成推理服務。

此前，智東西曾在（神奇！零基礎分分鐘玩轉AI，華為雲ModelArts全體驗）一文中詳述華為雲 ModelArts 平台的四大亮點和操作流程。ModelArts 有開源數據集、自動化調參、MoXing 分佈式框架和千級 GPU 集群規模訓練加速、雲邊端一鍵式部署等 buff 加成，這一平台的上手門檻非常低，從零編程經驗的小白，到高階算法工程師，都能藉助這一平台更快更好地完成 AI 模型的訓練和推理。