2022 LS30 | 淺談英特爾Habana Gaudi 2加速器技術領先性

2022年12月18日10:16:10 科技 1273

ZAO 2022中關村在線年度觀察推選年度領先解決方案Leading Solutions 30（以下簡稱LS30），為行業用戶提供更好的選擇，助力行業優質解決方案與技術方案。

中關村在線認為，2022年英特爾推出的Habana Gaudi 2處理器可以參與本次終極評選。Habana Gaudi 2處理器採用了7納米製程工藝，以Habana的高能效架構為基礎，面向數據中心的計算機視覺和自然語言應用，旨在為客戶的模型訓練和推理提供更高的性能。

2022 LS30 | 淺談英特爾Habana Gaudi 2加速器技術領先性 - 天天要聞

●對數據中心的意義：助力實現高效AI訓練

現如今，人工智慧正從技術概念走向千行百業，實現多場景的實際落地，可以看到的是，人工智慧熱潮正推動AI晶元市場不斷煥新。據Allied Market Research報告，全球機器學習晶元市場規模到2025年將達到約378億美元。這不僅驅動著傳統晶元公司戰略和技術的轉型，也推動了大量新玩家入局，在延續性或顛覆性創新方面頻出奇招。

今年英特爾推出的用於高性能深度學習AI訓練的Gaudi處理器，能夠讓客戶以較低成本進行更多訓練。最新發布的Habana Gaudi2是基於Synapse AI軟體棧開發的，能夠通過支持多樣化架構，讓終端用戶充分利用處理器的高性能和高能效。

對於數據中心而言，由於數據集和人工智慧業務的規模和複雜性日益增長，訓練深度學習模型所需的時間和成本越來越高，根據IDC的數據，在2020年接受調查的機器學習從業者中，有74%的人對其模型進行過5-10次迭代訓練，超過50%需要每周或更頻繁地重建模型，26%的人則每天甚至每小時會重建模型。56%的受訪者認為培訓成本是阻礙其組織利用人工智慧解決問題，創新和增強終端客戶體驗的首要因素。英特爾推出的Habana Gaudi 2處理器採用了7納米製程工藝，並以Habana的高能效架構為基礎，面向數據中心的計算機視覺和自然語言應用，旨在為客戶的模型訓練和推理提供更高的性能。

●技術解析：全方位升級有效提高訓練性能

基於與第一代Gaudi相同的體系架構，Habana Gaudi 2處理器大幅提高了訓練性能。客戶在雲端運行Amazon EC2 DL1實例以及本地運行Supermicro Gaudi訓練伺服器時，其性價比比現有GPU解決方案提升了40%，這些都來自於Gaudi2在架構上的進步：包括製程工藝從16納米躍升至7納米；在矩陣乘法（MME）和Tensor處理器核心計算引擎中引入了FP8在內的新數據類型；Tensor處理器的核心數量由8個增至24個；晶元上集成多媒體處理引擎，實現從主機子系統的卸載；片內封裝的內存容量提升了3倍，從32GB提升到帶寬2.45TB/秒的96GB HBM2E；兩倍48MB的板載SRAM存儲器以及基於RDMA (RoCE2) 的集成乙太網從10個增至24個，在標準網路上實現高效的縱向和橫向擴展。

從MLPerf行業測試中的表現也可以看出來，Habana Gaudi 2處理器在視覺（ResNet-50）和語言（BERT）模型上相比NVIDIA A100訓練時間上擁有不小的優勢。

相比於第一代Gaudi處理器，Habana Gaudi 2處理器在ResNet-50模型的訓練吞吐量提高了3倍，BERT模型的訓練吞吐量提高了4.7倍。這些歸因於製程工藝從16納米提升至7納米、Tensor處理器內核數量增加了三倍、增加GEMM引擎算力、封裝的高帶寬存儲容量提升了三倍、SRAM帶寬提升以及容量增加一倍。對於視覺處理模型的訓練，Gaudi2處理器集成了媒體處理引擎，能夠獨立完成包括AI訓練所需的數據增強和壓縮圖像的預處理。

兩代Gaudi處理器的性能都是在沒有特殊軟體操作的情況下通過Habana客戶開箱即用的商業軟體棧實現的。

通過商用軟體所提供的開箱即用性能，在Habana 8個GPU伺服器與HLS-Gaudi2參考伺服器上進行測試比對。其中，訓練吞吐量來自於NGC和Habana公共庫的TensorFlow docker，採用雙方推薦的最佳性能參數在混合精度訓練模式下進行測量。值得注意的是，吞吐量是影響最終訓練時間收斂的關鍵因素。

●行業影響和用戶需求：數據中心按需加速，讓深度學習更「快」

通過將Habana Gaudi 2部署到數據中心，可針對計算機視覺與自然語言處理的模型訓練與推理提供更高效能，並解決客戶最關注的兩個問題：降低伺服器處理成本，還能減少訓練模型所需時間。Habana Gaudi2和Greco AI加速器是基於Synapse AI軟體棧開發的，能夠通過支持多樣化架構，讓終端用戶充分利用處理器的高性能和高能效。

同時，藉助Habana Labs的Gaudi平台，數據中心團隊能夠專註於深度學習處理器技術，讓數據科學家和機器學習工程師得以高效地進行模型訓練，並通過簡單的代碼實現新模型構建或現有模型遷移，提高工作效率的同時降低運營成本。

●結語

針對主要為雲計算、邊緣計算等需求提供算力的「基礎算力」領域，英特爾發布的第二代Gaudi處理器Habana Gaudi2，在深度學習上實現了重點飛躍，能夠通過支持多樣化架構，讓用戶充分利用處理器的高性能和高能效，以更高的性價比訓練數據中心負載。毫無疑問的是，在伺服器或伺服器集群主要用於深度學習訓練和推理計算的場景中，Habana Gaudi2是理想的加速器，針對這些專用場景，它能夠提供優異的深度學習性能並降低總體擁有成本。

(8086572)