NVIDIA認證系統擴展!推全新軟體平台,加速AI項目從原型到生產

芯東西(ID:aichip001)

作者 | 心緣

編輯 | 漠影

芯東西6月1日報道,今日下午,NVIDIA在台北國際電腦展Computex 2021上推出託管在雲端的開發中心NVIDIA Base Command Platform,幫助企業快速將AI項目從原型快速投入生產。

此外,NVIDIA宣布NVIDIA認證系統計划進一步擴展,現已包含50多種面向企業數據中心的NVIDIA認證系統,獲得認證的數十款全新伺服器可運行NVIDIA AI企業級軟體。

研華科技、Altos、永擎電子、華碩、戴爾科技、技嘉科技、慧與、聯想、雲達科技、超微等公司的NVIDIA認證系統數量日益提升,包括一些在主流數據中心使用的主流x86伺服器,為醫療、製造、零售和金融服務等行業的AI應用提供支撐。

首批NVIDIA認證系統將採用NVIDIA BlueField-2 DPU,用於提升安全性。多家全球知名伺服器製造商均於今日發布了採用NVIDIA BlueField-2 DPU的新系統。

數據處理器NVIDIA BlueField-2 DPU

一、NVIDIA和NetApp提供訂閱服務,將推出面向公有雲基礎設施的各類集成

「世界級的AI開發工作需要強大的計算基礎設施,並且至關重要是,讓每一家公司和他們的客戶都能使用和獲得這些資源,從而讓AI技術為其所用。」NVIDIA企業計算負責人Manuvir Das說。

NVIDIA DGX是專為AI計算而優化的系統。自2016年推出DGX以來,許多處於AI前沿的行業公司均在使用DGX。如今,DGX融合了來自全球成千上萬個系統的數億小時的使用經驗,其AI性能的巔峰是由多個DGX節點組成的集群DGX SuperPOD。

實現DGX普及的第一步,是讓這種同類性能最好的機器更易獲取。為了使其便於使用,NVIDIA打造了一種名為Base Command Platform的軟體堆棧。

這是一款基於NVIDIA加速計算的雲託管解決方案,專為託管在本地或雲端的大規模、多用戶、多團隊AI開發工作流程設計,可以降低AI工作流程管理的複雜性,使得數據科學家和研究人員能夠將更多的時間用於開發他們的AI項目,減少管理他們機器的時間,提高生產力。

Manuvir Das說,多年來,NVIDIA內部一直在使用Base Command Platform,在數千名數據科學家之間共享SuperPOD,這些數據科學家已經運行了一百多萬項作業。

Base Command Platform現可通過NVIDIA和NetApp聯合提供的高級月度訂閱來獲取,通過附帶NetApp解決方案的Base Command Platform,將能利用具有破紀錄性能的NVIDIA DGX SuperPOD AI超級計算機和NetApp數據管理服務,幫助客戶更輕鬆地部署AI並將其應用到工作中。

該訂閱模式現處於搶先體驗階段。客戶可以一次體驗數月的SuperPOD功能,或SuperPOD某個較小部分的功能。NVIDIA希望藉此模式使更多客戶體驗SuperPOD的獨特功能。

亞馬遜和谷歌雲都計劃在其雲端GPU實例集群中添加對Base Command Platform的支持,谷歌雲將在今年晚些時候為客戶提供真正的混合AI體驗。

谷歌雲機器學習基礎設施產品管理總監Manish Sainani提到:「這款混合型AI產品,可以使得企業只需編寫一次就能在任何地方運行,靈活接入多個NVIDIA A100 Tensor Core GPU,通過採用按需的加速計算,企業可以加快AI開發速度。」

Base Command Platform為整個AI開發提供了統一的視圖和簡單的界面。該視圖通過圖形用戶界面和命令行API,以及綜合監控和報告儀錶盤,來促進資源的輕鬆共享。

包括NVIDIA NGC的AI和分析軟體目錄、與MLOps軟體集成的API、Jupyter筆記本等在內的一系列豐富的AI和數據科學工具,能幫助研究人員可以更快的計劃和安排工作負載、完善模型和獲得洞察。

二、首批NVIDIA認證系統用BlueField-2 DPU提升安全性

在普及DGX使用時,NVIDIA更大的目標是將DGX分解成經AI優化的較小計算實例,方便系統提供商可以針對不同的業務場景,將計算實例組合,以適應不同計算需求,同時為客戶增加獨特的增值功能。

首先,NVIDIA將多個GPU相結合的GPU板產品,化為一個緊密互連的計算結構,即A100。

接著,NVIDIA進一步將A100分解為較小外形的GPU,如A30,它的功耗、成本更低,同時仍有強大的加速性能。

最後,NVIDIA已將DGX SuperPOD中的BlueField-2 DPU產品化,現可在各種伺服器中使用。

NVIDIA BlueField DPU將基礎設施任務從CPU轉移至DPU,使更多的伺服器CPU核可用於運行應用程序,從而提高伺服器和數據中心的效率。

DPU為每個伺服器配備了一台「計算機前的計算機」,以提供獨立、安全的基礎設施服務,並與伺服器應用域安全隔離,在虛擬化和裸金屬伺服器上實現了無代理應用隔離、安全隔離、存儲虛擬化、遠程管理和遙測。

今天,NVIDIA宣布將擴展NVIDIA認證計劃,增加NVIDIA BlueField DPU系統今年下半年,幾家全球領先的系統製造商將首次發布多款經過新一類NVIDIA認證系統的伺服器。這類新認證系統將通過BlueField-2 DPU(數據處理器),在網路、存儲和安全性能上實現突破。

通過卸載CPU的工作任務,單一BlueField-2 DPU可以提供多達125個CPU核才能實現的數據中心服務,從而釋放伺服器CPU周期,以支持各種關鍵業務應用。未來,DPU將成為數據中心和邊緣計算系統中各個伺服器的重要組件。

華碩、戴爾科技、技嘉、雲達科技和超微均已宣布將提供採用NVIDIA BlueField-2 DPU加速的伺服器。

BlueField-2 DPU也得到了紅帽、VMware等軟體基礎設施供應商的廣泛支持。例如,為協助開發者構建支持BlueField-2 DPU的應用程序,紅帽免費為開發者提供針對紅帽企業版Linux操作系統的紅帽開發者訂閱版。

今年,NVIDIA發布了第一版DOCA,即BlueField的SDK。客戶和軟體製造商可使用NVIDIA DOCA SDK輕鬆地對BlueField DPU進行編程。

NVIDIA期望DOCA之於DPU,就像CUDA之於GPU一樣,為數百萬開發者通過持久一致的SDK,使之能平滑使用一代又一代的BlueField。

該片上數據中心體系架構可簡化應用開發,並且實現前後兼容,包括兼容預計將在2022年推出的NVIDIA BlueField-3 DPU,以及未來所有的BlueField DPU。

三、NVIDIA認證將於明年擴展至Arm CPU伺服器

NVIDIA還宣布,NVIDIA認證計劃會擴展至採用基於Arm CPU的加速系統。

隨著CPU和DPU加速器承擔更多AI計算工作負載,主機CPU不僅被視作計算引擎,將其視為編排器的做法變得更加實用。

為了將Arm生態系統擴展至企業、實現高性能AI計算,技嘉科技和緯穎科技計劃將提供新的伺服器,其採用基於Arm Neoverse的CPU、NVIDIA Ampere架構GPU和/或BlueField-2 DPU。

這款伺服器預計將於明年上市,屆時將被提交至NVIDIA進行認證。

NVIDIA還同技嘉科技合作提供一款Arm HPC開發者套件,為HPC、AI和科學計算應用開發提供硬體和軟體一體化的平台。

該平台經NVIDIA驗證,可滿足嚴苛的HPC應用要求,它包含一個來自Ampere Computing的基於Arm Neoverse的Ampere Altra處理器、兩個A100 GPU、兩個BlueField-2 DPU以及NVIDIA HPC SDK,準備適用於Arm的GPU加速應用。

採用NVIDIA Ampere架構GPU的NVIDIA認證系統現已上市,採用NVIDIA BlueField-2 DPU的系統和採用Arm CPU的系統將分別於今年晚些時候和2022年上市。

符合條件的開發者可即刻申請使用NVIDIA Arm HPC開發者套件。

四、多類NVIDIA認證系統瞄準加速計算

憑藉NVIDIA認證系統,企業能夠支持傳統數據中心以及混合雲中的各種複雜工作。

其中包括在VMware vSphere上運行NVIDIA AI Enterprise和數據分析軟體,來部署支持AI的企業級平台,從而實現批量運行AI工作負載;還包括在NVIDIA Omniverse Enterprise上實現設計協作、高級模擬以及在紅帽OpenShift平台上實現AI部署。系統還可與Cloudera數據工程和機器學習無縫集成,把交付模型的時間從幾個小時縮短至幾分鐘。

NVIDIA認證系統經過嚴格的測試,在性能、安全性和可擴展性方面延續NVIDIA的設計最佳實踐。這些系統採用NVIDIA A100、A40、A30或A10 Tensor Core GPU以及NVIDIA BlueField-2 DPU或NVIDIA ConnectX-6系列網卡,價格和性能水平各異。

在高級AI訓練和雲計算服務領域,戴爾科技、慧與、寧暢和超微率先推出基於NVIDIA HGX加速計算平台、經過認證的新伺服器。其產品通過4或8個NVIDIA A100 GPU、NVIDIA NVLink GPU互連技術、NVIDIA InfiniBand網路以及NVIDIA AI和HPC軟體棧提供領先的AI性能。

結語:NVIDIA正著力推進AI普及

從超級計算機到伺服器、工作站和邊緣設備,從計算、圖形、虛擬桌面到數據中心基礎設施,NVIDIA已經建立起一個覆蓋不同產品形態的完整生態系統。

在這些形態各異的軟硬體產品的基礎之上,NVIDIA正通過廣泛的系統組裝商生態系統,推動AI在更多行業場景中的普及。