已經失效的摩爾定律與不曾離去的GTC 大會

  距離上一次 GTC大會並不遙遠,如此密集的大會讓我們不禁想起了失效了的摩爾定律。準確地說,摩爾定律的內容並沒有過時,而是算力在以超越摩爾定律的速度向前更新,同時帶給千行百業更多創新的力量。而本次GTC大會所帶給我們的,恰恰是不斷加速中的算力革命的最新成果。

  9月19至22日之間,2022秋季GTC大會來了。本次GTC 大會彙集了大量 AI、計算機圖形、數據科學等方面的新成果,讓開發者、研究人員、企業領袖、創作者、IT 決策者和學生切實感受到了AI對於各個行業和整個社會的改造作用。

  從RTX4090顯卡的問世讓GPU進入了RTX時代,到此前用戶一直期待的Hopper架構的伺服器行將面世,再到大型語言模型雲服務有望讓更多用戶享用大型語言模型,一系列的創新讓本次GTC大會充滿了驚喜,下面就讓我們來盤點一下這些新驚喜。

  GeForce RTX 40系列帶來的新驚喜

  什麼是驚喜?新發布的GeForce RTX 40系列就是一個驚喜。此前用戶對於RTX 40系列有著極高的期待,不僅因為它功耗設置更為靈活,還因為它的價格將會給用戶帶來驚喜。

  該系列中的RTX 4090號稱是全球最快的遊戲GPU,具有760億個晶體管、16384個CUDA核心和24GB高速GDDR6X顯存,在4K解析度的遊戲中持續以超過100FPS運行。與前代產品相比,在光線追蹤遊戲中,RTX 4090的性能提升相比RTX 3090 Ti可達4倍。在光柵遊戲中,RTX 4090的性能提升也高達2倍,同時保持了相同的450W功耗。

  從另一個角度來看,顯卡絕非遊戲顯示驅動器,而是會因此帶來更多的創作動力,AI、視覺捕捉等應用都將因此而提速。英偉達此次憑藉GeForce RTX 40系列,完全稱得上是全新定義了自己發明的GPU,一個實時光線追蹤和利用AI生成像素的神經網路渲染的新時代已然來臨。

  英偉達創始人兼首席執行官黃仁勛在GTC大會的主題演講里對此介紹說:「RTX光線追蹤和神經網路渲染的時代正在全面展開,全新 NVIDIA Ada Lovelace架構將其推向了新的高度。」

  NVIDIA Hopper將正式亮相

  今年4月,NVIDIA Hopper架構被正式推出,它因為將取代兩年前推出的NVIDIA Ampere 架構而倍受關注。當時對應的核心編號為「GH100」,因為晶元、Transformer 引擎 、第二代安全多實例 GPU、機密計算、第4代NVIDIA NVLink、DPX 指令等六大創新,HPC高性能計算、AI人工智慧領域的用戶對於Hopper架構的產品可謂是充滿了期待。早在官方正式公布核心參數之前,相關的規格已經被挖掘出來。

  在本次GTC上,英偉達宣布NVIDIA H100 Tensor Core GPU 全面投產,英偉達全球技術合作夥伴計劃於10月推出首批基於開創性 NVIDIA Hopper架構的產品和服務。對於有需求的用戶來說,NVIDIA Hopper架構的產品將不再只是傳說。

  計算機製造商所提供的搭載 H100 的系統預計將在未來幾周內發貨,到今年年底將有超過 50 款伺服器型號面市,2023 年上半年還將有數十款型號面市。已在構建系統的合作夥伴包括源訊(Atos)、思科戴爾科技富士通技嘉科技、慧與、聯想超微

  此外,H100也開始走向雲端,AWS、谷歌雲、Microsoft Azure、Oracle Cloud Infrastructure 將從明年開始率先在雲端部署基於 H100 的實例。包括巴塞羅那超級計算中心、洛斯阿拉莫斯國家實驗室、瑞士國家超級計算中心(CSCS)、德州高級計算中心和筑波大學等高等教育和研究機構也將在新一代超級計算機採用H100。

  H100 使企業能夠削減 AI 的部署成本,相較於上一代,在提供相同 AI 性能的情況下,可將能效提高 3.5 倍,總體擁有成本減少至 1/3,所使用的伺服器節點數也減少至 1/5。但另一方面,也存在一些新的應用問題。

  H100的Transformer引擎技術雖然可助力企業快速開發精度更高的大型語言模型,但隨著這些模型的規模不斷擴大,其複雜性也在不斷提升,有些模型的訓練時間甚至長達數月。為解決這一問題,包括 NVIDIA NeMo Megatron、Microsoft DeepSpeed、Google JAX、PyTorchTensorFlow和XLA等大型語言模型和深度學習框架正在 H100 上進行優化。這些框架與 Hopper 架構相結合,能夠顯著提升 AI 性能,將大型語言模型的訓練時間縮短到幾天乃至幾小時。複雜性問題解決之後,Hopper架構產品的應用之路將而更加順暢。

  大型語言模型服務有望平民化

  在過去的幾年裡,從人工智慧專家到普通大眾,每個人都被大型語言模型(LLM: Large Language Models)的驚人輸出所吸引。這些模型,利用描述性輸入,就能夠產生從令人信服的人造圖像到故事和詩歌等一切東西。但是,學術界、非營利組織和小公司的研究實驗室卻很難創建、研究,甚至使用LLM,因為只有少數擁有必要資源和獨家權利的工業實驗室可以完全訪問它們。

  英偉達在此次大會上發布的兩項全新大型語言模型(LLM)雲 AI 服務——NVIDIA NeMo 大型語言模型服務和 NVIDIA BioNeMo LLM 服務,能夠使開發者輕鬆調整 LLM 並部署定製的 AI 應用程序,其可用於內容生成、文本摘要、聊天機器人、代碼開發,以及蛋白質結構和生物分子特性預測等。

  通過 NeMo LLM 服務,開發者能夠在 NVIDIA 管理的基礎設施上使用被稱為提示學習的訓練方法快速定製多個預訓練基礎模型。NVIDIA BioNeMo 服務是雲應用程序編程介面(API),它可以將 LLM 用例擴展到語言以外的科學應用中,從而加快製藥和生物技術公司的藥物研發速度。

  藉助 NeMo LLM 服務,開發者可以使用自己的訓練數據定製基礎模型——從30億個參數到世界上最大的 LLM 之一Megatron 530B。與從頭開始訓練模型所需的數周或數月相比,該過程只需幾分鐘到幾小時。

  BioNeMo LLM 服務包括兩個用於化學和生物學應用的新 BioNeMo 語言模型。該服務提供蛋白質、DNA生物化學數據方面的支持,幫助研究人員發現生物序列中的模式和洞察。

  BioNeMo 使研究人員能夠利用包含數十億個參數的模型來擴大研究範圍。這些大型模型可以儲存更多關於蛋白質結構、基因間進化關係的信息,甚至可以生成用於治療的新型生物分子。

  除了調整基礎模型之外,LLM 服務還提供通過雲 API 使用現成和定製模型的選項。這讓開發者可以訪問包括 Megatron 530B 在內的各種預訓練 LLM,以及使用 NVIDIA NeMo Megatron 框架創建的 T5 和 GPT-3 模型。NVIDIA NeMo Megatron 框架現已進入公測階段,可支持各種應用和多語言服務需求。LLM服務平民化的時代,將不再遙遠。

  發力智能汽車市場

  如今的汽車越來越像一個大號的智能手機,當其中的智能應用越來越多時,對於邊緣算力的渴求也就越發強烈。當前英偉達的當家汽車系統級晶元是DRIVE Orin。在普通汽車中,汽車的功能由分布在整輛車中的幾十個電子控制單元控制。Orin通過集中控制這些核心領域,取代這些組件以簡化對於汽車製造商而言已經高度複雜的供應鏈。

  DRIVE Orin專為軟體定義而設計,因此可以實現這些在汽車全生命周期內的持續升級。目前,NVIDIA DRIVE Orin在國內汽車市場上也有了進一步的拓展。

  輕舟智航(QCraft)宣布推出搭載NVIDIA DRIVE Orin的最新一代車規級前裝量產自動駕駛解決方案,並實現了L4級乘用車車隊在國內的率先落地。輕舟智航將攜手T3出行在9月聯合啟動Robotaxi在蘇州的公開運營,為市民提供安全、高效的接駁服務。輕舟智航也成為行業內首批基於DRIVE Orin實現Robotaxi車隊部署和運營的公司。

  同時,小鵬汽車最新旗艦車型——超快充全智能SUV G9在中國正式上市並將於第四季度向用戶交付。作為小鵬智能電動汽車產品序列中的第四款,G9配備NVIDIA DRIVE 集中式計算平台以及DRIVE Orin系統級晶元(SoC),並搭載小鵬汽車研發的最新技術。本次DRIVE Orin的硬體升級,將幫助小鵬G9更大程度地釋放出車載系統的潛力,並完善小鵬的數據閉環及迭代的解決方案。

  在DRIVE Orin晶元之外,在本次GTC大會上,英偉達發布了單顆算力達到2000TFLOPS的車載晶元Thor,其算力達到了Orin的8倍,特斯拉FSD晶元的14倍。DRIVE Thor為汽車的中央計算架構而生,顯然,英偉達想利用新一代晶元,實現一顆晶元統治汽車上的一切。

  在本次GTC大會上,英偉達還發布了更多和合作夥伴的聯合創新。其中,英偉達和德勤宣布擴大合作範圍,以幫助全球企業使用 NVIDIA AI 和 NVIDIA Omniverse Enterprise 平台開發、實施和部署混合雲解決方案;還與Booz Allen Hamilton擴大合作,為公域及私域網路客戶提供AI 賦能的、GPU 加速的網路安全平台。

  回顧本次大會,會發現智能與算力是兩個並行的主題。當智能化浪潮席捲整個社會時,加速計算的非凡願景開啟了AI的進步,而AI反過來又將惠及全球各個行業。在這個輪迴之中,新想法、新產品和新應用不斷湧現,2022秋季GTC大會的魅力之處,恰恰就在於為這些創新成果提供了展示的舞台。