在百度飛槳,和AI晶元公司深度合作成了默認項

機器之心原創

作者:澤南

直接與晶元廠商一起造 AI 框架,才能實現最高效率。

AI 晶元可以應對普通計算架構無法應對的挑戰,但為了實現前所未有的加速,我們不僅需要強大的晶元,還需要深度學習框架與其一起深度融合優化。

深度學習技術爆發以來,GPU 巨頭 NIVIDA 建立了從晶元、系統到演算法和應用的完整體系,幫助從科技公司到工業,再到前沿科學等領域實現智能化。而在國內,也有一家公司正在發展「AI 的操作系統」,並和眾多硬體廠商走出了共創的新模式。

在上周世界人工智慧大會 WAIC 上,百度對自身的軟硬體融合體系進行了一番介紹。

飛槳從 2020 年開始發力 AI 晶元適配,我們為此花費了大量的精力,通過幾年的深耕,我們和國內外晶元廠商深度合作,對 AI 晶元進行了全面適配。通過合作,我們能夠真正地把 AI 晶元的算力發揮出來,」百度 AI 技術生態總經理馬艷軍介紹道。「今年,我們與晶元廠商的合作進入了共創的全新階段。」

經過兩年多的努力,市面上流行的大多 AI 晶元都已獲得百度飛槳平台的原生加速,實現了業界領先的效率。

高質量的算力推動了 AI 技術應用。這些優化後的算力不僅被用在百度自身、合作方的智能化業務上,在學界和開發者群體中也受到了歡迎。

為 AI 晶元提供原生加速

眾所周知,深度學習的快速發展正在不斷推動算力需求增長。有研究指出,隨著 2010 年深度學習的實用化,訓練 AI 所需的算力大約每 6 個月翻一番。而從 2015 年開始,因為大規模機器學習模型的出現,需求增長的速度一下子提高到了每年 10 到 100 倍。

研究者指出,在過去的 12 年裡(2010-2022 年),機器學習訓練算力增長了 100 億倍。

指數級提升的算力需求讓晶元廠商面臨巨大挑戰。人們試圖通過創新架構的 AI 晶元尋求突破,然而在 PyTorch 等常用框架上,雖然項目整體開源,但因為兼容性等問題,開發團隊並不接受晶元廠商的代碼進入主幹,這就導致很多國產 AI 硬體支持新版本框架的成本非常高,只能選擇對重點版本提供支持。

百度飛槳致力於把新款 AI 晶元的代碼併入主幹——過去兩年多以來,它一直在同硬體生態夥伴共同開發更加便捷的核心框架,構建統一的硬體接入方案。

對於 AI 框架來說,每合入一次代碼都需要保證模型依然是穩定正確的,這意味著需要動用大量人力,花費大量時間驗證。為此,飛槳主動邀請各家硬體廠商合作搭建了驗證平台,設置專門的團隊為支持晶元的每一行代碼進行測試,目的只有一個:保證開發者能夠方便使用。

晶元跑得動是使用的基本需求,人們能夠用好 AI 晶元更需要提高效率,飛槳還能充分發揮 AI 晶元自身的設計特性。

「每款 AI 晶元都有自己的特性。針對它們的特殊能力,只有真正地與硬體核心研發團隊去對接,甚至同他們共同開發框架才能實現,」馬艷軍說道。

在同國內、國外廠商深入合作之後,飛槳框架發揮了硬體的特性,能把這些晶元的性能發揮到極致。在性能優化上,飛槳與 NVIDIA 率先完成合作,支持 NVIDIA Tensor Core 上的結構性稀疏矩陣運算的加速能力。在特定機器學習模型的訓練和推理任務中,飛槳可以充分利用硬體特性大幅提升運算速度。

6 月 30 日最新發布的國際權威 AI 基準測試榜單 MLPerf 上,百度使用飛槳框架和百度智能雲百舸計算平台提交的 BERT Large 模型 GPU 訓練性能結果,在同等配置下的所有提交結果中排名第一,超越了高度定製優化且長期處於榜單領先位置的 NGC PyTorch 框架,向世界展現了飛槳的性能優勢。

以同 NVIDA 的合作為例,百度和更多廠商開啟了聯合研發的歷程。所謂聯合研發,就是共同打磨基礎軟體棧,推進硬體與飛槳的適配與性能優化工作。在這之後是技術的實踐和推廣,成功獲得應用的技術方案會獲得雙方的聯合授權,向生態夥伴進行推薦。除此之外,百度還會提供開發教程,向開發者帶來與行業專家探討 AI 領域最新動態的機會。

2022 年 5 月,飛槳攜手 NVIDIA、英特爾瑞芯微Arm、Imagination 等國內外硬體廠商聯合發布了「硬體生態共創計劃」,結合夥伴自有軟硬體基礎開發棧特色,針對不同應用場景和產品共同推出定製版飛槳框架,建設開源開放模型庫,開發課程與培訓內容等,目標更好服務開發者。

截至目前,加入飛槳「硬體生態共創計劃」的成員企業已有 17 家。

這其中包括一些人工智慧晶元領域的明星企業。在 Graphcore 的專用 AI 晶元上,飛槳提供了完善的支持能力,針對其 IPU 分散式處理器與存儲架構,飛槳集成了相關介面,讓普通開發者也能完全利用晶元的全部性能。

同樣的事情發生在很多國產晶元上,和其他框架比,飛槳原生支持更多的 AI 晶元,對於用戶來說用起來更方便、速度更快。「這種定製化是不對上層用戶可見的。」馬艷軍表示。「對於開發者來說使用的介面沒變,但由於在框架和晶元這一層完成了深度定製化,把性能優化到了極致,人們可以體驗到更快的速度。我們解決了框架和晶元適配的問題,從某種程度上來說,也降低了使用者應用 AI 技術的門檻。」

軟硬一體,加倍提升 AI 應用效果

自 2016 年正式開源以來,百度飛槳已經讓深度學習技術研發的全流程開始具備顯著的標準化、自動化和模塊化的工業大生產特徵,門檻也在不斷降低。飛槳的能力,正在幫助千行百業完成智能化升級。

在世界人工智慧大會「軟硬協同賦能產業未來」專題論壇中,英特爾、NVIDIA、Imagination、芯原股份、黑芝麻智能、紫光展銳、崑崙芯分別介紹了與飛槳合作的成果。

在論壇中,專家們探討了「軟硬一體賦能晶元設計」的理念。飛槳作為開源的深度學習平台,對上承接 AI 應用,對下接入智能晶元,是整個產業鏈中非常關鍵的一環。飛槳可以把開發者對於運算元、模型、算力等 AI 應用落地各層面需求快速傳遞給 IP 廠商,並與 IP 廠商共同從產業鏈源頭優化 AI 軟體工具鏈設計。而這些源頭的工作,將為下游的各類開發工作提供良好基礎,提升晶元設計廠商乃至終端廠商開發效率。

對於晶元廠商來說,獲得飛槳深度支持意味著 AI 晶元的能力可以被百萬開發者應用。而在開發者看來,在充分了解晶元能力之後,如何為自己的工作選擇合適的 AI 晶元也不再是個複雜的問題了。

從智能雲和 C 端業務,到服務工業界的端側 AI 和 IoT 設備,飛槳服務的生態中使用了大量不同的 AI 算力,不同類型的晶元都可以找到發揮價值的地方。

截至目前,與飛槳展開合作的國內外硬體廠商數量已超過 30 家,國內外主流的機器學習晶元基本都已適配飛槳。百度使用與晶元廠商共同研發產品的方式,已讓很多不同的 AI 晶元找到了廣泛應用場景。

只有更加開放、真正體現商業價值的合作才能推動生態構建。飛槳在軟硬協同的探索,為領先 AI 框架的應用找准了定位。

降低AI大模型門檻,助力開發者

值得一提的是,飛槳提供的能力不僅在工業界應用廣泛,在學界和開發者群體中也受到了歡迎。

百度一方面提供 AI 技術,同時也是 AI 算力的大規模使用者。在公司內部,「百舸」AI 異構計算平台每月要跑 18 萬個訓練任務,而普通用戶的每次搜索都要調用一次 AI 模型,每天需要處理 60 億次請求。

這些需求考驗著 AI 基礎設施的實時響應能力,「在百度智能雲深入行業數智化轉型升級後,企業對於 AI 晶元的需求已經出現變化。企業使用的晶元必須足夠強,否則已經無法支撐起業務需求,」馬艷軍說道。「在百度的一些業務中,大模型已經成為了工作流的一部分,『文心』的實踐是實打實的,只要你調用介面就可以使用。」

說到大模型,我們一直以來的看法都是「用不起」。但飛槳一直在不停降低大模型應用的門檻,從大模型的訓練、推理、壓縮等環節上支撐文心大模型規模化生產和產業級應用。

尤其是針對學界的支持,飛槳一直在提供 AI 算力資源。據介紹,上海開設 AI 專業的高校本科有 70% 在用飛槳進行教學,其中包括上海交通大學的人工智慧編程實踐、復旦大學的機器學習、同濟大學的計算機科學導論等課程。

在大學的 AI 課程中,飛槳提供了免費的算力及大量教學內容,甚至連預訓練大模型的能力也可以通過 PaddleHub 實現「三行代碼」即可調用。

「我們在 PaddleHub 上開放文心大模型以後,因為用戶使用量出乎預料的增長,很快擠爆了後台伺服器。」馬艷軍說道。「教授和學生是客觀理性的群體,只有你做的東西好用,人們才會真正用起來。」

深度學習框架被認為是「智能時代的操作系統」,作為國內應用規模第一的深度學習框架和賦能平台,全球前三的人工智慧開源開放生態,飛槳其已具備靈活、高效、廣泛適配的核心框架,功能豐富、場景廣泛的產業級模型庫,越來越多的行業開發者,正在其生態中發揮新的生產力。

截至今年 5 月,飛槳已經吸引了 477 萬開發者,在產業應用上服務 18 萬企業,有超過 56 萬個 AI 模型在平台中得到了應用。

正如百度 CTO 王海峰所說的:「基於飛槳平台,人人都可以成為 AI 應用的開發者。」

而隨著 AI 應用的不斷落地,硬體算力和軟體演算法將進入協同創新的新階段,飛槳的一大波合作,在「軟硬協同」的道路上邁出了重要的一步。

參考內容:

https://github.com/ML-Progress/Compute-Trends