在百度飛槳,和AI芯片公司深度合作成了默認項

機器之心原創

作者:澤南

直接與芯片廠商一起造 AI 框架,才能實現最高效率。

AI 芯片可以應對普通計算架構無法應對的挑戰,但為了實現前所未有的加速,我們不僅需要強大的芯片,還需要深度學習框架與其一起深度融合優化。

深度學習技術爆發以來,GPU 巨頭 NIVIDA 建立了從芯片、系統到算法和應用的完整體系,幫助從科技公司到工業,再到前沿科學等領域實現智能化。而在國內,也有一家公司正在發展「AI 的操作系統」,並和眾多硬件廠商走出了共創的新模式。

在上周世界人工智能大會 WAIC 上,百度對自身的軟硬件融合體系進行了一番介紹。

飛槳從 2020 年開始發力 AI 芯片適配,我們為此花費了大量的精力,通過幾年的深耕,我們和國內外芯片廠商深度合作,對 AI 芯片進行了全面適配。通過合作,我們能夠真正地把 AI 芯片的算力發揮出來,」百度 AI 技術生態總經理馬艷軍介紹道。「今年,我們與芯片廠商的合作進入了共創的全新階段。」

經過兩年多的努力,市面上流行的大多 AI 芯片都已獲得百度飛槳平台的原生加速,實現了業界領先的效率。

高質量的算力推動了 AI 技術應用。這些優化後的算力不僅被用在百度自身、合作方的智能化業務上,在學界和開發者群體中也受到了歡迎。

為 AI 芯片提供原生加速

眾所周知,深度學習的快速發展正在不斷推動算力需求增長。有研究指出,隨着 2010 年深度學習的實用化,訓練 AI 所需的算力大約每 6 個月翻一番。而從 2015 年開始,因為大規模機器學習模型的出現,需求增長的速度一下子提高到了每年 10 到 100 倍。

研究者指出,在過去的 12 年裡(2010-2022 年),機器學習訓練算力增長了 100 億倍。

指數級提升的算力需求讓芯片廠商面臨巨大挑戰。人們試圖通過創新架構的 AI 芯片尋求突破,然而在 PyTorch 等常用框架上,雖然項目整體開源,但因為兼容性等問題,開發團隊並不接受芯片廠商的代碼進入主幹,這就導致很多國產 AI 硬件支持新版本框架的成本非常高,只能選擇對重點版本提供支持。

百度飛槳致力於把新款 AI 芯片的代碼併入主幹——過去兩年多以來,它一直在同硬件生態夥伴共同開發更加便捷的核心框架,構建統一的硬件接入方案。

對於 AI 框架來說,每合入一次代碼都需要保證模型依然是穩定正確的,這意味着需要動用大量人力,花費大量時間驗證。為此,飛槳主動邀請各家硬件廠商合作搭建了驗證平台,設置專門的團隊為支持芯片的每一行代碼進行測試,目的只有一個:保證開發者能夠方便使用。

芯片跑得動是使用的基本需求,人們能夠用好 AI 芯片更需要提高效率,飛槳還能充分發揮 AI 芯片自身的設計特性。

「每款 AI 芯片都有自己的特性。針對它們的特殊能力,只有真正地與硬件核心研發團隊去對接,甚至同他們共同開發框架才能實現,」馬艷軍說道。

在同國內、國外廠商深入合作之後,飛槳框架發揮了硬件的特性,能把這些芯片的性能發揮到極致。在性能優化上,飛槳與 NVIDIA 率先完成合作,支持 NVIDIA Tensor Core 上的結構性稀疏矩陣運算的加速能力。在特定機器學習模型的訓練和推理任務中,飛槳可以充分利用硬件特性大幅提升運算速度。

6 月 30 日最新發佈的國際權威 AI 基準測試榜單 MLPerf 上,百度使用飛槳框架和百度智能雲百舸計算平台提交的 BERT Large 模型 GPU 訓練性能結果,在同等配置下的所有提交結果中排名第一,超越了高度定製優化且長期處於榜單領先位置的 NGC PyTorch 框架,向世界展現了飛槳的性能優勢。

以同 NVIDA 的合作為例,百度和更多廠商開啟了聯合研發的歷程。所謂聯合研發,就是共同打磨基礎軟件棧,推進硬件與飛槳的適配與性能優化工作。在這之後是技術的實踐和推廣,成功獲得應用的技術方案會獲得雙方的聯合授權,向生態夥伴進行推薦。除此之外,百度還會提供開發教程,向開發者帶來與行業專家探討 AI 領域最新動態的機會。

2022 年 5 月,飛槳攜手 NVIDIA、英特爾瑞芯微Arm、Imagination 等國內外硬件廠商聯合發佈了「硬件生態共創計劃」,結合夥伴自有軟硬件基礎開發棧特色,針對不同應用場景和產品共同推出定製版飛槳框架,建設開源開放模型庫,開發課程與培訓內容等,目標更好服務開發者。

截至目前,加入飛槳「硬件生態共創計劃」的成員企業已有 17 家。

這其中包括一些人工智能芯片領域的明星企業。在 Graphcore 的專用 AI 芯片上,飛槳提供了完善的支持能力,針對其 IPU 分佈式處理器與存儲架構,飛槳集成了相關接口,讓普通開發者也能完全利用芯片的全部性能。

同樣的事情發生在很多國產芯片上,和其他框架比,飛槳原生支持更多的 AI 芯片,對於用戶來說用起來更方便、速度更快。「這種定製化是不對上層用戶可見的。」馬艷軍表示。「對於開發者來說使用的接口沒變,但由於在框架和芯片這一層完成了深度定製化,把性能優化到了極致,人們可以體驗到更快的速度。我們解決了框架和芯片適配的問題,從某種程度上來說,也降低了使用者應用 AI 技術的門檻。」

軟硬一體,加倍提升 AI 應用效果

自 2016 年正式開源以來,百度飛槳已經讓深度學習技術研發的全流程開始具備顯著的標準化、自動化和模塊化的工業大生產特徵,門檻也在不斷降低。飛槳的能力,正在幫助千行百業完成智能化升級。

在世界人工智能大會「軟硬協同賦能產業未來」專題論壇中,英特爾、NVIDIA、Imagination、芯原股份、黑芝麻智能、紫光展銳、崑崙芯分別介紹了與飛槳合作的成果。

在論壇中,專家們探討了「軟硬一體賦能芯片設計」的理念。飛槳作為開源的深度學習平台,對上承接 AI 應用,對下接入智能芯片,是整個產業鏈中非常關鍵的一環。飛槳可以把開發者對於算子、模型、算力等 AI 應用落地各層面需求快速傳遞給 IP 廠商,並與 IP 廠商共同從產業鏈源頭優化 AI 軟件工具鏈設計。而這些源頭的工作,將為下游的各類開發工作提供良好基礎,提升芯片設計廠商乃至終端廠商開發效率。

對於芯片廠商來說,獲得飛槳深度支持意味着 AI 芯片的能力可以被百萬開發者應用。而在開發者看來,在充分了解芯片能力之後,如何為自己的工作選擇合適的 AI 芯片也不再是個複雜的問題了。

從智能雲和 C 端業務,到服務工業界的端側 AI 和 IoT 設備,飛槳服務的生態中使用了大量不同的 AI 算力,不同類型的芯片都可以找到發揮價值的地方。

截至目前,與飛槳展開合作的國內外硬件廠商數量已超過 30 家,國內外主流的機器學習芯片基本都已適配飛槳。百度使用與芯片廠商共同研發產品的方式,已讓很多不同的 AI 芯片找到了廣泛應用場景。

只有更加開放、真正體現商業價值的合作才能推動生態構建。飛槳在軟硬協同的探索,為領先 AI 框架的應用找准了定位。

降低AI大模型門檻,助力開發者

值得一提的是,飛槳提供的能力不僅在工業界應用廣泛,在學界和開發者群體中也受到了歡迎。

百度一方面提供 AI 技術,同時也是 AI 算力的大規模使用者。在公司內部,「百舸」AI 異構計算平台每月要跑 18 萬個訓練任務,而普通用戶的每次搜索都要調用一次 AI 模型,每天需要處理 60 億次請求。

這些需求考驗着 AI 基礎設施的實時響應能力,「在百度智能雲深入行業數智化轉型升級後,企業對於 AI 芯片的需求已經出現變化。企業使用的芯片必須足夠強,否則已經無法支撐起業務需求,」馬艷軍說道。「在百度的一些業務中,大模型已經成為了工作流的一部分,『文心』的實踐是實打實的,只要你調用接口就可以使用。」

說到大模型,我們一直以來的看法都是「用不起」。但飛槳一直在不停降低大模型應用的門檻,從大模型的訓練、推理、壓縮等環節上支撐文心大模型規模化生產和產業級應用。

尤其是針對學界的支持,飛槳一直在提供 AI 算力資源。據介紹,上海開設 AI 專業的高校本科有 70% 在用飛槳進行教學,其中包括上海交通大學的人工智能編程實踐、復旦大學的機器學習、同濟大學的計算機科學導論等課程。

在大學的 AI 課程中,飛槳提供了免費的算力及大量教學內容,甚至連預訓練大模型的能力也可以通過 PaddleHub 實現「三行代碼」即可調用。

「我們在 PaddleHub 上開放文心大模型以後,因為用戶使用量出乎預料的增長,很快擠爆了後台服務器。」馬艷軍說道。「教授和學生是客觀理性的群體,只有你做的東西好用,人們才會真正用起來。」

深度學習框架被認為是「智能時代的操作系統」,作為國內應用規模第一的深度學習框架和賦能平台,全球前三的人工智能開源開放生態,飛槳其已具備靈活、高效、廣泛適配的核心框架,功能豐富、場景廣泛的產業級模型庫,越來越多的行業開發者,正在其生態中發揮新的生產力。

截至今年 5 月,飛槳已經吸引了 477 萬開發者,在產業應用上服務 18 萬企業,有超過 56 萬個 AI 模型在平台中得到了應用。

正如百度 CTO 王海峰所說的:「基於飛槳平台,人人都可以成為 AI 應用的開發者。」

而隨着 AI 應用的不斷落地,硬件算力和軟件算法將進入協同創新的新階段,飛槳的一大波合作,在「軟硬協同」的道路上邁出了重要的一步。

參考內容:

https://github.com/ML-Progress/Compute-Trends