後摩智能吳強:存算一體匹配智能駕駛新需求,實現極低功耗下大算力

2022年09月08日22:05:14 科技 1790

後摩智能吳強:存算一體匹配智能駕駛新需求,實現極低功耗下大算力 - 天天要聞

編輯 | GTIC

芯東西9月8日報道,在剛剛落幕的GTIC 2022全球AI芯片創新峰會期間,後摩智能創始人兼CEO吳強以《用存算一體助力智能駕駛算力革命》為題發表演講。

吳強認為,存算一體是解鎖算力和功耗難題的金鑰匙,這種創新計算架構具有大算力、低功耗、低延時的特點,對工藝的依賴較弱,能用28nm工藝做出基於傳統計算架構的其他AI芯片用7nm甚至5nm工藝才能實現的性能或者能效比。

今年上半年,後摩智能首顆存算一體芯片成功點亮,首次達到運行智能駕駛的複雜AI場景所需算力和精度需求,成功跑通11個類別的智能駕駛典型算法,能效比高達20TOPS/W。

吳強透露,其首顆芯片預計在今年底或明年初送到一部分客戶側試用。

以下為吳強的演講實錄:

大家好,很高興能代表後摩智能來參加這個峰會。我今天演講的主題是《用存算一體助力智能駕駛算力革命》。

這裏面有兩個關鍵詞,第一個是存算一體,第二個是智能駕駛。我先從智能駕駛講起。

一、智能駕駛普及商用,對芯片提出新的要求

汽車產業正經歷一個百年未有的大變局,主要是新能源化和智能化,它對人們的出行方式、生活方式都會帶來很大改變,這種改變某種意義上不亞於100多年前汽車剛剛出現的時候。

在今天的中國,走在智能化和電動化的前列,我們已經能夠感受到這種改變,比如說今天在大部分城市,你上了一個網約車,很大概率這是一個新能源車,你會聽司機跟你說新能源車比燃油車便宜多了,口袋裡很多錢、很幸福。

不管是新能源車還是傳統燃油車,汽車智能化是一個主要的趨勢,並且這種智能化的趨勢比我們想像要快。比如說很多專家預計2023年可能智能化普及率到25%,但事實上我們今年L2及以上的智能化普及率已經接近30%,到2025年可能接近50%。這意味着我們中國每年有2500萬輛的車,大概有1000多萬輛車會有L2或者以上的智能化。

這種智能化也改變了我們生活,很多是一種剛需,前幾天,一個朋友跟我說,他因為家裡有事情,要開車回家單程1000公里,一個周末,2000公里在高速上,如果有智能輔助駕駛是很輕鬆的事情。

智能駕駛智能化的普及和商用,對芯片提出了很多新的需求,要普及智能化有三個要素:一是強智能,就是這個東西足夠聰明,至少讓我在高速上開1000公里也非常輕鬆;二是低成本,因為中國大部分的車是在10-20萬人民幣,而這些車能用得起;三是安全,用車是人命關天。

從芯片的角度來說,它對應着是大算力、低功耗、低成本、高可靠

從算力的角度來說,智能芯片發展到今天,有一個核心的矛盾。

二、智能駕駛芯片發展的核心矛盾

在需求側,算力需求不斷增長。

比如我這裡比較了特斯拉Model 3和今年剛發佈的蔚來的車:第一,傳感器多了很多,像素也多了很多,120萬到800萬更高,這都會對應着算力大大加強;第二,算法變得更加複雜,並且還在不斷演進,這意味着我需要芯片對算法有更開放的一個支持,因為一定要能夠支持未來的算法。

而目前的做法是什麼?

首先,我要做大算力,以前是幾十TOPS,現在是幾百甚至到千TOPS。在智能駕駛芯片,那麼我用先進的工藝,從7nm到5nm甚至到3nm,我用HBM來增加存儲帶寬。

但這些東西,第一,非常昂貴,只有大廠才玩得起,比如HBM就是英偉達和AMD做得最好。另外一種方法像用軟硬耦合的方式來增加效率,這種提高了效率,但犧牲了通用性。

所以某種意義上來說,今天我們在智能駕駛計算面臨的核心矛盾是:

第一,要大算力,但是用傳統的方式去做,成本非常高。

第二,大算力必然代表着大功耗很高,因為差不多都是1TOPS/W的水平,而在數據中心可以用空調,在車上我沒辦法散熱,散熱就產生很大成本和穩定性問題。

最後,一定需要一個軟硬解耦的方案,這是今天我覺得智能駕駛芯片面臨的一個核心的矛盾。

三、存算一體,解鎖算力和功耗難題的金鑰匙

在所有的方式當中,存算一體,是一種創新的計算架構。在所有的新技術當中,它可能是能夠解決我們今天算力和功耗的一把金鑰匙。

從傳統的馮·諾依曼到今天的存算一體,存算一體嚴格意義上它不是近存,近存我理解它是改良,它只是部分解決問題,而只有真正的存算一體才能從底層去解決這個問題。

它的能夠帶來的好處是:可以把算力做得更大,另外它天生有能效比的優勢,可以避免大數據的搬運,它可以把能效比做一個數量級上的延伸,它的延時也有提升。還有一個最重要的點,很多人沒有意識到,在今天的國際大環境下,我們面臨著技術封鎖,存算一體對工藝的依賴比較弱,它可以用更傳統的28nm工藝做出別人7nm甚至5nm的性能或者能效比,這也是它天生的優勢。

但它也面臨挑戰,畢竟它是一個新的東西。我也一直類比,就像電動車剛剛出現的時候有很多設計上的挑戰,因為燃油車畢竟做了上百年,而電動車剛剛開始。因為馮·諾依曼也做了很多年,大家都知道怎麼設計,而存算一體怎麼做大算力,這是個剛剛開始的事情。

後摩選擇用存算一體芯片,做智能駕駛、無人車、仿生機械人等邊緣端場景,這本身從技術、產品和市場是個比較完美的匹配。

那麼我們怎麼把存算一體的技術優勢變成一個產品優勢,並且能解決下遊客戶具體的痛點。

舉一個具體的案例,很多中檔的車,他們是很在意成本的,而散熱其實是個很大的問題,有三種方式,一個是自然風冷,一個是風扇,或者液冷。自然散熱無論從成本、可靠性都是最理想的,但是這有一個強制要求,就是功耗在15瓦以內。

傳統的NCU大家沒有問題,大家都是自然散熱。而智能駕駛給車廠帶來一個新的頭疼的問題,從來沒遇到過芯片那麼熱,怎麼散熱,能不能不用液冷、不增加成本,這是車廠很關心的問題。

如果在傳統馮·諾依曼架構上,差不多1瓦1TOPS的樣子,15瓦大概20TOPS或者更高一點,這其實滿足不了L2++或者更高自動駕駛的需求。

而存算一體它能夠用能效比高的特點,做到比如15瓦的功耗算力達60TOPS(物理算力),或者更高的算力,滿足L2++智能駕駛的需求。

四、首顆存算一體芯片今年點亮,成功跑通主流智能駕駛算法

簡單介紹一下後摩,後摩主要是兩撥人,一撥人做存算一體的大牛,另外一撥人是像我這樣在工業界做了20年、在做大芯片、做過CPUGPU,或者智能芯片的一撥人。

我們兩撥人一起碰撞,怎麼解決我們面臨的問題?我們一起想到了這些比較認可、比較看好存算一體做智能駕駛芯片、做大算力芯片的路徑,所以我們走到了一起,成立了這家公司。

後摩也得到了一線資本的認可,目前在南京、上海、北京、深圳設有研發中心,我們今年也點亮了第一款大算力的芯片,並且跑通了一些智能駕駛的主流算法。

用存算一體做大算力芯片,這是一款AI芯片,怎麼去設計電路,怎麼做AI核融合,比如架構層面,包括編譯器、算法層面怎麼去融合,這些都是我們成立以來面臨的挑戰,是我們要解決的核心。後摩成立一年多,現在也申請了大概30多項的專利。

後摩智能吳強:存算一體匹配智能駕駛新需求,實現極低功耗下大算力 - 天天要聞

我舉個例,這是我們第一代的AI核的設計,整個都是我們自己設計,採用了分層分佈式的設計。從右邊開始是最底層,我們叫Macro,是存算單元,它是在存算里做計算的單元,根據不同需求,它可以有不同大小,比如512×64、64×64。

若干的Macro可以組成一個Macro Group,多個Macro Group可以組成一個Macro Group Array,Array就變成了Tensor Engine這兒的一部分,我的Tensor Engine主要是Macro Group。

一個Tensor Engine組成了一個Tile,有點於類似於FSD的Core,是一個獨立運算單元。若干Tile可以組成AI Core,多個AI Core又可以組成Cluster,Cluster變成了SoC,就是車規SoC里最重要的AI計算單元。

整體來說,一個Tile之間本身類似一個FSD Core,是一個獨立運算單元,多個Tile之間也可以聯合起來進行運算,多個AI Core也可以聯合起來做一個聯合運算。所以整體來說它是一個分佈與集中的完美的結合,這是我們第一代的設計思路。

我們成立以來,去年成功做了第一顆流片,這顆流片是業內第一次把存算一體做到了幾十TOPS甚至更高的芯片,能效比20TOPS/W左右。

我們把它點亮,並且成功跑通了一些主流的智能駕駛算法,比如像檢測、識別、語義分割。

這應該也是業內第一次用存算一體芯片做出了能夠做智能駕駛主流AI應用場景的嘗試,這是按照一個量產的設計,我們考慮了冗餘、自修復等等,是完全按照一個產品級的設計。我們第一代芯片希望今年底或明年初能夠送到一部分客戶去試用,這是我們產品方面的一些進展。

五、未來規劃:奔向100倍能效比、2000TOPS算力

再說一下我們未來幾年產品的規劃。

後摩做存算一體,它是基於不同的存儲介質,前幾代基本上基於成熟的SRAM去做,SRAM現在比較成熟,性能也好,但它容量有限。

我們希望在用SRAM我們能做出至少能突破500TOPS到千TOPS之間的大算力芯片。

2.0階段,我們芯片是基於更先進的如MRAM、RRAM等存儲介質來做的。我們希望它本身有更大的容量,能夠做出更大的算力和更高的能效比,可以推出更有競爭力的產品來。

後摩的芯片是通過底層進行架構創新,對於客戶來說是無感知的,他不在乎你是怎麼實現的,他不在乎你是用存算還是馮·諾依曼,他只要看到一個更好的產品,有更好的性能、更好的延時等等,這是我們希望的結果。

對後摩來說,軟件更加重要,我們儘可能希望能夠對接主流的AI的編程框架,包括比如應用層TensorFlowPyTorch、ONNX這些,然後我們自己提供一個中間層,能夠進行無感轉化。

我們只做推理,希望有一層很輕的工具,把這些推理的模型進行轉換,讓大家做到無感。

另外,我們做相對通用的計算芯片,我之前說了,算法一直在演進,大家對開放性是有要求的,因為本身算力是個底層的架構,可以做到很通用,我們可以提供一系列的計算的架構,還能提供類似底層的接口,可以讓客戶自定義算子,這是我們在軟件方面的一個規劃和正在做的事情。

後摩智能吳強:存算一體匹配智能駕駛新需求,實現極低功耗下大算力 - 天天要聞

總體來說,這是我們軟件棧,基本上我們希望是個軟硬解耦的設計理念,這裏面有三個顏色,看起來有點多:棕色是我們提供的硬件、芯片、驅動軟件、SDK;黑色是我們會提供一個參考設計,包括參考的硬件、解決方案;灰色是客戶自己的東西,更多是應用層,包括他們的操作系統、中間件等等,基本上是三層。

我們希望給客戶,把軟硬解耦的方式,我們提供一個參考設計,讓客戶有最大的靈活度開發自己的東西,這是後摩智能的設計理念。

六、願景:打造1P/W的算力,支撐萬物智能

最後分享一個有趣的產業觀察。我覺得在一個國家或者一個地區,一個產業的繁榮一定會帶動或者孵化出本地供應鏈的龍頭企業。

打個比方,比如說在七八十年代日本消費電子,大家記得攝像頭等的繁榮,誕生了像松下索尼這樣一些優秀的半導體企業。到90年代,美國PC產品的繁榮,當然也帶動了英特爾、AMD這些大的半導體公司。

原因很簡單,因為產品的廠商跟供應廠商它會有一個良性的循環,產品廠商會把需求給供應商,供應商就能夠做出更好的部件、更好的服務,因為是本地,反過來廠商會把更多的訂單給供應商,最後形成一個良性的循環。

所以我自己的結論是說,中國汽車在電氣化和智能化它一定會崛起,這是一個趨勢。它必然會帶動本土供應鏈公司,包括芯片公司做大做強。

所以我也希望我們後摩智能以及在座的一些兄弟AI芯片公司,能夠抓住這個歷史機遇,做大做強,做出中國自己的芯片國際巨頭。

後摩智能吳強:存算一體匹配智能駕駛新需求,實現極低功耗下大算力 - 天天要聞

最後,我講講後摩智能的願景,左邊這個圖是從劉明院士的演講里摘取的,她講了一個有趣的事,說芯片能效比每提升1000倍都會延伸出一個新的計算形態,比如小型機時代差不多1M/W,PC機時代差不多1G/W,而我們現在的手機時代差不多1T/W。她的預測是,如果到未來,真到了萬物智能的時代,也許我們需要1P/W的計算能力和能效比。

我很喜歡劉明院士這個演講,我把它引進來,也表達後摩智能創業的初心,我們希望用更多底層的技術去打造1P/W的算力。

後摩智能早期從無人車、機械人、乘用車的智能駕駛作為切入點,把產品落地,為客戶創造價值。未來,希望能向仿生機械人、VR/AR這些領域去拓展,最終我們希望能夠打造人工智能時代的一個算力平台,去實現萬物智能的美好願景。

以上是我的分享,謝謝大家。

以上是吳強演講內容的完整整理。

科技分類資訊推薦

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略 - 天天要聞

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略

2月9日,長安汽車和東風集團股份(00489.HK)同步發佈了控股股東「正在與其他國資央企集團籌劃重組事項」的信息。長安汽車的控股股東是兵裝集團,而東風集團股份的控股股東是東風公司。隨即,長安汽車和東風集團這兩家汽車央企將合併重組,成為業內關注的焦點。
公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了 - 天天要聞

公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了

電動車加強管理以後,要求機動車類型的車輛需要持證上路,但是老年人考駕照卻受阻,一方面有年齡的限制,另一方面偏遠山區考駕照不方便,所以在2025年公安部出手了,年齡限制放寬10年,同時推出送考下鄉服務,還進一步的降低考駕照的費用,2025年起考摩托車駕照不難了。
從「星靈安全守護體系」到昊鉑HL,看懂廣汽科技日 - 天天要聞

從「星靈安全守護體系」到昊鉑HL,看懂廣汽科技日

發佈會以技術切入,並全程圍繞安全展開。廣汽集團董事長、總經理馮興亞率先登場,宣布2025年四季度將正式上市支持L3級智能駕駛的車型,他同時強調面向自動駕駛時代對智能駕駛技術、整車安全架構以及突發風險處理能力的要求更高。如何才能滿足更高的要求?馮興亞提到了「廣汽
關稅大棒下,最受傷的車企出現了 - 天天要聞

關稅大棒下,最受傷的車企出現了

特朗普的關稅大棒剛揮出,尚未嚇退「外敵」,卻先刺痛了自己。近日,擁有瑪莎拉蒂、Jeep等14個品牌的全球第四大車企斯泰蘭蒂斯突然宣布裁撤900名美國工人,關閉加拿大和墨西哥兩家工廠,北美生產線陷入癱瘓。幾乎同一時間,積架路虎宣布暫停對美出口一個月,奧迪更是直接