傳DeepSeek繞過CUDA?業內人士稱或為適配國產GPU做準備

2025年01月31日22:22:14 科技 1112

儘管春節假期已經過半,但是「來自東方的神秘力量的 DeepSeek」仍在引起全世界熱議,各路業內人士也仍在從不同角度分析 DeepSeek 的模型和技術文章。


韓國 Mirae Asset Securities Research 的一名分析師在 X 撰寫長文分析稱:「這一突破是通過實施大量細粒度優化和使用英偉達的彙編式 PTX 編程,而非通過英偉達 CUDA 中的某些功能來實現的。」



傳DeepSeek繞過CUDA?業內人士稱或為適配國產GPU做準備 - 天天要聞

(來源:X)


也就是說 DeepSeek 在研發大模型時繞過了 CUDA。CUDA(Compute Unified Device Architecture,統一計算架構),是由英偉達開發的一種通用編程框架,它允許開發者利用英偉達的圖形處理器(GPU,Graphics Processing Unit)進行通用計算。


如果 DeepSeek 真的繞過了 CUDA,那麼這能說明什麼?圍繞這一主題,DeepTech 採訪了北京航空航天大學黃雷副教授。



傳DeepSeek繞過CUDA?業內人士稱或為適配國產GPU做準備 - 天天要聞

圖 | DeepSeek logo(來源:DeepSeek)


對於程序開發人員來說,CUDA 好比是一種高級語言,開發者只需要專註於程序和演算法最相關的運行邏輯,而不太需要考慮具體的程序是如何在 GPU 等硬體上具體如何執行計算的,從而能夠降低開發難度。


舉例來說,假如一個人會寫彙編語言,雖然能非常高效地操作計算機,但是,彙編語言對於非專業出身的人員難度非常高,哪怕執行一個給變數賦值操作都需要好幾條命令,並且還要了解寄存器、內存等計算機基礎概念。


因此,開發者們紛紛轉去使用高級語言進行編程。這時,要想實現同樣操作,開發者只需使用一個變數賦值就可以。CUDA 便是為了方便開發基於 GPU 的演算法設計的。


大模型開發商在使用英偉達的 GPU 的時候,一般是基於 CUDA 去做研發。使用 CUDA 的話對於開發者的要求較低,因為 CUDA 裡面已經封裝好一些函數,使用時直接調用介面就行,完全無需理會太多的細節,但是這樣肯定會損失執行效率。


也就是說,CUDA 等於是給開發者框定好了一些常用東西所以具有通用性,這在容易使用的同時也會損失一些靈活性。譬如其設計的矩陣乘法運算元,數據載入傳輸運算元等,是深度學習開發者常用的運算元,因此其在設計時會考慮通用性(即平均條件下最優)。


但對於有特定需求的 GPU 開發者來說,除了開發常用的能力之外,它還需要有更強大的能力,如比較精細地控制某個節點上某個 GPU 主要是用來幹啥,以及如何精細化不同 GPU 之間傳輸數據、權重和梯度等,這在大模型這種要求多機多卡訓練時比較常見。對於這些特定需求下的高效編程,CUDA 目前還未針對性設計一個高效的解決方案。


前面提到,由於 CUDA 是通用型編程框架,因此會損失一些靈活性。當僅僅使用單個 GPU 的時候,CUDA 的確非常適用。但是,當在不同節點使用多個 GPU 的時候,就需要在細粒度上實現更好的控制。


而在這時,如果依然使用 CUDA 那麼在抽象層面的效率就會比較低。原因在於 CUDA 被設計得具備通用性,它要考慮到所有開發者的情況。假如一名開發者希望高效利用 CUDA 的性能,那就可以通過組合一些由 GPU 驅動提供的函數介面,來寫出更高效的程序。


也就是說,如果一位開發者懂得更接近於底層硬體的編程,那麼就可以直接調用硬體提供的介面,從而就能讓大模型研發變得更加高效。與此同時,隨著同類的開源通用編程框架的出現,人們覺得 CUDA 越來越「封閉」。而繞過 CUDA,可以直接根據 GPU 的驅動函數做一些新的開發,從而實現更加細粒度的操作。


譬如 DeepSeek 在多節點通信時繞過了 CUDA 直接使用 PTX(Parallel Thread Execution),其最多只能實現以演算法的方式來高效利用硬體層面的加速。


當然,一旦速度變得更快,打個比方這就意味著別人家的模型要訓練十天,而 DeepSeek 只需要訓練五天,那麼就能給模型喂更多的數據,即能讓模型在同等時間內看到更多的數據,間接提高模型的效果。


事實上,繞過 CUDA 也並非一種新鮮做法。現在也有一些和 CUDA 對標的編程框架,如 Triton 並且其是開源的。此前北京智源研究院的相關研究人員也專門基於 Triton 去加速英偉達以及國產的 GPU,且也可以認為這是一種繞過了 CUDA 去調用 GPU 驅動提供的相關函數的做法。


以目前 AI 方向技術人員為例,通常在本科階段基本上只會接觸到基於深度學習框架(通常為 Python 語言)來訓練神經網路,還不會直接接觸到各類深度學習框架提供的用 C++ 來寫 CUDA 相關的編程任務(有一些好學者或者有參與科研項目的人員有可能會利用 C++ 來寫 CUDA 實現相關演算法的提速)。


這些人員在工作以後有可能由於 AI 項目落地的需要,會接觸到針對具體的硬體資源來適配模型的編程,但要繞過 CUDA 來寫模型的訓練演算法,通常沒有這樣的需求。


但現在大模型的訓練的確有這些需求,譬如由於這樣或者那樣的原因導致英偉達 GPU 算力短缺,逼得大模型訓練人員考慮在有限得算力資源下,如何儘可能地高效利用算力


在 DeepSeek-V3 的技術博文中,DeepSeek 表示其使用了英偉達的 PTX(Parallel Thread Execution)語言。


假如 DeepSeek 的開發者能夠很好地使用 PTX(Parallel Thread Execution)語言,那麼相比使用 CUDA 提供的編程介面,肯定可以更精細地控制 GPU 之間傳輸數據、權重和梯度等。但是,使用 PTX 寫出來的代碼非常複雜,且很難維護,因此需要專業度較高的開發者。



傳DeepSeek繞過CUDA?業內人士稱或為適配國產GPU做準備 - 天天要聞

(來源:DeepSeek)


也就是說,繞過 CUDA 的做法具有一定的技術難度,這需要開發者既要懂 AI 模型的演算法,又要懂計算機系統架構來高效分配硬體資源。如果沒有同時掌握這兩方面技能的開發者,那就要分別招聘懂這些技能的開發者,即需要協調好不同人員。


從 DeepSeek 的技術報告來看,其主體實現還是基於 CUDA 的相關介面,其描述中也闡述繞開了 CUDA 來寫通信,那就意味著它招聘了掌握不同技能的人才,並能將這些人才很好地串了起來。


這也說明 DeepSeek 擁有一些擅長寫 PTX 語言的內部開發者。那麼,假如它之後使用國產 GPU,其在硬體適配方面將會更得心應手,其只要了解這些硬體驅動提供的一些基本函數介面,就可以仿照英偉達 GPU 硬體的編程介面去寫相關的代碼,從而讓自家大模型更加容易適配國產硬體。


與此同時,從 DeepSeek 的技術報告來看,其技術從學術研究角度並沒有勝出一籌,但是在工程上面的確非常有技巧。考慮到 AMD 已經宣布集成 DeepSeek-V3 到 MI300X GPU,因此未來不排除會有更多 GPU 廠商牽手 DeepSeek。


同時,也正如上述韓國分析師在同一篇 X 文章中所說的:「這凸顯了 DeepSeek 非凡的工程水平,並表明美國對華制裁加劇的「GPU 短缺危機」激發了他們緊迫感和創造力。」


運營/排版:何晨龍

科技分類資訊推薦

迷你電腦、筆記本、整機都不足2000元,618這幾款低價PC很彪悍 - 天天要聞

迷你電腦、筆記本、整機都不足2000元,618這幾款低價PC很彪悍

最近朋友想買一款2000元內的電腦,主要是家裡辦公用。由於有顯示器,所以就想買個主機,也就可以了。評價君不看不知道,看了一下發現,在低價電腦方面,現在出的最多的要數宏碁了,其迷你電腦、筆記本、整機都不足2000元,給出了豐富的選擇。首先是商用台式機Veriton D750,原價1999元,補貼價1599元。這款電腦採用了銳龍5...
全球壟斷卻賣不動?ASML的尷尬:最牛光刻機遭台積電嫌棄 - 天天要聞

全球壟斷卻賣不動?ASML的尷尬:最牛光刻機遭台積電嫌棄

ASML這家公司活得挺憋屈——手握全球90%的光刻機市場,EUV光刻機更是獨門生意,按理說該躺賺。可現實是,它正被兩頭堵得喘不過氣:一邊是美國攥著對華出口的「遙控器」,另一邊是自家最先進的設備賣不動,連台積電都甩臉子不買賬。先說美國的「緊箍
小米:被罵得越狠,賣得越火?揭秘「招黑體質」背後的生存法則 - 天天要聞

小米:被罵得越狠,賣得越火?揭秘「招黑體質」背後的生存法則

小米這家公司,真是行業里的「奇葩」。自打誕生起,罵聲和掌聲就從來沒斷過。有人誇它是「價格屠夫」,有人罵它是「組裝廠」;有人捧它「讓科技更親民」,有人踩它「沒核心技術」。可怪就怪在這兒——挨罵最多的小米,反而越活越滋潤,手機、家電、汽車樣樣開
充電時,先插手機還是充電器?這幾種充電方法,手機壞得快! - 天天要聞

充電時,先插手機還是充電器?這幾種充電方法,手機壞得快!

我們每天都在使用手機,但很多人可能不知道正確的手機充電方式。充電時,先插手機還是充電器?手機一定要滿充滿放嗎?這些知識一定要掌握01手機一定要滿充滿放嗎?關於充電,總流傳著一些說法:手機電量耗盡再充電,每次要充滿,這樣才有利於電池保養,隨時充會影響電池壽命。實際上,這些理論都比較過時了。早些年廣泛使...
全球第一台積電,對比大陸第一中芯國際,差距究竟有多大? - 天天要聞

全球第一台積電,對比大陸第一中芯國際,差距究竟有多大?

眾所周知,在全球晶元代工領域,台積電是真正的第一名,不管是技術,還是市場份額都是第一名。而在中國大陸,則中芯國際是第一名,同樣不管是技術,還是市場份額,都是中國大陸的第一名。那麼問題來了,我們拿台積電,來對比一下中芯國際,看看差距到底有多大
OLED不再傷眼!探秘天馬工廠破解「0頻閃」護眼屏誕生之路 - 天天要聞

OLED不再傷眼!探秘天馬工廠破解「0頻閃」護眼屏誕生之路

人類本質上是矛盾的生物。 這一點在對待手機的態度上尤為明顯。家長們一面擔憂手機「傷眼」,頻頻告誡孩子「少玩手機防近視」;一面卻難以割捨掌中方寸帶來的便利與消遣。這種矛盾,使得「護眼」功能成為智能手機不可迴避的核心需求。 然而回溯早期,廠商的所謂「護眼」方案頗為粗淺:無非是將屏幕調至昏暗,或是簡單粗暴地...
「硬核服務」培育更多硬科技企業 - 天天要聞

「硬核服務」培育更多硬科技企業

本報記者 王 政 劉溫馨製圖:汪哲平近日,工業和信息化部等九部門聯合印發《關於加快推進科技服務業高質量發展的實施意見》(以下簡稱《實施意見》),提出以創新驅動、市場導向、融合發展、系統推進、質量為先為原則,壯大服務主體,優化發展生態,提升服
5499元的iPhone16 Pro太火,把國補資金都用完了? - 天天要聞

5499元的iPhone16 Pro太火,把國補資金都用完了?

最近,有很多媒體報道稱,多地的國補出現了暫停申領等情況。比如重慶、湖北、甘肅等地的一些地區,就受到限制,無法申請了。還有一些地區,也做了申請時間的限制,每天定時搶卷,只放出多少,一旦申請的晚了,就沒有了。
5.2C!小米YU7充電速度首次公布:遠超SU7 - 天天要聞

5.2C!小米YU7充電速度首次公布:遠超SU7

6月8日消息,距離7月正式上市發布越來越近,在最新一期小米汽車答網友問(第152集)中,小米汽車公布了YU7的充電速度。談及「小米YU7的充電速度怎麼樣」,官方表示,小米YU7全系搭載800V碳化硅高壓平台,其中小米YU7 Max的最大充電
特斯拉Optimus項目負責人離職,項目前景添變數 - 天天要聞

特斯拉Optimus項目負責人離職,項目前景添變數

來源:環球網 【環球網財經綜合報道】美東時間周五,特斯拉擎天柱人形機器人Optimus項目負責人米蘭·科瓦奇在X平台宣布即將離職。他稱這是「一生中最艱難的決定」,原因是離家太久,需花更多時間陪伴國外家人,強調此決定「與其他任何事情都無關」,