新聞①:英偉達:計劃於 7 月開源全球最先進的物理引擎 newton
5 月 19 日消息,在今日的台北電腦展 2025 主題演講中,英偉達 ceo 黃仁勛表示,在物理世界中製造機械人「不切實際」,必須在遵循物理定律的虛擬世界中訓練它們。
英偉達與 deepmind 和 disney research 研究合作開發了「全球最先進的物理引擎 newton」,計劃於七月開源。
newton 完全支持 gpu 加速,具有高度可微性和超實時操作能力,能夠通過經驗實現有效學習。其正在將該物理引擎整合進 nvidia 的 isaac 模擬器,這一整合能夠以真實的方式讓這些機械人「活」起來。
it之家從演講獲悉,黃仁勛還公布了 nvdia isaac groot 開放式人形機械人開發平台,包括開源基礎模型等。
黃仁勛還透露,英偉達正在將其 ai 模型應用於自動駕駛汽車,與梅賽德斯在全球範圍內推出一支車隊,使用端到端自動駕駛技術,今年即可實現。
很難想像nvidia會走向開源大軍,但其實這也正常,nvidia若要鞏固其領先地位,自身生態的領先和穩固是最重要的。在美出口限制與nvidia利益相衝突的情況下,軟件上的開源推廣會比硬件的銷售更重要也更易於執行。而現在,nvidia的物理引擎 newton將在7月份正式開源,還公布了 nvdia isaac groot 開放式人形機械人開發平台。在這樣的開源動作下,nvidia的ai影響力可能還會進一步提高。
新聞②:英偉達推出 nvlink fusion:對外授權互聯 ip,支持半定製 ai 基礎設施
5 月 19 日消息,英偉達 ceo 黃仁勛在今日發表的 computex 2025 台北國際電腦展主題演講中宣布推出 nvlink fusion,將已在全英偉達方案 ai 生態內得到廣泛驗證的 nvlink 高速互聯擴展到更廣領域。
nvlink fusion 的出現意味着客戶可構建英偉達 + 第三方的半定製混合 ai 基礎設施,搭載 nvlink fusion ip 的 asic、cpu、加速器能與英偉達第一方硬件無縫通信。
it之家獲悉,英偉達此次列出的 nvlink fusion 合作方包括 aichip(世芯電子,asic 設計企業)、asteralabs、marvell、富士通、聯發科、高通、cadence、synopsys。
黃仁勛特別提到,富士通和高通將設計搭載 nvlink fusion ip、適用於英偉達生態系統的 cpu。
另外,nvidia硬件獨有的高速互聯技術nvlink,也被nvidia放了出來,推出了開放授權的nvlink fusion技術。這意味着nvidia芯片與其他ai芯片的高速互聯成為了可能,而nvidia也宣布富士通和高通將設計搭載 nvlink fusion ip、適用於英偉達生態系統的 cpu,會成為最早的一批合作者,這種技術倒確實是有不小的應用前景啊。
新聞③:英偉達合作推出 fast-dllm 框架,ai 擴散模型推理速度最高飆升 27.6 倍
6 月 3 日消息,科技媒體 marktechpost 昨日(6 月 2 日)發佈博文,報道稱英偉達聯合麻省理工學院(mit)、香港大學,合作推出 fast-dllm 框架,大幅提升擴散模型(diffusion-based llms)的推理速度。
擴散模型被認為是傳統自回歸模型(autoregressive models)的有力競爭者,採用雙向注意力機制(bidirectional attention mechanisms),理論上能通過同步生成多個詞元(multi-token generation)加速解碼過程。
不過在實際應用中,擴散模型的推理速度往往無法媲美自回歸模型,每次生成步驟都需要重複計算全部注意力狀態,導致計算成本高昂。此外,多詞元同步解碼時,詞元間的依賴關係易被破壞,生成質量下降,讓其難以滿足實際需求。
it之家援引博文介紹,英偉達組建的聯合團隊為解決上述瓶頸,研發了 fast-dllm 框架。該框架引入兩大創新:塊狀近似 kv 緩存機制和置信度感知並行解碼策略。
kv 緩存通過將序列劃分為塊(blocks),預計算並存儲其他塊的激活值(kv activations),在後續解碼中重複利用,顯著減少計算冗餘。其 dualcache 版本進一步緩存前後綴詞元(prefix and suffix tokens),利用相鄰推理步驟的高相似性提升效率。
而置信度解碼則根據設定的閾值(confidence threshold),選擇性解碼高置信度的詞元,避免同步採樣帶來的依賴衝突,確保生成質量。
fast-dllm 在多項基準測試中展現了驚人表現。在 gsm8k 數據集上,生成長度為 1024 詞元時,其 8-shot 配置下實現了 27.6 倍加速,準確率達 76.0%;在 math 基準測試中,加速倍數為 6.5 倍,準確率約為 39.3%;在 humaneval 和 mbpp 測試中,分別實現了 3.2 倍和 7.8 倍加速,準確率維持在 54.3% 和基線水平附近。
整體來看,fast-dllm 在加速的同時,準確率僅下降 1-2 個百分點,證明其有效平衡速度與質量。這項研究通過解決推理效率和解碼質量問題,讓擴散模型在實際語言生成任務中具備了與自回歸模型競爭的實力,為未來廣泛應用奠定了基礎。
最後,nvidia再度與多家高校合作,推出了fast-dllm 框架,其ai 擴散模型推理速度最高提升27.6 倍。而在此之前,nvidia就已經與其他合作夥伴一起推出了開源模型 llama-nemotron,也是當前最強的ai模型之一,但也並未用上fast-dllm 框架,而是puzzle 框架,或許新架構的潛力會更大!