近日,大曉機器人公司在上海發布了開悟世界模型3.0。這個開源大模型在研發範式上有所創新,研發團隊將人類與物理世界的互動規律作為核心研究起點,構建了一套「環境式數據採集—世界模型—具身交互」全鏈路技術體系,希望讓具身智能機器人擁有聰明的大腦,不僅能「理解」物理世界的因果規律,還能「生成」長時動靜態交互場景,進而「預測」未來。
大曉機器人由商湯科技聯合創始人、執行董事王曉剛創立。公司首席科學家是澳大利亞科學院院士陶大程,曾任京東探索研究院創始院長、優必選人工智慧首席科學家。這家上海企業集聚了來自南洋理工大學、香港大學、香港中文大學的人工智慧科學家,致力於推動具身智能實現規模化商業落地。
「數據始終是ai進化的核心支撐。」王曉剛說,在ai 1.0人工標註時代,出現了包含1400萬張圖像、覆蓋數萬個類別的imagenet數據集。在ai 2.0大語言模型時代,數據規模呈指數級躍升,用於模型預訓練的互聯網文本數據集,如果讓一個人進行原創撰寫,需要約12萬年才能完成。然而進入ai 3.0具身智能時代後,科研人員遇到了數據量級的斷崖式缺口,全球具身智能領域的真機數據量級為10萬小時。這意味著,具身智能研發須另闢蹊徑,才能突破瓶頸。
在他看來,當前具身智能的主流研發範式是「以機器為中心」,其局限在於將機器人本體及其硬體參數置於研發流程的核心。很多企業通過數據採集員的真機遙操,收集各類機器人數據,本質上是讓人去適配和遷就機器的多樣性。這一路徑導致數據採集成本高昂、效率低下,且產出的技能模型與特定硬體綁定,使「智能」被禁錮在一種軀殼內,無法形成通用的認知與適應能力。
針對這些問題,大曉機器人提出了「以人為中心」的研發範式。其核心技術之一是環境式數據採集,即通過跨視角多模態設備,融合視覺、觸覺、語音、力學規律等多維度數據,並通過物理級建模與全場景覆蓋的創新設計,為具身智能模型訓練提供「人—物—場」全要素精準數據支撐。
在此基礎上,公司打造了開悟具身智能世界模型產品平台。它集成了文生世界、像驅世界、跡塑世界等多模態生成能力,覆蓋115個應用場景。開發者輸入簡單指令,就能快速生成可視化的任務模擬內容,還可一鍵分享,降低了具身智能開發門檻。
發布會上亮相的具身超級大腦模組a1,有雲端交互能力,會實時解析自然語言指令與圖像語義的意圖關係,像人一樣理解複雜的現實世界,生成可執行的中間指令(如「前進50厘米」「繞過障礙」「靠近目標」),再由底層控制器精確執行。裝上這種大腦模組的機器狗,能在複雜環境中完成自主巡檢、跟隨、避障等多種任務,還能根據自然語言指令完成用戶布置的任務。
據悉,開悟世界模型3.0已與沐曦股份、壁仞科技、中科曙光等多家企業的國產晶元完成適配,大幅提升了晶元性能,有望趕超國際頂尖晶元。就像deepseek與國產晶元適配後形成的全鏈路生態,開悟世界模型3.0與產業鏈夥伴共同構建空間智能生態,形成了從底層算力到上層智能應用的創新合力。
在具身智能本體領域,大曉機器人已攜手智元機器人、銀河通用、鈦虎機器人、國地中心等多家國內頭部企業,打通了世界模型與機器人硬體的適配鏈路,正在共同開發適用於不同場景的解決方案。