記者:陸彥君|製圖:程星
編輯:王傑夫
key points
現在投資不止局限於做人形機器人本體的公司,還會押注模型、數據、硬件、場景等產業鏈上下游的企業;
機器人的上半身——核心就是大腦——迎來了技術拐點;
數據量的限制在倒逼研究者開創新的技術路線,行業內出現了分層模型的趨勢;
如果說機器人的本體代表了現在,大腦則代表了未來;
目前機器人本體的應用場景主要是科研和表演。
4月19日,周六,全球首場人形機器人半程馬拉松在北京亦庄舉行,天工ultra率先沖向終點。這個身高1.8米、體重55公斤、全身漆黑的機器人跑出了和人類跑者相似的成績:2時40分42秒。對比之下,在半個世紀前的1973年,誕生於日本早稻田大學的全球第一款人形機器人wabot-1,每45秒才能邁出一步。
近兩年,人形機器人正在以各種意想不到的方式“刷存在感”:特斯拉2024年的自動駕駛發布會上,其optimus機器人用飲料招待賓客、和人玩猜拳遊戲。宇樹科技的人形機器人登上央視蛇年春晚舞台,和舞者一起甩手絹、扭秧歌。這些闖入大眾視野的人形機器人似乎在努力證明:科幻電影中的場景即將成真。
它也成了當下國內最熱門的創業賽道之一。華為、蔚來、百度、京東、大疆等公司都有高管離職創業,新加盟的研究者則大多具備加州大學伯克利分校、斯坦福、清華、北大等頂尖高校實驗室的學術背景。據不完全統計,自2023年至今,中國湧現出58家人形機器人創業公司——這裡面還不包括產業鏈上下游的企業。
相應的,資本市場的熱錢也在大筆砸進來。今年3月,成立剛一個月的它石智航憑藉1.2億美元的天使輪融資,創下了行業內天使輪融資紀錄。it桔子的數據顯示,2023年至今,人形機器人領域的投資事件累計130起,投資規模平均每年約55億元人民幣。

春節假期過後,投資人爭搶宇樹科技老股的新聞登上熱搜,同時大量以機器人為主題的商業計劃書遞到了投資人面前。某精品人民幣早期風險投資機構的投資人程朗對《第一財經》雜誌表示,現在投資不止局限於做人形機器人本體的公司,還會押注模型、數據、硬件、場景等產業鏈上下游的企業。
然而就在3月底,vc圈的熱點製造機,金沙江創投合伙人朱嘯虎再次踩準時機炮轟整個行業,稱自己正在批量退出人形機器人公司,理由是“市場共識高度集中,但商業化路徑並不清晰”——他上一次發表類似言論就在一年前,當時炮轟的對象是大模型行業,他直言“中國大模型公司全沒戲”。
從事實來看,2024年全國人形機器人市場的規模是27.6億元——只有年度投資規模的一半。各個研究機構都描繪了未來5到10年市場規模快速膨脹的美好圖景,但並未給出足夠精細、具象化的落地場景。
泡沫自然是存在的,不過當我們追溯這一輪投資和創業熱潮的根源,就會發現在ai技術的加持下,人形機器人確實在發生質變。強化學習的廣泛應用讓機器人能夠快速學會過去要幾周才能掌握的動作;大模型向機器人的技術遷移又極大地提升了後者的自主能力,讓人形機器人從“會動”,向“能聽懂人話”且“具備思考和規劃能力”躍升。
投資從下半身向上半身轉移
2024年8月,北京的酷暑未能嚇退觀眾對機器人的熱情。在世界機器人大會現場,人形機器人上演“百機大戰”,跳舞、彈揚琴、寫毛筆字、疊衣服……幾乎每個展台邊都擠滿了觀眾。如果說2024年的“機器人熱”還僅限於技術愛好者圈內,登上春晚舞台的宇樹科技的通用人形機器人h1徹底打破了圈層。觀眾們驚詫於機器人的靈活性,好奇什麼時候可以買一台回家替自己幹活。
這樣的憧憬五十多年前就有了。從1980年代彈鋼琴的wabot-2,到2000年本田公司旗下會走路、會跳舞的asimo,再到2013年美國波士頓動力公司能翻跟頭、手拉腳踹也不倒的atlas,機器人的行動能力在不斷突破。
這也是上一輪機器人發展的主線——做好機器人的下半身。靈初智能創始人兼ceo王啟斌在機器人領域深耕多年,他對《第一財經》雜誌表示,2016年前後出現的一批機器人公司,能夠將一件物品從一處搬運至另一處,專註於對有限物體的操作。這些用於酒店送餐、清潔、倉儲物流的機器人,只能在相對封閉的場景里完成任務,智能化水平相對較低。
宇樹科技給機器人帶來了更高的關注度,但這家公司本質上還是和2016年那一撥機器人公司一樣,都只解決了機器人的移動能力,並沒有解決機器人上半身尤其是手部的操作能力。其進步之處在於,隨着人工智能(ai)的發展,宇樹科技採用了強化學習和模仿學習相結合的算法,增強機器人的運動控制能力,直觀體現在產品上,就是機器人動作更靈活,更適應複雜地形。宇樹科技創始人王興興稱,2024年年初,宇樹科技的h1完成了全球首次純電驅動人形機器人原地空翻。這是傳統算法很難實現的。
宇樹科技並非走純粹ai技術路線的公司,它的火爆僅代表了本輪機器人熱潮的一面。另一面對大眾來說或許感受不深,卻足以振奮機器人行業:隨着ai技術與大模型等技術取得突破,機器人的上半身——核心就是大腦——迎來了技術拐點。
這個變化也體現在語言上,近年來“具身智能”這個在這一撥浪潮中誕生的熱詞,已經隱隱有代替“機器人”的跡象。兩個詞都指代那些可以與世界交互的人造物理實體,但有着明顯不同的價值傾向,前者更強調“大腦軟件”的重要性,潛台詞是為大腦尋找一個好用的身體以促進軟件的進化,後者更側重物理實體本身。

首個明確提出要為人形機器人升級大腦的人是馬斯克,特斯拉快速成熟的自動駕駛技術使他意識到,這種理解、規劃、操控的能力完全可以遷移到機器人身體上。2021年,馬斯克在特斯拉的ai day上首次宣布人形機器人optimus計劃,打算將電動車的自動駕駛系統和芯片集成到人形機器人上。當時很多業內人士質疑馬斯克在“誇大宣傳”。事實上,自動駕駛和人形機器人的底層邏輯是一致的:在無人干預的情況下感知環境、識別物體、自主控制並完成任務。
馬斯克曾將電動車類比為“帶輪子的機器人”。特斯拉的optimus就採用了與fsd智能輔助駕駛(特斯拉的“完全自動駕駛系統”)相同的視覺感知方案和神經網絡技術,以完成路徑規劃和物體識別。這也是為何這撥機器人熱潮中有大量創業者來自自動駕駛行業。
例如,維他動力的創始成員包括地平線前副總裁、軟件平台產品線前總裁余軼南,理想汽車智能駕駛產品前總監趙哲倫,和曾是地平線軟件平台總架構師、智駕團隊創始成員的宋巍。它石智航董事長李震宇曾任百度智能駕駛事業群總裁,ceo陳亦倫曾任華為自動駕駛cto。智元機器人合伙人姚卯青曾在waymo、蔚來汽車擔任重要的技術崗位。
不過,雖然人形機器人與自動駕駛技術有相通之處,但兩者要處理的場景難度卻不同。汽車再複雜也是在道路上行駛,而交通網絡已經是人類文明塑造出的最結構化、系統化的場景,理想情況下,操控汽車只需要油門、剎車和方向盤。但人形機器人面對的場景就是人類日常生活工作的場景,複雜度和前者完全不是一個量級,這意味着人形機器的大腦需要更加“通用”。
google率先提出了解決方案,在2022年12月發布並開源了機器人模型rt-1(robotics transformer 1),首次將大模型裝載進機器人,機器人在模型的指揮下完成了抓取物體、開關抽屜等700多項複雜操作,準確率達到97%。機器人終於不再只是在單一路線里做重複任務的“獃子”,第一次擁有了通用型“大腦”。
但高準確率的前提是,google research團隊收集了13萬條機器人運行的真實數據,以此為“教材”訓練機器人。換言之,機器人只能完成經過訓練的任務,一旦任務超過數據集範圍,對機器人來說就意味着“考試超綱”。google 2023年發布的rt-2模型再次有了飛躍性進展:研究員下達“抓取已滅絕動物”的指令後,搭載rt-2的機器人伸出手臂,在一堆玩偶中抓住了恐龍。這表明新模型使機器人具備了推理能力,機器人可以通過思考完成任務。
昂貴的數據
人形機器人的技術突破,並不是將大模型搭載在機器人身上那麼簡單。大模型通過和用戶對話解答問題,訓練數據來自互聯網。機器人是和現實世界交互解決問題,需要的數據更多,獲取難度也更大。
智元機器人(以下簡稱“智元”)首席科學家羅劍嵐在接受《第一財經》雜誌採訪時表示,大語言模型或多模態(文生圖、文生視頻等)模型的生成結果仍然只有60%至70%的準確率。這個準確率在二維世界並不會造成多大傷害,但在真實世界,“這種準確率一點用也沒有”。
因為機器人每一個失敗動作都會產生物理性的後果。沒有人可以忍受機器人遞來杯子時把咖啡潑在自己臉上,或者清理桌面時把餐具也丟進垃圾桶。機器人需要更高的準確率——羅劍嵐給出的數字是99%。而要在70%動作預測準確率的基礎上再提升20%到30%,往往比從0到70%更難。
如何獲取高質量的數據以完成進一步訓練成了行業難題,互聯網數據只是冰山一角,還有一個途徑是像google一樣,收集真機數據。google曾聯合全球33個學術實驗室,推出了涵蓋超百萬條真實軌跡的數據集open x-embodiment。
效仿這一路徑的還有智元,它在2024年9月啟用中國首個數據採集工廠,數據採集員通過遙控操作(簡稱“遙操作”),讓機器人通過模仿學習,然後採集數據。這座4000平方米的工廠里涵蓋了商超、家庭、工廠等場景,近百名數據採集員拿着遙控設備,“手把手”教機器人工作。當工作人員拿起設備做出“掃碼商品”的動作時,機器人也有樣學樣,掃碼了一罐口香糖。人形機器人完成“拿起商品、掃碼、裝袋、遞給客戶”的操作,耗時約1分鐘,這就是1條數據。一個機器人每天可採集約150條數據,如果人形機器人想完全學會該動作,需要累計收集上萬條數據。

“有多少數據就有多少智能,海量的免費文本數據催生了大模型。自動駕駛汽車在路上跑也有很多數據,但對於機器人來說,並沒有現成的、免費的高質量數據。我們未來產出的數據規模每周將會是50萬條。”智元聯合創始人彭志輝說。2024年年底,智元發布了開源數據集,規模比google的數據集大10倍。
此外,數據量的限制也在倒逼研究者開創新的技術路線,行業內出現了分層模型的趨勢,即將一個通用大腦拆解成兩個小模型,一個負責理解規劃,一個負責執行控制。
2024年12月,靈初智能率先推出了分層端到端模型psi r0,將視覺-語言-動作模型(vision-language-action,vla)拆解為視覺-語言模型(vision language model,vlm)和動作執行兩個層級。上層負責推理,下層專註機械控制。例如,當機器人清理桌面時,上層相當於機器人的“大腦”,負責判斷哪些是要扔掉的垃圾,哪些物品要整理好。當物品抓取失敗時,下層充當了“小腦”的角色,會再次嘗試抓住物品——動作迅速響應,不再需要上層做緩慢的思考。
分層架構擴展了可學習數據的類型,機器人模型不止從真機數據中學習,也能從大量互聯網數據中學習。這種分層端到端的理念在之後figure ai的helix、physical intelligence的hi robot,以及智元的go-1等機器人的架構中都有所體現。
另外,合成數據也是一條路徑。英偉達在ces 2025大會上推出了用於合成運動生成的工具isaac gr00t blueprint,開發者只需少量的人類示範,就能輕鬆生成海量的合成數據集。2025年年初,銀河通用推出的機器人大模型graspvla就是完全基於仿真合成大數據訓練出來的。它自研的合成數據生產管線在短短一周內就能生成十億級的機器人操作數據集,極大降低了數據採集成本。
儘管行業正在探索多種數據收集方式,數據量仍然是限制行業發展的最大瓶頸。以大模型為例,deepseek、llama等模型的參數量大約為5000億,訓練如此規模的模型需要16.6tb的數據,如果一本書約等於500kb文本,訓練數據相當於3320萬本書,頂得上google圖書收錄的書目數量。
文本數據獲取起來相對容易,大模型尚且存在數據不足的瓶頸,機器人需要的現實交互數據更多,量的有效積累更難。多位投資者和機器人創業者對《第一財經》雜誌表示,想要做出真正可行的機器人,在模型、架構、算法上都要取得突破。這撥機器人熱潮還處於從0到1的階段,具身智能的transformer時刻還沒有到來。
無論押註上半身還是下半身,關鍵是先活下來
it桔子數據顯示,它石智航完成1.2億美元天使輪融資後,投後估值達到了4.53億美元。第一輪融資後的估值超過30億元,也超出了投資方的想象。程朗長期關注具身智能賽道,據他回憶,有關人形機器人的投資在2024年年中已經很熱,“此後的項目估值就沒有低過”。在融資金額方面,“種子輪和天使輪大約為3000萬至5000萬元——這是及格線。今年對投資方的要求可能會更高,整個賽道有些瘋狂,泡沫肯定存在,對投資機構來說難度增加了,但這對行業來說是好事,融資多了一些,行業在往上發展。”
這一年多來,機器人行業的項目數量、投資金額和估值在上升,投資方的關注方向也發生了變化。初創公司受限於資金,很難像特斯拉一樣,軟硬件一體化、全方位地研發機器人。國內的人形機器人公司目前大體可分為兩類,一類側重研發智能大腦(認知和任務規劃能力),一類側重研發本體(運動控制和硬件)。“2024年之前,投資方比較重視具身機器人的本體,2024年之後大家逐漸更關注具身大腦的創業企業。因為投資人更在意機器人智能水平和泛化能力的提升,這個趨勢在國外出現得更早。”星連資本(z基金)的投資人關蕾對《第一財經》雜誌說。

硬件本體領域的明星公司正是宇樹科技,自2020年起它已經連續5年實現營利。目前,宇樹科技的四足機器狗佔全球60%到70%的市場份額,銷量第一。其通用人形機器人在2024年實現了全球發貨,g1型號的售價低至9.9萬元,打破了人形機器人尚停留在原型機階段且價格高昂的印象。
談及“硬件公司”的標籤,王興興曾在2024年機器人大會期間對媒體稱很喜歡這個標籤,它代表了外界的認可。在ai浪潮下,他認為機器人的身體比想象中更重要,因為只有讓身體在物理世界中交互,機器人才能真正理解重力、摩擦力、光學等物理概念,更高級的智能必須“具身”。這位創始人思路務實,肯定ai能力的重要性,也承認宇樹對ai的投入較克制,因為“太燒錢了”。2016年前後,王興興聯繫投資並不順利,多虧一位個人投資者投了200萬元,條款寬泛,打錢時連協議都沒有簽。對資源短缺的創業公司而言,維持自我造血能力——在創業浪潮中活下來是優先考慮的事。
如果說機器人的本體代表了現在,大腦則代表了未來。從財務角度出發,投資方理應優先選擇本體,畢竟宇樹科技已經賺到了錢。但從長遠看,大腦決定了機器人的智能水平,商業價值的想象空間更大,對投資方的吸引力也更大。程朗表示,今年會側重看ai模型、數據方向的投資標的。
當前的矛盾在於,提升機器人智能的技術路線並不清晰。投資機構的投資策略也各不相同,投資時較為確定性的因素主要就是創始團隊的背景。“賽道處於早期階段,做什麼樣的機器人、做哪個環節的機器人可能一直在變,唯一不變的是團隊基因。他們有沒有技術實力?有沒有對機器人的熱愛?早期投資機構看人比看事多一點。”程朗說,高校學者負責技術路線的前沿探索,在業界經驗豐富的人把控量產和場景落地相關工作,投資者相對傾向於這樣技術和產業兼備的團隊組合。
這一類公司的典型畫像是智元。智元創始人兼ceo鄧泰華曾任華為公司副總裁、計算產品線總裁,在華為工作了超過20年。“華為天才少年”彭志輝擔任公司聯創兼cto;智元首席科學家羅劍嵐曾在goole deepmind擔任研究科學家,他還推動了智元與美國頭部具身智能公司physical intelligence(pi)的合作。截至目前,智元已完成7輪融資,騰訊兩次增持股份,投後估值達到150億元——幾乎是宇樹科技的兩倍。
智元的投資陣容和團隊陣容都堪稱豪華,這使得它對ai領域的投入相當闊氣:成立智元具身智能研究中心和智元機器人研究院兩個研究機構,在上海建設國內首個機器人數據採集工廠。智元合伙人、具身業務部總裁、研究院執行院長姚卯青曾對包括《第一財經》雜誌在內的媒體稱,智元在ai方面是“p0級的投入”。他認為只投入機器人本體的開發沒有未來,因為只開發本體,不投入ai,機器人就只能做有限任務,只是個昂貴的大號玩具。
但創業公司不能一直依賴融資生存,專註前沿研究和在市場上營利這兩件事必須做好平衡。智元也在硬件量產方面發力,設立了遠征、靈犀和genie三大產品線,分別專註於to b、to c和數據採集,還為靈巧手等零部件設立了幾個一級部門。2025年1月,智元量產的通用具身機器人達到1000台。
科研和租賃撐起早期市場,人形機器人距離實用還有多遠?
在當下市場,究竟是哪些人在買人形機器人?從目前的結果看,機器人本體的應用場景主要是科研和表演。宇樹科技通過春晚“爆火了”,而比投資人更興奮的,或許是機器人租賃市場。《第一財經》雜誌向全國多家租賃方詢價得知,宇樹g1的日租金目前為7500元至9999元不等,周末和節假日價格還會上漲。每台機器人需要配一位操作員,因此租金包含了操作員的勞務費和設備運輸費,租賃用途大多為在展會、商場等地表演節目。除了宇樹科技,商家還推薦了雲深處、加速進化、樂聚、松延動力等品牌的機器人租賃。
“商用導覽和表演展示的場景需求不大,這種需求主要的價值在於對行業早期宣傳和普及機器人的概念,但投資價值有限。”關蕾說,現在主流的市場需求是科研,科研機構會購買具身機器人本體,在上面部署一些前瞻性的算法做技術探索,包括認知和行為類的研究、強化學習和具身大模型的算法驗證、物理世界模型研究等方向,“科研機構有很強的二次開發能力,通過底層的開放數據、接口和工具就可以搭建實驗平台”。2024年12月,同濟大學的招標公告顯示,採購了10台宇樹科技的h1-2通用人形機器人和相關配件,合同總金額為825.66萬元。
但僅靠科研場景無法支撐起眾多創業公司。宇樹科技不執着於人形機器人,它將四足機器狗的性價比做到極致,以此養活自己,並支撐起未來長期的科研投入,這可以被視為一種接地氣的做法。
此外為人形機器人做零部件配套也是重要的賽道之一。比如許晉誠創立的帕西尼感知科技,就是一家專門做機器人觸覺傳感器的公司,“握杯子時手掌張開的程度、拉扯柔軟線路時要小心控制的力度”,這些機器人的手部動作規劃都需要基於觸覺反饋,他告訴《第一財經》雜誌。
放眼未來,投資人不再執着於人形機器人的“形”,而是專註於應用場景落地。“輪式底盤,搭配雙手靈巧操作或者以任何恰當的形態,用最好的性能和性價比,在它的細分賽道里實現具身智能的價值就可以。不一定非要雙足形態。”關蕾表示。程朗則認為,2025年如果有新成立的公司還執着於做有雙手和雙腿的人形機器人,融資難度可能會變大,市場現在“更看重機器人用手操作任務、解決真實場景問題的能力”。
首屆人形機器人馬拉松上,機器人隊伍的現場表現可以用亂糟糟來形容,大多數機器人需要中途更換電池,還要噴洒冷卻液以降低電機等部件的溫度。參賽的20支機器人隊伍中只有6支成功完賽。不少人悲觀地認為,這次馬拉松把人形機器人的缺點完全暴露了出來,整個市場可能會轉冷。然而接下來的一周,人形機器人概念股在a股市場表現活躍,襄陽軸承、寧波東力、杭齒前進、南方精工等多股漲停。
多位業內人士對《第一財經》雜誌表示,人形機器人是一個5到10年,甚至10年以上的漫長賽道。不過“這條賽道長坡厚雪”,人形機器創業公司星海圖面對朱嘯虎的唱衰言論這樣回應——這家公司在2023年11月拿到了金沙江創投的天使投資,但僅僅6個月後金沙江創投便火速退出。有趣的是,今年年初,deepseek的巨大成功讓保守的朱嘯虎也開始直呼“技術理想主義者的勝利”,當被問及如果有機會是否會投deepseek時,他反覆說了兩遍“肯定會投”。
應採訪對象要求,文中程朗為化名。
靈初智能創始人兼ceo
王啟斌
q:人形機器人會像手機一樣人手一台嗎?
a: 這本質上還是以過去的思維範式來思考未來。因為智能手機被認為是一個smart device,它具有smart的屬性,但是終究是被人拿來使用的device。我認為未來7年左右,人形機器人是有可能實現大規模部署的。
q:那它會成為“夥伴”嗎?
a: 目前,我覺得人形機器人和人之間的關係本質上還是處在大家所說的以人類為中心的階段,從算法設計到獎勵函數設定都由人類主導,其本質還是工具。但未來如果人形機器人在複雜環境中能夠具備自我學習的能力,它或將成為新物種。屆時它和人類的關係將向對人類更有幫助的夥伴關係演進。
q:如果你有一台人形機器人,你最想用它來做什麼?
a: 最近rodney brooks(irobot創始人)在斯坦福大學的發言中提到一條規律,即機器人的外形設計決定了人對它的期望值。因此我們今天對人形機器人的期望,很大程度上就是對一個智人的期望。
銀河通用合伙人
傅強
q:人形機器人與非人形機器人的核心區別是什麼?
a:目前被大眾所熟知的非人形機器人,例如工廠的機械臂,往往為單一任務而生,效率極高,但適用範圍受限。而人形機器人則代表了一條通用型的發展路徑。人類社會中,樓梯、電梯、工具、傢具的交互方式都以人的尺度和習慣展開,人形機器具備真正無縫融入這些既有結構的潛質。
q:人形機器人會像手機一樣人手一台嗎?
a:馬斯克預測未來世界上將有100億台人形機器人,聽起來也許有些誇張,但它反映出的趨勢是明確的。在銀河通用看來,哪怕達不到手機的普及度,未來人形機器人的規模至少能比肩今天的汽車產業。
q:最打動你的人形機器人應用案例是什 么?
a:最打動我的是那些真正有人情味的時刻。比如在康養醫療場景里,它陪伴並照顧失能老人,替家人分擔壓力;又比如我忙碌一天、癱在沙發上的時候,它遞過來一瓶飲料、輕聲提醒我早點休息。這些背後體現的正是人形機器人的最大價值—跨場景適應和靈活泛 化。
帕西尼感知科技聯合創始人
聶相如
q:機器人做成人形的價值在哪裡?
a:人形機器人因其類人的外形和動作,天然適配人類環境,更具有交互友好性。不過帕西尼也並不追求絕對的仿人,tora-one就是一款輪式人形機器人,我們專註於提升機器人的多維觸覺感知能力,以人形為基礎拓展應用場 景。
q:打動你的人形機器人應用案例是什麼?
a:最打動我的機器人應用案例是一個內置多維觸覺陣列的護理機器人。它在幫卧床老人翻身時能夠檢測肌肉僵硬程度,自動調整托舉角度,以及在感知到老人顫抖或抗拒時切換為安撫模式。這也是帕西尼一直以來的發展理念,踐行ai向善,讓技術更有溫度。
q:如果人形機器人替代了大量人類的工作,人類的價值在哪裡?
a:即使人形機器人進入人類社會中,人類的價值依然體現在創造力、情感交流、複雜決策等方面,人類可以將更多精力投入到更具創造性和戰略性的工作中。當然人類也需要在技術與倫理之間找到平衡,利用機器人提升效率,同時避免情感上的異化。
(本文首發於《第一財經》雜誌4月刊)