AI 硬件要真正走進生活,需要新的「引擎」

2025 年被視為 AI Agent 元年,包括 OpenAI 、Google、微軟在內的科技公司都提出 Agent 將開始加入勞動力大軍,甚至改變工作形態。

與此同時,Google 、OpenAI 這些以軟件為主要產品的公司也紛紛開始推出更多智能硬件。

這兩件事並非孤立的巧合,它們共同指向了一個清晰的信號。

在前幾天火山引擎「Force 原動力大會」上,火山引擎大模型智能算法負責人吳迪認為,讓 AI 能力變得觸手可及,將助力 IoT 硬件和輕量級硬件的全面升級,整個硬件價值體系也將可能會被重新塑造

在中國,火山引擎作為雲和AI 服務平台,雖然並非傳統的硬件製造商,但卻用另一種方式參與到 AI 和硬件產品的融合中。全球前十的手機廠商中有 9 家都和火山引擎有深度合作,火山引擎的端雲協同架構正在成為智能硬件的「大腦」和「神經」。

在我們跟從業者的溝通中發現,硬件廠商在和 AI 結合中普遍面臨的挑戰是,市場生態的碎片化以及高昂的開發成本。這也是一些 AI 硬件曇花一現,卻始終無法成為用戶常用設備的重要原因。

火山引擎在其智能硬件解決方案中反覆強調的「原子化能力」和「端雲一體化」理念,恰恰也切中了當前 IoT 設備AI化進程中的核心癥結 ——如何打破端與雲之間的壁壘,讓 AI 能力更順暢地流淌到每一個硬件終端。

海量的 AIoT 硬件已經成為 Agent 的重要入口,誰率先做好了設備端到端的響應,誰就能在這個方興未艾的 AIoT 市場拔得頭籌。

拆解火山引擎「原子能力」:AIoT 的工具箱

一個 3 歲的孩子抱着毛絨玩具,問它「為什麼天空是藍色的」,玩具立刻用童趣的聲音回答,還能根據孩子臉上的表情調整語調——這不是科幻片,而是 Haivivi 這樣 的 AI 玩具已經實現的場景。

這背後其實是火山引擎用「原子能力」組成的 AI 工具箱,這是火山引擎泛互聯網行業解決方案負責人江南提出的概念。

江南認為,技術提供者應「以原子化和組件化的方式提供服務」,即把AI大模型的能力(如語音、語言、多模態等)拆分成標準化、可組合的API/SDK,供合作夥伴靈活調用。

原子能力不是孤立的功能點,而是「能力即服務」,不僅提升了合作的靈活性,也大幅降低了廠商的開發門檻,從而推動整個行業的創新和生態繁榮。

火山引擎這些原子能力就像樂高積木,為硬件廠商提供近乎「開箱即用」的智能化工具箱。

愛范兒梳理了火山引擎給智能硬件準備的「原子能力」:

  • 豆包大模型 – 設備的「智慧大腦」
  • 扣子(Coze)平台 – AI 應用的「快速孵化器」
  • ASR/TTS技術 – 讓設備「能聽會說」的語音引擎
  • RTC實時通信 – 連接雲端與設備的「高速神經網絡」
  • VLM視覺語言模型 – 幫助設備「看懂世界」的視覺大腦
  • Function Calling – 調用外部服務的「萬能工具手」

一圖看懂火山引擎原子能力「工具箱」

在 AIoT 領域,豆包大模型扮演的角色遠遠不只是聊天機器人。除了能夠識別用戶的意圖,還有不斷變強的邏輯推理能力,使得硬件設備在面對複雜場景時能夠進行一定程度的自主判斷。

同時,豆包大模型對多模態交互的支持,意味着未來的智能設備將不再局限於單一的語音或文本輸入,而是能夠綜合處理圖像、聲音等多種信息 ,這為實現更自然、更接近人類交流方式的人機交互奠定了基礎。

例如,豆包最新的 Seed 1.6 Flash 模型作為輕量級的語言和視覺合版模型,能做到 1 秒輸出 100 個Token,大大提升了端到端的響應速度 。

至於扣子這個 AI Agent 開發平台,讓沒有深厚編程背景的產品經理也能零基礎快速搭建 AI 應用。它就像是提供了一套「一站式」的開發模板,大大縮短了從創意到產品的周期。

扣子的端插件能力特別值得關注 。它能讓智能體與物理世界直接交互——比如讓AI助手不僅能回答”今天天氣怎麼樣”,還能主動幫你開啟空調並調節到合適溫度。這種能力讓硬件從被動響應轉向主動服務 。

在交流環節,ASR 語音識別和 TTS 語音合成技術負責讓設備「能聽會說」。火山引擎的 ASR 即使在嘈雜環境下也能精準識別指令,而 TTS 技術讓機器的聲音不再冰冷,變得更有「人情味」。塗鴉智能接入後,語音識別準確率提升了超過 20% 。

還有一個關鍵的是 RTC 實時通信技術,它像是連接設備與雲端的”高速公路”,確保音視頻數據能夠低延遲、高穩定傳輸 。

這對 AI 玩具至關重要——當孩子問問題時,如果等待 3-5 秒才有回應,體驗就會大打折扣。火山引擎通過優化,將響應時間壓縮到 1 秒內,讓對話變得像真人交流一樣自然 。

火山引擎大模型智能硬件負責人邢孝慈指出,端到端的實時性能是 AI 智能硬件落地的最大技術挑戰,尤其是在雲端推理場景下,響應速度直接影響用戶體驗。

火山引擎通過端雲一體化優化,大幅提升 AI 語音交互的響應速度,已實現語音實時對話,最快只需1秒,平均時間小於 1.5 秒。

而為了讓設備「看懂世界」,VLM 視覺-語言模型讓攝像頭不僅能「看到」畫面,更能「理解」內容。比如識別孩子的手勢表情,或者分析圖片內容並回答相關問題 。移遠通信的全系智能模組都已接入這項能力,讓終端設備可以無縫融合多模態 AI 功能 。

Function Calling 函數調用則像是萬能遙控器,讓 AI 能夠主動調用各種外部服務——控制家電、查詢天氣、設置提醒等連貫操作都能一鍵搞定 。

火山引擎的這套方案真正的競爭力不是「原子能力」本身,而在於如何將這些能力有機整合。

江南告訴愛范兒,原子能力的開放使火山引擎能服務於整個硬件生態鏈,包括芯片廠、整機廠、終端品牌等,形成「雲+端」一體化的賦能體系

這樣一個完整的端到端服務體系,覆蓋從設備數據採集,到邊緣計算處理,再到雲端大規模推理的整個鏈條, 這種「一站式服務」與傳統雲服務商提供孤立 AI 接口的做法截然不同。

同時通過與樂鑫科技、博通集成、移遠通信、廣和通等芯片模組廠商的深度合作,火山引擎提供「硬件+算法+平台」的全套支持 。這種合作模式讓硬件公司能夠更平滑地將 AI 能力嵌入產品中。

與其說火山引擎是技術供應商,不如說它更像是站在硬件廠商背後的「AI 軍師團」。它不僅提供技術,更重要的是將字節跳動在抖音等 C 端產品中驗證過的 AI 技術和運營經驗,像搭積木一樣自由組合,支持給 B 端硬件企業 。

AIoT 產品的新浪潮

當然,真正的考驗來自始終市場第一線,技術架構的骨骼需要落地產品才會有鮮活的血肉。火山引擎一直強調的「更強模型、更低成本、更易落地」,是否能真的讓這些 AIoT 產品在市場中掀起波瀾。

Haivivi 不再是過去那種只會簡單重複預設語音的「智能玩偶」,它能夠根據與孩子的長期互動,更準確地理解孩子略顯稚嫩、甚至有時不太規範的語言表達,學習孩子的興趣偏好,提供個性化的陪伴內容,甚至在孩子情緒低落時給予安慰與鼓勵,因此受到不少家長和孩子的歡迎。

這其中的關鍵,是音視頻智能互動設備解決方案。Haivivi 通過深度集成火山引擎的豆包語音大模型以及「扣子」進行 Agent 構建,打造出了一套完整的 AIoT 互動系統。

據 Haivivi 聯合創始人高峰介紹,為了達到自然的交互效果,Haivivi 團隊與火山引擎的工程師們在多個層面進行了深度優化。

例如,在語音交互的響應速度上,通過優化端雲協同的鏈路,將從用戶發出語音指令到玩具給出反饋的端到端延遲控制在了行業領先的水平,部分場景下可以達到 300 毫秒以內。

Haivivi 聯合創始人高峰

這款 AI 陪伴玩具能夠聲情並茂地講述各種有趣的故事,還可以充當英語陪練陪伴孩子練習口語,與孩子進行成語接龍遊戲,在這些備受青睞的使用場景里,保障兒童在對話過程中的沉浸感至關重要。

與 Haivivi 這類直接面向 C 端消費者的品牌不同,塗鴉智能作為一個全球化的 IoT 開發平台服務商,他們與火山引擎的合作則更多地體現在如何幫助廣大的開發者。

今年年初,火山引擎與塗鴉智能達成合作,將豆包大模型全面接入塗鴉 AI 雲開發者平台,共同推進AI大模型及雲原生技術在多場景的規模化落地,這就有點像 AIoT 市場的 App Store。

雙方合作的一個重要發力點恰好也是 AI 玩具領域。開發者可以在塗鴉的平台上更為便捷地實現音頻、視頻、圖像和文本等多模態AI能力的一站式整合與調用 。

這意味着,即便是中小型的玩具開發者,也能夠以更低的門檻、更快的速度,為其產品賦予先進的 AI 交互功能,有機會孵化出更多像 Haivivi 這樣自然有趣的爆款產品。

舊品類因為 AI 對體驗的重塑不只有玩具,這些年打開率不斷走低的電視也開始有了變化。

用戶想在電視上找到某個明星主演的電影,需要層層點擊遙控器,在複雜的菜單中穿梭。

現在,你只需說出「我想看 xx 的電影」,電視不僅能瞬間找到相關影片,還能智能生成專屬海報牆,整個過程的響應速度控制在 1 秒以內。

創維研究院院長、酷開 CTO 郭尚鋒在「Force 原動力大會」的分享中,強調了一個樸素卻關鍵的觀點:實時反饋才是用戶高頻交互的核心。

創維研究院院長、酷開 CTO 郭尚鋒

上述的電視交互體驗,酷開稱之為「超級智能體」。背後是利用豆包大模型的語義理解和個性化生成能力,更好理解你的用戶觀影偏好,然後深度融合火山引擎的語音交互技術,實現自然流暢的對話,簡化電視依賴遙控器層層點擊的複雜交互模式。

這種個性化服務延伸到了教育、健康、生活服務等多個垂直場景,郭尚鋒透露酷開的 AI 繪本館能在 12 秒內生成個性化故事,用戶日活率因此提升 60%以上。

如果說智能玩具和智能大屏是 AIoT 在存量市場的智能化升級,那麼 AR(增強現實)眼鏡則代表了 AI 與硬件結合,在開創增量市場、探索下一代個人終端的巨大潛力。

靈伴科技(Rokid)副總裁、XR 中心負責人王俊傑認為,AR 眼鏡有望成為下一代個人信息終端,它能在三維世界實現信息交互效率和體驗的巨大提升。

這個願景的實現尤其需要空間計算和多模態 AI 的深度融合,目前 Rokid 已經全面接入豆包多模態 AI 大模型。

Rokid 副總裁、XR中心負責人王俊傑

Rokid 作為國內AR領域的領軍企業之一,其與火山引擎的合作,則為我們揭示了AI在空間計算時代可能扮演的關鍵角色。

據王俊傑介紹,與火山引擎豆包大模型的聯合研發,Rokid不 僅優化了其 AR 眼鏡內置AI助手的數據鏈路,提升了語音識別的準確率和自然語言理解的深度,更重要的是,能夠結合豆包大模型的多模態理解能力,更好地將AI分析結果與用戶所處的真實物理環境進行融合與疊加,從而提升AR應用的綜合體驗。

例如,用戶佩戴 AR 眼鏡看到一幅畫作,AI 助手不僅能識別畫作信息,還能結合用戶偏好推薦相關的藝術展覽;或者在工業場景下,AR 眼鏡可以實時識別設備故障,並將維修指南以三維模型的形式疊加顯示在工人眼前。

從會「讀懂」孩子情緒的智能玩具,到能預測用戶需求的客廳管家,再到將虛擬與物理世界無縫融合的 AR眼鏡,成熟的硬件市場,開始興起一股 AIoT 產品的新浪潮。

構建 AI 時代的「新基建」

火山引擎在智能硬件上做的這些,在模型參數和算法迭代狂飆的今天,是一條有點不同的路線:它要做的,遠不只是硬件的「技術供應商」,也不是單純訓練一個更會「考試」的模型,或者一個更會「聊天」的機器人。

在火山引擎的劇本里,AI 是要真正「動起來」,隨着大量 AIoT 設備自然融入用戶的生活,成為能感知、會思考、有溫度的夥伴。

為了讓 AI 融入更多低算力的終端設備上,他們甚至把端側 SDK 壓縮到僅 100KB 內存的低功耗設備里,讓百元級硬件也能擁有「聰明大腦」 。

這背後,是對端雲協同架構近乎苛刻地打磨,也是對成本控制的極致追求。當大模型推理成本被大幅降低,AI 才不再是少數巨頭的「專屬玩具」,而是真正有望「飛入尋常百姓家」 。

火山引擎最近也推出了 MCP 服務,那些在 AI 技術積累上還處於「新手村」的傳統企業或初創團隊,未來有望可以通過 MCP 服務,快速、便捷、低成本地為自家產品裝上 AI 引擎,實現從「功能機」到「智能機」的一鍵升級 。如同邢孝慈在分享中提到的:

MCP 等新服務進一步降低整體開發門檻,並且提高智能化的上限,使得更複雜、更智能的 AI 體驗能夠廣泛應用到各個行業

這種硬件和 AI 的融合,可不是簡單地給個 API 接口就完事了,而是從「芯」到「銷」的全鏈路服務:

從豆包大模型、RTC 實時通信這些底層技術「硬菜」,到扣子這樣的 AI 應用「快手菜」開發平台,再到拉上博通集成、廣和通這些芯片模組大廠一起優化,甚至還幫你對接電商渠道「帶貨」。

這種從底層技術到上層應用的完整生態閉環 ,這不是簡單的業務延伸,更像是而是一次基礎設施級別的重新定義。邢孝慈告訴我們,智能硬件正從「功能型」向「服務型」轉變

所以說,無論是軟件還是硬件,火山引擎似乎都正試圖構建 AI 時代的「新基建」

在日新月異的 AI 洪流中,不只我們的工作方式會面臨轉變,在智能硬件市場很有可能也會迎來「重新洗牌」,開啟一個全新的競爭格局。在這個嶄新的賽道上,火山引擎已經在狂奔,更多廠商也正在入局。

我們或許也可以期待這些 AIoT 產品湧現後的新生活:多模態融合、端雲協同的技術架構,以及基於 Agent 的自主服務能力,讓智能硬件升級到下一個維度的「智能」:真正懂用戶、更個性化、從被動轉向主動服務。

#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr),更多精彩內容第一時間為您奉上。

愛范兒|原文鏈接· ·新浪微博