0.87s亞秒級延時！Soul開源14B數字人生成模型

2026年02月06日18:00:27 財經 9198

IT時報記者毛宇

近日，Soul App AI團隊（Soul AI Lab）正式開源實時數字人生成模型SoulX-FlashTalk。該模型為14B參數量級別，是業內首個實現0.87s亞秒級超低延時、32fps高幀率輸出，並支持超長視頻穩定生成的數字人模型。

在實時交互的核心痛點——延遲優化上，SoulX-FlashTalk通過全棧加速引擎的優化，將首幀視頻輸出延時降至0.87s亞秒級，消除了傳統大模型數字人生成的“滯後感”，使14B級大模型數字人具備即時反應能力，可適配視頻通話、直播間互動、智能客服等全場景實時交互需求。

儘管搭載14B參數量的超大DiT模型，該模型推理吞吐量仍達32FPS，高於直播所需的25FPS實時標準，保障了畫面輸出的流暢度。

針對數字人超長視頻生成中易出現的面部不一致、畫質下降等“崩壞”問題，SoulX-FlashTalk採用自糾正雙向蒸餾技術實現突破。

該技術包含兩大核心機制：一是多步回溯自糾正機制，可模擬長序列生成的誤差傳播並實時修正，主動恢復受損特徵；二是完整保留雙向注意力機制，區別於傳統單向依賴模式，使每一幀生成都能同時參考過去與隱含的未來上下文，從根源上壓制身份漂移，確保超長直播中數字人口型、面部細節及背景環境的一致性。

該模型在技術方案上的另一創新的是突破傳統數字人僅能“口型對齊”的局限，實現全身動作交互。其支持音頻驅動的全身肢體動態合成，而非僅對臉部局部重繪；基於14B DiT模型的建模能力，可有效消除手部畸形與運動模糊，精準呈現手部動作細節。

為平衡生成質量與推理速度，SoulX-FlashTalk採用兩階段訓練策略：第一階段通過延遲感知時空適配結合動態長寬比分桶策略微調，使模型適應低分辨率、短幀序列；第二階段採用自糾正雙向蒸餾技術，利用DMD框架壓縮採樣步數並移除無分類器引導（CFG）實現加速，搭配多步回溯自糾正機制與隨機截斷策略，實現高效且顯存友好的優化。

在推理加速方面，團隊針對8-H800節點設計全棧加速引擎，採用混合序列並行、算子級優化、3D VAE並行化及整鏈優化等技術，其中混合序列並行使單步推理速度提升約5倍，FlashAttention3算子優化可減少20%延遲，3D VAE並行化實現5倍加速。

此外，團隊指出，傳統單向模型存在時間不一致、身份漂移等問題，而雙向注意力機制的保留，顯著提升了生成內容的一致性與細節質量。

據悉，Soul AI團隊此前已開源語音合成模型SoulX-Podcast，此次SoulX-FlashTalk的開源標誌着其進入開源新階段。後續，Soul將持續聚焦語音對話合成、視覺交互等核心能力提升，並推進開源工作，與全球開發者共建生態，助力“AI+社交”前沿技術發展。