IT時報記者 毛宇
近日,Soul App AI團隊(Soul AI Lab)正式開源實時數字人生成模型SoulX-FlashTalk。該模型為14B參數量級別,是業內首個實現0.87s亞秒級超低延時、32fps高幀率輸出,並支持超長視頻穩定生成的數字人模型。
在實時交互的核心痛點——延遲優化上,SoulX-FlashTalk通過全棧加速引擎的優化,將首幀視頻輸出延時降至0.87s亞秒級,消除了傳統大模型數字人生成的“滯後感”,使14B級大模型數字人具備即時反應能力,可適配視頻通話、直播間互動、智能客服等全場景實時交互需求。

儘管搭載14B參數量的超大DiT模型,該模型推理吞吐量仍達32FPS,高於直播所需的25FPS實時標準,保障了畫面輸出的流暢度。
針對數字人超長視頻生成中易出現的面部不一致、畫質下降等“崩壞”問題,SoulX-FlashTalk採用自糾正雙向蒸餾技術實現突破。
該技術包含兩大核心機制:一是多步回溯自糾正機制,可模擬長序列生成的誤差傳播並實時修正,主動恢復受損特徵;二是完整保留雙向注意力機制,區別於傳統單向依賴模式,使每一幀生成都能同時參考過去與隱含的未來上下文,從根源上壓制身份漂移,確保超長直播中數字人口型、面部細節及背景環境的一致性。
該模型在技術方案上的另一創新的是突破傳統數字人僅能“口型對齊”的局限,實現全身動作交互。其支持音頻驅動的全身肢體動態合成,而非僅對臉部局部重繪;基於14B DiT模型的建模能力,可有效消除手部畸形與運動模糊,精準呈現手部動作細節。
為平衡生成質量與推理速度,SoulX-FlashTalk採用兩階段訓練策略:第一階段通過延遲感知時空適配結合動態長寬比分桶策略微調,使模型適應低分辨率、短幀序列;第二階段採用自糾正雙向蒸餾技術,利用DMD框架壓縮採樣步數並移除無分類器引導(CFG)實現加速,搭配多步回溯自糾正機制與隨機截斷策略,實現高效且顯存友好的優化。
在推理加速方面,團隊針對8-H800節點設計全棧加速引擎,採用混合序列並行、算子級優化、3D VAE並行化及整鏈優化等技術,其中混合序列並行使單步推理速度提升約5倍,FlashAttention3算子優化可減少20%延遲,3D VAE並行化實現5倍加速。
此外,團隊指出,傳統單向模型存在時間不一致、身份漂移等問題,而雙向注意力機制的保留,顯著提升了生成內容的一致性與細節質量。
據悉,Soul AI團隊此前已開源語音合成模型SoulX-Podcast,此次SoulX-FlashTalk的開源標誌着其進入開源新階段。後續,Soul將持續聚焦語音對話合成、視覺交互等核心能力提升,並推進開源工作,與全球開發者共建生態,助力“AI+社交”前沿技術發展。