智能語音技術,為“聲音”帶來更多可能

讓虛擬歌手為你唱響你想聽的任何歌曲,讓自己的聲音錄入車載導航為你指明一路方向……智能語音技術正在詮釋我們對於聲音的各種天馬行空的構想。

11月2日,著名搖滾樂隊披頭士發布了一首創作於1970年代的“新單曲”,這首歌曲藉助人工智能技術,將已故歌手約翰·列儂的聲音從四十多年前模糊的錄音中清晰分離出來,與樂隊其他成員完成了一場“跨越時空”的相聚,引得樂迷大呼“感動”。智能語音技術在近年來不斷發展,一步步融進我們的日常生活,未來還能夠給我們帶來怎樣的期待?

從生活場景窺見智能語音魅力

在南京新街口熙熙攘攘的街道上,打開導航軟件,“前方十字路口請直行。”與以往不同的是,這次耳邊導航的聲音不是系統語音,而是令人無比熟悉的自己的聲音。從明星、虛擬人物都可以在你耳邊伴你出行,再到錄製自己的聲音自製導航語音包,這可能是廣大民眾對於智能語音技術最具象化的體驗之一。

打開“百度地圖”App的“語音包”功能,可以選擇用3-9句話在5分鐘內快速生成個人語音包,也可以錄製100句話,生成“現場級高品質語音包”,記者體驗發現,錄製的語句越多,生成的語音就更加符合本人的音色,也更加自然,減少了機械感。

百度為實現語音定製,在AI技術領域獨創了風格遷移技術Meitron模型。”百度智能駕駛事業群市場總經理、首席品牌官王翀介紹,該模型能夠根據一個人的聲音特徵,合成出不同的講話風格、情感模式;甚至能夠依靠3-9句話這樣的少量樣本語音,合成符合一個人講話特徵的音庫,從而讓個性化語音合成的定製門檻大大降低,用戶使用起來操作非常簡單、快捷。

從導航語音包到車載助手,隨着技術變遷,智能語音給大眾帶來的新體驗也層出不窮。“以前車內主要使用的交互形式是‘命令式交互’,就像是語音遙控器,用戶通過語音給車機發出一道指令,它按照你的指令完成任務。但大模型上車後,人車交互的方式會從‘命令式’升級到‘對話式’,用戶直接表達需求,系統根據它的分析和理解,調動應用資源進行需求滿足。”王翀表示,現在,車輛搭載的智能語音可以幫助用戶完成行程規劃、景點推薦、娛樂陪伴等功能,從限定領域、限定意圖的語音交互,發展成為非限定領域交互的通用人工智能

在聲音中“去蕪存菁”或“無中生有”

伴隨智能語音技術的發展,其應用場景正在不斷豐富,除了在車載場景的應用,智能語音還在智能家居、智能教育、智能可穿戴設備、智能客服、遊戲娛樂等多個領域大展拳腳。根據德勤數據2021年發布的行業報告,智能語音應用於日常生活和特定場景的需求比例正在不斷擴張,預計2030年消費級應用場景超過710億元,企業級場景將達到740億規模。

上海交通大學計算機系教授、思必馳公司聯合創始人俞凱介紹,目前智能語音技術有幾種典型的落地場景,一是語音識別、語音轉寫為主的應用,比如會議轉寫系統,不僅能將語音記錄下來,轉寫為文字,還能分辨出每一個講者;二是偏語音合成類的應用,比如常見的短視頻配音、車載系統、智能家居系統中的語音播報等;三是對話類機器人,是集合語音識別、自然語言理解、語音合成等技術的綜合系統。

“近幾年,智能語音明顯出現大規模應用的場景,比如大型會議、電視節目上的實時字幕系統,同時,智能硬件的語音交互化成為發展趨勢,在3-5米的遠場場景控制電視、冰箱等智能家電也成為可能。”俞凱說。

在大眾的傳統認知中,會認為語音識別、語音合成等不同的技術路線象徵著不同的技術含量。俞凱表示,不同的技術路線,其實各有需要攻堅克難的“坎兒”,在技術含量上難分伯仲。“以語音識別為例,語音識別是將聲音轉成文字,普通人說話都會包含文字信息,因此這項技術是提取話語中的共性信息。如果是在高噪音、高回聲這樣的複雜場景,語音識別就會變得很複雜。而語音合成,則是將文字轉為聲音,要做到‘無中生有’,這項技術的複雜度在於要做到逼真的、個性化的合成,會需要添加文字之外的‘弦外之音’,包括情感、說話的風格等等。”俞凱表示。

而學術界、產業界對於各項技術也有各自的判斷標準,對於語音識別,主要看識別文字的錯誤率、說話人的識別的精準度;而對於語音合成,則依靠聽者更為主觀的判斷,往往會小範圍地組織一批測試人員進行主觀聽測打分,最終將分數平均下來,形成1-5分的MOS(平均主觀意見分)分,不僅判斷聲音的自然度,也會判斷合成聲音和採集目標人的相似度。

科研走向產業的爬坡過坎

隨着我國智能語音產業進入規模化發展階段,如何加快關鍵技術研發和產業化,成為業界的關注焦點。“從技術研發到產品落地的過程中,還面臨著諸多挑戰。”俞凱表示,“第一,在技術研發中,在技術測試時使用的固定場景,和真實使用的場景往往是差別巨大的,比如語音識別,在測試場景中,環境干擾較小,而真實場景中可能有多個人同時說話,且數據量更小,情況更加複雜。第二,我們要關注的不僅是模型或系統本身識別和合成的性能,更要關注它的效率,但如果一味追求效率,技術就會受到很多限制,要兼顧效率和性能,也是一種‘戴着鐐銬跳舞’。第三,智能語音系統不僅要求單項技術做得好,更要求系統集成能力好,要讓一個對話機器人‘聽得懂又說得出’,要涉及語音識別、自然語言理解、語音合成等技術環節,需要連成一個完整的系統,實現平滑的功能輸出,同時更要為將來的大規模應用,在效率和成本上探索更優解。”

促進智能語音技術與產業深度融合,離不開政策支持。近年來,我國系統布局人工智能科技創新,建設18個國家新一代人工智能創新發展試驗區和32個開放創新平台,其中,“語言計算國家新一代人工智能開放創新平台”就由位於蘇州的思必馳科技股份有限公司承建。江蘇作為較早布局人工智能產業的省份,在人工智能基礎設施建設方面也鑄牢了堅實的基底,2022年,長三角首個國產技術算力中心——南京鯤鵬·昇騰人工智能計算中心落戶江北新區,為人工智能企業和創新團隊提供算力支持。

面臨智能語音技術面臨的研發和產業化挑戰,建設良好的產業生態是至關重要的。“如果能將語音交互、合成識別、自然語言處理大模型等各種各樣的應用場景進行推廣,很多問題就能迎刃而解。”

俞凱表示,目前生活中還有很多場景沒有實現人工智能的運用,但應用潛力巨大,“很多具體場景的落地,還需要政府的支持和推動。比如目前政務一網通辦的熱線電話,很多時候都需要等待,如果未來政務系統如果能夠採用大模型配合語音識別、語音合成,技術就能更好、更快地服務千家萬戶。”另外,“如何在法律法規上做好准入,做到創新和安全的平衡,讓創新環境變得更加平滑,未來也是大有可為。”

新華日報·交匯點記者 張宣 楊易臻