智能語音技術,為「聲音」帶來更多可能

2023年11月14日15:37:09 科技 1343

讓虛擬歌手為你唱響你想聽的任何歌曲,讓自己的聲音錄入車載導航為你指明一路方向……智能語音技術正在詮釋我們對於聲音的各種天馬行空的構想。

11月2日,著名搖滾樂隊披頭士發布了一首創作於1970年代的「新單曲」,這首歌曲藉助人工智慧技術,將已故歌手約翰·列儂的聲音從四十多年前模糊的錄音中清晰分離出來,與樂隊其他成員完成了一場「跨越時空」的相聚,引得樂迷大呼「感動」。智能語音技術在近年來不斷發展,一步步融進我們的日常生活,未來還能夠給我們帶來怎樣的期待?

智能語音技術,為「聲音」帶來更多可能 - 天天要聞

從生活場景窺見智能語音魅力

在南京新街口熙熙攘攘的街道上,打開導航軟體,「前方十字路口請直行。」與以往不同的是,這次耳邊導航的聲音不是系統語音,而是令人無比熟悉的自己的聲音。從明星、虛擬人物都可以在你耳邊伴你出行,再到錄製自己的聲音自製導航語音包,這可能是廣大民眾對於智能語音技術最具象化的體驗之一。

打開「百度地圖」App的「語音包」功能,可以選擇用3-9句話在5分鐘內快速生成個人語音包,也可以錄製100句話,生成「現場級高品質語音包」,記者體驗發現,錄製的語句越多,生成的語音就更加符合本人的音色,也更加自然,減少了機械感。

百度為實現語音定製,在AI技術領域獨創了風格遷移技術Meitron模型。」百度智能駕駛事業群市場總經理、首席品牌官王翀介紹,該模型能夠根據一個人的聲音特徵,合成出不同的講話風格、情感模式;甚至能夠依靠3-9句話這樣的少量樣本語音,合成符合一個人講話特徵的音庫,從而讓個性化語音合成的定製門檻大大降低,用戶使用起來操作非常簡單、快捷。

智能語音技術,為「聲音」帶來更多可能 - 天天要聞

從導航語音包到車載助手,隨著技術變遷,智能語音給大眾帶來的新體驗也層出不窮。「以前車內主要使用的交互形式是『命令式交互』,就像是語音遙控器,用戶通過語音給車機發出一道指令,它按照你的指令完成任務。但大模型上車後,人車交互的方式會從『命令式』升級到『對話式』,用戶直接表達需求,系統根據它的分析和理解,調動應用資源進行需求滿足。」王翀表示,現在,車輛搭載的智能語音可以幫助用戶完成行程規劃、景點推薦、娛樂陪伴等功能,從限定領域、限定意圖的語音交互,發展成為非限定領域交互的通用人工智慧

在聲音中「去蕪存菁」或「無中生有」

伴隨智能語音技術的發展,其應用場景正在不斷豐富,除了在車載場景的應用,智能語音還在智能家居、智能教育、智能可穿戴設備、智能客服、遊戲娛樂等多個領域大展拳腳。根據德勤數據2021年發布的行業報告,智能語音應用於日常生活和特定場景的需求比例正在不斷擴張,預計2030年消費級應用場景超過710億元,企業級場景將達到740億規模。

上海交通大學計算機系教授、思必馳公司聯合創始人俞凱介紹,目前智能語音技術有幾種典型的落地場景,一是語音識別、語音轉寫為主的應用,比如會議轉寫系統,不僅能將語音記錄下來,轉寫為文字,還能分辨出每一個講者;二是偏語音合成類的應用,比如常見的短視頻配音、車載系統、智能家居系統中的語音播報等;三是對話類機器人,是集合語音識別、自然語言理解、語音合成等技術的綜合系統。

「近幾年,智能語音明顯出現大規模應用的場景,比如大型會議、電視節目上的實時字幕系統,同時,智能硬體的語音交互化成為發展趨勢,在3-5米的遠場場景控制電視、冰箱等智能家電也成為可能。」俞凱說。

在大眾的傳統認知中,會認為語音識別、語音合成等不同的技術路線象徵著不同的技術含量。俞凱表示,不同的技術路線,其實各有需要攻堅克難的「坎兒」,在技術含量上難分伯仲。「以語音識別為例,語音識別是將聲音轉成文字,普通人說話都會包含文字信息,因此這項技術是提取話語中的共性信息。如果是在高噪音、高回聲這樣的複雜場景,語音識別就會變得很複雜。而語音合成,則是將文字轉為聲音,要做到『無中生有』,這項技術的複雜度在於要做到逼真的、個性化的合成,會需要添加文字之外的『弦外之音』,包括情感、說話的風格等等。」俞凱表示。

而學術界、產業界對於各項技術也有各自的判斷標準,對於語音識別,主要看識別文字的錯誤率、說話人的識別的精準度;而對於語音合成,則依靠聽者更為主觀的判斷,往往會小範圍地組織一批測試人員進行主觀聽測打分,最終將分數平均下來,形成1-5分的MOS(平均主觀意見分)分,不僅判斷聲音的自然度,也會判斷合成聲音和採集目標人的相似度。

科研走向產業的爬坡過坎

隨著我國智能語音產業進入規模化發展階段,如何加快關鍵技術研發和產業化,成為業界的關注焦點。「從技術研發到產品落地的過程中,還面臨著諸多挑戰。」俞凱表示,「第一,在技術研發中,在技術測試時使用的固定場景,和真實使用的場景往往是差別巨大的,比如語音識別,在測試場景中,環境干擾較小,而真實場景中可能有多個人同時說話,且數據量更小,情況更加複雜。第二,我們要關注的不僅是模型或系統本身識別和合成的性能,更要關注它的效率,但如果一味追求效率,技術就會受到很多限制,要兼顧效率和性能,也是一種『戴著鐐銬跳舞』。第三,智能語音系統不僅要求單項技術做得好,更要求系統集成能力好,要讓一個對話機器人『聽得懂又說得出』,要涉及語音識別、自然語言理解、語音合成等技術環節,需要連成一個完整的系統,實現平滑的功能輸出,同時更要為將來的大規模應用,在效率和成本上探索更優解。」

促進智能語音技術與產業深度融合,離不開政策支持。近年來,我國系統布局人工智慧科技創新,建設18個國家新一代人工智慧創新發展試驗區和32個開放創新平台,其中,「語言計算國家新一代人工智慧開放創新平台」就由位於蘇州的思必馳科技股份有限公司承建。江蘇作為較早布局人工智慧產業的省份,在人工智慧基礎設施建設方面也鑄牢了堅實的基底,2022年,長三角首個國產技術算力中心——南京鯤鵬·昇騰人工智慧計算中心落戶江北新區,為人工智慧企業和創新團隊提供算力支持。

面臨智能語音技術面臨的研發和產業化挑戰,建設良好的產業生態是至關重要的。「如果能將語音交互、合成識別、自然語言處理大模型等各種各樣的應用場景進行推廣,很多問題就能迎刃而解。」

俞凱表示,目前生活中還有很多場景沒有實現人工智慧的運用,但應用潛力巨大,「很多具體場景的落地,還需要政府的支持和推動。比如目前政務一網通辦的熱線電話,很多時候都需要等待,如果未來政務系統如果能夠採用大模型配合語音識別、語音合成,技術就能更好、更快地服務千家萬戶。」另外,「如何在法律法規上做好准入,做到創新和安全的平衡,讓創新環境變得更加平滑,未來也是大有可為。」

新華日報·交匯點記者 張宣 楊易臻

科技分類資訊推薦

長安汽車攜三大品牌閃耀重慶車展 數智成果領航未來出行生態 - 天天要聞

長安汽車攜三大品牌閃耀重慶車展 數智成果領航未來出行生態

6月7日,第二十七屆重慶國際汽車展覽會盛大開幕。作為重慶的龍頭車企,長安汽車以「智慧全球 共贏未來」為主題,攜長安、深藍、阿維塔三大品牌及長安福特、長安馬自達共同組成N8長安汽車專館並舉行了精彩的開館儀式。旗下熱門車型、數智成果及未來出行生態展品齊耀山城,形成
起亞品牌電影《所向由心》溫情上線 - 天天要聞

起亞品牌電影《所向由心》溫情上線

當鄉村教師帶著孩子們踏上更廣闊的追夢之旅,當不曾將愛宣之於口的父親用自己的愛車默默在背後支持女兒……那些有關愛與夢想的平凡瞬間,無不在詮釋著:真正的前行,從不是隨波逐流遠方的霓虹,而是堅定忠於內心的選擇。
中國越野技能分級標準,長城汽車「環塔歡樂周」啟幕 - 天天要聞

中國越野技能分級標準,長城汽車「環塔歡樂周」啟幕

6月2日,長城汽車「環塔歡樂周」活動在新疆喀什燃擎啟幕。本次環塔歡樂周,也是2025年環塔拉力賽完美落幕的激情接力和熱愛延續。今年的環塔賽場,長城車隊成績出色,其中長城坦克Hi4車隊斬獲廠商隊杯T2.E量產新能源組冠軍,長城哈弗車隊二代H9柴油版、猛龍燃油版,
三車齊發,東風品牌登陸粵港澳大灣區車展 - 天天要聞

三車齊發,東風品牌登陸粵港澳大灣區車展

5月31日,2025(第二十九屆)粵港澳大灣區車展暨第二屆中國新能源汽車科技展在深圳國際會展中心(寶安)拉開帷幕,東風乘用車攜東風風神、東風奕派、東風納米三大自主新能源品牌,以「科技東風 智繪灣區」為主題組團亮相N6號館東風品牌展台,不僅帶來了15款展車,還帶
比亞迪王傳福: 我們絕不拉踩同行,這是原則 - 天天要聞

比亞迪王傳福: 我們絕不拉踩同行,這是原則

2025年6月6日,比亞迪2024年度股東大會在其深圳總部如期召開。活動現場,比亞迪集團董事長兼總裁王傳福及高管團隊就公司核心戰略和未來發展進行深入討論,並針對近期行業普遍關注的智能駕駛、國車出海等話題一一解答股東疑問。
新款零跑C16預售16.98萬起,這絕對是一個煙霧彈 - 天天要聞

新款零跑C16預售16.98萬起,這絕對是一個煙霧彈

零跑汽車的理念就是要做「更理想的家」,目標已經很清晰明確了吧,而且在新能源這條賽道上,超高性價比就是銷量密碼,可能你要的高級駕駛質感沒有,但是對於一台新能源車的主體功能性訴求,零跑基本上都能以最低的價格滿足你。
長安汽車重慶車展包館秀肌肉,殲-10C驚艷山城! - 天天要聞

長安汽車重慶車展包館秀肌肉,殲-10C驚艷山城!

6月7日,第二十七屆重慶國際汽車展覽會盛大開幕。作為重慶的龍頭車企,長安汽車以「智慧全球 共贏未來」為主題,攜長安、深藍、阿維塔三大品牌及長安福特、長安馬自達共同組成N8長安汽車專館並舉行了精彩的開館儀式。旗下熱門車型、數智成果及未來出行生態展品齊耀山城,形成
2025款捷途山海T1重慶車展亮相!軸距達到2810毫米 - 天天要聞

2025款捷途山海T1重慶車展亮相!軸距達到2810毫米

在2025年重慶車展上,捷途山海T1以煥然一新的姿態閃耀登場,其獨特的設計、豐富的配置以及強大的動力系統,吸引了眾多車迷和媒體的目光。作為一款備受關注的緊湊型SUV,2025款捷途山海T1不僅延續了品牌的家族化設計風格,更在多個方面進行了升級和優化,展現出了更