智能語音技術,為「聲音」帶來更多可能

2023年11月14日15:37:09 科技 1343

讓虛擬歌手為你唱響你想聽的任何歌曲,讓自己的聲音錄入車載導航為你指明一路方向……智能語音技術正在詮釋我們對於聲音的各種天馬行空的構想。

11月2日,著名搖滾樂隊披頭士發佈了一首創作於1970年代的「新單曲」,這首歌曲藉助人工智能技術,將已故歌手約翰·列儂的聲音從四十多年前模糊的錄音中清晰分離出來,與樂隊其他成員完成了一場「跨越時空」的相聚,引得樂迷大呼「感動」。智能語音技術在近年來不斷發展,一步步融進我們的日常生活,未來還能夠給我們帶來怎樣的期待?

智能語音技術,為「聲音」帶來更多可能 - 天天要聞

從生活場景窺見智能語音魅力

在南京新街口熙熙攘攘的街道上,打開導航軟件,「前方十字路口請直行。」與以往不同的是,這次耳邊導航的聲音不是系統語音,而是令人無比熟悉的自己的聲音。從明星、虛擬人物都可以在你耳邊伴你出行,再到錄製自己的聲音自製導航語音包,這可能是廣大民眾對於智能語音技術最具象化的體驗之一。

打開「百度地圖」App的「語音包」功能,可以選擇用3-9句話在5分鐘內快速生成個人語音包,也可以錄製100句話,生成「現場級高品質語音包」,記者體驗發現,錄製的語句越多,生成的語音就更加符合本人的音色,也更加自然,減少了機械感。

百度為實現語音定製,在AI技術領域獨創了風格遷移技術Meitron模型。」百度智能駕駛事業群市場總經理、首席品牌官王翀介紹,該模型能夠根據一個人的聲音特徵,合成出不同的講話風格、情感模式;甚至能夠依靠3-9句話這樣的少量樣本語音,合成符合一個人講話特徵的音庫,從而讓個性化語音合成的定製門檻大大降低,用戶使用起來操作非常簡單、快捷。

智能語音技術,為「聲音」帶來更多可能 - 天天要聞

從導航語音包到車載助手,隨着技術變遷,智能語音給大眾帶來的新體驗也層出不窮。「以前車內主要使用的交互形式是『命令式交互』,就像是語音遙控器,用戶通過語音給車機發出一道指令,它按照你的指令完成任務。但大模型上車後,人車交互的方式會從『命令式』升級到『對話式』,用戶直接表達需求,系統根據它的分析和理解,調動應用資源進行需求滿足。」王翀表示,現在,車輛搭載的智能語音可以幫助用戶完成行程規劃、景點推薦、娛樂陪伴等功能,從限定領域、限定意圖的語音交互,發展成為非限定領域交互的通用人工智能

在聲音中「去蕪存菁」或「無中生有」

伴隨智能語音技術的發展,其應用場景正在不斷豐富,除了在車載場景的應用,智能語音還在智能家居、智能教育、智能可穿戴設備、智能客服、遊戲娛樂等多個領域大展拳腳。根據德勤數據2021年發佈的行業報告,智能語音應用於日常生活和特定場景的需求比例正在不斷擴張,預計2030年消費級應用場景超過710億元,企業級場景將達到740億規模。

上海交通大學計算機系教授、思必馳公司聯合創始人俞凱介紹,目前智能語音技術有幾種典型的落地場景,一是語音識別、語音轉寫為主的應用,比如會議轉寫系統,不僅能將語音記錄下來,轉寫為文字,還能分辨出每一個講者;二是偏語音合成類的應用,比如常見的短視頻配音、車載系統、智能家居系統中的語音播報等;三是對話類機械人,是集合語音識別、自然語言理解、語音合成等技術的綜合系統。

「近幾年,智能語音明顯出現大規模應用的場景,比如大型會議、電視節目上的實時字幕系統,同時,智能硬件的語音交互化成為發展趨勢,在3-5米的遠場場景控制電視、冰箱等智能家電也成為可能。」俞凱說。

在大眾的傳統認知中,會認為語音識別、語音合成等不同的技術路線象徵著不同的技術含量。俞凱表示,不同的技術路線,其實各有需要攻堅克難的「坎兒」,在技術含量上難分伯仲。「以語音識別為例,語音識別是將聲音轉成文字,普通人說話都會包含文字信息,因此這項技術是提取話語中的共性信息。如果是在高噪音、高回聲這樣的複雜場景,語音識別就會變得很複雜。而語音合成,則是將文字轉為聲音,要做到『無中生有』,這項技術的複雜度在於要做到逼真的、個性化的合成,會需要添加文字之外的『弦外之音』,包括情感、說話的風格等等。」俞凱表示。

而學術界、產業界對於各項技術也有各自的判斷標準,對於語音識別,主要看識別文字的錯誤率、說話人的識別的精準度;而對於語音合成,則依靠聽者更為主觀的判斷,往往會小範圍地組織一批測試人員進行主觀聽測打分,最終將分數平均下來,形成1-5分的MOS(平均主觀意見分)分,不僅判斷聲音的自然度,也會判斷合成聲音和採集目標人的相似度。

科研走向產業的爬坡過坎

隨着我國智能語音產業進入規模化發展階段,如何加快關鍵技術研發和產業化,成為業界的關注焦點。「從技術研發到產品落地的過程中,還面臨著諸多挑戰。」俞凱表示,「第一,在技術研發中,在技術測試時使用的固定場景,和真實使用的場景往往是差別巨大的,比如語音識別,在測試場景中,環境干擾較小,而真實場景中可能有多個人同時說話,且數據量更小,情況更加複雜。第二,我們要關注的不僅是模型或系統本身識別和合成的性能,更要關注它的效率,但如果一味追求效率,技術就會受到很多限制,要兼顧效率和性能,也是一種『戴着鐐銬跳舞』。第三,智能語音系統不僅要求單項技術做得好,更要求系統集成能力好,要讓一個對話機械人『聽得懂又說得出』,要涉及語音識別、自然語言理解、語音合成等技術環節,需要連成一個完整的系統,實現平滑的功能輸出,同時更要為將來的大規模應用,在效率和成本上探索更優解。」

促進智能語音技術與產業深度融合,離不開政策支持。近年來,我國系統布局人工智能科技創新,建設18個國家新一代人工智能創新發展試驗區和32個開放創新平台,其中,「語言計算國家新一代人工智能開放創新平台」就由位於蘇州的思必馳科技股份有限公司承建。江蘇作為較早布局人工智能產業的省份,在人工智能基礎設施建設方面也鑄牢了堅實的基底,2022年,長三角首個國產技術算力中心——南京鯤鵬·昇騰人工智能計算中心落戶江北新區,為人工智能企業和創新團隊提供算力支持。

面臨智能語音技術面臨的研發和產業化挑戰,建設良好的產業生態是至關重要的。「如果能將語音交互、合成識別、自然語言處理大模型等各種各樣的應用場景進行推廣,很多問題就能迎刃而解。」

俞凱表示,目前生活中還有很多場景沒有實現人工智能的運用,但應用潛力巨大,「很多具體場景的落地,還需要政府的支持和推動。比如目前政務一網通辦的熱線電話,很多時候都需要等待,如果未來政務系統如果能夠採用大模型配合語音識別、語音合成,技術就能更好、更快地服務千家萬戶。」另外,「如何在法律法規上做好准入,做到創新和安全的平衡,讓創新環境變得更加平滑,未來也是大有可為。」

新華日報·交匯點記者 張宣 楊易臻

科技分類資訊推薦

7款新品!華為這次的瓜,真的太大了! - 天天要聞

7款新品!華為這次的瓜,真的太大了!

時間已經來到了5月份,距離華為新品發佈會的召開已經正式進入倒計時。華為官方之前就已經宣布,在5月份會發佈新品。比如華為鴻蒙PC,還有尊界S800。那麼,5月份的華為新品發佈會,到底會發佈哪幾款新品呢?在這裡,毒哥和大家盤點一下。第一款新品,
華為Mate80Pro如果長成這樣,肯定再次賣爆! - 天天要聞

華為Mate80Pro如果長成這樣,肯定再次賣爆!

作為華為年度壓軸大戲,華為Mate80的消息也越來越多了。有網友投稿了一組華為Mate80Pro的渲染設計圖,想讓毒哥和大家分享一下。毒哥看了之後,覺得這個創意設計確實非常哦漂亮。那麼,在這裡毒哥結合渲染設計圖,和大家匯總一下目前華為Mat
769元!華為這款1TB新品,是來搗亂的嗎? - 天天要聞

769元!華為這款1TB新品,是來搗亂的嗎?

前幾天,毒哥給大家介紹了華為新上架的一款固態硬盤嘛。這款固態硬盤,全稱叫做華為坤靈eKitStor Xtreme 200 SSD,售價為599元。華為這款固態硬盤的優勢也很明顯,M.2 2280的外形設計,兼容性很好。支持NVMe 2.0協
5月又一款新機官宣:5月8日,正式發佈 - 天天要聞

5月又一款新機官宣:5月8日,正式發佈

隨着新機市場不斷更新,今年所發佈的新機大部分圍繞着影像和遊戲方面,並且湧現出不少核心技術,主要是提升定向性能。影像核心有影像系統、影像芯片、AI影像功能等,而遊戲同樣推出遊戲芯片、性能引擎、獨顯芯片等,向著專業級別發展,提升新機競爭力。
守護袁昆:企業互聯網營銷推廣有什麼絕招? - 天天要聞

守護袁昆:企業互聯網營銷推廣有什麼絕招?

(文/守護袁昆)經常有朋友問到互聯網營銷推廣有什麼絕招,現在做互聯網營銷有什麼新技巧和新渠道。每次遇到這樣的問題,解釋的太多最後得到一個反饋結果:有絕招不願意公開。互聯網營銷推廣有技巧和方法嗎?這是肯定的。互聯網營銷推廣有絕招嗎?什麼才算絕
假期 我選擇在家當「賽博熊貓飼養員」 - 天天要聞

假期 我選擇在家當「賽博熊貓飼養員」

五一朋友圈攝影大賽已經開賽,本「前參賽選手」選擇提前退賽。與其去景區表演「人類遷徙」,不如宅家干點別的。玩手機、打遊戲、看電影?格局打開,我選擇在家當「賽博熊貓飼養員」。宅家往沙發上一躺,身邊還有隻圓滾滾的電子熊貓24小時待命,治癒值直接拉
這個五一,用長虹熊貓AI TV rua熊貓可太香了! - 天天要聞

這個五一,用長虹熊貓AI TV rua熊貓可太香了!

五一正確的打開方式:在家沉浸式吸熊貓,這可太香了!長虹電視不久前發佈了新品長虹熊貓AI TV,本熊貓愛好者正好想買新電視,美美下單。沒想到,五一派上了大用場。不得不說,長虹真可以,我願稱它為「沉浸式熊貓周邊」。
小米又一款頂配Ultra終於來了,有點刺激啊 - 天天要聞

小米又一款頂配Ultra終於來了,有點刺激啊

最近機哥經常聊到,下半年會出很多旗艦小平板。 9 英寸不到可以一手掌握的大小,對於遊戲黨來說,確實比常規大屏舒服太多。 但有的機友覺得,小平板看視頻不得勁,問機哥有沒有更大更猛的....