國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷

2024年04月11日20:25:05 科技 1311

國內首個音樂ChatGPT來了!提前試用「天工SkyMusic」後,整個編輯部暴風式哭泣:它改編的周杰倫鳳凰傳奇簡直封神。團隊選擇了一條少有人走的路,他們賭贏了:比OpenAI提前押中了Sora架構,並且首次在業內破紀錄公開技術圖。

最近幾周的震撼,是Suno給的。

重磅升級的Suno V3,不斷有刷屏全網的「神曲」誕生,讓全世界為之瘋狂。

誰能想到,音樂的ChatGPT時刻,竟然就這麼來了。

圈內所有人都在討論:這一波,音樂產業沒準要被AI一鍋端了。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

國內首款音樂AI來了!

這不,就在上周,國內首款AI音樂生成大模型「天工SkyMusic」也正式開啟內測了!

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

各路「大神」已經開始在首頁秀創作了

沒有靈感怎麼辦?產品頁面甚至為你配備好了靈感話題。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

試玩一番後,小編再次體會了一遍,當初Suno給人的那種驚艷感。

初體驗:一秒夢回80年代,人聲以假亂真

比如這首《古韻悠長》,清亮的女聲一開口,瞬間夢回80年代,是我媽跳廣場舞的那個feel了。

這首《愛是幸福》,更是好聽到讓小編驚掉下巴。旋律朗朗上口,歌詞雋永又令人無限回味,細聽有一股蔡健雅的味道。

除了歌曲整體的音樂品質非常高,極具欣賞價值之外,「天工SkyMusic」的最大亮點之一,就是它清晰逼真的人聲。

要知道,人聲合成,是AI音樂生成中最重要、最能體現生成效果和品質的維度。

而「天工SkyMusic」的AI人聲合成,能夠產生中文水平極高、發音清晰的歌聲,展現出卓越的音頻質量和逼真的演唱效果,已經達到業內SOTA水平!

要知道,在這方面,「天工SkyMusic」可是爆殺了幾個外來大模型。他們在中文發音上,簡直是慘不忍睹沒眼看。

比如Suno的這首《宮保雞丁》,唱起中文歌來也是老外說中文那味兒。

Suno的粵語七里香》,發音也很不標準。

可見,要想做中文歌,還得看咱自己的音樂大模型!

可控性,音樂人的專業指標

接下來,我們就得上一些專業指標了。

歌詞段落

一首歌為什麼能夠爆紅全網,火遍大江南北?

從流行音樂的角度,它需要有強烈的旋律、鮮明的節奏、多彩的和聲、激昂的情感。

因此,想要做出一首抓耳的流行歌,不同歌詞段落間微妙的情緒變化,就是一個很關鍵的點。

而「天工SkyMusic」在這方面,就格外擅長——

它能通過歌詞來控制歌曲,體現出主歌和副歌、前奏和主歌的段落差異。

比如這首《龍行龘龘》,開頭悠揚的女聲民歌和激越昂揚的男女聲對唱部分形成鮮明對比,一首大氣磅礴的國風歌曲渾然天成。

風格

在風格控制上,它可以參考指定音頻,學習特定的曲風。

它創作的這首《飛翔鳥》,聽起來非常像學習了許巍民謠風。

自動前奏、間奏、尾奏

音樂製作人時常面臨的一個問題是,已經有了合適的歌曲,但缺少前奏和尾奏,絞盡腦汁也找不到合適的。

這時候,就可以找「天工SkyMusic」幫忙了。它補充完整的這首《Guitar》,慵懶隨意的唱腔搭配恰到好處,聽起來非常治癒。

和聲

根據歌詞描述,「天工SkyMusic」給這首《水調歌頭》自動添加上了和聲。

幾個男聲的和聲和主唱的音色十分契合,再結合節奏鮮明的鼓點,一首磅礴大氣的國風《水調歌頭》就這樣誕生了。

歌詞技巧

而且,模型還可以參考音頻的特徵,智能地學習演唱技巧。

比如顫音版的《失落》。

歌劇版的《我的滑板鞋》。

王者榮耀、周杰倫、鳳凰傳奇,你想要的它都有

時下的流行icon,怎麼和流行音樂融合?如果找對了叩擊大眾心旋的那個點,抖音神曲並不是一件難事。

「天工SkyMusic」,讓這一切都成為可能。

輸入帶有結構的歌詞+參考音頻,就能把自己玩王者榮耀的體驗寫出一首歌了。

我今天打開王者榮耀選趙雲

開局後我走到哪裡都被爆殺

我真的氣死了只能躲在草叢

或者,我們還可以根據已有的歌詞進行二創。

比如輸入《彩虹》的歌詞,再錄一頓《最長的電影》主歌和副歌30s的音頻做參考,兩首歌「生出」的一首新歌就誕生了:

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

聽得出來,部分旋律還是有可圈可點之處的。

再用蕾哈娜的《Diamonds》的詞,配上霉霉維密秀震撼神曲《See You Again》試試?

出來的「混血」女聲英文歌是這樣的:

唱腔控音極好,高低音轉換流暢,副歌的多處轉音頗為神奇,值得細品。在人類作曲家中似乎很少聽到這麼「鬼才」的旋律組合,這就是來自AI的巧思吧。

而且非常神奇的是,歌曲的唱腔忽然就變得像蕾哈娜了,跟霉霉的嗓音並不像。

接下來,讓我們來爆改一下鳳凰傳奇的《最炫民族風》,不過跟剛才不同的是,這次輸入的都是原歌詞和原曲,讓它自我「整改」一下。

出來的,是另一種感覺的廣場舞神曲。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

不僅如此,我們甚至還可以把突發的熱點事件,分分鐘變成一首爆款潛力股。

說唱版熱梗「高速運轉的機械」了解一下:

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

那麼,「天工SkyMusic」是怎麼做到如此驚艷的效果呢?

為此,我們最近特地找到初創團隊的大佬聊了聊。

少有人走的路

符號 or 大模型?破釜沉舟

相信大家心裡都有一個疑問:怎麼以前沒有好聽的音樂AI,最近才扎堆冒出來呢?

當然是因為——它非常難!

好的AI音樂難做,一個原因是此前主流的符號派(MIDI)技術效果太差;還有一個原因,就是過往的音樂AI基本都在無人聲的BGM領域,有人聲的Song要麼做不出來,要麼效果也是很差。

一首歌有人聲和無人聲的吸引力程度差別有多大,不言自明。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

具體來說,AI音樂生成有兩大主要技術路徑,符號派、大模型派。 符號派以MIDI為主流。

MIDI全稱Musical Instrument Digital Interface,本身不包含音頻文件,而是記錄音樂演奏的指令,比如哪個音符被播放、音量是多少、音符持續的時間等。

因為不能直接生成歌曲,後期還需加上樂器、旋律、音色、人聲。

第二條大模型音樂音頻生成路線,能夠直接學習並生成音頻波形,樂器、人聲、旋律、音量、音符都是一體化端到端生成。

符號(MIDI)方向的研究,學界有很多,然而效果卻很差;大模型音頻方向則極難,做的極少。

選哪個?

立項之初,公司內部就面臨著這一艱難的選擇。前者效果不好,後者則極有可能會做不出來,整個項目雞飛蛋打。

最後,研發團隊經過投票,一致決定選擇音頻方案。大家公認:寧願冒著巨大風險,也要做出真正好的AI音樂。

幸運的是,他們成功了。

注意,下面你看到的這張圖,可謂價值連城。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

SkyMusic三大核心模塊:Encoder-DiT-Decoder

因為,目前市面上沒有任何可用的AI音樂大模型企業,公開過自己的技術路徑,包括Suno。

ChatGPT出來後,LLM百花齊放,這是因為有無數開源項目可以參考。

但音頻路線+人聲Song路線,沒有任何公開資料可參考,天工砸進去數不清的研發資源和算力演算法投入,才摸索出了上面這張極其寶貴的路徑圖。

該踩的坑,團隊都已經提前踩過了,而如今這個可復現的方案,也被他們慷慨貢獻了出來。

而且巧合的是,雖然最終的框架與Sora類似,但其實在研發的時候Sora還沒誕生呢。

只能說,英雄所見略同。

談一談音樂

在類Sora架構中,Large-scale Transformer負責譜曲,通過學習Music Patches的上下文依賴關係來控制音樂結構和風格。

這樣,就完全實現了風格的掌控。

而Diffusion Transformer則負責演唱,也即聲音的生成和渲染,通過LDM技術,將Music Patches轉換為高質量音頻輸出,因此音樂具有清晰的風格特徵和音質表現。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

當AI開始學習情感

而如果我們仔細聽上面的作品,就會感覺到:「天工SkyMusic」對於音樂情感的捕捉極為細膩。

它生成的音樂,彷彿有著豐富的情感脈絡,和一種動態的變化。

正是這種對於情感表達的強化,讓它的作品能夠根據歌詞和音樂元素,生成不同情感氛圍的作品。

相比於以往側重於智力提升的AGI模型,它的「情感AGI」路線,則顯得尤為珍稀和寶貴。

因為,它不僅是一個聰明的AI,還是一個努力去理解和模擬人類情感、用音樂去表達情感的AI。

跟市面上那些側重旋律創作、學習大量樂段的旋律,或是深入和弦、節奏、編曲層次的AI相比,「天工SkyMusic」的情感維度,也成為它在行業中的差異化亮點。

比Suno和Stable Audio 2.0強在哪兒

與市面上Suno等AI音樂工具相比,AI音樂生成大模型「天工SkyMusic」有著獨特的優勢。

背後採用的是基於MoE架構的4000億級參數多模態超級大模型「天工3.0」。

在業界領先的邏輯推理、語義理解和泛化能力的加持下,「天工SkyMusic」的響應速度和訓練推理效率,也得到了極大地提升。

首先在中文上,「天工SkyMusic」的AI人聲合成極為優秀,發音清晰、無異響。

特別是,得益於在中文環境中的深度優化,其在中文演唱效果上,極大地符合了中國市場的需求。

其次,在音樂風格上,「天工SkyMusic」更略勝一籌。

它能夠通過歌詞控制情緒變化,並實現如顫音、歌劇、吟唱等多種歌唱技巧,使生成的音樂作品,情感更加豐富且貼合情境。

此外,「天工SkyMusic」還支持創作說唱、民謠、放克、古風、電子等多種音樂風格,用戶可以根據個人喜好定製音樂風格。

不過,不僅僅是「天工SkyMusic」,包括Suno等AI工具,還距以假亂真的專家音樂消費水平還相對較遠。

因此,這也是崑崙萬維決定將其技術架構公開,希望業界一同推動這一領域發展的原因。

AI不會取代音樂人

「天工SkyMusic」、Suno之外,近幾天另一個堪稱「Sora版」的神秘音樂模型udio,引來全網關注。

拿到測試資格的網友,紛紛表示udio音樂生成強太多,甚至感受到了AGI的力量。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

難道AI已經真的到了,能夠取代人類音樂歌手的地步了嗎?

原創,真的已經不再重要?

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

顯然都不是。

AI音樂生成技術的快速迭代,無疑正在改變音樂創作的方式和體驗。

但,這並不意味著AI會完全取代音樂人,或讓原創變得不再重要。

相反,AI音樂生成技術與音樂創作者,可以相輔相成。

一方面,強大的AI可以降低音樂創作的門檻。

即便是非專業人士,也擁有機會接觸音樂,創作出有一定水準的音樂作品。

這將極大地拓展音樂創作者群體,激發多元的音樂形態和跨界合作。

另一方面,如「天工SkyMusic」這樣的工具可以賦能音樂創作者。

它們可以通用簡化旋律原型生成、提供創意靈感、協助製作高質量伴奏等創作環節,幫助音樂人提高創作效率。

崑崙萬維董事長兼CEO方漢曾在採訪中說過這麼一句話:

在內容生產行業,有這麼一條規律:如果內容製作門檻降低1倍,那麼內容創作者的創作數量將會增加10倍。

因此,當音樂創作門檻降低之後,就會有更多的人成為「原創音樂人」。

總而言之,若以靜態的角度看待行業,許多人會認為,AI音樂的出現「切走了音樂行業的蛋糕」。

但動態地來看,技術的進步能夠讓音樂市場越來越大,行業蓬勃發展,孕育出全新的內容生態、音樂業態。

比如,按需定製音樂服務、在線音樂創作工具訂閱等新的商業模式,可以為音樂產業帶來新的消費增長。

當前,國內許多音樂平台做了一個Suno AI製作音樂的專欄,解鎖了新的流量密碼。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

而面向教育,AI音樂創作可以幫助我們快速感知音樂創作原理,嘗試多種音樂風格創作,為音樂產業培養孵化新一代人才。

讓每個人更好表達自我

更宏觀地講,除了圖片、視頻、AI音樂也是通向情感AGI路上的一個重要的組成部分。

音樂,不僅是一種藝術形式,更是情感交流和表達的方式。

而且,音樂更能觸及人的情感深處,是情感表達的重要媒介。

針對AGI開展的研究中,許多團隊都將重點放在模型智力的擴展與增強上。

而真正的AGI的終極目標是——更像人,兼具感性理性、推理邏輯思維,情感理解等能力。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

正是意識到了這點,一直將情感AGI視為重要方向的崑崙萬維,希望攻克音樂AI這一大技術難題。

在研發「天工SkyMusic」過程中,研究團隊積極探索音頻內容,尤其是音樂對於情感理解與表達的獨特優勢。

他們不僅關注音樂作品的譜曲、編排和演唱等技術層面,更強調模型對音樂情感色彩的感知和再現能力。

「天工SkyMusic」在情感表達的準確性、多樣性,以及歌詞段落情緒變化的敏感捕捉,印證了崑崙萬維在情感AGI上取得實質性進展。

當然,除了AI音樂生成,AI寫作、繪畫、動畫等領域,崑崙萬維也在探索其在創作工具中的應用。

國內首款AI音樂大模型一曲封神!爆改霉霉周杰倫效果驚艷 - 天天要聞

在情感AGI這條主線上,他們希望通過自研技術,幫助創作者更好地通過AI技術表達和傳遞情感內涵。

未來三十年,會有越來越多的人表達自我,人類社會的自我表達要翻1000倍。

崑崙萬維接下來所做的,便是讓AI降低人類創作門檻,讓每個人都能充分地表達自我。

科技分類資訊推薦

鈦媒體獨家|騰訊計劃投資月之暗面,楊植麟最新發言:今天人類對AI信任還不夠 - 天天要聞

鈦媒體獨家|騰訊計劃投資月之暗面,楊植麟最新發言:今天人類對AI信任還不夠

(圖片來源:鈦媒體App編輯拍攝)5月20日消息,鈦媒體App獨家獲悉,騰訊公司正考慮投資大模型初創公司月之暗面(Moonshot AI),從而為騰訊與kimi智能助手之間更深層次合作鋪平道路。鈦媒體App就此事向騰訊、月之暗面兩家公司尋求回應。但截至發稿前,騰訊、月之暗面都不予置評。值得一提的是,在此之前,月之暗面已從阿里...
一圖看懂iQOO Pad2系列平板:天璣9300+、第三代驍龍8s雙全球首發 - 天天要聞

一圖看懂iQOO Pad2系列平板:天璣9300+、第三代驍龍8s雙全球首發

快科技5月20日消息,今日,iQOO官方公布了iQOO Pad2 Pro、iQOO Pad2兩款平板電腦的核心配置。據了解,iQOO Pad2 Pro、iQOO Pad2將分別首發搭載聯發科天璣9300+處理器和高通第三代驍龍8s處理器。iQOO Pad2 Pro正面採用13英寸電競巨幕,解析度為3.1K,支持144Hz刷新率,擁有900nit最高亮度,通過
特斯拉開始推送 FSD v12.4 更新:告別「扶方向盤提醒」 嘮叨 - 天天要聞

特斯拉開始推送 FSD v12.4 更新:告別「扶方向盤提醒」 嘮叨

IT之家 5 月 20 日消息,特斯拉開始推送其最新的 FSD v12.4 更新,此次更新移除了備受爭議的「扶方向盤提醒」,同時改進了基於攝像頭的駕駛員監測系統,解決了此前利用太陽眼鏡逃避檢測的漏洞。特斯拉首席執行官埃隆・馬斯克 (Elon Musk) 一貫喜歡稱即將發布的 FSD 更新為「令人震驚」的升級。不過,這次除了誇張的形容詞之...
電信巨頭進軍衛星通訊 SpaceX迎勁敵 - 天天要聞

電信巨頭進軍衛星通訊 SpaceX迎勁敵

隨著以手機直連衛星為代表的星地融合應用的快速增長,衛星移動通信產業開始從部分行業的專用領域,逐漸向大眾消費領域拓展。美國也是如此:有運營商已經計劃為5G版iPhone提供衛星通話和寬頻服務。上周,美國電信巨頭AT&T(美國國際電話電報公司)與衛星通信初創公司AST SpaceMobile公司簽署了一項協議,將直接向日常手機提...
數字化2.0時代來臨,大咖「解碼」數字金融 - 天天要聞

數字化2.0時代來臨,大咖「解碼」數字金融

「不論是科技金融、金融科技或者數字金融,最終目的是驅動金融更好地服務實體經濟。」在日前舉辦的「2024數雲原力大會·新動力數字金融論壇」上,國家金融與發展實驗室理事長李揚說道。中央金融工作會議提出,著力做好科技金融、綠色金融、普惠金融、養老金融、數字金融「五篇大文章」。「數字金融」首次被寫入中央文件,其...
歷史首次!iPhone15官旗降至第三方渠道價,立減2000衝刺618 - 天天要聞

歷史首次!iPhone15官旗降至第三方渠道價,立減2000衝刺618

近幾年,什麼稀奇事都見過了,但沒想到,還是會被蘋果所震驚!去年,iPhone15系列發布後沒多久,蘋果就罕見的拿新款手機參加了雙11。今年,iPhone15官旗立減2000多,價格降至第三方渠道價,衝刺618。歷史首次!這每一件事情拿出來都是「爆炸性」的消息,難道蘋果真的沒招了?
華為Mate 70 或 9 月發,性能提升、純血鴻蒙 - 天天要聞

華為Mate 70 或 9 月發,性能提升、純血鴻蒙

文末有視頻不要忘記看喲~上個月,曝光已久的華為Pura70系列正式宣布了先鋒計劃,並在開售後取得了相當不錯的成績反饋。現在,隨著時間來到2024年5月下旬,華為將在下半年帶來哪些新品也成為了備受關注的內容之一。按慣例推測,華為下半年將推出新一代的Mate系列旗艦,具體的發布時間有可能會在9月前後。與此同時,不少用戶...
OPPO Reno12系列再預熱:首個能發布實況照片的安卓機 - 天天要聞

OPPO Reno12系列再預熱:首個能發布實況照片的安卓機

不久前,OPPO官方宣布,OPPO Reno12系列將於5月23日16:00發布。而隨著發布時間的臨近,官方也陸續公布了不少新機的信息。據官方今日的預熱顯示,OPPO Reno12系列是「首個能發布實況照片的安卓機」,擁有實況照片LivePhoto功能,支持小紅書平台發布,支持全焦段,支持美顏,支持封面編輯,支持封面幀ProXDR顯示。據悉,在OP...
​Redmi Turbo 3手機全系降價100元,推出全新「鏡瓷白」配色 - 天天要聞

​Redmi Turbo 3手機全系降價100元,推出全新「鏡瓷白」配色

在上個月舉行的Redmi Turbo 3新品發布會上,Redmi Turbo 3正式亮相發布,提供冰鈦、青刃、墨晶三款配色可選。今日,Redmi紅米手機官宣,Redmi Turbo 3推出全新的「鏡瓷白」配色,並於今晚8點開售。據官方的介紹顯示:「Turbo 3不僅輕薄能打,還十分好看!在萬般色彩中,白色是遺世獨立的存在,它是永恆的經典,更蘊含無限的...
傳高通驍龍8 Gen4價格將進一步上漲,手機廠商面臨定價壓力 - 天天要聞

傳高通驍龍8 Gen4價格將進一步上漲,手機廠商面臨定價壓力

5月19日消息,據外媒WCCFtech報導,高通預計將會在今年10月正式發布新一代旗艦級移動平台驍龍8 Gen 4,將會首度採用高通定製的Oryon CPU內核,但這高昂的價格可能讓合作夥伴壓力山大。一位爆料人士透露,驍龍8 Gen 4將會與蘋果M4、A18 Pro一樣採用台積電N3E製程,性能和能效將得到改善,但價格也將會進一步上漲,或將超過2...