AIGC:虛實共生趨勢下的內容創作新範式

伴隨數據、演算法、算力等核心技術的突破,AIGC正推動虛實共生趨勢下內容創作的範式轉變。

AIGC(Artificial intelligence-generated content)即通過AI技術來自動或輔助生成內容的生產方式。隨著技術的不斷發展和突破,人工智慧對繪畫、音樂、遊戲、新聞、藝術等內容創作領域的影響和作用越來越大。


隨著5G大帶寬網路時代的到來,人們對更具有視覺表現力的數字內容越來越渴望。傳統數字內容的生成效率已成為新時代的瓶頸。作為下一個探索熱點,「AI自動化內容生成」激發了大量行業需求,也讓我們看到了人工智慧技術新的引爆點。


AI降低內容生產門檻


常言道:「科技是生產力,可提高人們生活質量,改善人們勞動方式。」在內容生產領域,我們看到了AI「顛覆」的力量。



從創作者的角度看,內容生態的發展大致可以分成四個階段:專業生成內容(PGC)、用戶生成內容(UGC)、AI輔助生產內容、AI生成內容(AIGC)


PGC(Professional-generated content,專業生產內容)主要是指由專業化團隊生產具備較高質量的內容用以商業變現;UGC(User-generated content,用戶生產內容)則將消費者和生產者之間的邊界混淆,創作者即為用戶本身。


這是當前互聯網內容創作生態所處的兩個階段,不過其生產潛力也正在逐漸消耗。


為保障質量,PGC往往需要投入大量的研發成本,這是導致國內長視頻網站長期虧損的主要原因。相比之下,UGC雖然降低了生產門檻,讓社區更為繁榮,但正因為創作自由度高,導致質量難以保證。


實際上,內容創作的過程是創作者對於信息的處理、加工、結構化,以及選擇和使用內容載體的過程,而一系列的流程均基於創作者的後天學習,需要付出大量的時間與精力。隨著VR/AR、Metavers等概念的爆發,未來的互聯網應用正在演變成一個富媒體平台,對高質量、多樣性的內容需求越來越大。


當PGC、UGC受產能、質量所限,當人腦的信息處理能力達到極限,亟待新的生產方式帶來內容變革。從發展趨勢看,AI+內容生產將彌補數字世界內容消耗與供給的缺口。


AI補全《富春山居圖》並題詩(上圖紅框處)


兩個月前,百度利用AIGC能力只用了「1秒」就瞬間復原了《富春山居圖》殘卷,風格與現存真跡的一致程度也讓專家大為震撼;騰訊打造的「夢幻寫手」(Dreamwriter)新聞寫作系統,能夠在規定的22種場景中進行寫作,具有0.46秒的平均發稿速度;喜馬拉雅通過語音合成(TTS:Text-to-speech)技術,能夠高效地將新聞、書籍和文章中的大量文字信息轉為音頻,這些TTS內容在上線後也獲得了較大的收聽量。


AI技術不僅有助於提高生產效率,而且有助於互動性進一步提升。例如,在遊戲《AI地下城》(AI Dungeon)中,當用戶輸入文字後,系統便會使用GPT-3(Generative Pre-Training Transformer)自然語言模型來理解腳本並生成接下去的幾段文字,並且基本能夠實現前後世界觀一致。


不過,將AI技術的發展對應於內容生產,目前更多的是為AI輔助生產,創作並沒有跳出PGC與UGC的創作框架,如虛擬人的創建需要人為為其編碼基因,設定人設、背景,再與外部環境進行交互,而伴隨數據、演算法、算力等要素持續迭代,AIGC將是長期的方向。


AIGC在文本、音頻、元宇宙構建上的突破


AIGC背後,是以人工智慧技術為核心,多項關鍵技術如多模態交互技術、3D數字人建模、機器翻譯、語音識別、自然語言理解等能力共同整合加持而成。


從技術能力方面來看,AIGC根據面向對象、實現功能的不同可分為三個層次。


人工智慧生成內容(AIGC)的三大前沿能力


目前,AIGC已在文本、音頻、元宇宙構建方面有了突破:


圍繞文本的AI創建工具功能已實現較大突破。AI技術在文本創作應用包括識別翻譯,寫作詩歌/小說/新聞等。目前文字識別已經實現了較高的精準度。


內容創作方面同樣取得較大進展,生產效率以及互動性進一步提升,如騰訊打造「夢幻寫手」(Dreamwriter)的新聞寫作系統能夠在規定的22種場景中進行寫作,具有0.46秒的平均發稿速度;在文字冒險遊戲《AI 地下城》(AI Dungeon)中,當用戶輸入文字後,系統便會使用GPT-3(Generative Pre-Training Transformer)自然語言模型來理解腳本並生成接下去的幾段文字,並且基本能夠實現前後世界觀一致;基於大規模語言模型自研的自然語言處理模型的續寫應用「彩雲小夢」已經可以實現小說故事的AI創作,只需要給她一個1-1000字的開頭,它就能為你續寫出後面的故事。


基於音頻的AI創作互動性也得到進一步提升。目前AI在樂麴生成、合成講話、製作歌曲等領域得到應用,並且交互性、實時性進一步增強。Tom Gruber目前已經打造了能夠實時動態編曲的自適應音樂平台LifeScore。用戶向LifeScore輸入一系列的音樂「原材料」之後,AI大師就會改變、提高並實時混音,帶來音樂表演。


相較於文本和音頻,AI圖像/視頻/3D模型創作難度相對更高。Lip2Wav AI語音合成技術實現動態視頻的唇型轉變。2020年印度海德拉巴大學和英國巴斯大學的團隊推出了Lip2Wav的AI語音合成程序,創作者只需提供目標語音內容、人物視頻,該程序可以直接將動態的視頻進行唇形轉換,輸出與目標語音內容相匹配的視頻結果,並且實現了個體的極高相似度,而非普遍適用的通用模型。英偉達推出的Omniverse Avatar是基於語音、機器視覺、自然語言處理等技術形成的互動式AI產品,集成了視頻渲染能力(OmniVerse)、語音識別與交互(Riva、Maxine)、自然語言處理(NeMo Megatron)、AI推薦(Merlin),可以有效地形成立體肖像並進行人機對話,可應用於人工智慧助理等領域。



AIGC未來的商業價值


技術終將服務於商業。作為下一個探索熱點,AIGC激發了大量行業需求,正在創造越來越多的現實價值。


人工智慧生成內容(AIGC)應用視圖


從應用價值方面來看,AIGC將有望成為數字內容創新發展的新引擎,為數字經濟發展注入全新動能。



從AI技術當前發展階段看,AIGC與遊戲敘事的聯繫較為緊密,不僅塑造更廣義的互動敘事品類,而且帶來了社交玩法和商業模式產生新的啟發。


例如,《AI Dugeon》通過AI技術研發出應對多名的玩家的AI模型,能夠對不同玩家的互動做出反饋。在商業模式上,《AI Dungeon》則將更高級的AI模型作為增值服務提供給玩家,如更智能的怪物AI模型。在傳統的RPG遊戲中,氪金獲得的寵物是在數值上形成對免費玩家寵物的優勢,而在《AI Dungeon》中則體現為智力更高,具有更強的互動性。


在藝術領域,AI的學習與創作能力正在顛覆我們的認知,也讓公眾對科技與藝術的融合創新有了更大的想像空間。今年6月初,初出茅廬的「AI畫家」度曉曉創作的AI繪畫數字藏品賣出了超過17萬元的高價。而她售賣的四幅畫作,平均只需數十秒就能完成。


值得關注的是,AI內容生成技術已經在各類顯性的商業場景中落地在人的層面,數字員工在降低勞動成本,提升工作效率,降低人員流動風險等方面有天然的優勢。在貨的層面,某些電商平台的內容展示更加立體,會從各個角度來呈現客戶想要購買的商品。在場的層面,通過線上空間3D化,可以讓參與者更加有沉浸感。


首個實現AIGC的數字虛擬偶像希加加


雖然技術的發展與革命一定程度帶來了知識產權內容傳播與創造的繁榮,但是,相關所有權歸屬等影響資本信心與產業發展的法律問題並沒有得到確認。


今年2月,美國版權局審查委員會(Copyright Review Board)再次拒絕了Abbott先生代理的Stephen Thaler提交的人工智慧創作的作品「天堂入口」註冊版權的複議請求,重申根據美國《版權法》的規定,要求作品包含人類作者身份。因此由人工智慧創作的這幅「天堂最近的入口(a recent entrance to paradise)」作品,不能獲得版權授權。


事實上,自從人工智慧技術開始應用在新聞撰寫、繪畫、詩歌寫作等領域後,有關人工智慧生成物的著作權問題就一直在困擾著學界和實務界,爭議頗多。


目前,AIGC的發展應當認為已經超一般的弱人工智慧標準,無限地抵進強人工智慧階段,但未實現抵達與超越強人工智慧,或稱通用人工智慧標準。


牛津哲學家、知名人工智慧思想家Nick Bostrom把超級智能定義為「在幾乎所有領域都比最聰明的人類大腦都聰明很多,包括科學創新、通識和社交技能」。在超人工智慧階段,人工智慧已經跨過「奇點」,其計算和思維能力已經遠超人腦。此時的人工智慧已經不是人類可以理解和想像。



對於該達成時間,聖達菲研究所的人工智慧專家梅蘭妮·米切爾(Melanie Mitchell)與埃隆·馬斯克Elon Musk)有過切實的討論與爭議,他們爭議的焦點在於該達成時間為2029年。那時的AIGC,將帶給我們怎樣的驚喜,又將面臨怎樣的嚴峻挑戰?我們拭目以待。


責編:岳青植
監製:李紅梅


參考資料:

1.《AIGC,人工智慧的下一個風口?》機器之能

2.《2022年人工智慧生成內容(AIGC)白皮書》信通院

3.《600年傳世名畫「重生」,李彥宏定義AIGC》36氪

4.《人工智慧技術趨勢的六大影響:從大數據到大模型,從UGC到AIGC》騰訊研究院