近日,openai在其官網發布了首個文生視頻模型——sora,可生成最長1分鐘的視頻,超過gen-2、svd-xt、pika等主流產品。
為配合中國的龍年春節,sora生成的一處人們慶賀龍年的場景,大街上擠滿了舞龍燈的人和觀賞者,人山人海。而且,人物的行為舉止各有風貌,有舞龍者的輕鬆和喜悅,有追著舞龍觀看的好奇兒童,還有兩旁和後面摩肩接踵的男女老幼,更有不少人掏出手機邊跟邊拍……這些場景幾乎就是現實場景的翻拍。另一段視頻是一位時尚女性走在雨後的東京街道上,城市的霓虹燈和動畫城市標牌街景與其穿著的黑色皮夾克、紅色長裙和黑色靴子互相映照,特寫畫面不只突出了她戴著太陽鏡,塗著猩艷的口紅,更凸顯了她臉上的雀斑和作為歲月印記的皺紋。
openai公布的細節表明,sora不只是根據文字提示可以生成視頻和圖片,還可以圖生視頻,即用一張圖片的提示生成視頻,準確地把一張平面圖的內容和細節轉變成動態視頻,同時還可以獲取現有視頻並對其進行擴展或填充缺失的幀,豐富和完善原有視頻。因此,sora是三棲產品,從這個意義上看,sora的創新是里程碑式的。
現在,openai的首席執行官奧特曼已經在線接單,也有一些視覺藝術家、設計師和電影製作人獲得了sora訪問許可權。
sora的出現表明,通用人工智慧(agi)不僅離現實應用更近了一步,而且可以在更多的領域實現突破。2023年年底,《自然》雜誌的一篇文章預測2024年的10大科學進展,包括了人工智慧和聊天生成預訓練轉換器(chatgpt)的突破,具有代表性的是,gpt-5將會問世,而且可能會比其前身gpt-4展示出更先進的功能。還有深度思考(deepmind)人工智慧公司將在2024年發布人工智慧工具阿爾法摺疊(alphafold)的新版本,將以原子精度模擬蛋白質、核酸和其他分子之間的相互作用,將為藥物設計和發現開闢新的可能性。
但是,意想不到的是,ai的創新者們轉了一個方向,推出了文生視頻,而且質量上乘。文生視頻的效果逼真意味著,影視、多頻道網路(mcn)、動畫、美術、藝術等的從業人員的嚴冬來臨了,因為文生視頻的速度和效果可以迅速取代影視行業更多從業者的工作,創作的內容和產品更豐富多彩,產品和產值也會成倍增加。另一方面,行業的准入門檻將變得更低,讓演藝行業更為內卷。就連相關網站,如素材網站也將變得無關緊要,甚至會關門大吉。當然,文生視頻並不完美,很多畫面也與現實難以融入和銜接。因此,影視行業、mcn要使用成熟和逼真的文生視頻還可能有一定時間。
儘管文生視頻有著廣闊的前景,但是其出現也意味著人工智慧對社會的威脅更近了一步。諸如sora一類的生成式ai產品會讓更多的人認為其看到的圖像、音頻和視頻是真實的,也因而讓偽造和欺騙變得更簡單更易行。例如,許多人工智慧生成的與以色列-哈馬斯衝突有關的「深度偽造」圖像和音頻在網路上大行其道,美國一些公眾也接到了「深度偽造」的美國總統拜登的電話,知名歌手泰勒·斯威夫特ai虛假「不雅照」更是在網上瘋傳。
這意味著,每當人工智慧新產品出現,社會的監管就多了一分責任。既要讓研發公司遵守人工智慧的倫理規範,也需要監管技術的突破。前者,已經有聯合國的《人工智慧倫理問題建議書》和各國的人工智慧規則,後者則需要同步的技術制衡。
一個最簡單的原則是,如果是人工智慧生成的產品,就應當在向全社會發布時註明是ai產品,讓人們知曉這並非現實和原創,而是人工智慧的產物。另一方面,在研發ai產品並發布時,要求生成式ai研發人員在模型的輸出中嵌入隱藏信號,從而生成水印,以便識別是人工智慧產品還是原創。
這些方式或許能讓人們既享受到人工智慧生成產品帶給人們的效率和便捷,另一方面也盡量減少人工智慧對人和社會的威脅。
文l張田勘