Sora橫空出世,AI將創造一個什麼樣的世界

2024年04月03日06:51:42 科學 3648

Sora橫空出世,AI將創造一個什麼樣的世界 - 天天要聞

戴著紅色羊毛編織摩托車頭盔的太空人。(sora生成視頻截圖)

今年2月,一段短視頻震驚世界。openai發布的sora模型,從一個文本生成接近電影級別質量、難以辨別真偽的視頻,這是繼chatgpt發布以來人工智慧發展又一重要里程碑。sora的橫空出世引來全球的廣泛關注和深刻反響,人們對其表現出讚歎、獵奇、驚喜以及對未來可能帶來變革的焦慮,同時,也迫使我們思考在ai時代來臨的當下,國產大模型後發的追趕之路如何走?

sora是什麼?

在這段視頻中,一位身穿黑色皮夾克、紅色長裙的時尚女郎走在布滿霓虹燈和標牌的東京街道上。她戴著太陽鏡,塗著紅色口紅,走路自信又隨意。鏡頭從大街景慢慢切入女郎的臉部特寫,白色的斑馬線及周圍的街景在她戴著的太陽鏡上形成鏡面效果……

寥寥幾句文字就能生成一段細節拉滿、極其逼真、美出高級感的1分鐘「大片」,sora的強大功能震驚全球。

來自美國人工智慧公司openai於2月17日發布的文生視頻大模型sora,用戶只需要輸入簡單的文字表述,即可生成畫面流暢、細節豐富,且符合運動規律的短視頻。目前官網上已經更新了數十個視頻樣片,在這些樣片中,sora不僅能準確呈現細節,還能理解物體在物理世界中的存在,並生成具有豐富情感的角色。

sora取自日文的羅馬音,是「天空」中的「空」,意指openai希望sora能突破宇宙,激起無限的創作可能性。

sora的技術原理是什麼?哈工大(深圳)計算機科學與技術學院教授湯步洲解釋,sora的核心是一個擴散變換器(diffusion transformer,簡稱dit),這是一種深度學習模型,用預訓練能夠將隨機雜訊逐漸轉化為有意義的圖像或視頻。

具體來說,由於類似chatgpt語言大模型無法直接生成圖片,通常會調用一個文生圖模型比如dall-e來實現圖片生成功能。而上一代純文生圖模型對提示詞理解能力很弱,比如,輸入「創新之城」,模型很難生成準確的圖片,而把大語言模型加入進去後,就能把「創新之城」轉化為高科技、新興產業、創新中心、通信網路、基礎平台等文生圖模型能懂的提示詞,生成契合主題的圖片。sora再將不同解析度、大小、深度等各異的圖片壓縮處理成「標準化」表示,以「空間時間小片」為基本單元,創造性地生成接近文本描述的「逼真」視頻。

「視頻數據處理是sora的亮點和最大的創新之處。」從事開發的資深ai專家jim介紹,sora開發團隊重新組合已有的技術,沒有把視頻生成局限在幀處理上,而是升維到如何模擬物理世界,在架構層次上探索如何去登頂。

sora展示了準確解釋和執行複雜人類指令的顯著能力。jim認為,與之前的視頻生成模型相比,sora的特點是能夠更好地遵循與拓展用戶文本指令的同時,生成長達1分鐘的高質量視頻,而其他主流工具生成的視頻通常只有5秒鐘左右。此外,sora生成的視頻在不同鏡頭之間保持動作和畫面連貫性和一致性,具有更強的實用性和應用價值。

sora帶來什麼?

sora橫空出世讓科技界大佬和所有人工智慧相關從業者都感到熱血沸騰,熱度直逼一年前的chatgpt發布。特斯拉ceo馬斯克甚至發出「gg humans」(幹得好,我服了)的感嘆。

科大訊飛董事長劉慶峰表示,sora將對影視、廣告、遊戲、新聞、教育、vr/ar等諸多行業產生深遠的影響,帶來人機交互上更大的想像空間,具有廣泛的應用前景。

有投資人判斷稱,預計5年之內,就會出現一個不到5人的小團隊,用ai製作出票房超過5000萬美元的電影。

sora為人工智慧應用場景提供了廣闊的視角。教育工作者可以利用sora將課程大綱轉化為動態、引人入勝的視頻教材;遊戲行業,將sora整合可以創造前所未有的沉浸式體驗,吸引並吸引玩家;醫療領域,視頻擴散模型特別適合識別身體內的動態異常,對早期疾病檢測和干預策略也有很大幫助。此外,sora還將對自動駕駛帶來巨大的影響。

中國工程院院士、阿里雲創始人王堅認為,sora問世遠不止會對短視頻、影視等行業帶來衝擊,它解決了非常複雜的視覺問題,「如果能創造視頻,它也就能創造世界。」

openai並未單純將sora視為視頻模型,而是作為「世界模擬器」。openai官方指出,sora是理解和模擬現實的基礎。這意味著sora不是在虛構世界,而是在真實規則基礎上生成世界。

但業界似乎並不認同。劉慶峰表示,sora所展現的模擬物理世界的特性僅是大模型在文生視頻領域的一種湧現,其本身並沒有掌握真實物理世界的知識,仍然不是一個足以模擬物理世界的模型。以sora為代表的多模態模型需要更大量的音視頻數據和更大規模算力的支持。

最近,openai首席技術官穆拉蒂在接受《華爾街日報》採訪中承認,sora目前不會短期內向公眾開放,因為它還不是一個成熟的產品,還有很多挑戰和安全問題需要解決。

sora創新模式有何特點?

chatgpt和sora的相繼成功,探究openai的創新管理模式和機制有著重要意義,值得我們借鑒。

作為全球領先人工智慧機構,openai以大模型為核心開創了ai領域的新一輪創新範式。人才方面,以高水平青年人才為主力軍的團隊模式,絕大部分成員擁有全球頂尖或知名高校學位,同時也會吸納知名巨頭公司的人才,通過創新思維、敏銳洞察力和快速迭代推動ai技術發展;重視合作,與微軟之間建立了長期且緊密的夥伴關係,因此獲得大規模算力資源和海量應用場景;通過資金+技術+戰略支持的方式,尋求優質的ai初創公司,並為其提供資金、技術以及戰略指導的支持,為嵌入未來海量應用場景打下堅實的基礎。這種「openai模式」使其快速發展成為世界一流的人工智慧機構。

業界學界都認為,sora核心dit模型早在2022年就提出來,底層技術上,sora並沒有創新。

中國工程院院士、鵬城實驗室主任高文認為,這不是一項突如其來的顛覆性的變革,而是正常的科技發展的必然結果。sora模型跟產業界結合得比較好,所以看起來很亮眼。

作為業界資深專家的jim這樣回答:「sora的問世離不開大量的算力去做實驗,然而這項工作實驗初期看不到有什麼結果,它是一個探索性的研究工作。在這條路被驗證可行之前,資本願不願意、敢不敢下注?所以這是我們需要思考的問題。」

專家認為,人工智慧是最受資本關注的行業之一。今年sora的推出提高了大家對agi加速實現的預期,也讓資本市場特別熱。建議政府和社會資本未來進一步重視基礎研發,特別在關鍵核心技術上捨得投入,允許科學家開展自由探索性工作,並給予長期穩定的支持,不能急功近利只想賺快錢、賺穩當錢。

我們如何創造自己的通用ai?

「我認為中美在人工智慧賽道的差距其實並不大。」jim說,特別在文本模型和基礎模型,現在維持在一年左右時間的差距,但從長期來看,疊加自身的基礎和優勢,我們還有機會在幾個領域趕超的。

jim說,sora發布一個月後,中國文生視頻公司紛紛得到融資,積極打造更適合落地的創新應用,這將是中國科技公司的機會。

360集團創始人周鴻禕也表示,中國的ai發展是有優勢的,一旦方向確定了,以國內公司的學習和模仿能力,很快就能追趕上去。目前的差距大概用一到兩年時間是可以解決的。

目前,華為、騰訊、位元組、阿里、百度、科大訊飛等大廠已推出或即將推出文生視頻模型,智象未來、愛詩科技、生數科技、morph studio等ai創業企業該賽道上各自發力,推出的文生視頻模型/產品各有千秋。

openai選擇了一條少有人走的路,但卻走通了。正如人工智慧專家焦李成所說,大模型既是一個基礎模型,又是面向重大工程應用的通用平台,這既是考驗,也是機遇,我們要從基礎理論、關鍵技術、創新應用等方面突破,從而在國際上處於領先地位。

Sora橫空出世,AI將創造一個什麼樣的世界 - 天天要聞

深圳實踐

賦能千行百業 走進千家萬戶深圳含「ai」量持續上升

去年chatgpt一鳴驚人,今年sora火爆全網,人工智慧熱潮湧動。熱浪之下,挑戰毋庸置疑,機遇也前所未有,這條賽道的新一輪競速日趨激烈。

深圳躋身全球人工智慧第一陣營,如何在新的賽道上跑出加速度?深圳完整的產業鏈,讓智能硬體與人工智慧技術的深度融合,全時全域應用遍地開花,賦能千行百業,走進千家萬戶。此外,一系列政策措施也為人工智慧產業的發展保駕護航。

形成人工智慧全產業鏈條

在深圳,人工智慧產業為何能在短時間內實現技術研發到產品落地?答案是深圳擁有完整的電子信息產業鏈,從晶元設計、零部件製造到整機裝配,涵蓋產業鏈上下游的所有環節。強大的生產能力和靈活的供應鏈體系,使得從設計到量產的周期大大縮短。

根據行業通用研究,人工智慧產業鏈一般分為三個層級:基礎層、技術層和應用層。深圳人工智慧產業在發展上,聚焦智能硬體與人工智慧技術的深度融合。目前,已經初步形成人工智慧全產業鏈條。

上游基礎層是人工智慧產業的根基,為人工智慧提供數據及算力支撐。技術層則是人工智慧產業的核心。應用層方面,深圳在人工智慧產業應用推廣層面探索出豐富場景。據統計,我國約八成人工智慧企業分布在應用層,在華為、騰訊等巨頭公司的堅實支撐下,眾多初創企業的活力注入,共同推動了智能終端、物聯網等領域的快速發展。

從「千行百業」到「千家萬戶」

在深圳,人工智慧已深入千行百業,應用場景遍地開花,從地鐵站到圖書館,從公園到樓宇,無處不在的人工智慧也進入千家萬戶,讓城市變得更加高效、便捷和智能化。

2024年深圳市政府工作報告提到,深圳公布的城市ai+場景應用已達41個,今年還將新增人工智慧全域全時場景應用10個。深圳的含「ai」量在持續穩步上升。

在社區,無人機外賣從天而降,配送時間縮短近七成……今年以來,無人機配送、空中的士、低空旅遊等多場景人工智慧應用在產業集聚下,逐步走進深圳市民的日常生活。

馬路旁,基於5g智能技術的智慧路燈桿,集智能照明、視頻採集、移動通信、交通管理、環境監測等功能於一體。每一根智慧桿收集各類信息數據,彙集到城市管理系統,貫通智慧城市「經脈」,讓城市運行管理更高效,更精細。

加快人工智慧布局和規劃

人工智慧產業繁榮發展背後,是深圳前瞻布局搶佔戰略制高點。

深圳先後出台《深圳市新一代人工智慧發展行動規劃(2019-2023)》《深圳市加快推動人工智慧高質量發展高水平應用行動方案(2023-2024年)》《深圳市建設人工智慧創新應用先導區實施方案》《深圳經濟特區人工智慧產業促進條例》等各類產業政策,在產業規劃、資金投入、稅收優惠、制度創新等方面率先探索,為培育人工智慧發展營造出良好環境。

深圳立法先行,營造人工智慧產業發展最優生態,在產業規劃方面推出了一系列有效舉措。根據相關方案,深圳計劃打造國家新一代人工智慧創新發展試驗區和國家人工智慧創新應用先導區,努力創建人工智慧先鋒城市。構築起「一條例、一方案、一清單、一基金群」的人工智慧高質量發展和高水平應用的政策體系,加快推進人工智慧全域全時應用。

專家觀點

深圳理工大學計算機科學與控制工程學院院長、美國醫學與生物工程院院士潘毅:

人工智慧競賽關鍵是人才

dit論文的作者、人工智慧技術大牛謝賽寧說,對於sora這樣的複雜系統,人才第一,數據第二,算力第三。近日,本報專訪深圳理工大學計算機科學與控制工程學院院長、美國醫學與生物工程院院士潘毅暢談如何加強人工智慧人才培養。他建議,將人工智慧通識課程納入義務教育,高等教育中人工智慧課程比重要適當增加,為ai人才培育和學生的未來研究工作奠定良好的基礎。

「我們計算機科學與控制工程學院培養人才的模式是『人工智慧+x(學科)』。」

今年全國兩會,「人工智慧+」首次被寫入政府工作報告,就是讓不斷湧現的人工智慧創新成果與實體經濟深度融合,賦能千行百業。這對我們大學研究型人才的培養也提出一些新要求。

潘毅表示,目前,國內複合型人才比較薄弱,有一句話叫「隔行如隔山」,比如很多懂生物的人才對計算機不太懂,所以我們要從娃娃抓起,甚至從中小學開始就進行人工智慧的基礎教育,讓未來的年輕人大部分都掌握人工智慧的基本技術,以後在大學和讀研階段再「補課」人工智慧就相對容易。要把千行百業的人都教會人工智慧非常困難,但這些工作正在慢慢推進,只要我們高度重視、提前布局還是有可能做到的。

「在高等教育領域,我認為人工智慧課程的比重要適當增加。」潘毅說,今後人工智慧要像微積分、基礎物理、基礎數學一樣成為基礎課和必修課,深理工目前已經這樣實施了,不管生物、化學還是材料專業,都必須修人工智慧這門課,在大學中作為一門基礎的課程。這些課程包括人工智慧的基本原理和一些基本工具,還有簡單的計算機語言和編程,讓學生在未來的相關研究中或是需要深入掌握ai時能有一個良好的基礎。

Sora橫空出世,AI將創造一個什麼樣的世界 - 天天要聞

巨大的猛獁象在雪地上行走。(sora生成視頻截圖)

華為聯合推出文生圖大模型可生成4k解析度圖像

近日,來自華為諾亞方舟實驗室、大連理工大學、香港大學和香港科技大學的研究團隊推出了一個能夠直接生成4k解析度圖像的dit模型——pixart-Σ,與前一代模型相比,其圖像的清晰度明顯提高,並能夠更好地貼合文本提示。

從pixart-Σ項目官方主頁公布的文生圖案例看,通過文字描述,即可以根據使用者的意圖生成色彩艷麗、細節豐富、清晰度度極高的圖片。

基於強大的圖像生成能力,pixart-Σ未來的應用場景可期,其可用於支持高解析度海報和壁紙的製作,從而有效促進電影和遊戲等行業高質量視覺內容的產出。

(作者:深圳特區報記者 聞坤 熊子恆 方慕冰)

科學分類資訊推薦

上海光源開放15年 「鸚鵡螺」持續服務科研團隊產出重大成果 - 天天要聞

上海光源開放15年 「鸚鵡螺」持續服務科研團隊產出重大成果

圖說:空中俯瞰位於上海張江科學城的上海光源 新民晚報記者 陶磊 攝上海光源,服務用戶15年了!它可以加上很多很多形容詞:外形酷似鸚鵡螺、出現在上海初三化學教材封面、中國大陸第一台第三代同步輻射光源……中國工程院院士、上海光源科學中心主任趙振堂自豪地說,上海光源目前有34條束線和46個實驗站服務用戶實驗,已進...
揭秘三隻羊參與電音節主辦方 三隻羊參與電音節主辦方僅7人蔘保 - 天天要聞

揭秘三隻羊參與電音節主辦方 三隻羊參與電音節主辦方僅7人蔘保

據媒體報道,近日,網紅瘋狂小楊哥參與舉辦的合肥電音節被指宰客,一瓶純凈水賣20元,場外不足十元的紅牛進場後漲到28元一瓶。公開信息顯示,此次電音節由三隻羊集團聯合武漢鐵樹文化傳媒有限公司主辦,安徽博文娛樂有限公司承辦。天眼查App顯示,電音節主辦方武漢鐵樹文化傳媒有限公司成立於2019年12月,法定代表人為劉秀...
學術創新中的問題意識與價值立場——評董天策教授《提要探微:新聞傳播理論縱橫》 - 天天要聞

學術創新中的問題意識與價值立場——評董天策教授《提要探微:新聞傳播理論縱橫》

□劉丹凌摘要董天策教授的論文集《提要探微:新聞傳播理論縱橫》,既有對新聞傳播學科體系、知識生產與邊界工作的廣邃思考,亦有對新聞策劃、媒介事件、演算法倫理、網路公共事件等微觀問題的深刻洞見;既有對新聞傳播學術脈絡的耙梳與承繼,亦有對研究方法創新、研究範式融合與中層理論深化的自覺與追求;既有在全球視野中審...
最大級別!太陽耀斑爆發,6天接連4次!密切跟蹤! - 天天要聞

最大級別!太陽耀斑爆發,6天接連4次!密切跟蹤!

今年5月,能量強度達到最大級別的「X級」太陽耀斑已經爆發4次。作為太陽表面的強烈能量噴發,近期頻繁爆發的太陽耀斑對生活有哪些影響?我們需要擔心嗎?  強太陽耀斑6天內4次爆發  記者梳理髮現,本月已爆發了4次X級太陽耀斑。  北京時間5月3日10時22分,太陽爆發了5月第一次強耀斑(X1.6級)。  5月5日又爆發了兩...
有望成為首款!突破性雙特異性抗體獲FDA優先審評資格 - 天天要聞

有望成為首款!突破性雙特異性抗體獲FDA優先審評資格

▎葯明康德內容團隊編輯Merus公司今日宣布,美國FDA已接受為雙特異性抗體zenocutuzumab(Zeno)遞交的生物製品許可申請(BLA),並授予其優先審評資格,用於治療神經調節蛋白1融合陽性(NRG1+)非小細胞肺癌(NSCLC)和胰腺癌(PDAC)患者。新聞稿指出,如果獲得批准,Zeno有望成為首款治療NRG1陽性癌症的靶向療法。這一BL...
廣電網路躲不掉「灰犀牛」? - 天天要聞

廣電網路躲不掉「灰犀牛」?

每經記者:夏子博    每經編輯:賀娟娟「黑天鵝」和「灰犀牛」是一對財經領域常見辭彙,「黑天鵝」常比喻難以預見性的突發事件,灰犀牛事件則是在早有警示信號和跡象後出現的大概率事件。而將灰犀牛危機用在廣電運營領域,恰當又不恰當,因為一眾廣電運營商們不僅已經看見了「灰犀牛」,甚至已經被衝撞的「七葷八素」。...
我國發布太陽耀斑預警,會影響正常生活嗎? - 天天要聞

我國發布太陽耀斑預警,會影響正常生活嗎?

國家空間天氣監測預警中心發布耀斑黃色預警,北京時間2024年5月5日14時01分,太陽爆發了一個強耀斑(X1.3級),該事件發生時我國處於白天,耀斑對我國上空電離層產生了影響。預計未來三天,仍有可能爆發M級甚至X級以上耀斑。國家空間天氣監測預警中心將密切跟蹤事件發展,及時發布預報預警信息。5月5日下午,相關話題登上熱...