多模態=AGI入場券?階躍星辰姜大昕:死磕基座大模型,探索多模態理解生成一體化

2025年05月10日15:10:22 遊戲 6224

衡宇 發自 凹非寺

量子位 | 公眾號 qbitai

當大模型賽道中不少玩家明確表示放棄基礎大模型研發,心思放在更聚焦的方向上時,階躍星辰站出來——就像這家公司第一次亮相時那樣,給外界一個明確的回答:

我們會堅持基礎大模型研發。

創始人兼ceo姜大昕解釋了背後邏輯。

一方面,大模型行業的趨勢技術發展還是在非常陡峭的區間。他也很感慨ai行業發展瞬息萬變,「去年大家覺得gpt-4很牛,今天他都快下架了」,等到明年看今年的技術,同樣會覺得微不足道。

姜大昕說,階躍不想在這個過程中放棄主流增長或前進的趨勢,所以還是會堅持做基礎模型的研發。

多模態=AGI入場券?階躍星辰姜大昕:死磕基座大模型,探索多模態理解生成一體化 - 天天要聞

另一方面,從應用的角度來看,階躍仍然相信應用和模型是相輔相成的。

「模型可以決定應用的上限,應用給模型提供具體的應用場景和數據。」姜大昕表示,雖然階躍的產品形態隨著模型的演變是動態發展的,但這樣的邏輯關係還是一直保持下去的。

確實如他所說,在過去的一年裡,階躍星辰旗下產品從命名、布局和形態上都發生了轉變。

主打的c端助手app,由「躍問」改名為「階躍ai」,意味著它從類chatgpt產品到agent的轉變;產品重點形態從用戶普遍直接使用的手機app變成了端雲一體agent平台。

「雖然我們的智能終端agent和頭部企業合作,但總體而言,階躍的產品最終是服務c端的。」姜大昕表示,「不管作為助手類也好、內容類也好,都有非常大的機會。」

大模型領域的兩條顯著趨勢

姜大昕同時強調,模型的突破是早於商業化的。就拿openai來說,是先有了gpt-3.5,才有了chatgpt。

因此,在基座模型上面繼續投入以追求智能的上限,仍然是當下最重要的一件事。

要怎麼去不停觸碰智能的邊界or天花板?不如先來看看這個領域裡最前沿的趨勢有哪些。

姜大昕復盤道,趨勢共有如下兩條:

一條是「模仿學習到強化學習」,另一條是「從多模態融合走向了多模態理解生成一體化」。

從模仿學習到強化學習的技術演進大家已經非常熟悉, openai的o1、o3,以及deepseek-r1背後採用的都是強化學習技術,也是現在大模型玩家爭先恐後著重投入的方向。

多模態=AGI入場券?階躍星辰姜大昕:死磕基座大模型,探索多模態理解生成一體化 - 天天要聞

第二條趨勢則關乎多模態。

姜大昕再次提到了那句他在多個場合不停重複提及的話:多模態是實現agi的必經之路。

無論是從人類智能的多元化角度(符號智能、視覺智能、空間智能等),還是從垂直領域ai應用需求來說,大模型的多模態能力都必不可少。

在這樣的認知指導下,階躍星辰在研發基座模型時採取了散彈式打法:

成立兩年,公司累計發布22款基座模型,覆蓋文字、語音、圖像、視頻、音樂、推理等系列。

其中有16款是多模態模型,佔據總數七成;這些多模態模型又分屬圖像理解、視頻理解、圖像生成、視頻生成、圖像編輯、音樂生成、多模態推理等方向。

業界公認階躍是多模態卷王,也不是沒有道理。

多模態理解生成一體化才是未來

至於如何追求智能的上限,階躍目前行進的路線與第一次公開亮相時所講的那樣一般無二,即「單模態——多模態——多模態理解和生成的統一——世界模型——agi」。

姜大昕重點解釋了關於「多模態理解生成一體化」的部分。

它意味著多模態模型的理解和生成用一個模型來完成,而不是「視頻/圖像/語言轉文本——文本理解與生成——生成結果轉視頻/圖像/語音」的三段式過程。

大語言模型的理解生成一體化,已經有類gpt實現統一;然而在視覺領域並不如此,人們往往在理解視覺內容時選擇一個模型,在生成內容時調用另一個模型。

這並不是一個可以直接從語言模型的ntp(next-token-prediction)直接遷移到視覺模型的nfp(next-frame-prediction)的簡單事。

語言文本模態是低維度離散分布的,而視覺模態是高維度連續分布,這也就是說後者在進行訓練學習時,複雜性更高。

多模態=AGI入場券?階躍星辰姜大昕:死磕基座大模型,探索多模態理解生成一體化 - 天天要聞

從技術角度來看,視覺領域的內容生成需要理解來控制——如果想保證生成內容有意義、有價值,實際上需要對視覺的「上下文」作出更好的理解。

反言之,理解需要生成來監督。姜大昕解釋說,就是「只有生成了的時候才是真正的理解了」。

現在,視覺領域還沒有出現自己的transformer架構,階躍就是想做出一個視覺領域的、生成一體化架構,並且是非常scalable的。

姜大昕分享道,gpt-4o可能已經實現了多模態理解生成一體化,而階躍的圖像編輯模型step1x-edit也初步實現了這一點。

之所以稱其為「初步」,是階躍覺得step1x-edit的效果依然有很大改進空間,還可以在架構上做進一步的優化,數據上也可以做進一步的打磨,讓它的效果變得更好一些。

但具體走哪條路線能精益求精,不管是階躍內部還是業界都沒有公認的真理。姜大昕表示,在這一方面,階躍內部多有條技術路線並行,因為確實哪一條路線都會有可能出現突破。

「一旦突破以後,今後的道路會更加順暢。」姜大昕稱。

one more thing

既然認可多模態理解生成一體化才是未來,為什麼階躍不把所有的精力集中在step-r1-v-mini這樣的多模態推理模型上,反而是要在各個模態上都發力呢?

量子位把這個問題拋給了姜大昕。

他很坦然,表示也想過做,但這行不通

理解生成一體化是非常綜合素質的考驗。
首先要理解。如果語言模型不行就談不上理解,何況現在語言模型又進化到了推理模型,這塊不能省。
第二要做視覺推理。視覺推理是視覺理解的升級,所以要做視覺理解。
要做理解生成一體化還要有生成端,所以生成也必須做。

簡單點說,做理解生成一體化,必須自身具備非常強的綜合實力

但姜大昕信心滿滿,「我們幾條線的能力都非常強,所以才可以組合起來去探索這個路徑」。

遊戲分類資訊推薦

孫穎莎4-2戰勝申裕斌晉級世乒賽女單8強,下輪將戰大藤沙月 - 天天要聞

孫穎莎4-2戰勝申裕斌晉級世乒賽女單8強,下輪將戰大藤沙月

北京時間5月23日,多哈世乒賽女單1/8決賽,孫穎莎11-8、7-11、11-6、11-5、10-12、12-10戰勝韓國選手申裕斌,晉級八強。首局比賽,孫穎莎與申裕斌開局比分交替領先,隨後,孫穎莎以11-8戰勝對手,大比分1-0領先。第二局,孫穎莎7-11不敵申裕斌輸掉一局,大比分戰至1平。在接下來兩局中,孫穎莎分別以11-6、11-5連拿兩局,大...
功能不是答案,感受才是——SURPINE松野湃如何重寫戶外裝備的進化邏輯? - 天天要聞

功能不是答案,感受才是——SURPINE松野湃如何重寫戶外裝備的進化邏輯?

你有沒有這樣的經歷?走一段山路,褲腿開始勒得難受;出完汗,貼身衣服濕黏冰涼;冬天明明穿了三層,風還是透進骨頭裡。那些吊牌上寫著「防水、防風、抗撕裂」的裝備,到了真正動起來的時候,卻總讓人覺得「不對勁」。過去我們以為參數就是專業,但越來越多用戶開始關注一件更重要的事:穿上之後,身體感覺怎麼樣?尤其在這...
一條視頻獲千萬點贊!評論區被平民英雄刷屏,國風變裝博主朱鐵雄揭秘幕後故事 - 天天要聞

一條視頻獲千萬點贊!評論區被平民英雄刷屏,國風變裝博主朱鐵雄揭秘幕後故事

封面新聞記者 楊霽月 柴楓桔「雨夜,狹窄的巷子里,子彈破空而出。國安幹警朱鐵雄縱身一躍,擋在科學家陳教授面前。時間在這一刻凝固,他恍惚間回到童年——那個舉著彈弓、夢想成為英雄的自己正仰頭問他:『我做到了嗎?』」這一幕,來自短視頻《國安英雄無畏》,該部長達8分鐘的作品播出後在網路上爆火,創造了全網3億播放...
消息稱《刺客信條:影》DLC「淡路之爪」9月推出,新增10小時內容 - 天天要聞

消息稱《刺客信條:影》DLC「淡路之爪」9月推出,新增10小時內容

IT之家 5 月 22 日消息,外媒 Insider Gaming 今日援引知情人士消息稱,《刺客信條:影》的首個 DLC「淡路之爪」預計將於 2025 年 9 月上線。知情人士透露,育碧近期推遲了旗下多款核心 IP 的發布時間表,但《刺客信條:影》的開發仍保持穩定節奏。不過,「淡路之爪」的上線時間也可能延至 10 月,具體將取決於育碧對接下來...
它友圈小程序正式上線:開啟寵物社交新時代,打造人寵友好生態圈 - 天天要聞

它友圈小程序正式上線:開啟寵物社交新時代,打造人寵友好生態圈

寵物社交平台它友圈小程序正式上線:開啟寵物社交新時代,打造人寵友好生態圈寵物社交平台"它友圈"小程序正式上線運營,這一創新平台的推出,標誌著中國寵物經濟正式進入"社交+"時代,為養寵人士打造了一個集社交、服務與公益於一體的綜合性平台。 它有圈是一家專註於寵物領域的創新型OFE寵物社交平台,致力於為寵物主人和...