文 | 鯨選ai
2024年,google想奪回ai場子,但總是被openai攪局。
每次一宣布某日要開發布會,openai就會提前發布實力更強的產品。導致每次google的ai產品發布會都特別尷尬。
2025年的google學聰明了,發布ai產品不再大張旗鼓,而是偷偷滴直接上線。這次今晚又沒任何預熱,google直接上線了gemini 2.5 pro模型。
這是一款會推理的混合大模型,實力超越gpt4.5和grok3 ,最大特點是能夠模仿人類快慢思考,這不是堪比gpt-5前奏嗎?而它就這麼不聲不響上線了。
就在大家以為盛譽會屬於google時,openai又在推特上宣布:
太平洋時間上午11點直播。最終openai發布了gpt-4o image generation,圖像生成技術模型。
具有媲美人類攝影的出圖質量,隨心所欲的構圖以及細節處理,超乎尋常的圖文理解,以及任意的圖中文字和logo生成的特性,也是在x上引起一片歡呼。
深夜2點多,鯨哥還沒睡覺,看到朋友圈很多人發北京地震了。於是我寫下如此朋友圈:
並沒有感受到北京地震,但此刻,正在被google和openai天雷勾地火的競爭震撼。熟睡中的普羅大眾,並不知道在這一夜中,在通往agi 之路上,人類又躍進了一大步!
無心睡眠,向agi前進一大步
gemini 2.5炸裂出場,首個類人大模型
gemini 2.5 pro 實驗版這次很炸裂,gemini 2.5 號稱可以處理更複雜的編程、科學和數學問題,並支持更具有情境感知能力的智能體。
這個新的「思考模型」在 lmarena 上以顯著優勢領先,並在數學、科學和編碼基準測試中擊敗了 deepseek-r1、grok 3 和 claude 3.7。也幾乎全面優於openai家的兩款模型—o3-mini和gpt4.5。
gemini 2.5 pro 現在在競技排行榜上位居第一——這是有史以來最大的分數跳躍(比 grok-3/gpt-4.5 高出 40 分)。
配備100 萬 token 的上下文(即將推出 200 萬),能夠處理多模態數據,並且經過 vibe coding 認證,可以僅通過一個提示構建整個遊戲。這是gemini 2.5 的神奇之處。
更重要的是,當你向 gemini 2.5 提問時,它會在回答之前通過思考進行推理,模仿人類處理思想的方式—逐步接近問題,細化潛在解決方案,並選擇最佳方案。
鯨哥測試生成「近3年國內直播帶貨kol的動態演示頁面」,2.5 pro飛速生成了相關代碼。
這裡就需要提到google ai的亮眼好處,就是他可以調用之前的 flash 2.0 就已經融合的google系工具,比如分析youtube視頻、輸出內容到docs。這波代碼演示,生成後也直接調用colab演示。
以下是2.5 pro 生成的主播熱度動態演示效果,側重是代碼到生成的過程,至於內容準確性並沒有體現,但整體還可以參考。畢竟2023年的小楊哥還沒出事,還是直播帶貨領域的絕對一哥。
同時,我們測試了2.5 pro的深度推理能力,要求其生成一份具身智能報告。這份報告不是那種很虛、不能用的內容,而是具有一定的可讀性。
openai殺死攝影師
在openai展示的官方案例ai生圖中,第一個圖就足夠震撼。
如果不明說,恐怕任何人都猜不到,這張圖是ai生成的。畢竟反射畫面和密密麻麻們的文字,都在說ai不可能這麼神奇!
但實際上,這就是4o生成的ai圖片,openai放出它的提示詞如下。
這是用手機拍攝的玻璃白板的廣角圖像,拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字,她身穿一件印有大型 openai 標誌的 t 恤。筆跡看起來很自然,但有點凌亂,我們可以看到攝影師的倒影。
更神奇的是第二張圖片轉了人物朝向,生成的圖像還是毫無破綻,也放出來震撼下大家。如果你沒有gpt plus,那麼用gpt免費的圖片生成功能,其實已經能秒殺大部分文生圖產品了。這是鯨哥直接用上面同款提示詞生成的圖片。
同時,鯨哥也用google 2.0 flash模型,同款提示詞生成了同樣的圖。可以看到google不太有審美,手部細節也崩了。
但openai是不是為了官網案例特調,還需要以後全量上線模型,大家長期測試。
另外,4o的圖像生成指令也足夠強大,很多系統在處理約 5-8 個對象時會遇到困難,而 gpt‑4o 可以處理多達 10-20 個不同的對象。下圖就是4o在同一張圖上,生成了16個物體,每個都準確生成了用戶表達的內容,amazing!當然,對於類似google 2.0 flash的圖片編輯能力,4o也是不在話下。可謂精準狙擊了google剛火出圈的圖片編輯能力。
我們即將接近agi了嗎?
openai同時宣布,從今天起,chatgpt 和 sora 的所有 plus、pro、team 和 free 用戶都可以開始使用4o 圖像功能。
山姆奧特曼則表示,「chatgpt 中圖像的新版本仍在推出中,所以如果今天沒有獲得很好的圖像,請稍後再試 」。應該預示著將繼續整合多模態模型,以及產品端的融合。
有網友評論,4o圖像功能超越了數百家ai圖像公司。委實,甚至一些攝像和設計師等影像工作的飯碗,也將不保。
而對於google來說,gemini席捲的各種基準測試,在證明他的強大。實際體驗中,應該快速回答的問題很快回答,需要深度推理的問題也非常快速執行,一份報告、一份遊戲生成基本都在60秒以內。
鯨哥驚艷於它的速度,更驚訝這種融合模型帶來的體驗。不會再出現問個簡單問題,ai也去深度推理了。當然,2.5還不能生成圖片,也許下一步3.0,就會帶來這一能力。
google這波拉響了矽谷的ai軍備競賽,此前anthropic ceo稱,還有更強的大模型沒有放出,預計也會近期推出,防止claude 3.7無法維持領先。而openai在gpt 4.5發布會中,山姆奧特曼都沒有出現,也許意味著新的模型也會近期發布。
在這場openai和google對決的主角戲中,沒想到最著急的是埃隆馬斯克,他在x上發了多條內容,表明grok是更好的那一個模型。
馬斯克發布這張圖時說道:這是很重要的區別,嘲諷其他家模型撒謊和追求政治正確,而grok則追求真理。
馬斯克的出現,為今晚這場競爭增添了趣味因素。
就在deepseek v3剛剛拿回的頭牌中,google和openai展示了強大的競爭實力,而大家在你追我趕中,進一步拉近了agi的夢想。
也許就在不遠的某個夜晚中,agi就會突然降臨!
更多精彩內容,關注鈦媒體微信號(id:taimeiti),或者下載鈦媒體app