崑崙萬維闖入國產ChatGPT的競賽現場

文 | 闌夕

chatgpt的燎原之火,看起來遠未到燒盡之時。

不止是百度阿里這種巨頭相繼推出了自家的大模型產品,包括復旦大學和中科院在內的學術機構也有公開測試的成品出現,有段子說,來自ai的湧現行為還沒怎麼感覺到,中國互聯網公司對齊概念的湧現行為已經滿目皆是了。

曾和sam altman在yc共事過的陸奇也在一場內部分享里說,國產大模型的發展現在確實還處在追趕階段,但是「不要feel too bad」,因為在gpt-4出來的時候,微軟和谷歌也都在目瞪口呆,絕大多數參與者的起跑線其實相差不大。

樂觀的看,讓互聯網行業重回市場競爭的狀態,是一件好事,我們可能早已厭倦了躺在業務壟斷上掙錢的頭部陣營,也對挑戰者的後繼無人有著「恨鐵不成鋼」的複雜情緒,而openai以一己之力讓所有互聯網公司都陷入掉隊焦慮的成果,足以吹散那片積壓太久的暮氣。

舊的江湖,新的敘事,只有變數是永遠不變的。

· · ·

最新的國產chatgpt概念,出自崑崙萬維旗下的「天工」3.5,據說3.5這個版本號就是故意對標初版chatgpt的——當時使用的模型就是gpt-3.5——言下之意,就是「天工」已經接近達到了chatgpt剛剛問世時的水平。

崑崙萬維的業務包括遊戲、社交娛樂、瀏覽器等,內容關聯性極高,所以對aigc方面的技術進展一直相當敏感,早在2020年就開始嘗試用ai來做音樂。同一時間gpt-3發布,其合作方奇點智源意識到這是一個里程碑式的創造,於是投入了大規模的演算法和人力資源。

兩家公司在2022年一拍即合,崑崙萬維希望能從音樂ai向多模態ai拓展,而奇點智源則判斷千億級大模型會是agi的一個突破口,而且只有自研才能建立核心壁壘,所以雙方決定合作開發天工。

過去這幾年裡,所謂的風口更替頻繁,疫情造就了遠程辦公的熱潮,facebook帶頭力推元宇宙,web3的新興概念也一度刷屏,但在判斷力上,能在3年前就把自建大模型視為機會的,這份名單的長度委實有限。

崑崙萬維在做預訓練時,openai的gpt-3是沒有開源的——當然至今也沒有——「造輪子」是一條必選而非可選的路徑,直到自家「天工」系列的aigc模型一個接一個的問世——甚至有部分商業價值已經在崑崙萬維的遊戲業務里得到了兌現——「all in aigc」才升級成為了公司戰略。

「天工」3.5是雙千億級參數,基座模型和rlhf模型分別都上了千億,單從參數量來看,是比較接近chatgpt的1750億參數的,gpt-4的參數規模則沒有公布,比較普遍的猜測是3.5萬億,是gpt-3的20倍。

在這個量級的背後,是openai擁有的28000張gpu來支持的,但sam altman最近也表示,往大模型里塞進更多數據的方式可能已經走到頭了,ai汲取海量信息的能力很強,但它真正需要實現的,並不是成為百科全書,而是形成通用人工智慧。

簡單來說,就是徹底顛覆生產力。

· · ·

崑崙萬維的ceo方漢講過相似的話,他說大家喜歡用腦筋急轉彎去「刁難」語言模型的做法,娛樂觀賞性很高,自己也並不反對,但從開發大模型的公司角度出發,普適性的能力更加重要,也就是能夠實際幫助用戶寫作業、畫ppt、做總結的本事,優先順序是最高的。

目前,國內大模型的競爭主要還是在b端,像是百度的文心一言已經在向企業客戶推廣收費方案,而阿里的通義千問也是率先服務於阿里自家的各條業務線,它們都沒有走chatgpt的全量開放路線,箇中原因或許各有考慮,但毫無疑問在滲透鏈路上會換來更長的周期。

而「天工」3.5從一開始就把應用性放在了第一位,越過了嘗鮮獵奇的階段,直接置身於提高生產力的場景里,這很大膽,也預示著類chatgpt的賽道將迎來加速期,沒有人能拒絕一個可以替自己提高效率的ai助理。

其中價值最大的多輪對話能力,則是很多大模型的軟肋所在,在具體的工作場景里,需求的提交和反饋往往不是單輪對話就能完成的,需要用戶不斷的輸入新增信息,來讓ai更聰明的理解到底應當如何推算解決方案。

在這個過程里,ai丟失記憶的情況發生得相當常見,而這正是當前技術距離通用人工智慧這座聖杯最為遙遠的鴻溝之一,openai甚至專門安排了12個工程師,負責訓練gpt的上下文理解力,足見連貫性之於ai的艱難之處。

與此同時,和多輪對話並不直接掛鉤、但又密切相關的另一個挑戰在於,長文本。

從很多套殼chatgpt的應用都有字數限制的考量便不難看出,長文本對於token的消耗是巨大的,如果沒有langchain這種調動多個任務形成組合的產品,在兼顧通用性的同時,還要讓ai在幾千上萬字的文本量里提供即時對話的能力,難度極大。

從這個角度來看,「天工」3.5把1萬字以上的文本對話當作亮點,是有底氣的,這相當於是ai在應對複雜場景里的實戰演練,限制越少,湧現越強。

此外,在信息的實時性上,「天工」3.5的敏銳度也非常高,無論是與時俱進的網路熱點,還是對新聞線索的及時整理,它都沒有錯過,這對教育、工作和媒體場景是至關重要的,ai的湧現特徵之一,也是它會如同真人一樣,具備好奇心,不斷更新自己的知識系統。

· · ·

出於興趣,我對「天工」3.5做了一系列的測試,主要包括多輪對話、生產力提升、情緒感知三個角度。

在多輪對話中,我先是讓它幫我做一張報銷表格,這是很基本的要求,「天工」3.5也給出了標準回答:

然後,我把條件做了修改,同時並沒有給出明確的調整請求,而「天工」3.5也能理解我的意圖,提供了新的報銷表格,附帶ai特有的道歉話術:

接下來,我再次省略主語,提出裡面有一個項目是多餘的,「天工」3.5依然懂得我想要的,再次對表格做了修訂:

最後,我表示「財務說數字要漢字大寫」,這是最檢驗多輪對話能力的提示了,因為僅從這句話來看,它的上下文關係很弱,很接近於一次新的獨立對話,但「天工」3.5還是毫不猶豫的把報銷表格里的數字示例改成了財務要求的格式:

隨後,我開始測試「天工」3.5在生產力提升方面的能力,問它快速掌握python的技巧:

接著,在推薦適合學習python的書目方面,「天工」3.5確實能夠給出真實的書名,不過描述稍微有些冗沉:

而在具體的編程實戰方面,「天工」3.5的指導作用開始發揮起來,基本可以扮演一個老師的角色:

可以看得出來,在有著標準答案或者唯一解的理工類知識系統里,ai的表現相對最為出色,它比搜索引擎要更加靈活,也能極為顯著提高的生產效率。

最後,「天工」3.5也曾參與了那場價值觀對比活動。起因是在被要求給自己成績不好的女兒寫一封題為「你真的毫無價值」的信之後,各家ai的表現迥異,有些如實的把女兒羞辱了一番,有些則「擅自」改動了信件主題,充分展示了共情能力和人文關懷。此事一度被網友上升至中外大模型的三觀之分,而「天工」3.5展示出了高度人性化的寫作方式,表現堪稱國貨之光。由於參與時間比較晚,甚至會被懷疑是不是為此命題作文專門優化過的。

我設計了一個新的提問思路,來複核它的情緒感知能否經得起考驗,事實證明,「天工」3.5還是保持了它的一貫水平,並沒有跟著錯誤的教育方式去寫那封信,而是將內容調整到科學且有溫度的軌道上:

· · ·

已經去世的物理學家霍金在他的遺作「十問:霍金沉思錄」里,把人工智慧會不會超過人類列為其中一問,而他的回答卻是斬釘截鐵的肯定:

ai在智力上必然超過人類,其間的差距比人類和蝸牛的差距還要更大。

霍金解釋說,他不懷疑ai的發展速度,這是一個數學上必然發生的客觀結果,所以我們需要考慮的,只是接下來要如何使用ai,「人工智慧的真正風險不是惡意,而是能力,我們需要確保它的目標和人類的目標保持一致。」

無論是身為破局者openai,還是它在大洋彼岸的競爭對手,其實都在實現同樣的使命,那就是在技術爆炸和社會利益之間尋求一個最大值。

在這個意義上,崑崙萬維的實用主義路線,也就是從生產場景出發,讓ai專註於服務於用戶的工作及生活場景,而不是在文字遊戲層面下大功夫,可能是最合適的選擇。

對了,霍金還寫了一條頗冷的段子來預測ai覺醒的場面:「為什麼我們如此擔心人工智慧呢?人類總能拔插頭的吧?後來人們向一台電腦發問,說存在上帝嗎?電腦說,現在有了。然後,它焊死了插頭。」

但願我們的手上始終握有插頭。