阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強

2024年03月26日17:55:13 科技 1240

大模型應用Kimi智能助手火了,隨之“Kimi概念股華策影視在3月20日至22日連續三天20%的漲停板。消息面上,其運營公司月之暗面3月18日宣布Kimi長上下文窗口技術突破至200萬字。

但200萬字並非大語言模型的極限。3月22日,阿里雲旗下的通義千問宣布“重磅升級”,向所有人免費開放1000萬字的長文檔處理功能。3月23日凌晨,360智腦也宣布繼2月29日360AI瀏覽器開放100萬字長文本閱讀功能之後,500萬字長文本處理功能也即將入駐。

巨頭鏖戰為何選擇長文本,大模型長文本能力靠的是什麼?3月24日至26日,新京報貝殼財經記者採訪了多位大模型行業從業人員、學者,了解到大模型要實現長文本功能在算法和算力上都面臨著挑戰,但在上線長文本功能上,通過調優算法或者通過算力“大力出奇蹟”甚至使用RAG(檢索增強生成技術,是對大型語言模型輸出進行優化的方法,使其能夠在生成響應之前引用訓練數據來源之外的知識庫),都可以打造出該體驗。

因此,貝殼財經記者對目前支持上傳文檔分析的大模型進行了實測,包括Kimi、智譜清言、通義千問、文心一言、訊飛星火和360瀏覽器AI助手,發現目前雖然許多大模型都能夠分析文檔,但生成的內容質量良莠不齊,上傳文件大小或上傳文件格式也存在限制。

為何選擇長文本?長是否可保證“精”?

實際上,各個大模型對長文本的爭奪很早就開始了。百川智能、零一萬物等都曾以長文本領先業界為其宣傳噱頭,“可以上傳一部《三體》(第一部20萬字)”“可上傳《百年孤獨》(近30萬字)”。

不過,在實際應用上因長文本等功能率先在關注度上“脫穎而出”的還是月之暗面旗下的Kimi智能助手。根據七麥數據,該APP在效率(免費榜)排名從1月14日的436名提升至3月19日的11名。2月份訪問量達到近300萬次,流量增長104.99%。分別位列AI產品國內總榜Top3和全球增速榜Top1。其還引發了“Kimi概念股”的走紅。

對於長文本功能,月之暗面CEO楊植麟很早就提出了自己的設想,“通往通用人工智能AGI)的話,無損的長上下文將會是一個很關鍵的基礎技術。歷史上所有的模型架構演進,本質上都是在提升有效的、無損的上下文長度。上下文長度可能存在摩爾定律,但需要同時優化長度和無損壓縮水平兩個指標,才是有意義的規模化 。”

在他看來,長文本作為月之暗面“登月”的第一步,是新的計算機內存,很本質,個性化並非通過微調實現,上下文定義了個性化過程。楊植麟還認為,大模型的馬拉松剛開始,接下來會有更多差異化。

對於長文本功能,中國人民大學高瓴人工智能學院長聘副教授,曾主導研發算法生成人類史上第一本人工智能詩集《陽光失了玻璃窗》的宋睿華告訴貝殼財經記者,長窗口在計算效率上有一些挑戰,但技術進步也不是線性的,月之暗面解決掉一些性能上的問題,確實可以一下子做到很長。另外,和它專註做長窗口有關,其他一些模型可能覺得那麼長沒有太多需求。

不過,隨着Kimi的持續火爆,越來越多的大模型也開始了長文本領域的“軍備競賽”:3月18日至23日,Kimi和通義千問、360AI瀏覽器先後宣布將支持200萬、1000萬以及500萬字的長文本功能。其中,Kimi和360AI瀏覽器的相關功能處於內測和“即將推出”狀態,而通義千問已經可以直接支持1000萬字的文檔上傳了。

對此,新京報貝殼財經記者將一部400萬字左右的網絡小說《詭秘之主》TXT文檔上傳至了通義千問,並對其提出了問題,通義千問很快做出了回復,不過其內容並非百分之百準確,如其在回答中搞混了該小說中“途徑”和“序列”的區別,不過對於一些重點問題還是給出了正確的回答。

阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強 - 天天要聞

在通義千問中上傳400萬字文檔後對其提問的回答結果截圖。

而記者將同樣的文檔上傳至Kimi智能助手和360AI瀏覽器,則發現該文檔字數超過了Kimi的字數限制,Kimi只能閱讀前4%的內容,不過其回答得更加詳細。而360AI瀏覽器則不支持上傳TXT或Word格式,只支持上傳PDF格式。

阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強 - 天天要聞

Kimi智能助手閱讀部分文檔後,對提問結果的回答截圖。

3月24日,某大模型廠商研究機構負責人告訴新京報貝殼財經記者,長文本的挑戰在算法上主要是要加大訓練參數規模的問題,大模型的本質是算概率,長文本的學習主要依靠對複雜文本的概率模型變化,所以為了保證效率算法調優是關鍵,當然如果算法搞不定也可依靠算力大力出奇蹟,因此大廠通過“堆資源”的方式很快就能挑戰Kimi的長文本功能。

有AI大模型的用戶表示,長文本功能在許多場景都極具吸引力,如從冗長的公司財報中找到有價值的信息、上傳自己撰寫的小說尋求修改意見、總結會議紀要內容等,但對於一些對內容準確度要求高的工作,大模型還只能起到輔助作用,畢竟由於AI生成本身的“幻覺”問題,難保不會出現數據錯誤,因此還需要人最後再檢查一遍。

實測長文本能力總結書籍、財報各有千秋 遺忘問題難解

貝殼財經記者發現,目前大多數大模型已經支持文本上傳功能,例如對於12萬字左右的PDF格式《中國移動有限公司2023年年度報告》,文心一言、360AI瀏覽器、Kimi、訊飛星火均可以進行分析,而智譜清言可以上傳但顯示“本次回答已被終止”,通義千問也可以上傳但顯示“由於當前的交互模式限制,我無法直接訪問或解析PDF文件內容。”

記者橫向比較財報分析內容發現,當要求“根據財報文檔分析中國移動業績情況,以及其營收的主要增長點”時,大部分模型都給出了最重要的營收和凈利潤數據,不過在分析營收增長點時,不同的大模型側重點也不同,如Kimi側重於個人市場、家庭市場、政企市場的營收,文心一言和訊飛星火均側重於無線上網業務、有線寬帶業務的營收,360則泛泛提到了營收正在增長。

阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強 - 天天要聞

文心一言對《中國移動有限公司2023年年度報告》的分析結果截圖。

阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強 - 天天要聞

Kimi對《中國移動有限公司2023年年度報告》的分析結果截圖。

阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強 - 天天要聞

360AI瀏覽器對《中國移動有限公司2023年年度報告》的分析結果截圖。

阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強 - 天天要聞

訊飛星火對《中國移動有限公司2023年年度報告》的分析結果截圖。

而對於8萬字的Word格式《牛津通識讀本》,上述大模型中除360AI瀏覽器不支持該格式上傳外,其餘大模型均可以進行內容總結和分析,其中總結的內容大同小異。

阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強 - 天天要聞

通義千問對《牛津通識讀本》的解析結果截圖。

阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強 - 天天要聞

360智譜對《牛津通識讀本》的解析結果截圖。

對於長文本能力的測試,AI科學家、硅谷創業者賈揚清認為,從嚴謹科研的角度,目前大海撈針的benchmark(基準測試)已經無法準確評價算法的優勢。他認為,可以寫一份從1到9999的數列,並隨機在中間調換兩個數字的位置,然後讓大模型來尋找順序錯亂的一個,“目前還沒有找到穩定能成功的大模型”。

對此,貝殼財經記者準備了包含從1到999順序排列數字的一行Word文檔,並將其中569和568兩個數字的順序對調,結果發現上述大模型中,360AI瀏覽器和通義千問無法解析內容,訊飛星火先顯示只能“數”到527後表示沒有兩個順序不同的數字,而Kimi則“一口咬定”順序不同的數字是21和22以及999和1000。只有智譜清言和文心一言給出了正確的答案。

阿里360月之暗面角逐長文本 記者實測國內大模型長文本哪家強 - 天天要聞

對大模型長文本解析能力的數字測試截圖。

對於大模型的長文本能力,有致力於雲廠商AI生態合作的從業者對貝殼財經記者表示,其實很多AI可以做成怎麼樣(包含但不限於長文本),看學術論文就能看到方法,但確實要實現方法不是人人都能做到,做到的效果也未必都一致,並不一定是越長越好,“現在宣傳的長文本並不等於該公司有那麼長文本的模型。對用戶界面就是上傳個PDF之類的,並不能看出背後的模型的能力。不排除是用RAG或其他方式打造出來的體驗。”

在採訪中,有多位AI從業者認為,目前,長文本能力或可以成為大模型公司吸引市場關注,贏得競爭的路徑之一,不過要做好“長”“准”、成本三者之間的平衡,還需要不斷摸索。

記者聯繫郵箱:[email protected]

新京報貝殼財經記者 羅亦丹

編輯 岳彩周

校對 柳寶慶

科技分類資訊推薦

深圳綜改再升級,多個領域有重大利好丨深政一周 - 天天要聞

深圳綜改再升級,多個領域有重大利好丨深政一周

本周,由中共中央辦公廳、國務院辦公廳印發的《關於深入推進深圳綜合改革試點 深化改革創新擴大開放的意見》於6月10日正式對外發布,深圳再迎政策利好。《意見》聚焦四大領域,再推出一批改革措施、落地一批創新試驗、深化一批開放舉措。就在《意見》發布後的第一時間,6月11日,深圳市委常委會召開擴大會議,同時套開市委...
英特爾啟動新一輪裁員 - 天天要聞

英特爾啟動新一輪裁員

6月15日消息,據外媒Oregon Live報導,英特爾已經於本周向員工發出通知,將從今年7月中旬起,開始裁減位於俄勒岡州Silicon Forest園區的晶圓廠人員,首輪裁員預計將於7月底前完成,而且可能會啟動第二波裁員。根據英特爾內部信件,公司正針對Intel Foundry 製造事業部進行重組,並更聚焦於工程和技術職位(例如精簡中階管理...
Synopsys重啟部分中國服務,但核心EDA銷售仍受阻 - 天天要聞

Synopsys重啟部分中國服務,但核心EDA銷售仍受阻

據路透社最新報道,美國EDA及半導體IP大廠Synopsys(新思科技)近日已經恢復了在中國的部分服務,但是核心EDA工具仍無法供應。今年5月29日,美國商務部工業和安全局(BIS)向包括Synopsys、Cadence、西門子EDA在內的EDA大廠發出了新的對中國出口管制通知函,該通知函廣泛禁止這些廠商在中國銷售產品和服務。Synopsys CEO Sas
“不想搞事就選英特爾!”安安穩穩的intel微星全家桶來啦! - 天天要聞

“不想搞事就選英特爾!”安安穩穩的intel微星全家桶來啦!

作為攢機圈的老炮,今天我要給各位推薦一套真正"安安穩穩"的Intel平台配置——以微星全家桶為核心,搭載最新的酷睿Ultra 7 265K處理器、微星MPG Z890 EDGE TI WiFi刀鋒鈦主板、MPG A1000GS PCIe5電源和MAG CORELIQUID I360 White白色水冷,再配以MAG PANO 100L PZ機箱。這套配置不僅
新能源車保險,為啥又貴又難買?車企“兩面派”,保險公司只認錢 - 天天要聞

新能源車保險,為啥又貴又難買?車企“兩面派”,保險公司只認錢

最近兩年時間,國內新能源汽車的保有量和滲透率都呈現了明顯增長的態勢,很多新能源汽車,賣得又貴又好,國內市場也成為全球範圍內,新能源汽車普及最為快速的市場,甚至沒有之一。新能源汽車智能化程度高、費用低、性能表現優秀,成為了很多小夥伴購買新能源汽車的原因,尤其是省
22款車降價,比亞迪真綳不住了?可能在下盤大棋,兩個苗頭已出現 - 天天要聞

22款車降價,比亞迪真綳不住了?可能在下盤大棋,兩個苗頭已出現

最近一段時間,關於比亞迪的各種信息,可以說甚囂塵上,其中首當其衝的,就是比亞迪22款新車大補貼,海鷗等車型的補貼後價格來到了5萬級別,最高降價幅度超過了5萬元,可以說這是2025年規模最大的一次降價,非常符合比亞迪“火力覆蓋”的特性,當然也有一些車企已經跟進,
新增哨兵功能+沙地模式:坦克500 Hi4-Z第二次OTA開啟推送 - 天天要聞

新增哨兵功能+沙地模式:坦克500 Hi4-Z第二次OTA開啟推送

快科技6月15日消息,坦克500 Hi4-Z的第二次OTA更新已經開啟推送,此次更新為車輛帶來了兩項重要的新功能。第一,哨兵模式和優化後的沙地模式。哨兵模式能夠實現全車360度環視監控,全天候為車輛“站崗”。當有人員靠近停留或車輛檢測到震動時,該模式將被觸發。如果識別到低風險事件,中控屏會彈出告警動畫,以此警示可疑人...
曾經爆火的黃燜雞米飯,他經營了9年,這次的遭遇有點懵 - 天天要聞

曾經爆火的黃燜雞米飯,他經營了9年,這次的遭遇有點懵

錢老闆的黃燜雞米飯店開在杭州餘杭一個寫字樓外圍說是經營9年了2月中旬有人來做推廣結果遇到了問題錢老闆:3月1號之前入駐免配送費的,2月28號正式開始開通京東外賣,他們說會自動到賬到我銀行卡上,不用操作提現。記者:實際上呢?錢老闆:實際上自己