阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵

2024年05月04日11:22:43 科技 3225

編輯部 整理自 aigc峰會

量子位 | 公眾號 qbitai

在過去一年中,通義千問系列模型持續開源。

不僅頻繁放出多種版本,涉及不同的規模和模態,成績在大模型競技場中也名列前茅。

比如目前最大的72b模型,表現就勝過了llama 2-70b和moe開源模型mixtral。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

而縱觀整個大模型行業,開源開放也正促進著aigc新應用的湧現。

過去一年,通義千問團隊都做了什麼,又有哪些經驗值得開源模型開發者參考?

中國aigc產業峰會上,阿里高級演算法專家林俊暘給出了他的答案。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

林俊暘參與了通義千問大模型的研發、開源、與外部系統融合等探索工作,還曾參與超大規模預訓練模型系列m6、通用統一多模態預訓練模型ofa等大模型的打造。

為了完整體現林俊暘的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。

中國aigc產業峰會是由量子位主辦的行業峰會,20位產業代表與會討論。線下參會觀眾近千人,線上直播觀眾300萬,獲得了主流媒體的廣泛關注與報道。

演講要點

開源大模型要更深地融入整個生態,才能給用戶帶來便捷的使用體驗。

除了基礎模型benchmark之外,多語言、長序列和agent能力,也是衡量大模型表現的關鍵指標。

大語言模型發展下去,終將變成多模態模型,因為一個非常智能的模型,不僅要有語言能力,還應該融入對視覺語音方面的理解。

以下為林俊暘演講全文:

融入生態,讓大模型使用更加便捷

相信國內朋友都聽說過通義千問的開源模型,我們從去年8月份開始一直開源,到現在我們開源的系列模型已經非常多了,剛開始先從7b、14b開始開源,直到現在1.5系列的72b版本,用戶使用下來的感覺還不錯。

當然,我們的1.5系列模型,涵蓋的規模非常全,除了72b還有0.5b、1.8b這樣的小規模版本,最新還有一個小的moe的模型,大概是14b的參數量,激活參數量大概是2.7b。

我們的模型現在在lmsys chatbot arena,也就是人工評測上面取得比較不錯的成績,在剛開始登榜的時候,我們是開源的第一名,剛剛才被千億參數的command-r-plus給超越。

如果只在相同規模中比較,那麼截止到現在(4月17日),我們的72b模型還是最好的。

除此之外,我們也聽從了開發者的建議,發布了32b模型,因為開發者反饋說72b模型太大,14b又好像還不夠用。

最新推出的這個32b模型也取得了比較不錯的成績,躋身到了前15的行列,表現非常接近72b的模型,跟moe架構的mixtral相比也具有一定優勢。

而除了不斷提高模型的表現,最近幾個月我們還做了一些不太一樣的事情,就是讓千問系列模型更好地去融入大模型生態,讓用戶使用起來更加便捷。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

具體的舉措有這樣幾點,第一是千問的代碼已經融入了hugging face的官方代碼當中,大家使用通義千問1.5的模型時就不需要再用transformer code來調用了。

除此之外,我們很多三方框架都做了比較好的支持,包括llama.cpp、vllm,現在還有像ollama也非常方便,都可以一鍵使用我們的模型。

如果你用lm studio,也可以從中使用我們的gguf的模型。如果想對我們模型進行微調的話,其實可以用到比如說axolotl以及國內的llama-factory等工具。

多語言和長文本能力是關鍵指標

接下來我會給大家詳細介紹一下我們模型的構成以及模型當前表現水平。

首先要看base language model是一個什麼樣的水平,因為只有基礎語言模型的表現好了,才能實現對齊,去進一步做一個比較好的模型。

我們各個size都做了對比,其中72b的模型在各個benchmark上的表現都比較有競爭力。

當然,我們現在開源模型跟gpt-4還會有差距,但是相比於此前的llama2-70b以及mixtral,都有比較明顯的優勢。

很長一段時間,如果大家關注hugging face open llm leaderboard,會發現其實有很多模型是基於我們的72b模型微調出來的,因為海外朋友很多非常喜歡微調這個模型,然後登到這個榜上去。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

同時我們不僅僅有7b及以上的大模型,也有小一些的模型,又叫做small language model這一塊,我們最小的模型參數量是0.5b,也就是5億。

我們還有像1.8b、4b這些規模的模型,跟phi-2、gemma-2b等模型相比的話,我們的模型都非常有競爭力。

另外一個方面是多語言的能力,我們此前的模型在qwen1的時候,沒有對多語言進行檢測,但本質上是多語言的模型。

大家可能會有一些想法,比如說阿里訓出來的模型就是中文的模型,或者是中英雙語的模型,其實不是這樣,我們最近對多語言能力做一些檢測,發現它的表現還不錯,所以我們進一步在這個基礎上做了多語言方面的對齊。

在12個比較大的語言上面去跟gpt-3.5相比,我們的模型表現都比較有競爭力。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

如果大家關注社交媒體,會看到有很多朋友在使用我們的多語言的能力。

從目前收到的一些反饋來看,它的越南語能力還不錯,還有人跟我說,孟加拉語也還可以。

最近還出現了一個模型東南亞語言模型salior,它是基於qwen1.5繼續訓練然後微調出來的。

而在小模型方面,有反饋說在法語上的表現不錯,家如果看chatbot arena法語榜上,qwen1.5表現也是非常有競爭力的。

在長序列方面,目前我們看32k長度上的表現是比較穩定的,有些模型size甚至可以通過外推的方式推的更長,接下來的版本也會有更長的上下文窗口。

我們除了做簡單的大海撈針的實驗之外,也對一些針對序列評測的榜單做評估,發現我們的chat模型在長序列方面,是可以做一些使用方面的東西。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

下一個部分就是常說的post-training,今天大家對大模型感興趣,主要也是因為post-training讓大模型的潛力爆發出來,能夠成為一個assistant來幫助我們。

我們在post-training做了非常長時間的工作,包括sft(指導監督微調),主要是在數據方面做了一些比較紮實的工作。

我們最近在dpo方面也做了比較多的工作,之後如果有機會會通過技術報告的方式跟大家分享更多相關的細節。我們做完這些之後,會發現模型在一些評測上面的表現更有競爭力。

除了人工評測之外,還有像mt-bench和alpaca-eval這樣的測試,我們模型的表現也都非常有競爭力,尤其是alpaca-eval。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

另一方面我們講agent方面的能力,這是我們一直非常關心的。

但我們剛開始給qwen系列模型做sft的時候,發現模型不太具備agent相關的能力。

解決的方式是做更多的數據標註,時間長了之後,經驗越來越豐富,就可以做一些agent相關的任務了。

下一站是多模態agent

今天我們還會關心另外一個問題,就是「大」模型對於很多人來說是不夠用的。

因為大模型發展下去,終將變成多模態的模型,因為一個非常智能的模型,應該能夠融入對視覺語音方面的理解。

過去幾年的時間裡,我們在多模態領域也做了比較多的工作,再把之前的一些經驗融入進來,就有了qwen-vl系列模型。

qwen-vl系列模型的訓練方法也相對來說比較簡單,分為三個階段。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

首先是非常紮實對齊的預訓練,實現視覺和語言模型的對齊,讓我們的語言模型能夠睜開雙眼看世界,能夠理解視覺方面的信息。

接下來是能力的注入和對齊,我們vl核心開發同學,他有一天剛好去醫院,對醫院密密麻麻拍了一個照問它說肚子疼去哪裡,模型把相關信息都能準確識別出來。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

這是今天vl模型跟過去不一樣的點,今天對ocr的識別比以往做的好很多。

在這個基礎上我們想做更加冒險的事情,比如說打造vl方面的agent,如果能成功的話,將會非常有吸引力。

比如說,如果想對手機屏幕進行操作,如果看到的是一堆代碼,那麼操作起來將會非常困難,而對人來說不管怎麼看、不管顏色、logo怎麼變我們都能理解,屏幕上面有哪些東西我們都能做出正確選擇。

所以我們也讓模型進行了一些嘗試,發現它能準確識別出來這些位置,所以我相信隨著vl模型水平不斷提升,在agent方面的潛力會越來越大。

如果讓我們模型看見世界,能不能讓它聽見呢?方法也非常簡單,簡單說就是把audio encoder接入我們的模型,再基於剛才所說的幾個階段進行訓練,就能得到非常好的效果。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

而能夠聽見聲音的大模型,可以做的事情非常多。

比如我在海外旅遊,到了某個國家去,不太會說當地的語言,希望有一款產品能幫我進行翻譯。

而在這種產品背後需要解決幾個問題,需要先對語音進行識別,然後再進行機器翻譯,這個過程其實非常麻煩。

但有了大模型之後,這樣的任務只需要一個prompt就能解決,並且還能翻譯成不同的語言,只需要跟模型交互就可以了。

除此之外,還有對自然聲音和音樂的理解,asr模型只能理解人的說話並轉成文字,但現實中的聲音包括自然聲音以及音樂等多種類型。

而我們的模型可以做音樂的賞析,聽到一段聲音就能寫出一首詩,可以看到大語言模型在多模態方面潛力十足。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

另外,今年非常重要的一個趨勢是大模型與視頻的結合,我們下一步會做出更多模態,其中視頻就是一個重點。

最後我做一個簡單的總結,我們現在的base模型和chat模型每一次都會推出幾個版本,最新的模型就在幾個小時前,還推出了code專項模型,叫做codeqwen 1.5,是一個7b規模的模型,在代碼方面的benchmark表現比較突出,大家可以去嘗試。

接下來我們會去做進一步的scaling,包括模型本身和數據的scaling,接下來還有模態方面的scaling,也就是接入更多的模態。

我們最終的目標是實現一個非常強大的大預言模型,能夠理解各種模態的信息,甚至實現不同模態的輸入和輸出。所以,接下來大家可以持續關注我們的進展。

阿里林俊暘:大模型對很多人來說不夠用,打造多模態Agent是關鍵 - 天天要聞

科技分類資訊推薦

人工智慧、深空宇宙、腦機介面……這場論壇帶你奔赴科技的星辰大海 - 天天要聞

人工智慧、深空宇宙、腦機介面……這場論壇帶你奔赴科技的星辰大海

5月17日「世界電信日」當天,2024搜狐科技年度論壇在北京舉辦。科技工作者與產業界領袖齊聚一堂,暢談人工智慧、深空宇宙、腦機介面等前沿科技,奔赴科技的星辰大海。  本屆論壇線上線下結合,開啟了全天的思想盛宴。搜狐創始人、董事局主席兼首席執行官、物理學博士張朝陽在致辭中表示,「科學是人類智慧的發現,科技工...
雷軍在杭州親自交付小米SU7:握手、鞠躬、送花 感謝每位車主 - 天天要聞

雷軍在杭州親自交付小米SU7:握手、鞠躬、送花 感謝每位車主

快科技5月18日消息,今天早上8:30,雷軍開啟了一場超過3小時的連續直播,駕駛小米SU7 Pro從上海世紀大道附近開往杭州。在杭州交付中心,雷軍親自為5位車主交付了SU7。雷軍還是保持了一如既往的高格局,向每一位車主鞠躬、握手,並送上花束,不斷的感謝車主。不過因為場地受限,所以並沒有像在北京工廠的首批交付上親自為車...
向「新」向好, 「星式生活」助推釋放消費活力 - 天天要聞

向「新」向好, 「星式生活」助推釋放消費活力

日前,隨著一張巨幅畫卷在上海豫園的中心廣場上展開,近百組家庭來到現場共同繪製「星式生活」畫卷,點亮「復星之星」。5月15日是國際家庭日,復星作為創新驅動的全球家庭消費產業集團,秉持讓全球家庭生活更幸福的使命,自2019年將「復星家庭日」設立在這一天,聯合生態內品牌回饋廣大用戶,通過多種年度權益日活動打造「...
「科普網紅」也能評上研究員,上海率先面向市場端開展科技傳播職稱認定 - 天天要聞

「科普網紅」也能評上研究員,上海率先面向市場端開展科技傳播職稱認定

走上2024上海科技節紅毯的「科技傳播紅人」「沒想到我能評上上海市科技傳播高級職稱。」接過證書,B站百大UP「稚暉君」、智元機器人科技有限公司創始人彭志輝驚喜地說。今天(18日)開幕的上海科技節舉行了全國首批科技傳播專業高級職稱獲得者授證儀式,除彭志輝外,還有網名「菠蘿」的科普作家李治中、「混子哥」陳磊等20...
部分用戶反饋蘋果 M4 iPad Pro 屏幕顆粒感問題 - 天天要聞

部分用戶反饋蘋果 M4 iPad Pro 屏幕顆粒感問題

IT之家 5 月 18 日消息,部分用戶在開箱體驗蘋果 M4 OLED iPad Pro 平板之後,反饋圖像看起來有顆粒感,部分用戶猜測可能是雙層串聯 OLED 技術錯位導致的。不過也有用戶反饋這個問題可能是 Mura Effect 導致的,這是所有 OLED 屏幕的通病,主要是因為亮度 / 顏色不均勻導致的。當薄膜晶體管(TFT)向 OLED 顯示屏提供不
做車和手機哪個難?雷軍解讀與華為競爭關係,點評蘋果造車失敗原因 - 天天要聞

做車和手機哪個難?雷軍解讀與華為競爭關係,點評蘋果造車失敗原因

騰訊汽車訊 5月18日消息,今日早間8:30,小米集團創始人雷軍開啟駕駛小米SU7 Pro版車型的直播,測試小米SU7的城市NOA和高速NOA表現。在談到做車和做手機哪個更難時,雷軍稱,手機行業中,目前還在牌桌上的公司能力都很強,比如蘋果、三星、華為等。雷軍坦稱與華為手機的競爭很激烈,但在內部多次強調感謝有華為這樣的高水平...
「科普網紅」也能評上研究員   上海率先面向市場端開展科技傳播職稱認定 - 天天要聞

「科普網紅」也能評上研究員 上海率先面向市場端開展科技傳播職稱認定

圖說:科普網紅「菠蘿君」(左)和「混子哥」陳磊,B站up主「稚暉君」等 新民晚報記者 陶磊 攝新民晚報訊(記者 馬亞寧)科普網紅也能評上研究員。清華本科畢業,海外博士深造,回國後一頭扎進癌症科普,成為一名自由科普人的網紅「菠蘿君」,在今天開幕的2024年上海科技節上,驚喜地獲得上海市科技傳播高級職稱。他是全國...
5G目前布局如何?多家運營商公布新進展 - 天天要聞

5G目前布局如何?多家運營商公布新進展

昨天,在寧波舉行的世界電信和信息社會日大會上,中國移動、中國電信、中國聯通、中國廣電共同啟動了5G異網漫遊商用推廣。  我國啟動5G異網漫遊商用推廣  5G異網漫遊是指用戶所屬運營商無5G網路覆蓋時可接入其他運營商的5G網路,繼續使用5G服務。用戶在開通5G異網漫遊的區域,使用支持5G異網漫遊的終端,不用換卡換號就...
四川聯通重磅發布「家庭寬頻全光普及行動」——讓全光寬頻走進千家萬戶 - 天天要聞

四川聯通重磅發布「家庭寬頻全光普及行動」——讓全光寬頻走進千家萬戶

5月17日,四川聯通寬頻新變革發布會暨四川聯通第6屆國企開放日在成都召開。會上,四川聯通發布「家庭寬頻全光普及行動」並舉行啟動儀式,助力四川家庭加速步入全屋千兆光網的智慧家庭新生活。國家「十四五」規劃綱要明確提出,要加快5G網路規模化部署,推廣升級千兆光纖網路。根據今年4月工信部公布的2024年一季度我國通信...