阿里通義實驗室黃斐：開源進入千問時代，即將發布的推理模型會更好用

分類：科技

瀏覽數：3269

2025-02-21

阿里通義千問已成全球第一大開源模型系列，將「很快」放出基於最新模型qwen2.5-max的推理模型。

2月21日，全球開發者大會（gdc）在上海開幕，在阿里雲魔搭社區主辦的論壇上，據阿里巴巴通義實驗室科學家黃斐介紹，到目前為止，整個通義千問（qwen）系列模型的下載量達到了1.8億，累計衍生模型總數達到9萬個，衍生模型數已經超越meta的llama系列，成為了全球第一大開源模型系列，並在hugging face等第三方榜單和用戶反饋上也取得了不錯的成績：「所以現在開始，我們就是一個千問的時代，而不是之前llama的時代了。」

今年1月底，阿里發布了ai基礎大模型千問旗艦版qwen2.5-max，在多項權威基準評測中處於業界領先水平。黃斐表示，qwen2.5-max的性能已經超越了deepseek-v3，不過沒有超越作為推理模型的deepseek-r1，正如阿里巴巴集團ceo吳泳銘此前所透露的那樣，通義千問正在qwen2.5-max的基礎上建立推理模型，「很快就會把這個模型放出來」。

據黃斐介紹，qwen2.5已經開放了7個不同規模的dense（稠密）模型，基於傳統的transformer架構，從規模最小的0.5b到最大的72b，不同大小的模型會有不同的能力和速度，以適配不同場景的需求。同時，在千問系列的迭代中，預訓練數據的大小已經從qwen1.5-72b時的3t迅速增長到了qwen2.5-72b的18t，通過規模化法則（scaling law）達到了很好的效果。

此外，qwen2.5還包括3個採用moe（混合專家模型）架構的api（應用程序編程介面）模型，在dense模型的基礎上「加寬加大」以減少訓練代價，用戶可以通過api去調用，包括turbo、plus和max這三個版本。

除了為用戶提供充分的選擇以外，黃斐還揭露了另一個讓千問系列如此受歡迎的「秘訣」，即其支持包括中英文、日語、韓語、西歐各國語言在內的超過29種語言：「千問現在在東南亞國家也用得非常多，在多語言支持上會比其他模型好很多。」

對於未來的發展方向，黃斐談到推理模型、「smarter models（更智慧的模型）」和全能模型（omni models）。黃斐解釋道，接下來放出的千問推理模型「會比大家現在能用到的更好一些」，而「更智慧的模型」不僅會更聰明，還包括了更快的響應和更低的成本。全能模型則是指能將多模態混合的模型，在輸入輸出方面更加自由。

黃斐認為，在模型之外，ai agent（智能體）也是一個需要重點關注的領域：「未來的一段時間內，ai agent一定也是一個比較火熱的話題。它能夠幫助我們解決比較複雜的任務，尤其是結合近期推理模型的發展，我相信最終很多行業都可以運用到這個模型的能力，去完成現在只能由人完成的任務。」

據魔搭社區技術負責人陳穎達在該論壇上的介紹，自2022年11月創建以來，目前，魔搭社區的模型總量已超過4.5萬個，涵蓋llm、對話、語音、文生圖、圖生視頻、ai作曲等多個領域，魔搭社區已經服務超過1100萬開發者。

在21日的gdc大會上，阿里雲魔搭社區首發階躍星辰最新開源的兩款多模態模型，包括全球參數量最大的開源視頻生成模型step-video-t2v，以及業界首款產品級開源語音交互模型step-audio。其中，step-video-t2v是基於300億參數的文本轉視頻預訓練模型，能夠生成高達 204 幀的視頻；step-audio則是業界首個產品級開源語音模型，參數規模達1300多億。目前，這兩款模型均可在魔搭社區下載和體驗。

2月20日晚間，阿里巴巴集團公布新季度業績，該季度營收2801.5億元，預估2773.7億元，同比增長8%。阿里雲季度營收317.42億元，同比增長13%，公共雲收入持續兩位數增長，ai相關收入連續六個季度三位數增長，調整後ebita增長33%至31.38億元。

阿里巴巴集團ceo吳泳銘在財報會上表示，面向未來，阿里巴巴將繼續專註三大業務類型：國內外電商業務、ai+雲計算的科技業務、互聯網平台產品。未來三年，阿里將圍繞ai這個戰略核心，在ai基礎設施、基礎模型平台及ai原生應用、現有業務的ai轉型等三方面加大投入。其中，集團未來三年在雲和ai的基礎設施投入預計將超越過去十年的總和。

科技分類資訊推薦