旺曉通:深入淺出解讀,輕鬆通曉技術
大家好!今天咱得聊聊人工智慧這圈的大新聞。現在大語言模型,就像雨後春筍一樣冒出來,大家都知道它們厲害,能聊天、能寫文章、能做題,可你知道它們的推理能力是咋一步步變強的嗎?最近,DeepSeek - AI搞出了個大動作,整出了DeepSeek - R1系列模型,這就好比給大語言模型的推理能力打了一針超強的「升級針」,直接讓它們的「智商」上了好幾個台階。這模型到底咋做到的?它又會給我們的生活帶來啥意想不到的變化?今天咱就好好扒一扒。
作者:張長旺,圖源:旺知識
一、大語言模型推理能力進化史:從蹣跚學步到健步如飛
咱先回顧一下大語言模型的推理能力是咋發展起來的。以前,這些模型就像剛學走路的孩子,磕磕絆絆。碰到稍微複雜點的問題,就抓瞎了。後來,大家發現用大量數據訓練能讓它們進步,就像給孩子請了好多家教,教了好多知識。但這也有個問題,數據量太大了,訓練起來又費時間又費錢,就像請了一堆家教,家裡快養不起了。
再後來,有了新辦法,就是在模型訓練好之後,再給它「開小灶」,這就是後訓練技術。比如說OpenAI的o1系列模型,通過增加思維鏈推理過程的長度,讓模型在推理的時候能像我們解題一樣,一步步地想,這一下效果就好多了。就好比孩子學會了有條理地思考問題,成績一下子就提高了。但這還不夠完美,怎麼在測試的時候讓模型更有效地發揮能力,還是個難題,大家都在絞盡腦汁想辦法。
二、DeepSeek-R1-Zero:不用「老師」教,自己摸索變強
在這個時候,DeepSeek - AI站出來了,搞出了DeepSeek - R1 - Zero模型。這個模型可太神奇了,它訓練的時候,居然不用那些「監督數據」,也就是沒有「老師」在旁邊告訴它對錯,自己通過強化學習就能慢慢變強,就像一個特別自律的孩子,沒有家長和老師盯著,自己就能努力學習進步。
它用的強化學習演算法叫GRPO,這演算法聽起來挺高深,實際上可以用一個有趣的例子來理解。想像一下,學校舉辦了一場解題大賽,每個學生就是模型給出的一個答案。GRPO就像是這場大賽的特殊評分規則。
比賽開始,老師從之前表現一般的學生(舊策略πθold)里挑出一組,比如5個學生,讓他們去解同一道數學題。這5個學生給出各自的解題思路和答案,就像模型針對一個問題生成了不同的回答。
然後,老師要開始評估新的「參賽選手」(新策略πθ)的表現。評估的時候,老師會對比新學生和之前那組學生的答案。如果新學生的解題思路更好、答案更準確,那他就能得到高分;要是解題思路和答案不咋地,分數就低。這裡的分數就類似GRPO里的「獎勵」。
比如說,有一道數學題是計算一個複雜圖形的面積。之前那組學生里,有的把圖形分割錯了,有的計算過程出錯,最後只有一個學生勉強算對了。這時候來了個新學生,他用了一種特別巧妙的方法,不僅把圖形分割得很合理,計算過程也又快又准。按照GRPO的規則,這個新學生就能得到很高的獎勵分。
但是,老師也不能讓學生們為了拿高分就「亂來」。就像在GRPO里,有兩個超參數ε和β來約束。ε就像是一個「行為規範線」,如果新學生為了拿高分,解題方法變得特別怪異、不合理,超出了這個規範線,老師就會限制他的得分。β則是用來衡量新學生和一個「模範學生」(參考策略πref)之間的差異,如果新學生和模範學生的解題思路差異太大,也會被扣分。
另外,計算每個學生的「優勢分」(Ai)也很有意思。老師會把這組學生的得分做個統計,算出平均分和標準差。如果某個學生的得分比平均分高很多,那他的優勢分就高;要是比平均分低很多,優勢分就低。這就好比在班級里,成績比平均分高很多的同學,在排名上就更有優勢。通過這樣的方式,GRPO就能引導模型不斷改進,給出更好的答案。
為了訓練這個模型,研究人員還給它設計了一個很有意思的模板。比如說,用戶問一個問題,模型得先在心裡「思考」一下,把思考過程寫在標籤里,然後再把答案寫在標籤里。這就好比我們做數學題,不能只寫個答案,得把解題步驟也寫清楚。
在訓練過程中,DeepSeek - R1 - Zero的表現就像坐了火箭一樣,蹭蹭往上漲。就拿AIME 2024這個數學競賽題來說,剛開始,它的通過率只有15.6% ,這成績確實不咋地。但經過幾千次的強化學習訓練後,它的通過率一下子漲到了71.0% ,要是用多數投票的方法,通過率能達到86.7% ,這成績都快趕上OpenAI的o1 - 0912模型了,簡直太牛了!
而且,這個模型在訓練過程中還會自己進化。它思考問題的時間越來越長,就像我們遇到難題,會多花點時間琢磨一樣。它還會自己反思,看看自己之前的思路對不對,有沒有更好的辦法,這種自我進化的能力太讓人驚訝了!不過呢,它也不是十全十美的,它的回答有時候不太好懂,還會出現語言混合的情況,就像一個人說話一會兒中文一會兒英文,讓人聽得有點懵。
三、DeepSeek-R1:吸取經驗,全面升級
DeepSeek - AI的研究人員一看,DeepSeek - R1 - Zero雖然厲害,但還有問題啊,得想辦法改進。於是,他們就搞出了DeepSeek - R1模型。這就好比給DeepSeek - R1 - Zero做了一次全面升級,讓它變得更完美。
為了解決DeepSeek - R1 - Zero的那些問題,DeepSeek - R1在訓練的時候,先用了一個小技巧,就是「冷啟動」。這就像我們開車,冬天的時候,車子得先預熱一下才能開得更順。DeepSeek - R1也是這樣,它先收集了幾千條「長思維鏈」的數據,用這些數據來微調模型,讓模型有個好的開始。這些數據都是經過精心設計的,可讀性很強,就像我們看的那些簡單易懂的科普文章一樣。
接下來,DeepSeek - R1就開始進行推理導向的強化學習。這個過程和DeepSeek - R1 - Zero有點像,但它還考慮了一個新問題,就是語言混合。為了讓模型說的話更「規矩」,研究人員加了一個語言一致性獎勵。比如說,如果模型在思考過程中,大部分用的是中文,就給它獎勵,要是一會兒中文一會兒英文,就不給獎勵。這樣一來,模型說的話就更清楚,更好懂了。
當推理導向的強化學習差不多收斂的時候,研究人員又做了一件事,就是用拒絕採樣的方法收集數據,然後進行監督微調。這就好比我們在一堆東西里挑挑揀揀,把不好的去掉,留下好的,再用這些好的東西來訓練模型,讓模型變得更厲害。
最後,DeepSeek - R1還進行了一次針對所有場景的強化學習。這次強化學習的目標是讓模型更符合我們人類的喜好,不僅要推理能力強,還要對我們有幫助,不會產生有害的內容。經過這一系列的操作,DeepSeek - R1的能力得到了全面提升,在很多任務上的表現都和OpenAI的o1 - 1217模型差不多,甚至在一些數學任務上還超過了它。
四、模型蒸餾:讓小模型也有大能量
DeepSeek - AI的研究人員還不滿足於此,他們又想到了一個新點子,就是把DeepSeek - R1的推理能力「複製」到小模型上,這就是模型蒸餾技術。這就好比把一個武林高手的內力傳給一個小徒弟,讓小徒弟也能變得很厲害。
他們用DeepSeek - R1生成了80萬條數據,然後用這些數據來微調一些開源模型,像Qwen和Llama系列的模型。結果發現,這些小模型經過微調後,推理能力有了很大的提升。比如說,DeepSeek - R1 - Distill - Qwen - 7B這個模型,在AIME 2024的測試中,通過率達到了55.5% ,比一些比它大的模型表現還好。DeepSeek - R1 - Distill - Qwen - 32B模型在很多測試中,成績都超過了之前的開源模型,和o1 - mini模型差不多。這說明模型蒸餾技術真的很有效,能讓小模型也有大能量。
五、實驗大揭秘:DeepSeek-R1到底有多強
為了測試DeepSeek - R1和那些蒸餾出來的小模型到底有多厲害,研究人員找了一大堆測試基準,像MMLU、MATH - 500、Codeforces這些,都是很有挑戰性的測試。
在知識類的測試中,比如MMLU、MMLU - Pro和GPQA Diamond這些測試里,DeepSeek - R1比DeepSeek - V3表現得好多了。這就好比一個學生,之前成績一般般,經過努力學習後,成績一下子提高了很多。在一些長文本分析的測試中,DeepSeek - R1也表現得很出色,說明它的理解能力很強。不過,在中文的SimpleQA測試中,DeepSeek - R1因為考慮了安全問題,有些問題它拒絕回答,所以成績比DeepSeek - V3差了點,但要是不考慮安全問題,它的準確率能超過70% 。
在數學和編程相關的測試中,DeepSeek - R1的表現就更厲害了。在AIME 2024和MATH - 500這些數學測試里,它的成績和OpenAI的o1 - 1217模型差不多,比其他模型都要好很多。在編程演算法的測試中,像LiveCodeBench和Codeforces這些測試里,DeepSeek - R1也表現得非常出色,就像一個編程高手,在比賽中輕鬆打敗很多對手。
那些蒸餾出來的小模型表現也很不錯。DeepSeek - R1 - Distill - Qwen - 7B模型在很多測試中都超過了像GPT - 4o - 0513這樣的模型,DeepSeek - R1 - Distill - Qwen - 14B模型在所有評估指標上都超過了QwQ - 32B - Preview模型,DeepSeek - R1 - Distill - Qwen - 32B和DeepSeek - R1 - Distill - Llama - 70B模型在大多數測試中都比o1 - mini模型表現得好。這些結果都說明,DeepSeek - R1和它蒸餾出來的小模型真的很厲害。
六、技術大討論:蒸餾和強化學習,誰更勝一籌
在研究過程中,研究人員還發現了一個很有意思的問題,就是蒸餾和強化學習,到底哪個對提升模型推理能力更有效呢?他們做了個實驗,用Qwen - 32B - Base模型進行大規模的強化學習訓練,訓練了1萬多步,得到了DeepSeek - R1 - Zero - Qwen - 32B模型。結果發現,這個模型的表現和QwQ - 32B - Preview模型差不多。但是,從DeepSeek - R1蒸餾出來的DeepSeek - R1 - Distill - Qwen - 32B模型,在所有測試中都比DeepSeek - R1 - Zero - Qwen - 32B模型表現得好。
這就好比兩個學生,一個學生自己努力學習(強化學習),另一個學生跟著一個學習特別好的同學(DeepSeek - R1)學習(蒸餾),結果發現跟著好同學學習的學生進步更大。這說明,把大模型的能力蒸餾到小模型上,效果真的很好,而且比小模型自己進行大規模強化學習更有效。不過,研究人員也說,要想讓模型的智能有更大的突破,可能還是需要更強大的基礎模型和更大規模的強化學習。
七、失敗乃成功之母:那些不太成功的嘗試
在開發DeepSeek - R1的過程中,研究人員也不是一帆風順的,他們也遇到了很多失敗和挫折。比如說,他們嘗試過用過程獎勵模型(PRM)來引導模型更好地解決推理問題。這就好比給學生一個解題的思路指南,讓他們按照這個思路去解題。但是在實際操作中,他們發現這個方法有很多問題。首先,在一般的推理中,很難明確地定義一個精細的步驟,就像我們給學生講題,很難把每一步都講得特別清楚。其次,判斷中間步驟是否正確也很困難,讓模型自己判斷吧,結果不太好,讓人手動標註吧,又沒辦法大規模進行。最後,用了基於模型的PRM之後,還容易出現「獎勵作弊」的情況,就是模型為了得到獎勵,走一些歪路,而且重新訓練獎勵模型又要花很多資源,讓整個訓練過程變得很複雜。所以,雖然PRM在某些方面有點用,但總體來說,它的問題比好處更多。
他們還嘗試過用蒙特卡羅樹搜索(MCTS)來增強模型在測試時的計算能力。這就好比我們走迷宮,每走一步都看看周圍有哪些路可以走,然後選擇一條最有可能走出迷宮的路。但是在訓練模型的時候,他們發現這個方法也很難。因為和走迷宮不一樣,模型生成的「路」(也就是答案)的搜索空間太大了,就像一個超級大的迷宮,很難找到出口。而且,訓練一個精細的價值模型也很困難,這個價值模型就像我們在迷宮裡判斷哪條路更好走的指南針,指南針不準,模型就很難進步。所以,雖然MCTS在和預訓練的價值模型一起使用時,能在推理時提高一點性能,但要想通過它來不斷提升模型的性能,還是個很大的挑戰。
八、未來展望:DeepSeek-R1的無限可能
現在,DeepSeek - R1已經很厲害了,但研究人員並不滿足於此,他們對未來有很多的計劃。
在通用能力方面,DeepSeek - R1現在在一些功能調用、多輪對話、複雜角色扮演和json輸出這些任務上,還不如DeepSeek - V3。研究人員打算利用長思維鏈來提升這些方面的能力,就像給模型多開幾門課,讓它變得更全能。
在語言混合方面,DeepSeek - R1現在主要是針對中文和英文進行優化的,遇到其他語言的問題時,就容易出現語言混合的情況。比如說,用戶用日語問問題,它可能會用英文來推理和回答。研究人員希望在未來的更新中解決這個問題,讓模型能更好地處理各種語言的問題。
在提示工程方面,研究人員發現DeepSeek - R1對提示很敏感,用少樣本提示的時候,它的性能會下降。所以,他們建議用戶在使用的時候,直接描述問題,用零樣本設置,這樣模型就能發揮出最好的水平。這就好比我們和人交流,說話越直接越清楚,對方就越容易理解我們的意思。
在軟體工程任務方面,由於評估時間太長,影響了強化學習的效率,所以DeepSeek - R1在軟體工程基準測試上,比DeepSeek - V3並沒有太大的提升。研究人員打算在未來的版本中,通過對軟體工程數據進行拒絕採樣或者在強化學習過程中加入非同步評估的方法,來提高效率,讓DeepSeek - R1在軟體工程領域也能大放異彩。
九、總結:DeepSeek-R1帶來的技術變革
總的來說,DeepSeek - R1系列模型的出現,真的給大語言模型的推理能力帶來了巨大的提升。DeepSeek - R1 - Zero通過純強化學習,展現出了強大的自我進化能力,雖然它還有一些小問題,但為後來的研究打下了很好的基礎。DeepSeek - R1則通過冷啟動、多階段訓練等方法,解決了DeepSeek - R1 - Zero的問題,讓模型的性能更上一層樓。而且,通過模型蒸餾技術,把大模型的能力傳遞給小模型,讓小模型也能在推理任務中表現出色。
這些技術創新不僅讓我們看到了大語言模型推理能力的巨大潛力,也為未來的人工智慧發展開闢了新的道路。也許在不久的將來,我們身邊的各種智能設備,像手機、智能音箱,都能用上這些強大的模型,為我們提供更智能、更貼心的服務。說不定以後我們的學習、工作、生活都會因為這些技術的進步而變得更加便捷、有趣。讓我們一起期待那一天的到來吧!
作者:張長旺 圖源:旺知識