明敏 發自 凹非寺
量子位 | 公眾號 qbitai
最新國產開源moe大模型,剛剛亮相就火了。
deepseek-v2性能達gpt-4級別,但開源、可免費商用、api價格僅為gpt-4-turbo的百分之一。
因此一經發佈,立馬引發不小討論。
從公布的性能指標來看,deepseek-v2的中文綜合能力超越一眾開源模型,並和gpt-4-turbo、文心4.0等閉源模型同處第一梯隊。
英文綜合能力也和llama3-70b同處第一梯隊,並且超過了同是moe的mixtral 8x22b。
在知識、數學、推理、編程等方面也表現出不錯性能。並支持128k上下文。
這些能力,普通用戶都能直接免費使用。現在內測已開啟,註冊後立馬就能體驗。
api更是是骨折價:每百萬tokens輸入1元、輸出2元(32k上下文)。價格僅為gpt-4-turbo的近百分之一。
同時在模型架構也進行創新,採用了自研的mla(multi-head latent attention)和sparse結構,可大幅減少模型計算量、推理顯存。
網友感嘆:deepseek總是給人帶來驚喜!
具體效果如何,我們已搶先體驗!
實測一下
目前v2內測版可以體驗通用對話和代碼助手。
在通用對話中可以測試大模型的邏輯、知識、生成、數學等能力。
比如可以要求它模仿《甄嬛傳》的文風寫口紅種草文案。
還可以通俗解釋什麼是量子糾纏。
數學方面,能回答高數微積分問題,比如:
使用微積分證明自然對數的底e 的無窮級數表示。
也能規避掉一些語言邏輯陷阱。
測試顯示,deepseek-v2的知識內容更新到2023年。
代碼方面,內測頁面顯示是使用deepseek-coder-33b回答問題。
在生成較簡單代碼上,實測幾次都沒有出錯。
也能針對給出的代碼做出解釋和分析。
不過測試中也有回答錯誤的情況。
如下邏輯題目,deepseek-v2在計算過程中,錯誤將一支蠟燭從兩端同時點燃、燃燒完的時間,計算成了從一端點燃燒完的四分之一。
帶來哪些升級?
據官方介紹,deepseek-v2以236b總參數、21b激活,大致達到70b~110b dense的模型能力。
和此前的deepseek 67b相比,它的性能更強,同時訓練成本更低,可節省42.5%訓練成本,減少93.3%的kv緩存,最大吞吐量提高到5.76倍。
官方表示這意味着deepseek-v2消耗的顯存(kv cache)只有同級別dense模型的1/5~1/100,每token成本大幅降低。
專門針對h800規格做了大量通訊優化,實際部署在8卡h800機器上,輸入吞吐量超過每秒10萬tokens,輸出超過每秒5萬tokens。
在一些基礎benchmark上,deepseek-v2基礎模型表現如下:
deepseek-v2 採用了創新的架構。
提出mla(multi-head latent attention)架構,大幅減少計算量和推理顯存。
同時自研了sparse結構,使其計算量進一步降低。
有人就表示,這些升級對於數據中心大型計算可能非常有幫助。
而且在api定價上,deepseek-v2幾乎低於市面上所有明星大模型。
團隊表示,deepseek-v2模型和論文也將完全開源。模型權重、技術報告都給出。
現在登錄deepseek api開放平台,註冊即贈送1000萬輸入/500萬輸出tokens。普通試玩則完全免費。
感興趣的童鞋,可以來薅羊毛了~
體驗地址:
https://chat.deepseek.com
api平台:
platform.deepseek.com
github:
https://github.com/deepseek-ai/deepseek-v2?tab=readme-ov-file