國產開源MoE指標炸裂：GPT-4級別能力，API價格僅百分之一

2024年05月07日14:21:29 科技 4386

明敏發自凹非寺

量子位 | 公眾號 qbitai

最新國產開源moe大模型，剛剛亮相就火了。

deepseek-v2性能達gpt-4級別，但開源、可免費商用、api價格僅為gpt-4-turbo的百分之一。

因此一經發佈，立馬引發不小討論。

從公布的性能指標來看，deepseek-v2的中文綜合能力超越一眾開源模型，並和gpt-4-turbo、文心4.0等閉源模型同處第一梯隊。

英文綜合能力也和llama3-70b同處第一梯隊，並且超過了同是moe的mixtral 8x22b。

在知識、數學、推理、編程等方面也表現出不錯性能。並支持128k上下文。

這些能力，普通用戶都能直接免費使用。現在內測已開啟，註冊後立馬就能體驗。

api更是是骨折價：每百萬tokens輸入1元、輸出2元（32k上下文）。價格僅為gpt-4-turbo的近百分之一。

同時在模型架構也進行創新，採用了自研的mla（multi-head latent attention）和sparse結構，可大幅減少模型計算量、推理顯存。

網友感嘆：deepseek總是給人帶來驚喜！

具體效果如何，我們已搶先體驗！

實測一下

目前v2內測版可以體驗通用對話和代碼助手。

在通用對話中可以測試大模型的邏輯、知識、生成、數學等能力。

比如可以要求它模仿《甄嬛傳》的文風寫口紅種草文案。

還可以通俗解釋什麼是量子糾纏。

數學方面，能回答高數微積分問題，比如：

使用微積分證明自然對數的底e 的無窮級數表示。

也能規避掉一些語言邏輯陷阱。

測試顯示，deepseek-v2的知識內容更新到2023年。

代碼方面，內測頁面顯示是使用deepseek-coder-33b回答問題。

在生成較簡單代碼上，實測幾次都沒有出錯。

也能針對給出的代碼做出解釋和分析。

不過測試中也有回答錯誤的情況。

如下邏輯題目，deepseek-v2在計算過程中，錯誤將一支蠟燭從兩端同時點燃、燃燒完的時間，計算成了從一端點燃燒完的四分之一。

帶來哪些升級？

據官方介紹，deepseek-v2以236b總參數、21b激活，大致達到70b~110b dense的模型能力。

和此前的deepseek 67b相比，它的性能更強，同時訓練成本更低，可節省42.5%訓練成本，減少93.3%的kv緩存，最大吞吐量提高到5.76倍。

官方表示這意味着deepseek-v2消耗的顯存（kv cache）只有同級別dense模型的1/5~1/100，每token成本大幅降低。

專門針對h800規格做了大量通訊優化，實際部署在8卡h800機器上，輸入吞吐量超過每秒10萬tokens，輸出超過每秒5萬tokens。

在一些基礎benchmark上，deepseek-v2基礎模型表現如下：

deepseek-v2 採用了創新的架構。

提出mla（multi-head latent attention）架構，大幅減少計算量和推理顯存。

同時自研了sparse結構，使其計算量進一步降低。

有人就表示，這些升級對於數據中心大型計算可能非常有幫助。

而且在api定價上，deepseek-v2幾乎低於市面上所有明星大模型。

團隊表示，deepseek-v2模型和論文也將完全開源。模型權重、技術報告都給出。

現在登錄deepseek api開放平台，註冊即贈送1000萬輸入/500萬輸出tokens。普通試玩則完全免費。

感興趣的童鞋，可以來薅羊毛了~

體驗地址：

https://chat.deepseek.com

api平台：

platform.deepseek.com

github：

https://github.com/deepseek-ai/deepseek-v2?tab=readme-ov-file

科技

徹底不裝了！990萬到手後，周鴻禕終於成了一名網紅：感謝雷軍 - 天天要聞

徹底不裝了！990萬到手後，周鴻禕終於成了一名網紅：感謝雷軍

要說2024年誰最紅，那一定是經常穿着紅衣的互聯網大佬周鴻禕。打開各大短視頻平台，都能看到他的身影，各大熱搜事件也都有他的存在。

05月19日 1335

App能「取現」能「代還」？小心非法套現危及個人信息安全 - 天天要聞

App能「取現」能「代還」？小心非法套現危及個人信息安全

如果有這樣一款App，簡單操作幾下就能讓你的信用卡額度提現到自己的儲蓄卡內，甚至動動手指就能讓信用卡的還款日推遲到下個周期，聽上去是不是非常有誘惑力？然而，其中卻暗藏着巨大的陷阱和風險。2023年7月，湖南汨羅警方破獲一起信用卡非法套現案，抓獲涉案人員19人，查明套現金額約40億元，非法獲利約1.2億元。目前，這...

05月19日 3170

Lehends機械人神鉤飛爪「鉤崩」BLG，GEN 2-0率先拿到賽點 - 天天要聞

Lehends機械人神鉤飛爪「鉤崩」BLG，GEN 2-0率先拿到賽點

北京時間5月19日，英雄聯盟MSI總決賽由LPL賽區BLG戰隊對陣LCK賽區GEN戰隊。第二局GEN的Lehens機械人，給到BLG很大的視野壓力，神鉤一出BLG就要交閃。BLG不斷的死人陣亡，讓G....

05月19日 5438

珂芝 K98 機械鍵盤開售：Leaf-Spring Gasket 結構，279 元起 - 天天要聞

珂芝 K98 機械鍵盤開售：Leaf-Spring Gasket 結構，279 元起

IT之家 5 月 19 日消息，珂芝 K98 機械鍵盤目前已經在京東現貨開售，這款鍵盤主打「Leaf-Spring Gasket 結構」，可選極地雪 / 沙漠綠洲 / 星岩灰色（價格取決於軸體），IT之家整理價格信息如下：彩虹軸：279 元風雨軸：299 元波塞冬軸：369 元據介紹，這款機械鍵盤外殼採用厚膠位注塑工藝，鍵盤背部擁有 3D 冰晶紋裝飾，裸..

05月19日 9557

全球第一款！中國公司泄露Intel二代酷睿Ultra掌機 - 天天要聞

全球第一款！中國公司泄露Intel二代酷睿Ultra掌機

快科技5月19日消息，Intel預計會在馬上到來的台北電腦展上公開下一代酷睿Ultra處理器Arrow Lake、Lunar Lake的更多具體信息，而來自我國深圳的微步公司，第一家公布了基於Lunar Lake的掌機，將在本次展會上首次亮相。這款掌機名為「GP10」，採用10.95英寸大屏，分辨率1920x1200，刷新率120Hz，支持觸摸。內存容量16

05月19日 4915

海信推出 Vidda NEW S100 Pro 電視：100 英寸 192 分區，8999 元 - 天天要聞

海信推出 Vidda NEW S100 Pro 電視：100 英寸 192 分區，8999 元

IT之家 5 月 19 日消息，海信今天在京東上架一款 Vidda NEW S100 Pro 電視，這款電視主打「100 英寸 144Hz」，不過僅有 192 分區，該電視將於 5 月 21 日凌晨 0 點開售，首發價 8999 元。據介紹，這款電視配備 3840 x 2160 分辨率 144Hz 面板，擁有 192 分區，覆蓋 85% DCI-P3 色域，

05月19日 2264

蘋果拼了！iPhone 15官旗降至第三方渠道價：同樣價格買蘋果還是華為小米 - 天天要聞

蘋果拼了！iPhone 15官旗降至第三方渠道價：同樣價格買蘋果還是華為小米

快科技5月19日消息，以價換量，似乎成了現階段蘋果的制勝法寶。臨近618，嘗到甜頭後的蘋果又開始降價了。

05月19日 1962

勁爆！小米南京科技園正式開園，小米再添一總部，雷軍在線攬才 - 天天要聞

勁爆！小米南京科技園正式開園，小米再添一總部，雷軍在線攬才

5月19日，小米創辦人，董事長兼CEO雷軍在微博發文，宣告小米南京科技園正式開園。雷軍在個人微博表示：小米南京研發中心是小米最重要的幾個研發基地！歡迎南京的技術大牛們加入小米南京團隊！

05月19日 1896

中核集團：全國最大海上光伏電站開工建設，2025 年全容量併網 - 天天要聞

中核集團：全國最大海上光伏電站開工建設，2025 年全容量併網

IT之家 5 月 19 日消息，據中核集團消息，5 月 19 日，我國最大的海上光伏項目 —— 中核田灣 200 萬千瓦灘涂光伏示範項目在江蘇連雲港正式開工建設。▲ 圖源中核集團公眾號，下同據介紹，項目預計於 2024 年 9 月首次併網，2025 年全容量併網，在運行期 25 年內年平均上網電量 22.34 億千瓦時，能夠滿足中等發達國家約 23...

05月19日 2456

長治振興小鎮「研學熱」持續升溫「教育＋科技」是亮點 - 天天要聞

長治振興小鎮「研學熱」持續升溫「教育＋科技」是亮點

田小麗立夏之後，暑氣漸顯。長治振興小鎮「研學熱」持續升溫，研學團接踵而至。5月11日，來自長治市實驗小學的學生走進振興小鎮，開展「感觸科技魅力體驗非遺傳承」趣味研學游活動。5月18日，長治市平順縣苗庄中心校、北社中心校研學團隊走進振興小鎮開展「紅色教育點亮心燈勞動實踐助力成長」研學游活動。……科技創新、...

05月19日 3809