實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎?

2025年02月06日19:50:27 科技 2312

春節期間,互聯網上最火的不是春晚小品,也不是春節檔電影,而是 deepseek。

這匹來自中國的 ai 黑馬,以極低的訓練成本實現了媲美 openai o1 的性能,憑藉強大的中文能力、堪稱賽博覺醒的頓悟時刻和秉持開源精神,迅速攪動了以 chatgpt 為首的 ai 圈。

自家人出息了,家裡的其他人肯定要撐場子,於是,在全國人民享受愉快假期的同時,程序員們又忙了起來。

隨著騰訊雲、秘塔 ai、阿里雲、百度智能雲和國家超算互聯網平台紛紛宣布接入 deepseek,手機作為最常用的個人智能終端,也迎來了它的身影。

其中,動作最快的是華為。

話不多說,作為 deepseek 首次集成到智能手機的頭馬,我們第一時間進行了上手測試,來看看它的實際表現如何。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

在將小藝助手升級到 11.2.10.310 版本後,deepseek 已正式出現在小藝助手的智能體廣場中。

進入小藝助手 app 主界面,點擊導航欄中的「發現」,就能一眼看見 deepseek 的存在,且從封面來看,目前接入的 deepseek 是 r1 的 beta 版。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

相比官方應用,華為小藝接入的 deepseek-r1 beta 總體保持了小藝助手一貫的設計風格和邏輯,界面簡潔直觀,分為上下兩部分。

上半部分是 deepseek-r1 beta 的自我介紹,並展示了一些預設的常見問題,供首次使用者挑選嘗試。而下半部分則是對話框,支持語音輸入,用戶的語音內容會自動轉化為文字並即時發送,方便快捷。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

▲ 左:小藝版 deepseek / 右:deepseek 官方應用

點擊 deepseek-r1 beta 的頭像,可以進入詳情頁面,在這個頁面中有更詳細的介紹:

我是基於 deepseek 開源版本部署的智能體,旨在幫助鴻蒙用戶獲得深度思考體驗。

除此之外,小藝版 deepseek-r1 beta 只支持簡單的設置,包括智能體音色、清除上下文和刪除對話記錄,這意味著你沒有辦法新開對話框,如果想重新開始,只能清除上下文以及刪除對話記錄。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

▲ 最豐富的設置居然是小藝自帶的音色

在詳細測試開始前,我們還有一些注意事項和細節,需要你提前知道:

  • 華為小藝接入的 deepseek-r1 beta 只在純血鴻蒙版本的小藝助手中提供,鴻蒙 4.3 用戶暫時無緣享受
  • 小藝版 deepseek 支持招牌功能深度思考,但不提供詳細的思考過程
  • 小藝版 deepseek 目前在對話框中沒有提供聯網搜索功能的選項,但答案里有時會顯示參考的在線網頁
  • 小藝版 deepseek 在回答完問題後會給出一些拓展選項,以備用戶進一步追問,這是官方應用中沒有的

上下文長度略短,日常夠用

衡量 ai 的性能,有一個重要因素——長上下文長度。

上下文長度(context length)指的是大語言模型在處理文本時,能夠同時考慮和記住的文本長度。

例如,如果一個模型的上下文長度是 2048 個 token,那麼在生成或理解文本時,它只能「看到」最多 2048 個 token 的信息,超出這個長度的信息則會被模型忽略或丟失。

換句話說,如果,上下文長度不夠,可能聊著聊著,ai 就忘了你之前說過的話。

雖然小藝接入的 deepseek-r1 beta 沒有公開上下文長度的數據,但我們可以設計一個簡單的辦法進行初步測試。

我準備了《三國演義》的前三回,約一萬五千字,將其輸入到華為小藝接入的 deepseek-r1 中,並要求其輸出最後一百個字。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

重複了多次,華為小藝接入的 deepseek-r1 都提示:

稍等,稍等片刻再試試呢。

在將文章縮短到第一回,約四千五百個字的時候,依舊失敗。

無奈之下,我換了一篇曾經撰寫的新聞稿,並節選了約 700 字的內容,才最終得到了成功的輸出。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

這個長度基本足夠日常簡單問題的交流,但想要與其暢聊人生,恐怕是個容易失憶的哲學導師。

輸出質量和滿血版 r1 有差別嗎

又到了大家喜聞樂見的環節,ai 發展至今,測試方法多種多樣,我們選擇了一系列的問題,從那些人類容易理解、但 ai 容易誤會的問題,到日常需求的應答可行性,都進行了詳細的測試。

作為曾經搞翻大半個 ai 圈的經典問題,「9.11 和 9.8 哪個大」以及「strawberry 里有幾個 r」已經併入了常規測試環節。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

▲ 左:小藝版 deepseek / 右:deepseek 官方應用

令人意外的是,在 strawberry 里有幾個 r 這個問題上,華為小藝接入的 deepseek-r1 beta 居然翻車了,甚至在給出了參考來源的情況下,依舊給出了兩個 r 的答案,並且在 r 出現的位置上也有錯誤。

而 deepseek 的官方應用則沒有任何意外,在給出正確答案的同時也準確指出了 r 的位置。

除此之外,華為小藝接入的 deepseek 與官方應用相比,還有一個顯著的不同——r1 模型的思考過程被隱藏了。

雖然這個過程在大多數時候並不干擾答案,但一個能夠展示思考過程的 ai,顯然讓人更有信心,同時,如果用戶希望調整問題,能夠通過查看 ai 展示的思考邏輯來幫助理解,避免 ai 未能準確捕捉到用戶的思路。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

▲ 從官方應用提供的思考過程來看,有幾個 r 依舊是個讓 ai 糾結的問題

平時用慣了 deepseek 的官方應用,突然失去了思考過程讓我覺得有些心裡沒底。

於是,我將電車難題交給了兩個 deepseek,這個涉及道德倫理的經典思考題,考驗其對複雜道德議題的理解深度,看看這個思考過程隱藏後,還能不能回答有條理的、考慮全面的答案,並避免我預設的「你怎麼選」的坑。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

在這個問題上,deepseek-r1 beta 並沒有出現差錯,也沒有掉進我設計的坑裡,在回答中詳細介紹了兩個選擇的後果,並分別在各種觀點和視角下進行具體分析,提示無論做出怎麼樣的選擇,都要認真思考其倫理含義和潛在影響及其後果。

簡單的道德倫理題難不住它,就嘗試一下更有難度的題,考察一下推理能力、判斷力以及對邏輯關係的理解:

「有三個人站在一座橋的一端,他們需要去橋的對面,但橋只能承受兩個人同時過橋,而且橋上只有一把手電筒。三個人的過橋速度不同:一個人過橋需要 1 分鐘,另一個需要 2 分鐘,最後一個需要 5 分鐘。每次只有兩個人可以一起過橋,而橋上必須有手電筒。問:怎麼樣才能讓他們在最短時間內過橋?」

這個測試就比較有意思了,小藝接入的 deepseek-r1 beta 得出來的結論是 12 分鐘,這個答案與 chatgpt 的結論相同,而 deepseek 官方 app 則得出了一個用時更短的答案,同時在思維邏輯上也給出了充足的辯論脈絡。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

▲ 左:小藝版 deepseek / 中:deepseek 官方應用 / 右:chatgpt-4o

在測試完道德倫理、邏輯數學後,我們最後測試一個更貼近普通使用場景、但對於 ai 來說很難做到自然的測試——中文寫作。

我設計了一個視頻選題,並讓小藝接入的 deepseek-r1 beta 幫我輸出一個簡略的台詞,兼顧畫面設計的同時以小品形式來呈現華為 mate x6 摺疊屏的外觀,看看在用戶提出複合型任務要求的情況下,它的表現如何:

「我要製作一期華為 mate x6 摺疊屏的視頻,展示摺疊屏外觀的同時進行中立評價,全片通過兩人小品的形式呈現,請你幫我設計台詞,要求台詞詼諧有趣,並保持口語化,同時需要兼顧畫面設計。」

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

小藝接入的 deepseek-r1 beta 在短暫思考以後給了我一份完整的對話台詞設計,從摺疊屏的不同特點出發,共設計了四個場景以及一個結尾,整體結構還算完整,且台詞口語化做得還不錯,同時每句對白都給了相應的畫面設計,美中不足就是有趣詼諧的內容略有欠缺,沒有什麼梗,但應對日常的文字處理工作基本沒問題。

需要注意的是,如果不要求口語化,那它給出的回答用詞過於板正嚴謹,還是有些 ai 味道。

實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? - 天天要聞

總得來說,可能受制於發布速度、集成妥協等等因素,目前的小藝接入的 deepseek-r1 beta 的上下文長度性能、回答準確度尚處於一個比較基礎的狀態,需要等待後續的迭代。

不過,考慮到目前 deepseek 官網及官方應用的連接條件實在糟糕,而其他各種雲平台及本地部署對使用環境與門檻的要求又較為苛刻,在面對一些不那麼複雜的問題時,直接使用華為小藝中接入的 deepseek 是個不錯的選擇。

讓我有個美滿旅程

#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr),更多精彩內容第一時間為您奉上。

| · ·


科技分類資訊推薦

樂鑫即將量產自研 Wi-Fi 6E 晶元,僅差國際頂尖廠商一代 - 天天要聞

樂鑫即將量產自研 Wi-Fi 6E 晶元,僅差國際頂尖廠商一代

IT之家 6 月 9 日消息,樂鑫信息科技今日宣布,公司首款支持 Wi-Fi 6E 的無線通信晶元已完成工程樣片測試,計劃於 2025 年下半年正式量產。這標誌著樂鑫在高性能無線通信晶元領域實現新突破,正式進軍 Wi-Fi 6E 高速數通與透傳市場,並計劃推出一系列產品以滿足多樣化應用需求。這款晶元搭載樂鑫自研的雙核 500 MHz RISC-V...
轉轉集團 CEO 黃煒:超級轉轉是收購紅布林之後的「第一個作品」 - 天天要聞

轉轉集團 CEO 黃煒:超級轉轉是收購紅布林之後的「第一個作品」

IT之家 6 月 9 日消息,轉轉集團旗下首家二手多品類循環倉店「超級轉轉」今日正式開業,位於北京友誼商店三層,佔地面積超 3000 平方米,是一家集二手箱包、鞋服、首飾腕錶、遊戲設備、攝影攝像、小家電等在內的多品類循環倉店,也是國內首家二手多品類循環倉店。據新浪科技報道,轉轉集團創始人兼 CEO 黃煒介紹稱:「超級...
智能手錶,全面進入「開源鴻蒙時代」! - 天天要聞

智能手錶,全面進入「開源鴻蒙時代」!

2013 年,眾籌了 1030 萬美元的 Pebble 智能手錶橫空出世,開啟了數碼行業對智能手錶品類的探索。但在十餘年的發展長河中,這些「上古時期」的智能手錶品牌,因其飄忽不穩的發展路徑和割裂的產品生態,很快就被來自智能手機品牌的「正規軍
曝小米16標準版配備JN5浮動長焦 與前代相同 - 天天要聞

曝小米16標準版配備JN5浮動長焦 與前代相同

【太平洋科技快訊】近日,據相關爆料透露,小米16標準版除了常規的硬體配置提升和電池容量增大外,還將配備一顆5000萬像素的JN5浮動長焦鏡頭,與小米15標準版所使用的鏡頭型號相同。據悉,浮動長焦技術通過改變鏡頭組之間的距離來實現變焦,相比傳統的定焦鏡頭,它能在保持畫質的同時提供更靈活的變焦範圍,特別適合拍攝人...
英特爾酷睿9 270H跑分曝光 單線程高i5-14500HX約14% - 天天要聞

英特爾酷睿9 270H跑分曝光 單線程高i5-14500HX約14%

【太平洋科技快訊】近日,Intel最新Raptor Lake Refresh系列的酷睿9 270H性能測試成績首次曝光。在PassMark測試中,其單線程得分高達4125分,而對比的i5-14500HX平均得分僅為3619分,領先幅度約14%。而在多線程測試中,兩款處理器的表現則相當,難分高下,與i5-14500HX處於同一水平。從核心配置來看,酷睿9 27
余承東曬華為Pura80 Pro系列新機 展示其視頻拍攝能力 - 天天要聞

余承東曬華為Pura80 Pro系列新機 展示其視頻拍攝能力

【太平洋科技快訊】6月9日,華為終端發文為Pura 80系列進行預熱。據預熱信息顯示,在1X焦段下,Pura 80系列的主攝能夠清晰捕捉大光比環境中的亮部和暗部細節,無論是過亮還是過暗的區域,都能呈現豐富層次,預示著其在舞台、演唱會等光線複雜的場景下的視頻拍攝表現將大幅提升。此外,華為終端 BG CEO 余承東今日還通過社交...
曝iOS26將引入液態玻璃設計 為20周年紀念版iPhone鋪路 - 天天要聞

曝iOS26將引入液態玻璃設計 為20周年紀念版iPhone鋪路

【太平洋科技快訊】近日,相關爆料透露,蘋果計劃在2025年的全球開發者大會(WWDC)上,隨iOS 26操作系統一同推出一項名為「液態玻璃」的全新設計語言。消息源認為,這項設計革新很可能是為了兩年後,即2027年9月即將發布的iPhone 20周年紀念特別版機型所做的鋪墊。據悉,「液態玻璃」設計理念借鑒了蘋果Vision Pro頭顯操作系...