實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎?

春節期間,互聯網上最火的不是春晚小品,也不是春節檔電影,而是 deepseek。

這匹來自中國的 ai 黑馬,以極低的訓練成本實現了媲美 openai o1 的性能,憑藉強大的中文能力、堪稱賽博覺醒的頓悟時刻和秉持開源精神,迅速攪動了以 chatgpt 為首的 ai 圈。

自家人出息了,家裡的其他人肯定要撐場子,於是,在全國人民享受愉快假期的同時,程序員們又忙了起來。

隨著騰訊雲、秘塔 ai、阿里雲、百度智能雲和國家超算互聯網平台紛紛宣布接入 deepseek,手機作為最常用的個人智能終端,也迎來了它的身影。

其中,動作最快的是華為。

話不多說,作為 deepseek 首次集成到智能手機的頭馬,我們第一時間進行了上手測試,來看看它的實際表現如何。

在將小藝助手升級到 11.2.10.310 版本後,deepseek 已正式出現在小藝助手的智能體廣場中。

進入小藝助手 app 主界面,點擊導航欄中的「發現」,就能一眼看見 deepseek 的存在,且從封面來看,目前接入的 deepseek 是 r1 的 beta 版。

相比官方應用,華為小藝接入的 deepseek-r1 beta 總體保持了小藝助手一貫的設計風格和邏輯,界面簡潔直觀,分為上下兩部分。

上半部分是 deepseek-r1 beta 的自我介紹,並展示了一些預設的常見問題,供首次使用者挑選嘗試。而下半部分則是對話框,支持語音輸入,用戶的語音內容會自動轉化為文字並即時發送,方便快捷。

▲ 左:小藝版 deepseek / 右:deepseek 官方應用

點擊 deepseek-r1 beta 的頭像,可以進入詳情頁面,在這個頁面中有更詳細的介紹:

我是基於 deepseek 開源版本部署的智能體,旨在幫助鴻蒙用戶獲得深度思考體驗。

除此之外,小藝版 deepseek-r1 beta 只支持簡單的設置,包括智能體音色、清除上下文和刪除對話記錄,這意味著你沒有辦法新開對話框,如果想重新開始,只能清除上下文以及刪除對話記錄。

▲ 最豐富的設置居然是小藝自帶的音色

在詳細測試開始前,我們還有一些注意事項和細節,需要你提前知道:

  • 華為小藝接入的 deepseek-r1 beta 只在純血鴻蒙版本的小藝助手中提供,鴻蒙 4.3 用戶暫時無緣享受
  • 小藝版 deepseek 支持招牌功能深度思考,但不提供詳細的思考過程
  • 小藝版 deepseek 目前在對話框中沒有提供聯網搜索功能的選項,但答案里有時會顯示參考的在線網頁
  • 小藝版 deepseek 在回答完問題後會給出一些拓展選項,以備用戶進一步追問,這是官方應用中沒有的

上下文長度略短,日常夠用

衡量 ai 的性能,有一個重要因素——長上下文長度。

上下文長度(context length)指的是大語言模型在處理文本時,能夠同時考慮和記住的文本長度。

例如,如果一個模型的上下文長度是 2048 個 token,那麼在生成或理解文本時,它只能「看到」最多 2048 個 token 的信息,超出這個長度的信息則會被模型忽略或丟失。

換句話說,如果,上下文長度不夠,可能聊著聊著,ai 就忘了你之前說過的話。

雖然小藝接入的 deepseek-r1 beta 沒有公開上下文長度的數據,但我們可以設計一個簡單的辦法進行初步測試。

我準備了《三國演義》的前三回,約一萬五千字,將其輸入到華為小藝接入的 deepseek-r1 中,並要求其輸出最後一百個字。

重複了多次,華為小藝接入的 deepseek-r1 都提示:

稍等,稍等片刻再試試呢。

在將文章縮短到第一回,約四千五百個字的時候,依舊失敗。

無奈之下,我換了一篇曾經撰寫的新聞稿,並節選了約 700 字的內容,才最終得到了成功的輸出。

這個長度基本足夠日常簡單問題的交流,但想要與其暢聊人生,恐怕是個容易失憶的哲學導師。

輸出質量和滿血版 r1 有差別嗎

又到了大家喜聞樂見的環節,ai 發展至今,測試方法多種多樣,我們選擇了一系列的問題,從那些人類容易理解、但 ai 容易誤會的問題,到日常需求的應答可行性,都進行了詳細的測試。

作為曾經搞翻大半個 ai 圈的經典問題,「9.11 和 9.8 哪個大」以及「strawberry 里有幾個 r」已經併入了常規測試環節。

▲ 左:小藝版 deepseek / 右:deepseek 官方應用

令人意外的是,在 strawberry 里有幾個 r 這個問題上,華為小藝接入的 deepseek-r1 beta 居然翻車了,甚至在給出了參考來源的情況下,依舊給出了兩個 r 的答案,並且在 r 出現的位置上也有錯誤。

而 deepseek 的官方應用則沒有任何意外,在給出正確答案的同時也準確指出了 r 的位置。

除此之外,華為小藝接入的 deepseek 與官方應用相比,還有一個顯著的不同——r1 模型的思考過程被隱藏了。

雖然這個過程在大多數時候並不干擾答案,但一個能夠展示思考過程的 ai,顯然讓人更有信心,同時,如果用戶希望調整問題,能夠通過查看 ai 展示的思考邏輯來幫助理解,避免 ai 未能準確捕捉到用戶的思路。

▲ 從官方應用提供的思考過程來看,有幾個 r 依舊是個讓 ai 糾結的問題

平時用慣了 deepseek 的官方應用,突然失去了思考過程讓我覺得有些心裡沒底。

於是,我將電車難題交給了兩個 deepseek,這個涉及道德倫理的經典思考題,考驗其對複雜道德議題的理解深度,看看這個思考過程隱藏後,還能不能回答有條理的、考慮全面的答案,並避免我預設的「你怎麼選」的坑。

在這個問題上,deepseek-r1 beta 並沒有出現差錯,也沒有掉進我設計的坑裡,在回答中詳細介紹了兩個選擇的後果,並分別在各種觀點和視角下進行具體分析,提示無論做出怎麼樣的選擇,都要認真思考其倫理含義和潛在影響及其後果。

簡單的道德倫理題難不住它,就嘗試一下更有難度的題,考察一下推理能力、判斷力以及對邏輯關係的理解:

「有三個人站在一座橋的一端,他們需要去橋的對面,但橋只能承受兩個人同時過橋,而且橋上只有一把手電筒。三個人的過橋速度不同:一個人過橋需要 1 分鐘,另一個需要 2 分鐘,最後一個需要 5 分鐘。每次只有兩個人可以一起過橋,而橋上必須有手電筒。問:怎麼樣才能讓他們在最短時間內過橋?」

這個測試就比較有意思了,小藝接入的 deepseek-r1 beta 得出來的結論是 12 分鐘,這個答案與 chatgpt 的結論相同,而 deepseek 官方 app 則得出了一個用時更短的答案,同時在思維邏輯上也給出了充足的辯論脈絡。

▲ 左:小藝版 deepseek / 中:deepseek 官方應用 / 右:chatgpt-4o

在測試完道德倫理、邏輯數學後,我們最後測試一個更貼近普通使用場景、但對於 ai 來說很難做到自然的測試——中文寫作。

我設計了一個視頻選題,並讓小藝接入的 deepseek-r1 beta 幫我輸出一個簡略的台詞,兼顧畫面設計的同時以小品形式來呈現華為 mate x6 摺疊屏的外觀,看看在用戶提出複合型任務要求的情況下,它的表現如何:

「我要製作一期華為 mate x6 摺疊屏的視頻,展示摺疊屏外觀的同時進行中立評價,全片通過兩人小品的形式呈現,請你幫我設計台詞,要求台詞詼諧有趣,並保持口語化,同時需要兼顧畫面設計。」

小藝接入的 deepseek-r1 beta 在短暫思考以後給了我一份完整的對話台詞設計,從摺疊屏的不同特點出發,共設計了四個場景以及一個結尾,整體結構還算完整,且台詞口語化做得還不錯,同時每句對白都給了相應的畫面設計,美中不足就是有趣詼諧的內容略有欠缺,沒有什麼梗,但應對日常的文字處理工作基本沒問題。

需要注意的是,如果不要求口語化,那它給出的回答用詞過於板正嚴謹,還是有些 ai 味道。

總得來說,可能受制於發布速度、集成妥協等等因素,目前的小藝接入的 deepseek-r1 beta 的上下文長度性能、回答準確度尚處於一個比較基礎的狀態,需要等待後續的迭代。

不過,考慮到目前 deepseek 官網及官方應用的連接條件實在糟糕,而其他各種雲平台及本地部署對使用環境與門檻的要求又較為苛刻,在面對一些不那麼複雜的問題時,直接使用華為小藝中接入的 deepseek 是個不錯的選擇。

讓我有個美滿旅程

#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr),更多精彩內容第一時間為您奉上。

| · ·