DeepSeek 睜眼看世界!識圖模式實測來了

原以為deepseek這頭「鯨魚」,在上周發布v4模型之後,會深潛一段時間休養生息,沒想到它卻擺出了持續作戰的架勢。

就在剛剛,一個名為「識圖模式」的新選項悄然出現在deepseek的對話框上。雖然deepseek同時標註上「圖片理解功能內測中」的字樣,但持續關注deepseek乃至ai業界的各位都很清楚,那個被持續討論多時的deepseek多模態能力,終於要來了。

能力很強,但仍有體驗遺憾

發現功能上線的時候,我們的編輯正在出差的高鐵上。於是隨手拍下的高鐵場景,就成了deepseek識圖模式的第一個考題。

從deepseek的推理過程中,我們發現了有意思的地方:deepseek並不是通過場景里的物體,去判斷這可能是一個怎樣的場景,而是真正理解了環境中的關鍵要素——各種文字信息,來實現更準確的推斷。在此基礎上,deepseek對圖片中的其他信息亦有自己的理解,因此最終給出的答案,不僅準確,而且相當豐富細緻。

下來這個測試,是基於識圖模式做的一個發散。在強大的識別和理解能力支撐下,deepseek很快給出了答案,並且回答正確。

雖然開幕就給了我們一些暴擊,但這並不代表現如今的deepseek識圖模式就是爆殺狀態。

對具體產品進行識別時,似乎是因為模型里產品信息不足,deepseek並未思考是否有可能是外觀輪廓類似的小米15u和小米17u。所以,雖然推理過程識別出了小米機型和產品外觀的各項信息,但最終答案是錯誤的。這種「過程全對,答案錯誤」的情況,可以通過補全訓練語料的方式來修正改善。

類似的情況出現在deepseek識別原神角色裝備這一考察中。可以發現,它並不認識剛剛的推出的新角色,但回顧思考過程,我們能發現它認為原神出到了5.x版本的內容,也就是說,它的信息應該停留在去年初,也就是小米15 ultra 發布以前,與識別手機時的結論一致。

雖不完美,但可成顛覆起點

識圖模式的上線,標誌著 deepseek 這頭「深海巨鯨」,終於睜開了它的「眼睛」。這對deepseek而言,無疑是一個里程碑;對國產ai來說,也許是一次看似微妙,但足以改變格局的開始。

在競爭日漸激烈的當下, deepseek這一功能的上線,意味著國產ai們會加速進入競爭多模態能力的下一階段。虛擬與現實之間的距離會進一步縮短,物理ai的發展也有可能被快進,ai對普羅大眾工作生活的影響,會進一步加深。

太平洋科技將會持續對ai廠商們的識圖和語音交互功能發展迭代進行持續關注,也歡迎已經收到deepseek識圖模式推送的小夥伴們,在評論區里留下你對這一模式的使用體驗和技巧分享。