精準識別「界門綱目科屬種」!北大彭宇新團隊用細粒度樹先驗提升泛化,破解生物類別分層識別難題

mipl團隊 投稿

量子位 | 公眾號 qbitai

一張藍錐嘴雀的圖片,你能認出它是“鳥”,但能認出它是“鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀”嗎?

像大多數人一樣,現在的多模態大模型也認不出來。

真實世界中的對象通常包含極其豐富的類別層次,形成類別樹結構。比如藍錐嘴雀是:動物界-脊索動物門-鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀(界-門-綱-目-科-屬-種)。

區別於傳統的細粒度視覺識別,分層視覺識別旨在預測所屬的所有類別層次,而不僅僅預測最終的細粒度類別。儘管現有finedefics、fine-r1等生成式大模型在細粒度視覺識別任務上表現出色,但由於缺乏類別樹知識,無法從粗到細實現每一層的精準識別

同時,採用分層類別標籤對比學習得到的判別式大模型(如bioclip、bioclip2、biocap等),其表徵空間已能充分編碼類別樹中的類間關係與類內關係。基於上述發現,本文利用判別式大模型的表徵指導生成式大模型的學習,為多模態大模型學習類別樹提供了新路徑。

本文是北京大學彭宇新教授團隊在細粒度多模態大模型領域的最新研究成果,相關論文已被cvpr 2026接收,並已開源

背景

儘管現有多模態大模型在細粒度視覺識別上的準確率取得明顯提升,但在依賴類別樹知識的分層視覺識別任務上,仍無法從粗到細實現每一層的精準識別。具體地,存在如下3點挑戰:

1. 同層判別性差:對於更粗粒度的類別層次,“類內差異大”更加突出,模型傾向於學習類別共性;對於更細粒度的類別層次,“類間差異小”更加突出,模型傾向於學習類別差異。兩者的矛盾導致模型難以從粗到細區分每一層的相似類別

2. 跨層一致性差:由於模型缺乏類別樹知識,難以保證任意相鄰層次的預測類別滿足父子節點關係。例如,預測結果為“鸚鵡目-裸鼻雀科”,但兩者不滿足父子節點關係,“裸鼻雀科”應該屬於“雀形目”。

3. 新類泛化性差:現有模型傾向於挖掘不同細粒度子類別的差異,忽略了對其共性的總結(用於識別其父節點的辨識性特徵),難以準確識別從未見過的新類別

△圖1. 研究背景

針對上述問題,北京大學彭宇新教授團隊提出了分類感知表徵對齊方法(taxonomy-aware representation alignment,tara),用於將類別樹結構知識注入多模態大模型。通過將大模型與生物基礎模型的視覺表徵對齊,促進大模型提取具備完整類別樹結構的視覺表徵。同時,通過將大模型輸出答案的首個詞元表徵與經生物基礎模型編碼後的真實類別表徵對齊,促進大模型根據指定的層次,將具備完整類別樹結構的視覺表徵映射為對應層次的類別名稱。

實驗結果表明,本方法不僅能增強現有大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。

技術方案

為向多模態大模型注入類別樹結構知識,本文提出了分類感知表徵對齊方法tara。如圖2所示,tara包含2個主要部分:

1. 分層視覺表徵對齊:通過將大模型中間層與生物基礎模型最後一層的視覺表徵對齊,促進大模型提取具備完整類別樹結構的視覺表徵。

2. 自由粒度類別表徵對齊:通過將大模型輸出答案的首個詞元表徵與經生物基礎模型編碼後的真實類別表徵對齊,促進大模型根據指定的層次,將具備完整類別樹結構的視覺表徵映射為對應層次的類別名稱。

具體如下:

△圖2. 分類感知表徵對齊方法(tara)框架圖

1. 分層視覺表徵對齊。

經分層類別標籤訓練的生物基礎模型(例如, bioclip、bioclip2、biocap等)能提供包含分類學信息的監督信號,促進大模型提取具備完整類別樹結構的視覺表徵。具體地,給定輸入圖像i和識別特定層次類別的問題q(例如,“圖中動物屬於什麼門/綱/目/科/屬/種?從如下選項中選擇:[真實類別,相似類別1,相似類別2,相似類別3]”),生物基礎模型的視覺編碼器εv(·)輸出目標視覺特徵img=εv(i)∈rn×d,其中d表示生物基礎模型的特徵維度。大語言模型第ℓ層的視覺表徵表示為ℓimg∈rn×d,採用可學習的映射層pv(·)將其映射到生物基礎模型的視覺特徵空間,並最小化如下對齊損失:

2. 自由粒度類別表徵對齊。

一張圖像同時對應不同層次的類別標籤,但用戶期望識別的類別層次是不同的。例如,專家可能希望在“種”層次上將對象識別為阿卡迪亞霸鶲,而普通用戶只需要在“綱”層次上將其識別為鳥。通過在同一層次上對齊生物基礎模型和大模型的類別文本表徵,促進大模型將具備完整類別樹結構的視覺表徵映射為對應層次的類別名稱。具體地,生物基礎模型的文本編碼器et(·)輸出目標文本特徵ylabel=et(c)∈rd,其中c表示在期望層次上的真實類別名稱。大語言模型第m層的答案表徵序列表示為emanswer∈rn′×d,採用可學習的映射層pt(·)將答案的首個詞元表徵映射到生物基礎模型的文本特徵空間,並最小化如下對齊損失:

最終,tara的對齊損失定義為兩者的均值:

3. 模型訓練和推理:

在訓練階段,採用無需思考的強化微調(no thinking rft)和tara交替優化大模型、映射層pv(·)與pt(·),促進大模型適配分層視覺識別指令的同時學習類別樹知識。在推理階段,生物基礎模型和映射層pv(·)與pt(·)均不參與運算,直接由優化後的大模型進行識別。

實驗結果

△表1. inaturalist-plant與inaturalist-animal分層視覺識別結果

表1展示了在inaturalist-plant與inaturalist-animal上的分層視覺識別結果。本方法不僅能增強多種大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。

△表2. terraincognita的新類別(已有類別樹之外的類別)分層視覺識別結果

表2展示了在terraincognita的新類別(已有類別樹之外的類別)的分層視覺識別結果。這部分新類別不僅是模型強化微調訓練集中未見類別,更是稀有或記錄極少的物種圖像,在公開數據中幾乎沒有或完全沒有可用樣本,更不可能出現在模型的預訓練數據中

對於其中許多樣本,很可能是科學界尚未正式描述的新物種,目前只能可靠地確定其較高層次的分類標籤(如“目”和“科”)。本方法通過引入類別樹先驗,促進模型學習子類別的共性,從而總結出用於識別父類別的判別性特徵,提升已知類別樹之外的新類別的識別準確率。

△圖3. 分類感知表徵對齊方法(tara)案例展示

圖3的案例展示表明,相比阿里的qwen3-vl-2b大模型,本方法能提升同層判別性與跨層一致性,既區分開同一層的相似類別,又確保相鄰層次的預測類別滿足父子節點關係。

項目價值

針對現有多模態大模型缺乏類別樹知識,無法從粗到細實現每一層的精準識別的問題,本文提出了分類感知表徵對齊方法tara,通過對齊大模型與生物基礎模型的中間表徵,注入類別樹結構知識,不僅能提升最終的細粒度類別的識別準確率,還能增強大模型的分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。

論文標題:taxonomy-aware representation alignment for hierarchical visual recognition with large multimodal models論文鏈接:https://arxiv.org/abs/2603.00431開源代碼:https://github.com/pku-icst-mipl/tara_cvpr2026實驗室網址:https://www.wict.pku.edu.cn/mipl