提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat

2024年06月23日12:30:38 科學 3821

langsplat團隊 投稿

量子位 | 公眾號 qbitai

入選cvpr 2024 highlight的三維語義高斯潑濺最新成果,查詢速度比之前的sota方法lerf快了199倍

清華&哈佛團隊提出langsplat,在開放文本目標定位和語義分割任務上達到sota性能。

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

該工作目前在𝕏(twitter)上受到廣泛關注,論文視頻累計瀏覽量超過100,000,論文代碼已開源。

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

結合三維高斯潑濺技術重建三維語義場

人類生活在一個三維世界中,並通過文本語言描述三維場景。構建三維語義場以支持在三維空間中的開放文本查詢最近越來越受到關注。

langsplat方法結合三維高斯潑濺技術重建三維語義場,能夠實現準確高效的開放文本查詢。

現有方法在nerf的基礎上嵌入clip語義特徵,langsplat則通過結合三維高斯潑濺,在每個高斯點上編碼了從clip提取的語義特徵。

langspla採用tile-based的三維高斯潑濺技術來渲染語義特徵,從而避免了nerf中計算成本高昂的渲染過程。

首先訓練特定場景下的語義自編碼器,然後在場景特定的低維latent space上學習語義特徵,而不是直接學習高維的clip語義特徵,從而降低了計算量。

現有基於nerf的方法的三維語義場比較模糊,無法清晰地區分目標的邊界。本文深入研究了這一問題,提出使用sam學習多層次語義,在不引入dino特徵的情況下獲得了更準確的語義場。

廣泛的實驗結果表明,langsplat在開放文本目標定位和語義分割任務上的性能顯著超過了之前的sota方法lerf。值得注意的是,langsplat在1440×1080分辨率的圖像上,查詢速度比lerf快了199倍。

團隊強烈推薦查看在項目主頁中的更多視頻結果。

https://langsplat.github.io/

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

具體方法

首先來看langsplat的主要貢獻,分別為:

通過引入帶有語義特徵的3d高斯潑濺來進行三維場景感知。

與以前的方法相比,實現了顯著的速度提升,使其適合實時應用。

通過採用層次語義和新的渲染技術,langsplat提高了3d語義場的精確度。

通過使用場景特定的自動編碼器,減少了處理高維數據所需的計算和內存開銷。

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

具體來說,採用了如下方法:

層次語義學習:langsplat利用segment anything model(sam)學習層次語義,解決了三維語義場的邊界模糊問題。

3d語義高斯潑濺:langsplat引入了一種新的技術,即3d高斯潑濺,它使用包含語義特徵嵌入的3d高斯來表示3d場景。這種方法比nerf-based的方法渲染過程更快。

特定場景的語義自編碼器:為了緩解高維語義特徵嵌入導致的內存out of memory問題,langsplat構建特定場景的語義自編碼器將這些文本語義特徵降維。

層次語義學習

在本文中,團隊利用sam來獲得實例級的精確對象掩碼,然後用這些掩碼對應的圖像區域提取像素對齊的特徵。團隊還明確地建模了sam定義的語義層次,以解決點模糊性問題。

具體來說,團隊將一個32×32點提示的常規網格輸入sam,以獲得三個不同語義層次下的掩碼,分別代表子部分、部分和整體層次的掩碼。

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

然後基於sam預測的iou分值、穩定性分值和掩碼之間的重疊率,為每一組掩碼去除冗餘的掩碼。

每個過濾後的掩碼集合獨立地根據其各自的語義層次做全圖分割,從而得到三個分割圖: ms,mp,mw。

這些分割圖準確地勾勒出對象在其層次結構中的邊界,有效地將場景劃分為語義上有意義的區域。通過獲得的分割圖,團隊繼續為每個分割區域提取clip特徵。數學上,得到的像素對齊的語義嵌入是:

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

如此,從三維語義場景渲染的每個像素都具有與其精確語義上下文相匹配的clip特徵。這種匹配減少了模糊性,提高了基於語義的查詢的準確性。

此外,由於團隊在“整體”、“部分”和“子部分”層次上都有不同的分割圖,團隊可以直接在這些預定義的尺度上查詢三維語義場。這消除了在多個絕對尺度上進行密集搜索的需要,使查詢過程更加高效。

3d語義高斯潑濺

在一組2d圖像上獲得語義嵌入後,團隊可以通過建模3d點和2d像素之間的關係來學習一個3d語義場。大多數現有方法使用nerfs進行3d建模,但它們面臨著耗時的渲染過程。

為了解決這個問題,團隊提出了基於3d高斯散射的3d語義場建模方法。這種3d高斯散射方法明確地將3d場景表示為各向異性的3d高斯分布的集合,每個高斯分布g(x)由均值μ∈r^3和協方差矩陣∑描述:】

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

3d高斯投影到2d圖像平面上後,用基於tile的光柵化策略進行渲染:

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

其中, ci是第i個高斯的顏色,n表示瓦片中的高斯數量, c(v)是在像素 v 處渲染的顏色。

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

這裡是oi第i個高斯的不透明度,gi2d (⋅)代表投影到二維上的第 i 個高斯的函數。

在本文中,團隊提出了3d語義高斯,為每個高斯增加三個語義嵌入{fs, fp, fw} 。這些嵌入源自clip特徵,捕捉了sam提供的層次語義。增強後的高斯被命名為3d語義高斯。並採用基於tile的光柵化器以保持渲染效率:

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

其中, fl(v)代表在像素 處以語義層次l渲染的語義嵌入。通過直接將語義信息引入高斯中,團隊使三維語義場能夠響應基於文本的查詢。

特定場景的語義自編碼器

作為一種顯式建模方法,表徵一個複雜場景可能需要數百萬個3d點。直接在高維的clip潛空間直接學習高斯的語義特徵會顯著增加內存消耗,容易導致“內存不足”的問題。

為降低內存消耗並提高效率,團隊引入了基於場景的語義自編碼器,將場景中的clip嵌入映射到低維潛在空間。clip模型是通過4億對(圖像,文本)訓練的,其d維潛在空間可能非常緊湊。

然而,團隊在這裡訓練的語義場Φ是特定於場景的,這意味着團隊可以利用場景先驗知識壓縮clip特徵。事實上,對於每個輸入圖像,團隊將獲得由sam分割的數百個掩碼,這顯著少於clip訓練中使用的圖像數量。因此,場景中的所有分割區域在clip潛在空間中稀疏分布,使團隊能夠通過基於場景的自編碼器進一步壓縮這些clip特徵。

實驗結果

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

實驗設置:實驗測試了該方法在開放詞彙3d對象定位和語義分割任務上的性能,使用的數據集包括lerf和3d-ovs。

結果:langsplat顯著優於先前的最先進方法。特別是,它在1440×1080分辨率下比lerf快199倍,顯示出在速度和效率上的顯著提高。

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

可視化和消融研究:論文包括了詳細的可視化和消融研究,展示了langsplat各組成部分的有效性。

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat - 天天要聞

項目主頁: https://langsplat.github.io/

論文: https://arxiv.org/pdf/2312.16084.pdf

視頻: https://youtu.be/k_9bbs1odac?si=gfo5trlk-htywyut

開源代碼: https://github.com/minghanqin/langsplat

科學分類資訊推薦

勇立潮頭大灣區丨共享榮光!看“嫦娥攬月”香港科技如何助力? - 天天要聞

勇立潮頭大灣區丨共享榮光!看“嫦娥攬月”香港科技如何助力?

6月25日嫦娥六號結束53天的旅程返回地球連同來自月球的“土特產”也一併“快遞”到家 6月26日嫦娥六號順利完成開艙取樣這是人類歷史上第一次獲得來自月球背面的珍貴“月壤”研究人員希望藉此揭開月球更多的秘密   同心逐夢 共赴蒼穹香港理工大學教授容啟亮帶領科研團隊協助中國空間技術研究院研製“表取採樣執行裝置”...
古藺:如何利用本地資源,為野生獼猴群撐起“保護傘”? - 天天要聞

古藺:如何利用本地資源,為野生獼猴群撐起“保護傘”?

鄧小紅 瀘州觀察 魏傑/文圖“觀景台修好之後,大家看野生獼猴就更方便了,給我們也帶來了更多的人流量,也推動了我們周邊村民擺攤創收。”6月26日,古藺縣白泥鎮菜板村村民邱娟在野生獼猴觀景台的位置擺起了小攤。古藺縣地處烏蒙山區,轄區內佳木蔥蘢,成為眾多國家一級、二級野生保護動物的“棲息樂園”。據統計,古藺縣境...
邁向高端的新材料|從原材料到新材料,看山西轉型升級之路 - 天天要聞

邁向高端的新材料|從原材料到新材料,看山西轉型升級之路

新華社太原6月27日電(記者王勁玉)普通的玉米澱粉“搖身一變”,成為儲能利器超級電容炭;隨處可見的石灰石在科技的加持下成為納米碳酸鈣;堅硬的鋼鐵可以像紙張一樣輕薄,徒手可撕開。在轉型發展大潮中,傳統原材料通過技術革新、應用創新,成為高端新材料,為高質量發展注入新動能。新材料產業是國民經濟戰略性、基礎性...
美國宇航局指示SpaceX在時機成熟時擊落國際空間站 - 天天要聞

美國宇航局指示SpaceX在時機成熟時擊落國際空間站

據美國宇航局稱,SpaceX被指示從軌道上為國際空間站製造一艘拖船。為此,該公司將獲得8.43億美元,這還不包括拖船的準備和發射費用。但一切都不會早於商業軌道站準備就緒,這可能晚於 2030 年。圖片來源:NASA根據各種聲明,俄羅斯最早可