挑戰Waymo,華為百萬場景自動駕駛訓練數據集ONCE


對於以深度學習為主要方法的自動駕駛來說,訓練數據集是最關鍵的,因為算法都大同小異,且開源的很多,算法上無法區分高下,並且深度學習是個黑盒子,因此也有人戲稱深度學習是煉丹。雖然深度學習不具備可解釋性,但是深度學習數據集與最終結果具備關聯性,能區分高下的關鍵就是訓練數據集,這就像煉丹的材料。訓練數據集覆蓋面越廣,標註越精細,分類的越準確、類型越多,最終的自動駕駛性能就越好。


圖片來源:互聯網



因為訓練數據集非常重要,大多數車企都是圍繞訓練數據集工作的,數據集是源動力,上圖是亞馬遜Web服務公司(AWS)的自動駕駛開發工作流,關鍵的環節就是數據的搜集與處理。大型車企都有自己單獨組建的訓練數據集,硬件方面的投入主要是價格昂貴的數據中心,可能要上億美元,同時這個數據中心的維護成本和運營成本也不低。

圖片來源:互聯網



如果不想自建數據中心,亞馬遜微軟戴爾之類的公司也提供雲端數據中心的服務,上圖為亞馬遜的自動駕駛數據集雲端解決方案。


全球第一個訓練數據集KITTI由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合開發,是目前全球公認的自動駕駛領域最權威的測試數據集,也是最早的。該數據集用於評測立體圖像(stereo)、光流(optical flow)、視覺測距(visual odometry)、3D物體檢測(object detection)和3D跟蹤(tracking)等計算機視覺技術在車載環境下的性能。KITTI包含市區、鄉村和高速公路等場景採集的真實圖像數據,每張圖像中最多達15輛車和30個行人,還有各種程度的遮擋與截斷。整個數據集由389對立體圖像和光流圖,39.2km視覺測距序列以及超過200k 3D標註物體的圖像組成,以10Hz的頻率採樣及同步。


總體上看,原始數據集被分類為Road、City、Residential、Campus和Person。對於3D物體檢測,label細分為car、van、truck、pedestrian、pedestrian(sitting)、cyclist、tram以及miscellaneous組成。採集車的雙目攝像頭基線長54厘米,車載電腦為英特爾至強的X5650 CPU,RAID 5 4TB硬盤。採集時間是2011年的9月底和10月初,總共大約5天。


很多自動駕駛公司包括大眾與福特合資公司Argo的Argoverse,Waymo的Open、百度的ApolloScape、奧迪的A2D2、奔馳(Cityscape)、英偉達(PilotNet)、本田(H3D)、安波福(nuScense)、Lyft的L5、Uber都公開了其部分訓練驗證數據集,還有一些知名大學也公開了其訓練驗證數據集,包括MIT、劍橋、牛津、巴克利、加州理工大學(Caltech)、CMU、悉尼大學、密歇根、德國魯爾(交通燈)、加拿大約克(JAAD)、斯坦福、西安交通大學的5D。這當中最具影響力的當屬Kitti、Waymo的Open和安波福的nuScense。


這些數據集嚴格地說應該叫Benchmark,不是真正用於商業用途的企業自用訓練數據集,那些數據集是企業的最核心資產,不會公開。這些Benchmark通常分為3部分,大約70%是做訓練用,20%做測試,10%做驗證,訓練數據就像課本,測試就如同期末考試,驗證類似於自我摸底。雖然不是企業自用訓練數據集,但主要差別主要是規模,企業自用的規模要大得多,企業之所以公開這些數據集,讓第三方使用,主要用意一是找出更高性能的深度學習模型,二是改進或修正企業自用的訓練數據集。


今天要介紹的是華為的ONCE,即ONCE(One millioN sCenEs)。論文地址:arXiv:2106.11037v3,數據集地址:http://www.once-for-auto-driving.com或https://github.com/once-for-auto-driving/。ONCE由香港中文大學、華為諾亞方舟實驗室、華為智能汽車解決方案事業部車輛雲服務部門、中山大學和瑞士理工學院聯合打造。

圖片來源:互聯網



ONCE擁有最多場景,多達100萬個,行駛時間高達144小時,覆蓋210平方公里,700萬張同步圖像,3D Box有417k個。不過Waymo的3D Box高達1200萬個,確實有獨到之處。ONCE之所以這麼少是因為華為認為非標籤數據的訓練也有價值,還有一個原因是標註越多,成本越高。在這裡對標註和標籤需要多說幾句:


  • 標註是Annotations,即給樣品提供真值(Ground Truth)註解,只能由人工和激光雷達/立體雙目完成,因為激光雷達和立體雙目的測距是基於物理測量而非概率算法推測,因此可以算真值,激光雷達的3維坐標信息也是基於物理的測量,而非概率算法推測,可算Ground Truth。機器如果能達到真值的預測程度那就無需再訓練了。
  • 標籤是Label,有些時候和標註混用,標籤或許是標註的內容之一,比如某張圖片是只貓,標籤為貓,但是Bounding Box沒有,不能算真值。


很多地方都提到機器標籤或自動標註,實際上那只是Labelme這樣的標註工具,還需要人工標註,據說標註一張圖片的價格是八毛或一元錢。因為是人工標註,那麼難免會出錯,因此通常會多次標註,即多人標註同樣的樣品,盡量降低錯誤。典型例子,多倫多大學的Boreas數據集,128線激光雷達5Hz頻率,7111幀點雲圖像會有326180個3D標準Box。


圖片來源:互聯網



ONCE使用華為自己開發的標註軟件,界面如上圖。


典型的ONCE 3D標註。圖片來源:互聯網



圖片來源:互聯網



上圖為Kitti數據集標註文件的readme.txt文件。該文件存儲於object development kit(1 MB)文件中,readme詳細介紹了子數據集的樣本容量、label類別數目、文件組織格式、標註格式、評價方式等內容。從中可以看出IMU主要是為了保證數據的時間戳一致,建立統一的坐標系,包括全部坐標系和局部坐標系。ONCE應該也採用了類似的布局,單獨有TXT文件存儲標註。


圖片來源:互聯網



ONCE數據集,包括和激光雷達同步的RGB圖像,包括了各種天氣。


主要傳感器的對比。圖片來源:互聯網



任何自動駕駛訓練數據採集車都必備激光雷達,通常激光雷達是作為距離Ground Truth真值出現的,同時3D Box的3維坐標和3維尺寸也都離不開激光雷達。除了複雜的傳感器與定位系統配置外,採集車還有昂貴的數據採集和處理系統,一輛採集車的設備一般都在100萬人民幣以上,每天上傳的數據可能都是TB級的,以特斯拉為例,先不要說沒有5G模塊的特斯拉如何上傳海量數據,也不說車牌的隱私問題,單激光雷達一項即可否決,特斯拉的影子模式純屬無稽之談。ONCE數據集特別聲明數據採集在可允許範圍,主動刪除任何個人信息和定位信息,特別是車牌照和人臉。在中國任何用於商業用途的數據採集都要經過國家批准,並且數據不準發往國外。


圖片來源:互聯網



華為數據採集車傳感器配置,從出點數推測似乎應該是Velodyne的128線激光雷達,採用三回波模式,從測距範圍和精度看似乎是禾賽的Pandar 128線,其雙回波是691萬點。華為的ONCE是所有自動駕駛訓練數據集中激光雷達點密度最高的,不過華為的攝像頭分辨率不高。


圖片來源:互聯網



幾個數據集的天氣覆蓋維度,Waymo主要在鳳凰城採集數據,鳳凰城位於沙漠邊緣,幾乎常年不下雨,所以Waymo的數據集都是晴天。鳳凰城還有個特點,雖有156萬人口,但只有20多棟高樓,大多數人都是住別墅的,因此做自動駕駛很方便,沒有高樓大廈的GPS遮擋,也沒有大面積陰影遮擋陽光。順便說一句,英特爾總部在鳳凰城。BDD 100K做得很好,它是UC巴克利大學和康納爾大學合作的成果,缺點是很小,只有100k場景,它是唯一覆蓋雪景的數據集,對BDD 100k感興趣的可以搜索BDD100K:A Diverse Driving Dataset for Heterogeneous Multitask Learning這篇論文。ONCE的時間段分得開,早晨最多,其次是午後和夜間。


圖片來源:互聯網



數據集平均精度對比,每個模型的好壞是通過評價它在某個數據集上的性能來判斷的,這個數據集通常被叫做「驗證/測試」數據集。這個性能由不同的統計量來度量,包括準確率(accuracy)、精確率(precision)、召回率(recall)等等。目標檢測問題中最常用的度量標準---平均精度均值(Mean Average Precision,mAP),要理解mAP首先要理解IoU,給定的邊界框的正確性的度量標準是「交並比」(Intersection over Union, IoU),這是一個非常簡單的可視量。現在對於每個類別,預測邊界框和參考邊界框的重疊部分叫做交集,而兩個邊界框跨越的所有區域叫做並集。我們現在要分辨檢測結果是否正確,最常用的閾值是0.5:如果 IoU>0.5,那麼認為這是一個正確檢測,否則認為這是一個錯誤檢測。假設在整個數據集中有20個類別。對每一個類別,我們都會進行相同的操作:計算IoU->精確率(Precision)->平均精度(Average Precision)。所以我們會有20個不同的平均精度值。利用這些平均精度值,可以很輕鬆地判斷我們的模型對任何給定的類別的性能。


ONCE最大特色是對自監督學習self-supervised learning、半監督學習Semi-supervised Learning和無監督領域自適應(Unsupervised Domain Adaptation)做了對應,ONCE的3D盒標註只有417k,遠低於Waymo,這是因為標註成本較高,通常都是人工標註,雖然特斯拉有機器自動標註,但精度太低,主流還是人工標註,因此也有了個戲稱,那就是有多少智能就需要多少人工,指的就是所謂人工智能特別依賴人工標註,華為這個標註花了3個月時間以上。


我們知道一般機器學習分為監督學習(supervised learning)、非監督學習和強化學習。


  • 自動駕駛領域的基本都是監督學習,即已知數據和其一一對應的標註(標籤),也就是說訓練數據集需要全部標註。
  • 無監督學習(unsupervised learning):已知數據沒有任何標註,按照一定的偏好,訓練一個智能算法,將所有的數據映射到多個不同標籤的過程。
  • 強化學習(reinforcement learning):智能算法在沒有人為指導的情況下,通過不斷的試錯來提升任務性能的過程。
  • 弱監督學習(weakly supervised learning):已知數據和其一一對應的弱標籤,訓練一個智能算法,將輸入數據映射到一組更強的標籤的過程。標籤的強弱指的是標籤蘊含的信息量的多少,比如相對於分割的標籤來說,分類的標籤就是弱標籤。
  • 半監督學習(semi supervised learning):已知數據和部分數據一一對應的標籤,有一部分數據的標籤未知,訓練一個智能算法,學習已知標籤和未知標籤的數據,將輸入數據映射到標籤的過程。半監督通常是數據的標註非常困難,比如說醫院的X光片子檢查結果,醫生也需要一段時間來判斷健康與否,可能只有幾組數據知道是健康還是非健康。


圖片來源:互聯網



華為ONCE提供6種3D檢測模型的Benchmark,除了PointPainting都是基於激光雷達的。圖中的SECOND就是Sparsely Embedded Convolutional Detection,實際就是VoxelNet(2017)論文的升級版。PV-RCNN在2021年名列Kitti 3D檢測第一名,與pointRCNN同作者。PV-RCNN把point-based和voxel-based兩種方法的優勢結合起來,提高了3D目標檢測的表現。基於體素的操作可以高效的編碼多尺度特徵表示並生成高質量3D提案框,基於點操作有可變的感受野(Field),故可以保留更精確的位置信息。PointPillars具備最高效率,是目前量產車常用的3D檢測算法。


圖片來源:互聯網



6種模型在ONCE上的性能對比,CenterPoints性能最好,但是耗費運算資源最多。CenterPoints模型在Waymo的數據集上使用英偉達130TensorFLOPS的Titan RTX的幀率只有11幀。


自監督學習結果。圖片來源:互聯網



半監督學習結果,顯然比自監督學習要好。圖片來源:互聯網



從中不難看出華為自動駕駛的方向是半監督學習到無監督學習。下一篇介紹Waymo的Open數據集和Open Motion數據集。


聲明:本文僅代表作者個人觀點。


更多佐思報告


報告訂購及合作諮詢請私信小編。

佐思2022年研究報告撰寫計劃

智能網聯汽車產業鏈全景圖(2022年9月版)


自主品牌主機廠自動駕駛

汽車視覺(國內)

高精度地圖

合資品牌主機廠自動駕駛

汽車視覺(國外)

高精度定位

ADAS與自動駕駛Tier1-國內

環視市場研究(本土篇)

汽車網關

ADAS與自動駕駛Tier1-國外

環視市場研究(合資篇)

數據閉環研究

自動駕駛與座艙域控制器

紅外夜視

汽車信息安全硬件

多域計算和區域控制器

汽車仿真(上)

汽車信息安全軟件

乘用車底盤域控

汽車仿真(下)

OEM信息安全

域控制器排名分析

激光雷達-國內篇

無線通訊模組

E/E架構

激光雷達-國外篇

汽車5G融合

L4自動駕駛

毫米波雷達

800V高壓平台

L2自動駕駛

車用超聲波雷達

燃料電池

乘用車攝像頭季報

Radar拆解

一體化電池

ADAS數據年報

激光和毫米波雷達排名

一體化壓鑄

合資品牌車聯網

專用車自動駕駛

汽車OS研究

自主品牌車聯網

礦山自動駕駛

線控底盤

自動駕駛重卡

無人接駁車

滑板底盤

商用車ADAS

無人配送車

電控懸架

商用車智能座艙

無人零售車研究

轉向系統

商用車車聯網

農機自動駕駛

線控制動研究

汽車智能座艙

港口自動駕駛

充電基礎設施

智能座艙Tier1

模塊化報告

汽車電機控制器

座艙多屏與聯屏

V2X和車路協同

混合動力報告

智能座艙設計

路側智能感知

汽車PCB研究

儀錶和中控顯示

路側邊緣計算

IGBT及SiC研究

智能後視鏡

汽車eCall系統

EV熱管理系統

行車記錄儀

汽車EDR研究

汽車功率電子

汽車數字鑰匙

智能汽車個性化

電驅動與動力域研究

汽車UWB研究

汽車多模態交互

汽車線束

HUD行業研究

車載語音

汽車音響研究

人機交互

TSP廠商及產品

汽車座椅

車載DMS

自動駕駛法規

汽車照明

OTA研究

自動駕駛標準和認證

汽車鎂合金壓鑄

汽車雲服務研究

智能網聯測試基地

電裝新四化

AUTOSAR研究

PBV及汽車機械人

造車新勢力-蔚來

軟件定義汽車

飛行汽車

造車新勢力-小鵬

汽車功能安全

行泊一體研究

Waymo智能網聯布局

乘用車T-Box

智慧停車研究

座艙SOC

商用車T-Box

汽車分時租賃

汽車VCU研究

T-Box排名分析

共享出行及自動駕駛

汽車MCU研究

軟件供應商

自動駕駛芯片

傳感器芯片


「佐思研究月報」

ADAS/智能汽車月報 | 汽車座艙電子月報 | 汽車視覺和汽車雷達月報 | 電池、電機、電控月報 | 車載信息系統月報 | 乘用車ACC數據月報 | 前視數據月報 | HUD月報 | AEB月報 | APA數據月報 | LKS數據月報 | 前雷達數據月報