對於以深度學習為主要方法的自動駕駛來說,訓練數據集是最關鍵的,因為算法都大同小異,且開源的很多,算法上無法區分高下,並且深度學習是個黑盒子,因此也有人戲稱深度學習是煉丹。雖然深度學習不具備可解釋性,但是深度學習數據集與最終結果具備關聯性,能區分高下的關鍵就是訓練數據集,這就像煉丹的材料。訓練數據集覆蓋面越廣,標註越精細,分類的越準確、類型越多,最終的自動駕駛性能就越好。
圖片來源:互聯網
因為訓練數據集非常重要,大多數車企都是圍繞訓練數據集工作的,數據集是源動力,上圖是亞馬遜Web服務公司(AWS)的自動駕駛開發工作流,關鍵的環節就是數據的搜集與處理。大型車企都有自己單獨組建的訓練數據集,硬件方面的投入主要是價格昂貴的數據中心,可能要上億美元,同時這個數據中心的維護成本和運營成本也不低。
圖片來源:互聯網
如果不想自建數據中心,亞馬遜、微軟和戴爾之類的公司也提供雲端數據中心的服務,上圖為亞馬遜的自動駕駛數據集雲端解決方案。
全球第一個訓練數據集KITTI由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合開發,是目前全球公認的自動駕駛領域最權威的測試數據集,也是最早的。該數據集用於評測立體圖像(stereo)、光流(optical flow)、視覺測距(visual odometry)、3D物體檢測(object detection)和3D跟蹤(tracking)等計算機視覺技術在車載環境下的性能。KITTI包含市區、鄉村和高速公路等場景採集的真實圖像數據,每張圖像中最多達15輛車和30個行人,還有各種程度的遮擋與截斷。整個數據集由389對立體圖像和光流圖,39.2km視覺測距序列以及超過200k 3D標註物體的圖像組成,以10Hz的頻率採樣及同步。
總體上看,原始數據集被分類為Road、City、Residential、Campus和Person。對於3D物體檢測,label細分為car、van、truck、pedestrian、pedestrian(sitting)、cyclist、tram以及miscellaneous組成。採集車的雙目攝像頭基線長54厘米,車載電腦為英特爾至強的X5650 CPU,RAID 5 4TB硬盤。採集時間是2011年的9月底和10月初,總共大約5天。
很多自動駕駛公司包括大眾與福特合資公司Argo的Argoverse,Waymo的Open、百度的ApolloScape、奧迪的A2D2、奔馳(Cityscape)、英偉達(PilotNet)、本田(H3D)、安波福(nuScense)、Lyft的L5、Uber都公開了其部分訓練驗證數據集,還有一些知名大學也公開了其訓練驗證數據集,包括MIT、劍橋、牛津、巴克利、加州理工大學(Caltech)、CMU、悉尼大學、密歇根、德國魯爾(交通燈)、加拿大約克(JAAD)、斯坦福、西安交通大學的5D。這當中最具影響力的當屬Kitti、Waymo的Open和安波福的nuScense。
這些數據集嚴格地說應該叫Benchmark,不是真正用於商業用途的企業自用訓練數據集,那些數據集是企業的最核心資產,不會公開。這些Benchmark通常分為3部分,大約70%是做訓練用,20%做測試,10%做驗證,訓練數據就像課本,測試就如同期末考試,驗證類似於自我摸底。雖然不是企業自用訓練數據集,但主要差別主要是規模,企業自用的規模要大得多,企業之所以公開這些數據集,讓第三方使用,主要用意一是找出更高性能的深度學習模型,二是改進或修正企業自用的訓練數據集。
今天要介紹的是華為的ONCE,即ONCE(One millioN sCenEs)。論文地址:arXiv:2106.11037v3,數據集地址:http://www.once-for-auto-driving.com或https://github.com/once-for-auto-driving/。ONCE由香港中文大學、華為諾亞方舟實驗室、華為智能汽車解決方案事業部車輛雲服務部門、中山大學和瑞士理工學院聯合打造。
圖片來源:互聯網
ONCE擁有最多場景,多達100萬個,行駛時間高達144小時,覆蓋210平方公里,700萬張同步圖像,3D Box有417k個。不過Waymo的3D Box高達1200萬個,確實有獨到之處。ONCE之所以這麼少是因為華為認為非標籤數據的訓練也有價值,還有一個原因是標註越多,成本越高。在這裡對標註和標籤需要多說幾句:
- 標註是Annotations,即給樣品提供真值(Ground Truth)註解,只能由人工和激光雷達/立體雙目完成,因為激光雷達和立體雙目的測距是基於物理測量而非概率算法推測,因此可以算真值,激光雷達的3維坐標信息也是基於物理的測量,而非概率算法推測,可算Ground Truth。機器如果能達到真值的預測程度那就無需再訓練了。
- 標籤是Label,有些時候和標註混用,標籤或許是標註的內容之一,比如某張圖片是只貓,標籤為貓,但是Bounding Box沒有,不能算真值。
很多地方都提到機器標籤或自動標註,實際上那只是Labelme這樣的標註工具,還需要人工標註,據說標註一張圖片的價格是八毛或一元錢。因為是人工標註,那麼難免會出錯,因此通常會多次標註,即多人標註同樣的樣品,盡量降低錯誤。典型例子,多倫多大學的Boreas數據集,128線激光雷達5Hz頻率,7111幀點雲圖像會有326180個3D標準Box。
圖片來源:互聯網
ONCE使用華為自己開發的標註軟件,界面如上圖。
典型的ONCE 3D標註。圖片來源:互聯網
圖片來源:互聯網
上圖為Kitti數據集標註文件的readme.txt文件。該文件存儲於object development kit(1 MB)文件中,readme詳細介紹了子數據集的樣本容量、label類別數目、文件組織格式、標註格式、評價方式等內容。從中可以看出IMU主要是為了保證數據的時間戳一致,建立統一的坐標系,包括全部坐標系和局部坐標系。ONCE應該也採用了類似的布局,單獨有TXT文件存儲標註。
圖片來源:互聯網
ONCE數據集,包括和激光雷達同步的RGB圖像,包括了各種天氣。
主要傳感器的對比。圖片來源:互聯網
任何自動駕駛訓練數據採集車都必備激光雷達,通常激光雷達是作為距離Ground Truth真值出現的,同時3D Box的3維坐標和3維尺寸也都離不開激光雷達。除了複雜的傳感器與定位系統配置外,採集車還有昂貴的數據採集和處理系統,一輛採集車的設備一般都在100萬人民幣以上,每天上傳的數據可能都是TB級的,以特斯拉為例,先不要說沒有5G模塊的特斯拉如何上傳海量數據,也不說車牌的隱私問題,單激光雷達一項即可否決,特斯拉的影子模式純屬無稽之談。ONCE數據集特別聲明數據採集在可允許範圍,主動刪除任何個人信息和定位信息,特別是車牌照和人臉。在中國任何用於商業用途的數據採集都要經過國家批准,並且數據不準發往國外。
圖片來源:互聯網
華為數據採集車傳感器配置,從出點數推測似乎應該是Velodyne的128線激光雷達,採用三回波模式,從測距範圍和精度看似乎是禾賽的Pandar 128線,其雙回波是691萬點。華為的ONCE是所有自動駕駛訓練數據集中激光雷達點密度最高的,不過華為的攝像頭分辨率不高。
圖片來源:互聯網
幾個數據集的天氣覆蓋維度,Waymo主要在鳳凰城採集數據,鳳凰城位於沙漠邊緣,幾乎常年不下雨,所以Waymo的數據集都是晴天。鳳凰城還有個特點,雖有156萬人口,但只有20多棟高樓,大多數人都是住別墅的,因此做自動駕駛很方便,沒有高樓大廈的GPS遮擋,也沒有大面積陰影遮擋陽光。順便說一句,英特爾總部在鳳凰城。BDD 100K做得很好,它是UC巴克利大學和康納爾大學合作的成果,缺點是很小,只有100k場景,它是唯一覆蓋雪景的數據集,對BDD 100k感興趣的可以搜索BDD100K:A Diverse Driving Dataset for Heterogeneous Multitask Learning這篇論文。ONCE的時間段分得開,早晨最多,其次是午後和夜間。
圖片來源:互聯網
數據集平均精度對比,每個模型的好壞是通過評價它在某個數據集上的性能來判斷的,這個數據集通常被叫做「驗證/測試」數據集。這個性能由不同的統計量來度量,包括準確率(accuracy)、精確率(precision)、召回率(recall)等等。目標檢測問題中最常用的度量標準---平均精度均值(Mean Average Precision,mAP),要理解mAP首先要理解IoU,給定的邊界框的正確性的度量標準是「交並比」(Intersection over Union, IoU),這是一個非常簡單的可視量。現在對於每個類別,預測邊界框和參考邊界框的重疊部分叫做交集,而兩個邊界框跨越的所有區域叫做並集。我們現在要分辨檢測結果是否正確,最常用的閾值是0.5:如果 IoU>0.5,那麼認為這是一個正確檢測,否則認為這是一個錯誤檢測。假設在整個數據集中有20個類別。對每一個類別,我們都會進行相同的操作:計算IoU->精確率(Precision)->平均精度(Average Precision)。所以我們會有20個不同的平均精度值。利用這些平均精度值,可以很輕鬆地判斷我們的模型對任何給定的類別的性能。
ONCE最大特色是對自監督學習self-supervised learning、半監督學習Semi-supervised Learning和無監督領域自適應(Unsupervised Domain Adaptation)做了對應,ONCE的3D盒標註只有417k,遠低於Waymo,這是因為標註成本較高,通常都是人工標註,雖然特斯拉有機器自動標註,但精度太低,主流還是人工標註,因此也有了個戲稱,那就是有多少智能就需要多少人工,指的就是所謂人工智能特別依賴人工標註,華為這個標註花了3個月時間以上。
我們知道一般機器學習分為監督學習(supervised learning)、非監督學習和強化學習。
- 自動駕駛領域的基本都是監督學習,即已知數據和其一一對應的標註(標籤),也就是說訓練數據集需要全部標註。
- 無監督學習(unsupervised learning):已知數據沒有任何標註,按照一定的偏好,訓練一個智能算法,將所有的數據映射到多個不同標籤的過程。
- 強化學習(reinforcement learning):智能算法在沒有人為指導的情況下,通過不斷的試錯來提升任務性能的過程。
- 弱監督學習(weakly supervised learning):已知數據和其一一對應的弱標籤,訓練一個智能算法,將輸入數據映射到一組更強的標籤的過程。標籤的強弱指的是標籤蘊含的信息量的多少,比如相對於分割的標籤來說,分類的標籤就是弱標籤。
- 半監督學習(semi supervised learning):已知數據和部分數據一一對應的標籤,有一部分數據的標籤未知,訓練一個智能算法,學習已知標籤和未知標籤的數據,將輸入數據映射到標籤的過程。半監督通常是數據的標註非常困難,比如說醫院的X光片子檢查結果,醫生也需要一段時間來判斷健康與否,可能只有幾組數據知道是健康還是非健康。
圖片來源:互聯網
華為ONCE提供6種3D檢測模型的Benchmark,除了PointPainting都是基於激光雷達的。圖中的SECOND就是Sparsely Embedded Convolutional Detection,實際就是VoxelNet(2017)論文的升級版。PV-RCNN在2021年名列Kitti 3D檢測第一名,與pointRCNN同作者。PV-RCNN把point-based和voxel-based兩種方法的優勢結合起來,提高了3D目標檢測的表現。基於體素的操作可以高效的編碼多尺度特徵表示並生成高質量3D提案框,基於點操作有可變的感受野(Field),故可以保留更精確的位置信息。PointPillars具備最高效率,是目前量產車常用的3D檢測算法。
圖片來源:互聯網
6種模型在ONCE上的性能對比,CenterPoints性能最好,但是耗費運算資源最多。CenterPoints模型在Waymo的數據集上使用英偉達130TensorFLOPS的Titan RTX的幀率只有11幀。
自監督學習結果。圖片來源:互聯網
半監督學習結果,顯然比自監督學習要好。圖片來源:互聯網
從中不難看出華為自動駕駛的方向是半監督學習到無監督學習。下一篇介紹Waymo的Open數據集和Open Motion數據集。
聲明:本文僅代表作者個人觀點。
更多佐思報告
報告訂購及合作諮詢請私信小編。
佐思2022年研究報告撰寫計劃
智能網聯汽車產業鏈全景圖(2022年9月版)
自主品牌主機廠自動駕駛 | 汽車視覺(國內) | 高精度地圖 |
合資品牌主機廠自動駕駛 | 汽車視覺(國外) | 高精度定位 |
ADAS與自動駕駛Tier1-國內 | 環視市場研究(本土篇) | 汽車網關 |
ADAS與自動駕駛Tier1-國外 | 環視市場研究(合資篇) | 數據閉環研究 |
自動駕駛與座艙域控制器 | 紅外夜視 | 汽車信息安全硬件 |
多域計算和區域控制器 | 汽車仿真(上) | 汽車信息安全軟件 |
乘用車底盤域控 | 汽車仿真(下) | OEM信息安全 |
域控制器排名分析 | 激光雷達-國內篇 | 無線通訊模組 |
E/E架構 | 激光雷達-國外篇 | 汽車5G融合 |
L4自動駕駛 | 毫米波雷達 | 800V高壓平台 |
L2自動駕駛 | 車用超聲波雷達 | 燃料電池 |
乘用車攝像頭季報 | Radar拆解 | 一體化電池 |
ADAS數據年報 | 激光和毫米波雷達排名 | 一體化壓鑄 |
合資品牌車聯網 | 專用車自動駕駛 | 汽車OS研究 |
自主品牌車聯網 | 礦山自動駕駛 | 線控底盤 |
自動駕駛重卡 | 無人接駁車 | 滑板底盤 |
商用車ADAS | 無人配送車 | 電控懸架 |
商用車智能座艙 | 無人零售車研究 | 轉向系統 |
商用車車聯網 | 農機自動駕駛 | 線控制動研究 |
汽車智能座艙 | 港口自動駕駛 | 充電基礎設施 |
智能座艙Tier1 | 模塊化報告 | 汽車電機控制器 |
座艙多屏與聯屏 | V2X和車路協同 | 混合動力報告 |
智能座艙設計 | 路側智能感知 | 汽車PCB研究 |
儀錶和中控顯示 | 路側邊緣計算 | IGBT及SiC研究 |
智能後視鏡 | 汽車eCall系統 | EV熱管理系統 |
行車記錄儀 | 汽車EDR研究 | 汽車功率電子 |
汽車數字鑰匙 | 智能汽車個性化 | 電驅動與動力域研究 |
汽車UWB研究 | 汽車多模態交互 | 汽車線束 |
HUD行業研究 | 車載語音 | 汽車音響研究 |
人機交互 | TSP廠商及產品 | 汽車座椅 |
車載DMS | 自動駕駛法規 | 汽車照明 |
OTA研究 | 自動駕駛標準和認證 | 汽車鎂合金壓鑄 |
汽車雲服務研究 | 智能網聯測試基地 | 電裝新四化 |
AUTOSAR研究 | PBV及汽車機械人 | 造車新勢力-蔚來 |
軟件定義汽車 | 飛行汽車 | 造車新勢力-小鵬 |
汽車功能安全 | 行泊一體研究 | Waymo智能網聯布局 |
乘用車T-Box | 智慧停車研究 | 座艙SOC |
商用車T-Box | 汽車分時租賃 | 汽車VCU研究 |
T-Box排名分析 | 共享出行及自動駕駛 | 汽車MCU研究 |
軟件供應商 | 自動駕駛芯片 | 傳感器芯片 |
「佐思研究月報」
ADAS/智能汽車月報 | 汽車座艙電子月報 | 汽車視覺和汽車雷達月報 | 電池、電機、電控月報 | 車載信息系統月報 | 乘用車ACC數據月報 | 前視數據月報 | HUD月報 | AEB月報 | APA數據月報 | LKS數據月報 | 前雷達數據月報