這篇文章是為 國科會智慧計算學門 針對「電腦視覺與圖形辨識(Computer Vision and Pattern Recogntion, or CVPR)」研究領域中 機器人視覺子領域說明我個人對 自駕車感知 接下來幾年研究規劃的看法。本版為我個人之初稿,讀者請以國科會智慧計算學門發表的最終版本為準。
主題概述
過去十年中,自駕車技術、相關車規軟硬體系統與其商業落地獲得大量資金與人力的投入,而電腦視覺與圖形辨識(CVPR)在自駕車技術中扮演極重要的角色。本次CVPR 研究領域規劃書中,重點子領域二 多模態電腦視覺 (Multi-Modality Computer Vision)、重點子領域四 場景理解 (Scene Understanding) 與重點子領域五 視覺推理 (Visual Reasoning) 中,均提及與自(智)駕車相關的國內外研發趨勢與關鍵研究議題。在自駕車技術與系統的發展趨勢中,一方面持續開發驗證與整合電腦視覺、機器學習與相關領域中的最新技術與演算法,另一方面則是持續強化與確保自駕車系統的可靠與安全性,期待加速大規模自駕車落地商轉的進展。
世界研發趨勢
隨著自駕車的商業化,相關企業、獨角獸與新創公司的技術路線、開放場域的性能表現、車隊規模化與商業模式是大家關注的重點。就試視覺感知硬體系統而言,各種相機、雷達與光達的設定組合都有,同時也有新型感測器的發表,如 Event Cameras、可測量速度的 FMCW 光達、4D 成像雷達等。Tesla 雖主張純視覺路線,也試圖將車用雷達移除,但在 2023 年還是裝上台灣廠商所製造的 4D車用雷達。Mobileye 以相機視覺系統為主,將雷達與光達組成第二(冗餘)感知硬體系統來強化整體系統可靠度, 另外搭配由眾包所建立的 Road Experinece Management (REM) 地圖來達成 Level 4 級自駕。而多數的自駕車公司,如 Waymo, Cruise, Zoox, Aurora等,則將光達、相機與雷達緊密融合,並使用高精地圖來達成無人(Driver Out)自駕車在開放場域的驗證與運行。
在深度學習爆發前,自駕車核心軟體模組是由高精地圖、定位、感知(偵測、追蹤與預測) 、決策與車輛控制模組所組成的[1][2]。隨著深度學習在影像辨識的巨大成功,以 End to Eed 方式來從影像輸入直接得到車輛控制命令輸出的做法引起大家的關注與投入[3]。雖然目前 完全 End-to-End 的方法還不能達成全自駕車所需的性能要求,深度學習已經在部分自駕車軟體模組,如偵測、辨識與預測,成為主流的做法。而在把這些這個別軟體模組的網路模型串接起來,組成ㄧ個End-to-End 自駕車網路模型是現今重要的研發方向 [4]。
為加速自駕車感知決策軟體模組的進展、降低投入自駕車研發的門檻與吸引人才投入,自駕車公司與學界將他們所收集的數據集開放,如 Waymo Open Dataset[5][6]、Argoverse (with HD maps) [7][8]、 nuScenes Dataset (with automotive radar data) [9]、Kitti Dataset [10]、Oxford Robotcar Dataset [11]、 BDD100K [12]等。更詳細的整理可參閱 [13]。通常自駕車業界的數據集的數據量大,標註較準,但業界會有所保留。學界的數據集,則會以較前瞻的感測器,或是在較特殊的場景與情景來收集數據,但其相對應的系統數據完整性與標註則時有問題。讀者須留意這些數據庫之間,還有這些數據庫與真實世界的差異性。往往所開發系統或是演算法在不同的數據庫中與在真實世界的表現還是有所不同。另外,各種相關比賽的舉辦也吸引許多優秀人才投入,並讓大家可以公開評估與了解相關模組的性能與限制,如Waymo Open Dataset Challenge、Argoverse Challenges、Motional(NuScenes) Challenges、Autonomous Driving Challenges 等。而從這幾年的比賽項目亦可觀察自駕車感知系統研究議題的演變。
這幾年自駕車業界的變化很快,目前指摽性的自駕車公司團隊有 Waymo、Tesla、Cruise、Tesla、Mobileye、Zoox、Aurora、Baidu、WeRide、Pony.AI、Auto X、Wayve 等。這些公司在國際研討會中也會發表論文,但隨著進入商業化落地的關鍵時刻,這些公司在落地以及自駕車系統問題的答覆上也趨保守與不透明。而在學界中,除了研發在重點子領域多模態電腦視覺、場景理解、視覺推理中所提的研發趨勢外,一方面與指摽自駕車公司成立共同研發中心,如 CMU AV Center 與 UM Ford Center for AV 等,另一方面打造與業界不一樣的自駕車系統,如 MIT 的自駕賽車、Stanford 的甩尾自駕車、University of Washington 的越野自駕車等。
除了前面所述自駕車視覺感知相關研究課題外,自駕車決策與控制亦是自駕車系統不可或缺的重要部分。就視覺感知系統而言,外部的動態環境狀態往往只有一個正確解,而現有不管是不是基於深度學習、或是其他先進機器學習方法的感知系統均無法保證一定能求出這正確解。讀者只要參考各項比賽或是頂尖期刊與會議論文中視覺感知系統的各項指標就可發現這項問題,這其中還不考慮其所使用數據庫的局限性。但對自駕車決策系統而言,真實世界安全可行的行車策略往往有無窮多組解,系統只要針對特定指標找出最佳解即可。只要自駕車決策系統完善考慮現今視覺感知系統的不準確性與不確定性,自駕車還是能在不完美的狀態估測下達到安全的運行。伴隨自駕車系統的落地與商業化,一系列相關的標準與車規的制定與改良是無法迴避的。而基於深度學習、機器學習的感知系統之規格、驗證與法規也需要更進一步的討論與制定,其中可解釋性是非常重要的。這也會影響政府、車廠與民眾的對自駕車安全的認知與接受。
國內現況
除了在重點子領域多模態電腦視覺、場景理解、視覺推理中所提國內指標研究團隊外,國科會工程技術研究發展處 在陽明交通大學吳炳飛 講座教授的召集下已完成第一期四年「自駕車次系統關鍵技術研發專案計畫」,最後僅有臺北科技大學、陽明交通大學、逢甲大學與成功大學四個團隊獲得全程補助。正在進行中的第二期自駕車次系統關鍵技術研發專案計畫則更專注在自駕車次系統之硬體系統車規化、晶片化與產品化,其中研發方面也轉變爲以先進駕駛輔助系統(ADAS) 為主要標的,參與此專案計畫的業者也多以ADAS相關的廠商為主。陽明交通大學 吳毅成特聘教授與其團隊在 AWS DeepRacer 2022 世界賽囊括前三名,其在自駕車決策控制系統上的表現領先國際。而在自駕車開放場域運行驗證上,王傑智 教授所帶領工研院機械所自駕車團隊自 2019年起完成多項、多車種自駕車開放場域運行實驗,最近的有五噸自駕貨車新竹市區運行(2021–2023)、桃園國際機場自駕車時速50公里員工接駁運行(2022–2023),與三十五噸自駕聯結車在澳洲墨爾本高速公路時速80公里運行(2022)等。而民間業者則以勤崴國際在台積電南科廠進行的自駕車員工接駁案最受囑目。
關鍵研究議題
重點子領域多模態電腦視覺、場景理解、視覺推理中關鍵研究的議題不在此重複列出
- 可解釋與可信任之感知系統
- 規模化之感知系統
- 自駕車感知與決策協同設計
- 自駕車系統安全
一般或新興研究議題
重點子領域多模態電腦視覺、場景理解、視覺推理中一般或新興的議題不在此重複列出
- Green Deep Learning / Machine Learning
- 強健正確之感測器融合
- 惡劣氣候中感知系統性能確保
- 感知系統不確定性估測與失效偵測
- 新型感知感測器之研發與其數據處理
- 眾包高精地圖之製作與更新
- 自駕車軟硬體協同設計
已成熟研究議題
重點子領域多模態電腦視覺、場景理解、視覺推理中已發展成熟的議題不在此重複列出
- 光達定位系統
- 車道估測與車道維持
參考文獻
[1] Buehler, Martin, Karl Iagnemma, and Sanjiv Singh, eds. The 2005 DARPA grand challenge: the great robot race. Vol. 36. Springer, 2007.
[2] Buehler, Martin, Karl Iagnemma, and Sanjiv Singh, eds. The DARPA urban challenge: autonomous vehicles in city traffic. Vol. 56. springer, 2009.
[3] M. Bojarski et al., End to End Learning for Self-Driving Cars, https://arxiv.org/abs/1604.07316, 2016.
[4] Y. Hu et al., Planning-Oriented Autonomous Driving, CVPR 2023.
[5] P. Sun et al. “Scalability in Perception for Autonomous Driving: Waymo Open Dataset.” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2019): 2443–2451.
[6] S. Ettinger et al., Large scale interactive motion forecasting for autonomous driving: the waymo open motion dataset, arXiv preprint arXiv:2104.10133 (2021).
[7] M.-F. Chang et al. Argoverse: 3d tracking and forecasting with rich maps. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 8748–8757, 2019.
[8] B. Wilson et al. Argoverse 2: next generation datasets for self-driving perception and forecasting. In: Proceedings of the Neural Information Processing GNSS Systems Track on Datasets and Benchmarks (NeurIPS Da- GPS tasets and Benchmarks 2021).
[9] H. Caesar et al. nuScenes: a multi- modal dataset for autonomous driving. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 11621–11631, 2020.
[10] A. Geiger et al. Vision meets robotics: the kitti dataset. The International Journal of Robotics Research 32(11): 1231–1237, 2013
[11] W. Maddern et al. 1 year, 1000 km: the oxford robotcar dataset. The International Journal of Robotics Research 36(1): 3–15, 2017.
[12] F. Yu et al. BDD100K: a diverse driving NTRIP dataset for heterogeneous multitask learning. arXiv: 1805.04687, 2020.
[13] S. Haas et al. ViF-GTAD: A new automotive dataset with ground truth for ADAS/AD development, testing, and validation. The International Journal of Robotics Research. 2023. doi:10.1177/02783649231188146