打造一臺全自動駕駛汽車,到底需要哪些核心技術?
現在來看,各家公司和研究人員似乎對這個問題有不小分歧。
有人相信單純的攝像頭與計算機視覺就能解決戰斗,但也有人認為計算機視覺和先進傳感器缺一不可。
特斯拉則是純視覺方案的堅定信徒。
在今年的 CVPR(計算視覺與模式識別大會)上,特斯拉首席 AI 科學家 Andrej Karpathy 道出了特斯拉如此「執拗」的原因。
在這次的 CVPR 上,Karpathy 還詳細介紹了特斯拉是如何基于深度學習開發自動駕駛系統。
除此之外,他還解釋了為什么特斯拉基于視覺就能讓自動駕駛夢想成真。
就在 7 月 10 日,特斯拉開始在美國地區正式推送純視覺版的 FSD Beta V9 版本。
純視覺版的特斯拉,完全依靠車輛前端攝像頭來實現自動駕駛。
有海外車主在夜晚體驗了這一版本,還有車主在霧蒙蒙的街道上自由順暢穿行。總體而言,車輛的表現較之前擁有更平滑的加速和減速,轉彎時也顯得更加自信。
先是聲稱不用激光雷達,而后又宣布在量產車上移除毫米波雷達,特斯拉堅持純視覺自動駕駛的底氣來自哪里?
1、通用計算視覺系統
這一切要從深度神經網絡說起。
深度神經網絡是自動駕駛系統的主干技術之一。
神經網絡會分析車載攝像頭采集到的數據,了解道路、標牌、車輛、障礙以及行人的狀況。
不過,深度學習并非萬無一失,在檢測圖像中的物體時,這項技術也會犯錯。這也是大多數自動駕駛公司,包括領頭羊 Waymo 在內,選擇用激光雷達來搭建三維地圖的原因。
激光雷達能為神經網絡提供更豐富的信息,以便填補在神經網絡上的數據空白。
然而,將激光雷達融入整個自動駕駛系統,也沒你想象的那么容易。
「你得用激光雷達提前對周邊環境進行掃描,隨后生成高精地圖。在這之后還要插入所有車道、連接方式以及各種交通信號燈。」Karpathy 說道。「在測試時,你只需在高精地圖上進行定位,就可以自動駕駛了。」
遺憾的是,用戶說走就走的愿望并沒有那么容易實現,為自動駕駛汽車打造無處不在的高精地圖非常困難。
「只要規模一大,采集、搭建和維護這些高精地圖就變成了不可能完成的任務,」Karpathy 說道。「更別說高精地圖的實時更新了。」
在特斯拉的自動駕駛方案中,并沒有出現激光雷達和高精地圖。
Karpathy 指出,「所有發生的事情都會被車上的 8 顆攝像頭記錄下來。」
自動駕駛系統必須弄清楚車道在哪,信號燈在哪,它們狀態如何,與車輛間有何關系。
最重要的是,它必須在沒有任何導航信息的路況下完成這一切。
Karpathy 強調,基于視覺的自動駕駛,在技術角度更難實現,因為它要求神經網絡僅僅基于視頻輸入就能達到超強性能的輸出。「不過,一旦取得了突破,就能獲得通用視覺系統,方便部署在地球的任何地方。」
有了通用視覺系統,車輛就不再需要什么補充信息了。
Karpathy 認為,特斯拉正在朝這個方向努力。在此之前,特斯拉自動駕駛依靠的是毫米波雷達與攝像頭雙重冗余,而現在的新車則直接砍掉了毫米波雷達。
「我們拋棄了毫米波雷達,車輛只靠視覺來行駛。」Karpathy 表示。
在他看來,特斯拉的深度學習系統已經比毫米波雷達強一百倍,現在的毫米波雷達已經開始拖后腿了。
2、監督學習
對于純計算視覺方案,行業里的主流聲音是,誰也說不清神經網絡能否在沒有激光雷達深度地圖的情況下完成測距和深度估算。
「人類駕駛依靠的是視覺,所以我們的神經網絡是可以處理視覺輸入,并以此理解周邊物體深度與速度的。」Karpathy 解釋道。「不過最大問題在于,合成的神經網絡能否做到這一點。我認為,通過過去幾個月的工作,特斯拉內部已經達成明確共識,我們訓練出的神經網絡能擔此大任。」
特斯拉工程師想打造的深度學習系統,除了要處理深度、速度和加速度信息,還要同時進行目標探測。
在他們看來,這是監督學習的問題,即神經網絡在對標記數據進行訓練后,學習目標探測及其相關屬性。
為了訓練深度學習架構,特斯拉團隊需要一個由數以百萬計視頻組成的龐大數據集,并仔細標記其中的目標及其屬性。
當然,為自動駕駛汽車創建數據集也頗為棘手,工程師們必須確保數據集有多樣化的道路設置和不經常出現的邊緣情況。
Karpathy 表示:「以我的經驗來看,如果你有一個干凈且多樣化的大型數據集,并以此為基礎訓練一個龐大的神經網絡,成功是有保證的」。
3、會自動打標簽的數據集
借助數百萬輛「全副武裝」的特斯拉電動車,特斯拉在視覺深度學習模型的訓練上有著得天獨厚的數據優勢。
目前,特斯拉的自動駕駛團隊已經積累了 1.5PB 的海量數據,包括 100 萬個 10 秒的視頻和 60帶有包圍框與深度、速度標簽的目標。
不過,給這樣的數據集打標簽是一個巨大的挑戰。
一種方法是通過數據標簽公對其進行人工標注。這需要花費大量的人工與時間。
相反,特斯拉團隊使用了一種自動標記的技術。
由于數據集是離線標記的,因此神經網絡可以來回觀看視頻,將它們的預測與事實進行比較,并不斷調整參數。
這與測試時的推理就形成了鮮明對比。
在測試時一切都在實時發生,深度學習模型無法進行追溯。
離線標記還使工程師們能夠應用非常強大且計算密集型的物體檢測網絡,這些網絡無法部署在汽車上,也不能用于實時、低延遲的應用。
同時,他們還使用雷達傳感器數據來進一步驗證神經網絡的推斷,以上種種都提高了標簽網絡的精度。
「離線有離線好處,在數據融合上你可以做得更好,」Karpathy 說道。「此外,你還能讓人類參與進來,他們可以進行更精準的驗證、編輯等工作。」
Karpathy 在 CVPR 上展示的視頻顯示,目標探測網絡在穿過障礙、灰塵和云雪時能維持較為一致的水準。
不過,他并沒有明確解釋自動標簽系統到底需要多少人力來進行最終修正。但可以肯定的是,人類的參與,在引導自動標簽系統向正確的方向發展上發揮了關鍵作用。
另外,在開發數據集時,特斯拉團隊還發現,有 200 多個觸發因素表明目標探測需要不斷調整。
這些問題包括不同攝像頭探測結果的不一致,或者攝像頭和雷達之間探測結果不一致。他們還確定了可能需要特別注意的場景,如隧道進出和頂部有物體的汽車。
特斯拉花了四個月的時間來開發和掌握這些觸發因素。
隨著標簽網絡逐步迭代,「影子模式」中也多了新的功能。
這意味著標簽網絡真正進入了消費者的車輛中,而且是在不向汽車發出指令的情況下默默運行。
在后端,特斯拉工程師會拿這一網絡的輸出與傳統網絡、雷達和司機的行為進行比較。
特斯拉團隊經歷了七次數據工程迭代。
他們起先從一個初始數據集開始訓練他們的神經網絡。
隨后,他們又在真車的影子模式中整合了深度學習,并使用觸發因素來檢測不一致的地方、錯誤和特殊情況。
接著再對錯誤進行修訂、糾正。
如果有必要,他們還會將新的數據添加到數據集中。
「我們一遍又一遍進行這個循環,直到神經網絡變得非常棒,」Karpathy 說道。
正因如此,我們可以將這一架構描述為——一個具有巧妙分工的半自動標簽系統,其中神經網絡做重復性的工作,人類負責高層次的認知問題和邊緣情況。
有趣的是,當一位與會者問 Karpathy 觸發因素的生成是否可以自動化時,他回應稱:
「觸發因素的自動化非常棘手,因為你可以有通用的觸發因素,但它們很難正確反饋所有情況。例如,對進入和離開隧道進行觸發,我們到底需要什么觸發因素。在這種問題上,人類靠的是直覺。」
4、分層的深度學習架構
特斯拉自動駕駛團隊需要一個精心設計的高效神經網絡,以充分利用他們收集到的高質量數據集。
為此,他們創建了一個分層的深度學習架構,由不同的神經網絡組成,處理信息并將輸出信息反饋給下一組網絡。
深度學習模型使用卷積神經網絡,從安裝在車身八個攝像頭采集的視頻中提取特征,并使用網絡將它們融合在一起。
隨后,它跨越時間線將各類特征融合在一起。
這對諸如軌跡預測和平滑推理不一致的任務很重要。
在這之后,空間和時間特征被送入神經網絡的分支結構中,Karpathy 將其描述為頭部、樹干和終端。
Karpathy 指出:「你想要這種分支結構,是因為這樣能帶來大量高價值的輸出,但你不能為每個輸出都準備一個神經網絡」。
分層結構讓特斯拉可以針對不同任務重復使用組件,并在不同的推理路徑之間完成特征共享。
神經網絡模塊化結構的另一個好處是可以進行分布式開發。
特斯拉目前組建了一個大型的機器學習工程師團隊,專門從事自動駕駛神經網絡的研究。
他們每個人都負責神經網絡的一個小組件,并將自己的成果放到更大的網絡中。
「我們有一個大約 20 人的團隊,正在全職訓練神經網絡,他們都在為同一個神經網絡添磚加瓦」。Karpathy 說道。
5、垂直整合
在 CVPR 的演講中,Karpathy 還分享了一些特斯拉訓練和微調深度學習模型所用超級計算機的細節。
特斯拉的計算集群由 80 個節點組成,每個節點包含 8 個 英偉達 A100 GPU 和 80 GB 的顯存,相當于 5760 個 GPU 和超過 450 TB 的 VRAM。
這個超級計算機還擁有 10 PB 的 NVME 超高速存儲和 640 tbps 的網絡能力,用來連接所有的節點,并支撐高效的神經網絡分布式訓練。
特斯拉還設計并自研了車載 AI 芯片。
「特斯拉的芯片轉為神經網絡設計,用來支撐全自動駕駛應用。」Karpathy 說道。
特斯拉的最大優勢在于其強大的垂直整合能力——不僅擁有完整的自動駕駛解決方案,同時還能制造電動汽車和自動駕駛硬件。
現在的特斯拉,處在一個獨特的位置,不但能從其售出的數百萬輛汽車中收集各種數據,借助強悍的計算集群,還可以在其獨有的數據集上創建和訓練神經網絡,并通過影子模式在其售出的電動車上驗證和微調這些神經網絡。
當然,特斯拉還擁有一支由機器學習工程師、研究人員和硬件設計師組成的強大團隊,能將所有的碎片信息進行深度整合。
這種垂直整合外加創建數據、調整機器學習模型并將其部署在車輛上重復循環的方案,使特斯拉打造了業界獨一無二的純視覺自動駕駛解決方案。
在演講中,Karpathy 還展示了多個例子,比如新的神經網絡,已經超過了需要結合雷達信息的傳統機器學習模型。
Karpathy 也相信,如果這一系統繼續進化,特斯拉可能會直接斷了激光雷達的活路。更可怕的是,沒有其他公司能夠復制特斯拉的成功之路。
6、未解決的問題
還有一個問題是,當下的深度學習是否足以克服自動駕駛所有挑戰。
當然,目標探測、速度及距離估算也在駕駛中發揮了很大作用。
不過,人類視覺還執行著許多其他復雜的功能,科學家稱之為視覺的 "暗物質"。這些都是分析視覺輸入的重要組成部分。
深度學習模型在進行因果推理時非常吃力,當模型面對它以前沒有見過的新情況時,就會舉棋不定。
也就是說,雖然特斯拉已經設法搭建了一個非常龐大且多樣化的數據集,但開放道路同樣非常復雜,各種無法預測的事情隨時可能發生。
當下的 AI 界,在某些問題上依然存在分歧,比如是否需要明確將因果關系和推理整合到深度神經網絡中,或者說,是否可以通過「直接擬合」來克服因果關系的障礙——即一個大型的、分布良好的數據集是否能支撐適用于萬事萬物的深度學習。
從目前來看,特斯拉基于視覺的自動駕駛團隊似乎更傾向于后者。
至于特斯拉的技術能否經受住時間的考驗,我們拭目以待。
轉載請注明出處。