馴服自動駕駛中的TeraByte資料洪流:高效能平行檔案系統如何實現即時感測器資料處理
關注我:
全自動駕駛汽車(L3/L4及更高版本)的競賽正在產生與任何其他行業不同的數據爆炸。現在,單一自動駕駛開發車輛每天可以產生數TB (有時甚至是PB)的原始感測器資料。這些數據來自雷射雷達、攝影機、雷達和其他感測器,構成了人工智慧模型的命脈,為感知、預測和決策提供動力。研發團隊面臨的巨大挑戰不再只是收集這些數據,而是如何以極高的效率和最小的延遲捕獲、存儲和處理這些數據,以跟上激進的開發週期。這項挑戰的核心在於基礎設施的關鍵部分:儲存架構。
自動駕駛資料海嘯:不僅僅是儲存問題
想像一下,連續、高速的資料流同時從數十個感測器流出。這不僅僅是“大數據”;這是快速的數據。主要障礙不僅僅是找到一個地方來放置所有內容。真正的測試是在不丟棄資料包的情況下即時攝取大量信息,確保其立即可用於預處理和標記,最後將其無縫地饋送到龐大的GPU叢集進行模型訓練。此管道中的任何瓶頸(尤其是初始自動駕駛資料湖儲存層)都可能使開發陷入困境,延遲關鍵迭代並最終延遲上市時間。
傳統的網路附加儲存(NAS)或直連儲存(DAS)解決方案在這種壓力下會屈服。它們不是為並發性、大規模或對低傳感器數據處理延遲的不懈需求而設計的。當數千個資料流需要同時寫入操作時,這些系統會引入I/O瓶頸,導致資料遺失、緩衝區溢位和不可接受的延遲。建立可靠且可擴展的基礎需要一種根本不同的方法,一種從頭開始為平行存取而構建的方法。
建構PB級資料湖:核心需求
專為自動駕駛而建置的資料湖是有效研發營運的基石。然而,並非所有資料湖都是一樣的。為了處理此工作負載的嚴謹性,底層儲存系統必須滿足數個不可協商的準則,這些準則遠遠超出簡單的容量。
極致的I/O效能和低延遲
系統必須支援數千個並發資料流同時寫入,通常需要亞毫秒級的延遲。這對於防止在車輛感測器套件的高速擷取階段遺失資料至關重要。
大規模、無縫的可擴展性
隨著測試車隊從少數車輛擴展到數百或數千輛,以及隨著資料保留策略的擴展,儲存必須從PB擴展到EB,而無需進行破壞性架構變更或導致效能下降。
統一命名空間和智慧型中繼資料
管理數十億個小檔案(從單個傳感器幀到帶註釋的數據片段)需要整個數據集的單一統一視圖。強大且高效的元資料管理對於跨複雜機器學習管道的快速資料發現、版本控制和沿襲追蹤至關重要。
強大的分散式儲存系統,例如LST-E5000系列分散式儲存裝置為這樣的數據湖提供了良好的基礎。其水平可擴展的架構專為高I/O吞吐量而設計,可以從TB平穩擴展到數PB,為管理自動駕駛汽車開發中產生的大量資料集提供了堅實的基礎。
平行檔案系統的優勢:消除資料瓶頸
這就是高效能並行檔案系統的用武之地,從根本上改變了自動駕駛研發的資料動態。與傳統儲存不同,平行檔案系統的架構是跨多個儲存節點和網路分發資料和中繼資料。這允許許多客戶端(例如資料攝取伺服器或GPU節點)同時讀取和寫入檔案系統的不同部分,從而解鎖前所未有的聚合頻寬和每秒I/O操作數(IOPS)。
將檎平行檔案系統作為一個典型的例子。Purlin專為高效能運算(HPC)和大規模AI工作負載而設計。其核心技術直擊自主數據處理痛點:
- 分散式鎖管理:實現來自數千個客戶端的無縫並發訪問,而不會出現困擾傳統文件系統的爭用。
- 資料條帶化:將大型檔案分解為較小的區塊並將它們分散在多個儲存裝置上,大幅提高大型感測器資料流的讀寫速度。
- 元資料效能:高度最佳化的中繼資料架構可確保檔案建立和查找等操作(在處理數十億個小檔案時至關重要)不會成為瓶頸。
在實踐中,這意味著在資料擷取過程中,Purlin可以以接近零的寫入延遲吸收感測器資料的消防水帶,從而保證資料的完整性。隨後,在訓練階段,它可以使數百個GPU的I/O飢餓飽和,確保它們永遠不會等待數據。這種在PB級檔案系統層級保持高效能的能力使得平行檔案系統變得不可或缺。
加速整個資料管道:從收集到訓練
高效能檔案系統是支柱,但優化整個資料管道需要採取整體方法。從汽車上的感測器到經過訓練的神經網路模型的資料過程涉及幾個階段,在這些階段中,效能可能會獲得或損失。
快速預處理和貼標
在開始訓練之前,必須對原始資料進行清理、過濾、格式化和精心標記。此階段涉及對大量小檔案進行密集的隨機讀/寫操作,這是傳統儲存的已知弱點。平行檔案系統允許大量資料標記工作站同時存取資料集,而不會造成效能崩潰,從而顯著加速了這一過程。
饋送GPU叢集
管道中最關鍵的部分是將資料饋送至負責模型訓練的GPU叢集。在這裡,並行檔案系統充當高速「資料饋送器」,確保始終如一地提供保持所有GPU充分利用所需的巨大頻寬。這直接影響培訓時間和研究人員的生產力。
專用硬體可以進一步加速此管道。這Lightboat 2300系列FPGA加速卡可部署用於計算量大的預處理任務,例如影像解壓縮或點雲過濾,減輕CPU負擔並減少從原始資料到訓練就緒資料的時間。
此外,連接儲存和運算的網路是一個至關重要的環節。像LS-H22-2100網卡提供必要的高頻寬、低延遲連接,確保資料從平行檔案系統到GPU節點暢通無阻,將感測器資料處理延遲保持在絕對最低限度。
智慧資料分層:平衡效能與成本
並非所有資料都需要始終相同等級的效能。智慧自動駕駛資料湖儲存策略涉及實作分層儲存架構。這種方法根據資料的存取頻率和效能要求將資料放置在不同的儲存媒體上,從而優化了速度和成本。
| 儲存層 | 科技 | 自動駕駛用例 |
|---|---|---|
| 熱門層 | 全快閃陣列 | 即時資料擷取、作用中模型訓練資料集、經常存取的標記資料。 |
| 暖層 | 大容量混合/並聯系統 | 較舊的專案資料、較不常存取的感測器日誌、已完成的訓練資料集。 |
| 冷/封存層 | 物件儲存或磁帶 | 用於長期法規遵循的原始數據、存檔的項目數據、備份副本。 |
對於效能至關重要的熱層,全快閃解決方案是理想的選擇。這LST-F3100全快閃儲存系列s提供極高的IOPS和微秒級延遲,非常適合託管自動駕駛專案的主動工作集。它可以充當平行檔案系統中的高效能層或快取層,確保即將進行的訓練作業所需的資料始終以盡可能高的速度可用。
未來之路:更智能、更快捷的數據基礎設施
自動駕駛數據基礎設施的演進還遠未結束。Compute Express Link (CXL)和NVMe-over-Fabrics (NVMe-oF)等新興技術有望進一步模糊儲存和記憶體之間的界限,從而實現更低的延遲和更有效率的資料移動。趨勢很明確:未來在於深度整合的軟體定義基礎設施,這些基礎設施既具有大規模可擴展性,又足夠智能,可以自動管理資料放置和移動。
可靠地捕獲、即時訪問和快速分析TB級的日常傳感器數據的能力是領先的自動駕駛汽車項目與其他項目的區別。高效能平行檔案系統不僅僅是該架構中的一個元件;它們是使整個數據驅動的開發生命週期成為可能的使能技術。透過克服資料瓶頸,它們使工程師和資料科學家能夠更快地建立更安全、更智慧的自主系統。






