打破IOPS障礙:為什麼NVMe-oF全快閃儲存是未來AI訓練和HPC的唯一選擇


關注我:
隨著人工智慧和高效能運算工作負載的規模和複雜性不斷爆炸式增長,傳統網路架構正面臨根本限制。訓練大型語言模型和運行科學模擬所需的大量數據移動暴露了關鍵瓶頸,即使是最強大的GPU集群也可能癱瘓。遠端直接記憶體存取技術代表了我們在現代運算環境中處理資料移動方式的範式轉變。
現代GPU集群中的網絡瓶頸危機
當今要求最苛刻的運算工作負載面臨著一個諷刺的挑戰:雖然GPU處理能力一直在以驚人的速度成長,但網路基礎設施卻難以跟上步伐。這會創造一個重要的GPU叢集網路瓶頸這使得昂貴的計算資源閒置,等待數據到達。在分散式訓練場景中,研究人員記錄了GPU將40-60%的時間花在等待網路傳輸而不是運算上的案例。
傳統的網路方法涉及多個記憶體副本和每次資料傳輸的大量CPU開銷。這造成了一個基本限制,即網路效能受到CPU功能而不是網路硬體的限制。隨著叢集規模成長為數百或數千個GPU,這種開銷會加劇,造成指數級的低效率,從而限制擴展並推高運算成本。
RDMA基礎知識:繞過傳統網路限制
遠端直接記憶體存取技術透過根本不同的資料移動方法解決了這些挑戰。RDMA可讓網路介面卡直接讀取和寫入應用程式記憶體,而不需要涉及主機CPU。這種核心繞過架構消除了困擾傳統網路方法的多層開銷。
RDMA的核心創新在於其零拷貝操作和傳輸卸載能力。配備RDMA功能的網卡可以直接存取應用程式緩衝區,將資料從網路直接移動到記憶體中的最終目的地。這種方法將延遲從毫秒減少到微秒,同時釋放CPU資源用於計算任務,而不是資料移動開銷。
RDMA如何轉變HPC儲存效能
RDMA的優勢在儲存密集型應用中變得尤為顯著。iSCSI和NFS等傳統儲存協定依賴TCP/IP堆疊,這會帶來顯著的延遲和CPU利用率。對於實施的組織用於HPC儲存的RDMA,效能改進可以帶來變革。
在將RDMA加速儲存與傳統方法進行比較的基準測試中,研究人員記錄了每秒I/O操作提高了3-5倍,同時將延遲降低了80-90%。這些收益直接轉化為更快的模型訓練時間和更高的AI工作負載中的GPU利用率,使RDMA成為現代高效能運算基礎設施的重要組成部分。
RoCE和NVMe-oF:GPU叢集加速的Power Duo
雖然RDMA技術起源於專門的InfiniBand環境,但透過RoCE(RDMA over Converged Ethernet)遷移到乙太網路極大地擴展了其可訪問性。RoCE將RDMA效能引入現有乙太網路基礎設施,同時保持與熟悉的網路管理方法的兼容性。
RoCE架構和實作考量
RoCE透過將RDMA協定封裝在乙太網路幀中來運作,創建與傳統IP流量共存的高效能層。當前標準RoCE v2增加了IP路由功能,支持跨標準網絡基礎設施進行部署,同時保持使RDMA對計算工作負載如此有價值的低延遲特性。
成功的RoCE部署需要注意幾個關鍵因素。端正RoCE效能調整涉及配置無損乙太網功能,包括優先級流量控制(PFC)和顯式擁塞通知(ECN)。這些機制可防止封包丟棄,否則會觸發重新傳輸並引入顯著的延遲峰值,從而破壞RDMA效能。
NVMe-oF:跨網路擴展儲存效能
NVMe over Fabrics (NVMe-oF)代表了RDMA環境存儲協議的自然演進。雖然傳統的存儲協議是為速度較慢的媒體設計的,但NVMe-oF跨網絡連接擴展了高效的NVMe協議,使遠程存儲設備能夠提供類似於本地NVMe驅動器的性能特徵。
當與RoCE結合時,NVMe-oF為用於HPC儲存的RDMA實作。這種組合允許GPU叢集以微秒級延遲存取共享儲存池,從而消除經常困擾資料密集型AI訓練工作負載的儲存瓶頸。這些技術之間的協同作用使得隨著運算資源的擴展,儲存效能可以線性擴展。
基本硬體基礎:RDMA加速的建置區塊
實施強大的RDMA基礎設施需要仔細選擇相容的硬體組件。網路介面卡、交換器和儲存系統必須協調運作,才能提供承諾的效能優勢。
LS-H22-2100系列網路適配器
這LS-H22-2100系列網路適配器透過全面的RoCE v2支援,為RDMA實作提供堅實的基礎。這些雙端口100GbE適配器提供低延遲連接,這對於克服GPU叢集網路瓶頸在AI訓練環境中。這些適配器具有包括GPU Direct RDMA支援和複雜流量管理功能在內的先進功能,可確保網路基礎設施跟上運算需求的步伐。
LST-F3100全快閃儲存系列
與RDMA加速網路配對時,LST-F3100全快閃儲存系列為資料密集型HPC工作負載提供卓越的效能。這些系統經過專門設計,可最大限度地發揮NVMe-oF相對於RoCE的優勢,提供對共享儲存資源的微秒級存取。憑藉優化的隊列深度和並行架構,LST-F3100可確保存儲性能隨著不斷增長的計算需求而無縫擴展。
RoCE環境的進階效能調整
部署RoCE基礎架構只是實現最佳效能的第一步。有理解力的RoCE效能調整需要注意網路堆疊中的多個組態參數。投入時間進行適當調整的組織始終比依賴預設設定的組織取得更好的結果。
調整參數 | 建議設定 | 效能影響 | 㥢 |
---|---|---|---|
MTU大小 | 4096或9014位元組 | 將每個封包的額外負荷降低30-50% | 需要端對端配置一致性 |
PFC組態 | 在RDMA流量類別上啟用 | 防止封包遺失引起的重新傳輸 | 需要功能強大的開關和適當的緩衝區大小 |
中斷審核 | 自適應或平衡模式 | 將CPU使用率降低20-40% | 延遲和CPU效率之間的權衡 |
佇列配對設定 | 針對工作負載模式進行最佳化 | 將吞吐量提高15-25% | 記憶密集型;需要足夠的資源 |
關鍵RoCE最佳化技術
實現最佳RoCE效能需要採用系統化的配置和監控方法。以下技術已被證明在生產環境中至關重要:
- 端對端緩衝區管理:根據頻寬延遲乘積計算適當調整接收和傳送緩衝區的大小,以防止飢餓或耗盡。
- 流量類別隔離:為RDMA工作負載專用特定流量類別,將它們與傳統網路流量分開。
- 擁塞控制實施:部署DCQCN(資料中心量化擁塞通知)或類似演算法,以保持負載下的穩定性。
- 記憶體配準優化:預先註冊記憶體區域,以避免資料傳輸期間的執行階段註冊額外負荷。
- 完成隊列管理:根據工作負載特性適當地調整完成佇列的大小,以防止溢位狀況。
GPU Direct RDMA:消除最終效能障礙
雖然標準RDMA顯著降低了網路開銷,但GPU Direct RDMA透過實現網路介面卡和GPU記憶體之間的直接資料傳輸,進一步優化了一步。該技術完全繞過CPU和系統內存,為GPU叢集中的資料移動創建最有效的路徑。
在分散式AI訓練場景中,GPU Direct RDMA可以讓不同伺服器中的GPU之間直接交換模型參數和梯度。與標準RDMA實作相比,此方法可將全縮減作業的延遲減少30-50%,直接解決GPU叢集網路瓶頸這限制了大規模的培訓效率。
用於RDMA最佳化儲存的Purlin平行檔案系統
這檁條平行檔案系統代表了在支持RDMA的環境中最大限度地提高存儲性能的專用解決方案。與為不同硬體時代設計的傳統檔案系統不同,Purlin在架構上進行了最佳化,可利用RDMA進行資料和中繼資料操作。
透過實作用戶端RDMA作業和伺服器端輪詢型處理,Purlin消除了限制傳統檔案系統效能的上下文切換額外負荷。此架構為檔案操作提供一致的微秒級延遲,非常適合在大規模AI訓練工作負載中進行檢查點和資料集載入。
現代HPC基礎設施的全面解決方案
隨著組織擴展其計算基礎設施,結合計算、存儲和網絡的集成解決方案變得越來越有價值。這些預先驗證的系統消除了整合挑戰,並確保所有組件的最佳效能。
LST-H5000超融合一體機系統
這LST-H5000超融合系統為部署RDMA加速基礎架構的組織提供統包解決方案。透過將運算、儲存和網路整合到單一最佳化平台中,LST-H5000消除了經常困擾客製化叢集的相容性挑戰。
LST-H5000原生支援RoCE和GPU Direct RDMA,為兩者提供卓越的效能用於HPC儲存的RDMA和計算工作負載。該系統的統一管理介面簡化了部署和持續操作,減少了與高效能運算環境相關的管理開銷。
RDMA在不斷發展的運算環境中的未來
隨著運算需求的不斷成長,RDMA技術正在不斷發展以應對新的挑戰和機會。400GbE和800GbE網路的出現為RDMA效能創造了新的可能性,而與運算儲存和持久記憶體的整合則開闢了新的架構方法。
持續完善RoCE效能調整方法和更複雜的擁塞控制演算法的開發將進一步增強RDMA部署的穩定性和效率。隨著這些技術的成熟,各種規模的組織將越來越容易使用RDMA,從專門的解決方案轉變為高效能運算基礎設施的標準組件。
實現最佳運算效率的旅程仍在繼續,RDMA是下一代人工智慧和科學發現的關鍵推動者。如今採用這些技術的組織將自己定位在計算能力的最前沿,準備好應對未來最苛刻的工作負載。