高校微智算中心解決方案


關注我:
背景分析
人工智慧大模型的參數數量呈指數級增長,從千億級的「大模型」到萬億級的「超大模型」。這一趨勢表明,人工智慧領域的技術發展正在加速,模型的規模和複雜性也在不斷增加。
隨著模型規模的增加,所需的運算資源和儲存空間也隨之增加,這對硬體和基礎設施提出了更高的要求。需要一種高效、可靠的存儲解決方案,該解決方案是計算獨立且可擴展的,以應對這些挑戰。
部署選項
儲存內部網路:儲存IO節點與資料節點之間的資料傳輸網路。每個儲存體IO節點提供兩個100 G RoCE v2連接埠,每個儲存體資料節點提供六個100 G RoCE v2連接埠,這些連接埠會連線到儲存內部網路交換器。
儲存外部網路:存儲IO節點與K8S集群、CPU集群和GPU集群節點之間的數據傳輸網絡。每一個節點都提供兩個100 G RoCE v2埠,以連接至儲存體外部網路交換器。
計算網絡:GPU節點之間的高速通信網絡,多路復用存儲網絡。可選的InfiniBand獨立網絡。
管理網絡:對每個設備進行管理和監控,並對外部網路進行多路復用。可選的千兆獨立網絡。

計劃價值
●減少AI訓練之前的資料準備時間
LUISUAN High Performance Storage在面對來自各種來源的大量多模態數據時提供高吞吐量和高IOPS功能,從而顯著提高數據寫入速度。AI訓練的資料收集時間減少了80%,從大約10天縮短到僅2天甚至幾個小時。
●提高AI訓練套的載入速度
在多模態海量樣本訓練中,透過英偉達的GPU Direct Storage技術,LUISUAN高效能儲存幫助AI訓練提高資料載入速度,將原本需要數月的訓練時間縮短至一週左右。
●確保AI訓練的持續穩定運作
在太級參數的訓練和調優中,儲存系統和運算系統之間的頻繁互動可能會導致訓練中斷。通過全冗餘的硬件架構、多路徑模式和存儲網絡的冗餘設計,LUISUAN High Performance Storage可以將可靠性提高90%,從而減少存儲故障帶來的訓練中斷。
●降低AI部署難度
LUISUAN高效能儲存系統針對AI訓練和推理進行了深度最佳化,可以與之完美結合。支援混合雲(離線和雲端)部署模型,快速建置AI基礎設施環境。

相關產品
LUISUAN LinePillar FS平行檔案系統
●安全高效
元資料節點支援主活配對模式,實現元資料節點間元資料的相互備份,確保元資料服務的連續性。支持全局擦除碼,存儲空間利用率可達90%以上。
●大量小檔案最佳化
支援百億檔案的統一儲存和高效檢索。創新的小文件容器存儲技術將創建和檢索小文件的效率提高了傳統存儲的10倍以上。
●豐富的存取介面
提供一套全面的儲存介面協定,包括檔案儲存(POSIX、NFS、CIFS)、區塊儲存(iSCSI)、物件儲存(S3、Swift)、大數據(HDFS)和容器儲存介面(CSI)。
ForinnBase GroundPool 5000 EBOF
ForinnBase GroundPool 5000 EBOF(簡稱GP 5000),通過完美集成當前高速閃存傳輸協議,採用專用ASIC芯片進行存儲,實現數據協議卸載和封裝。具有低延遲、低功耗、高吞吐量、大容量、易於擴展等特點。
