高校微智慧計算中心解決方案


關注我:
背景分析
人工智慧大模型的參數數量呈指數級增長,從數千億的“大模型”發展到萬億的“超大型模型”。這一趨勢表明,人工智慧領域的技術發展正在加速,模型的規模和複雜性也在增加。
隨著模型大小的增大,所需的計算資源和存儲空間也隨之增加,這對硬體和基礎設施提出了更高的要求。需要一種高效、可靠的存儲解決方案,該解決方案是計算獨立且可擴展的,以應對這些挑戰。
部署選項
儲存內網:存儲IO節點和資料節點之間的資料傳輸網路。每個儲存IO節點提供2個100 G RoCE v2連接到儲存資料節點提供6個100 G RoCE v2連接到記憶體網交換機。
儲存外網:存儲IO節點與K8S集群、CPU集群和GPU集群節點之間的數據傳輸網路。每個節點提供兩個100 G RoCE v2埠,用於連接到存儲外聯網交換機。
計算網路:GPU節點之間的高速通信網路,多路復用存儲網路。可選的InfiniBand獨立網路。
管理網路:管理和監控每個設備,並多路復用存儲外部網路。可選的千兆獨立網路。

計劃價值
●減少AI訓練之前的數據準備時間
LUISUAN高性能存儲在面對來自各種來源的大量多模式數據時提供高輸送量和高IOPS功能,從而顯著提高數據寫入速度。AI訓練的數據收集時間縮短了80%,從大約10天縮短到僅2天甚至幾個小時。
●提高AI訓練組的載入速度
在多模態海量樣本訓練中,通過NVIDIA的GPU Direct Storage技術,LUISUAN高性能存儲説明AI訓練提高數據載入速度,將原本需要幾個月的訓練時間縮短到一周左右。
●確保AI訓練的持續穩定運行
在萬億級參數的訓練和調優中,存儲系統和計算系統之間的頻繁交互可能會導致訓練中斷。通過全冗餘硬體架構、多路徑模式和存儲網路冗餘設計,LUISUAN High Performance Storage可以將可靠性提高90%,從而減少因存儲故障而導致的訓練中斷。
●降低AI部署難度
路易軒高性能存儲系統針對AI訓練和推理進行了深度優化,可以與之完美結合。支援混合雲(離線和雲)部署模型,以快速構建AI基礎架構環境。

相關產品
LUISUAN LinePillar FS並行文件系統
●安全高效
元數據節點支援Active-Active配對模式,實現元數據節點之間元數據的相互備份,保證元數據服務的連續性。支援全球糾刪碼,存儲空間利用率可達90%以上。
●大量小檔優化
支援百億級文件的統一存儲和高效檢索。創新的小檔容器存儲技術將創建和檢索小檔的效率提高了10倍以上。
●豐富的訪問介面
提供一套全面的存儲介面協定,包括檔存儲(POSIX、NFS、CIFS)、塊存儲(iSCSI)、物件存儲(S3、Swift)、大數據(HDFS)和容器存儲介面(CSI)。
ForinnBase GroundPool 5000 EBOF
ForinnBase GroundPool 5000 EBOF(簡稱GP 5000)通過完美集成當前高速快閃記憶體傳輸協議,採用專用ASIC晶片進行存儲,實現數據協定的卸載和封裝。它具有低延遲、低功耗、高輸送量、大容量、易擴展等特點。
