作者:admin 日期:2023-08-25 瀏覽: 次
龍存高性能并行存儲支撐AI人工智能!
龍存科技(北京)股份有限公司
龍存高性能并行存儲支持AI人工智能
一、人工智能發(fā)展如火如荼,存儲系統(tǒng)重要性不容忽視
最近幾年人工智能在給各行各業(yè)賦能,各項(xiàng)技術(shù)發(fā)展迅速,整體的GPU/CPU算力提升迅猛。企業(yè)為了構(gòu)建AI人工智能平臺所投入的金額也非常龐大。隨著算力的迅速提升,支撐數(shù)據(jù)存儲的存儲系統(tǒng)的重要性也顯得更加重要。如若存儲系統(tǒng)的性能無法匹配強(qiáng)大的算力,那么GPU/CPU算力將會由于數(shù)據(jù)無法跟上而處于等待狀態(tài),將會嚴(yán)重浪費(fèi)龐大、昂貴的算力基礎(chǔ)資源。
當(dāng)前用來支撐商用HPC、人工智能計(jì)算平臺數(shù)據(jù)存儲的系統(tǒng)只有有限的產(chǎn)品方案選擇,傳統(tǒng)的集中存儲系統(tǒng)無法支撐龐大的并發(fā)讀寫訪問,而開源的文件系統(tǒng)也由于沒有技術(shù)服務(wù)以及缺少重要企業(yè)級功能而不能支撐愈加重要的算力平臺數(shù)據(jù)存儲。
二、傳統(tǒng)并行文件系統(tǒng)存在的問題
01
不支持糾刪碼,無法保障業(yè)務(wù)連續(xù)性和數(shù)據(jù)完整性
當(dāng)前隨著單塊磁盤容量越來越大(10TB~20TB),單套存儲系統(tǒng)管理的硬盤數(shù)量越來越多,RAID技術(shù)已經(jīng)暴露出越來越多的問題,比如重建速度慢、容錯等級低下、故障點(diǎn)多等問題。
1、RAID+IO節(jié)點(diǎn)熱備HA技術(shù):傳統(tǒng)的并行文件系統(tǒng)往往基于存儲節(jié)點(diǎn)/磁盤陣列自身的RAID+IO節(jié)點(diǎn)HA方式的安全性問題越來越突出,已經(jīng)難以支撐更大規(guī)模的存儲系統(tǒng)構(gòu)建。
2、RAID+鏡像副本技術(shù):通過存儲節(jié)點(diǎn)自身的RAID+存儲節(jié)點(diǎn)之間做數(shù)據(jù)鏡像的方式則導(dǎo)致存儲空間利用率異常低下(低于45%),浪費(fèi)了太多的存儲資源。
02
元數(shù)據(jù)處理能力弱,小文件性能低下
人工智能非常重要的場景就是通過GPU進(jìn)行視頻圖像的處理,該場景往往會產(chǎn)生海量的小文件數(shù)據(jù),從而對于存儲系統(tǒng)的元數(shù)據(jù)處理能力帶來了嚴(yán)重的挑戰(zhàn)。當(dāng)前傳統(tǒng)的并行文件系統(tǒng)的元數(shù)據(jù)處理方面采用了如下的辦法并暴露出了相關(guān)的技術(shù)問題:
1、NSD(網(wǎng)絡(luò)共享磁盤)的方案:該方案服務(wù)器可以更容易針對跨元節(jié)點(diǎn)的并發(fā)元數(shù)據(jù)訪問進(jìn)行調(diào)整,但是在作出調(diào)整方面的選擇時(shí)犧牲了其他性能上的提升,從而導(dǎo)致元數(shù)據(jù)處理能力低下。
2、使用的串行元數(shù)據(jù)訪問模型:該方案只有單臺元數(shù)據(jù)服務(wù)器,或者單個文件系統(tǒng)目錄只能訪問某臺元數(shù)據(jù)服務(wù)器。在高并發(fā)訪問的情況下,元數(shù)據(jù)訪問就需要串型排隊(duì)處理,這使得許多人工智能分析的工作負(fù)載所需的眾多并發(fā)文件操作非常慢。
三、龍存推出面向人工智能AI的并行文件系統(tǒng)方案
01
采用糾刪碼數(shù)據(jù)冗余保護(hù),提升AI計(jì)算連續(xù)性
LoongStore并行文件系統(tǒng)支持多種靈活的冗余模式,同時(shí)支持多副本和糾刪碼技術(shù)。系統(tǒng)最大支持4節(jié)點(diǎn)同時(shí)宕機(jī)而不影響業(yè)務(wù),可根據(jù)系統(tǒng)規(guī)模選擇更合適業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)保護(hù)策略。同時(shí),系統(tǒng)支持基于目錄的在線冗余模式調(diào)整,最大限度保證數(shù)據(jù)安全性,同時(shí)將系統(tǒng)可使用空間最大化,空間使用率最高可達(dá)94%。LoongStore可同時(shí)提供文件級及塊級別數(shù)據(jù)保護(hù),用戶可以在目錄、文件、子目錄、塊設(shè)備和集群上設(shè)置不同的保護(hù)級別。
LoongStore使用N+M糾刪碼技術(shù)。N+M數(shù)據(jù)模型,N代表節(jié)點(diǎn)或硬盤的數(shù)量,M代表在不發(fā)生數(shù)據(jù)丟失的前提下,集群所允許的同時(shí)發(fā)生故障的節(jié)點(diǎn)數(shù)或磁盤數(shù)。例如,當(dāng)采用N+4模式時(shí),整個LoongStore集群存儲系統(tǒng)允許同時(shí)損壞4個存儲節(jié)點(diǎn)或任意4塊硬盤。
LoongStore的磁盤損壞以后的數(shù)據(jù)重建速度比傳統(tǒng)RAID快了五倍以上,每TB數(shù)據(jù)重建時(shí)間不超過30分鐘,從而大幅度的提升數(shù)據(jù)安全性和業(yè)務(wù)訪問的連續(xù)性。
02
高效的元數(shù)據(jù)處理能力
LoongStore元數(shù)據(jù)服務(wù)是一種擴(kuò)展服務(wù),這意味著在LoongStore文件系統(tǒng)中可以有一個或多個元數(shù)據(jù)服務(wù)。每個元數(shù)據(jù)服務(wù)負(fù)責(zé)其在全局命名空間中的獨(dú)占部分,因此擁有更多的元數(shù)據(jù)服務(wù)器可以提高整體系統(tǒng)性能,并且以后添加更多的元數(shù)據(jù)服務(wù)器。
通常,元數(shù)據(jù)目標(biāo)是基于閃存硬盤單盤、RAID1或RAID10的存儲,因?yàn)檩^低的元數(shù)據(jù)訪問延遲可以提高文件系統(tǒng)的響應(yīng)能力。LoongStore元數(shù)據(jù)非常小,并且與用戶創(chuàng)建的文件數(shù)呈線性增長。512GB的可用元數(shù)據(jù)容量可以容納大約超過1億個用戶文件。
由于文件系統(tǒng)元數(shù)據(jù)操作占典型文件系統(tǒng)工作負(fù)載的一半,有效的元數(shù)據(jù)管理對整個系統(tǒng)性能至關(guān)重要。元數(shù)據(jù)管理在分布式文件系統(tǒng)中也提出了一個關(guān)鍵的可伸縮性挑戰(zhàn)。隨著添加了更多的存儲設(shè)備,容量和聚合I/O速率可以任意伸縮,但是元數(shù)據(jù)操作涉及到更大程度的相互依賴性,這使得可擴(kuò)展的一致性和一致性管理更加困難。
LoongStore采用了一種基于動態(tài)子樹劃分的新型元數(shù)據(jù)集群體系結(jié)構(gòu)。該體系結(jié)構(gòu)能夠自適應(yīng)地、智能地將管理文件系統(tǒng)目錄層次結(jié)構(gòu)的責(zé)任分配給數(shù)個甚至數(shù)百個元數(shù)據(jù)節(jié)點(diǎn)。一個(動態(tài)的)分層分區(qū)在每個元數(shù)據(jù)節(jié)點(diǎn)的工作負(fù)載中保持局部性,有助于高效的更新和積極的預(yù)取,以提高高負(fù)載下的性能。LoongStore能夠在任何工作負(fù)載下有效地利用可用的元數(shù)據(jù)節(jié)點(diǎn)資源,并實(shí)現(xiàn)元數(shù)據(jù)節(jié)點(diǎn)數(shù)量的近似線性擴(kuò)展。
03
存算融合,多級存儲滿足不同階段的數(shù)據(jù)存儲需求
當(dāng)前GPU/CPU計(jì)算節(jié)點(diǎn)中一般都會配置部分?jǐn)?shù)據(jù)磁盤。這些計(jì)算節(jié)點(diǎn)內(nèi)部硬盤的問題在于它們既沒有跨多臺機(jī)器的單個命名空間所具有的優(yōu)點(diǎn),也沒有共享并行文件系統(tǒng)的靈活性和性能。
所以除了使用LoongStore并行文件系統(tǒng)構(gòu)建獨(dú)立的共享文件系統(tǒng)存儲池以外,LoongStore還可以整合計(jì)算節(jié)點(diǎn)內(nèi)置的硬盤,使之構(gòu)建為全局名字空間的文件系統(tǒng)存儲池。所以LoongStore完全針對作業(yè)的運(yùn)行時(shí)環(huán)境,“按照具體作業(yè)”跨所有計(jì)算節(jié)點(diǎn)創(chuàng)建一個共享的并行文件系統(tǒng),所有計(jì)算節(jié)點(diǎn)都參與處理某個特定的計(jì)算作業(yè)。具體配置如下:
并行文件系統(tǒng)&GPU/CPU計(jì)算融合部署運(yùn)行
通過此種方案配置,CPU、GPU計(jì)算作業(yè)可以像訪問本地目錄一樣訪問并行文件系統(tǒng)基于服務(wù)器內(nèi)置磁盤構(gòu)建的全局共享文件系統(tǒng)存儲池,實(shí)現(xiàn)文件共享和高并發(fā)讀寫訪問。
該并行文件系統(tǒng)和CPU、GPU計(jì)算任務(wù)等同一個物理節(jié)點(diǎn)進(jìn)行部署的方案可以更好的實(shí)現(xiàn)存儲和計(jì)算融合,并且方案可以根據(jù)需要靈活配置節(jié)點(diǎn)數(shù)量來擴(kuò)展GPU/CPU計(jì)算資源、存儲資源,實(shí)現(xiàn)動態(tài)擴(kuò)展來匹配業(yè)務(wù)需求。
04
更高的計(jì)算節(jié)點(diǎn)客戶端讀寫性能
LoongStore提供了高性能的操作系統(tǒng)內(nèi)核原生POSIX客戶端,以一客戶端對多臺存儲節(jié)點(diǎn)的方式并行讀寫數(shù)據(jù),并且支持RDMA。在實(shí)際的運(yùn)行過程中,LoongStore的單臺計(jì)算節(jié)點(diǎn)進(jìn)行數(shù)據(jù)讀寫能夠充分利用自身的網(wǎng)絡(luò)吞吐極限能力,讀寫帶寬可以達(dá)到網(wǎng)絡(luò)帶寬的90%以上,從而更加充分地滿足計(jì)算節(jié)點(diǎn)所需要的數(shù)據(jù)讀寫性能。比如配置了200Gbps Inifiniband網(wǎng)絡(luò)的單臺節(jié)點(diǎn)通過POSIX客戶端最高可以獲得超過20GB/s讀寫帶寬的性能。
05
更高的存儲硬件性能發(fā)揮百分比
LoongStore基于RDMA以及基于內(nèi)核級別的程序設(shè)計(jì)、緩存策略等技術(shù)實(shí)現(xiàn),可以更大化的發(fā)揮基礎(chǔ)硬件和網(wǎng)絡(luò)的性能,單臺存儲節(jié)點(diǎn)配置四塊Nvme-SSD就可以提供17.4GB/s的聚合讀寫能力。LoongStore的測試性能表現(xiàn)突出,主要如下:
1、每塊Nvme-SSD在文件系統(tǒng)中可以提供超過4.3GB/s的讀寫性能。
2、每塊SATA硬盤可以在文件系統(tǒng)中可以提供超過150MB/s的讀寫性能。
06
全面的跨芯片服務(wù)器兼容能力
LoongStore基本上與硬件無關(guān)。從CPU層面來看,LoongStore支持市場上的所有CPU,無論是X86還是飛騰、鯤鵬、海光、申威、龍芯,并且還支持跨芯片架構(gòu)服務(wù)器混合部署為一套存儲系統(tǒng)。
LoongStore并行文件系統(tǒng)依靠更高的可靠性、讀寫性能、兼容能力等,持續(xù)替代傳統(tǒng)的文件系統(tǒng)支撐了大量AI人工智能、商用HPC項(xiàng)目的數(shù)據(jù)存儲應(yīng)用,支持了諸如超過五千臺計(jì)算節(jié)點(diǎn)客戶端、超過五百臺存儲節(jié)點(diǎn)的單一文件系統(tǒng)、超過100PB裸容量的單一存儲池等諸多大規(guī)模項(xiàng)目,給AI人工智能加速。
400 803 6006
www.loongstore.com.cn
北京市海淀區(qū)知春路63號51號樓5層502