非結構化數據正以前所未有的速度增長。IDC的預測表明,到2025年,全球將有80%的數據是非結構化的。文件協議是存取非結構化數據最普遍的使用方式,根據IDC統計,2019年度,中國的軟件定義存儲市場約60%是文件存儲。
盡管非結構化數據并不是什么新鮮事,但IT團隊承受著巨大壓力,他們希望以簡單和易于使用的方式快速、一致地存儲和管理非結構化數據,但傳統文件系統有很多的限制:
1、元數據和數據使用本地存儲,無法橫向擴展,不具備節點級高可用;
2、受限于元數據的存儲空間和性能,實際可保存的文件數有限,一般小于1億,存儲空間為TB級別;
3、非統一命名空間,多個掛載目錄之間無法互通,使用復雜;
4、文件存儲網關不可擴展,無法提升帶寬,造成訪問瓶頸;
5、不支持大數據和容器等新業務。
01分布式文件架構,如何和硬件與時俱進?
數字化轉型下的軟件定義存儲架構,可以很好的滿足用戶各種需求,如在標準服務器上的敏捷部署,可靈活擴展,性能和容量隨服務器節點數增長而線性增長,硬件升級與更換無需跨存儲系統遷移數據,硬件升級換代紅利即時享用,業務層無感知、無影響等。
但是軟件定義,也需要充分利用最新的硬件技術,與時俱進。
分布式文件存儲,最復雜的就是元數據的保存和處理。根據統計,大部分的AI/ML分析應用,90%的I/O都是請求元數據操作。
上一代的分布式文件系統,由于當時的硬件限制,為了解決元數據的容量瓶頸,部分產品(如CephFS)將元數據保存在后端的RADOS集群里,I/O路徑長,并且由于復雜的同步和互鎖機制,性能損耗較高,性價比并不理想;
部分產品(如HDFS)采用內存來保存所有的元數據,雖然元數據性能較好,但由于內存的容量有限,系統支持的文件數比較少,擴展能力有限。
有沒有一種架構,能夠以較低的成本,極簡的架構,滿足現代文件系統元數據處理的性能和容量要求?
現在,大容量高速SSD的普及,使得魚和熊掌兼得變成現實。NVMe協議的出現,大大降低接口協議的開銷,SCM(存儲級內存)的出現,大大提升介質的性能,加上顆粒成本的下降,使得5TB以上的大容量NVMe SSD較為普遍。
這些SSD新技術的發展,加上CPU的核數越來越多,使得全閃存元數據節點完全可以應對大規模文件系統的需求,比如,只需要5TB的NVMe SSD的元數據空間,就可以輕松保存和處理百億規模文件。
02XGFS重新定義下一代分布式文件系統
XGFS(XSKY Global File System)是XSKY提供的新一代分布式文件存儲系統,具有單一全局的命名空間。
XGFS基于靈活的SDS架構,支持NFS、SMB、FTP、POSIX、HDFS、Kubernetes CSI(容器存儲接口)等豐富的協議,不僅可以用于企業的文件共享,備份歸檔通用場景,也可以應用于視頻監控、媒資管理、高性能計算等高性能、大帶寬、大容量的場景, 還支持最新的大數據和容器場景。
XGFS企業級分布式存儲系統架構圖
XGFS創新利用最新的多核CPU、大容量和高性能NVMe SSD,只需要3個全閃存元數據高可用節點(可以共用數據節點),就可以高效保存和處理100億數量文件規模的數據,同時提供每秒上百萬元數據讀寫請求處理能力,具有極高的性價比。
而XGFS的數據節點,則充分利用XSKY久經市場考驗的可靠自主分布式存儲集群,成熟穩定,可以輕松擴展到上千個節點。
XGFS企業級分布式存儲系統用戶界面
XGFS元數據服務的架構具有如下優勢:
基于最新一代NVMe/SCM存儲介質設計,充分發揮出新興介質近百萬級IOPS和數GB帶寬的性能優勢,輕松滿足對于文件系統的高頻率元數據訪問需求;
利用高性能LSM存儲引擎,結合XSKY獨有專利技術的鍵值設計,構建出完全自主的元數據服務;既兼容POSIX文件語義和S3對象語義,又支持用戶/用戶組、權限/ACL、擴展屬性等;
元數據在本節點的日志保護和節點間的強一致性復制,使得元數據集群輕松應對慢盤、網絡異常、節點重啟/掉電等故障場景,提供RPO=0的元數據通路;
使用XSKY自研的高速網絡傳輸模塊,原生為RoCE/RDMA高性能網絡量身打造,大大降低節點間元數據復制包的傳輸時延,使得整個元數據集群擁有更高的IOPS性能。
XGFS分布式文件存儲系統由元數據服務集群和混合盤數據服務共同組成,使得該產品繼承了XSKY多年在分布式混合盤上的深厚積累以及大規模存儲運維能力:
多級緩存技術、支持副本與EC糾刪碼、支持延展集群雙活、硬盤和網絡亞健康處理等,成熟穩定,特性豐富且運維簡單。
03產品特點
1、全局命名空間
單一命名空間:提供統一持續高性能的文件單一全局命名空間,使用簡單;
豐富的協議支持:支持NFS, SMB, POSIX, FTP, HDFS,Kubernetes CSI等協議, 簡化業務IT架構的同時解除對業務的鎖定;
新興業務場景支持:支持HPC、大數據和容器等新興負載。
2、靈活擴展
軟件定義,可自定義節點屬性,并支持各種品牌的通用x86服務器和國產服務器;
靈活部署,可從3個節點擴展到4096個節點,滿足不同業務需求;
按需擴展,性能和容量隨節點數增加而增長,滿足不斷增長的業務對性能和容量的需求。
3、豐富的企業級功能
數據冗余:支持多副本和EC不同冗余策略,提供基于服務器、機架、數據中心的三個級別故障域管理。支持快照保護;
支持文件網關負載均衡和HA保護,支持AD域、LDAP域對接,本地認證等多種認證方式。支持配額管理;
通過內嵌X3DS可以實現文件和對象間的復制、遷移、備份、歸檔等豐富的數據管理功能,并且支持阿里云和百度云等公有云平臺。
04典型應用場景
XGFS可以作為企業級分布式文件系統,支持豐富的大容量非結構化數據保存和分析場景:
1、文件共享、企業辦公存儲
單一全局命名空間,使用簡單。支持文件共享、網盤、FTP等辦公場景。
2、視頻監控、流媒體、CDN存儲
橫向擴展,滾動升級,數據永久保存。
3、大數據、HPC后端存儲
兼容HDFS, 高效文件元數據處理機制,靈活應對AI/ML數據分析要求。
4、容器共享存儲
支持Kubernetes CSI接口,支持多個PODs共享數據。
5、集中災備資源池
利用X3DS(XSKY立體數據管理系統)和ODPF(開放數據保護框架),可以作為大容量的共享災備資源池。
6、企業數據湖底座
支持Hadoop存算分離部署,接口協議豐富,可以擴展到上千節點。
XSKY XGFS充分利用SDS優勢,適配最新的NVMe SSD新技術,支持最新的HDFS和Kubernetes CSI協議,性價比高,無需在性能和容量之間做出妥協,是企業的數據湖建設的理想底座。