聯想超融合存儲系統是一款自主研發,面向對象的分布式存儲系統。通過將所有硬盤池化管理,大幅度的提高并發I/O;采用虛擬存儲控制器,更加靈活智能的管理;利用無單點原則,水平擴展的分布式架構,構建了一個高性能、易擴展、高可靠的超融合存儲系統。
分層持久存儲
超融合是指在同一套單元設備(x86服務器)中不僅僅具備計算、網絡、存儲和服務器虛擬化等資源和技術,而且還包括云管理軟件,數據重構,多副本,快照技術等元素,而多節點可以通過網絡聚合起來,實現模塊化的無縫橫向擴展,形成統一的資源池。與傳統存儲方案相比,超融合存儲彌補了傳統存儲橫向擴展能力不足的問題。
眾所周知,相較于傳統的機械硬盤,SSD 具有很好的彈性,并提供對數據的快速訪問,但其擁有寫入次數限制。結合兩者的優缺點,聯想超融合存儲系統采取SSD+HDD的混合存儲方式,將所有物理服務器上的硬盤組成一個存儲資源池。其中所有機械硬盤組成存儲容量層,SSD閃存盤組成存儲性能層,兩者一起構建了分層持久存儲。(TPC:Tiered Persistence Store)
聯想超融合存儲把混合存儲成本效益最大化,最大限度地提高性能。LHS從數據中分離出元數據,為實際的數據提供關鍵信息,并將元數據存儲在高性能設備中(SSD),這種方式大大加速了元數據的讀取和寫入操作。
SSD存儲了一些關鍵的組件,包括:LHS Home(VSC虛擬存儲控制器核心)、Metadata(元數據)、OpLog(寫緩存)、Cache(緩存)和Persistence Store(持久存儲)。下圖展示了SSD的存儲分解:
HDD只作用于持久存儲,分解更簡單:
數據分片存儲
聯想超融合系統利用分片機制來解決單個服務器不能滿足的大量數據存儲和大吞吐量的系統讀寫等問題。分片是一種水平擴展方式,把一個大的數據集分散到多個服務器上,所有的服務器將組成一個邏輯上的數據庫來存儲這個大的數據集。分片對用戶是透明的。
數據從虛擬機的文件系統寫入物理存儲設備時,分片機制會涉及到如下概念:block、object。block 是一塊磁盤當中最小的單位,其大小取決于不同的操作系統。一個object由n個連續的block組成,并被保存在磁盤上。
下圖展示了文件寫入物理存儲設備時各部分的組成關系:
如上圖,虛擬機上的文件系統寫入物理存儲設備時,文件被磁盤的最小單位block所劃分,n個連續的block又組成一個object,并直接存入磁盤。
數據多副本機制
聯想超融合存儲使用復制因子(RF:Replication Factor)來保證當節點或硬盤失效時,數據的冗余度和可用性。當數據寫入本地TPS時,數據被同步復制到另1個或者2個節點(取決于RF設置),當這個操作完成后,此處寫操作才被確認(Ack),以此來保證數據至少存在于2個或3個獨立的節點上,保證數據的冗余度。
多副本機制
在同一集群中可以為不同的工作負載配置不同的容錯等級(RF1/2/3…)。當RF=1時,表示系統中僅有1個副本,則系統不能承受任何節點或硬盤故障;當RF=2時,表示系統中有2個副本,即系統可以承受一個節點或硬盤故障;同理,RF=n時,表示系統中有n個副本,即系統可以承受n-1個節點或硬盤故障。
聯想超融合存儲具有硬盤/節點/機柜的感知能力,以此來保證最大的可用域,盡可能的把多個副本分散到多個硬盤/節點/機柜,提供硬盤級、節點級、機柜級的高可用。一般來說,隨著集群規模的增長,具有多個機架時,才會提升到機柜感知,盡可能的把副本分散到多個機柜。
聯想超融合存儲還具有系統自我修復能力,無需運維人員介入。當發生節點或硬盤失效時,且RF>1時,可用數據塊會重新在所有節點間進行復制,以滿足RF的設置。
(新聞稿 2016-12-06)