客戶需求分析
大部分計算材料和計算化學程序屬于計算密集型和訪存密集型應用,對處理器的浮點運算能力和內存性能要求很高。
對于典型的物理化學應用,計算節點推薦使用雙路服務器,根據CPU型號不同,每個計算節點提供8~24處理器核心,平均每個核心可以配置2~4 GB內存。對于Gaussian等以OpenMP共享式內存并行方式為主的并行程序,推薦采用計算核心較多和內存較大的SMP胖節點,可以達到最佳的性能加速比。
大部分物理化學軟件都是MPI并行程序,并行加速比較好,通常可以擴展到32~128進程以上,程序運行方式通常是跨節點并行運行;從并行算法分析,計算材料軟件的進程間通信比較頻繁,屬于通信密集型應用。因此,節點間網絡的延遲和帶寬對程序的并行加速比起著決定性的作用。使用傳統的千兆以太網很難發揮程序的并行性能,跨節點運行時會導致嚴重的性能下降,成為整個計算過程的瓶頸。因此,推薦用戶使用高帶寬、低延遲的InfiniBand網絡。
解決方案
上圖是典型的計算物理化學集群系統配置,系統具有優異的性能和良好的擴展性。計算節點選用寶德高密度服務器平臺,1U雙路多節點服務器PR1720H,滿足一般計算軟件和計算任務的需求;計算系統還可以根據需要配置幾臺四路或八路SMP胖節點,專為Gaussian等OpenMP并行程序或其它一些大內存應用配備;
集群系統配置了兩臺寶德PR2510V服務器作為管理登錄節點,兩臺登錄管理節點配置雙機熱備,對作業調度、用戶管理等系統服務實現雙保險,提高整個集群的高可用性;
計算網絡采用高帶寬、低延遲的QDR InfiniBand網絡,為并行程序提供無阻塞的通信高速通道;另外,配置一套或兩套千兆網絡,用于集群管理和監控,千兆網絡也可作為備用計算網絡,提高系統的高可用性;
存儲系統采用寶德GS-5120 FC/iSCSI-SAN磁盤陣列,提供了海量數據存儲能力的同時,其創新的RAID 級別提供了更高的數據保護功能。強大的硬件設計,靈活的擴展操作和友好的管理界面,為客戶不同應用提供簡單方便的解決方案。
方案價值
高性能 ,本方案選擇了業界領先的寶德PR7010B刀片服務器,采用最新的處理器架構,計算網絡使用40Gb的QDR Infiniband,非常適合計算物理、計算化學這樣的計算密集型和通信密集 型應用;大容量、高性能、高容錯、高可擴展性的分布式并行存儲系統為集群提供了強大的存儲支持。
高可靠性 ,冗余電源,熱插拔硬盤,高可靠的服務器存儲系統等設備和技術保證系統的可靠穩定運行;雙登錄管理節點、備用計算網絡、存儲系統的高容錯技術為集群的提供了更高的可靠性;
可擴展性 ,系統設計為用戶預留了自由的可擴展空間,用戶可根據業務系統的增長,靈活地增配計算節點,擴充計算網絡,提升計算性能;擴充存儲系統的容量和性能,滿足增長的數據存放和IO性能需求。
綠色節能 ,集群選用設備均關注綠色節能,選取低功耗部件,采用專業的散熱設計,避免不必要的能耗損失;寶德PDCM智能功耗控制系統能夠根據集群負載實時調整整個系統功耗,在不影響集群性能的情況下,實現20%節能,真正實現綠色高效能計算。
(新聞稿 2012-06-27)