超高密度服务器

全球高性能计算领域,日本东京工业大学算是一位“老兵”了。早在2006年,该校就构建了名为“tsubame grid cluster”的高性能计算系统,在当年全球高性能计算top500排行榜中名列第7位,也是当年亚洲最快的超级计算机。过去四年来,tsubame承担了日本工业界和学术界的许多科研项目,而且有一部分计算资源还开放给师生使用,因此也被誉为“大家的超级计算机”。

进入2010年,tsubame面临升级。而且,此番东京工业大学的目标是构建日本第一套世界顶级的超级计算系统:2.4千万亿次(pflops)的tsubame 2.0!根据2010年6月公布的top500排行榜,排名第一的是安装在美国橡树岭国家实验室的cray jaguar系统,linpack测试能是每秒1.75千万亿次。

不过,要构建这样一套超大规模的计算系统,东京工业大学至少要克服三大挑战:

首先是空间有限。安装tsubame 2.0的机房面积只有200平方米,要知道2009年中国最快超级计算机“天河一号”由103个机柜组成,性能1.206pflops,占地面积达到近千平方米!可见tsubame 2.0对单位机器的计算密度要求相当之高。

其次是电力有限。数据中心供电功率为1.8mw(1兆瓦=1000000w),比较而言,当前全球最快的超级计算机cray jaguar功耗大约是7mw,今年中国最快的超级计算机曙光“星云”也要2.55mw。因此,对tsubame 2.0来说,必须尽可能地提高每瓦特电能所产生的计算性能,即能效比。

第三是资金有限。预计搭建tsubame 2.0和未来四年运行费用合计在32亿日元以下(按1日元 = 0.0814元人民币折算,即2.6亿元人民币)。试想一下,如果使用普通的x86服务器作集群计算节点,仅搭建成本就可能超过这一预算,而且如此大规模系统的运行电费和管理费用也都是一笔不小的开支。 依靠传统的技术方法是行不通的,必须采用新技术。实际上,东京工业大学在tsubame 2.0中采用了许多最先进的技术,包括最新的英特尔处理器技术,ssd固态存储技术,gpgpu异构并行协处理技术、最新的infiniband和万兆以太网连接技术、超可扩展模块化服务器节点技术等,以尽可能地提高系统的计算性能、计算密度和能源效率。作为tsubame 2.0系统的主体,1400多台计算节点采用的是hp proliant sl390s g7超可扩展系统。

超高密度服务器

hp proliant sl390s g7(插入机箱为hp proliant s6500)

hp proliant sl390s g7有两种机型,虽然宽度都只有标准19英寸机架服务器的一半,但在高度上有1u和2u之分。其中,1u半宽的版本主要针对通用高密度计算,在相配套的4u高hp proliant s6500机箱里可以装入8个这样的双路服务器节点,即每u空间的计算密度增加一倍,甚至比当前主流的10u16刀片服务器系统的密度还要高。而2u半宽的版本则专门针对需要gpu进行协处理的用户,如科学计算模拟,不仅支持两颗cpu,还支持3块最新的nvidia fermi gpu处理器,从而实现cpu+gpu的异构并行协同计算。

作为当前最主流的高性能计算加速技术,gpu的使用能数十倍、数百倍地提升系统计算效率,而且,在相同计算规模下,其硬件成本只是传统cpu服务器机群的十分之一左右,同时能耗和占地空间可以节省90%以上。因此,对于希望在有限空间和电力条件下构建超千万亿次计算系统的东京工业大学来说,gpu计算无疑是一条最有效的途径。

tsubame 2.0使用了1400多台hp sl390s g7作为计算节点,每个节点可搭载两颗英特尔六核至强5600 2.93ghz处理器(通过英特尔turboboost技术可将频率进一步提高至3.196ghz)以及3块nvidia tesla m2050 gpu(基于fermi架构),合计包含12个cpu核心以及1344个gpu核心(通用计算单元)。总体计算下来,tsubame 2.0总共拥有17664个cpu内核和189万个gpu内核,总运算能力达到2391.35tflops,其中超过90%的计算能力来自gpu,使其成为全球首台以gpu为主要运算能力来源的顶级超级计算机。

节能方面

跟普通机架服务器使用独立电源和风扇的设计不同,hp proliant sl系列在同一个机箱里由多台服务器节点共享电源和风扇,从而大大提高电源和散热系统的使用效率,并使得整机在重量上更轻,成本更低。

另外值得一提的是,为了减少电源在将交流电转换成直流电过程中的损耗,hp sl390s g7使用了效率高达94%的电源,远远超过能源之星指定的80%电源效率级别。而且,进一步借助hp proliant sl advanced power manager和hp intelligent power discovery软件,可以大大提高电源管理效率。

正是通过共享高效率电源、数据中心液冷散热系统等节能技术的应用,tsubame 2.0的能效比达到了其第一代系统的30倍! 东京工业大学碰到的是很有普遍意义的问题。除了hpc,高密度计算的适用领域非常广泛,如横向扩展(scale-out)、web2.0、云计算等数据中心都提出了类似的需求。如何在空间、电力、散热有限的条件下,用一种较低的成本来实现大规模服务器系统的扩展,已经成为业界的焦点话题。

实际上,hp公司这两年一直在不断拓展其创新的hp proliant sl可扩展系统产品线,以满足更多不同用户的需求。在2009年6月份推出了sl6000s系列,支持3种英特尔至强处理器的半宽服务器——sl160z、sl170z和sl2x170z。2010年hp再度推出了最新的sl6500系列,支持最新的sl170s和sl390s g7。

总之,作为一种新型通用系统平台,hp proliant sl等高密度服务器可以灵活地支持多种应用服务,包括在石油、气象、海洋、地震、测绘、生物医疗、军队的应用。同时,还可支持社交网络、互动媒体、网络游戏、科学计算、图像渲染、建模模拟等。正是得益于“密度比普通机架服务器高,成本比刀片服务器低,模块化灵活扩展,方便管理和绿色节能”等优势特性,使其受到了越来越多用户的青睐。

  • 超高密度服务器已关闭评论
    A+
发布日期:2019年07月02日  所属分类:新闻动态