关注IT
关注系统玩家

高性能计算概述

高性能计算 (High Performance Computing—HPC )指通常使用很多处理器(作为单个机器的一部分)或者某一集群组织中几台计算机(作为单个计算资源操作)的计算系统和环境。长期以来,高性能计算应用的主要领域是科学与工程计算,诸如高能物理、核爆炸模拟、气象预报、石油勘探、地震预报、地球模拟、药品研制、CAD 设计中的仿真与建模、流体力学的计算等。如今,像金融证券、政府信息化、电信行业、教育、企业、网络游戏等领域对HPC的需求也在迅猛增长。

一、高性能计算的构架

高性能计算包括硬件、群集系统软件、应用软件。高性能计算硬件包括服务器节点、网络、存储。高性能计算集群系统中的服务器节点,可分为管理节点、计算节点、网络登录节点和存储节点。其中,管理节点通常安装群集管理软件、资源管理软件、作业调度软件。一般情况下管理节点为一台两路服务器。计算节点功能则是执行计算,考虑到性价比通常采用多台2路服务器。网络登录节点是机群外部网络和机群的接口,运行防火墙,身份识别,计费软件等。可以有一台或多台,在小型群集中可以和管理节点合并。存储节点是指集群系统的数据存储器和数据服务器。如果需要存储TB级的数据,通常需要部署并行文件系统及多台服务器。高性能计算网络分为管理网络、计算网络、存储网络、对外连接网络。管理网络主要管理群集硬件如开机关机,软件安装等,管理网络多采用百兆、千兆以太网,对延迟和带宽要求不高。计算网络为高性能计算的主体负责计算节点间数据交换,大部分高性能计算的应用要求高带宽,低延迟,可以选择infiniband 或万兆以太网。少部分应用可以选择千兆以太网。存储网络提供数据的读写,可以和计算网络采用相同的网络。对外连接网络为客户内部网络。存储通常采用SAN,同时安装并行文件系统,提高吞吐量。随着存储设备开始支持10G以太网接口,部分群集的存储开始采用NAS,尤其是在一些小规模的群集。

群集系统软件包括系统管理软件、编译器、并行环镜、作业管理与调度软件。系统管理软件是一套用来部署(构建)和管理集群系统的工具,可以进行硬件管理和硬件监控,如服务器的开机关机,并行命令的执行。并行环境提供充分优化的MPI及调试工具,目前很多厂家都提供各自优化的MPI。作业管理与调度软件可以大幅提高群集系统的利用率,具有作业管理、记帐、断点/续算(Checkpoint/Restart)功能。目前比较有名的有IBM PLATFORM LSF 和第三方的PBS。

下图是IBM高性能计算的架构图, 服务器节点采用IBM FLEX 240, 计算网络采用infiniband,  管理网络采用千兆以太网,存储设备采用SAN,采用多台存储节点安装并行文件系统GPFS,管理节点安装Platform LSF作计算资源管理和作业调度。

5876244308

GPFS是一种专门为群集环境设计的高性能、可扩展的并行文件系统。GPFS可以在群集中的多个节点间实现快速存取,提供统一的文件系统视图。GPFS没有单一故障点,通过配置它可以为所有的磁盘和服务器的故障提供容错机制。这种类型的文件系统可以为用户存储超过249 PBytes的数据。每个文件系统所支持的最大文件数为2.56亿。

GPFS允许通过任意的GPFS客户端节点访问系统内的文件,可以被各种串行和并行作业使用,并且在多个集群的多个存储设备的范围内共享数据。

 Platform LSF 可以跨分布式计算环境管理和加快处理高性能计算 (HPC) 工作负载。它提供一整套全面的智能化调度功能,以确保将合适的资源自动分配给适当的作业,最大限度地发挥应用程序的性能和效率。Platform LSF 包含一整套智能化的策略驱动型调度功能、强大的管理功能和无与伦比的可伸缩性,可帮助您最大限度地利用异构资源,确保始终按照业务优先级分配资源,同时降低成本和加快获取结果的速度。

 通过使用Platform Computing LSF技术,可实现IT基础设施的动态、共享、弹性和按需分配;可根据作业请求资源,自动分配和部署物理机或虚拟机(包括OS与应用软件),并将作业调度 其上运行;可实现物理机/虚拟机的混合调度。用户管理包括对用户的创建、删除、修改、查看等功能。主要维护用户的基本信息、将用户分配到用户组、为用户分 配角色等。另外还包括用户登录,验证用户密码查询。资源管理包括计算资源管理、软件资源管理、存储资源管理。其中计算资源管理能够实现物理计算资源和虚拟 计算资源的管理;软件资源管理完成软件资源的查找、浏览、使用的功能;存储资源管理包括对平台后台存储状态的监控,分配等功能。

– IBM Platform Application Center:提供功能丰富的环境,用于构建易用的、以应用程序为中心的 Web 界面,以简化作业的提交和管理。

 – IBM Platform Process Manager:提供功能强大的界面,用于设计复杂的工程计算过程,总结可供其他用户重复利用的最佳实践。

 – IBM Platform RTM:提供灵活的实时控制面板,用于监控全局的工作负载和资源。

 – IBM Platform Analytics:提供高级工具以可视化方式查看和分析海量的工作负载数据,以便更好地进行决策。

 – IBM Platform License Scheduler:允许基于策略对商业软件许可证进行分配和跟踪。

 二、高性能计算群集技术优势与System x解决方案优势

 在当今科技迅猛发展的时代,越来越多的企业、研究机构和政府部门开始依赖于功能强大的IT系统运行整体业务,同时,用户对成本支出的控制日益加强,希望以更低廉的价格获取更高的系统性能。因此,融合了性能、价格双重优势的高性能计算群集获得了广泛的应用。

这种由标准的软硬件计算机组件架设起的大规模计算群集系统,成本只有超级计算机的10%,但其性能却接近甚至优于传统的超级计算机,而且还拥有极强的灵活性和可扩展性,从而成为大型企业、研究机构和政府部门执行复杂运算任务的理想选择。IBM的高性能计算群集解决方案融合了一系列采用标准技术的服务器硬件设备、各种便于操作的管理软件以及包括售前咨询、设计和售后部署、测试、优化在内的完善的支持服务。为了加强产品研发,IBM还与各个大学和国家级实验室、系统集成商、独立软件开发商、硬件设备厂商结成了密切的合作关系,确保了产品的技术领先性以及广泛的软硬件兼容性。自1999年步入这一市场以来,IBM凭借优异的整体性能和富有竞争力的总体拥有成本将高性能计算群集应用推广到科学研究、地质勘探、工程设计、金融分析以及电影制作等各个需要进行深度计算的行业领域。

目前中国市场对高性能计算系统的需求日趋旺盛,带来的商业机会和竞争压力也与日俱增,下图呈现了2013年各主流厂商所占份额,虽然IBM仍与曙光并列第一,但众多本土厂商的强劲势头已不容忽视。

5734550779

 

尽管如此,IBM凭借独有的领先产品、强劲的研发实力和丰富的服务经验,仍具备其他厂商无法撼动的技术优势:

优势一:IBM是HPC高性能计算市场的领导者,IBM丰富的经验是客户成功的保证

6191210635

优势二:IBM 拥有业界最领先、最成熟的计算资源管理软件Platform

2995138485

优势三:成熟稳定的IBM GPFS并行存储广泛应用于各领域

6432463413

三、高性能计算的应用

高性能计算有着广泛的行业应用基础,下面列举几个行业对高性能计算的应用需求:

1. 航空航天行业

在航空航天行业,随着中国航空航天事业的快速发展,尤其是载人航天技术的巨大成功,我国科技人员对空气动力学的数值模拟研究提出了越来越多的需求,常规的计算能力远远无法满足复杂的大型飞行器设计所带来的巨大需求。在航空航天企业的设计过程中,研究人员往往需要把飞机表面分成几百万甚至几千万个离散型的网格点,然后通过高性能计算平台求解方程,得出每个网格点的温度、速度、摩擦力等各种参数,并模拟出连续型的曲线,进而为飞机设计提供宝贵的参考资料。对这类计算来说,网格点分割得越细密,计算结果的精确度也就越好。但是这些大规模设计计算问题不但单个作业计算量庞大,且需不断调整、重复计算,因此高性能在航天航空行业中占据着举足轻重的地位。

2. 能源行业

石油能源作为国家战略资源,对于国家经济、安全、军事等各方面都具有非常重要的战略意义。石油勘探承担着寻找储油构造、确定井位的重要任务。目前的主流做法就是人为的制造相应规模的地震(视勘探地区面积与深度不同),同时在相应的地层遍布若干震波收集点。由于不同材料的地质环境对地震波的影响是有规可循的,所以借助这一点,通过相关的算法,即可以通过对地震波的传递演算来“计算出”地质结构,从而找出我们所需要的能源位置。这种计算量无疑是异常庞大的,由于地震波法勘探收集的数据通常都以TB计,近年来海洋油气勘探所采集的数据甚至开始向PB规模发展。为此,只有借助高性能计算,才能在最短的时间内处理这些海量数据。

3. 生命科学

在现代生命科学领域,以数据为驱动力的改变正引发着巨大的变革。海量生物数据的分析将会增强疾病的实时监控能力和对潜在流行病做出反应的能力,但海量数据的挖掘、处理、存储却面临着前所未有的挑战。特别是随着新一代测序技术的迅猛发展,基因组学研究产生的海量数据正以每12- 18个月10倍的速度增长,已远超越著名的摩尔定律,这使得众多生物企业和科研机构面临强大的数据分析和存储需求。

在国内,生物基因行业的发展势头也不可小觑。2011年1 月30日,国家发改委已批复同意深圳依托华大基因研究院组建国家基因库,这是中国首次建立国家级基因库,首期投资为1500万元。深圳国家基因库是一个服务于国家战略需求的国家级公益性创新科研及产业基础设施建设项目,是目前我国唯一一个获批筹建的国家级基因库,是全球仅次美国、日本和欧洲三个国家级基因库之后的世界第四个国家级基因库。现在,该国家基因库已经收集了100 万GB的生物数据,包含基因组、转录组、蛋白质组、代谢组及表型的数据,同时也积累了约四十万份生物样本。预计该基因库最终将达到10亿GB级别的数据容量。深圳国家基因库和国际上已有的基因库相比,它的特点是既有“湿库”也有“干库”:前者把千万种实体的动植物、微生物和人类组织细胞等资源和样本纳入网络;后者汇集巨量的核酸、基因表达、蛋白、表型等多类数据信息,成为“大数据”生物学时代研究生物生长发育、疾病、衰老、死亡以及向产业化推广的利器。

4. 金融行业

金融说到底就是数据。在金融市场中,拥有速度就意味着更高的生产力和更多的市场份额。金融计算模型相当复杂,数据收集越多,计算结果越精确。金融分析师都迫切地需要一个能模拟复杂现实环境,并进行精确处理的金融计算程序,以便对每个投资产品及时地评估投资收益,衡量投资风险,以期获得更好的投资回报。也正因此,高性能计算已经越来越多地应用到全球资本市场,以期在最短时间内实现对市场的动态响应与转换。

5. 气象预报

世纪二十年代初,天气预报方程已基本建立。但只有在计算机出现以后,数值天气预报才成为可能。而在使用并行计算机系统之前,由于受处理能力的限制,只能做到24小时天气预报。高性能计算是解决数值预报中大规模科学计算必要手段。采用高性能计算技术,可以从提高分辨率来提高预报精度。

6. 游戏动漫和影视产业

随着3D、4D电影的兴起和高清动漫趋热,由高性能计算(HPC )集群构成的“渲染农场”已经成为三维动画、影视特效公司不可或缺的生产工具。动漫渲染基于一套完整的程序进行计算,从而通过模型、光线、材质、阴影等元素的组合设定,将动漫设计转化为具体图像。以《玩具总动员》为例,如果仅使用单台工作站(单一处理器)进行动画渲染,这部长达77分钟的影片的渲染时间将会是43年,而采用集群渲染系统,只需约80天。

四、怎样设计一套合理均衡以及成本优化的HPC系统

计算节点

– 根据应用软件的需求来确定处理器类型,系统架构,操作系统,内存容量;

– 根据用户对系统处理能力的需求来确定浮点运算峰值;

– 根据总体功耗、散热、占地空间需求选择采用刀片,机架式服务器还是高密度服务器;

相关知识点介绍:

FLOPS:浮点运算次数/秒,例如 1G FLOPS即10亿次浮点运算/秒; 1T FLOPS即1万亿次浮点运算/秒

Linpack: 国际上最流行的用于测试高性能计算机系统浮点性能的 benchmark指标, 通过对高性能计算机采用高斯消元法求解一元 N 次稠密线性代数方程组的测试, 评价高性能计算机的浮点性能。衡量单位为浮点运算每秒(Flops)。

理论浮点峰值: 指计算机每秒钟能完成的浮点计算最大次数。包括理论浮点峰值和实测浮点峰值。 理论浮点峰值是该计算机理论上能达到的每秒钟能完成浮点计算最大次数, 它主要是由 CPU 的主频、数量和类型决定的。

理论浮点峰值=CPU 主频×CPU 每个时钟周期执行浮点运算的次数×系统中 CPU 核数

        CPU每个时钟周期执行浮点运算的次数是由处理器中浮点运算单元的个数及每个浮点运算单元在每个时钟周期能处理几条浮点运算来决定的,

        下表是目前常用的各种 CPU 的每个时钟周期执行浮点运算的次数。

处理器类型

AMD Opteron

Xeon E7

Xeon E5/E7 v2

Power 7

浮点运算/时钟

4

4

8

8

 集群效率: 集群效率=实测浮点峰值/理论浮点峰值*100%

 网络

– 根据应用软件对网络带宽和时延的要求来选择计算网络类型 (Infiniband,10GbE, or GbE)

– 根据节点数量、网络收敛比的要求来设计网络拓扑结构

I/O 系统

– 存储系统的架构(DAS, NAS or FC-SAN)

– I/O节点的数量,是否采用并行文件系统和数据管理策略

 集群软件的选择

– 根据集群规模、用户数量、计算类型以及用户预算等因素,考虑是否推荐功能强大的商业版作业调度软件还是开源软件 (LSF or OpenPBS)

– 根据集群规模、用户的管理需求、技术背景等因素选择采用何种集群管理软件 (Platform HPC, or xCat)

– 是否采用商业版MPI

– 是否采用商业版编译器、数学库和调优工具

五、现代高性能计算架构的几个新的趋势

– 基础架构设计更加集中化:通过高密度的模块化服务器或刀片服务器来做为整个集群的基础架构,使整体结构更加紧凑,实现易管理,高密度,低功耗,易扩展等特点。

– 集群管理更加简单化:采用一体化的管理工具对硬件及系统软件进行统一调度统一管理,实现集群的简单管理及维护。

– 集群的作业调度系统更加合理化:采用商业版的作业调度系统使硬件资源更加合理的分配,资源合理利用。

– 集群的功能更加智能化:需要集群支持更多的功能,如GPU计算,结果可视化,异构系统的调度等。

– 处理器架构向混合计算发展:CPU+GPU

– HPC和云计算技术结合,为客户提供更加灵活、弹性的高性能计算服务

– HPC和大数据技术结合,将HPC技术由传统科学计算领域拓展到商业运算或更广阔的范围。

 六、性能评测

 TOP 500

Top 500 (www.top500.org) 项目开始于1993年,由德国曼海姆大学的Hans Meuer,NERSC/劳伦斯伯克利国家实验室的Erich Strohmaier和Horst Simon,以及田纳西州大学的Jack Dongarra编制。目的是跟踪高性能计算领域的发展趋势,已经成为全球最快计算机的大检阅,许多国家公司都以上榜为荣;另一方面,TOP 500已经成为业界观察IT技术与产业发展的一个风向标。

每年6月和11月会推出全球运算速度最快的500个计算机系统,名单都会公布在www.top500.org网站上。Top  500项目使用Linpack基准测试程序,测试结果的单位是FLOPS,即每秒浮点运算数。不过常用的单位是GFLOPS,1G等于10的9次方。近年来也常用TFLOPS,就是10的12次方了。

中国Top 100

该排行榜由中国软件行业协会数学软件分会和国家863高性能计算机评测中心联合公开发布,每年评一次,一般于当年的11月份推出,是中国高端服务器和高性能计算产业发展与应用趋势的风向标,自2002年推出以来,已经持续了11届。

 参考文献:

1.http://www.cnii.com.cn/20021218/ca124361.htm

2.http://baike.baidu.com/link?url=df-5aDR5nadCyvW1Ka7t9iyls_9AUChQegDg0qfz8BhRGwpcMe_e7enWRB37_Sh1WcmphoIFq3e5OLFadWpX5q

3.http://zh.wikipedia.org/wiki/TOP500

4.http://baike.baidu.com/link?url=Rwa2Uw9hRT5jnBv9mPteQAjlnxTtL1WRz-quJ1MajcgfKzrF_NFOnTns_rXHALGo

未经允许不得转载:系统玩家 » 高性能计算概述

分享到:更多 ()
喜欢 0
rancher

相关推荐

    评论 抢沙发

    评论前必须登录!