关注IT
关注系统玩家

HPCC集群

一 HPCC的概述

HPCC 是High Performance Computing Cluster的缩写,即高性能计算集群,是一个巨大的并行处理计算平台,解决了大数据的处理问题。它采用大规模并行处理技术,用于存储和处理大量数据, 处理每秒数亿个记录。大量的跨不同数据源的数据可以被访问、分析、并以秒的分数操纵。同时作为亿万字节信息分析的处理和分布式数据存储环境。

它是利用一个集群中的多台机器共同完成同一件任务,使得完成任务的速度和可靠性都远远高于单机运行的效果。弥补了单机性能上的不足。该集群在天气预报、环境监控等数据量大,计算复杂的环境中应用比较多;

通常,这种集群涉及为群集开发并行编程应用程序,以解决复杂的科学问题。它不使用专门的超级并行计算机,而是用商业系统(如通过高速连接来链接的一组单处理器或双处理器PC),并且在公共消息传递层上进行通信以运行并行应用程序。我们常常听说一种便宜的 Linux 超级计算机问世了,大多数情况就是指这种集群系统,其处理能力与真的超级计算机相当,而其价格与上百万美元的专用超级计算机相比是相当的便宜。

二 HPCC的工作原理

4131467671

上面的图表说明了HPCC结构。每个组件的一个简要说明细节如下:

Thor(数据加工)是负责消耗大量的数据,转换,连接和索引数据。作为一个分布式文件系统,它的功能使用了跨节点的并行处理能力。一个集群可以从一个单一的节点扩展规模到上千个节点。

Roxie(查询集群)提供单独的高性能联机查询处理和数据据仓库能力。

ECL(企业控制语言)是强有力的程序设计语言,理想化的适合大数据量的维护。

ECL  IDE是模块化的编码。调试、监控ECL程序的集成开发环境。

ESP(企业服务平台)提供了一个易于使用的接口来访问使用XML,HTTP,SOAP和REST的ECL查询。

根据功能,我们可以把集群中的节点划分为6种类型:

用户节点(User Node)

控制节点(Control Node)

管理节点(Management Node)

存储节点(Storage Node)

安装节点(Installation Node)

计算节点(Compute Node)

虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。

用户节点(User Node)

用户节点是外部世界访问集群系统的网关。用户通常登录到这个节点上编译并运行作业。

用户节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的关键点。为了保证用户节点的高可用性,应该采用硬件冗余的容错方法,如采用双机热备份。至少应该采用RAID(Redundant Array of Independent Disks)技术保证用户节点的数据安全性。

控制节点(Control Node)

控制节点主要承担两种任务: 为计算节点提供基本的网络服务,如DHCP、DNS和NFS; 调度计算节点上的作业,通常集群的作业调度程序(如PBS)应该运行在这个节点上。

通常控制节点是计算网络中的关键点,如果它失效,所有的计算节点都会失效。所以控制节点也应该有硬件冗余保护。

管理节点(Management Node)

管理节点是集群系统各种管理措施的控制节点。管理网络的控制点,监控集群中各个节点和网络的运行状况。通常的集群的管理软件也运行在这个节点上。

存储节点(Storage Node)

如果集群系统的应用运行需要大量的数据,还需要一个存储节点。顾名思义,存储节点就是集群系统的数据存储器和数据服务器。如果需要存储TB级的数据,一个存储节点是不够的。这时候你需要一个存储网络。通常存储节点需要如下配置:ServerRAID保护数据的安全性; 高速网保证足够的数据传输速度。

安装节点(Installation Node)

安装节点提供安装集群系统的各种软件,包括操作系统、各种运行库、管理软件和应用。它还必须开放文件服务,如FTP或NFS。

计算节点(Computing Node)

计算节点是整个集群系统的计算核心。它的功能就是执行计算。你需要根据你的需要和预算来决定采用什么样的配置。理想的说,最好一个计算节点一个CPU。但是如果考虑到预算限制,也可以采用SMP。从性价比角度说,两个CPU的SMP优于3或4个CPU的SMP机器。

因为一个计算节点的失效通常不会影响其他节点,所以计算节点不需要冗余的硬件保护。

三 HPCC的特性

HPCC是一个用于操作,转换,查询和大数据量数据仓库的、被证明和被实战检验了的平台。该平台的主要特性如下:

硬件

运行中的集群,使用商用现成品或技术(COTS)的硬件;

采用使用了Intel或者AMD的处理器的典型的刀片式机架服务器,其本地内存和磁盘连接到了高速通讯交换机上(通常是千兆以太网连接)或者取决与集群规模的层次通信交换机上;

集群通常是相同的(所有的处理器都配置相同),但不强求。

可用配置

Thor,数据加工,是一个抽取、转换、加载引擎;

Roxie,数据传送引擎,提供了独立的高性能在线查询处理和数据仓库功能;

文件系统

分布式文件系统,Thor分布式文件系统(Thor DFS)是专门为大数据量的ETL做过优化的,Roxie分布式文件系统(Roxie DFS)是专门为高并发查询处理做过优化的。

核心软件

Linux操作系统;

作业执行的“服务”;

分布式文件系统访问的“服务”;

Thor集群可配置一个主节点和多个从节点;

Roxie集群,是一个有着服务任务和代理任务的协同存在的集群,其上每个节点上都运行着查询执行、关键字和文件处理;

Toxie集群的文件系统,是一个基于索引的、使用了常规B+树作为数据存储结构的分布式文件系统;

支持查询的索引和数据是预先创建在Thor集群、并使用存储在每个节点上的索引和数据发布到Roxie集群上的索引和数据;

附加软件

ECL代理操作代表着客户端程序去管理在Thor集群上执行的作业;

Roxie分布式文件系统为高并发查询处理做过优化;

ESP服务(企业服务平台)提供验证、日志、安全和其他类作业执行的服务,以及Web服务环境;

Dail服务,其提供作业工作单元信息的存储和分布式文件系统的命名服务。

可以总结为以下几条:

可以采用现成的通用硬件设备或特殊应用的硬件设备,研制周期短;

可实现单一系统映像,即操作控制、IP登录点、文件结构、存储空间、I/O空间、作业管理系统等等的单一化;

高性能(因为CPU处理能力与磁盘均衡分布,用高速网络连接后具有并行吞吐能力);

高可用性,本身互为冗余节点,能够为用户提供不间断的服务,由于系统中包括了多个结点,当一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务;

高可扩展性,在集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能够最大限度地

扩展系统以满足不断增长的应用的需要;

安全性,天然的防火墙;

资源可充分利用,集群系统的每个结点都是相对独立的机器,当这些机器不提供服务或者不需要使用的时候,仍然能够被充分利用。而大型主机上更新下来的配件就难以被重新利用了。

具有极高的性能价格比,和传统的大型主机相比,具有很大的价格优势。

四 参考资料

1.http://www.csdn.net/article/2011-06-29/300750

2.http://hi.baidu.com/szh12031/item/59da39e76bf6b8384cdcaf21

3.http://blog.163.com/li_hx/blog/static/183991413201163104244293/?suggestedreading&wumii

4.http://hpccsystems.com/why-hpcc/benefits

5.http://www.redbooks.ibm.com/abstracts/tips0774.html?Open

6.http://www.redbooks.ibm.com/abstracts/tips0767.html?Open

未经允许不得转载:系统玩家 » HPCC集群

分享到:更多 ()
喜欢 0
rancher

评论 抢沙发

评论前必须登录!