关注IT
关注系统玩家

CPU相关技术

一. CPU概述

中央处理器(英文Central Processing Unit,CPU)是一台计算机的运算核心和控制核心。CPU、内部存储器和输入/输出设备是电子计算机三大核心部件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU由运算器、控制器和寄存器及实现它们之间联系的数据、控制及状态的总线构成。差不多所有的CPU的运作原理可分为四个阶段:提取(Fetch)、解码(Decode)、执行(Execute)和写回(Writeback)。

第一阶段,提取,从存储器或高速缓冲存储器中检索指令(为数值或一系列数值)。换言之,程序计数器记录了CPU在目前程序里的踪迹。)

第二阶段,解码,CPU根据存储器提取到的指令来决定其执行行为。在解码阶段,指令被拆解为有意义的片断。根据CPU的指令集架构(ISA)定义将数值解译为指令。

第三阶段,执行,该阶段中,连接到各种能够进行所需运算的CPU部件。

最终阶段,写回,以一定格式将执行阶段的结果简单的写回。

CPU具有以下4个方面的基本功能:

1. 指令顺序控制

这是指控制程序中指令的执行顺序。程序中的各指令之间是有严格顺序的,必须严格按程序规

2. 操作控制

CPU要根据指令的功能,产生相应的操作控制信号,发给相应的部件,从而控制这些部件按指令的要求进行动作。

3. 时间控制

时间控制就是对各种操作实施时间上的定时。

4. 数据加工

即对数据进行算术运算和逻辑运算,或进行其他的信息处理。

二.CPU组成

CPU包括运算逻辑部件、寄存器部件和控制部件等。

运算逻辑部件:可以执行定点或浮点算术运算操作、移位操作以及逻辑操作,也可执行地址运算和转换。

寄存器部件:包括通用寄存器、专用寄存器和控制寄存器。

通用寄存器是中央处理器的重要组成部分,大多数指令都要访问到通用寄存器。通用寄存器的宽度决定计算机内部的数据通路宽度,其端口数目往往可影响内部操作的并行性。

专用寄存器是为了执行一些特殊操作所需用的寄存器。

控制寄存器通常用来指示机器执行的状态,或者保持某些指针,有处理状态寄存器、地址转换目录的基地址寄存器、特权状态寄存器、条件码寄存器、处理异常事故寄存器以及检错寄存器等。

控制部件主要是负责对指令译码,并且发出为完成每条指令所要执行的各个操作的控制信号。

三.CPU的主要性能指标

计算机的性能很大程度上是由CPU的性能决定的,而CPU的性能主要体现在程序执行的速度上,其关联因素主要有字长,主频,CPU总线速度,高速缓存的容量和结构,指令系统,以及逻辑结构等。

1.字长(位数)

字长就是指CPU中定点运算器的宽度,即一次能同时进行二进制整数运算的位数。定点运算器的宽度大体决定了地址码位数的多少。地址码长度决定了CPU可访问的存储器最大空间。

2.主频

CPU的主频,指的是CPU内核工作的时钟频率 (CPU Clock Speed)。CPU主频的单位是GHz。1GHz = 1024MHz , 1MHz = 1024KHz。通常CPU的标注中,如Xeon E5520 2.26 GHz,其中2.26Ghz就是指的CPU的主频。主频决定了CPU内部数据传输与指令执行的快慢,CPU的主频越高,速度越快。

CPU的主频=外频×倍频系数。主频和实际的运算速度有一定的关系,但不是一个简单的线性关系。CPU的运算速度还要看CPU流水线,总线等各方面的性能指标。譬如,Intel的处理器产品中,1GHz的安腾芯片表现的差不多和2.66GHz的至强一样快。

 

3.外频

外频是CPU的基准频率,单位是MHz。CPU的外频决定着整块主板的运行速度。对于台式机来说,经常听到超频这个词,就是改变CPU的外频(倍频是被锁定的。对于服务器CPU来说,是不允许的,会导致主板和CPU异步运行,造成整个服务器的不稳定性。

4.倍频

倍频系数是CPU主频和外频之间的比例关系。相同的外频下,倍频越高CPU的频率越高。但实际上相同外频下,CPU和系统之间数据传输速度有限,高主频的CPU会出现访问“瓶颈”,没有什么意义。

5.总线速度

CPU连接到北桥芯片的总线,直接影响到CPU与内存交换的速度。不过最新的Intel架构已经不存在北桥芯片,内存控制器集成到CPU内部了。

6.缓存

缓存是CPU的重要指标之一,它的结构和大小对于CPU的速度影响很大。缓存的速度非常快,远远高于系统内存和硬盘。缓存的容量越大,级数越多,访问缓存读取数据的命中率就越高,就越不需要到慢速的内存或者硬盘上寻找,从而能够大大提高系统的性能。但由于CPU芯片面积和成本的考虑,缓存都不会很大。

7.指令系统和逻辑结构

功能强大的指令系统使得完成相同任务的程序所需要的指令数目大大减少,从而提高速度。譬如现在Intel
CPU提供了很多扩展的指令集MMX, SSE, SSE2等,大大提高了CPU的多媒体,图形图像等处理能力。CPU的逻辑结构,譬如定点运算器、浮点运算器数目,是否具有数字信号处理功能,有无指令预测和数据预测功能,流水线结构和级数等等也对CPU的性能有着重要的影响。

三.CPU主要种类

目前,服务器CPU按CPU的指令系统来区分,通常分为CISC型CPU和RISC型CPU两类。

CISC是英文“Complex Instruction Set Computer”的缩写,中文意思是“复杂指令集”,它是指英特尔生产的x86(intel CPU的一种命名规范)系列CPU及其兼容CPU(其他厂商如AMD,VIA等生产的CPU),它基于PC机 (个人电脑) 体系结构。x86服务器就是使用CISC型CPU的服务器,通常也被称作PC服务器,IA (Intel
Architecture) 架构服务器。目前主流的产品有IBM System x服务器,HP服务器以及Dell服务器等。

RISC是英文“Reduced Instruction Set Computing”的缩写,中文意思是“精简指令集”。它是在CISC指令系统基础上发展起来的,相对于CISC型CPU ,RISC型CPU不仅精简了指令系统,还采用了一种叫做“超标量和超流水线结构”,架构在同等频率下,采用RISC架构的CPU比CISC架构的CPU性能高很多,这是由CPU的技术特征决定的。采用RISC CPU的服务器主要有IBM Power,SUN的SPARC以及HP的服务器等。目前市场上x86服务器大部分都是使用Intel的CPU。

CPU的主要品牌有Intel和AMD。下面分别介绍两种品牌的主要CPU种类。

Intel:酷睿系列(i3,i5,i7,博锐),至强系列(E3,E5,E7),安腾,凌动。其中酷睿的博锐产品,针对超级本。酷睿其他产品针对于个人电脑。而志强系列产品多用于服务器。IBM的绝大部分服务器所使用的CPU均为至强系列。

3292695340_thumb_l

  AMD针对服务器设计的CPU为皓龙系列(4000系列,6000系列等),其他系列处理器包括羿龙系列,速龙系列,闪龙系列,以及现在正在推出的APU(A系列)。在IBM的x系列服务器中,尾号为5的服务器(如3755M3)一般使用AMD处理器。

6075029113

四、INTEL 产品

2989420678

 Intel目前已经进入32nm工艺的鼎盛时期,服务器架构正在从上代Westmere向新的Sandy Bridge过渡,接下来就是22nm新工艺的改进版Ivy Bridge,这个我们太熟悉了。

然后呢,22nm工艺上的新架构叫做“Haswell”,2014年上半年进入服务器领域(桌面2013年);次年制造工艺进化为14nm,新产品家族代号“Rockwell”。

继续往后是又一个新的架构“Skylake”,还是14nm工艺,预计2016年下半年在服务器领域实现(桌面应该是2015年);等到了2017年底至2018年初,Intel将在服务器上为我们带来10nm工艺,对应产品代号“Skymont”,至于桌面上可能会在2017年上半年就迎来这个10nm Skymont。那时候PCI-E 4.0总线、100Gb网络之类的技术应该也普及了。

如果继续按照这样的速度发展下去,Intel会在大约2019年把半导体工艺带入到单位数字时代。

Intel的Tick-Tock战略,这是一个简单、有序和易于理解的芯片技术发展的模式。简而言之,Tick-Tock开发模式指的是Intel处理器在每隔两年的奇数年进行制程转换(Tick),而在每隔两年的偶数年进行处理器的架构更新(Tock),譬如在2009年推出的32nm的Westmere处理器和2010年推出Sandy Bridge微架构。

每个Tick,代表着工艺的提升,晶体管变小,并在此基础上增强原有的微架构;而每个Tock,则在维持相同工艺的前提下,进行微架构的革新。这样在制程工艺和核心架构的两条提升道路上,总是交替进行,一方面避免了因为革新可能带来的失败风险,同时持续的发展也可以降低研发的周期,并对市场造成持续的刺激,并最终提升产品的竞争力。

3422088497

 

Intel微架构的变化基本上可以简单概括为:i386,i486,P5,P6,Netburst,Pentium-M,Core (Merom,Penryn) ,Nehalem (Nehalem,Westmere),Sandy Bridge (Sandy Bridge,Ivy Bridge),Haswell。
在目前服务器处理器的市场上,绝大部分都是至强处理器的天下。至强处理器也是Intel推出的基于x86架构的用于服务器的一类处理器的总称。

1998年6月29日,英特尔研制专门面向服务器的全新CPU产品,推出了Pentium II Xeon (至强) 处理器,它取代了之前所使用的Pentium Pro。它不仅有更快的速度,更大的缓存,更重要的是可以支持多达4路或者8路的对称多处理器功能。

1999年,Pentium III Xeon推出。2001年9月25日,英特尔发布Pentium 4 Xeon处理器,也就是最早的Xeon(Foster),它采用 0.18微米工艺和奔腾4相同的Willamette核心,2002年,又推出了Prestonia核心的Xeon处理器,增加了对Hyper- Threading(
超线程)的支持,二级缓存增加到512KB。

2005年,英特尔公司推出了90纳米Nocona至强处理器,支持EM64T技术,它能动态调整功率并降低处理器的耗电需求。同年,英特尔还发布了其首枚双核心Xeon DP(Paxville DP),这款全新的处理器和50xx系列也是首个90nm的双核处理器。

2005年2月,英特尔发布了“Irwindale”核心的至强处理器。在2006年3月14日,英特尔发布了全新的低电压版双核心Xeon LV 处理器产品。Sossaman建基于Core Duo处理器技术,支持当时Xeon的所有技术,支持虚拟化应用。

 

2006年5月23日,英特尔发布了首款65纳米的双核心Xeon(Dempsey核心)至强处理器,也就是大家所熟知的至强5000系列。它采用了使用全新的接口Socket 771(LGA771),开启了65nm制程的新历程。

2006年,英特尔还发布了首款酷睿微架构的至强5100系列处理器,同年还用Netburst架构的最后一款至强处理器7100系列。2007年,迎来了酷睿微架构的高端产品至强7300。2008年,英特尔推出了首个六核处理器,也就是至强7400系列。2009年,推出支持Intelligent Power电源管理技术的至强5500系列。

2010,英特尔还推出了采用32nm制程工艺的新一代Nehalem微构架双路服务器处理器至强5600家族。它采用了第二代High-K金属栅工艺、增加了两个核心、增加了更高能效的低功耗CPU、支持低功耗DDR3内存,并且在智能节能技术和CPU功耗管理等方面均进行了优化。同年,还推出了至强7500系列服务器处理器,它可以帮助构建从双路到最高256路的服务器系统,

而在2011,英特尔推出了面向高端关键业务应用的至强E7系列和面向中小企业工作站的至强E3系列。Xeon E7系列主要面向双路、四路和八路服务器,最高可以扩展至256路并行。至强E3可满足小型企业应用的独特需求,包括协作工具、存储系统、备份系统。

2012年,英特尔发布了至强E5系列,主攻高性能双路四路服务器市场,满足HPC和云计算等各种高性能需求。

目前IBM的System x服务器产品使用了最新的至强E3/E5/E7系列的CPU,有着完整的产品线,客户可根绝实际需要选择不同的高中低端产品。

至强E5系列CPU所使用的Sandy Bridge微架构。

Sandy Bridge是Intel公司推出的一种全新微处理器架构代号,它是为了取代此前的Nehalem微架构。Sandy Bridge架构覆盖移动设备、笔记本电脑、台式机和企业级服务器。Sandy Bridge微架构基于32nm制程工艺,其继任者“Ivy Bridge”则将制程工艺提升至更为精细的22nm。根据英特尔著名的Tick-Tock策略,从Sandy Bridge升级到Ivy Bridge,属于核心工艺的改进,也就是Tick的范畴(TOCK属于微架构改进),而Sandy Bridge则属于TOCK范畴。

 

9062017178

 

Sandy Bridge至强处理器采用了与桌面级酷睿处理器类似的命名规范,分为E3、E5和E7三个系列。其中,E3系列是面向入门级单路服务器的产品,E5系列则面对了主流的双路服务器平台。E7则采用了Westmere-EX命名。

根据应用的不同,Sandy Bridge架构既有不同系列处理器产品,也有该架构本身的细微划分。其中Sandy Bridge-EN用于高密度,低功耗的服务器;Sandy Bridge-EP用于高性能服务器和工作站。它们都取代现有的Xeon 5600系列。另外,还有主要定位在入门级单路服务器市场的Sandy Bridge-DT。

5639528315

 

Sandy Bridge-EP被用来取代Westmere-EP芯片,主要应用在双路和四路的LGA 2011主板上。这些处理器拥有4通道内存接口和40条PCI-E 3.0通道,I/O控制器(北桥)已经和CPU部分融为一体,有助于带来相当强大的性能提升效率。

Sandy Bridge-EP所使用的晶圆,开启了许多酷睿家族中被限制的功能。其中包括双QPI(这项功能的开启主要为满足多处理器封装中的封装内通信需求),最高支持8核16线程,并支持20MB的三级缓存。Sandy Bridge-EP也将集成四通道DDR3内存控制器,而PC3-12800(DDR3-1600MHz)将作为最优内存标准,最高将支持768GB内存。

Sandy Bridge-EP被设计为面向双路系统,但它可以升级到四路或者更大系统,和具有更高可扩展性的Westmere-EX( Xeon E7-x8xx系列)并存,以提供完整的产品线。Sandy Bridge-EP产品中,主要包括单路市场的E5-1600系列,双路处理器则主要集中在至强E5-2600系列,而四路处理器则由至强E5-4600系列来承担。

Sandy Bridge-EN产品中,主要包括单路市场的至强E3-1200系列、双路市场的E5-2400。至强E5-2400的内存通道仅为3个,1条QPI总线,24条PCI-E 3.0总线,功耗则最高为95W。

Intel®企业级处理器路线图

2380695970

 IntelNehalem微架构:动态可扩展性和创新设计

4内核, 8内核

微架构增强(4倍宽)

同步多线程

集成的内存控制器

QuickPath
interconnect

共享的3级缓存

动态电源管理

SSE 4.2 指令集

1800608105

Intel® QuickPath架构

Intel® QuickPath interconnect 以及集成的Intel®
QuickPath内存控制器。


8952452196

 集成内存控制器 (IMC)

4551035192

 

 

 

 

 

 

优化的内存控制器

Initial Intel® Core™ 微体系架构 (Nehalem) 产品)

内置 DDR3 内存控制器

每个插槽最大 3 内存通道

高内存带宽

低延迟设计

支持 RDIMM 和 UDIMM

RAS 功能

未来的产品

扩展能力

不同数量的 内存通道

提升内存速度

缓存和无缓存方案

市场特殊需求

高内存容量

集成显卡

Intel制造工艺、家族代号一览:

65nm Core

45nm Penryn

45nm Nehalem

32nm Westmere

32nm Sandy Bridge

22nm Ivy Bridge

22nm Haswell

14nm Rockwell

14nm Skylake

10nm Skymont

低内存延迟对高性能十分关键

  • 集成内存控制器的设计实现低延迟
  • 需要对本地和远程内存延迟做优化
  • Intel® Core™ 微体系架构 (Nehalem) 提供

–    巨大的本地内存延迟降低

–    即使远程内存延迟也很低

  • 高效的内存延迟依赖于应用程序/操作系统

–    本地与远程内存访问对比

–    IntelCore 微体系架构 (Nehalem) 整体上提供低内存延迟 

6060280224

 

Intel®超线程技术

  • 也称为并发多线程
    (SMT)

–    同一时间在每个核心上运行 2 线程

  • 利用 4-宽执行引擎

–    支持多线程

–    降低单线程的延迟

  • 高能效 性能特性

–    很低的芯片空间开销

–    可以提供明细的性能优势依赖于不同的应用

–    比增加另外一个核心更高效

  • Intel® Core™ 微体系架构 (Nehalem) 优势

–    大缓存,巨大的内存带宽

超线程技术(Hyper-Threading Technology)是Intel公司在2002年发布的一项新技术,并率先在至强处理器上得到了充分的应用。超线程技术就是利用特殊的硬件指令,把两 个逻辑内核模拟成两个物理芯片,让单个处理器都能使用线程级并行计算,进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高的CPU的运行效率。支持Intel超线程技术的处理器在打开超线程技术后,在操作系统中看到的处理器数量是实际数量的两倍。

超线程性能

采用超线程技术,通常使数量少或速度慢的处理器能获得最好的性能提升

软件更有可能产生足够数量的线程,从而让两条通道都处于繁忙状态

2个物理处理器: 超线程能改善性能 15 – 25%

4 个物理处理器:超线程能改善性能 1 -13%

8 个物理处理器:超线程能改善性能 0 -5%

Intel®Turbo Boost技术

9015514069

  提高应用响应性,提供更高的处理器频率,以便动态利用服务器的供电 。

技术原理

  当应用负载提高时,系统可以在TDP的允许范围内对核心主频进行超频: 如果4个CPU内核中有一个或两个核心检测到负荷不高,那么其功耗将会被切断,也就是将相关核心的工作电压设置为0,而节省下来的电力就会被处理器中的PCU用来提升高负荷内核的电压,从而提升核心频率最终提升性能。当然不仅限于这一种状态,也可以是关闭一个核心或者是关闭三个核心。新一代的Turbo Boost不仅提供了比上一代产品更精细的电源管理模式以及更高的电源管理效率,并且还提供了强大的性能挖掘模式,以更好的满足用户的应用处理需求,真正做到了节能与高效并举。

  当部份核心出现闲置情况,而其他核心将会进入TurboBin状态,核心频率将会被提高令效能进一步提升。据了解,TurboMode将会按照处理器的功耗、温度及规格限制,在安全稳定的情况下进行加速,令部份多线程及单线程作者可加速完成。原理是透过ACPI Terminology机制,观察处理器的P1及P0状态把闲置的核心进入LMF(Lower Frequency Mode)状态,正运作中的核心则提升其频率,因此而提升的TDP将不会超过正常情况下所有核心运作中的最高TDP规格,此举将令处理器更具能源效益。

动态资源池的灵活性:Intel® VT Flex Migration

1253400627

   Intel Virtualization Technology就是以前众所周知的“Vanderpool”技术,这种技术让可以让一个CPU工作起来就像多个CPU并行运行,从而使得在一部电脑内同时运行多个操作系统成为可能。

  这种VT技术并不是一个新鲜事物,市面上已经有一些软件可以达到虚拟多系统的目的,比如VMware workstation、Virtual PC等,使用这种技术就可以单CPU模拟多CPU并行,可以实现单机同时运行多操作系统。 virtualization技术和多任务(multitasking)、
HyperThreading超线程技术是完全不同的。多任务是指在一个操作系统中多个程序同时并行运行,而在虚拟技术中,你可以拥有多个操作系统同时运 行,每一个操作系统中都有多个程序运行,每一个操作系统都运行在一个虚拟的CPU或者是虚拟主机上。而HyperThreading超线程只是在SMP系 统(Symmetric Multi Processing)中单CPU模拟双CPU来平衡程序运行性能,这两个模拟出来的CPU是不能分离的,只能协同工作。

当然了,如果一个CPU同时支持HyperThreading和Virtualization技术的话,每一个虚拟CPU在各自的操作系统中都被看成是两个对称多任务处理的CPU。

Intel®VT FlexMigration:通过
Intel® Xeon®
处理器投资保护
7268322710

 英特尔® 虚拟化灵活迁移技术(Intel VT FlexMigration):虚拟化的一个重要优势是能够在无需停机的情况下,将运行中的应用在物理服务器之间进行迁移。英特尔® 虚拟化灵活迁移技术(Intel VT FlexMigration)旨在实现基于英特尔处理器的当前服务器与未来服务器之间的无缝迁移,即使新的系统可能包括增强的指令集也不例外。借助此项技术,管理程序能够在迁移池内的所有服务器中建立一套一致的指令,实现工作负载的无缝迁移。这便生成了可在多代硬件中无缝运行的更加灵活、统一的服务器资源池。

 

五AMD 服务器

6526231500

  AMD的服务器处理器产品线将不会像以往那样仅仅根据单路、双路、多路这样来根据产品做简单的划分,而是根据用户市场的需求来将服务器平台划分为6000系列以及4000系列

  在AMD看来,用户根据需求可以分为两种,一种 用户更加关注产品性能和扩展性,与其对应的产品是高端的4路、8路市场,以及2路服务器平台中的高端市场,对于这部分用户,AMD将会推出代号为
“Maranello”的6000系列平台,该平台采用代号为“Magny-Cours”的处理器产品,该处理器是全世界首款8核心和12核心的x86处 理器,面向2路以及2路以上市场,能够满足企业和主流计算苛刻的数据密集型工作负载,并具有先进的虚拟化和能源效率的特点,适用于6000系列平台的 6100系列处理器产品将在2010年第一季度推出。

  而对于另外的一部分用户,他们更关心的可能是能 效和成本的优化,6000高端市场平台显然无法满足这部分客户的需求,针对这一来用户的产品将是代号“SanMarino”和“Adelaide”的
4000系列平台。据Gina解释,4000系列处理器主打市场包含三部分,第一部分是需要低功耗、高密度计算以及高性价比的第二部分是要求易用性一级扩 展性的中小企业;第三部分则面向要求高能效、一致性的企业基础架构市场。在4000平台上,我们将会看到X86架构下首款也是目前唯一一款单核心功耗小于 6瓦的产品。

4665329839

Direct Connect Architecture 2.0

平衡可扩展的设计高达每 CPU 16 Cores

ü  远端内存访问仅需1跳(1-hop)

ü  每CPU支持4个内存通道

ü  支持的内存条增加50%

ü  CPU间互联速度增加33%

参考资料

 

1. http://baike.baidu.com/view/2089.htm

2.http://zhidao.baidu.com/question/424763709.html

3. http://support.amd.com/cn/Pages/AMDSupportHub.aspx

4. http://www.doc88.com/p-273181811734.html

5.http://www.intel.cn/content/www/cn/zh/processors/xeon/xeon-processor-5000-sequence.html

6.http://www.intel.cn/content/www/cn/zh/processors/xeon/xeon-processor-5000-sequence.html

 

未经允许不得转载:系统玩家 » CPU相关技术

分享到:更多 ()
喜欢 0
rancher

评论 抢沙发

评论前必须登录!