我们都知道Intel英特尔的Tick-Tock钟摆策略,通过每两年更换一次工艺制程、每两年更新一次微架构来交替给处理器更新换代。不过,由于市场的变迁,钟摆的等时性看起来会受到些影响:周期经常会有些变动。我们先从头说起——记得Tick-Tock战略是从2005年开始,其时Intel处于从老的NetBurst架构到Core架构转变的过程中,大环境也从高频单核开始走向低频多核,同时,由于Itanium产品线的不成功,Intel也在其时引入了EM64T——几乎就是AMD64的翻版。 早些年的Tick-Tock模型图 Tick-Tok策略从现有的工艺制程开始——2005年Intel的处理器混杂了多种90nm和65nm的产品,它们均基于老的NetBurst架构,如2005年1月份的单核至强Irwindale(90nm,NetBurst微架构),以及2005年10月的第一款双核至强Paxville DP(90nm,NetBurst微架构)——实际上就是Irwindale的双核胶水版本;稍后的2006年1月份Intel发布了基于Core微架构处理器的第一款处理器Core Duo——Conroe(65nm,Core微架构),并很快推出了其至强版本Conroe(65nm,Core微架构)和Woodcrest(65nm,Penryn微架构),2006年Intel还推出了Dempsey至强(65nm,NetBurst微架构)。也是在这一年,Intel引入了至强Xeon 3000(就是Conroe Xeon)和Xeon 5000(就是Dempsey)的系列名。 2006年Intel开始了新的Core微架构,老的NetBurst终结 在先发布了桌面版本的Penryn微架构处理器之后,Intel的Penryn Xeon DP——Wolfdale-DP(45nm,Penryn微架构)在2007年的11月发布,而其下一代的Nehalem-EP(45nm,Nehalem微架构)一直到2009年的3月份才发布,中间隔了一年四个月;Westmere-EP(32nm,Nehalem微架构)则按计划在一年后的2010年3月发布,而到了Sandy Bridge微架构,其双路版本并没有在2011年发布,先发布的是单路的Xeon E3(2011年4月),在其时Intel放弃了之前一直采用的3000、5000、7000系列的型号命名方法,改为了Xeon E3、E5、E7这样的系列名。双路的Xeon E5——Sandy Bridge-EP(32nm,Sandy Bridge微架构)一直到半年左右在2012年的3月份发布,而到现在最新的Ivy Bridge-EP(22nm,Sandy Bridge微架构),则是一直跳到了两个月前——2013年9月份才发布,中间间隔了一年半。可见,Intel在处理器工艺制程和微架构方面并没有太大的延迟,然而在同一微架构的不同架构产品上,会受到外来因素的影响,一般都有所延误,并按照E3、E5、E7的排列顺序依次排列。Intel其实并没有太严格地按照Tick-Tock执行。 Intel Xeon E5处理器路线图,Sandy Bridge-EP处理器的下一代的型号没有改变数字系列,而是在之前的E5-2600后面加了v2后缀;Ivy Bridge属于Tick-Tock中的Tick+ 2013年9月,Intel Xeon E5-2600 v2处理器,代号Ivy Bridge-EP(22nm,Sandy Bridge微架构) 大约在两个月前,我们拿到了最新的Xeon E5-2600 v2处理器产品——也就是最新的Ivy Bridge-EP。说句题外话,其时入门单路版的Xeon E3已经是Haswell架构了,而高端多路的Xeon E7还处在Sandy Bridge架构。乐观估计,Xeon E7的Ivy Bridge-EX大概就在这两个月会出现。其实对于Ivy Bridge-EP出现这么晚应该并不是技术上的原因。Ivy Bridge-EP搭配的芯片组仍然和Sandy Bridge-EP保持一致,仍然是Patsburg,2012年Patsburg出来的时候由于SCU(Storage Controller Unit)的SAS速率问题而受到了延期,今次应该不会再有问题了才对。 Intel Ivy Bridge-EP处理器评测 by ZDNet企业解决方案中心 Lucifer 接下来,我们会先对Ivy Bridge-EP搭载的几项新特性进行解释,并进行实物展示,然后介绍我们使用的服务器平台——在最初的Patsburg工程样品主板损坏了之后我们进行了更新——最后就是对Sandy Bridge-EP和Ivy Bridge-EP处理器进行性能测试对比。 Intel Ivy Bridge-EP(按照Intel的做法,以下可能会简称为IVB-EP)和上一代Sandy Bridge-EP(后面可能会采用简称SNB-EP)都基于相同的Sandy Bridge微架构,工艺上从32nm进化到了22nm,IVB相比SNB在微架构和架构都没有太大的变化,不过也颇有些值得一提的改进,它们涵盖了微架构和架构两个方面——我们就不再阐述Intel 22nm工艺的改进了。 Intel Xeon E5-2600 v2系列处理器 Ivy Bridge-EP设计目标 基于改进的工艺,显然IVB-EP的主要目标是降低功耗——相应地,它增加了50%的核心数量。IVB-EP的最高主频略微得到了提升,但最多核心数量的型号主频却下降了,IVB-EP的重点放在了提升能源效率上,最终是有些型号的频率比较高,而有些型号功耗很低——总的来说,能源效率是提升了。如果除去150W的工作站型号,之前SNB-EP,最高TDP热设计功耗为135W,到了IVB-EP就稍微降低到了130W。 从SNB-EP到IVB-EP:核心数量的提升,IVB-EP具有12个运算核心 除了22nm工艺制程之外,IVB-EP最显然的地方就是核心数量从SNB-EP的8个提升到了12个,提升了50%,我们知道为了应对核心数量的不断增长,从SNB开始Intel就开始使用RingBus环形总线来联接CPU内核,到了12个核心之后,这个RingBus又有了变化: Intel设计了3个原生晶圆布局设计来应对不同核心数量的产品 可以看到,12个核心的IVB-EP版本里面有三个RingBus,每个RingBus联结8个核心,这种方式可谓有些取巧,从效果来看应该不差。不过笔者是秉承着对称就是美的理念的信徒,这个12核的版本还算是能接受的,联想到下一代Haswell-EP会有14个核心这怎么安排?让人头疼……笔者觉得HSW-EP还是15个核心会更好看一些。 10核心Ivy Bridge-EP晶圆图 RingBus数量的增加也相应增加了内部互联带宽,但是联结外围IO单元也会变得稍微不对称,另外内存控制器也从原来的一个分裂为两个,每个提供两个通道,这个可以在Windows下的AIDA64的软件里面看到。除去12核心的奇葩设计之外,6核心和8核心的IVB-EP版本布局和之前的SNB-EP没有什么差别,新的三布局方式让IVB-EP多了很多“原生”型号。无论是SNB-EP还是IVB-EP,较少核心数量的型号均由高核心数量型号屏蔽而来,而被屏蔽的部分晶体管还是会有电能消耗,因此新的布局方式可以降低整个产品线总体的能耗。 头条图所用的Ivy Bridge-EP晶圆图,也是10核心的版本 接下来我们先看看IVB-EP在Core核心内的改进。 Core,核内,属于微架构的范畴。尽管按照Tick-Tock来说,不会有大的变化,然而细节的改进确实必不可少的,每一代均是如此。按照Marketing的文档,粗略来说Intel Ivy Bridge-EP的改进有下面4点: 1. Intel Advanced Vector Extensions (AVX): Float 16 Format Conversion 2. Virtualization: APIC Virtualization (APICv) 3. Security: Intel Secure Key (DRNG) 4. Security: Intel OS Guard (SMEP) 这四个都是指令集的改进,前面两个分别用于改进AVX指令集以及在虚拟化环境下的性能,后面两个则是添加了两个安全特性,从它们具有自己独立的名称以及缩写可以看得出来,这些都是比较值得一说的地方。除此之外,也会有一些没有单独命名的改进,一般文档并不会标注出来,例如下面列出的多项增强一般人就不会知道(除了里面的Float16<->SP conversion就是前面的第一项 Float 16 Format Conversion改进): Ivb Bridge-EP核内改进,内容来自Intel Reviewer's Workshop 2013,NDA文档 Ivy Bridge微架构改进,Technology Insight: Intel Next Generation Microarchitecture Codename Ivy Bridge,IDF2011 按照列表可以分出三个分类来:面向提升IPC的微架构改进、ISA指令集增强以及单独列出的一项FS/GS基址寄存器相关项目。下面我们先来看看这些项目,下一页再讨论前面所说的四项中的另外三项。 面向提升IPC的微架构改进 在微架构上我们可以总结出4个改进点来,它们可以持续地提升处理器的IPC: 1. MOV指令不再占用执行端口,因此称为“MOV elimination”,这是因为使用了PRF(Physical Register File,物理寄存器文件)架构后带来的持续改进(PRF在SNB微架构中引入),MOV指令现在只需要在寄存器重命名阶段将寄存器内容重定向到目标寄存器就能完成,而不是像以往那样需要占用一个执行端口并占用时钟周期进行读取/写入寄存器操作 2. Prefetcher预取器改进 3. Divider除法器改进,据称是快了一倍,这一点特别值得一提: Intel Penryn微架构(2006)的Fast Radix-16 Divider具有,每时钟周期可以生成结果的4个位,Early-out的算法可以允许更低的输出延迟 Intel Penryn微架构(2006)的Fast Radix-16 Divider的构造清晰可见,里面的重点是QSL和Hybrid 68-bit Adder(CSA/CPA双用); CSA:Carry-Save Adder,CPA:Carry-Propagate Adder;QSL:Quotient Selection Logic 相比加法器和乘法器,除法器要复杂得多,并且难以流水线化;Intel的除法器设计一直处在业界领先水准,早在Penryn时代Intel使用Radix-16时就已经比竞争对手的Radix-4要快了一倍。Penryn的快速Radix-16除法器每时钟周期可以处理4个bit(其它处理器是2个bit),因此延迟可以降低一半,总吞吐量可以提升一倍。现在Ivy Bridge的除法器仅仅提到吞吐量提升了一倍(包括整数和浮点),怎么实现的还是个谜团 4. shift/rotate和split/load指令改进 显然,这些改进比起直接引入宽了一倍的256bit寄存器(Sandy Bridge微架构)或者执行端口直接加两个(Haswell微架构)来显得微小,不过根据负载的不同,其性能提升有时也不能忽略,在一些测试中可以观测到较为明显的变化。这些微架构的改进不需要软件进行任何的改动。 ISA指令集增强 指令集包含了两个部分: 1. Intel Advanced Vector Extensions (AVX): Float 16 Format Conversion Intel在Sandy Bridge微架构中引入了AVX指令集,将浮点运算从128bit扩展到了256bit宽度,相应地,浮点寄存器也扩展到了256bit宽度 除了传统的32位SP(Single Precision,单精度)和64位DP(Double Precision,双精度)浮点格式之外,在很多图形和影像处理当中还存在着一种“半精度”的浮点格式,它的长度只有16位,因此可以很明显地降低数据的容量以及提升处理的速度。在Ivy Bridge-EP中,Intel引入了对半精度浮点格式的支持,并提供了两条在半精度和单精度之间转换的指令(因为半精度只是一个存储格式,并不对它进行直接处理): vcvtps2ph:单精度到半精度转换(速度是独立的AVX实现的4倍) vcvtph2ps,半精度到单精度转换(速度是独立的AVX实现的2.5倍) 2. REP MOVSB/STOSB指令增强 这类指令让程序员不再需要编写自己的copy/fill功能,并且在面对不同的字长的时候都能得到更为一致的性能。 用户线程快速FS/GS基址寄存器快速存取 跨时代的32位处理器:Intel 80386引入了保护模式,将80286原有的16位寄存器扩展为32位寄存器并增加了FS和GS两个段寄存器 Intel的80386处理器在引入386保护模式的同时,引入了两个新的通用数据段寄存器,FS和GS,作为之前4个段寄存器的补充(CS、DS、ES和SS),不过,现代的x86-64处理器在Long模式中不再使用CS、DS、ES、SS段寄存器而仅仅使用FS和GS段寄存器。不同的操作系统对寄存器的使用不同, Windowss操作系统使用FS和GS寄存器指向Win32 Thread Information Block(TIB),也叫 Thread Environment Block(TEB)——保存着当前运行线程的一些信息。在Ivy Bridge中,Intel引入了4条在Ring-3(用户Ring)下访问FS和GS寄存器的指令,从而达到宣称的“Critical optimization for large thread-count server workloads(大量线程数量服务器负载的重大优化)”的目的。不过跟所有新增的指令集一样,这需要对应用程序使用新的指令进行重新编译。 Virtualization: APIC Virtualization(APICv) 每一代Intel的处理器都带有对虚拟化的增强特性,这一代带来的是Advanced Programmable Interrupt Controller Virtualization(APICv,高级可编程中断控制器虚拟化)特性,Interrupt是现在计算机中IO输入输出的重要组成部分,而APIC控制器的工作相应地也就十分重要。自从Intel引入VT硬件辅助虚拟化以来,虚拟化的大部分损耗都存在于VM enter/exit上,这跟进程/线程切换的道理相一致。通常地,每一次VM exit都会带来2000~7000个时钟周期的消耗,如果存在大量的虚拟机,每个虚拟机又存在着大量的VM exit,那么虚拟化主机的效率将会大为降低。提升虚拟化IO效率的目标就在于降低VM exit。 中断可以分为两种类型:外部中断和内部中断,外部中断就是设备IO引入的中断,而内部则是核间通信以及时钟等引入的中断。在2008年,Intel在Xeon 7400上引入的Intel VT FlexPriority技术针对的就是外部中断,现在,Ivy Bridge-EP引入的APICv就主要针对的是内部中断: Intel APIC Virtualization(APICv)特性 虚拟机处理IO中断的时候需要不断访问APCI寄存器,每一次访问均需要VMM(或者Hypervisor,虚拟机管理员)进行指令截取、解码,因而导致VM exit,而通过APICv,原有的寄存器访问便可以在虚拟机内部完成,不再需要VM exit,因而提升了性能。 APICv通过引入一个新的Virtual-APIC Page来实现相应的功能,Virtual-APIC Page受VMCS管理,这是一个可以由虚拟机直接访问的内存页面 Intel宣称,APICv消除了50%的VM exit,并优化了10%的VM exit,预计可以明显提升大量虚拟机下的性能表现。唯一需要注意的是,APICv需要VMM/Hypervisor的支持,Xen 4.3(目前最新版本Xen 4.3.1)和KVM 1.4(目前最新版本1.5)都已经支持这个功能,而VMware和Microsoft的虚拟化产品则没有什么症状表明其支持还是不支持。 除了APICv之外,Intel还给Ivy Bridge的虚拟化提供了多项增强,如CPUID Faulting等等: Ivy Bridge-EP的虚拟化优化,混杂了一些不属于本页的内容,如VT-d上的改进,现在VT-d可以更好滴支持大页面,并改进了IOTLB的命中率,降低延迟提升带宽 Security: Intel Secure Key(DRNG) Intel SecureKey:Digital Random Number Generator 随机数是加解密中很重要的一个要素。典型的计算机是一个确定性的状态机,因此无法靠纯粹的软件生成真正的随机数——通常使用的都是伪随机数。不过有一种真正的“随机”一直在伴随着我们——计算机的基础是晶体管,而晶体管都是基于量子效应,不确定原理或者测不准原理可以让我们有途径获得真正的随机数。除了更好的随机性之外,Ivy Bridge引入的DRNG(Digital Random Number Generator,数字随机数生成器)还具有着比软件方案更为强大的性能。 Intel Secure Key(DRNG) Intel Secure Key(DRNG) Security: Intel OS Guard(SMEP) 跟DRNG一样,SMEP(Supervisor Mode Execution Protection,超级管理员模式执行保护)也是一个安全功能,它用来防止在Supervisor模式下任意地访问用户模式的内存页面,从而较大程度低忒生exploit攻击的成本: Inte OS Gurad:Supervisor Mode Execution Protection 前面提到的众多核内改进功能中,大部分都是所有Ivy Bridge架构都具备的特性,只有APICv是仅存在于Ivy Bridge-EP/EX + Patsburg C600组合当中,作为服务器平台特有的项目。 看完Core核内的改进之后,我们再来看看Uncore核外的改动: Ivb Bridge-EP核外改进,内容来自Intel Reviewer's Workshop 2013,NDA文档 第一点改进前面已经说过,三个环形总线可以带来更高的带宽和更低的延迟,不过可惜的是只有少数高核心的SKU才使用这种设计,大部分SKU都是属于传统的双环形总线设计。 使用AIDA64可以看到Intel Xeon E5-2697 v2中,两个处理器一共显示出4个集成内存控制器(IMC),每个控制器是两个通道;此外从各个方面可以看出,AIDA64在这方面的识别还不够完善 此外,额外的内存控制器也只是在三环形总线设计中才有使用,虽然两个独立的内存控制器联接的仍然是4个内存通道,但是额外的内存控制器设计可以让内存存取的效率提升。 Ivy Bridge-EP还在Snoop Directory监听目录以及L3 Cache的LRU上进行了改进,Snoop Directory的目录以及LRU的标志位都从之前的1位提升到了2位,从而提升前者的监听性能和后者的缓存命中率。并且Snoop Directory的改进是在所有的EP型号都具有,在以往,类似应的改进仅仅在四路或四路以上的型号中才具有(在Sandy Bridge-EP当中,Snoop Directory是被禁用的)。 Ivy Bridge-EP对延迟的优化,包括了前面说到的Snoop Directory等的改进 Ivy Bridge-EP还将延迟的优化作为一个目标,除了前面的改进Snoop Directory之外,还引入了一项“Opportunistic Snoop Broadcast”,在不同的带宽负荷下自动调整Snoop监听的执行,此外核间Snoop的延迟、多路处理器之间的一致性也得到了多处改进。Ivy Bridge-EP还改进了QPI总线,在Turbo睿频模式下,CPU的QPI总线将会动态地禁用QPI L0p状态,从而降低了传输延迟,同时还维持了节约能源的能力。 Ivy Bridge-EP支持DDR3-1866,具有更高的带宽和更低的延迟 显然,更多的CPU核心需要更大的内存带宽,Ivy Bridge-EP将最高内存支持提升到了DDR3-1866,比之前的DDR3-1600提升16.6%,并且即使是较为低端的型号也大都支持DDR3-1600。并且在使用1.35V的DDR3内存的时候也能支持到1600。Ivy Bridge-EP现在支持64GiB的内存模组,当然,必须采用的是LRDIMM(Load Reduced DIMM)。因为新内存模组的支持,双路Ivy Bridge-EP的最大内存容量支持达到了1.5TiB。 Ivy Bridge-EP在PCIe方面的优化 Ivy Bridge-EP当中比较让人注意的是对PCI Express总线的优化,除了面向高端存储市场的x16 NTB(Non-transparent Bridge,非透明桥)之外,其它的多项优化对各种PCIe设备都有效果。首先是Ivy Bridge-EP引入了PCIe Atomics,PCIe原子操作,这是一个PCIe Gen3的可选功能,可以让以往的同步操作变得简便、低延迟和高性能,在多路CPU/GPU并存的环境当中将会很有用。PCIe Atomics引入了三个操作:FetchAdd(Fetch and Add)、Swap(Unconditional Swap)、CAS(Compare and Swap),FetchAdd和Swap支持32位和64位操作数,CAS支持32、64、128位操作数。 Intel还提到,Ivy Bridge-EP的PCIe还明显地降低了延迟,不过没有提及什么方式,这对所有PCIe设备都是有效果的。 图上出现了一块Xeon Phi,不过Ivy Bridge-EP的PCIe优化并不局限于Xeon Phi Ivy Bridge-EP中,PCIe对P2P的带宽得到了提高,特别是同一个PCIe总线的设备与设备之间的通信。Intel在文档中还提及了Ivy Bridge-EP的环形总线会“激进地”得到提高以提升性能。 可以看到,即使不说22nm、50%的额外核心带来的变化,Ivy Bridge-EP也拥有着不错的改进,接下来我们就来看看得到的Ivy Bridage-EP实物。 由于Ivy Bridge-EP将内存支持提升到了DDR3-1866,因此原有的测试平台就无法很好地符合新的处理器,不过事实证明我们是白操心了——我们收到了包含处理器和内存的一套测试样品: Intel Ivy Bridge-EP——Xeon E5-2600 v2处理器 我们收到的处理器有两套,共有四个,分别是Xeon E5-2697 v2两个以及Xeon E5-2650L v2两个,自然,它们都是工程样品。 Intel Xeon E5-2697 v2处理器正面 Xeon E5-2697 v2是Ivy Bridge-EP中目前最高端的型号,它具有12个核心和24个线程,主频为2.7GHz,最高睿频可以达到3.5GHz。这要比之前Sandy Bridge-EP的最高端型号Xeon E5-2690要低。E5-2690主频为2.9GHz,最高睿频可以达到3.8GHz。这是核心多了50%所要付出的代价。E5-2697 v2的TDP是130W,比E5-2690的135W略有降低。 Intel Xeon E5-2697 v2处理器背面 背面的触点和之前的处理器没有什么区别,当然,中央的电容电阻部分排布会有些不同。 Intel Xeon E5-2697 v2处理器正面+背面 Xeon E5-2697 v2采用的是Ivy Bridge-EP三种晶圆布局中的第三种:三环形总线30MiB L3布局,从各个方面看都是最顶级的——体型上也是,仔细看上下两张图就会发现,E5-2697 v2的基板比其它型号都要大。 Intel Xeon E5-2650L v2处理器正面 Xeon E5-2650L v2,10核心型号,采用的是Ivy Bridge-EP三种晶圆布局中的第二种:双环形总线25MiB L3布局,从外形上看,它比E5-2697 v2要小一圈。从型号中的L后缀可以看出,这是一个低功耗的版本——E5-2650L v2的TDP是70W,非常凉爽,不过代价是其主频仅仅是1.7GHz,最大睿频可以达到2.1GHz,确实有些低。 Intel Xeon E5-2650L v2处理器背面 Mircon 16GiB R-ECC DDR3-1833 SDRAM 搭配的Mircon R-ECC DDR3-1833 SDRAM,单条容量16GiB,一共8条,总容量128GiB。 在一年前进行Sandy Bridge-EP处理器测试的时候,ZDNet企业解决方案中心使用的是一台基于Intel主板的测试样机,不过很不幸的是,这台工程样机很快就损坏了。我们很快转向了DELL PowerEdge R720服务器作为测试平台。 DELL PowerEdge R720(上)和PowerEdge R720xd(下) DELL PowerEdge R720具有16个2.5"热插拔槽位,R720xd则是26个——前面板具有24个,机箱内部还有两个。 DELL PowerEdge R720(上)和PowerEdge R720xd(下) PowerEdge R720xd额外的两个2.5“槽位可以在背板上看到——在后面板电源的上方。 DELL PowerEdge R720服务器,我们实验室有数台,拍照这台是具有6个SAS硬盘 DELL PowerEdge R720前面板的抽条上带有Service Tag,寻求售后支援的时候显得很方便 DELL PowerEdge R720:撤去导风罩之后就可以看到处理器和内存槽了 这台DELL PowerEdge R720服务器在我们得到Ivy Bridge-EP处理器之前就一直在使用了,而要想使用最新的Ivy Bridge-EP处理器,服务器必须进行BIOS升级,关于BIOS升级和处理器升级的过程,可以观看我们的视频: DELL PowerEdge R720升级BIOS和Xeon E5-2600 v2处理器 我们手上的DELL PowerEdge R720搭载了一块Broadcom BCM58700S网络子卡,包括两个RJ-45千兆电口和两个SFP+万兆光口,不过测试中并未用到 DELL PowerEdge R720符合80 Plus白金规范的750W冗余电源中的一个,这是省电的一个重要部件 看完DELL PowerEdge R720服务器,接下来我们就来看看详细的测试环境。 DELL PowerEdge R720作为测试平台其BIOS设置的调整选项显得比较缺乏,不过作为最终用户的使用平台却是非常不错。从易操作性上来说,它比Intel的工程样机要好多了。 Ivy Bridge-EP对比测试平台 我们使用了这台PowerEdge R720作为基准平台测试了三套处理器的性能:Xeon E5-2690、Xeon E5-2650L v2、Xeon E5-2697 v2。E5-2690是Sandy Bridge-EP当中面向服务器市场的顶级型号(另一个频率更高的2687W面向工作站平台)。三套测试平台大部分都相同,只是在测试除Xeon E5-2690、Xeon E5-2650L v2的时候使用的是DDR3-1600内存,测试Xeon E5-2697 v2的时候使用的是DDR3-1866内存。内存容量均为128GiB,测试硬盘则是两个SAS 146GB组建的RAID 0,我们并不测试磁盘性能,因此这个配置已经足够。除了PowerEdge R720平台之外,我们还加入了了一台Intel Sandy Bridge-EP 4S机器作为对比——也就是四路的Sandy Bridge-EP,双路的版本应该叫做Sandy Bridge-EP 2S。不过不带任何后缀的时候,Sandy Bridge-EP通常指的是双路版本。Sandy Bridge-EP 4S平台使用的处理器是Xeon E5-4650,主频是2.7GHz,8核心16线程,它搭配的内存容量比较大,达到了256GiB,规格为DDR3-1600。 在测试中,老的Sandy Bridge-EP处理器使用R720服务器BIOS版本是1.6.0,而新的Ivy Bridge-EP处理器使用的R720服务器BIOS版本2.0.19,这些BIOS升级都可以到戴尔官网下载,目前戴尔提供的是Windows操作系统下的升级包。升级过程可以见我们的视频: DELL PowerEdge R720升级BIOS和Xeon E5-2600 v2处理器 日前戴尔已经推出了更新的2.1.2版本,更新甚多,推荐升级: DELL PowerEdge R720官方升级下载 CPU-Z 1.67.1 x64,Intel Xeon E5-2697 v2的识别状态很正常 CPU-Z 1.67.1 x64,Intel Xeon E5-2697 v2的Cache状态 CPU-Z 1.67.1 x64,Intel Xeon E5-2697 v2的内存运行在933MHz,也就是DDR3-1866上 在测试软件环境上,所有的平台均保持一致:我们使用的是CentOS 6.4 x64操作系统,CentOS是Red Hat Enterprise Linux的源代码重编译版本,类似的还有Oracle Enterprise Linux,这些Linux版本确保了和RHEL的兼容性。Linux内核则是最新更新的2.6.32-358.11.1.el6.x86_64,和其它Linux发行版不同,RHEL6和RHEL6类发行版的Linux内核是基于原始的2.6.32内核,并自行进行改进和补丁,因此很难和官方Linux内核进行对应。RHEL 6.4乃至CentOS 6.4内置GCC 4.4.7编译器和GLIBC 2.12基础类库。数日前,RedHat发布了最新的Red Hat Enterprise Linux 6.5,但是本文截稿时,CentOS社区尚未进行更新。 Ivy Bridge-EP/Xeon E5-2697 v2在Windows Server 2012下的任务管理器图 使用AIDA64可以看到Intel Xeon E5-2697 v2中,两个处理器一共显示出4个集成内存控制器(IMC),每个控制器是两个通道 SPEC CPU是一个应用广泛的大型CPU性能测试项目。SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。除了SPEC CPU之外,SPECviewperf系列产品也是常见的测试工作站/图形卡部件所用到的测试软件。 SPEC CPU是SPEC组织推出的一套CPU子系统评估软件,目前最新版本是SPEC CPU2006,它包括CINT2006和CFP2006两个子项目,分别用于测量整数性能和浮点性能。SPEC CPU的测试组件均来源于真实的应用程序,并经过修改以降低对IO子系统的影响,在测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常之小。 SPEC CPU2006包括了12项整数运算和17项浮点运算,除此之外,还有两个随机数产生测试程序998.sperand(整数)和999.specrand(浮点),它们虽然也包含在套件中并得到运行,但是它们并不进行计时以获得得分。这两个测试主要是用来验证一些其他组件中会用到的PRNG随机数生成功能的正确性。各个测试组件基本上由C和Fortran语言编写,有7个测试项目使用了C++语言,而Fortran语言均用来编写浮点部分。SPEC CPU2006以一台Sun Ultra Enterpirse 2工作站作为基准参考系统,系统基于一颗296MHz的UltraSPARC II处理器,测试的得分就表明这个项目中测试系统相对基准系统性能的比值。 说明 负载由三个script组成: 主负载是垃圾邮件检测软件SpamAssassin 一个是email到HTML的转换器MHonArc 最后一个是specdiff 负载包括六个部分: 两个小的JPEG图片 一个程序 一个tar包起的几个源程序文件 一个HTML文件 混合文件,包括压缩起来的高可压缩文件及不怎么可压缩的文件 测试分别使用了三个不同的压缩等级进行压缩和解压缩 对9组C代码进行了编译 MCF是一个用于大型公共交通中的单站车辆调度的程序 429.mcf运行于32/64位模型时分别需要约860/1700MB的内存 围棋 使用HMMS(Hidden Markov Models,隐马尔科夫模型) 基因识别方法进行基因序列搜索 国际象棋 libquantum是模拟量子计算机的库文件,用来进行量子计算机应用的研究 使用两种配置对两个YUV格式源文件进行H.264编码 包括约8000台计算机和900个交换机/集线器,以及混合了各种从10Mb到1000Mb速率的大型CSMA/CD协议以太网络模拟 实现了2D寻路算法A*的三种不同版本 XML文档/XSL表到HTML文档的转换 对三维瞬跨音速粘性流中冲击波的模拟计算 三种SCF自洽场计算: 胞嘧啶分子 水和Cu2+离子 三唑离子 四维SU(3)格点规范理论的模拟,用来研究QCD量子色动力学、夸克及胶子 用来计算理想、非相对论条件下的流体力学和磁流体力学,434.zeusmp模拟计算了一个统一磁场中的3D冲击波 GROMACS是一个分子力学计算套件,然而也可以用于非生物系统,435.gromacs模拟了在一个水和离子溶液中的蛋白质溶菌酶结构在各种实验手段如核磁共振的X光照射下的变化 436.cactusADM对时空曲率由内部物质决定的爱因斯坦演化方程进行求解,爱因斯坦演化方程由10个标准ADM 3+1分解的二阶非线性偏微分方程组成。 LESlie3d是用来计算湍流的计算流体力学程序,437.leslie3d计算了一个如燃油注入燃烧室的时间分层混合流体。 NAMD是一个大型生物分子系统并行计算程序,444.namd模拟了了92224个原子组成的A-I载脂蛋白 deal.II是定位于自适应有限元及误差估计的C++库,447.dealII对非常系数的亥姆霍兹方程进行求解,它使用了基于二元加权误差估计生成最佳网格的自适应方法,该方程在3维得解 SoPlex使用单纯形算法解线性方程 POV-Ray是一个光线追踪渲染软件,453.povray渲染一幅1280x1024的反锯齿国际象棋棋盘图像 CalculiX是一个用于线性及非线性三位结构力学的有限元分析软件,454.calculix计算了一个高速旋转的压缩盘片在离心力的作用下的应力和变形情况 459.GemsFDTD使用FDTD(有限差分时域)方法求解三维时域中的麦克斯韦方程,计算了一个理想导体的雷达散射截面 Tonto是一个面向对象的量子化学程序包,465.tonto计算面向量子晶体学,它基于一个符合X光衍射实验数据的、约束的分子Hartree-Fock波函数 470.lbm使用LBM(格子波尔兹曼方法)模拟非压缩流体,它模拟了两种情况:类似活塞推动的剪切驱动流体和管道流体,测试包含了3000个步骤 481.wrf基于WRF(Weather Research and Forecastin)模型,对NCAR的数据进行了计算,数据包括了UTC 2001.06.11到UTC 2001.06.12以三小时为间隔的数据 语音识别 我们使用了SPEC CPU2006的1.2版本进行测试,由于测试配置文件和源代码的更改,1.2版本的测试和之前的1.1版本的测试得分无法直接对比。我们使用了对双路Xeon E5-2690平台重新进行测试之后的分数。测试使用的Inte C&Fortranl编译器版本是13.0,代码基于Intel的AVX指令集进行了优化。使用的CentOS 6.4操作系统以及各种Sandy Bridge-EP 2S/4S、Ivy Bridge-EP处理器均支持AVX指令集。代码还使用了MicroQuill的SmartHeap 10.0进行了编译,SmartHeap可以让程序更好地管理Heap堆。当前,Intel已经推出了14.0版本的Intel Compiler,我们目前在考虑对其进行跟进。 除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多地优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是SPEED测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"2S24C48T"字段指的是2 Sockets、24 Cores、48 Threads,意思是“2插槽24核心48线程”。 我们先进行了SPEED测试: SPECint_base2006,整数,SPEED测试,Base基准测试 可以看出,Ivy Bridge-EP/E5-2697 v2的得分和Sandy Bridge-EP/E5-2690很接近,较高数量的核心在一些项目中具有优势,而相对较低的频率则在所有的项目中都有负面影响,因此最终的成绩也是打个旗鼓相当。只要编译得当,单实例的SPEED测试也可以多线程运行,并将负荷分散到系统的多个核/线程当中,从而获得巨大的加速——462.libquantum 物理:量子计算就是这样,Ivy Bridge-EP的多核心具有较为明显的优势。 SPECint2006,整数,SPEED测试,Peak峰值测试 和SPECint_base2006的状况类似。 SPECfp_base2006,浮点,SPEED测试,Base基准测试 在浮点测试当中,Ivy Bridge-EP受到的频率影响较大,性能比较明显地弱于高频率的Sandy Bridge-EP。 SPECfp2006,浮点,SPEED测试,Peak峰值测试 同上。 除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多地优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是RATE测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"2S24C48T"字段指的是2 Sockets、24 Cores、48 Threads,意思是“2插槽24核心48线程”。 下面是RATE测试的成绩: SPECint_rate_base2006,整数,RATE测试,Base基准测试 很显然,在测试处理器系统的吞吐量为主的RATE测试当中,四路Sandy Bridge-EP 4S/Xeon E5-4650才是最大的赢家。而我们的目标测试系统Ivy Bridge-EP的得分分别是897(Xeon E5-2697 v2)和530(Xeon E5-2650L v2),对比的Sandy Bridge-EP/Xeon E5-2690则是661,新一代的王者具有着35.7%的综合性能提升。 SPECint_rate2006,整数,RATE测试,Peak峰值测试 Peak峰值测试仅供参考,Ivy Bridge-EP的表现很是不错。 SPECfp_rate_base2006,浮点,RATE测试,Base基准测试 X86处理器的浮点性能得分数值没有整数的那么高。四路Sandy Bridge-EP 4S/Xeon E5-4650仍然是赢家。Ivy Bridge-EP的得分分别是636(Xeon E5-2697 v2)和447(Xeon E5-2650L v2),对比的Sandy Bridge-EP/Xeon E5-2690是484,Xeon E5-2697 v2具有31.4%的综合性能提升。 SPECfp_rate2006,浮点,RATE测试,Peak峰值测试 仅供参考。 RATE测试是我们最关注的测试,它实际上就是一个吞吐量测试,Ivy Bridge-EP/Xeon E5-2697 v2相对Sandy Bridge-EP/Xeon E5-2690具有35.7%(SPECint_rate_base2006,整数)和31.4%(SPECfp_rate_base2006,浮点)的综合性能提升。。 除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多地优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是SPEED测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"2S24C48T"字段指的是2 Sockets、24 Cores、24 Threads,意思是“2插槽24核心24线程”。 除了常规的测试之外,我们还进行了开关超线程的对比测试,这可以对比反映Ivy Bridge-EP在超线程技术方面的支持程度。 SPECint_base2006,整数,SPEED测试,Base基准测试 整数SPEED测试比较让人惊奇,Ivy Bridge-EP/E5-2697 v2关掉超线程的得分比打开的略高这是一个正常现象,而Ivy Bridge-EP/E5-2650L v2则是打开性能要好不少。显然,关闭超线程可以让每个硬件线程可以享受到更多的如Cache、Buffer、Reservation Station和执行端口这样的资源,而超线程带来的硬件线程翻倍则会对这些共享资源带来一些压力。然而,在频率较低的版本当中,这些压力并不严重,或者换句话说,这些资源的应用尚未达到饱和——因为单实例的SPEED测试负荷本来就不高。 从另一个方面看,即使是高频率多核心的Ivy Bridge-EP/E5-2697 v2,关闭超线程也仅仅给SPECint_base2006带来2%的提升,这就表明对Ivy Bridge-EP来说,超线程一般是不需要关闭的。当然,具体到某一项目就得另说了,如462.libquantum 物理:量子计算项目,Ivy Bridge-EP/E5-2697 v2关掉超线程可以带来36.5%的提升。 SPECint2006,整数,SPEED测试,Peak峰值测试 和SPECint_base2006的状况类似。 SPECfp_base2006,浮点,SPEED测试,Base基准测试 在浮点测试当中,高频率多核心的Ivy Bridge-EP型号关掉超线程带来的提升略高一点,而低频率的版本则是打开的性能更高。 SPECfp2006,浮点,SPEED测试,Peak峰值测试 同上。 考虑到SPEED测试的负荷并不算高,因此给处理器系统施加的压力也不算高,不过从同属Ivy Bridge-EP的两种晶圆布局产品我们可以看到不同的性能表现特征是挺有趣的一件事。 除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多地优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是RATE测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"2S24C48T"字段指的是2 Sockets、24 Cores、24 Threads,意思是“2插槽24核心24线程”。 SPEED测试关注的是延迟为主,而RATE测试关注的是吞吐量,这也是一般服务器应用关注的指标: SPECint_rate_base2006,整数,RATE测试,Base基准测试 很显然,超线程技术在吞吐量计算当中是具有优势的,这个优势分别是14.7%(Xeon E5-2697 v2)和18.0%(Xeon E5-2650L v2)。 SPECint_rate2006,整数,RATE测试,Peak峰值测试 仅供参考。 SPECfp_rate_base2006,浮点,RATE测试,Base基准测试 超线程技术在浮点运算中的优势略为降低,这个优势分别是2.4%(Xeon E5-2697 v2)和5.2%(Xeon E5-2650L v2)。 SPECfp_rate2006,浮点,RATE测试,Peak峰值测试 仅供参考。 在我们的平台测试当中,超线程对浮点吞吐量的提升很微弱,而对整数的提升比较明显。另外不同频率/核心数量具有的提升并不一样,总的来说,呈现一种高频率多核心型号的提升幅度略低的情况,这表明其线程共享的部分资源如内存带宽等等略有所短缺。核心数量增加到15个的Ivy Bridge-EX表现如何?我们很是期待。 再另一方面,测试表明打开超线程在单实例的情况下对系统的平均影响已经不算太高了,我认为,这是Ivy Bridge-EP中各种对延迟和带宽进行的优化起了一定的作用。 【ZDNet企业解决方案中心】因为核心多50%而主频低约7%的缘故,Ivy Bridge-EP/Xeon E5-2697 v2相对Sandy Bridge-EP/Xeon E5-2690具有35.7%(SPECint_rate_base2006,整数)和31.4%(SPECfp_rate_base2006,浮点)的综合性能/吞吐量提升,而在考察延迟/速度的单实例测试当中,频率较低的Ivy Bridge-EP与Sandy Bridge-EP只有约2%(SPECint_base2006,整数)和9%(SPECfp_base2006,浮点)的差别,这表明在12核心的Ivy Bridge-EP上,进行吞吐量测试的时候,还是受到了些外围部件的影响,另外,微架构和架构上的改进让适中负荷下的低频率Ivy Bridge-EP有着良好的表现。 Intel Ivy Bridge-EP处理器评测 by ZDNet企业解决方案中心 Lucifer 总体上看,Ivy Bridge-EP的性能表现很不错,即使是频率很低的Xeon E5-2650L v2也能具有和上一代旗舰Xeon E5-2690相近的成绩。Ivy Bridge的提升还是在TDP略低的情况下达到的,实际应用的能耗比情况会更好,因为TDP只是一个设计散热器的最大功耗,而Ivy Bridge-EP在闲置功耗和平均功耗上都有改进。从实用的角度来说,仅仅是这些改进就已经非常足够了,而在其它各方面的改进如PCIe方面的增强,则是让主宰了计算型市场的Xeon处理器可以更进一步推向IO型市场,同时,PCIe方面的增强对大量使用CPU以及混用CPU/GPU的HPC场合也会有明显的作用——日前取得TOP500第一的天河2号就采用了Ivy Bridge-EP和Xeon Phi的组合搭配(每个节点是双路Xeon E5-2692 v2处理器搭配3块Xeon Phi,Xeon E5-2692 v2是专供天河二号使用的2.2GHz、12核心24线程Ivy Bridge-EP;一共是约16000个节点),总共提供了33.86 Petaflops/s的计算能力。至于SecureKey、OS Guard等方面的改进,有些时候会非常有用。 Intel Ivy Bridge-EP/Xeon E5-2600 v2 Official Shot 有些特性需要软件的支持,如FS/GS段寄存器的变化,APICv,Float 16格式转换等,都需要软件的支持。目前尚不清楚VMware的vShpere和Microsoft的Hyper-V是否提供了对APICv的支持。而Xen和KVM现在已经提供了支持。 Intel Ivy Bridge-EP/Xeon E5-2600 v2 Official Shot 按照预计,2013年第四季度Intel将会一改之前的做法,仅仅在推出EP版本数个月之后就推出对应的EX版本——Ivy Bridge-EX很快就会推出,理论上。Ivy Bridge-EX将会具有15个核心,就是三环形总线晶圆布局的Ivy Bridge-EP在三个处理器列上额外增加一个处理器变来,Ivy Brdige-EX预计主频会更低一些,Uncore方面可能不会有更多的影响性能的变化了。Ivy Bridge-EX用来取代之前的Westmere-EX,很不幸地,原计划中的Sandy Bridge-EX被跳过了——因为复杂度等等的原因。一个和Sandy Bridge-EX有关联的产品文章可以看这里:Intel Sandy Bridge-EP 4S评测。 Intel Ivy Bridge-EP/Xeon E5-2600 v2 Official Shot:10核心Ivy Bridge-EP晶圆图 按照Tick-Tock,到了明年,Intel将会推出新一代的服务器处理器——并携带着新一代的处理器微架构,这个代号为Haswell-EP(按照惯例,缩写为HSW-EP)的处理器/微架构将会具有重大的变化,当然其桌面版本以及单路服务器版本现在在市场上就已经可以买到了。请继续期待我们的相关评测文章。 Intel Ivy Bridge-EP/Xeon E5-2600 v2 Official Shot:10核心Ivy Bridge-EP晶圆图