据美国Alliance to Save Energy节能联盟的资料显示,以现在的增长速度来看,如果数据中心的能效不做提升的话,那么它们的用电需求将不停提高,不到10年的时间就可以翻倍,而全球数据中心的电费也将每年再增加2亿~3亿美元。同时,市场研究公司Gartner也预言,在接下来的几年中,世界上一半左右的数据中心将受到电力和空间的约束,能耗会占到IT部门三分之一左右的预算,IT组织在能耗方面的花费将达到硬件花费的四分之一。
而且,大量的IT基础设施(除了服务器之外、还有网络、冷却等设备)所消耗的不仅仅是电力,产生这些电力的能源消耗所带来的环境污染更加令人担忧。因此,在这样的大背景下,以节能、环保、高效为核心价值的绿色IT产品与技术的发展,也就成为了新一代IT产品的创新重点。
现在,IT行业整个范围内,包括从芯片、服务器、存储到网络设备厂商,都希望在自身的产品上做更优化的设计,力图在提升产品性能的同时,推出更为节能的产品。可以说,绿色节能、高效计算已经成为了整个IT界的产品趋势。下面我们就从数据中心的重要组成部分:服务器来对绿色高效计算进行探讨。
早在上一年10月的时候,英特尔发布了使用了45nm工艺制程的Penryn系列处理器。基于Tick-Tock战略,它和上一代65nm的Conroe相比,微架构上的变化并不大,同时依靠于SSE4等变化,性能也可以有比较明显的提升,最明显的地方是由于制程上的大进步,功耗得到了极大的降低。

Tick-Tock战略
按照Tick-Tock规划,Conroe面市1年后的今天,Intel将会推出45nm工艺、基于Core微架构改良的处理器产品,也就是我们熟知的代号为Penryn的新一代Core 2 处理器家族。Penryn家族将基于全新45纳米High-K金属闸极(High-K Metal Gate) 技术,配合经过改良的微架构设计,达成Intel目标每年推出具备增强微架构或全新微架构处理器产品的承诺。

Intel 45nm Penryn处理器
除了Intel已经普遍使用的45nm Penryn之外,AMD也开始将其产品转移到45nm工艺——就在我们的横评进行期间,送来采用65nm AMD Operton处理器的两个厂商浪潮Inspur和戴尔DELL表示他们现在就可以提供代号为Shanghai的45nm Operton处理器,仅需要升级BIOS,就可以完成升级工作,大幅度提升性能。
AMD Shanghai/上海,采用了45nm工艺制程(这也是AMD CPU第一次采用45nm),集成了7.05亿晶体管,拥有共享6M的三级缓存,增强的双通道内存控制器可以同时支持DDR2内存和DDR3内存,内置了最多4条Hyper Transport总线以支持组建大规模并行系统,“上海”还支持AMD的快速虚拟化索引(RVI)的AMD-V虚拟化技术,同时具备48位物理寻址能力,寻址空间可以达到(256TB)。
工艺的进步影响最大的就是功耗,根据我们的测试,Intel的65nm到45nm的工艺转变有着接近30%~40%的功耗降低,AMD的65nm到45nm工艺转变也是有着相似的数字,虽然题目是SPEC测试,不过这一页中进行了简单的功率测试。制程带来的功耗降低可以让厂商们通过直接提升处理器们的L2/L3缓存来提高性能,同时功耗仍然保持在较低的水平,可以说,对能效比这个概念来说是很有意义的。
ntel严格的按照其“Tick-Tock”战略,在2007年的11月份推出了基于45nm制程的四核处理器,代号Harpertown。相对于上一代65nm Clovertown核心的产品,Harpertown进一步优化了微架构,添加了功能并且升级了主要规格。


高分辨率45nm Penryn核心图片,Nehalem之前的Core架构仍然是基于双核设计的
从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的英特尔SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC和企业应用。

较高端的X5460处理器,后来Intel还发布了频率更高的X5482处理器
和上一代Clovertown相比,Harpertown处理器将2 x 4MB的L2缓存提升到了2 x 6MB L2缓存,每两个核心共享6MB缓存。Harpertown处理器将不再使用旧的1066MHz FSB,而开始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技术,四核Harpertown的功耗依然保持同现有的双核大致相当的水平,TDP为80瓦、120瓦和150瓦,并且频率规格也有所提高,最高端的Xeon X5492处理器可以达到3.4GHz,而上一代Xeon X5365只有3.00GHz。

45nm Penryn的增强Core架构主要基于5大方面的改进
除了采用了更新的45nm工艺,Xeon 5400在微架构方面也做了大量的改进,主要包括以下5个方面:

虽然除法也可以用乘法来代替,不过单独的除法指令、除法运算器部件显然可以提升效能,Penryn架构搭载了新的16进制除法部件,可以提供目前最顶级的除法性能。传统的2进制或者4进制除法只能在每个时钟处理1位或者2位数据(2个位就能表示4个数,也就是4进制的意思),而Penryn 16进制除法器可以每个时钟处理4位数据(4个位就能表示16个数),可以大大提升包括整数、浮点在内的除法性能,并大大优化了平方根的运算,而且Penryn的除法器的Early-out构造可以以极低的延迟输出结果,最小值需要6个时钟周期。除法器的性能提升几乎涉及到了所有的应用程序。

Primitive原语是指一些基本的操作语义,Penryn增强了操作系统的同步原语,通过提升中断遮罩控制以及时间戳计数器的性能,从而达到提升操作系统同步性能的目的。通常的多任务操作系统中,需要通过大量的硬件/软件中断请求来驱动设备、处理时分多任务,这些中断请求处理需要CPU不断地在多个线程之间切换,这些线程的上下文切换将会带来巨大的开销。Penryn的微架构通过减少流水线停顿的方法来增强多线程切换的性能(线程上下文切换会很容易引起流水线停顿)。此外,在繁忙的操作系统中,不同程序中大量的定时器/计数器需要不停地查询时间戳计数器,通过2倍于原来速度的CLI/STI/RDTSC指令执行速度,Penryn架构大大提升了这些应用的性能,例如数据中心、事务处理等应用都可以从中获得明显的提升,这有点像现代芯片组中新增加的精确时钟技术,这个技术可以比较明显地提升繁忙的服务器的性能表现。

作为当前的热点,也是Intel当前专注的部分,虚拟化技术也没有被忽略,这个持续发展中的技术也获得了改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。

Intel Advanced Smart Cache其实就是L2缓存方面的改进,Penryn处理器家族的L2缓存容量得到了提升,双核心版本将拥有最多6MB、四核心将拥有最多12MB的L2缓存,比上一个版本增大了50%。并且在容量提升的基础上,Penryn还把L2 Cache的Associativity关联性由上一代的16路提升到了24路,令L2缓存存取的平均潜伏期得到了进一步的下降。

除了更快的1600MT/s总线可以提供更高的存取速度之外,Penryn架构还提供了Improved Store Forwarding强化存储转发特性,通过新的64位载入指令,提升了内存之间、核心之间等的存储转发性能。
Bensley平台仍然是主流,Stoakley平台形踪难觅
Intel于06年年初发布的Bensley平台在最近的几年内得到了服务器厂商广泛采用。这个平台包括了三款芯片组它们是Intel 5000P、Intel 5000V和Intel 5000X,其中的前两者主要定位于服务器应用,而后者是定位于工作站应用——当然,也可以应用于服务器。为了支持全系列Xeon 5400处理器,Intel在08年还推出了两个新的芯片组系列产品:Intel 5400芯片组和Intel 5100芯片组。
45nm High-K Xeon 5400 DP处理器与采用了Intel 5000芯片组家族的Bensley服务器平台保持了较好的兼容,除了不能支持1600FSB Xeon 54x2处理器之外,可以很好的支持其它的1333FSB Xeon 5400处理器。这对于服务器厂商来说的确是一件好事,他们可以不必放弃已经经过2年市场考验的成熟系统,直接将现有产品升级到Xeon 5400即可得到一款“新产品”了。这也就是我们为什么现在看到的几乎所有服务器都依然固守在Bensley平台上的主要原因。

Intel 5000P、Intel 5000V这两款芯片组的关系就如同以往的Intel E7520和Intel E7320芯片组的关系,Intel 5000P定位相对较高,Intel 5000V定位略低。Intel 5000P和Intel 5000V芯片组的主要区别在于MCH芯片,它们均可以搭配新的6321ESB芯片(又叫ESB2,Enterprise South Bridge 2)或者6700PXH芯片。

Intel 5000P芯片组功能示意图

Intel 5000V芯片组功能示意图

Intel 5100P芯片组功能示意图

Intel 5400芯片组功能示意图
Intel 5000系列芯片组通过独立的点对点系统总线支持两个处理器,完全不同于之前的芯片组采用的共享总线的方式,这被英特尔称之为双独立总线(DIB)。每条总线运行频率为333MHz(1333MT/s),那么安装了FSB1333处理器的系统的前端总线的总带宽最高可达21.2GB/s。
Intel 5000系列芯片组开始支持FB-DIMM(Fully Buffered DIMM)内存,英特尔计划让这种新型的内存全面取代现有的ECC Register DIMM。Intel 5000P MCH支持36bit寻址能力,总共可支持64GB物理内存。MCH支持4个FB-DIMM内存通道,每个通道最高支持4个Dual-Bank FB-DIMM DDR DIMM。因此在非镜像模式下,MCH最高可支持16 DIMM或者最大64GB物理内存,在镜像模式下最大可以支持32GB物理内存。Intel 5000V MCH则仅支持2个FB-DIMM内存通道,每个通道最高可支持4 DIMMs,总共可支持8 DIMM,那么最高内存容量可达16 GB。而Intel 5100则是采用通常DDR2解决方案的产品,也许是Intel观察到了FBDIMM具有昂贵、发热量较大的缺点。5100芯片组确实是面向比较廉价解决方案的产品,它只支持最多双通道内存,而且采用了源自桌面平台的ICH9R南桥芯片组。
每个安装了DDR667 FB-DIMM内存的FB-DIMM通道的读取带宽为5.33 GB/s,所以4个通道最高可以提供21.2GB/s的内存带宽,这正好同FSB1333 DIB总线的带宽相匹配。在双通道配置的Intel 5000V/5100平台上,这些数字都将减半,总带宽为10.6GB/s。
Intel 5000P MCH和Intel 5000V MCH另外一个重要区别是对于PCI-Express总线的支持,5000P MCH支持3个x8 PCI-Express通道,每通道可以进一步配置为2个x4通道,其中1个x8通道(或者配置为2个x4通道)将用于同ESB2通讯。5000V MCH则仅提供1个x8(或者配置为2个x4通道)将用于同ESB2通讯。
崭新的Stoakley平台由45nm Harpertown处理器和5400芯片组组成
Stoakley平台主要在于新的5400芯片组(应用5400芯片组的产品现在仍然不是很多)。Intel 5400 MCH芯片代号为Seaburg,它依然采用了DIB前端总线,工作模式为1066/1333/1600MT/s,可提供17-25.6GB/s的数据传输带宽——可很好的支持Intel Xeon 54x2处理器。为了保证双路四核系统的效能,Seaburg整合了容量高达24MB的Snoop Filter(探听过滤器)缓存。
在以前的5000X芯片组上,我们就已经看到了Snoop Filter缓存的存在,现在Seaburg将5000X的12MB容量扩展的更大。探听过滤器是位于芯片组中的高速缓存标记结构,它可追踪处理器中的高速缓存的高速缓存线状态——只是包括其标签和状态,不包括数据,过滤不必要的SNOOP侦听操作(Snoop操作就是一个处理器核心不时看看其他处理器核心有没有对自己掌握的huancun页面进行了修改),有助于减少处理器的前端总线发生数据堵塞的情况,帮助多个处理器核心更好的协作,以提升多路处理器系统的工作效率。Snoop Filter的容量要大于或等于每个CPU二级缓存容量之和才能发挥最佳的作用,5400系列处理器的二级缓存从5300系列的8MB增加到12MB,相应的5400芯片组中Snoop Filter也由5000X的16MB增加到24MB(两个处理器)。
Seaburg整合了4通道FB-DIMM 533/667MHz内存控制器,最高可提供21GB/s的内存带宽。当然,我们不排除细分市场的需要,会有双通道版本的Seaburg(虽然现在还没有看到)。Seaburg所整合的内存控制器最高寻址范围为38bit(128GB),是上一代MCH的一倍。
从Intel各代芯片组的变迁来看,除了需要对相应的处理器提供支持所做的必需改进之外,Intel芯片组最大的改变就是内存控制器。从本页最后的表格可以看出,目前Intel 5000、Intel 5100和Intel 5400系列芯片组均可支持Intel Xeon 5100/5200/5300和5400中的大部分处理器。只有Intel 5100系列芯片组支持DDR2,而其余的Intel 5000X/P/V和Intel 5400系列芯片组均支持FBD内存。但是在RASUM相关的功能中,Intel 5000X/P和Intel 5400芯片组是相同的,而Intel 5000V和Intel 5100芯片组是相同的,它们均不支持Memory RAID和 Memory mirroring功能。

如上表所示,除了我们的两台基准服务器之外,本次横向评测活动共有8个厂商的10款主流产品,它们都是基于Intel的Nehalem Xeon处理器,其中有一台是单路配置,其余的均为双路配置(但是有一台在测试的时候)。和两台AMD Opteron服务器。

AMD Opteron 2350
在这10款产品中有两款服务器采用了AMD Opteron 2300处理器——代号为Barcelona的处理器,这是AMD在07年发布的主力产品。曙光A650-FX采用的是2350,DELL PowerEdge R805采用的是2354,它们的区别只是频率不同,2350频率是2.0GHz,2354频率是2.2GHz,此外它们的参数都一样,每个核心有512KB L2缓存,并且共享总容量为2MB的L3缓存。

较高端的X5460处理器,后来Intel还发布了频率更高的X5482处理器
另外的八款产品均采用了Intel 45nm Xeon四核处理器。ASUS RS162-E4(3.16GHz Xeon X5460)和Lenovo R525(3.0GHz Xeon E5450)的频率比较高,它们明显不以省电为目的。排在第三的是Dawning I650-F(2.66GHz Xeon E5430),再后有三台机器采用了2.50GHz的Xeon,只不过DELL PowerEdge 1950 III和五舟5105采用的是通常的E5420,而Inspur NF285E采用的是低电压版本L5420,在其它完全一样的情况下,电压/功耗得到了降低。频率最低的是Aisino 6501R-8和ASUS RS160-E5,采用的是2.33GHz Xeon E5410,这几乎就是频率最低的45nm Xeon了,更低的只有2.0GHz的5405。
所有10款服务器中,AMD平台都采用了NVIDIA nForce Pro 3600(MCP55 Pro)芯片组,Intel平台则都采用了Intel的芯片组,不过型号各不相同,有四款采用了5000P芯片组,占了一半,两款采用了5000V,占25%,剩下的两款一款是5000X,一款是5100。无人采用最新的5400芯片组。
出于部分测试项目的需要,此次横评我们要求厂商为其送测产品配置了较大容量的内存,要求在8GB以上——实际测试的时候,需要的是12GB。在10款产品中,DELL PowerEdge R805和Lenovo万全R525令人瞩目,前者配置了16GB内存,后者配置了24GB内存,巨大容量的内存会在重负荷的科学运算和数据库应用中得到好处。
SAS接已经非常普及,在本次参测的10款产品全部采用了SAS接口硬盘。关于磁盘子系统的详细对比,可以查看本文的第16页。
网络子系统上,在这10款服务器产品中,Aisino 6501R-8、ASUS RS162-E4、Dawning I650-F、Inspur NF285E、Lenovo万全R525、五舟5105共6款产品均采用了Intel的PRO/1000 EB解决方案(巧的是,上一年也是60%的机器采用了这样的方案),对于Intel I/OAT技术提供了完全的支持。剩下的4款产品中,两款AMD平台产品自然不会使用Intel的解决方案,一款用的是nForce Pro 3600主板芯片组自带的MAC功能配合一个Marvell 88E1121 PHY芯片形成双NVIDIA千兆网卡(Dawning A650-FX),另一款用的是比较流行的Broadcom BCM5708解决方案(DELL PowerEdge R805),同样适用5708的还有Intel平台的DELL PowerEdge 1950 III。DELL喜欢使用Broadcom BCM5708网络芯片。最后的一款产品使用的是相对少见的Broadcom BCM5721(ASUS RS160-E5)。可见Intel的解决方案占据了主流,剩下来的几乎就是Broadcom了。
我们综合了SPEC CPU2006、文件服务器性能测试和微软SQL2005性能测试得到了服务器的综合性能表现。

综合性能得分以SPEC CPU2006性能测试、文件服务器性能测试和微软SQL2005性能测试的得分为基础,分别占据40%、20%、40%的分值,并以我们配置了Xeon E5430处理器的平台:DELL PowerEdge 2900 III为基准,基准得分定为100。

华硕RS162-E4机架式服务器
处理器频率最高的ASUS RS162-E4的综合性能取得了第一名的成绩。这款服务器采用的是Xeon X5460处理器(Harpertown核心,主频3.16GHz,2x6MB L2缓存),5000P芯片组和8GB FBD内存,磁盘子系统因为采用了4块15000RPM硬盘做RAID 0也很特出,因此综合性能较高也很容易理解。RS162-E4的SPEC CPU 2006性能和SQL2005性能都是最强的,不过由于是SAS控制卡做的HostRAID,并非是纯的“硬”RAID,因此RS162-E4的文件服务器性能并不是最强。

DELL PowerEdge 1950 III服务器
稍后的是DELL PowerEdge 1950 III,虽然处理器频率不高(Xeon E5420,2.50GHz),不过它具有两个优点:首先是采用了5000X芯片组,具有16MB Snoop Filter缓存,可以提升处理器的协作效率,其次是采用了硬件RAID 0模式(使用PERC 6/i IR和两个15000RPM硬盘),磁盘性能比较好,因此在综合性能也很出色(主要是文件服务器性能很不错,缺点是RAID 0的可靠性稍有不足)。

联想万全R525服务器
在90分附近的还有Lenovo万全R525和Dawning I650-F,万全R525的配置非常高:3.0GHz Xeon E5450,16GB FBD内存和LSI Logic MegaRAID SAS 8708ELP控制器,以及12个2.5英寸SAS磁盘,不过在测试中只使用了4个的缘故,因此有些影响到了其文件服务器性能(10000RPM 2.5英寸SAS盘的单盘性能也有些不足),请相信,满配置的R525将是非常强劲的机器。Dawning I650-F采用了2.66GHz Xeon E5430,也采用了LSI Logic MegaRAID SAS 8708ELP控制器,不过使用的是三个15000RPM 3.5英寸SAS硬盘RAID 5的方式,因此文件服务器性能要好一些,整体也能取得较好的成绩。

曙光I650-F服务器