在《全模块化设计 戴尔R810评测之结构篇》一文中,我们对戴尔的这款2U四路服务器的结构设计进行了解析。基于英特尔Nehalem-EX处理器平台的戴尔R810传承了PowerEdge系列一贯的模块化、免工具、易拆装的特性,并以2U的空间容纳了四路服务器的性能和可扩展性,将计算密度提升到一个新的高度。
戴尔PowerEdge R810
在性能上,能够配置四颗英特尔至强7500、并具有32根内存插槽的戴尔R810,让我们毫不怀疑它的性能。比如这台送测的R810,虽然没有满配堪称“史上最强x86处理器”的至强7500,即使是配置了两颗至强E6540,同样可以提供澎湃的动力,在严苛的测试中游刃有余。
性能并不是服务器所追求的全部,否则戴尔PowerEdge服务器也不会花费如此多的精力在产品的易用性设计上。如模块化、免工具设计是为了降低服务器维护、拆装的难度,而戴尔R810所配置的iDRAC管理模块、生命周期管理器等管理工具让服务器的部署、管理和监控也更加的便捷。
iDRAC是戴尔PowerEdge服务器的远程管理模块,它所能提供的不仅仅是对服务器电源级别的操作、以及各个部件健康状况的实时监控,并且可以实现控制台重定向,这种“远程屏幕”的功能将管理员从机房中解放,是非常值得称道的一个功能。
“生命周期管理器”是在戴尔第11代PowerEdge服务器中引入的一个新的管理功能。不同于需要外接的iDRAC管理卡,生命周期管理器是一个嵌入式的管理功能,就像BIOS。其中提供了RAID卡配置、网卡配置、iDRAC卡配置、OS部署、硬件诊断等非常实用的功能,这让服务器的部署过程大大简化。
下面,我们就来具体看看戴尔R810的性能表现,以及丰富实用的管理功能。
第2页:服务器规格
二、服务器规格
首先来看一下这台戴尔PowerEdge R810的配置规格:
戴尔PowerEdge R810规格 |
外形/高度 |
机架式/2U |
处理器 |
Intel Xeon E6540 2.0GHz |
处理器数量 |
2 |
芯片组 |
Intel 7500 |
内存/最大 |
128GB/最高512GB DDR3-1066/1333 |
内存插槽 |
32个DIMM插槽 |
扩展插槽 |
5个x8插槽 一个x4插槽(配有x8接头) 一个存储x4插槽(配有x8接头) |
硬盘/托架 |
4*146GB SAS/6个2.5寸热插拔SAS/SATA驱动器托架 |
网络适配器 |
四个嵌入式Broadcom NetXtreme II 5709c千兆以太网卡 |
电源 |
2个冗余1100瓦热插拔电源 |
RAID支持 |
可选PERC H700 SAS RAID控制器 |
嵌入式虚拟机管理程序 |
未附带 |
操作系统 |
Microsoft Windows Server 2008 R2 DateCenter |
保修 |
三年金牌服务 |
这台戴尔R810的配置堪称豪华,配置了两颗Nehalem-EX至强E6540,主频2.0GHz,具备6个核心,具有两条6.4GT/s的QPI总线,集成18MB L3缓存,支持超线程和Turbo-Boost技术,最高Turbo频率2.26GHz,TDP为105W。
CPU-Z检测结果
内存方面这台戴尔R810配置了32根4GB ECC DDR3内存,共128GB,戴尔R810具有32个内存插槽,最大支持512GB DDR3内存。至强6500处理器只有两条QPI总线,只支持双路配置,因此并不能控制主板上所有的内存插槽,戴尔为此引入了独特的Flexmem内存桥接技术,使得戴尔R810安装两颗处理器时候可以利用主板上的所有内存插槽。
存储系统上配置了戴尔PERC H700 SAS RAID控制器,含512MB缓存,支持RAID 0/1/10/5/6阵列模式。硬盘配置了四块15000转的146GB SAS硬盘,我们将四块硬盘组建成RAID 5阵列模式。
第3页:CPU性能测试(1)
三、性能测试
1、CPU性能测试
CPU性能测试采用了CineBench R10、CineBench R11.5、SiSoftware Sandra Pro Business 2010。
CineBench是一款以处理器的运算能力直接进行特定分辨率CG图片的渲染测试软件,可以测试多核心处理器效能以及多处理器协调性能的表现。我们通过CineBench主要测试的是处理器在进行多任务处理时候的性能表现,以及多核处理器在多任务处理时候的优势能有多大。R11.5是新发布的版本,采用了全新评分机制,并对新架构CPU进行优化,测试结果更加准确。
CineBench R10(左)和R11.5所渲染的CG图片
我们采用CineBench R10和CineBench R11.5,渲染特定分辨率的CG图片来测试处理器的运算能力,在单个核心情况和两颗处理器共12个核心、24个线程并发的情况下分别进行渲染测试,这样可以对比出多核处理与单核处理情况下性能的提升,并可以测试多处理器之间的协调能力,从而测试服务器的平台性能。
处理器渲染测试 |
CineBench R10 |
CineBench R11.5 |
单核心 |
多核心(12核24线程) |
多核速度提升 |
单核心 |
多核心(12核24线程) |
多核速度提升 |
3247/4分32秒 |
22780/38秒 |
7.02x |
0.79pts |
10.18pts |
12.92x |
CineBench R10测试结果我们需要关注三个数据,渲染得分、渲染时间和多核性能提升。分数越高越好,时间越短越好,多核性能提升越高越好。为了更加形象,我们用之前的测试数据进行对比(如下图),可以看到,虽然E6540主频只有2.0GHz,但是由于多出了两个核心,缓存大大提升,渲染得分要超过主频高的多的两颗X5570。
CineBench R10对比
CineBench R11.5的结果不能和R10纵向对比,但是从多核速度提升来看,R11.5多核速度提升12.92倍,这个结果要比R10更加接近实际一些,显示出R11.5的结果更加准确。
第4页:CPU性能测试(2)
SiSoftware Sandra Pro Business 2010是一款Windows系统上的分析软件,可以查看系统的软硬件信息,并可以对处理器、内存、网络、磁盘等子系统进行测试,如处理器数学计算、多媒体计算、多核计算等,内存带宽、延迟、缓存性能等。2010版本对Windows Server 2008 R2进行了优化,最高可以支持32/64路平台。
我们首先利用SiSoftware Sandra来测试戴尔R810的算术性能、多媒体性能、多核效率和加密解密性能:
SiSoftware Sandra Pro Business 2010 CPU测试 |
算术性能测试 (越高越好) |
Aggregate Arithmetic Performance |
150.37GOPS |
Dhrystone iSSE4.2 |
173.46GIPS |
Whetstone iSSE3 |
127.27GFLOPS |
多媒体性能测试(越高越好) |
Aggregate Multi-Media Performance |
286.8MPixel/s |
Multi-Media Int x16 iSSE4.1 |
329.37MPixel/s |
Multi-Media Float x8 iSSE2 |
244.23MPixel/s |
Multi-Media Double x4 iSSE2 |
132.79MPixel/s |
多核效率测试 |
Inter-Core Bandwidth |
102.52GB/s |
Inter-Core Latency(越低越好) |
23ns |
加密解密性能测试 |
Cryptographic Bandwidth |
1.51GB/s |
AES128-ECB iAES Cryptographic Bandwidth |
1.46GB/s |
SHA256 iSSE4 Hashing Bandwidth |
1.56GB/s |
算术性能、多媒体、加密解密这三个子项主要还是和CPU的主频、核心数量等因素有关,所以即使E6540具有6个核心,但是不高的主频使其在这三个测试中并没有表现突出。不过在多核效率测试中双路E6540还是表现不错,高带宽、低延迟,体现出了Nehalem-EX架构上的先天优势。
第5页:内存性能测试
2、内存性能测试
SiSoftware Sandra Pro Business 2010中提供了内存带宽、内存延迟和缓存性能的测试,我们继续用这个工具来考量戴尔R810的内存性能:
SiSoftware Sandra Pro Business 2010内存测试 |
内存带宽测试(越高越好) |
Aggregate Memory Performance |
33GB/s |
Int Buff'd iSSE2 Memory Bandwidth |
33GB/s |
Float Buff'd iSSE2 Memory Bandwidth |
33GB/s |
内存延时测试(随机) |
Memory(Random Access) Latency(越低越好) |
177ns |
Speed Factor(越低越好) |
90.90 |
Internal Data Cache |
4clocks |
L2 On-board Cache |
10clocks |
L3 On-board Cache |
107clocks |
内存延时测试(线性) |
Memory(Linear Access) Latency(越低越好) |
32ns |
Speed Factor(越低越好) |
16.20 |
Internal Data Cache |
4clocks |
L2 On-board Cache |
10clocks |
L3 On-board Cache |
30clocks |
缓存及内存测试 |
Cache/Memory Bandwidth(越高越好) |
172.7GB/s |
Speed Factor(越低越好) |
17.40 |
Internal Data Cache |
450.8GB/s |
L2 On-board Cache |
377.35GB/s |
L3 On-board Cache |
211.5GB/s |
前文提到过,戴尔R810引入了FlexMem Bridge内存桥接技术,解决了应用两颗处理器时内存不能充分利用的问题。因为R810配置了32根内存插槽,每颗处理器只能控制和它直连的8根内存,如果仅配置两颗处理器,则只能利用直连的16个插槽,如果用户对内存有特殊需求,则只能眼看资源浪费而无法利用。
戴尔R810 CPU与内存对应图示
而通过FlexMem Bridge桥接芯片,CPU可以间接的控制非直连的内存插槽,可以充分的利用服务器的所有内存资源。如果用户希望利用所有的内存,选择桥接芯片无疑比选择处理器要廉价的多。
FlexMem Bridge内存桥接技术示意图
至强6500和7500一样,集成2个内存控制器,每个控制器具有两个内存通道。通过桥接芯片,配合满配置的32根DDR3-1333内存,两颗至强E6540利用上了所有的内存控制器,在内存带宽测试中取得了优秀的成绩。这还要归功于先进的Nehalem架构,令内存带宽得以显著提升。
第6页:.NET测试及能耗测试
3、.NET测试及能耗测试
SiSoftware Sandra Pro Business 2010中还提供了处理器面向.NET操作的测试,随着Vista/Server 2008系统的发布,移植到.NET的软件越来越多,.NET性能也随之变得越来越重要。.NET测试类似于处理器性能测试,包括算术性能测试和多媒体性能测试:
SiSoftware Sandra Pro Business 2010 .NET测试 |
.NET算术性能测试 |
Aggregate .NET Performance |
59.2GOPS |
Dhrystone .NET |
33.24GIPS |
Whetstone .NET |
85.17GFLOPS |
.NET多媒体性能测试 |
Aggregate .NET Multi-Media Performance |
45.42MPixel/s |
Multi-Media Int x1 .NET |
64MPixel/s |
Multi-Media Float x1 .NET |
26.75MPixel/s |
Multi-Media Double x1 .NET |
50.2MPixel/s |
4、能耗测试
戴尔PowerEdge R810提供了实时功耗的监控功能,通过前面板的液晶交互式面板可以看到服务器的实时功耗,也可以通过iDRAC卡进行监控。通过液晶面板的显示,我们监控了三个状态的服务器功耗:0% CPU使用率、50% CPU使用率、100% CPU使用率。
0% CPU使用率 |
50% CPU使用率 |
100% CPU使用率 |
334W |
540W |
594W |
采用CPU使用率来进行能耗的测试未免有些片面,因为当CPU满载的时候,其他部件如内存、硬盘、网络模块等未必处于满负荷状态,故而实际的服务器峰值功耗可能要比测试数据更高一些。所以这个测试结果仅供参考。