Performance Report PRIMERGY RX300 S7

Transcrição

WHITE PAPER  PERFORMANCE REPORT PRIMERGY RX300 S7
WHITE PAPER
FUJITSU PRIMERGY SERVER
PERFORMANCE REPORT PRIMERGY RX300 S7
In diesem Dokument sind alle Benchmarks, die für die PRIMERGY RX300 S7
durchgeführt wurden, zusammengefasst.
Ferner werden die Leistungsdaten der PRIMERGY RX300 S7 mit denen anderer
PRIMERGY Modelle verglichen und diskutiert. Neben den Benchmark-Ergebnissen als
solchen wird jeder Benchmark und die Umgebung, in der der Benchmark durchgeführt
wurde, kurz erläutert.
Version
1.3
2012-10-09
© Fujitsu Technology Solutions 2012
Seite 1 (59)
VERSION: 1.3  2012-10-09
Inhalt
Dokumenthistorie ................................................................................................................................................ 3
Technische Daten ............................................................................................................................................... 4
SPECcpu2006 .................................................................................................................................................... 7
SPECjbb2005 ................................................................................................................................................... 14
SPECpower_ssj2008 ........................................................................................................................................ 16
Disk-I/O ............................................................................................................................................................. 23
SAP SD............................................................................................................................................................. 30
OLTP-2 ............................................................................................................................................................. 32
TPC-E mit TPC-Energy .................................................................................................................................... 36
vServCon .......................................................................................................................................................... 42
VMmark V2 ....................................................................................................................................................... 49
STREAM ........................................................................................................................................................... 53
LINPACK .......................................................................................................................................................... 55
Literatur............................................................................................................................................................. 58
Kontakt.............................................................................................................................................................. 59
Seite 2 (59)
VERSION: 1.3  2012-10-09
Dokumenthistorie
Version 1.0
Neu:









Technische Daten
SPECcpu2006
Messungen mit Xeon-Prozessoren der Serie E5-2600
SPECjbb2005
Messung mit Xeon E5-2690
SPECpower_ssj2008
Messung mit Oracle Java HotSpot VM
SAP SD
Zertifikationsnummer 2012008
OLTP-2
Ergebnisse für Xeon Prozessoren der Serie E5-2600
vServCon
Ergebnisse für Xeon Prozessoren der Serie E5-2600
STREAM
LINPACK
Version 1.1
Neu:

VMmark V2
Version 1.2
Neu:

TPC-E mit TPC-Energy
Version 1.3
Neu:

Disk I/O
Messungen mit „LSI SW RAID on Intel C600 (Onboard SATA)―, „LSI SW RAID on Intel C600
(Onboard SAS)―, „RAID Ctrl SAS 6G 0/1―, „RAID Ctrl SAS 5/6 512MB (D2616)― und „RAID Ctrl SAS
6G 5/6 1GB (D3116)― Controllern
Aktualisiert:

SPECpower_ssj2008
Messung mit IBM J9 VM
Seite 3 (59)
VERSION: 1.3  2012-10-09
Technische Daten
PRIMERGY RX300 S7
Basiseinheit mit
6 3.5" HDDs (nicht erweiterbar)
PRIMERGY RX300 S7
Basiseinheit mit
2.5"-HDD-Schächten (erweiterbar)
In diesem White Paper werden bei Maßeinheiten Dezimalpräfixe nach SI-Standard verwendet (z.B. 1 GB =
9
10 Byte). Abweichend hiervon sind bei Kapazitäten von Caches und Speichermodulen diese Präfixe als
30
Binärpräfixe (z.B. 1 GB = 2 Byte) zu interpretieren. Im Falle weiterer Ausnahmen wird an entsprechender
Stelle gesondert darauf hingewiesen.
Modell
PRIMERGY RX300 S7
Modellvarianten
Basiseinheit mit 6 3.5"-HDD-Schächten (nicht erweiterbar)
Basiseinheit mit 2.5"-HDD-Schächten (erweiterbar)
Formfaktor
Rack Server
Chipsatz
Intel C600 Serie
Anzahl Sockel
2
Anzahl bestellbarer Prozessoren
1 oder 2
Prozessortyp
Intel Xeon Serie E5-2600
Anzahl Speichersteckplätze
24 (12 pro Prozessor)
Maximaler Speicherausbau
768 GB
Onboard LAN-Controller
2 × 1 Gbit/s
Onboard HDD-Controller
Controller mit RAID 0, RAID 1 oder RAID 10 für bis zu 4 × 2.5" SATA HDDs
Optional für Basiseinheit mit 2.5"-HDD-Schächten (erweiterbar):
„SAS Enabling Key for Onboard Ports― für bis zu 4 × 2.5" SAS HDDs
PCI-Steckplätze
5  PCI-Express 3.0 x8
2  PCI-Express 3.0 x16
Max. Anzahl interner Festplatten
Basiseinheit mit 3.5"-HDD-Schächten: 6
Basiseinheit mit 2.5"-HDD-Schächten (erweiterbar): 16
Seite 4 (59)
VERSION: 1.3  2012-10-09
Cores
Prozessor
Threads
Prozessoren (seit System-Release)
Cache
QPISpeed
Prozessorfrequenz
Max.
Turbofrequenz
Max.
Speicherfrequenz
TDP
[Ghz]
Max.
Turbofrequenz
bei Volllast
[Ghz]
[MB]
[GT/s]
[Ghz]
[MHz]
[Watt]
Xeon E5-2637
2
4
5
8.00
3.00
3.50
3.50
1600
80
Xeon E5-2603
4
4
10
6.40
1.80
entf.
entf.
1066
80
Xeon E5-2609
4
4
10
6.40
2.40
entf.
entf.
1066
80
Xeon E5-2643
4
8
10
8.00
3.30
3.40
3.50
1600
130
Xeon E5-2630L
6
12
15
7.20
2.00
2.30
2.50
1333
60
Xeon E5-2620
6
12
15
7.20
2.00
2.30
2.50
1333
95
Xeon E5-2630
6
12
15
7.20
2.30
2.60
2.80
1333
95
Xeon E5-2640
6
12
15
7.20
2.50
2.80
3.00
1333
95
Xeon E5-2667
6
12
15
8.00
2.90
3.20
3.50
1600
130
Xeon E5-2650L
8
16
20
8.00
1.80
2.00
2.30
1600
70
Xeon E5-2650
8
16
20
8.00
2.00
2.40
2.80
1600
95
Xeon E5-2660
8
16
20
8.00
2.20
2.70
3.00
1600
95
Xeon E5-2665
8
16
20
8.00
2.40
2.80
3.10
1600
115
Xeon E5-2670
8
16
20
8.00
2.60
3.00
3.30
1600
115
Xeon E5-2680
8
16
20
8.00
2.70
3.10
3.50
1600
130
Xeon E5-2690
8
16
20
8.00
2.90
3.30
3.80
1600
135
8
1600


4GB (1x4GB) 2Rx8 L DDR3-1600 U ECC
(4 GB 2Rx8 PC3L-12800E)
4
2
8
1600


4GB (1x4GB) 1Rx4 L DDR3-1333 R ECC
(4 GB 1Rx4 PC3L-10600R)
4
1
4
1333



(4 GB 1Rx4 PC3L-12800R)
4
1
4
1600



(4 GB 2Rx8 PC3L-12800R)
4
2
8
1600



(8 GB 2Rx4 PC3L-10600R)
8
2
4
1333



(8 GB 2Rx4 PC3L-12800R)
8
2
4
1600



16GB (1x16GB) 4Rx4 L DDR3-1333 LR ECC
(16 GB 4Rx4 PC3L-10600L)
16
4
4
1333



(16 GB 2Rx4 PC3L-12800R)
16
2
4
1600



32GB (1x32GB) 4Rx4 L DDR3-1333 LR ECC
(32 GB 4Rx4 PC3L-10600L)
32
4
4
1333





ECC
Low voltage
1
Registered
Frequenz [MHz]
2
Load reduced
Ranks
2GB (1x2GB) 1Rx8 L DDR3-1600 U ECC
(2 GB 1Rx8 PC3L-12800E)
Speichermodul
Bitbreite der
Speicherchips
Kapazität [GB]
Speichermodule (seit System-Release)
Seite 5 (59)
Netzteile (seit System-Release)
VERSION: 1.3  2012-10-09
max. Anzahl
Power supply 450W (hot-plug)
2
Power supply 800W (hot-plug)
2
Einige Komponenten sind möglicherweise nicht in allen Ländern/Vertriebsregionen verfügbar.
Detaillierte technische Informationen finden Sie im Datenblatt PRIMERGY RX300 S7.
Seite 6 (59)
VERSION: 1.3  2012-10-09
SPECcpu2006
Benchmark-Beschreibung
SPECcpu2006 ist ein Benchmark, der die Systemeffizienz bei Integer- und Fließkomma-Operationen misst.
Er besteht aus einer Integer-Testsuite (SPECint2006), die 12 Applikationen enthält, und einer FließkommaTestsuite (SPECfp2006), die 17 Applikationen enthält. Beide Testsuiten sind extrem rechenintensiv und
konzentrieren sich auf die CPU und den Speicher. Andere Komponenten, wie Disk-I/O und Netzwerk,
werden von diesem Benchmark nicht vermessen.
SPECcpu2006 ist nicht an ein spezielles Betriebssystem gebunden. Der Benchmark ist als Source-Code
verfügbar und wird vor der eigentlichen Messung kompiliert. Daher beeinflussen auch die verwendete
Compiler-Version und deren Optimierungseinstellungen das Messergebnis.
SPECcpu2006 beinhaltet zwei verschiedene Methoden der Performance-Messung: Die erste Methode
(SPECint2006 bzw. SPECfp2006) ermittelt die Zeit, die für die Bearbeitung einer einzelnen Aufgabe benötigt
wird. Die zweite Methode (SPECint_rate2006 bzw. SPECfp_rate2006) ermittelt den Durchsatz, d.h. wie viele
Aufgaben parallel erledigt werden können. Beide Methoden werden zusätzlich noch in zwei Messläufe
unterteilt, „base― und „peak―, die sich in der Verwendung der Compiler-Optimierung unterscheiden. Bei der
Publikation von Ergebnissen werden immer „base―-Werte verwendet, „peak―-Werte sind optional.
Benchmark
Arithmetik
Typ
CompilerOptimierung
SPECint2006
Integer
peak
aggressiv
SPECint_base2006
Integer
base
konservativ
SPECint_rate2006
Integer
peak
aggressiv
SPECint_rate_base2006
Integer
base
konservativ
SPECfp2006
Fließkomma
peak
aggressiv
SPECfp_base2006
Fließkomma
base
konservativ
SPECfp_rate2006
Fließkomma
peak
aggressiv
SPECfp_rate_base2006
Fließkomma
base
konservativ
Messergebnis
Anwendung
Geschwindigkeit
Singlethreaded
Durchsatz
Multithreaded
Geschwindigkeit
Singlethreaded
Durchsatz
Multithreaded
Bei den Messergebnissen handelt es sich um das geometrische Mittel aus normalisierten Verhältniswerten,
die für die Einzel-Benchmarks ermittelt wurden. Das geometrische Mittel führt gegenüber dem
arithmetischen Mittel dazu, dass bei unterschiedlich hohen Einzelergebnissen eine Gewichtung zugunsten
der niedrigeren Einzelergebnisse erfolgt. Normalisiert heißt, dass gemessen wird, wie schnell das
Testsystem verglichen mit einem Referenzsystem ist. Der Wert „1― wurde für die SPECint_base2006-,
SPECint_rate_base2006,
SPECfp_base2006
und
SPECfp_rate_base2006-Ergebnisse
des
Referenzsystems festgelegt. So bedeutet beispielsweise ein SPECint_base2006-Wert von 2, dass das
Messsystem diesen Benchmark etwa doppelt so schnell wie das Referenzsystem bewältigt hat. Ein
SPECfp_rate_base2006-Wert von 4 bedeutet, dass das Messsystem diesen Benchmark etwa 4/[# base
copies] mal so schnell wie das Referenzsystem bewältigt hat. „# base copies― gibt hierbei an, wie viele
parallele Instanzen des Benchmarks ausgeführt worden sind.
Nicht alle SPECcpu2006-Messungen werden von uns zur Veröffentlichung bei SPEC eingereicht. Daher
erscheinen auch nicht alle Ergebnisse auf den Web-Seiten von SPEC. Da wir für alle Messungen die
Protokolldateien archivieren, können wir jederzeit den Nachweis für die korrekte Durchführung der
Messungen erbringen.
Seite 7 (59)
VERSION: 1.3  2012-10-09
Benchmark-Umgebung
System Under Test (SUT)
Hardware
Modell
PRIMERGY RX300 S7
Prozessor
Xeon E5-2600 Prozessorserie
Speicher
1 Prozessor:
8 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC
2 Prozessoren: 16 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC
Netzteil
2 × Power supply 450W (hot-plug)
Software
BIOS-Einstellungen
SPECint_base2006, SPECint2006, SPECfp_base2006, SPECfp2006:
Alle Prozessoren außer Xeon E5-2603, E5-2609: Hyper-Threading = Disabled
Betriebssystem
Red Hat Enterprise Linux Server release 6.2
Betriebssystemeinstellungen
echo always > /sys/kernel/mm/redhat_transparent_hugepage/enabled
Compiler
Intel C++/Fortran Compiler 12.1
Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar.
Seite 8 (59)
VERSION: 1.3  2012-10-09
Benchmark-Ergebnisse
1 96.7
101
2
187
196
Xeon E5-2603
2 26.6
27.8
1 86.1
89.6
2
168
175
Xeon E5-2609
2 34.6
36.3
1
111
116
2
217
226
Xeon E5-2643
2 49.3
52.0
1
185
194
2
361
378
Xeon E5-2630L
2 36.8
39.1
1
193
201
2
377
394
Xeon E5-2620
2 37.0
39.3
1
193
202
2
376
393
Xeon E5-2630
2 41.2
43.8
1
213
223
2
417
436
Xeon E5-2640
2 43.8
46.6
1
227
237
2
444
463
Xeon E5-2667
2 50.8
54.2
1
258
269
2
504
526
Xeon E5-2650L
2 35.2
37.7
1
225
236
2
441
461
Xeon E5-2650
2 42.1
45.4
1
265
276
2
517
540
Xeon E5-2660
2 45.2
48.3
1
291
302
2
568
593
Xeon E5-2665
2 47.0
50.3
1
300
313
2
587
613
Xeon E5-2670
2 49.4
52.7
1
317
330
2
618
644
Xeon E5-2680
2 52.2
56.0
1
326
339
2
638
664
Xeon E5-2690
2 56.3
60.5
1
339
354
2
669
697
SPECint2006
SPECint_rate2006
47.5
Anzahl Prozessoren
2 45.1
SPECint_rate2006
Xeon E5-2637
SPECint_base2006
Prozessor
Anzahl Prozessoren
Anzahl Prozessoren
Das Benchmark-Ergebnis hängt prozessorseitig in erster Linie von der Größe des Prozessor-Caches, der
Unterstützung von Hyper-Threading, der Anzahl Prozessorkerne und der Prozessorfrequenz ab. Bei
Prozessoren mit Turbomodus bestimmt die Anzahl Cores, die durch den Benchmark belastet werden, die
maximal erreichbare Prozessorfrequenz. Bei den „singlethreaded― Benchmarks, die überwiegend nur einen
Core belasten, ist die maximal erreichbare Prozessorfrequenz höher als bei den „multithreaded― Benchmarks
(siehe hierzu Prozessortabelle im Kapitel „Technische Daten―).
Seite 9 (59)
1 89.5
92.4
2
175
181
Xeon E5-2603
2 45.2
47.2
1 91.1
93.9
2
179
184
Xeon E5-2609
2 56.7
59.1
1
111
114
2
219
225
Xeon E5-2643
2 78.4
82.0
1
165
170
2
327
336
Xeon E5-2630L
2 61.6
64.9
1
166
170
2
328
336
Xeon E5-2620
2 61.6
64.9
1
166
170
2
329
337
Xeon E5-2630
2 67.8
71.0
1
178
183
2
352
361
Xeon E5-2640
2 70.9
74.6
1
185
190
2
367
376
Xeon E5-2667
2 81.0
85.4
1
211
217
2
418
429
Xeon E5-2650L
2 59.8
63.1
1
191
196
2
377
386
Xeon E5-2650
2 66.9
71.0
1
212
218
2
421
432
Xeon E5-2660
2 73.4
77.6
1
225
231
2
446
459
Xeon E5-2665
2 75.3
79.7
1
230
237
2
456
469
Xeon E5-2670
2 76.8
81.1
1
237
245
2
469
484
Xeon E5-2680
2 81.7
86.5
1
242
249
2
479
493
Xeon E5-2690
2 86.8
91.5
1
248
256
2
495
509
SPECfp_rate2006
Anzahl Prozessoren
67.9
SPECfp_rate2006
2 65.9
SPECfp2006
Anzahl Prozessoren
Xeon E5-2637
SPECfp_base2006
Prozessor
Anzahl Prozessoren
VERSION: 1.3  2012-10-09
Am 6. März 2012 belegte die PRIMERGY RX300 S7 mit zwei Prozessoren Xeon E5-2690 den
ersten Platz in der Kategorie der 2-Socket Systeme bei dem Benchmark SPECint_base2006.
ersten Platz in der Kategorie der Intel-basierten 2-Socket Systeme bei dem Benchmark
SPECfp_rate_base2006.
ersten Platz in der Kategorie der 2-Socket Systeme bei dem Benchmark
SPECint_rate_base2006.
ersten Platz in der Kategorie der 2-Socket Systeme bei dem Benchmark SPECint_rate2006.
ersten Platz in der Kategorie der Intel-basierten 2-Socket Systeme bei dem Benchmark
SPECfp_rate2006.
Die aktuellen Ergebnisse sind zu finden unter http://www.spec.org/cpu2006/results.
Seite 10 (59)
VERSION: 1.3  2012-10-09
Die folgenden vier Grafiken verdeutlichen den Durchsatz der PRIMERGY RX300 S7 im Vergleich zu ihrem
Vorgänger, der PRIMERGY RX300 S6, in jeweils performantester Ausstattung.
SPECcpu2006: Integer-Performance
PRIMERGY RX300 S7 vs. PRIMERGY RX300 S6
60.5
47.9
70
56.3
60
45.3
50
40
30
SPECint2006
20
10
SPECint_base2006
0
PRIMERGY RX300 S6 PRIMERGY RX300 S7
2 x Xeon X5687
2 x Xeon E5-2690
697
669
700
416
600
500
389
400
300
SPECint_rate2006
200
100
0
2 x Xeon X5690
2 x Xeon E5-2690
Seite 11 (59)
VERSION: 1.3  2012-10-09
SPECcpu2006: Floating-Point-Performance
91.5
65.7
100
86.8
90
80
62.0
70
60
50
40
SPECfp2006
30
20
SPECfp_base2006
10
0
2 x Xeon X5687
2 x Xeon E5-2690
509
600
495
273
500
400
266
300
SPECfp_rate2006
200
100
0
2 x Xeon X5690
2 x Xeon E5-2690
Seite 12 (59)
VERSION: 1.3  2012-10-09
Die beiden folgenden Grafiken geben wieder, wie die Performance der PRIMERGY RX300 S7 bei
Verwendung des Xeon E5-2690 von einem auf zwei Prozessoren skaliert.
PRIMERGY RX300 S7 (2 Sockets vs. 1 Socket)
697
669
700
600
354
500
400
339
300
SPECint_rate2006
200
100
0
1 x Xeon E5-2690
2 x Xeon E5-2690
PRIMERGY RX300 S7 (2 Sockets vs. 1 Socket)
509
600
495
500
256
400
300
248
SPECfp_rate2006
200
100
0
1 x Xeon E5-2690
2 x Xeon E5-2690
Seite 13 (59)
VERSION: 1.3  2012-10-09
SPECjbb2005
SPECjbb2005 ist ein Java Business Benchmark, dessen Fokus auf der Leistung von Java Server Plattformen liegt. Im Wesentlichen ist SPECjbb2005 ein modernisierter SPECjbb2000. Die Hauptunterschiede sind:



Die Transaktionen sind komplexer geworden, um einen größeren Bereich an Funktionalität abzudecken.
Der Working Set des Benchmarks ist vergrößert worden, so dass die Systemlast insgesamt gestiegen ist.
SPECjbb2000 erlaubt nur eine aktive Java Virtual Machine Instanz (JVM), während SPECjbb2005
mehrere Instanzen zulässt, was eine größere Realitätsnähe insbesondere bei großen Systemen bewirkt.
Softwareseitig misst SPECjbb2005 in erster Linie die Leistungsfähigkeit der eingesetzten JVM mit ihrem
Just-In-Time Compiler sowie ihrer Thread und Garbage Collection Implementierung. Eine weitere Rolle
spielen einige Aspekte des eingesetzten Betriebssystems. Hardwareseitig wird die Effizienz der CPUs und
Caches, des Speichersubsystems und die Skalierbarkeit von Shared Memory Systemen (SMP) gemessen.
Disk- und Netzwerk-I/O spielen keine Rolle.
SPECjbb2005 emuliert ein für moderne Geschäftsprozess-Applikationen typisches Three-Tier Client/Server
System mit Augenmerk auf das Middle-Tier System:



Clients erzeugen die Last, bestehend aus Driver Threads, die angelehnt an den TPC-C Benchmark
OLTP Zugriffe auf eine Datenbank ohne Denkzeiten generieren.
Das Middle-Tier System implementiert die Geschäftsprozesse und Aktualisierung der Datenbank.
Die Datenbank übernimmt die Datenverwaltung und wird emuliert durch Java-Objekte, die im Memory liegen. Transaktions-Logging ist implementiert auf XML Basis.
Der große Vorteil dieses Benchmarks ist, dass er alle drei Tiers beinhaltet, die gemeinsam auf einem SingleHost laufen. Gemessen wird die Performance des Middle-Tier. So werden große Hardware-Installationen
vermieden und direkte Vergleiche von SPECjbb2005-Ergebnissen unterschiedlicher Systeme sind möglich.
Client- und Datenbank-Emulation sind ebenfalls in Java geschrieben.
SPECjbb2005 benötigt nur das Betriebssystem sowie eine Java Virtual Machine mit J2SE 5.0 Eigenschaften.
Die Skalierungseinheit ist ein Warenhaus mit ca. 25 MB Java Objekten. Genau ein Java-Thread pro Warenhaus führt die Operationen auf diesen Objekten aus. Die Geschäftsoperationen sind von TPC-C übernommen:






New Order Entry
Payment
Order Status Inquiry
Delivery
Stock Level Supervision
Customer Report
Das sind aber auch die einzigen Gemeinsamkeiten von SPECjbb2005 und TPC-C. Die Ergebnisse beider
Benchmarks sind nicht vergleichbar.
SPECjbb2005 besitzt 2 Performance-Metriken:


bops (business operations per second) ist die Gesamtrate aller Geschäftsoperationen, die pro Sekunde durchgeführt werden.
bops/JVM ist der Quotient der ersten Metrik und der Anzahl der aktiven JVM Instanzen.
In Vergleichen verschiedener SPECjbb2005-Ergebnisse müssen beide Metriken angegeben werden.
Grundlage für diese Metriken sind die folgenden Regeln, nach denen ein konformer Benchmark-Lauf durchgeführt werden muss:
Ein konformer Benchmarklauf besteht aus einer Sequenz von Messpunkten mit wachsender Anzahl von
Warenhäusern (und damit von Threads), wobei die Anzahl jeweils um ein Warenhaus erhöht wird. Gestartet
wird mit einem Warenhaus bis zu 2*MaxWh, mindestens aber 8 Warenhäusern. MaxWh ist die Anzahl Warenhäuser, bei der der Benchmark die höchste Operationsrate pro Sekunde erwartet. Standardmäßig setzt
der Benchmark MaxWh mit der Anzahl vom Betriebssystem erkannter CPUs gleich.
Seite 14 (59)
VERSION: 1.3  2012-10-09
Die Metrik bops ist das arithmetische Mittel aller gemessenen Operations-Raten mit MaxWh Warenhäusern
bis 2*MaxWh Warenhäusern.
Benchmark-Umgebung
Hardware
Modell
PRIMERGY RX300 S7
Netzteil
Prozessor
2 × Xeon E5-2690
Speicher
Software
BIOS-Einstellungen
Hardware Prefetch = Disable
Adjacent Sector Prefetch = Disable
DCU Streamer Prefetch = Disable
SAS/SATA OpROM = LSI MegaRAID
Betriebssystem
Microsoft Windows Server 2008 R2 Enterprise SP1
Using the local security settings console, ―lock pages in memory‖ was enabled for the user
running the benchmark.‖
JVM
Oracle Java HotSpot(TM) 64-Bit Server VM on Windows, version 1.6.0_31
JVM-Einstellungen
start /HIGH /AFFINITY [0xFFFF,0xFFFF0000] /B java -server -Xmx29g -Xms29g -Xmn24g XX:BiasedLockingStartupDelay=200 -XX:ParallelGCThreads=16 -XX:SurvivorRatio=60 XX:TargetSurvivorRatio=90 -XX:InlineSmallCode=3900 -XX:MaxInlineSize=270 XX:FreqInlineSize=2500 -XX:AllocatePrefetchDistance=256 -XX:AllocatePrefetchLines=4 XX:InitialTenuringThreshold=12 -XX:MaxTenuringThreshold=15 -XX:LoopUnrollLimit=45 XX:+UseCompressedStrings -XX:+AggressiveOpts -XX:+UseLargePages XX:+UseParallelOldGC -XX:-UseAdaptiveSizePolicy
SPECjbb2005 bops
= 1536588
SPECjbb2005 bops/JVM = 768294
Die folgenden Grafiken verdeutlichen den Durchsatz der PRIMERGY RX300 S7 im Vergleich zu ihrem
Vorgänger, der PRIMERGY RX300 S6, in jeweils performantester Konfiguration.
SPECjbb2005 bops:
PRIMERGY RX300 S7 vs. RX300 S6
SPECjbb2005 bops:
PRIMERGY RX300 S7 vs. RX300 S6
Seite 15 (59)
VERSION: 1.3  2012-10-09
SPECpower_ssj2008
SPECpower_ssj2008 ist der erste Industriestandard-Benchmark von SPEC, der den Stromverbrauch eines
Servers im Verhältnis zu dessen Durchsatz beurteilt. Mit SPECpower_ssj2008 hat SPEC in ähnlicher Weise
wie auch für Durchsatzmessungen Standards auf dem Gebiet der elektrischen Leistungsmessung definiert.
Der Workload des Benchmarks basiert auf typischen serverseitigen Java Business Applikationen. Er ist skalierbar, multi-threaded, auf eine große Anzahl von Plattformen portierbar und leicht auszuführen. Der Benchmark testet CPUs, Caches, die Speicherhierarchie und die Skalierbarkeit von symmetrischen Multiprozessorsystemen (SMPs), wie auch die Implementationen der Java Virtual Machine (JVM), Just In Time
(JIT) Compiler, Garbage Collection, Threads und einige weitere Betriebssystemaspekte.
SPECpower_ssj2008 zeichnet den Stromverbrauch von
Servern bei unterschiedlichen Belastungsstufen — in
10%-Schritten von 100% bis „Active Idle― — während
einer festgesetzten Zeitspanne auf. Der abgestufte
Workload ist der Tatsache geschuldet, dass Auslastung
und Stromverbrauch von Servern im Verlauf von Tagen
oder Wochen deutlich variieren. Zur Berechnung der
Power-Performance-Metrik über alle Stufen werden die
gemessenen Transaktionsdurchsätze jedes Messintervalls aufsummiert und dann durch die Summe der
während jedes Messintervalls durchschnittlich aufgenommenen elektrischen Leistung geteilt. Das Ergebnis
ist ein „overall ssj_ops/watt― genannter Wert. Diese
Kennzahl gibt Aufschluss über die Energie-Effizienz des
gemessenen Servers. Der definierte Messstandard
ermöglicht es einem Kunden Vergleiche anzustellen
zwischen verschiedenen Konfigurationen und Servern,
die mit SPECpower_ssj2008 vermessen wurden. Das
nebenstehende Diagramm zeigt einen typischen Graphen eines SPECpower_ssj2008-Ergebnisses.
Der Benchmark läuft auf den unterschiedlichsten Betriebssystemen und HardwareArchitekturen und stellt dabei keine
besonderen Anforderungen an die Clientund Storage-Infrastruktur. Die Minimalausstattung für einen SPEC-konformen Test
besteht aus zwei vernetzten Computern,
sowie einem Strommessgerät und einem
Temperatursensor. Der eine Computer ist
das System Under Test (SUT), auf dem
eines der unterstützten Betriebssysteme und
die JVM installiert sind. Die JVM stellt die
Umgebung bereit, die für den Ablauf des in
Java implementierten SPECpower_ssj2008Workloads benötigt wird. Der zweite
Computer ist das sogenannte „Control &
Collection System― (CCS), das die
Ausführung des Benchmarks kontrolliert und
die elektrische Leistungsaufnahme, sowie
die Durchsatz- und
Temperaturwerte
aufnimmt
und
protokolliert.
Das
nebenstehende Diagramm gibt Ihnen einen
Überblick über die Grundstruktur der
Benchmark-Konfiguration mit den dazugehörigen Komponenten.
Seite 16 (59)
VERSION: 1.3  2012-10-09
Benchmark-Umgebung
Hardware
Modell
PRIMERGY RX300 S7
Modellvariante
Basiseinheit mit 2.5"-HDD-Schächten (erweiterbar)
Prozessor
2 × Xeon E5-2660
Speicher
Messung mit Oracle Java HotSpot VM: 8 × 4GB (1x4GB) 2Rx8 L DDR3-1600 U ECC
Messung mit IBM J9 VM:
6 × 4GB (1x4GB) 2Rx8 L DDR3-1600 U ECC
Netzwerk-Interface
Onboard LAN-Controller (1 Port verwendet)
Disk-Subsystem
Onboard HDD-Controller
Messung mit Oracle Java HotSpot VM:
1 × SSD SATA 3G 32GB SLC HOT PLUG 2.5" EP
1 × HD SATA 6G 250GB 7.2K HOT PL 2.5" BC
Netzteil
Software
BIOS
Messung mit Oracle Java HotSpot VM: R1.1.0
R1.13.0
BIOS-Einstellungen
Adjacent Sector Prefetch = Disabled
Hardware Prefetch = Disabled
DCU Streamer Prefetch = Disabled
DDR Performance = Low-Voltage optimized
USB Port Control = Enable internal ports only
QPI Link Speed = 6.4GT/s
P-State coordination = SW_ANY
Intel Virtualization Technology = Disabled
SAS/SATA OpROM = LSI MegaRAID
ASPM Support = Auto
LAN Controller = LAN 1
Firmware
Messung mit Oracle Java HotSpot VM: 6.45
6.53A
Betriebssystem
Using the local security settings console, ―lock pages in memory‖ was enabled for the user
running the benchmark.
Power Management: Enabled (―Fujitsu Enhanced Power Settings‖ power plan)
Set ―Turn off hard disk after = 1 Minute‖ in OS.
Benchmark was started via Windows Remote Desktop Connection.
JVM
Oracle Java HotSpot(TM) 64-Bit Server VM on Windows, version 1.6.0_30
IBM J9 VM (build 2.6, JRE 1.7.0 Windows Server 2008 R2 amd64-64 20120322_106209
(JIT enabled, AOT enabled)
JVM-Einstellungen
start /NODE [0,1] /AFFINITY [0x3,0xC,0x30,0xC0,0x300,0xC00,0x3000,0xC000]
-server -Xmx1024m -Xms1024m -Xmn853m -XX:ParallelGCThreads=2
-XX:SurvivorRatio=60 -XX:TargetSurvivorRatio=90 -XX:InlineSmallCode=3900
-XX:MaxInlineSize=270 -XX:FreqInlineSize=2500 -XX:AllocatePrefetchDistance=256
-XX:AllocatePrefetchLines=4 -XX:InitialTenuringThreshold=12
-XX:MaxTenuringThreshold=15 -XX:LoopUnrollLimit=45 -XX:+UseCompressedStrings
-XX:+AggressiveOpts -XX:+UseLargePages -XX:+UseParallelOldGC
-Xaggressive -Xcompressedrefs -Xgcpolicy:gencon -Xmn800m -Xms1024m
-Xmx1024m -XlockReservation -Xnoloa -XtlhPrefetch -Xlp -Xconcurrentlevel0
Seite 17 (59)
Weitere Software
VERSION: 1.3  2012-10-09
Messung mit Oracle Java HotSpot VM: keine
IBM SDK Java Technology Edition Version 7.0 for Windows x64
ServerView Agent for Windows
ServerView RAID Manager
Messung mit Oracle Java HotSpot VM
Die PRIMERGY RX300 S7 erzielte folgendes Ergebnis:
SPECpower_ssj2008 = 5,032 overall ssj_ops/watt
Das nebenstehende Diagramm zeigt
das Ergebnis der oben beschriebenen
Konfiguration. Die roten waagerechten
Balken zeigen für die einzelnen
Laststufen (an der y-Achse des Diagramms abgebildet) das Verhältnis von
Durchsatz
zu
Energieverbrauch
(Performance to Power Ratio) in
ssj_ops/watt (x-Achse oben). Die blaue
Kurve stellt den durchschnittlichen
Energieverbrauch dar (an der x-Achse
unten abgebildet); die Werte für die
einzelnen Laststufen sind jeweils mit
einer kleinen Raute gekennzeichnet.
Die schwarze senkrechte Linie zeigt
das Benchmark-Resultat von 5,032
overall ssj_ops/watt für die PRIMERGY
RX300 S7. Das ist der Quotient aus der
Summe der Transaktionsdurchsätze
der einzelnen Laststufen und der
Summe der an diesen Stufen jeweils
durchschnittlich
aufgenommenen
elektrischen Leistung.
Seite 18 (59)
VERSION: 1.3  2012-10-09
Die folgende Tabelle zeigt die Benchmark-Ergebnisse bezüglich des Durchsatzes in ssj_ops, der
elektrischen Leistungsaufnahme in Watt und des daraus resultierenden Energieeffizienz-Werts für jede
einzelne Laststufe.
Performance
Target Load
Power
ssj_ops
Energy Efficiency
Average Power (W)
ssj_ops/watt
100%
1,343,300
245
5,483
90%
1,209,714
217
5,563
80%
1,078,110
187
5,777
70%
938,069
156
6,030
60%
808,997
134
6,024
50%
673,417
117
5,740
40%
537,643
105
5,109
30%
403,053
94.9
4,249
20%
269,431
85.3
3,160
10%
133,103
74.9
1,777
53.1
0
Active Idle
0
∑ssj_ops / ∑power = 5,032
Mit diesem Ergebnis erzielte die PRIMERGY RX300 S7 einen neuen Weltrekord und übertraf
damit das beste Konkurrenz-Ergebnis um 6.4% (Stand: 21. März 2012). Damit beweist sich die
PRIMERGY RX300 S7 als energieeffizientester single-node Server weltweit. Die aktuellen
SPECpower_ssj2008-Ergebnisse sind zu finden unter
http://www.spec.org/power_ssj2008/results.
SPECpower_ssj2008: PRIMERGY RX300 S7 vs. Wettbewerb
Der Vergleich zur Konkurrenz macht den Vorsprung der PRIMERGY RX300 S7 im Bereich
Energieeffizienz deutlich. Mit 6.4% höherer
Energieeffizienz gegenüber dem besten
Konkurrenzergebnis in der single-node ServerKlasse, dem Dell PowerEdge T620 Server,
und 8% höherer Energieeffizienz gegenüber
dem IBM System x3650, der genau wie die
PRIMERGY RX300 S7 zur Klasse der 2HE 2Sockel Rack Server gehört, setzt die
PRIMERGY RX300 S7 neue Maßstäbe.
Seite 19 (59)
VERSION: 1.3  2012-10-09
Messung mit IBM J9 VM
Die PRIMERGY RX300 S7 erzielte folgendes Ergebnis:
SPECpower_ssj2008 = 5,406 overall ssj_ops/watt
Das nebenstehende Diagramm zeigt
das Ergebnis der oben beschriebenen
Konfiguration. Die roten waagerechten
Balken zeigen für die einzelnen
Laststufen (an der y-Achse des Diagramms abgebildet) das Verhältnis von
Durchsatz
zu
Energieverbrauch
(Performance to Power Ratio) in
ssj_ops/watt (x-Achse oben). Die blaue
Kurve stellt den durchschnittlichen
Energieverbrauch dar (an der x-Achse
unten abgebildet); die Werte für die
einzelnen Laststufen sind jeweils mit
einer kleinen Raute gekennzeichnet.
Die schwarze senkrechte Linie zeigt
das Benchmark-Resultat von 5,406
overall ssj_ops/watt für die PRIMERGY
RX300 S7. Das ist der Quotient aus
der Summe der Transaktionsdurchsätze der einzelnen Laststufen und der
Summe der an diesen Stufen jeweils
durchschnittlich
aufgenommenen
elektrischen Leistung.
Die folgende Tabelle zeigt die Benchmark-Ergebnisse bezüglich des Durchsatzes in ssj_ops, der
elektrischen Leistungsaufnahme in Watt und des daraus resultierenden Energieeffizienz-Werts für jede
einzelne Laststufe.
Performance
Target Load
Power
ssj_ops
Energy Efficiency
Average Power (W)
ssj_ops/watt
100%
1,432,829
245
5,859
90%
1,291,012
216
5,988
80%
1,149,959
183
6,289
70%
1,003,836
153
6,555
60%
863,137
132
6,516
50%
720,232
117
6,173
40%
573,470
106
5,435
30%
431,904
95.2
4,535
20%
287,140
85.4
3,361
10%
143,632
75.3
1,906
54.0
0
Active Idle
0
∑ssj_ops / ∑power = 5,406
Mit diesem Ergebnis erzielte die PRIMERGY RX300 S7 einen neuen Klassenrekord und
übertraf damit das beste Konkurrenz-Ergebnis um 0.6% (Stand: 19. September 2012). Damit
beweist sich die PRIMERGY RX300 S7 als energieeffizientester 2-Sockel Rack Server weltweit.
Die
aktuellen
SPECpower_ssj2008-Ergebnisse
sind
zu
finden
unter
http://www.spec.org/power_ssj2008/results.
Seite 20 (59)
SPECpower_ssj2008: PRIMERGY RX300 S7 vs. Wettbewerb
VERSION: 1.3  2012-10-09
Der Vergleich zur Konkurrenz macht den Vorsprung der PRIMERGY RX300 S7 im Bereich
Energieeffizienz deutlich. Mit 0.6% höherer
Energieeffizienz gegenüber dem besten
Konkurrenzergebnis in der 2-Sockel Rack
Server-Klasse, dem Dell PowerEdge R720
Server, setzt die PRIMERGY RX300 S7 neue
Maßstäbe.
Folgendes Diagramm zeigt für jede Laststufe den Stromverbrauch (auf der rechten Y-Achse) und den
Durchsatz (auf der linken Y-Achse) der PRIMERGY RX300 S7 gegenüber dem Vorgängersystem der
PRIMERGY RX300 S6.
SPECpower_ssj2008: PRIMERGY RX300 S7 vs. PRIMERGY RX300 S6
Seite 21 (59)
Durch die neue Sandy Bridge Microarchitektur
und die um 7% performantere IBM J9 VM hat
die PRIMERGY RX300 S7 im Vergleich zur
PRIMERGY RX300 S6 einen deutlich höheren
Durchsatz und eine deutlich niedrigere Leistungsaufnahme.
Beides führt im Gesamtergebnis zu einer
Steigerung
der
Energieeffizienz
der
PRIMERGY RX300 S7 um 86%.
Seite 22 (59)
VERSION: 1.3  2012-10-09
SPECpower_ssj2008 overall ssj_ops/watt:
VERSION: 1.3  2012-10-09
Disk-I/O
Performance-Messungen von Disk-Subsystemen bei PRIMERGY Servern dienen dazu, deren
Leistungsfähigkeit zu beurteilen und einen Vergleich der verschiedenen Storage-Anbindungen bei
PRIMERGY Servern zu ermöglichen. Standardmäßig werden diese Performance-Messungen mit einem
definierten Messverfahren durchgeführt, das die Festplattenzugriffe realer Anwendungsszenarien anhand
von Kenndaten modelliert.
Die wesentlichen Kenndaten sind:
 Anteil von wahlfreien Zugriffen / sequentiellen Zugriffen
 Anteil der Zugriffsarten Lesen / Schreiben
 Blockgröße (kB)
 Anzahl paralleler Zugriffe (# of Outstanding I/Os)
Eine gegebene Wertekombination dieser Kenndaten heißt „Lastprofil―. Die folgenden fünf Standardlastprofile
lassen sich typischen Anwendungsszenarien zuordnen:
Standardlastprofil
Zugriff
Zugriffsart
read
write
Blockgröße
[kB]
Anwendung
File copy
wahlfrei
50%
50%
64
Kopieren von Dateien
File server
wahlfrei
67%
33%
64
File-Server
Database
wahlfrei
67%
33%
8
Datenbank (Datentransfer)
Mail Server
Streaming
sequentiell
100%
0%
64
Datenbank (Log-File),
Datensicherung;
Video Streaming (teilweise)
Restore
sequentiell
0%
100%
64
Wiederherstellen von Dateien
Zur Modellierung parallel zugreifender Anwendungen mit unterschiedlicher Belastungsintensität wird die
„# of Outstanding I/Os― mit 1, 3, 8 beginnend bis 512 gesteigert (ab 8 in Zweierpotenzschritten).
Die Messungen des vorliegenden Dokumentes beruhen auf diesen Standardlastprofilen.
Die wichtigsten Ergebnisse einer Messung sind:



Throughput [MB/s]
Transactions [IO/s]
Latency [ms]
Datendurchsatz in Megabytes pro Sekunde
Transaktionsrate in I/O-Operationen pro Sekunde
mittlere Antwortzeit in ms
Für sequentielle Lastprofile hat sich der Datendurchsatz als übliche Messgröße durchgesetzt, während bei
den wahlfreien Lastprofilen mit ihren kleinen Blockgrößen meist die Messgröße „Transaktionsrate―
verwendet wird. Datendurchsatz und Transaktionsrate sind direkt proportional zueinander und lassen sich
nach der Formel
Datendurchsatz [MB/s]
= Transaktionsrate [IO/s] × Blockgröße [MB]
Transaktionsrate [IO/s]
= Datendurchsatz [MB/s] / Blockgröße [MB]
ineinander überführen.
12
In diesem Kapitel sind Festplattenkapazitäten durchgängig zur Basis 10 angegeben (1 TB = 10 Bytes),
während alle anderen Kapazitäten, Dateigrößen, Blockgrößen und Durchsätze zur Basis 2 angegeben sind
20
(1 MB/s = 2 Bytes/s).
Alle Details des Messverfahrens und Grundlagen zur Disk-I/O-Performance sind im White Paper
„Grundlagen Disk-I/O-Performance― beschrieben.
Seite 23 (59)
VERSION: 1.3  2012-10-09
Benchmark-Umgebung
Alle Messergebnisse wurden mit den im Folgenden aufgelisteten Hardware- und Software-Komponenten
ermittelt.
Hardware
Controller
1 × „LSI SW RAID on Intel C600 (Onboard SATA)―
1 × „LSI SW RAID on Intel C600 (Onboard SAS)―
1 × „RAID Ctrl SAS 6G 0/1―
1 × „RAID Ctrl SAS 5/6 512MB (D2616)―
1 × „RAID Ctrl SAS 6G 5/6 1GB (D3116)―
Festplatte
16 × EP HDD SAS 6 Gbit/s 2.5 15000 rpm 146 GB
6 × EP HDD SAS 6 Gbit/s 3.5 15000 rpm 300 GB
16 × EP SSD SAS 6 Gbit/s 2.5 200 GB MLC
4 × BC HDD SATA 6 Gbit/s 2.5 7200 rpm 1 TB
Software
Betriebssystem
Microsoft Windows Server 2008 Enterprise x64 Edition SP2
Verwaltungssoftware
ServerView RAID Manager 5.0.2
Initialisierung von
RAID-Verbänden
RAID-Verbände werden vor der Messung mit einer elementaren Blockgröße von 64 kB
(„Stripe Size―) initialisiert
Dateisystem
NTFS
Messwerkzeug
Iometer 27.07.2006
Messdaten
Messdateien von 32 GB bei 1 – 8 Festplatten; 64 GB bei 9 – 16 Festplatten;
128 GB bei 17 oder mehr Festplatten
Seite 24 (59)
VERSION: 1.3  2012-10-09
Die hier vorgestellten Ergebnisse sollen dabei helfen, aus den verschiedenen Konfigurationsmöglichkeiten
der PRIMERGY RX300 S7 die passende Lösung unter dem Gesichtspunkt der Disk-I/O-Performance
auszuwählen. Hierbei kommt es auf die Auswahl geeigneter Komponenten und auf deren richtige
Parametereinstellungen an. Diese beiden Aspekte sollen daher als Vorbereitung für die Diskussion der
Performance-Werte behandelt werden.
Komponenten
Die erste wesentliche Komponente sind die Festplatten. Wenn im Folgenden von „Festplatten― die Rede ist,
so ist dies als Oberbegriff gemeint für HDDs („hard disk drives―, also konventionelle Festplatten) und SSDs
(„solid state drives―, also nichtflüchtige elektronische Speichermedien). Durch die Auswahl des
Festplattentyps und der Festplattenanzahl lässt sich eine Gewichtung in Richtung Speicherkapazität,
Performance, Sicherheit oder Preis vornehmen. Um – je nach gewünschter Gewichtung – eine Vorauswahl
unter den Festplattentypen zu ermöglichen, gibt es bei den PRIMERGY Servern eine Einteilung der
Festplattentypen in drei Klassen:



„Economic― (ECO):
kostengünstige Festplatten
„Business Critical― (BC): sehr ausfallsichere Festplatten
„Enterprise― (EP):
sehr ausfallsichere und sehr performante Festplatten
Die folgende Tabelle stellt die für die PRIMERGY RX300 S7 seit System-Release verfügbaren
Festplattentypen zusammen.
Laufwerksklasse
Datenträgertyp
Schnittstelle
Formfaktor
krpm
Business Critical
HDD
SATA 6G
2.5"
7.2
Business Critical
HDD
SATA 6G
3.5"
7.2
Enterprise
HDD
SAS 6G
3.5"
15
Enterprise
HDD
SAS 6G
2.5"
10, 15
Enterprise
SSD
SATA 6G
2.5"
-
Enterprise
SSD
SAS 6G
2.5"
-
Mischkonfigurationen von SAS- und SATA-Festplatten in einem System sind zulässig, sofern sie nicht für
spezielle Festplattentypen im Konfigurator ausgeschlossen sind.
Die SATA-HDDs bieten hohe Kapazitäten bis in den Terabyte-Bereich zu sehr günstigen Kosten. Durch die
höhere Umdrehungsgeschwindigkeit der SAS-HDDs (im Vergleich zu den SATA-HDDs) besitzen die SASHDDs kürzere Zugriffszeiten und erreichen höhere Durchsätze. Unter den SAS-HDDs haben diejenigen mit
der Umdrehungsgeschwindigkeit 15 krpm bessere Zugriffszeiten und Durchsätze als vergleichbare HDDs mit
der Umdrehungsgeschwindigkeit 10 krpm. Bei den SAS-HDDs hat sich mittlerweile die Schnittstelle 6G als
Standard durchgesetzt.
Von allen Festplattentypen bieten die SSDs einerseits bei weitem die höchsten Transaktionsraten für
wahlfreie Lastprofile, andererseits die kürzesten Zugriffszeiten. Dafür ist allerdings der Preis pro Gigabyte
Speicherkapazität erheblich höher.
Durch die Verwendung von 2.5"-Festplatten anstelle von 3.5"-Festplatten sind mehr Festplatten pro System
möglich. Dadurch sinkt die Belastung, die jede einzelne Festplatte zu bewältigen hat, und die maximale
Gesamt-Performance des Systems steigt.
Detailliertere Performance-Aussagen zu den Festplattentypen sind im White Paper „Performance einzelner
Festplatten― zu finden.
Die maximale Anzahl von Festplatten im System hängt von der Systemkonfiguration ab. Die folgende
Tabelle stellt die wesentlichen Fälle zusammen.
Formfaktor
Schnittstelle
Anschlusstyp
Anzahl PCIeController
Maximalzahl
Festplatten
2.5"
SATA 3G, SAS 3G
direkt
0
4
3.5"
SATA 3G/6G, SAS 6G
direkt
1
6
2.5"
SATA 3G/6G, SAS 6G
direkt
2
16
Seite 25 (59)
VERSION: 1.3  2012-10-09
Nach den Festplatten ist der RAID-Controller die zweite Performance-bestimmende Schlüsselkomponente.
Bei diesen Controllern bietet das „Modular RAID― Konzept der PRIMERGY Server eine Fülle von
Möglichkeiten, um den verschiedenen Anforderungen unterschiedlichster Anwendungsszenarien gerecht zu
werden.
Die folgende Tabelle fasst die wichtigsten Eigenschaften der verfügbaren RAID-Controller des Systems
zusammen. Pro Controller ist hierin ein kurzer Alias angegeben, der bei der anschließenden
Zusammenstellung der Performance-Werte verwendet wird.
Controller-Name
Alias
Cache
Unterstützte
Interfaces
Max. # Disks
im System
RAID Levels BBU/
FBU
LSI SW RAID on Intel
C600 (Onboard SATA)
Patsburg A
-
SATA 3G
-
4 × 2.5"
0, 1, 10
-/-
LSI SW RAID on Intel
C600 (Onboard SAS)
Patsburg B
-
SATA 3G
SAS 3G
-
4 × 2.5"
0, 1, 10
-/-
RAID Ctrl SAS 6G 0/1
(D2607)
LSI2008
-
SATA 3G/6G PCIe 2.0
SAS 3G/6G
x8
8 × 2.5"
6 × 3.5"
0, 1, 1E, 10
-/-
RAID Ctrl SAS 6G 5/6 512
MB (D2616)
LSI2108
512 MB SATA 3G/6G PCIe 2.0
SAS 3G/6G
x8
16 × 2.5"
6 × 3.5"
0, 1, 5, 6, 10,
50, 60
/-
16 × 2.5"
6 × 3.5"
0, 1, 1E, 5, 6,
10, 50, 60
-/
RAID Ctrl SAS 6G 5/6 1GB LSI2208-1G
(D3116)
1 GB
SATA 3G/6G PCIe 2.0
SAS 3G/6G
x8
Der Onboard RAID Controller ist im Chip-Set Intel C600 auf dem Motherboard des Servers realisiert und
benutzt die CPU des Servers für die RAID-Funktionalität. Dieser Controller ist eine einfache Lösung, die
keinen PCIe-Steckplatz benötigt. Neben der immer vorhandenen Anschlussmöglichkeit von SATAFestplatten kann die optionale SAS-Funktionalität über einen „SAS enabling key― freigeschaltet werden.
Systemspezifische Schnittstellen
Die Schnittstellen eines Controllers zum Motherboard und zu den Festplatten haben jeweils spezifische
Grenzen für den Datendurchsatz. Diese Grenzen sind in der folgenden Tabelle zusammengestellt. Das
Minimum dieser beiden Werte ist eine prinzipielle Grenze, die nicht überschritten werden kann. Dieser Wert
ist in der folgenden Tabelle mit Fettdruck hervorgehoben.
ControllerAlias
Effektiv in der Konfiguration
Patsburg A
4 × SATA 3G
Patsburg B
4 × SAS 3G
973 MB/s
-
-
LSI2008
8 × SAS 6G
3890 MB/s
2.0
X8
3433 MB/s
-
LSI2108
8 × SAS 6G
3890 MB/s
2.0
X8
3433 MB/s

LSI2208-1G
8 × SAS 6G
3890 MB/s
2.0
X8
3433 MB/s

# Disk-Kanäle
Grenze für
Durchsatz
Disk-Interface
973 MB/s
Anschluss
über
Expander
PCIeVersion
PCIeBreite
Grenze für
Durchsatz
PCIe-Interface
-
-
-
-
-
-
Ein Expander ermöglicht es, in einem System mehr Festplatten anzuschließen als der Controller SASKanäle hat. Ein Expander kann den möglichen Maximaldurchsatz eines Controllers nicht steigern, stellt ihn
aber in Summe allen angeschlossenen Festplatten zur Verfügung.
Weitere Details zu den RAID-Controllern der PRIMERGY Systeme finden sich im White Paper „RAIDController-Performance―.
Seite 26 (59)
VERSION: 1.3  2012-10-09
Einstellungen
Der Cache der Festplatten hat in den meisten Fällen einen großen Einfluss auf die Disk-I/O-Performance. Er
wird häufig als Sicherheitsproblem bei Stromausfall angesehen und daher abgeschaltet. Dennoch wurde er
von den Festplattenherstellern aus gutem Grund zur Steigerung der Schreib-Performance integriert. Aus
Performance-Gründen ist es daher empfehlenswert den Festplatten-Cache einzuschalten. Dies gilt
insbesondere für SATA-HDDs. Bei bestimmten Zugriffsmustern und Festplattentypen kann sich die
Performance hierdurch mehr als verzehnfachen. Nähere Informationen zu den Performance-Auswirkungen
des Festplatten-Caches finden sich im Dokument „Performance einzelner Festplatten―. Um Datenverlusten
bei Stromausfall vorzubeugen, empfiehlt es sich das System mit einer USV auszustatten.
Bei Controllern mit Cache gibt es mehrere einstellbare Parameter. Die jeweils optimalen Einstellungen
können vom RAID-Level, vom Anwendungsszenario und vom Datenträgertyp abhängen. Besonders bei den
RAID-Levels 5 und 6 (und den davon abgeleiteten komplexeren RAID-Levels 50 und 60) ist bei
Anwendungsszenarien mit Schreibanteil das Einschalten des Controller-Caches Pflicht. Bei aktiviertem
Controller-Cache sollten die darin temporär gespeicherten Daten gegen Verlust bei Stromausfall gesichert
werden. Hierfür ist geeignetes Zubehör verfügbar (beispielsweise eine BBU bzw. FBU).
Zwecks einfacher und sicherer Handhabung der Einstellungen von RAID-Controller und Festplatten
empfiehlt sich die für PRIMERGY Server mitgelieferte RAID-Manager-Software „ServerView RAID―.
Üblicherweise wird man – spezifisch für den Anwendungsfall – mittels der vordefinierten Modi „Performance―
oder „Data Protection― die kompletten Cache-Einstellungen für Controller und Festplatten en bloc
vornehmen. Der Modus „Performance― gewährleistet für die Mehrzahl der Anwendungsszenarien
Performance-optimale Einstellungen.
Nähere Informationen zu den Einstellungsmöglichkeiten beim Controller-Cache sind im White Paper „RAIDController-Performance― zu finden.
Performance-Werte
Generell hängt die Disk-I/O-Performance eines RAID-Verbandes von Festplattentyp und –anzahl, vom
RAID-Level und vom RAID-Controller ab. Sofern die Limitierungen der systemspezifischen Schnittstellen
nicht überschritten werden, gelten also Aussagen zur Disk-I/O-Performance für alle PRIMERGY Systeme.
Daher gelten auch alle Performance-Aussagen des Dokumentes „RAID-Controller-Performance― für die
PRIMERGY RX300 S7, soweit die dort vermessenen Konfigurationen auch von diesem System unterstützt
werden.
Die Performance-Werte des Systems werden im Folgenden tabellarisch zusammengestellt, jeweils
spezifisch für verschiedene RAID-Level, Zugriffsarten und Blockgrößen. Wesentlich verschiedene
Konfigurationsvarianten werden getrennt behandelt.
Die Performance-Werte in den folgenden Tabellen verwenden die etablierten Messgrößen, wie sie schon im
Unterkapitel Benchmark-Beschreibung erwähnt wurden. Bei den wahlfreien Zugriffen wird also die
Transaktionsrate angegeben, und bei den sequentiellen Zugriffen der Datendurchsatz. Um
Verwechselungen der Maßeinheiten zu vermeiden, sind die Tabellen für die beiden Arten von Zugriffen
getrennt.
In den Tabellenzellen sind die maximal erreichbaren Werte eingetragen. Das bedeutet dreierlei: Zum einen
wurden Festplatten mit optimaler Performance verwendet (die Komponenten sind im Unterkapitel
Benchmark-Umgebung näher beschrieben). Des Weiteren sind Cache-Einstellungen von Controllern und
Festplatten zugrunde gelegt, die für das jeweilige Zugriffsszenario und den RAID-Level optimal sind. Und
schließlich ist jeder Wert das Maximum über den gesamten Bereich von Belastungsintensitäten (# of
Outstanding I/Os).
Zwecks zusätzlicher Visualisierung der Zahlenwerte ist jede Tabellenzelle mit einem waagerechten Balken
hinterlegt, dessen Länge proportional zum Zahlenwert in der Tabellenzelle ist. Alle solchen Balken, die im
gleichen Längenmaßstab dargestellt sind, haben die gleiche Farbe. Es können also nur die Tabellenzellen
mit gleichfarbigen Balken sinnvoll visuell miteinander verglichen werden.
Da die waagerechten Balken in den Tabellenzellen die maximal erreichbaren Performance-Werte
veranschaulichen, sind sie als von links nach rechts heller werdende Farbverläufe dargestellt. Der helle
Farbton am rechten Balkenende drückt aus, dass der Wert das Maximum ist und nur bei optimalen
Voraussetzungen erreicht werden kann. Je dunkler dann der Farbton nach links hin wird, umso häufiger wird
der entsprechende Wert in der Praxis erreichbar sein.
Seite 27 (59)
VERSION: 1.3  2012-10-09
804
694
17736
3916
RAID 0
RAID10
1830
1347
1015
744
37028
29082
8333
6779
2.5"
2
8
8
RAID 1
RAID 0
RAID10
820
3491
2716
702
1980
1516
17649
40766
28692
4117
12706
10539
3.5"
2
6
6
RAID 1
RAID 0
RAID10
868
2708
2090
729 N/A
1548 N/A
1160 N/A
2.5"
2
16
16
16
RAID 1
RAID 10
RAID 0
RAID 5
859
7944
10460
6324
679
4124
5606
3555
3.5"
2
6
6
6
RAID 1
RAID10
RAID 0
RAID 5
1042
3110
4216
2241
730
1600
2149
1138
2.5"
2
16
16
16
RAID 1
RAID 10
RAID 0
RAID 5
1109
8135
10460
5835
863
4232
5606
3257
3.5"
2
6
6
6
RAID 1
RAID 10
RAID 0
RAID 5
1105
3162
4384
2316
746
1632
2246
1259
2.5"
LSI2008
SAS
LSI2008
SAS
LSI2208-1G
LSI2208-1G
Seite 28 (59)
SAS
SAS
SAS
447 N/A
583 N/A
446 N/A
SSDs wahlfrei
64 kB Blöcke
67% read
[IO/s]
RAID 1
4
4
SAS
LSI2108
SSDs wahlfrei
8 kB Blöcke
67% read
[IO/s]
2
Patsburg B
550
1073
828
HDDs wahlfrei
64 kB Blöcke
67% read
[IO/s]
RAID 1
RAID 0
RAID10
SATA 2.5"
SAS
RAIDLevel
2
4
4
Patsburg A
LSI2108
# Disks
Formfaktor
Schnittstelle
RAIDController
Konfigurationsvariante
HDDs wahlfrei
8 kB Blöcke
67% read
[IO/s]
Wahlfreie Zugriffe (Performance-Werte in IO/s):
N/A
N/A
N/A
N/A
N/A
N/A
19002
25172
77421
19675
N/A
N/A
N/A
N/A
4400
15894
25486
12245
N/A
N/A
N/A
N/A
20201
59199
182054
41271
N/A
N/A
N/A
N/A
4362
31605
44447
21162
N/A
N/A
N/A
N/A
VERSION: 1.3  2012-10-09
2
RAID 1
199
192
504
180
4
4
RAID 0
RAID10
780
399
770
384
953
662
642
337
2.5"
2
8
8
RAID 1
RAID 0
RAID10
287
1492
745
190
1264
728
338
2470
1101
199
1322
634
3.5"
2
6
6
RAID 1
RAID 0
RAID10
283
964
528
2.5"
2
16
16
16
RAID 1
RAID10
RAID 0
RAID 5
371
1886
2750
1808
192
864
2483
1203
3.5"
2
6
6
6
RAID 1
RAID 10
RAID 0
RAID 5
342
881
1068
903
183
540
1077
898
2.5"
2
16
16
16
RAID 1
RAID10
RAID 0
RAID 5
355
1678
2575
2573
194
1549
2898
2166
3.5"
2
6
6
6
RAID 1
RAID 10
RAID 0
RAID 5
357
648
1080
901
183
548
1077
897
2.5"
LSI2008
SAS
LSI2008
SAS
LSI2208-1G
LSI2208-1G
SAS
SAS
SSDs sequentiell
64 kB Blöcke
100% write
[MB/s]
108 N/A
419 N/A
213 N/A
SAS
SAS
SSDs sequentiell
64 kB Blöcke
100% read
[MB/s]
112
422
226
Patsburg B
LSI2108
HDDs sequentiell
64 kB Blöcke
100% write
[MB/s]
RAID 1
RAID 0
RAID10
SATA 2.5"
SAS
RAIDLevel
2
4
4
Patsburg A
LSI2108
# Disks
Formfaktor
Schnittstelle
RAIDController
Konfigurationsvariante
HDDs sequentiell
64 kB Blöcke
100% read
[MB/s]
Sequentielle Zugriffe (Performance-Werte in MB/s):
N/A
N/A
N/A
184 N/A
986 N/A
517 N/A
N/A
N/A
N/A
679
1953
2327
1870
N/A
N/A
N/A
N/A
176
843
2177
1225
N/A
N/A
N/A
N/A
680
2654
2564
2584
N/A
N/A
N/A
N/A
169
1583
2828
2144
N/A
N/A
N/A
N/A
Die PRIMERGY RX300 S7 erreicht also mit einem Controller im Maximalausbau mit leistungsfähigen
Festplatten (konfiguriert als RAID 0) einen Durchsatz von bis zu 2828 MB/s bei sequentiellen Lastprofilen
und eine Transaktionsrate von bis zu 182054 IO/s bei typischen wahlfreien Anwendungsszenarien.
Seite 29 (59)
VERSION: 1.3  2012-10-09
SAP SD
Die SAP Anwendungssoftware besteht aus Modulen zum Management aller Standard-Geschäftsprozesse.
Es gibt u.a. Module für ERP (Enterprise Resource Planning) wie Assemble-to-Order (ATO), Financial
Accounting (FI), Human Resources (HR), Materials Management (MM), Production Planning (PP) und Sales
and Distribution (SD), aber auch für SCM (Supply Chain Management), Retail, Banking, Utilities, BI
(Business Intelligence), CRM (Customer Relation Management) oder PLM (Product Lifecycle Management).
Die Applikationssoftware setzt immer auf einer Datenbank auf, so dass eine SAP-Konfiguration neben der
Hardware aus den Software-Komponenten Betriebssystem, Datenbank und letztendlich der SAP-Software
selbst besteht.
Zur Verifikation der Performance, Stabilität und Skalierbarkeit eines SAP-Applikationssystems hat die SAP
AG die SAP Standard Application Benchmarks entwickelt. Die Benchmarks (der wichtigste und am meisten
verbreitete ist der SD Benchmark) analysieren die Performance des Gesamtsystems und liefern somit ein
Maß für die Qualität der Integration der Einzelkomponenten.
Bei dem Benchmark wird zwischen einer Two-Tier- und einer Three-Tier-Konfiguration unterschieden. Bei
der Two-Tier-Konfiguration sind die SAP-Applikation und die Datenbank auf einem Server installiert. Bei
einer Three-Tier-Konfiguration können die einzelnen Komponenten der SAP-Applikation über mehrere
Server verteilt sein und ein weiterer Server übernimmt die Datenbank.
Eine komplette Spezifikation des von der SAP AG, Walldorf – Deutschland entwickelten Benchmarks ist
unter http://www.sap.com/solutions/benchmark/index.epx zu finden.
Benchmark-Umgebung
Der Messaufbau wird symbolisch durch folgende Grafik veranschaulicht:
2-Tier-Umgebung
Server
Disk-Subsystem
Netzwerk
BenchmarkTreiber
Seite 30 (59)
VERSION: 1.3  2012-10-09
Hardware
Modell
PRIMERGY RX300 S7
Prozessor
2 × Xeon E5-2690
Speicher
Netzwerkinterface
1Gbit/s LAN
Disk-Subsystem
PRIMERGY RX300 S7:
1 × RAID Ctrl SAS 6G 5/6 512MB (D2616)
3 × HD SATA 6G 250GB 7.2K HOT PLUG 2.5" BC
1 × FC Ctrl 8Gb/s 2 Chan LPe12002
1 × FibreCAT CX4-480 Storage Unit
Netzteil
Software
BIOS-Einstellungen
DDR Performance = Performance Optimized
Betriebssystem
Datenbank
Microsoft SQL Server 2008 Enterprise x64 Edition
SAP Business Suite
Software
SAP enhancement package 4 for SAP ERP 6.0
Benchmark-Treiber
Hardware
Modell
PRIMERGY RX300 S4
Prozessor
2 × Xeon X5460
Speicher
32 GB
Netzwerkinterface
1Gbit/s LAN
Software
Betriebssystem
SUSE Linux Enterprise Server 11 SP1
Zertifikationsnummer 2012008
Number of SAP SD benchmark users
7570
Average dialog response time
0.99 seconds
Throughput
Fully processed order line items/hour
Dialog steps/hour
SAPS
826,330
2,479,000
41,320
Average database request time (dialog/update)
0.019 sec / 0.014 sec
CPU utilization of central server
99%
Operating system, central server
Windows Server 2008 R2 Enterprise Edition
RDBMS
SQL Server 2008
SAP Business Suite software
SAP enhancement package 4 for SAP ERP 6.0
Configuration
Central Server
Fujitsu PRIMERGY RX300 S7
2 processors / 16 cores / 32 threads
Intel Xeon E5-2690, 2.9GHz, 64KB L1 cache and 256KB L2
cache per core, 20 MB L3 cache per processor
128 GB main memory
Seite 31 (59)
VERSION: 1.3  2012-10-09
OLTP-2
OLTP steht für Online Transaction Processing. Dem OLTP-2-Benchmark liegt das typische Anwendungsszenario einer Datenbanklösung zugrunde. Es werden bei OLTP-2 Zugriffe auf eine Datenbank simuliert und
die Anzahl erreichter Transaktionen pro Sekunde (tps) als Maß für die Leistungsfähigkeit des vermessenen
Systems ermittelt.
Im Gegensatz zu Benchmarks, wie beispielsweise SPECint und TPC-E, die von unabhängigen Gremien
standardisiert wurden und bei denen die Einhaltung des jeweiligen Reglements überwacht wird, ist OLTP-2
ein interner Benchmark von Fujitsu. OLTP-2 basiert auf dem bekannten Datenbank-Benchmark TPC-E.
OLTP-2 wurde so gestaltet, dass eine Vielzahl von Konfigurationen messbar sind, um die Skalierung eines
Systems hinsichtlich CPU- und Speicherausbau darstellen zu können.
Auch wenn die beiden Benchmarks OLTP-2 und TPC-E ähnliche Anwendungsszenarien simulieren und die
gleichen Lastprofile verwenden, so sind die Ergebnisse nicht vergleichbar oder gar gleichzusetzen, da die
beiden Benchmarks unterschiedliche Methoden zur Simulation der Benutzerlast verwenden. Typischerweise
sind OLTP-2-Werte TPC-E-Werten ähnlich. Ein direkter Vergleich oder gar die Bezeichnung des OLTP-2Ergebnisses als TPC-E-Ergebnis ist nicht zulässig, da insbesondere kein Preis-Leistungswert ermittelt wird.
Weitere Informationen können dem Dokument Benchmark-Überblick OLTP-2 entnommen werden.
Benchmark-Umgebung
Driver
Tier A
Tier B
Netzwerk
Netzwerk
Applikations-Server
Clients
Datenbank-Server
DiskSubsystem
Alle Ergebnisse wurden exemplarisch auf einer PRIMERGY RX300 S7 ermittelt.
Seite 32 (59)
VERSION: 1.3  2012-10-09
Datenbank-Server (Tier B)
Hardware
Modell
PRIMERGY RX300 S7
Prozessor
Speicher
1 Prozessor:
8 × 32GB (1x32GB) 4Rx4 L DDR3-1333 LR ECC
2 Prozessoren: 16 × 32GB (1x32GB) 4Rx4 L DDR3-1333 LR ECC
Netzwerk-Interface
2 × onboard LAN 1 Gb/s
Disk-Subsystem
RX300 S7: Onboard RAID Ctrl SAS 6G 5/6 1024MB (D3116)
2 × 73 GB 15k rpm SAS Drive, RAID1 (OS),
6 × 147 GB 15k rpm SAS Drive, RAID10 (LOG)
3 × LSI MegaRAID SAS 9286CV-8e
6 × JX40: Je 24 × 64 GB SSD Drive, RAID5 (Daten)
Software
BIOS
Version V4.6.5.1 R1.0.5
Betriebssystem
Datenbank
Microsoft SQL Server 2008 R2 Enterprise SP1
Applikations-Server (Tier A)
Hardware
Modell
1 × PRIMERGY RX200 S6
Prozessor
2 × Xeon X5647
Speicher
12 GB, 1333 MHz registered ECC DDR3
Netzwerk-Interface
2 × Dual Port LAN 1Gb/s
Disk-Subsystem
1 × 73 GB 15k rpm SAS Drive
Software
Betriebssystem
Microsoft Windows Server 2008 R2 Standard
Client (Lastgenerator)
Hardware
Modell
Prozessor
2 × Xeon X5570
Speicher
24 GB, 1333 MHz registered ECC DDR3
Netzwerk-Interface
Disk-Subsystem
1 × 73 GB 15k rpm SAS Drive
Software
Betriebssystem
Microsoft Windows Server 2008 R2 Standard
Benchmark
OLTP-2 Software EGen version 1.12.0
Seite 33 (59)
VERSION: 1.3  2012-10-09
Die Datenbank-Performance ist in hohem Maße abhängig von den Ausbaumöglichkeiten mit CPU, Speicher
und den Anschlussmöglichkeiten eines für die Datenbank angemessenen Disk-Subsystems. Bei den
folgenden Skalierungsbetrachtungen der Prozessoren gehen wir davon aus, dass sowohl der Speicher als
auch das Disk-Subsystem adäquat gewählt ist und keinen Engpass darstellt.
Als Richtlinie für die Auswahl von Arbeitsspeicher gilt im Datenbankumfeld, dass eine ausreichende Menge
wichtiger ist als die Geschwindigkeit der Speicherzugriffe. Daher wurde bei den Messungen mit zwei
Prozessoren eine Bestückung mit insgesamt 512 GB Speicher und bei den Messungen mit einem Prozessor
eine Bestückung mit insgesamt 256 GB Speicher betrachtet. Beide Speicherbestückungen haben einen
Memory-Zugriff von 1333 MHz. Weitere Informationen über Speicherperformance sind in dem White Paper
Speicher-Performance Xeon E5-2600 (Sandy Bridge-EP) basierter Systeme zu finden.
Die nachfolgende Grafik zeigt die OLTP-2 Transaktionsraten, die mit einem und zwei Prozessoren der Intel
Xeon Serie E5-2600 erreicht werden können.
OLTP-2 tps
1695.97
E5-2690 - 8 Core, HT
971.33
1611.48
E5-2680 - 8 Core, HT
921.05
1569.23
E5-2670 - 8 Core, HT
895.92
1484.74
E5-2665 - 8 Core, HT
845.64
1400.25
E5-2660 - 8 Core, HT
795.37
1315.76
E5-2650 - 8 Core, HT
745.09
1144.99
E5-2650L - 8 Core, HT
635.64
1295.48
E5-2667 - 6 Core, HT
718.68
1153.27
E5-2640 - 6 Core, HT
638.47
1082.16
E5-2630 - 6 Core, HT
598.36
975.50
E5-2630L - 6 Core, HT
538.20
979.75
E5-2620 - 6 Core, HT
538.76
935.41
E5-2643 - 4 Core, HT
520.27
528.49
E5-2609 - 4 Core
287.16
428.08
232.60
E5-2603 - 4 Core
2CPUs 512GB RAM
1CPU 256GB RAM
487.33
E5-2637 - 2 Core, HT
261.81
0
200
400
600
800
1000
1200
1400
1600
1800
tps
HT:
Hyper-Threading
Seite 34 (59)
Fett:
Kursiv:
gemessen
berechnet
VERSION: 1.3  2012-10-09
Es wird deutlich, dass durch die Vielzahl an freigegebenen Prozessoren eine große Leistungsbandbreite
abgedeckt wird. Vergleicht man den OLTP-2-Wert des leistungsschwächsten Prozessors Xeon E5-2603 mit
dem des leistungsstärksten Prozessors Xeon E5-2690, so ergibt sich eine Leistungssteigerung um den
Faktor 4.
Anhand der erzielten Resultate lassen sich die Prozessoren in verschiedene Leistungsgruppen unterteilen:
Den Einstieg stellen Xeon E5-2603 und E5-2609 als Prozessoren mit vier Kernen aber ohne HyperThreading und ohne Turbo-Modus dar. Der Xeon E5-2637 besitzt zwar nur zwei Kerne, ist aber HyperThreading-fähig und liegt aufgrund der höheren Taktfrequenz leistungsmäßig zwischen diesen beiden
Prozessoren. Mit dem Performance-optimierten 4-Core-Prozessor Xeon E5-2643 werden aufgrund seiner
hohen Taktfrequenz und der hohen QPI-Geschwindigkeit von 8.00 GT/s fast schon die Durchsatzraten der
6-Core-Prozessoren mit den niedrigsten Frequenzen (Xeon E5-2620 und E5-2630L) erreicht, die mit 95 Watt
bzw. 60 Watt aber auch eine deutlich geringere Leistungsaufnahme haben als der Xeon E5-2643 mit
130 Watt.
Die 6-Core-Prozessoren sind alle Hyper-Threading-fähig, haben mit 7.20 GT/s eine höhere QPIGeschwindigkeit als die Gruppe der 4-Core-Prozessoren mit 6.40 GT/s und sie besitzen einen 50%
größeren L3-Cache von 15 MB. Am oberen Leistungsende der 6-Core-Prozessoren liegt der besonders
hoch getaktete Prozessor Xeon E5-2667 (130 Watt), der wiederum eine OLTP-Leistung leicht oberhalb des
leistungsschwächsten 8-Core-Prozessor Xeon E5-2650L (70 Watt) erreicht.
Am oberen Ende der Leistungsskala liegt die Gruppe der Prozessoren mit acht Kernen, einer QPIGeschwindigkeit von 8.00 GT/s und 20 MB L3-Cache. Durch die gestaffelten CPU-Taktfrequenzen wird eine
OLTP-Leistung von 1145 tps (2 × Xeon E5-2650L) bis 1696 tps (2 × Xeon E5-2690) erreicht.
Vergleicht man die maximal erreichbaren OLTP-2 Werte der aktuellen Systemgeneration mit den Werten, die
auf den Vorgängersystemen erreicht wurden, so ergibt sich eine Steigerung von ca. 34%.
Maximum OLTP-2 tps
Vergleich der Systemgenerationen
tps
2000
1800
+ ~ 34%
1600
1400
1200
1000
800
2 × X5690
192 GB
2 × E5-2690
512 GB
600
400
200
0
Vorgängersystem
Aktuelles System
Aktuelles System
TX300 S7 RX200 S7 RX300 S7 RX350 S7 BX924 S3
Vorgängersystem
TX300 S6 RX200 S6 RX300 S6 TX300 S6
BX924 S2
Seite 35 (59)
VERSION: 1.3  2012-10-09
Der TPC-E-Benchmark misst die Performance online transaktionsverarbeitender Systeme (Online
Transaction Processing oder kurz OLTP genannt). Er basiert auf einer komplexen Datenbank und einer
Reihe unterschiedlicher Transaktionstypen, die auf ihr ausgeführt werden. TPC-E ist ein sowohl Hardwareals auch Software-unabhängiger Benchmark und kann damit auf jeder Testplattform – sei es eine proprietäre
oder offene – implementiert werden. Neben den Messergebnissen müssen auch sämtliche Details der
vermessenen Systeme und des Messvorgangs in einem Messreport (Full Disclosure Report oder kurz FDR)
erläutert werden. Dadurch wird überprüfbar, ob eine Messung allen Benchmark-Anforderungen entspricht
und nachvollziehbar ist. Durch TPC-E wird nicht ein einzelner Server, sondern eine recht umfangreiche
Systemkonfiguration vermessen. Performance-bestimmend ist hierbei die Systemleistung des
Datenbankservers mit Disk-I/O und Netzwerk-Kommunikation.
Die Performance-Metrik ist tpsE. tps steht dabei für transactions per second. tpsE ist die mittlere Anzahl an
Trade-Result-Transaktionen, die innerhalb einer Sekunde ausgeführt wurden. Gemäß dem TPC-E-Standard
besteht eine korrekte Angabe aus der tpsE-Rate, dem zugehörigen Preis/Leistungs-Wert und dem
Verfügbarkeitsdatum (Availability Date) der Konfiguration.
TPC-Energy ist eine Erweiterung bestehender TPC-Benchmarks (z.B. TPC-C, TPC-E, TPC-H), bei der für
die verwendeten Systeme während der Durchführung des TPC-Benchmarks die Energie-Verbrauchswerte
ermittelt werden. TPC hat dafür ein Regelwerk definiert, wie diese Werte zu messen sind. Als Ergebnis des
Benchmarks wird aus den Messwerten eine Metrik in der Form „Energie / Performance― berechnet. Für TPCE ergibt sich die Metrik Watts/tpsE.
Weitere Informationen über TPC-E und TPC-Energy können dem Übersichtsdokument Benchmark Overview
TPC-E entnommen werden.
Seite 36 (59)
VERSION: 1.3  2012-10-09
Im Juli 2012 veröffentlichte Fujitsu ein TPC-E Benchmark-Ergebnis für PRIMERGY RX300 S7 mit dem
8-Core Prozessor Intel Xeon E5-2690 und 512 GB Speicher. Bei dieser Veröffentlichung wurden auch TPCEnergy Werte für die PRIMERGY RX300 S7 publiziert.
Die Resultate zeigen eine enorme Leistungssteigerung gegenüber der PRIMERGY RX300 S6 bei
gleichzeitiger Reduzierung der Kosten und geringerem Energieverbrauch.
TPC-E 1.12.0
TPC Pricing 1.7.0
TPC-Energy 1.4.2
PRIMERGY RX300 S7
Report Date
July 5, 2012
TPC-E Throughput
1,871.81 tpsE
Price/Performance
$ 175.57 USD
per tpsE
Availability Date
August 17, 2012
Total System Cost
$ 328,623
TPC-Energy Metric
0.69 Watts/tpsE
Database Server Configuration
Operating System
Microsoft Windows Server
2008 R2 Enterprise Edition
SP1
Database Manager
Microsoft SQL Server
2012 Enterprise Edition
SUT
Processors/Cores/Threads
2/16/32
Memory
512 GB
Tier A
PRIMERGY RX200 S7
1x Intel Xeon E5-2660 2.20 GHz
16 GB Memory
1x 250 GB 7.2k rpm SATA Drive
2x onboard LAN 1 Gb/s
1x Dual Port LAN 1 Gb/s
Tier B
PRIMERGY RX300 S7
2x Intel Xeon E5-2690 2.90 GHz
512 GB Memory
8x 146 GB 15k rpm SAS Drives
2x onboard LAN 1 Gb/s
5x SAS RAID Controller
Storage
1x PRIMECENTER Rack
4x ETERNUS JX40
60x 200 GB SSD Drives
2 ×1 TB 7.2k rpm SATA Drives
Initial Database Size
7,704 GB
Redundancy Level 1
RAID-5 data and RAID-10 log
Storage
60 x 200 GB SSD
2 x 1 TB 7.2k rpm HDD
6 x 146 GB 15k rpm HDD
Seite 37 (59)
PRIMERGY
RX300 S7
TPC-E Throughput
1,871.81 tpsE
VERSION: 1.3  2012-10-09
TPC-E 1.12.0
TPC Pricing 1.7.0
TPC-Energy 1.4.2
Report Date
July 5, 2012
Availability Date
August 17, 2012
Energy Summary
Price/Performance
$ 175.57 USD
per tpsE
Availability Date
August 17, 2012
Total System
Cost
$ 328,623
TPC-Energy Metric
0.69 Watts/tpsE
Numerical Quantities For Reported Energy Configuration:
REC Idle Power:
Average Power of REC :
843.88 Watts
1288.82 Watts
Subsystem Reporting:
Secondary Metrics
Database Server *)
Storage *)
Application Server *)
Miscellaneous *)
Total REC
watts/tpsE
0.32
0.31
0.05
0.01
0.69
Additional Numerical Quantities
Full Load
Avg Watts
592.41
578.42
100.99
17.00
1,288.82
Full Load
% of REC
45.97%
44.88%
7.84%
1.32%
100.00%
Idle
Avg Watts
239.56
544.80
59.12
0.40
843.88
Idle
% of REC
28.39%
64.56%
7.01%
0.05%
100.00%
*) see pricing for list of components
Lowest ambient temperature at air inlet:
20.13 Degrees Celsius
Items in Priced Configuration not in the Reported Energy Configuration
None
Items in the Reported Energy Configuration not in the Measured Energy Configuration
Fujitsu Display B20T-6 LED
Weitere Informationen zu diesem TPC-E Ergebnis, speziell auch den Full Disclosure Report, findet man auf
der TPC-Webseite http://www.tpc.org/tpce/results/tpce_result_detail.asp?id=112070501.
Seite 38 (59)
VERSION: 1.3  2012-10-09
Im Juli 2012 ist Fujitsu in der TPC-E Liste mit zehn PRIMERGY Veröffentlichungen vertreten:
Durchsatz
System und Prozessoren
Preis /
Performance
Watts/tpsE
Verfügbarkeitsdatum
TX300 S4 mit 2 × Xeon X5460
317.45 tpsE
$523.49 pro tpsE
-
30. August 2008
RX600 S4 mit 4 × Xeon X7350
492.34 tpsE
$559.88 pro tpsE
-
1. Januar 2009
721.40 tpsE
$459.71 pro tpsE
-
1. Januar 2009
800.00 tpsE
$343.91 pro tpsE
-
1. April 2009
2046.96 tpsE
$193.68 pro tpsE
-
1. September 2010
3800.00 tpsE
$245.82 pro tpsE
-
1. Oktober 2010
1246.13 tpsE
$191.48 pro tpsE
-
1. November 2010
1268.30 tpsE
$183.94 pro tpsE
0.93
1. März 2011
RX900 S2 mit 8 × Xeon E7-8870
4555.54 tpsE
$217.27 pro tpsE
1.00
1. Juli 2011
RX300 S7 mit 2 × Xeon E5-2690
1871.81 tpsE
$175.57 pro tpsE
0.69
17. August 2012
Weitere Informationen sowie alle TPC-E Ergebnisse können der TPC-Webseite (http://www.tpc.org/tpce)
entnommen werden.
Die folgende Grafik für 2-Sockel PRIMERGY Systeme mit den unterschiedlichen Prozessortypen zeigt die
gute Leistung des 2-Sockel-Systems PRIMERGY RX300 S7.
tpsE
$/tpsE
2500
tpsE
$/tpsE
500
523.49
2000
1,871.81
400
1500
343.91
300
1,246.13
1,268.30
1000
200
191.48
183.94
175.57
500
100
better
better
800.00
317.45
0
0
PRIMERGY
TX300 S4
2 × X5460
64 GB
PRIMERGY
RX300 S5
2 × X5570
96 GB
PRIMERGY
RX300 S6
2 × X5680
96 GB
PRIMERGY
RX300 S6
2 × X5690
96 GB
PRIMERGY
RX300 S7
2 × E5-2690
512 GB
Gegenüber der PRIMERGY RX300 S6 beträgt der Leistungsgewinn +48% und gegenüber der PRIMERGY
RX300 S5 +134%. Der Preis pro Performance ist $175.57/tpsE. Die Kosten reduzieren sich gegenüber der
PRIMERGY RX300 S6 auf 95% und gegenüber der PRIMERGY RX300 S5 auf 51%.
Seite 39 (59)
VERSION: 1.3  2012-10-09
Die folgende Übersicht zeigt die besten TPC-E Ergebnisse (Stand 5. Juli 2012) und die zugehörigen
Preis/Performance-Werte für Konfigurationen mit zwei Prozessoren. Dabei erreicht PRIMERGY RX300 S7
mit 1871.71 tpsE den höchsten Performance-Wert in dieser Klasse. Der Preis/Performance-Wert von
$175.57/tpsE ist der zweitbeste Wert bei den hier betrachteten TPC-E Veröffentlichungen.
System
Prozessoren
tpsE
(höher ist besser)
$/tpsE Verfügbar(niedriger ist besser) keitsdatum
2×E5-2690
1871.71
175.57
2012-08-17
IBM
System x3650 M4
2×E5-2690
1863.23
207.85
2012-05-31
IBM
System x3690 X5
2×E7-2870
1560.70
143.32
2011-05-27
HP
ProLiant DL380 G7 Server
2×X5690
1284.14
250.00
2011-05-04
Fujitsu
PRIMERGY RX300 S6
12x2.5
2×X5690
1268.30
183.94
2011-03-01
2×X5680
1246.13
191.48
2010-11-01
HP
ProLiant DL385 G7 Server 2×6282 SE
1232.84
257.00
2011-12-31
HP
ProLiant DL380G7
2×X5680
1110.10
294.00
2010-05-11
Dell
PowerEdge T710
2×X5680
1074.14
264.32
2010-06-21
HP
ProLiant DL385G7
2×6176 SE
887.38
296.00
2010-05-06
Weitere Informationen sowie alle TPC-E Ergebnisse können der TPC-Webseite (http://www.tpc.org/tpce)
entnommen werden.
Seite 40 (59)
VERSION: 1.3  2012-10-09
Die TPC-E Konfiguration mit der PRIMERGY RX300 S7 als Datenbankserver erreicht mit 0.69 Watts/tpsE
das beste TPC-E TPC-Energy Ergebnis aller TPC-E TPC-Energy Veröffentlichungen.
Gegenüber der TPC-E Konfiguration mit dem Vorgängersystem PRIMERGY RX300 S6 als Datenbankserver
hat sich die Energieeffizienz der Gesamtkonfiguration, dokumentiert in „Watts/tpsE―, um 25% gesteigert.
Alle veröffentlichten Fujitsu TPC-Energy Ergebnisse lassen die zwei bisher veröffentlichten Ergebnisse des
Mitbewerbs weit hinter sich.
TPC-E
TPC-Energy: Primery Metric
[Watts/tpsE]
8
6.72
6
5.84
better
4
2
0.69
0.93
Fujitsu 1)
PRIMERGY
RX300 S7
Fujitsu 2)
PRIMERGY
RX300 S6
1.00
1.09
0
Fujitsu 3)
Fujitsu 4)
PRIMERGY PRIMEQUEST
RX900 S2
1800E2
HP 5)
ProLiant
DL580 G7
HP 6)
ProLiant
DL585 G7
Weitere Informationen sowie alle TPC-E und TPC-Energy Ergebnisse können der TPC-Webseite
(http://www.tpc.org/tpce) entnommen werden.
1)
2)
3)
4)
5)
6)
Fujitsu PRIMERGY RX300 S7 1871.81 tpsE, $175.57/tpsE, 0.69 Watts/tpsE, availability date 08/17/2012
Fujitsu PRIMEQUEST 1800E2 4414.79 tpsE, $226.19/tpsE, 1.09 Watts/tpsE, availability date 07/01/2011
HP ProLiant DL580 G7 2001.12 tpsE, $347.00/tpsE, 5.84 Watts/tpsE, availability date 06/21/2010
HP ProLiant DL585 G7 1400.14 tpsE, $330.00/tpsE, 6.72 Watts/tpsE, availability date 06/21/2010
Seite 41 (59)
VERSION: 1.3  2012-10-09
vServCon
vServCon ist ein bei Fujitsu Technology Solutions verwendeter Benchmark zum Vergleich von
Serverkonfigurationen mit Hypervisor in Bezug auf ihre Eignung für Server-Konsolidierung. Hiermit ist sowohl
der Vergleich von Systemen, Prozessoren und I/O-Technologien möglich, wie auch der Vergleich von
Hypervisor-en, Virtualisierungsformen und zusätzlichen Treibern für virtuelle Maschinen.
Bei vServCon handelt es sich nicht um einen neuen Benchmark im eigentlichen Sinn. Es ist vielmehr ein
Framework, das bereits etablierte Benchmarks, ggf. auch in modifizierter Form, als Workloads
zusammenfasst, um die Last einer konsolidierten und virtualisierten Serverumgebung nachzubilden. Es
kommen drei bewährte Benchmarks zum Einsatz, die die Anwendungsszenarien Datenbank,
Applikationsserver und Web-Server abdecken.
Anwendungsszenario
Benchmark
Anzahl logischer CPU-Cores
Memory
Database
Sysbench (angepasst)
2
Java-Applikationsserver
SPECjbb (angepasst, mit 50% - 60% Last)
2
2 GB
Webserver
WebBench
1
1.5 GB
1.5 GB
Jedes der drei Anwendungsszenarien wird jeweils einer dedizierten virtuellen Maschine (VM) zugeordnet.
Hinzu kommt eine vierte, so genannte Idle-VM. Diese vier VMs bilden eine „Tile― (engl. Kachel). Durch die
Leistungsfähigkeit der zugrunde liegenden Server-Hardware ist es meist notwendig, dass im Rahmen einer
Messung mehrere identische Tiles parallel gestartet werden müssen um eine maximale GesamtPerformance zu erreichen.
System under Test
Database
VM
Java
VM
Web
VM
…
Database
Java
VM
VM
Database
Java
VM
VM
Database
Java
VM
VM
Web
VM
Web
VM
Web
VM
Idle
VM
Tile n
…
Idle
VM
Idle
VM
Idle
VM
Tile 3
Tile 2
Tile 1
Jedes der drei vServCon-Anwendungsszenarien ergibt für die jeweilige VM ein spezifisches Ergebnis in
Form von applikationsspezifischen Transaktionsraten. Um hieraus eine normalisierte Bewertungszahl zu
bilden, werden die einzelnen Ergebnisse für eine Tile in Relation zu den jeweiligen Ergebnissen eines
Referenzsystems gesetzt. Die daraus resultierenden relativen Performance-Werte werden geeignet
gewichtet und über alle VMs und Tiles aufsummiert. Das Ergebnis ist eine Bewertungszahl, „Score― genannt,
für diese Tile-Anzahl.
Diese Prozedur wird – in der Regel beginnend mit eins – für steigende Tile-Anzahlen durchgeführt, bis keine
signifikante Steigerung dieses vServCon-Scores mehr eintritt. Der finale vServCon-Score ist dann das
Maximum über die vServCon-Scores aller Tile-Anzahlen. Diese Bewertungszahl spiegelt somit den
maximalen Gesamtdurchsatz wider, den man durch den Betrieb des in vServCon definierten Mixes aus
vielen Anwendungs-VMs bis zur möglichst vollständigen Ausnutzung der CPU-Ressourcen erzielen kann.
Dabei ist die Messumgebung für vServCon so ausgelegt, dass nur die CPU der begrenzende Faktor ist und
keine Limitierungen durch andere Ressourcen eintreten.
Der Verlauf der vServCon-Scores über die Tile-Anzahlen liefert nützliche Informationen über das
Skalierungsverhalten des „System under Test―.
Ferner werden bei vServCon die Gesamt-CPU-Auslastung des Hosts (VMs und alle übrigen CPUAktivitäten) und soweit möglich die elektrische Leistungsaufnahme dokumentiert.
Eine ausführliche Beschreibung von vServCon ist zu finden im Übersichtsdokument: Benchmark-Überblick
vServCon.
Seite 42 (59)
VERSION: 1.3  2012-10-09
Benchmark-Umgebung
FrameworkController
Server
Disk-Subsystem
Mehrere
1Gb oder 10Gb
Netzwerke
Lastgeneratoren
Alle Ergebnisse wurden exemplarisch auf einer PRIMERGY RX350 S7 ermittelt.
Hardware
Modell
PRIMERGY RX350 S7
Prozessor
Speicher
1 Prozessor:
2 Prozessoren: 16 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC
Netzwerk-Interface
1 × dual port 1GbE Adapter
1 × dual port 10GbE Server Adapter
Disk-Subsystem
1 × dual-channel FC-Controller Emulex LPe12002
ETERNUS DX80 Storage-Systeme:
Je Tile: 50 GB LUN
Je LUN: RAID 0 mit 2 × Seagate ST3300657SS-Disks (15 krpm)
Software
Betriebssystem
VMware ESX 5.0.0 Build 469512
Lastgenerator (inkl. Framework-Controller)
Hardware (Shared)
Gehäuse
PRIMERGY BX900
Hardware
Modell
18 × PRIMERGY BX920 S1 Server-Blades
Prozessor
2 × Xeon X5570
Speicher
12 GB
Netzwerk-Interface
3 × 1 Gbit/s LAN
Software
Betriebssystem
Microsoft Windows Server 2008 R2 Enterprise mit Hyper-V
Seite 43 (59)
VERSION: 1.3  2012-10-09
Lastgenerator-VM (pro Tile 3 Lastgenerator-VMs auf verschiedenen Server-Blades)
Hardware
Prozessor
1 × logische CPU
Speicher
512 MB
Netzwerk-Interface
2 × 1 Gbit/s LAN
Software
Betriebssystem
Microsoft Windows Server 2003 R2 Enterprise Edition
Seite 44 (59)
VERSION: 1.3  2012-10-09
Prozessor
RX200 S7
RX300 S7
RX350 S7
TX300 S7
BX924 S3
CX250 S1
CX270 S1
Die hier behandelten PRIMERGY Zwei-Sockel-Systeme basieren auf Intel Xeon Prozessoren der Serie
E5-2600. Die Eigenschaften der Prozessoren sind im Kapitel „Technische Daten― zusammengestellt.
Die verfügbaren Prozessoren dieser Systeme mit ihren Ergebnissen zeigt folgende Tabelle.
#Tiles
2 Cores, HT, TM E5-2637







4
3.58
E5-2603







4
3.18
E5-2609







4
4.09
4 Cores, HT, TM E5-2643







4
7.02
E5-2620







7
7.44
E5-2630L







7
7.45
E5-2630







7
8.30
E5-2640







7
8.80
E5-2667







7
9.93
E5-2650L







8
8.77
E5-2650







8
10.4
E5-2660







8
11.4
E5-2665







8
11.7
E5-2670







8
12.5
E5-2680







8
12.8
E5-2690







8
13.5
Xeon E5-2600 Serie
4 Cores
6 Cores
HT, TM
8 Cores
HT, TM
Score
HT = Hyper-Threading, TM = Turbo-Modus
Diese PRIMERGY Zwei-Sockel-Systeme sind durch weitere Fortschritte in der Prozessortechnologie gut für
die Virtualisierung von Anwendungen geeignet. Verglichen mit einem System basierend auf der vorherigen
Prozessorgeneration ist eine etwa 40% höhere Virtualisierungs-Performance (gemessen in vServCon-Score
in der jeweils größten Konfiguration) erreichbar.
Die relativ großen Performance-Unterschiede zwischen den Prozessoren sind durch ihre Eigenschaften zu
erklären. Die Werte skalieren aufgrund der Anzahl der Cores, der Größe des L3-Caches und der CPUTaktfrequenz sowie durch die bei den meisten Prozessortypen vorhandenen Features Hyper-Threading und
Tubo-Modus. Darüber hinaus bestimmt auch die Datenübertragungsrate zwischen den Prozessoren („QPI
Speed―) die Performance. Grundsätzlich hat auch die Speicherzugriffsgeschwindigkeit Auswirkungen auf die
Leistung. Als Richtschnur für die Auswahl von Arbeitsspeicher gilt im Virtualisierungsumfeld, dass eine
ausreichende Menge wichtiger ist als die Geschwindigkeit der Speicherzugriffe.
Näheres zur Thematik „Speicher-Performance― und zur QPI-Architektur ist zu finden im White Paper
Speicher-Performance Xeon E5-2600 (Sandy Bridge-EP) basierter Systeme.
Seite 45 (59)
VERSION: 1.3  2012-10-09
Die erste Grafik vergleicht die mit den hier betrachteten Prozessortypen erreichbaren Werte der
Virtualisierungs-Performance.
8
E5-2650
E5-2660
8
8
8
8
E5-2690
8
E5-2680
8
E5-2670
7
E5-2665
7
E5-2650L
E5-2630L
7
E5-2667
7
E5-2640
7
E5-2630
4
E5-2620
E5-2603
4
E5-2643
4
E5-2609
4
E5-2637
#Tiles
14
Final vServCon Score
12
10
8
6
4
2
0
2 Core
4 Core
6 Core
8 Core
Den Einstieg stellt der Xeon E5-2637 als Prozessor mit nur zwei Kernen dar. Eine ähnlich geringe Leistung
zeigen die Xeon E5-2603 und E5-2609 Prozessoren, da sie ohne Hyper-Threading (HT) und Turbo-Mode
(TM) auskommen müssen. Grundsätzlich sind diese schwächsten Prozessoren für das
Virtualisierungsumfeld nur bedingt geeignet.
Einen weiteren Leistungssprung erreicht der Prozessor mit vier Kernen, der sowohl Hyper-Threading als
auch den Turbo-Modus unterstützt (Xeon E5-2643).
Bei den 8-Core Varianten tragen deutlich der L3-Cache und die Datenübertragungsrate, neben der Anzahl
der Kerne, zu der jeweiligen Leistungssteigerung gegenüber den 6-Core Varianten bei.
Innerhalb einer Gruppe von Prozessoren mit gleicher Core-Anzahl sieht man eine Skalierung über die CPUTaktfrequenz.
× 1.94
13.50@8 tiles
10
6.95@4 tiles
Final vServCon Score
15
1 x E5-2690
2 x E5-2690
5
0
Seite 46 (59)
Bisher wurde die Virtualisierungs-Performance eines voll
ausgebauten Systems betrachtet. Bei einem Server mit zwei
Sockeln stellt sich jedoch auch die Frage, wie gut die Performance
von einem auf zwei Prozessoren skaliert. Je besser die
Skalierung, desto geringer ist der Overhead, der durch die
gemeinsame Nutzung der Ressourcen innerhalb eines Servers
üblicherweise entsteht. Der Skalierungsfaktor hängt auch von der
Anwendung ab. Dient der Server als Virtualisierungsplattform für
die Server-Konsolidierung, skaliert das System mit dem Faktor
1.94. Beim Betrieb mit zwei Prozessoren erreicht das System also
fast die doppelte Leistung wie mit einem Prozessor, wie die
nebenstehende Grafik am Beispiel der Prozessorvariante Xeon
E5-2690 verdeutlicht.
VERSION: 1.3  2012-10-09
10.4
10.1
9.59
8.64
7.46
5.96
4.22
2.02
7.44
7.38
7.20
6.39
5.35
3.83
1.97
vServCon score
Die nächste Grafik veranschaulicht die Virtualisierungs-Performance für wachsende VM-Anzahlen am
Beispiel der Prozessoren Xeon E5-2620 (6-Core) und E5-2650 (8-Core). Zusätzlich sind die jeweiligen CPUAuslastungen des Hosts eingetragen. Im Bereich um 90% liegen typischerweise die Tile-Anzahlen mit
optimaler CPU-Ausnutzung; jenseits
davon liegt der Überlastbereich, in
E5-2620
E5-2650
dem die Virtualisierungs-Performance
12
100%
nicht mehr zunimmt bzw. wieder
---- CPU Util %
90%
abnimmt.
10
Neben
der
erhöhten
Anzahl
80%
physikalischer Cores ist das Hyper70%
Threading, das fast alle Xeon
8
Prozessoren der E5-2600 Serie
60%
unterstützen, ein weiterer Grund für
die hohe Anzahl betreibbarer VMs.
6
50%
Hierdurch wird bekanntermaßen ein
40%
physikalischer Prozessorkern in zwei
4
logische Cores unterteilt und damit
30%
die für den Hypervisor verfügbare
Anzahl Cores verdoppelt. Dieses
20%
2
standardmäßig eingestellte Feature
10%
steigert daher im Allgemeinen die
Virtualisierungs-Performance
eines
0
0%
Systems.
1 2 3 4 5 6 7
1 2 3 4 5 6 7 8
#Tiles
Der in der vorangegangenen Grafik dargestellte Verlauf der Skalierungskurve über die Tile-Anzahl ist
spezifisch für Systeme mit Hyper-Threading. Bei den Prozessoren Xeon E5-2650 stehen 16 physikalische
und damit 32 logische Cores zur Verfügung, und pro Tile werden etwa vier davon verwendet (siehe
Benchmark-Beschreibung). Das bedeutet, dass bis etwa vier Tiles eine parallele Nutzung gleicher
physikalischer Cores durch mehrere VMs vermieden wird. Daher skaliert die Performance in diesem Bereich
nahezu ideal. Darüber verläuft der Performance-Zuwachs bis zur CPU-Sättigung flacher.
Das vorige Bild hat den Aspekt der summierten Performance über alle Anwendungs-VMs eines Hosts
betrachtet. Genauso interessant ist aber auch die Performance aus Sicht einer einzelnen Anwendungs-VM.
Diese Information lässt sich ebenfalls aus dem vorigen Bild entnehmen. Im oben dargestellten Fall des Xeon
E5-2650 beispielsweise wird bei 24 Anwendungs-VMs (acht Tiles, die Idle-VMs nicht mitgezählt) das
Gesamtoptimum erreicht; der Niedriglastfall wird durch drei Anwendungs-VMs (eine Tile, die Idle-VM nicht
mitgezählt) repräsentiert. Man rufe sich in Erinnerung: der vServCon-Score für eine Tile ist ein
Durchschnittswert über die drei Anwendungsszenarien in vServCon. Diese durchschnittliche Performance
einer einzelnen Tile sinkt beim Übergang vom Niedriglastfall zum Gesamtoptimum des vServCon-Scores
von 2.02 auf 10.4/8=1.3, also auf 64%. Dabei können die einzelnen Typen von Anwendungs-VMs im
Hochlastfall durchaus unterschiedlich reagieren. Hierdurch wird deutlich, dass man bezüglich der VMAnzahlen auf einem Virtualisierungs-Host im konkreten Fall die Performance-Anforderungen einer einzelnen
Anwendung gegen die Gesamtanforderungen abwägen muss.
Seite 47 (59)
VERSION: 1.3  2012-10-09
Die virtualisierungsrelevanten Fortschritte in der Prozessortechnologie seit dem Jahre 2008 wirken zum
einen auf eine einzelne VM und zum anderen auf die maximal mögliche Anzahl von VMs bis zur CPUSättigung. Die folgende Gegenüberstellung arbeitet die Anteile der beiden Arten von Verbesserungen
heraus. Verglichen werden vier Systeme mit annähernd gleicher Prozessorfrequenz: ein System von 2008
mit 2 × Xeon E5420, ein System von 2009 mit 2 × Xeon E5540, ein System von 2011 mit. 2 × Xeon E5649
und ein aktuelles System mit 2 × Xeon E5-2670.
Virtualisierungsrelevante Fortschritte
16
Wenige VMs (1 Tile)
Score bei optimaler Tile-Anzahl
14
× 1.64
vServCon Score
12
10
× 1.47
8
× 2.02
6
4
× 1.30
2
0
2008
E5420
2.50 GHz
4C
2012
2011
2009
2008
TX300 S7
TX300 S6
TX300 S5
TX300 S4
2009
E5540
2.53 GHz
4C
2011
E5649
2.53 GHz
6C
RX200 S7
RX200 S6
RX200 S5
RX200 S4
2012
E5-2670
2.60 GHz
8C
RX300 S7
RX300 S6
RX300 S5
RX300 S4
2008
E5420
2.50 GHz
4C
2009
E5540
2.53 GHz
4C
2011
E5649
2.53 GHz
6C
2012
E5-2670
2.60 GHz
8C
Year
CPU
Freq.
#Cores
RX350 S7
BX924 S3 CX250 S1 CX270 S1
TX300 S6 BX620 S6 BX922 S2 BX924 S2
BX620 S5
BX620 S4
-
Die deutlichsten Performance-Fortschritte gab es von 2008 nach 2009 mit der Einführung der
1
Prozessorgeneration Xeon 5500 (z. B. durch das Feature „Extended Page Tables―, kurz EPT ). Hier zeigte
sich bei wenigen VMs (eine Tile) eine Steigerung des vServCon-Scores um den Faktor 1.30.
Bei Vollauslastung der Systeme mit VMs ergab sich eine Steigerung um den Faktor 2.02. Die eine Ursache
hierfür war die für eine einzelne VM realisierbare Performance-Steigerung (siehe Score für wenige VMs). Die
andere Ursache lag darin, dass beim Gesamtoptimum mehr VMs möglich waren (durch Hyper-Threading).
Es ist allerdings auch zu erkennen, dass das Optimum bei der dreifachen Anzahl von VMs erkauft wurde mit
einer verringerten Leistung der einzelnen VM.
Worin liegen jetzt die Technologiefortschritte von 2009 nach 2012? Die Performance für eine einzelne VM in
Niedriglastsituationen ist für die hier verglichenen Prozessoren annähernd gleicher Taktfrequenz, aber
unterschiedlicher Cache-Größe und Geschwindigkeit der Speicheranbindung, annähernd gleich geblieben.
Die entscheidenden Fortschritte liegen in der höheren Anzahl physikalischer Cores und – damit verbunden –
in den gesteigerten Werten der reinen Performance (Faktor 1.47 und 1.64 in der Grafik).
Es sei noch einmal ausdrücklich davor gewarnt, die durch den Score ausgedrückte gesteigerte
Virtualisierungs-Performance komplett als Verbesserung für eine einzelne VM zu erhoffen. Mehr als etwa
30% - 50% mehr Durchsatz gegenüber einem gleich getakteten Prozessor der Generation Xeon 5400 aus
dem Jahre 2008 ist hier nicht möglich. Performance-Steigerungen im Virtualisierungsumfeld werden seit
2009 hauptsächlich durch Steigerungen der VM-Anzahl aufgrund von mehr verfügbaren logischen oder
physikalischen Cores erreicht.
1
EPT beschleunigt die Virtualisierung von Memory durch eine Hardware-Unterstützung für die Umsetzung zwischen
Host- und Gast-Memory-Adressen.
Seite 48 (59)
VERSION: 1.3  2012-10-09
VMmark V2
VMmark V2 ist ein von VMware entwickelter Benchmark zum Vergleich von Serverkonfigurationen mit
Hypervisor-Lösungen von VMware in Bezug auf ihre Eignung für Server-Konsolidierung. Neben der Software
zur Lastgenerierung besteht der Benchmark aus einem definierten Lastprofil und aus einem verbindlichen
Regelwerk. Die Benchmark-Ergebnisse können bei VMware eingereicht werden und werden nach einem
erfolgreich durchlaufenen Review-Prozess auf deren Internet-Seite veröffentlicht. Nachdem der bewährte
Benchmark „VMmark V1― im Oktober 2010 eingestellt wurde, gibt es den Nachfolger „VMmark V2―, der ein
Cluster aus mindestens zwei Servern voraussetzt und Datacenter-Funktionen wie Cloning und Deployment
von virtuellen Maschinen (VMs), Load Balancing sowie die Verschiebung von VMs durch vMotion und auch
Storage vMotion mit abdeckt.
Bei VMmark V2 handelt es sich nicht um einen neuen Anwendungsszenario Last-Tool
# VMs
Benchmark im eigentlichen Sinn. Es ist vielmehr ein
LoadGen
1
Framework, das bereits etablierte Benchmarks als Mail-Server
Olio client
2
Workloads zusammenfasst, um die Last einer Web 2.0
konsolidierten und virtualisierten Serverumgebung E-Commerce
DVD Store 2 client
4
nachzubilden. Drei bewährte Benchmarks, die die
Standby-Server
(IdleVMTest)
1
Anwendungsszenarien Mail-Server, Web 2.0 und
E-Commerce abdecken, wurden in VMmark V2 integriert.
Die drei Anwendungsszenarien werden jeweils insgesamt sieben dedizierten VMs zugeordnet. Hinzu kommt
eine achte VM, der so genannte Standby-Server. Diese acht VMs bilden eine „Tile― (englisch für „Kachel―).
Durch die Leistungsfähigkeit der zugrunde liegenden Server-Hardware ist es meist notwendig, dass im
Rahmen einer Messung mehrere identische Tiles parallel gestartet werden müssen um eine maximale
Gesamt-Performance zu erreichen.
Neu bei VMmark V2 ist eine Infrastruktur-Komponente, die einmal je zwei Hosts vorhanden ist. Diese misst
Fähigkeiten der Datacenter-Konsolidierung durch VM Cloning und Deployment, vMotion und Storage
vMotion. Zusätzlich wird die Load Balancing Fähigkeit des Datacenters eingesetzt (DRS, Distributed
Resource Scheduler).
Das Ergebnis von VMmark V2 ist eine Zahl, „Score― genannt, die Aufschluss über die Leistungsfähigkeit der
vermessenen Virtualisierungslösung gibt. Der Score spiegelt für eine Server-Konfiguration mit Hypervisor
den maximalen summarischen Konsolidierungs-Nutzen über alle Hosts und VMs wider und dient als
Vergleichskriterium von verschiedenen Hardwareplattformen.
Dieser Score wird aus den Einzelergebnissen der VMs und einem Infrastruktur-Ergebnis ermittelt. Jede der
fünf VMmark V2 Anwendungs- bzw. Front End-VMs ergibt für jede VM ein spezifisches Ergebnis in Form von
anwendungsspezifischen Transaktionsraten. Um hieraus eine normalisierte Bewertungszahl zu bilden,
werden die einzelnen Ergebnisse für eine Tile in Relation zu den jeweiligen Ergebnissen eines
Referenzsystems gesetzt. Die daraus resultierenden dimensionslosen Performance-Werte werden dann für
diese Tile geometrisch gemittelt und als letztes über alle Tiles aufsummiert. Dieser Wert geht mit einer
Gewichtung von 80% in den Gesamt-Score ein. Der Infrastruktur-Workload ist im Benchmark nur einmal pro
zwei Hosts vorhanden; er bestimmt das Resultat zu 20%. Für die Infrastruktur-Workload-Komponenten
werden jeweils die Anzahl der Transaktionen pro Stunde und die durchschnittliche Dauer in Sekunden für
den Score ermittelt.
Neben dem eigentlichen Score wird bei jedem VMmark V2 Ergebnis die Anzahl Tiles mit angegeben. Das
ausgewiesene Resultat hat dann die Form „Score@Number of Tiles―, beispielsweise „4.20@5 Tiles―.
Eine ausführliche Beschreibung von VMmark V2 ist im Übersichtsdokument Benchmark Overview VMmark
V2 zu finden.
Seite 49 (59)
VERSION: 1.3  2012-10-09
Benchmark-Umgebung
Clients & Management
Server(s)
Storage-System
Mehrere
1Gb oder 10Gb
Netzwerke
Lastgeneratoren
inkl. Prime-Client und
Datacenter Management
Server
vMotion
Netzwerk
System under Test (SUT)
Hardware
Anzahl Server
2
Modell
PRIMERGY RX300 S7
Prozessor
2 × Xeon E5-2690
Speicher
256 GB: 16 × 16 GB (1x16GB) 2Rx4 L DDR3-1600 R ECC
Netzwerk-Interface
1 × dual port 1GbE Adapter
1 × dual port 10GbE Server Adapter
1 × quad port 1GbE Adapter
Disk-Subsystem
1 × dual-channel FC-Controller Emulex LPe12002
ETERNUS DX80 S1 und S2 Storage-Systeme:
Je Tile: 241 GB
Je DX80: RAID 0 mit mehreren LUNs
Gesamt: 118 Festplatten (inkl. SSDs)
Software
BIOS
Version V4.6.5.1 R1.4.0
BIOS-Einstellungen
Siehe Details
Betriebssystem
VMware ESX 4.1.0 U2 Build 502767
ESX-Einstellungen: siehe Details
Seite 50 (59)
VERSION: 1.3  2012-10-09
Prime-Client/Datacenter Management Server (DMS)
Hardware (Shared)
Gehäuse
PRIMERGY BX600
Netzwerk-Switch
1 × PRIMERGY BX600 GbE Switch Blade 30/12
Hardware
Modell
1 × Server-Blade PRIMERGY BX620 S4
Prozessor
2 × Xeon X5470
Speicher
4 GB
Netzwerk-Interface
2 × 1 Gbit/s LAN
Software
Betriebssystem
Prime Client:
DMS:
Microsoft Windows Server 2003 R2 Enterprise Edition SP2, KB955839
Microsoft Windows Server 2003 R2 Enterprise x64 Edition SP2, KB955839
Lastgenerator
Hardware
Modell
Prozessor
4 × Xeon E7-4870
Speicher
512 GB
Netzwerk-Interface
1 × 1 Gbit/s LAN
2 × 10 Gbit/s LAN
Software
Betriebssystem
VMware ESX 4.1.0 U2 Build 502767
Lastgenerator-VMs (pro Tile 1 Lastgenerator-VM)
Hardware
Prozessor
4 × logische CPU
Speicher
4 GB
Netzwerk-Interface
1 × 1 Gbit/s LAN
Software
Betriebssystem
Microsoft Windows Server 2008 Enterprise x64 Edition SP2
Details
Siehe Disclosure
http://www.vmware.com/a/assets/vmmark/pdf/2012-05-01-Fujitsu-RX300S7.pdf
Seite 51 (59)
VERSION: 1.3  2012-10-09
Am 01. Mai 2012 erzielte Fujitsu mit einer PRIMERGY RX300 S7 mit Xeon E5-2690 Prozessoren und
VMware ESX 4.1.0 U2 einen VMmark V2-Score von „11.02@10 tiles― in einer Systemkonfiguration mit
insgesamt 2 × 16 Prozessorkernen beim Einsatz von zwei identischen Servern im „System under Test―
(SUT). Mit diesem Ergebnis ist die PRIMERGY RX300 S7 in der offiziellen VMmark V2-Rangliste einer der
leistungsstärksten 2-Sockel-Server in einer „matched pair― Konfiguration aus zwei identischen Hosts (zum
Zeitpunkt der Veröffentlichung des Benchmark-Ergebnisses).
Die aktuellen VMmark V2-Ergebnisse sowie die ausführlichen Resultate und Konfigurationsdaten sind zu
finden unter http://www.vmware.com/a/vmmark/.
Vergleich der Systemgenerationen
12
x1.45
6
4
2
7.59@7 tiles
8
11.02@10 tiles
VMmark V2 Score
10
Im Vergleich mit einem PRIMERGY System der
Vorgängergeneration mit Xeon X5690 Prozessoren
erreicht man bei VMmark V2 eine Leistungssteigerung
von ca. 45%.
Die nebenstehende Grafik zeigt das Ergebnis der
PRIMERGY RX300 S7 im Vergleich zum Vorgängersystem PRIMERGY RX300 S6.
0
2 × Fujitsu
PRIMERGY RX300 S7
2 × Xeon
E5-2690
2 × Fujitsu
PRIMERGY RX300 S6
2 × Xeon
X5690
Wesentliche Voraussetzungen zur Erreichung des Ergebnisses der PRIMERGY RX300 S7 waren die
verwendeten Prozessoren, die bei gut eingestelltem Hypervisor seine Prozessor-Features inklusive HyperThreading optimal nutzen konnten. All dies wirkt sich speziell bei der Virtualisierung positiv aus.
Alle VMs, deren Anwendungsdaten, das Host-Betriebssystem sowie weitere erforderliche Daten befanden
sich auf einem leistungsfähigen Fibre-Channel Disk-Subsystem aus ETERNUS DX80 Systemen. Die
Einrichtung des Disk-Subsystems berücksichtigt möglichst die spezifischen Anforderungen des Benchmarks.
Der Einsatz von SSDs (Solid State Disk) in der leistungsstärkeren ETERNUS DX80 S2 brachte weitere
Vorteile bei den Antwortzeiten der eingesetzten Festplatten.
Der Netzwerkanschluss der Lastgeneratoren und die Infrastruktur-Workload Verbindung zwischen den Hosts
wurden über die 10Gb LAN Ports realisiert.
Alle verwendeten Komponenten wurden dabei optimal aufeinander abgestimmt.
Seite 52 (59)
VERSION: 1.3  2012-10-09
STREAM
STREAM ist ein seit vielen Jahren eingesetzter synthetischer Benchmark zur Ermittlung des
Speicherdurchsatzes, der von John McCalpin während seiner Professur an der Universität in Delaware
entwickelt wurde. Heute wird STREAM an der Universität von Virginia betreut. Dort kann der Quellcode
wahlweise in Fortran oder C heruntergeladen werden. Besonders im HPC-Umfeld spielt STREAM nach wie
vor eine wichtige Rolle. So ist er z.B. Bestandteil der HPC Challenge Benchmark-Suite.
Der Benchmark ist so konzipiert, dass er sowohl auf PCs als auch auf Serversystemen eingesetzt werden
kann. Die Maßeinheit des Benchmarks ist GB/s, also die Anzahl Gigabytes, die pro Sekunde gelesen und
geschrieben werden kann.
STREAM misst den Speicherdurchsatz bei sequentiellen Zugriffen. Diese können generell effizienter
durchgeführt werden als Zugriffe, die zufällig auf den Speicher verteilt sind, da bei sequentiellem Zugriff die
CPU-Caches genutzt werden.
Vor der Ausführung wird der Quellcode der zu vermessenden Umgebung angepasst. So muss die Größe
des Datenbereiches mindestens viermal höher sein als die Summe aller CPU Caches, damit diese einen
möglichst geringen Einfluss auf das Ergebnis nehmen. Mit Hilfe der OpenMP-Programmbibliothek können
ausgewählte Programmteile während der Laufzeit des Benchmarks parallel ausgeführt werden, wodurch
eine optimale Lastverteilung auf die verfügbaren Prozessorkerne erreicht wird.
Bei der Ausführung wird der definierte Datenbereich, bestehend aus 8-Byte-Elementen, nacheinander auf
vier Arten kopiert, wobei teilweise zusätzlich arithmetische Berechnungen durchgeführt werden.
Art
Ausführung
Bytes je Schritt
Gleikommarechnung je Schritt
COPY
a(i) = b(i)
16
0
SCALE
a(i) = q × b(i)
16
1
SUM
a(i) = b(i) + c(i)
24
1
TRIAD
a(i) = b(i) + q × c(i)
24
2
Bei jeder Berechnungs-Art wird der Durchsatz in GB/s ausgegeben. Die Unterschiede der verschiedenen
Werte sind auf modernen Systemen in der Regel nur gering. Zum Vergleich wird im Allgemeinen nur noch
der ermittelte TRIAD-Wert verwendet.
Die Messergebnisse hängen in erster Linie von der Taktfrequenz der Speichermodule ab, die CPUs
beeinflussen die arithmetischen Berechnungen. Die Genauigkeit der Ergebnisse beträgt etwa 5%.
9
In diesem Kapitel sind Durchsätze durchgängig zur Basis 10 angegeben (1 GB/s = 10 Byte/s).
Benchmark-Umgebung
Hardware
Modell
PRIMERGY RX300 S7
Prozessor
2 Prozessoren der Xeon E5-2600 Prozessorserie
Speicher
Software
BIOS-Einstellungen
Hyper-Threading = Disabled
Betriebssystem
echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled
Compiler
Intel C Compiler 12.1
Benchmark
Stream.c Version 5.9
Seite 53 (59)
VERSION: 1.3  2012-10-09
Prozessor
Cores
Prozessorfrequenz
[Ghz]
Max. Speicherfrequenz
[MHz]
TRIAD
[GB/s]
2 × Xeon E5-2637
2
3.00
1600
41.1
2 × Xeon E5-2603
4
1.80
1067
48.1
2 × Xeon E5-2609
4
2.40
1067
53.9
2 × Xeon E5-2643
4
3.30
1600
75.4
2 × Xeon E5-2630L
6
2.00
1333
68.7
2 × Xeon E5-2620
6
2.00
1333
68.7
2 × Xeon E5-2630
6
2.30
1333
69.8
2 × Xeon E5-2640
6
2.50
1333
70.3
2 × Xeon E5-2667
6
2.90
1600
81.5
2 × Xeon E5-2650L
8
1.80
1600
71.4
2 × Xeon E5-2650
8
2.00
1600
77.0
2 × Xeon E5-2660
8
2.20
1600
78.5
2 × Xeon E5-2665
8
2.40
1600
79.3
2 × Xeon E5-2670
8
2.60
1600
80.0
2 × Xeon E5-2680
8
2.70
1600
79.5
2 × Xeon E5-2690
8
2.90
1600
80.7
Die Ergebnisse sind primär abhängig von der maximalen Speicherfrequenz. Eine Ausnahme bildet der Xeon
E5-2637, der beim STREAM-Benchmark mit nur 2 Cores nicht alle 4 Kanäle des Memory-Controllers nutzt.
Die geringeren Unterschiede bei Prozessoren mit gleicher maximaler Speicherfrequenz ergeben sich bei der
arithmetischen Berechnung durch die unterschiedlichen Prozessorfrequenzen.
Die folgende Grafik verdeutlicht den Durchsatz der PRIMERGY RX300 S7 im Vergleich zu ihrem Vorgänger,
der PRIMERGY RX300 S6, in jeweils performantester Ausstattung.
STREAM TRIAD:
PRIMERGY RX300S7 vs. PRIMERGY RX300S6
GB/s
90
80
70
60
50
40
30
20
10
0
81.5
41.4
2 × Xeon X5667
2 × Xeon E5-2667
Seite 54 (59)
VERSION: 1.3  2012-10-09
LINPACK
LINPACK wurde in den 1970er Jahren von Jack Dongarra und anderen entwickelt, um die Leistungsfähigkeit
von Supercomputern zu zeigen. Der Benchmark besteht aus einer Sammlung von Bibliotheksfunktionen zur
Analyse und Lösung linearer Gleichungssysteme. Eine Beschreibung findet man in dem Dokument
http://www.netlib.org/utk/people/JackDongarra/PAPERS/hplpaper.pdf.
Mit LINPACK lässt sich die Geschwindigkeit eines Computers bei der Lösung eines N–dimensionalen
linearen Gleichungssystems messen. Das Ergebnis wird in GFlops (Giga Floating Point Operations per
Second) angegeben. Es ist ein Maß dafür, wie viele Gleitkommaoperationen pro Sekunde durchgeführt
werden. Die Anzahl der zur Lösung notwendigen Gleitkommaoperationen wird durch die Formel
2
3
2
/3 × N + 2 × N
bestimmt.
Für die Berechnung benötigt LINPACK eine Matrix der Größe N × N im Hauptspeicher, der Wert N steht
dabei für die Anzahl der zu lösenden Gleichungen. Die maximale Performance wird erreicht, wenn durch die
Wahl dieses Wertes der noch zur Verfügung stehende Hauptspeicher komplett genutzt werden kann. Die
Ermittlung dieses Grenzwertes ist allerdings sehr zeitaufwendig und die zu erwartende Steigerung des
Ergebnisses nur geringfügig. Auch die Speicherbandbreite des Systems hat auf das Ergebnis kaum Einfluss,
da während der Laufzeit hauptsächlich Gleitkommaberechnungen durchgeführt werden und ein
Datenaustausch zwischen den parallelen Prozessen nur selten stattfindet. Daher wird das BenchmarkErgebnis für einen Wert von N ermittelt, der etwas unterhalb des Maximalwertes liegt.
Im Umfeld des High Performance Computing (HPC) zählt LINPACK zu den führenden Benchmarks.
Innerhalb der HPC Challenge Benchmark-Suite, die weitere Aspekte der Leistungsfähigkeit im HPC-Umfeld
berücksichtigt, ist LINPACK einer von sieben aktuell enthaltenen Benchmarks.
Intel bietet eine LINPACK-Version an, die für Einzelsysteme mit Intel Prozessoren hoch optimiert wurde. Die
optimalen Parameterwerte werden von der Software auf Grund der aktuellen Prozessorarchitektur
selbständig ermittelt. Eine weitere von Intel zur Verfügung gestellte Version basiert auf hpl (HighPerformance Linpack) zum Einsatz auf verteilten Systemen, wobei die Kommunikation der Server
untereinander über Message Passing Interface (MPI) erfolgt. Bei dieser Version erfolgt die Einstellung der
Parameterwerte über eine Konfigurationsdatei. Beide Versionen können von http://software.intel.com/enus/articles/intel-math-kernel-library-linpack-download/ heruntergeladen werden.
Eine Veröffentlichung von LINPACK-Ergebnissen ist unter http://www.top500.org/ möglich. Voraussetzung
hierfür ist die Verwendung einer auf Message Passing Interface (MPI) basierten Version. (Siehe:
http://www.netlib.org/benchmark/hpl)
Die maximale theoretische Performance eines Prozessorkernes ergibt sich aus der Anzahl der
Gleitkommaoperationen, die innerhalb eines Taktzyklusses ausgeführt werden. So würde z.B. ein einzelner
Prozessorkern mit 2.4 GHz Taktfrequenz und 4 Gleitkommaoperationen pro Zyklus eine maximale
Performance von 9.6 GFlops erreichen. Das Verhältnis des gemessenen Ergebnisses zum maximalen Wert
zeigt die Effizienz des Systems bei Gleitkommaberechnungen. Je weniger Speicherzugriffe während der
Berechnung erforderlich sind, desto besser ist das Verhältnis.
Auch bei der Verwendung von Grafikkarten für General Purpose Computation on Graphics Processing Unit
(GPGPU) kommen herstellerspezifische LINPACK-Versionen zum Einsatz. Diese basieren auf hpl und
beinhalten Erweiterungen, die zur Kommunikation mit den Grafikkarten benötigt werden. Zur Laufzeit wird
die Rechenlast durch ein vom Anwender vorgegebenes Verhältnis auf die Systemprozessoren und die
Prozessoren der Grafikkarten verteilt. Das LINPACK-Resultat besteht demnach aus der Summe der
Leistungen der Systemprozessoren und der Grafikkarten, wobei die Systemprozessoren auf Grund des
Datentransfers zwischen Hauptspeicher und Grafikkarte nicht das Ergebnis erreichen, das ohne Grafikkarte
möglich wäre.
Seite 55 (59)
VERSION: 1.3  2012-10-09
Benchmark-Umgebung
Hardware
Modell
PRIMERGY RX300 S7
Prozessor
2 Prozessoren der Xeon-Serie E5-2600
Speicher
Software
BIOS-Einstellungen
Hyper-Threading = Disabled
Betriebssystem
Benchmark
xlinpack_xeon64 aus Intel Compiler 12.1
Seite 56 (59)
VERSION: 1.3  2012-10-09
Der zur Verfügung stehende Hauptspeicher von 128 GB erlaubt eine Dimension von N = 120000.
Prozessor
Cores
Prozessorfrequenz
[Ghz]
Max. Turbofrequenz
bei Volllast
[Ghz]
Theoretisches
Maximum
[GFlops]
LINPACK
Effizienz
[GFlops]
[%]
2 × Xeon E5-2637
2
3.00
3.50
112
101
90
2 × Xeon E5-2603
4
1.80
n/a
115
106
92
2 × Xeon E5-2609
4
2.40
n/a
154
140
91
2 × Xeon E5-2643
4
3.30
3.40
218
198
91
2 × Xeon E5-2630L
6
2.00
2.30
221
192
87
2 × Xeon E5-2620
6
2.00
2.30
221
204
92
2 × Xeon E5-2630
6
2.30
2.60
250
229
92
2 × Xeon E5-2640
6
2.50
2.80
269
247
92
2 × Xeon E5-2667
6
2.90
3.20
307
282
92
2 × Xeon E5-2650L
8
1.80
2.00
256
232
91
2 × Xeon E5-2650
8
2.00
2.40
307
280
91
2 × Xeon E5-2660
8
2.20
2.70
346
285
82
2 × Xeon E5-2665
8
2.40
2.80
358
314
88
2 × Xeon E5-2670
8
2.60
3.00
384
318
83
2 × Xeon E5-2680
8
2.70
3.10
397
347
87
2 × Xeon E5-2690
8
2.90
3.30
422
352
83
Für Prozessoren ohne Turbomodus lässt sich durch die Formel
GFlopsmax = Anzahl Gleitkommaoperationen pro Taktzyklus × Anzahl Prozessorkerne
× Prozessorfrequenz[GHz]
ein theoretischer Maximalwert errechnen.
Prozessoren, die über einen Turbomodus verfügen, sind durch die nominale Prozessorfrequenz nicht
limitiert und liefern daher keine konstante Prozessorfrequenz. Hier liegt die tatsächliche Prozessorfrequenz
zwischen der nominalen Prozessorfrequenz und der maximalen Turbofrequenz bei Volllast. Zur Berechnung
des theoretischen Maximums wird bei diesen Prozessoren folgende Formel verwendet:
GFlopsmax = Anzahl Gleitkommaoperationen pro Taktzyklus × Anzahl Prozessorkerne
× maximale Turbofrequenz bei Volllast[GHz]
Die folgende Grafik verdeutlicht den Durchsatz der PRIMERGY RX300 S7 im Vergleich zu ihrem Vorgänger,
der PRIMERGY RX300 S6, in jeweils performantester Ausstattung.
LINPACK:
GFlops
400
352
350
300
250
200
160
150
100
50
0
2 × Xeon X5690
2 × Xeon E5-2690
Seite 57 (59)
VERSION: 1.3  2012-10-09
Literatur
PRIMERGY Systeme
http://primergy.de/
PRIMERGY RX300 S7
Datenblatt
http://docs.ts.fujitsu.com/dl.aspx?id=29c4002e-158e-4aea-bbf6-aa2ff349e299
Speicher-Performance Xeon E5-2600/4600 (Sandy Bridge-EP) basierter Systeme
http://docs.ts.fujitsu.com/dl.aspx?id=afd4d4f2-e57d-46a4-868d-a54b1fe2690a
PRIMERGY Performance
http://www.fujitsu.com/de/products/computing/servers/primergy/benchmarks/
Disk-I/O
Grundlagen Disk-I/O-Performance
http://docs.ts.fujitsu.com/dl.aspx?id=3d4fbad8-2a7e-465f-b9ee-d43b711f636d
Performance einzelner Festplatten
http://docs.ts.fujitsu.com/dl.aspx?id=664c076d-f57b-4dcc-beeb-c40451554d92
RAID-Controller-Performance
http://docs.ts.fujitsu.com/dl.aspx?id=71fac54b-7ec3-4b3f-b13d-f80fbb42d583
Informationen über Iometer
http://www.iometer.org
LINPACK
http://www.netlib.org/linpack/
OLTP-2
Benchmark-Überblick OLTP-2
http://docs.ts.fujitsu.com/dl.aspx?id=743d7d46-56e8-41d2-9d50-9ab29ccf4d18
SAP SD
http://www.sap.com/solutions/benchmark/index.epx
Benchmark Überblick SAP SD
http://docs.ts.fujitsu.com/dl.aspx?id=ae039b1d-73d8-4946-ae60-08dcef54cfa8
SPECcpu2006
http://www.spec.org/osg/cpu2006
Benchmark Überblick SPECcpu2006
http://docs.ts.fujitsu.com/dl.aspx?id=04351fd2-8a69-42a3-ba1c-4342dcc89b89
SPECjbb2005
http://www.spec.org/jbb2005
Benchmark Überblick SPECjbb2005
http://docs.ts.fujitsu.com/dl.aspx?id=e8477909-3a17-40dd-8c64-ff338b6457a0
SPECpower_ssj2008
http://www.spec.org/power_ssj2008
Benchmark-Überblick SPECpower_ssj2008
http://docs.ts.fujitsu.com/dl.aspx?id=66467935-98dc-4374-80b2-3ddae4c73491
STREAM
http://www.cs.virginia.edu/stream/
Seite 58 (59)
VERSION: 1.3  2012-10-09
http://www.tpc.org/tpce
Benchmark Overview TPC-E (DE)
http://docs.ts.fujitsu.com/dl.aspx?id=08c95eef-5f18-4453-bed6-cbf9363f4e2f
VMmark V2
Benchmark-Überblick VMmark V2
http://docs.ts.fujitsu.com/dl.aspx?id=ea18bef0-c1ff-46ae-81b3-c47811f866de
VMmark V2
http://www.vmmark.com
VMmark V2 Ergebnisse
http://www.vmware.com/a/vmmark/
vServCon
Benchmark-Überblick vServCon
http://docs.ts.fujitsu.com/dl.aspx?id=214ee9dc-9239-4985-86e4-f0f9ac78ea25
Kontakt
FUJITSU
Website: http://www.fujitsu.com/de/
PRIMERGY Product Marketing
mailto:[email protected]
PRIMERGY Performance und Benchmarks
mailto:[email protected]
Alle Rechte vorbehalten, insbesondere gewerbliche Schutzrechte. Änderung von technischen Daten sowie Lieferbarkeit vorbehalten. Haftung oder Garantie
für Vollständigkeit, Aktualität und Richtigkeit der angegebenen Daten und Abbildungen ausgeschlossen. Wiedergegebene Bezeichnungen können Marken
und/oder Urheberrechte sein, deren Benutzung durch Dritte für eigene Zwecke die Rechte der Inhaber verletzen kann.
Weitere Einzelheiten unter http://www.fujitsu.com/de/resources/navigation/terms-of-use.html
2012-10-09 WW DE
Copyright © Fujitsu Technology Solutions 2012
Seite 59 (59)

Performance Report PRIMERGY RX300 S7

Transcrição

Documentos relacionados

03471 684-0 Fax.: 03471 684-2828 E-Mail

primergy tx200 s3

primergy sx10 - hardware

Datenblatt Fujitsu PRIMERGY SX940 S1 Storage Blade Disk

Mit Freigabe einer PCIe basierten Graphik Karte erfüllen

PRIMERGY RX200

Technische Details

Konsolidierung der IT-Landschaft

Hoher Ausfallschutz durch gespiegelte Rechenzentren

Datenblatt FUJITSU Server PRIMERGY SX960 S1 Storage Blade Disk