Performance Report PRIMERGY RX300 S7
Transcrição
Performance Report PRIMERGY RX300 S7
WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 WHITE PAPER FUJITSU PRIMERGY SERVER PERFORMANCE REPORT PRIMERGY RX300 S7 In diesem Dokument sind alle Benchmarks, die für die PRIMERGY RX300 S7 durchgeführt wurden, zusammengefasst. Ferner werden die Leistungsdaten der PRIMERGY RX300 S7 mit denen anderer PRIMERGY Modelle verglichen und diskutiert. Neben den Benchmark-Ergebnissen als solchen wird jeder Benchmark und die Umgebung, in der der Benchmark durchgeführt wurde, kurz erläutert. Version 1.3 2012-10-09 © Fujitsu Technology Solutions 2012 Seite 1 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Inhalt Dokumenthistorie ................................................................................................................................................ 3 Technische Daten ............................................................................................................................................... 4 SPECcpu2006 .................................................................................................................................................... 7 SPECjbb2005 ................................................................................................................................................... 14 SPECpower_ssj2008 ........................................................................................................................................ 16 Disk-I/O ............................................................................................................................................................. 23 SAP SD............................................................................................................................................................. 30 OLTP-2 ............................................................................................................................................................. 32 TPC-E mit TPC-Energy .................................................................................................................................... 36 vServCon .......................................................................................................................................................... 42 VMmark V2 ....................................................................................................................................................... 49 STREAM ........................................................................................................................................................... 53 LINPACK .......................................................................................................................................................... 55 Literatur............................................................................................................................................................. 58 Kontakt.............................................................................................................................................................. 59 Seite 2 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Dokumenthistorie Version 1.0 Neu: Technische Daten SPECcpu2006 Messungen mit Xeon-Prozessoren der Serie E5-2600 SPECjbb2005 Messung mit Xeon E5-2690 SPECpower_ssj2008 Messung mit Oracle Java HotSpot VM SAP SD Zertifikationsnummer 2012008 OLTP-2 Ergebnisse für Xeon Prozessoren der Serie E5-2600 vServCon Ergebnisse für Xeon Prozessoren der Serie E5-2600 STREAM Messungen mit Xeon-Prozessoren der Serie E5-2600 LINPACK Messungen mit Xeon-Prozessoren der Serie E5-2600 Version 1.1 Neu: VMmark V2 Messung mit Xeon E5-2690 Version 1.2 Neu: TPC-E mit TPC-Energy Messung mit Xeon E5-2690 Version 1.3 Neu: Disk I/O Messungen mit „LSI SW RAID on Intel C600 (Onboard SATA)―, „LSI SW RAID on Intel C600 (Onboard SAS)―, „RAID Ctrl SAS 6G 0/1―, „RAID Ctrl SAS 5/6 512MB (D2616)― und „RAID Ctrl SAS 6G 5/6 1GB (D3116)― Controllern Aktualisiert: SPECpower_ssj2008 Messung mit IBM J9 VM © Fujitsu Technology Solutions 2012 Seite 3 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Technische Daten PRIMERGY RX300 S7 Basiseinheit mit 6 3.5" HDDs (nicht erweiterbar) PRIMERGY RX300 S7 Basiseinheit mit 2.5"-HDD-Schächten (erweiterbar) In diesem White Paper werden bei Maßeinheiten Dezimalpräfixe nach SI-Standard verwendet (z.B. 1 GB = 9 10 Byte). Abweichend hiervon sind bei Kapazitäten von Caches und Speichermodulen diese Präfixe als 30 Binärpräfixe (z.B. 1 GB = 2 Byte) zu interpretieren. Im Falle weiterer Ausnahmen wird an entsprechender Stelle gesondert darauf hingewiesen. Modell PRIMERGY RX300 S7 Modellvarianten Basiseinheit mit 6 3.5"-HDD-Schächten (nicht erweiterbar) Basiseinheit mit 2.5"-HDD-Schächten (erweiterbar) Basiseinheit mit 8 2.5"-HDD-Schächten (nicht erweiterbar) Basiseinheit mit 12 2.5"-HDD-Schächten (nicht erweiterbar) Formfaktor Rack Server Chipsatz Intel C600 Serie Anzahl Sockel 2 Anzahl bestellbarer Prozessoren 1 oder 2 Prozessortyp Intel Xeon Serie E5-2600 Anzahl Speichersteckplätze 24 (12 pro Prozessor) Maximaler Speicherausbau 768 GB Onboard LAN-Controller 2 × 1 Gbit/s Onboard HDD-Controller Controller mit RAID 0, RAID 1 oder RAID 10 für bis zu 4 × 2.5" SATA HDDs Optional für Basiseinheit mit 2.5"-HDD-Schächten (erweiterbar): „SAS Enabling Key for Onboard Ports― für bis zu 4 × 2.5" SAS HDDs PCI-Steckplätze 5 PCI-Express 3.0 x8 2 PCI-Express 3.0 x16 Max. Anzahl interner Festplatten Basiseinheit mit 3.5"-HDD-Schächten: 6 Basiseinheit mit 2.5"-HDD-Schächten (erweiterbar): 16 Seite 4 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Cores Prozessor Threads Prozessoren (seit System-Release) Cache QPISpeed Prozessorfrequenz Max. Turbofrequenz Max. Speicherfrequenz TDP [Ghz] Max. Turbofrequenz bei Volllast [Ghz] [MB] [GT/s] [Ghz] [MHz] [Watt] Xeon E5-2637 2 4 5 8.00 3.00 3.50 3.50 1600 80 Xeon E5-2603 4 4 10 6.40 1.80 entf. entf. 1066 80 Xeon E5-2609 4 4 10 6.40 2.40 entf. entf. 1066 80 Xeon E5-2643 4 8 10 8.00 3.30 3.40 3.50 1600 130 Xeon E5-2630L 6 12 15 7.20 2.00 2.30 2.50 1333 60 Xeon E5-2620 6 12 15 7.20 2.00 2.30 2.50 1333 95 Xeon E5-2630 6 12 15 7.20 2.30 2.60 2.80 1333 95 Xeon E5-2640 6 12 15 7.20 2.50 2.80 3.00 1333 95 Xeon E5-2667 6 12 15 8.00 2.90 3.20 3.50 1600 130 Xeon E5-2650L 8 16 20 8.00 1.80 2.00 2.30 1600 70 Xeon E5-2650 8 16 20 8.00 2.00 2.40 2.80 1600 95 Xeon E5-2660 8 16 20 8.00 2.20 2.70 3.00 1600 95 Xeon E5-2665 8 16 20 8.00 2.40 2.80 3.10 1600 115 Xeon E5-2670 8 16 20 8.00 2.60 3.00 3.30 1600 115 Xeon E5-2680 8 16 20 8.00 2.70 3.10 3.50 1600 130 Xeon E5-2690 8 16 20 8.00 2.90 3.30 3.80 1600 135 8 1600 4GB (1x4GB) 2Rx8 L DDR3-1600 U ECC (4 GB 2Rx8 PC3L-12800E) 4 2 8 1600 4GB (1x4GB) 1Rx4 L DDR3-1333 R ECC (4 GB 1Rx4 PC3L-10600R) 4 1 4 1333 4GB (1x4GB) 1Rx4 L DDR3-1600 R ECC (4 GB 1Rx4 PC3L-12800R) 4 1 4 1600 4GB (1x4GB) 2Rx8 L DDR3-1600 R ECC (4 GB 2Rx8 PC3L-12800R) 4 2 8 1600 8GB (1x8GB) 2Rx4 L DDR3-1333 R ECC (8 GB 2Rx4 PC3L-10600R) 8 2 4 1333 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC (8 GB 2Rx4 PC3L-12800R) 8 2 4 1600 16GB (1x16GB) 4Rx4 L DDR3-1333 LR ECC (16 GB 4Rx4 PC3L-10600L) 16 4 4 1333 16GB (1x16GB) 2Rx4 L DDR3-1600 R ECC (16 GB 2Rx4 PC3L-12800R) 16 2 4 1600 32GB (1x32GB) 4Rx4 L DDR3-1333 LR ECC (32 GB 4Rx4 PC3L-10600L) 32 4 4 1333 © Fujitsu Technology Solutions 2012 ECC Low voltage 1 Registered Frequenz [MHz] 2 Load reduced Ranks 2GB (1x2GB) 1Rx8 L DDR3-1600 U ECC (2 GB 1Rx8 PC3L-12800E) Speichermodul Bitbreite der Speicherchips Kapazität [GB] Speichermodule (seit System-Release) Seite 5 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 Netzteile (seit System-Release) VERSION: 1.3 2012-10-09 max. Anzahl Power supply 450W (hot-plug) 2 Power supply 800W (hot-plug) 2 Einige Komponenten sind möglicherweise nicht in allen Ländern/Vertriebsregionen verfügbar. Detaillierte technische Informationen finden Sie im Datenblatt PRIMERGY RX300 S7. Seite 6 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 SPECcpu2006 Benchmark-Beschreibung SPECcpu2006 ist ein Benchmark, der die Systemeffizienz bei Integer- und Fließkomma-Operationen misst. Er besteht aus einer Integer-Testsuite (SPECint2006), die 12 Applikationen enthält, und einer FließkommaTestsuite (SPECfp2006), die 17 Applikationen enthält. Beide Testsuiten sind extrem rechenintensiv und konzentrieren sich auf die CPU und den Speicher. Andere Komponenten, wie Disk-I/O und Netzwerk, werden von diesem Benchmark nicht vermessen. SPECcpu2006 ist nicht an ein spezielles Betriebssystem gebunden. Der Benchmark ist als Source-Code verfügbar und wird vor der eigentlichen Messung kompiliert. Daher beeinflussen auch die verwendete Compiler-Version und deren Optimierungseinstellungen das Messergebnis. SPECcpu2006 beinhaltet zwei verschiedene Methoden der Performance-Messung: Die erste Methode (SPECint2006 bzw. SPECfp2006) ermittelt die Zeit, die für die Bearbeitung einer einzelnen Aufgabe benötigt wird. Die zweite Methode (SPECint_rate2006 bzw. SPECfp_rate2006) ermittelt den Durchsatz, d.h. wie viele Aufgaben parallel erledigt werden können. Beide Methoden werden zusätzlich noch in zwei Messläufe unterteilt, „base― und „peak―, die sich in der Verwendung der Compiler-Optimierung unterscheiden. Bei der Publikation von Ergebnissen werden immer „base―-Werte verwendet, „peak―-Werte sind optional. Benchmark Arithmetik Typ CompilerOptimierung SPECint2006 Integer peak aggressiv SPECint_base2006 Integer base konservativ SPECint_rate2006 Integer peak aggressiv SPECint_rate_base2006 Integer base konservativ SPECfp2006 Fließkomma peak aggressiv SPECfp_base2006 Fließkomma base konservativ SPECfp_rate2006 Fließkomma peak aggressiv SPECfp_rate_base2006 Fließkomma base konservativ Messergebnis Anwendung Geschwindigkeit Singlethreaded Durchsatz Multithreaded Geschwindigkeit Singlethreaded Durchsatz Multithreaded Bei den Messergebnissen handelt es sich um das geometrische Mittel aus normalisierten Verhältniswerten, die für die Einzel-Benchmarks ermittelt wurden. Das geometrische Mittel führt gegenüber dem arithmetischen Mittel dazu, dass bei unterschiedlich hohen Einzelergebnissen eine Gewichtung zugunsten der niedrigeren Einzelergebnisse erfolgt. Normalisiert heißt, dass gemessen wird, wie schnell das Testsystem verglichen mit einem Referenzsystem ist. Der Wert „1― wurde für die SPECint_base2006-, SPECint_rate_base2006, SPECfp_base2006 und SPECfp_rate_base2006-Ergebnisse des Referenzsystems festgelegt. So bedeutet beispielsweise ein SPECint_base2006-Wert von 2, dass das Messsystem diesen Benchmark etwa doppelt so schnell wie das Referenzsystem bewältigt hat. Ein SPECfp_rate_base2006-Wert von 4 bedeutet, dass das Messsystem diesen Benchmark etwa 4/[# base copies] mal so schnell wie das Referenzsystem bewältigt hat. „# base copies― gibt hierbei an, wie viele parallele Instanzen des Benchmarks ausgeführt worden sind. Nicht alle SPECcpu2006-Messungen werden von uns zur Veröffentlichung bei SPEC eingereicht. Daher erscheinen auch nicht alle Ergebnisse auf den Web-Seiten von SPEC. Da wir für alle Messungen die Protokolldateien archivieren, können wir jederzeit den Nachweis für die korrekte Durchführung der Messungen erbringen. © Fujitsu Technology Solutions 2012 Seite 7 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Umgebung System Under Test (SUT) Hardware Modell PRIMERGY RX300 S7 Prozessor Xeon E5-2600 Prozessorserie Speicher 1 Prozessor: 8 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC 2 Prozessoren: 16 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC Netzteil 2 × Power supply 450W (hot-plug) Software BIOS-Einstellungen SPECint_base2006, SPECint2006, SPECfp_base2006, SPECfp2006: Alle Prozessoren außer Xeon E5-2603, E5-2609: Hyper-Threading = Disabled Betriebssystem Red Hat Enterprise Linux Server release 6.2 Betriebssystemeinstellungen echo always > /sys/kernel/mm/redhat_transparent_hugepage/enabled Compiler Intel C++/Fortran Compiler 12.1 Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. Seite 8 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Ergebnisse SPECint_rate_base2006 1 96.7 101 2 187 196 Xeon E5-2603 2 26.6 27.8 1 86.1 89.6 2 168 175 Xeon E5-2609 2 34.6 36.3 1 111 116 2 217 226 Xeon E5-2643 2 49.3 52.0 1 185 194 2 361 378 Xeon E5-2630L 2 36.8 39.1 1 193 201 2 377 394 Xeon E5-2620 2 37.0 39.3 1 193 202 2 376 393 Xeon E5-2630 2 41.2 43.8 1 213 223 2 417 436 Xeon E5-2640 2 43.8 46.6 1 227 237 2 444 463 Xeon E5-2667 2 50.8 54.2 1 258 269 2 504 526 Xeon E5-2650L 2 35.2 37.7 1 225 236 2 441 461 Xeon E5-2650 2 42.1 45.4 1 265 276 2 517 540 Xeon E5-2660 2 45.2 48.3 1 291 302 2 568 593 Xeon E5-2665 2 47.0 50.3 1 300 313 2 587 613 Xeon E5-2670 2 49.4 52.7 1 317 330 2 618 644 Xeon E5-2680 2 52.2 56.0 1 326 339 2 638 664 Xeon E5-2690 2 56.3 60.5 1 339 354 2 669 697 SPECint2006 SPECint_rate2006 47.5 © Fujitsu Technology Solutions 2012 Anzahl Prozessoren 2 45.1 SPECint_rate2006 Xeon E5-2637 SPECint_base2006 Prozessor Anzahl Prozessoren Anzahl Prozessoren SPECint_rate_base2006 Das Benchmark-Ergebnis hängt prozessorseitig in erster Linie von der Größe des Prozessor-Caches, der Unterstützung von Hyper-Threading, der Anzahl Prozessorkerne und der Prozessorfrequenz ab. Bei Prozessoren mit Turbomodus bestimmt die Anzahl Cores, die durch den Benchmark belastet werden, die maximal erreichbare Prozessorfrequenz. Bei den „singlethreaded― Benchmarks, die überwiegend nur einen Core belasten, ist die maximal erreichbare Prozessorfrequenz höher als bei den „multithreaded― Benchmarks (siehe hierzu Prozessortabelle im Kapitel „Technische Daten―). Seite 9 (59) 1 89.5 92.4 2 175 181 Xeon E5-2603 2 45.2 47.2 1 91.1 93.9 2 179 184 Xeon E5-2609 2 56.7 59.1 1 111 114 2 219 225 Xeon E5-2643 2 78.4 82.0 1 165 170 2 327 336 Xeon E5-2630L 2 61.6 64.9 1 166 170 2 328 336 Xeon E5-2620 2 61.6 64.9 1 166 170 2 329 337 Xeon E5-2630 2 67.8 71.0 1 178 183 2 352 361 Xeon E5-2640 2 70.9 74.6 1 185 190 2 367 376 Xeon E5-2667 2 81.0 85.4 1 211 217 2 418 429 Xeon E5-2650L 2 59.8 63.1 1 191 196 2 377 386 Xeon E5-2650 2 66.9 71.0 1 212 218 2 421 432 Xeon E5-2660 2 73.4 77.6 1 225 231 2 446 459 Xeon E5-2665 2 75.3 79.7 1 230 237 2 456 469 Xeon E5-2670 2 76.8 81.1 1 237 245 2 469 484 Xeon E5-2680 2 81.7 86.5 1 242 249 2 479 493 Xeon E5-2690 2 86.8 91.5 1 248 256 2 495 509 SPECfp_rate2006 Anzahl Prozessoren 67.9 SPECfp_rate2006 2 65.9 SPECfp2006 Anzahl Prozessoren Xeon E5-2637 SPECfp_base2006 Prozessor Anzahl Prozessoren SPECfp_rate_base2006 VERSION: 1.3 2012-10-09 SPECfp_rate_base2006 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 Am 6. März 2012 belegte die PRIMERGY RX300 S7 mit zwei Prozessoren Xeon E5-2690 den ersten Platz in der Kategorie der 2-Socket Systeme bei dem Benchmark SPECint_base2006. Am 6. März 2012 belegte die PRIMERGY RX300 S7 mit zwei Prozessoren Xeon E5-2690 den ersten Platz in der Kategorie der Intel-basierten 2-Socket Systeme bei dem Benchmark SPECfp_rate_base2006. Am 13. März 2012 belegte die PRIMERGY RX300 S7 mit zwei Prozessoren Xeon E5-2690 den ersten Platz in der Kategorie der 2-Socket Systeme bei dem Benchmark SPECint_rate_base2006. Am 13. März 2012 belegte die PRIMERGY RX300 S7 mit zwei Prozessoren Xeon E5-2690 den ersten Platz in der Kategorie der 2-Socket Systeme bei dem Benchmark SPECint_rate2006. Am 13. März 2012 belegte die PRIMERGY RX300 S7 mit zwei Prozessoren Xeon E5-2690 den ersten Platz in der Kategorie der Intel-basierten 2-Socket Systeme bei dem Benchmark SPECfp_rate2006. Die aktuellen Ergebnisse sind zu finden unter http://www.spec.org/cpu2006/results. Seite 10 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Die folgenden vier Grafiken verdeutlichen den Durchsatz der PRIMERGY RX300 S7 im Vergleich zu ihrem Vorgänger, der PRIMERGY RX300 S6, in jeweils performantester Ausstattung. SPECcpu2006: Integer-Performance PRIMERGY RX300 S7 vs. PRIMERGY RX300 S6 60.5 47.9 70 56.3 60 45.3 50 40 30 SPECint2006 20 10 SPECint_base2006 0 PRIMERGY RX300 S6 PRIMERGY RX300 S7 2 x Xeon X5687 2 x Xeon E5-2690 SPECcpu2006: Integer-Performance PRIMERGY RX300 S7 vs. PRIMERGY RX300 S6 697 669 700 416 600 500 389 400 300 SPECint_rate2006 200 100 SPECint_rate_base2006 0 PRIMERGY RX300 S6 PRIMERGY RX300 S7 2 x Xeon X5690 2 x Xeon E5-2690 © Fujitsu Technology Solutions 2012 Seite 11 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 SPECcpu2006: Floating-Point-Performance PRIMERGY RX300 S7 vs. PRIMERGY RX300 S6 91.5 65.7 100 86.8 90 80 62.0 70 60 50 40 SPECfp2006 30 20 SPECfp_base2006 10 0 PRIMERGY RX300 S6 PRIMERGY RX300 S7 2 x Xeon X5687 2 x Xeon E5-2690 SPECcpu2006: Floating-Point-Performance PRIMERGY RX300 S7 vs. PRIMERGY RX300 S6 509 600 495 273 500 400 266 300 SPECfp_rate2006 200 100 SPECfp_rate_base2006 0 PRIMERGY RX300 S6 PRIMERGY RX300 S7 2 x Xeon X5690 2 x Xeon E5-2690 Seite 12 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Die beiden folgenden Grafiken geben wieder, wie die Performance der PRIMERGY RX300 S7 bei Verwendung des Xeon E5-2690 von einem auf zwei Prozessoren skaliert. SPECcpu2006: Integer-Performance PRIMERGY RX300 S7 (2 Sockets vs. 1 Socket) 697 669 700 600 354 500 400 339 300 SPECint_rate2006 200 100 SPECint_rate_base2006 0 1 x Xeon E5-2690 2 x Xeon E5-2690 SPECcpu2006: Floating-Point-Performance PRIMERGY RX300 S7 (2 Sockets vs. 1 Socket) 509 600 495 500 256 400 300 248 SPECfp_rate2006 200 100 SPECfp_rate_base2006 0 1 x Xeon E5-2690 2 x Xeon E5-2690 © Fujitsu Technology Solutions 2012 Seite 13 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 SPECjbb2005 Benchmark-Beschreibung SPECjbb2005 ist ein Java Business Benchmark, dessen Fokus auf der Leistung von Java Server Plattformen liegt. Im Wesentlichen ist SPECjbb2005 ein modernisierter SPECjbb2000. Die Hauptunterschiede sind: Die Transaktionen sind komplexer geworden, um einen größeren Bereich an Funktionalität abzudecken. Der Working Set des Benchmarks ist vergrößert worden, so dass die Systemlast insgesamt gestiegen ist. SPECjbb2000 erlaubt nur eine aktive Java Virtual Machine Instanz (JVM), während SPECjbb2005 mehrere Instanzen zulässt, was eine größere Realitätsnähe insbesondere bei großen Systemen bewirkt. Softwareseitig misst SPECjbb2005 in erster Linie die Leistungsfähigkeit der eingesetzten JVM mit ihrem Just-In-Time Compiler sowie ihrer Thread und Garbage Collection Implementierung. Eine weitere Rolle spielen einige Aspekte des eingesetzten Betriebssystems. Hardwareseitig wird die Effizienz der CPUs und Caches, des Speichersubsystems und die Skalierbarkeit von Shared Memory Systemen (SMP) gemessen. Disk- und Netzwerk-I/O spielen keine Rolle. SPECjbb2005 emuliert ein für moderne Geschäftsprozess-Applikationen typisches Three-Tier Client/Server System mit Augenmerk auf das Middle-Tier System: Clients erzeugen die Last, bestehend aus Driver Threads, die angelehnt an den TPC-C Benchmark OLTP Zugriffe auf eine Datenbank ohne Denkzeiten generieren. Das Middle-Tier System implementiert die Geschäftsprozesse und Aktualisierung der Datenbank. Die Datenbank übernimmt die Datenverwaltung und wird emuliert durch Java-Objekte, die im Memory liegen. Transaktions-Logging ist implementiert auf XML Basis. Der große Vorteil dieses Benchmarks ist, dass er alle drei Tiers beinhaltet, die gemeinsam auf einem SingleHost laufen. Gemessen wird die Performance des Middle-Tier. So werden große Hardware-Installationen vermieden und direkte Vergleiche von SPECjbb2005-Ergebnissen unterschiedlicher Systeme sind möglich. Client- und Datenbank-Emulation sind ebenfalls in Java geschrieben. SPECjbb2005 benötigt nur das Betriebssystem sowie eine Java Virtual Machine mit J2SE 5.0 Eigenschaften. Die Skalierungseinheit ist ein Warenhaus mit ca. 25 MB Java Objekten. Genau ein Java-Thread pro Warenhaus führt die Operationen auf diesen Objekten aus. Die Geschäftsoperationen sind von TPC-C übernommen: New Order Entry Payment Order Status Inquiry Delivery Stock Level Supervision Customer Report Das sind aber auch die einzigen Gemeinsamkeiten von SPECjbb2005 und TPC-C. Die Ergebnisse beider Benchmarks sind nicht vergleichbar. SPECjbb2005 besitzt 2 Performance-Metriken: bops (business operations per second) ist die Gesamtrate aller Geschäftsoperationen, die pro Sekunde durchgeführt werden. bops/JVM ist der Quotient der ersten Metrik und der Anzahl der aktiven JVM Instanzen. In Vergleichen verschiedener SPECjbb2005-Ergebnisse müssen beide Metriken angegeben werden. Grundlage für diese Metriken sind die folgenden Regeln, nach denen ein konformer Benchmark-Lauf durchgeführt werden muss: Ein konformer Benchmarklauf besteht aus einer Sequenz von Messpunkten mit wachsender Anzahl von Warenhäusern (und damit von Threads), wobei die Anzahl jeweils um ein Warenhaus erhöht wird. Gestartet wird mit einem Warenhaus bis zu 2*MaxWh, mindestens aber 8 Warenhäusern. MaxWh ist die Anzahl Warenhäuser, bei der der Benchmark die höchste Operationsrate pro Sekunde erwartet. Standardmäßig setzt der Benchmark MaxWh mit der Anzahl vom Betriebssystem erkannter CPUs gleich. Seite 14 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Die Metrik bops ist das arithmetische Mittel aller gemessenen Operations-Raten mit MaxWh Warenhäusern bis 2*MaxWh Warenhäusern. Benchmark-Umgebung System Under Test (SUT) Hardware Modell PRIMERGY RX300 S7 Netzteil 2 × Power supply 800W (hot-plug) Prozessor 2 × Xeon E5-2690 Speicher 16 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC Software BIOS-Einstellungen Hardware Prefetch = Disable Adjacent Sector Prefetch = Disable DCU Streamer Prefetch = Disable SAS/SATA OpROM = LSI MegaRAID Betriebssystem Microsoft Windows Server 2008 R2 Enterprise SP1 Betriebssystemeinstellungen Using the local security settings console, ―lock pages in memory‖ was enabled for the user running the benchmark.‖ JVM Oracle Java HotSpot(TM) 64-Bit Server VM on Windows, version 1.6.0_31 JVM-Einstellungen start /HIGH /AFFINITY [0xFFFF,0xFFFF0000] /B java -server -Xmx29g -Xms29g -Xmn24g XX:BiasedLockingStartupDelay=200 -XX:ParallelGCThreads=16 -XX:SurvivorRatio=60 XX:TargetSurvivorRatio=90 -XX:InlineSmallCode=3900 -XX:MaxInlineSize=270 XX:FreqInlineSize=2500 -XX:AllocatePrefetchDistance=256 -XX:AllocatePrefetchLines=4 XX:InitialTenuringThreshold=12 -XX:MaxTenuringThreshold=15 -XX:LoopUnrollLimit=45 XX:+UseCompressedStrings -XX:+AggressiveOpts -XX:+UseLargePages XX:+UseParallelOldGC -XX:-UseAdaptiveSizePolicy Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. Benchmark-Ergebnisse SPECjbb2005 bops = 1536588 SPECjbb2005 bops/JVM = 768294 Die folgenden Grafiken verdeutlichen den Durchsatz der PRIMERGY RX300 S7 im Vergleich zu ihrem Vorgänger, der PRIMERGY RX300 S6, in jeweils performantester Konfiguration. SPECjbb2005 bops: PRIMERGY RX300 S7 vs. RX300 S6 © Fujitsu Technology Solutions 2012 SPECjbb2005 bops: PRIMERGY RX300 S7 vs. RX300 S6 Seite 15 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 SPECpower_ssj2008 Benchmark-Beschreibung SPECpower_ssj2008 ist der erste Industriestandard-Benchmark von SPEC, der den Stromverbrauch eines Servers im Verhältnis zu dessen Durchsatz beurteilt. Mit SPECpower_ssj2008 hat SPEC in ähnlicher Weise wie auch für Durchsatzmessungen Standards auf dem Gebiet der elektrischen Leistungsmessung definiert. Der Workload des Benchmarks basiert auf typischen serverseitigen Java Business Applikationen. Er ist skalierbar, multi-threaded, auf eine große Anzahl von Plattformen portierbar und leicht auszuführen. Der Benchmark testet CPUs, Caches, die Speicherhierarchie und die Skalierbarkeit von symmetrischen Multiprozessorsystemen (SMPs), wie auch die Implementationen der Java Virtual Machine (JVM), Just In Time (JIT) Compiler, Garbage Collection, Threads und einige weitere Betriebssystemaspekte. SPECpower_ssj2008 zeichnet den Stromverbrauch von Servern bei unterschiedlichen Belastungsstufen — in 10%-Schritten von 100% bis „Active Idle― — während einer festgesetzten Zeitspanne auf. Der abgestufte Workload ist der Tatsache geschuldet, dass Auslastung und Stromverbrauch von Servern im Verlauf von Tagen oder Wochen deutlich variieren. Zur Berechnung der Power-Performance-Metrik über alle Stufen werden die gemessenen Transaktionsdurchsätze jedes Messintervalls aufsummiert und dann durch die Summe der während jedes Messintervalls durchschnittlich aufgenommenen elektrischen Leistung geteilt. Das Ergebnis ist ein „overall ssj_ops/watt― genannter Wert. Diese Kennzahl gibt Aufschluss über die Energie-Effizienz des gemessenen Servers. Der definierte Messstandard ermöglicht es einem Kunden Vergleiche anzustellen zwischen verschiedenen Konfigurationen und Servern, die mit SPECpower_ssj2008 vermessen wurden. Das nebenstehende Diagramm zeigt einen typischen Graphen eines SPECpower_ssj2008-Ergebnisses. Der Benchmark läuft auf den unterschiedlichsten Betriebssystemen und HardwareArchitekturen und stellt dabei keine besonderen Anforderungen an die Clientund Storage-Infrastruktur. Die Minimalausstattung für einen SPEC-konformen Test besteht aus zwei vernetzten Computern, sowie einem Strommessgerät und einem Temperatursensor. Der eine Computer ist das System Under Test (SUT), auf dem eines der unterstützten Betriebssysteme und die JVM installiert sind. Die JVM stellt die Umgebung bereit, die für den Ablauf des in Java implementierten SPECpower_ssj2008Workloads benötigt wird. Der zweite Computer ist das sogenannte „Control & Collection System― (CCS), das die Ausführung des Benchmarks kontrolliert und die elektrische Leistungsaufnahme, sowie die Durchsatz- und Temperaturwerte aufnimmt und protokolliert. Das nebenstehende Diagramm gibt Ihnen einen Überblick über die Grundstruktur der Benchmark-Konfiguration mit den dazugehörigen Komponenten. Seite 16 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Umgebung System Under Test (SUT) Hardware Modell PRIMERGY RX300 S7 Modellvariante Basiseinheit mit 2.5"-HDD-Schächten (erweiterbar) Prozessor 2 × Xeon E5-2660 Speicher Messung mit Oracle Java HotSpot VM: 8 × 4GB (1x4GB) 2Rx8 L DDR3-1600 U ECC Messung mit IBM J9 VM: 6 × 4GB (1x4GB) 2Rx8 L DDR3-1600 U ECC Netzwerk-Interface Onboard LAN-Controller (1 Port verwendet) Disk-Subsystem Onboard HDD-Controller Messung mit Oracle Java HotSpot VM: 1 × SSD SATA 3G 32GB SLC HOT PLUG 2.5" EP Messung mit IBM J9 VM: 1 × HD SATA 6G 250GB 7.2K HOT PL 2.5" BC Netzteil 1 × Power supply 450W (hot-plug) Software BIOS Messung mit Oracle Java HotSpot VM: R1.1.0 Messung mit IBM J9 VM: R1.13.0 BIOS-Einstellungen Adjacent Sector Prefetch = Disabled Hardware Prefetch = Disabled DCU Streamer Prefetch = Disabled DDR Performance = Low-Voltage optimized USB Port Control = Enable internal ports only QPI Link Speed = 6.4GT/s P-State coordination = SW_ANY Intel Virtualization Technology = Disabled SAS/SATA OpROM = LSI MegaRAID ASPM Support = Auto LAN Controller = LAN 1 Firmware Messung mit Oracle Java HotSpot VM: 6.45 Messung mit IBM J9 VM: 6.53A Betriebssystem Microsoft Windows Server 2008 R2 Enterprise SP1 Betriebssystemeinstellungen Using the local security settings console, ―lock pages in memory‖ was enabled for the user running the benchmark. Power Management: Enabled (―Fujitsu Enhanced Power Settings‖ power plan) Set ―Turn off hard disk after = 1 Minute‖ in OS. Benchmark was started via Windows Remote Desktop Connection. JVM Messung mit Oracle Java HotSpot VM: Oracle Java HotSpot(TM) 64-Bit Server VM on Windows, version 1.6.0_30 Messung mit IBM J9 VM: IBM J9 VM (build 2.6, JRE 1.7.0 Windows Server 2008 R2 amd64-64 20120322_106209 (JIT enabled, AOT enabled) JVM-Einstellungen start /NODE [0,1] /AFFINITY [0x3,0xC,0x30,0xC0,0x300,0xC00,0x3000,0xC000] Messung mit Oracle Java HotSpot VM: -server -Xmx1024m -Xms1024m -Xmn853m -XX:ParallelGCThreads=2 -XX:SurvivorRatio=60 -XX:TargetSurvivorRatio=90 -XX:InlineSmallCode=3900 -XX:MaxInlineSize=270 -XX:FreqInlineSize=2500 -XX:AllocatePrefetchDistance=256 -XX:AllocatePrefetchLines=4 -XX:InitialTenuringThreshold=12 -XX:MaxTenuringThreshold=15 -XX:LoopUnrollLimit=45 -XX:+UseCompressedStrings -XX:+AggressiveOpts -XX:+UseLargePages -XX:+UseParallelOldGC Messung mit IBM J9 VM: -Xaggressive -Xcompressedrefs -Xgcpolicy:gencon -Xmn800m -Xms1024m -Xmx1024m -XlockReservation -Xnoloa -XtlhPrefetch -Xlp -Xconcurrentlevel0 © Fujitsu Technology Solutions 2012 Seite 17 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 Weitere Software VERSION: 1.3 2012-10-09 Messung mit Oracle Java HotSpot VM: keine Messung mit IBM J9 VM: IBM SDK Java Technology Edition Version 7.0 for Windows x64 ServerView Agent for Windows ServerView RAID Manager Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. Benchmark-Ergebnisse Messung mit Oracle Java HotSpot VM Die PRIMERGY RX300 S7 erzielte folgendes Ergebnis: SPECpower_ssj2008 = 5,032 overall ssj_ops/watt Das nebenstehende Diagramm zeigt das Ergebnis der oben beschriebenen Konfiguration. Die roten waagerechten Balken zeigen für die einzelnen Laststufen (an der y-Achse des Diagramms abgebildet) das Verhältnis von Durchsatz zu Energieverbrauch (Performance to Power Ratio) in ssj_ops/watt (x-Achse oben). Die blaue Kurve stellt den durchschnittlichen Energieverbrauch dar (an der x-Achse unten abgebildet); die Werte für die einzelnen Laststufen sind jeweils mit einer kleinen Raute gekennzeichnet. Die schwarze senkrechte Linie zeigt das Benchmark-Resultat von 5,032 overall ssj_ops/watt für die PRIMERGY RX300 S7. Das ist der Quotient aus der Summe der Transaktionsdurchsätze der einzelnen Laststufen und der Summe der an diesen Stufen jeweils durchschnittlich aufgenommenen elektrischen Leistung. Seite 18 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Die folgende Tabelle zeigt die Benchmark-Ergebnisse bezüglich des Durchsatzes in ssj_ops, der elektrischen Leistungsaufnahme in Watt und des daraus resultierenden Energieeffizienz-Werts für jede einzelne Laststufe. Performance Target Load Power ssj_ops Energy Efficiency Average Power (W) ssj_ops/watt 100% 1,343,300 245 5,483 90% 1,209,714 217 5,563 80% 1,078,110 187 5,777 70% 938,069 156 6,030 60% 808,997 134 6,024 50% 673,417 117 5,740 40% 537,643 105 5,109 30% 403,053 94.9 4,249 20% 269,431 85.3 3,160 10% 133,103 74.9 1,777 53.1 0 Active Idle 0 ∑ssj_ops / ∑power = 5,032 Mit diesem Ergebnis erzielte die PRIMERGY RX300 S7 einen neuen Weltrekord und übertraf damit das beste Konkurrenz-Ergebnis um 6.4% (Stand: 21. März 2012). Damit beweist sich die PRIMERGY RX300 S7 als energieeffizientester single-node Server weltweit. Die aktuellen SPECpower_ssj2008-Ergebnisse sind zu finden unter http://www.spec.org/power_ssj2008/results. SPECpower_ssj2008: PRIMERGY RX300 S7 vs. Wettbewerb © Fujitsu Technology Solutions 2012 Der Vergleich zur Konkurrenz macht den Vorsprung der PRIMERGY RX300 S7 im Bereich Energieeffizienz deutlich. Mit 6.4% höherer Energieeffizienz gegenüber dem besten Konkurrenzergebnis in der single-node ServerKlasse, dem Dell PowerEdge T620 Server, und 8% höherer Energieeffizienz gegenüber dem IBM System x3650, der genau wie die PRIMERGY RX300 S7 zur Klasse der 2HE 2Sockel Rack Server gehört, setzt die PRIMERGY RX300 S7 neue Maßstäbe. Seite 19 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Messung mit IBM J9 VM Die PRIMERGY RX300 S7 erzielte folgendes Ergebnis: SPECpower_ssj2008 = 5,406 overall ssj_ops/watt Das nebenstehende Diagramm zeigt das Ergebnis der oben beschriebenen Konfiguration. Die roten waagerechten Balken zeigen für die einzelnen Laststufen (an der y-Achse des Diagramms abgebildet) das Verhältnis von Durchsatz zu Energieverbrauch (Performance to Power Ratio) in ssj_ops/watt (x-Achse oben). Die blaue Kurve stellt den durchschnittlichen Energieverbrauch dar (an der x-Achse unten abgebildet); die Werte für die einzelnen Laststufen sind jeweils mit einer kleinen Raute gekennzeichnet. Die schwarze senkrechte Linie zeigt das Benchmark-Resultat von 5,406 overall ssj_ops/watt für die PRIMERGY RX300 S7. Das ist der Quotient aus der Summe der Transaktionsdurchsätze der einzelnen Laststufen und der Summe der an diesen Stufen jeweils durchschnittlich aufgenommenen elektrischen Leistung. Die folgende Tabelle zeigt die Benchmark-Ergebnisse bezüglich des Durchsatzes in ssj_ops, der elektrischen Leistungsaufnahme in Watt und des daraus resultierenden Energieeffizienz-Werts für jede einzelne Laststufe. Performance Target Load Power ssj_ops Energy Efficiency Average Power (W) ssj_ops/watt 100% 1,432,829 245 5,859 90% 1,291,012 216 5,988 80% 1,149,959 183 6,289 70% 1,003,836 153 6,555 60% 863,137 132 6,516 50% 720,232 117 6,173 40% 573,470 106 5,435 30% 431,904 95.2 4,535 20% 287,140 85.4 3,361 10% 143,632 75.3 1,906 54.0 0 Active Idle 0 ∑ssj_ops / ∑power = 5,406 Mit diesem Ergebnis erzielte die PRIMERGY RX300 S7 einen neuen Klassenrekord und übertraf damit das beste Konkurrenz-Ergebnis um 0.6% (Stand: 19. September 2012). Damit beweist sich die PRIMERGY RX300 S7 als energieeffizientester 2-Sockel Rack Server weltweit. Die aktuellen SPECpower_ssj2008-Ergebnisse sind zu finden unter http://www.spec.org/power_ssj2008/results. Seite 20 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 SPECpower_ssj2008: PRIMERGY RX300 S7 vs. Wettbewerb VERSION: 1.3 2012-10-09 Der Vergleich zur Konkurrenz macht den Vorsprung der PRIMERGY RX300 S7 im Bereich Energieeffizienz deutlich. Mit 0.6% höherer Energieeffizienz gegenüber dem besten Konkurrenzergebnis in der 2-Sockel Rack Server-Klasse, dem Dell PowerEdge R720 Server, setzt die PRIMERGY RX300 S7 neue Maßstäbe. Folgendes Diagramm zeigt für jede Laststufe den Stromverbrauch (auf der rechten Y-Achse) und den Durchsatz (auf der linken Y-Achse) der PRIMERGY RX300 S7 gegenüber dem Vorgängersystem der PRIMERGY RX300 S6. SPECpower_ssj2008: PRIMERGY RX300 S7 vs. PRIMERGY RX300 S6 © Fujitsu Technology Solutions 2012 Seite 21 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 Durch die neue Sandy Bridge Microarchitektur und die um 7% performantere IBM J9 VM hat die PRIMERGY RX300 S7 im Vergleich zur PRIMERGY RX300 S6 einen deutlich höheren Durchsatz und eine deutlich niedrigere Leistungsaufnahme. Beides führt im Gesamtergebnis zu einer Steigerung der Energieeffizienz der PRIMERGY RX300 S7 um 86%. Seite 22 (59) VERSION: 1.3 2012-10-09 SPECpower_ssj2008 overall ssj_ops/watt: PRIMERGY RX300 S7 vs. PRIMERGY RX300 S6 © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Disk-I/O Benchmark-Beschreibung Performance-Messungen von Disk-Subsystemen bei PRIMERGY Servern dienen dazu, deren Leistungsfähigkeit zu beurteilen und einen Vergleich der verschiedenen Storage-Anbindungen bei PRIMERGY Servern zu ermöglichen. Standardmäßig werden diese Performance-Messungen mit einem definierten Messverfahren durchgeführt, das die Festplattenzugriffe realer Anwendungsszenarien anhand von Kenndaten modelliert. Die wesentlichen Kenndaten sind: Anteil von wahlfreien Zugriffen / sequentiellen Zugriffen Anteil der Zugriffsarten Lesen / Schreiben Blockgröße (kB) Anzahl paralleler Zugriffe (# of Outstanding I/Os) Eine gegebene Wertekombination dieser Kenndaten heißt „Lastprofil―. Die folgenden fünf Standardlastprofile lassen sich typischen Anwendungsszenarien zuordnen: Standardlastprofil Zugriff Zugriffsart read write Blockgröße [kB] Anwendung File copy wahlfrei 50% 50% 64 Kopieren von Dateien File server wahlfrei 67% 33% 64 File-Server Database wahlfrei 67% 33% 8 Datenbank (Datentransfer) Mail Server Streaming sequentiell 100% 0% 64 Datenbank (Log-File), Datensicherung; Video Streaming (teilweise) Restore sequentiell 0% 100% 64 Wiederherstellen von Dateien Zur Modellierung parallel zugreifender Anwendungen mit unterschiedlicher Belastungsintensität wird die „# of Outstanding I/Os― mit 1, 3, 8 beginnend bis 512 gesteigert (ab 8 in Zweierpotenzschritten). Die Messungen des vorliegenden Dokumentes beruhen auf diesen Standardlastprofilen. Die wichtigsten Ergebnisse einer Messung sind: Throughput [MB/s] Transactions [IO/s] Latency [ms] Datendurchsatz in Megabytes pro Sekunde Transaktionsrate in I/O-Operationen pro Sekunde mittlere Antwortzeit in ms Für sequentielle Lastprofile hat sich der Datendurchsatz als übliche Messgröße durchgesetzt, während bei den wahlfreien Lastprofilen mit ihren kleinen Blockgrößen meist die Messgröße „Transaktionsrate― verwendet wird. Datendurchsatz und Transaktionsrate sind direkt proportional zueinander und lassen sich nach der Formel Datendurchsatz [MB/s] = Transaktionsrate [IO/s] × Blockgröße [MB] Transaktionsrate [IO/s] = Datendurchsatz [MB/s] / Blockgröße [MB] ineinander überführen. 12 In diesem Kapitel sind Festplattenkapazitäten durchgängig zur Basis 10 angegeben (1 TB = 10 Bytes), während alle anderen Kapazitäten, Dateigrößen, Blockgrößen und Durchsätze zur Basis 2 angegeben sind 20 (1 MB/s = 2 Bytes/s). Alle Details des Messverfahrens und Grundlagen zur Disk-I/O-Performance sind im White Paper „Grundlagen Disk-I/O-Performance― beschrieben. © Fujitsu Technology Solutions 2012 Seite 23 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Umgebung Alle Messergebnisse wurden mit den im Folgenden aufgelisteten Hardware- und Software-Komponenten ermittelt. System Under Test (SUT) Hardware Controller 1 × „LSI SW RAID on Intel C600 (Onboard SATA)― 1 × „LSI SW RAID on Intel C600 (Onboard SAS)― 1 × „RAID Ctrl SAS 6G 0/1― 1 × „RAID Ctrl SAS 5/6 512MB (D2616)― 1 × „RAID Ctrl SAS 6G 5/6 1GB (D3116)― Festplatte 16 × EP HDD SAS 6 Gbit/s 2.5 15000 rpm 146 GB 6 × EP HDD SAS 6 Gbit/s 3.5 15000 rpm 300 GB 16 × EP SSD SAS 6 Gbit/s 2.5 200 GB MLC 4 × BC HDD SATA 6 Gbit/s 2.5 7200 rpm 1 TB Software Betriebssystem Microsoft Windows Server 2008 Enterprise x64 Edition SP2 Verwaltungssoftware ServerView RAID Manager 5.0.2 Initialisierung von RAID-Verbänden RAID-Verbände werden vor der Messung mit einer elementaren Blockgröße von 64 kB („Stripe Size―) initialisiert Dateisystem NTFS Messwerkzeug Iometer 27.07.2006 Messdaten Messdateien von 32 GB bei 1 – 8 Festplatten; 64 GB bei 9 – 16 Festplatten; 128 GB bei 17 oder mehr Festplatten Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. Seite 24 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Ergebnisse Die hier vorgestellten Ergebnisse sollen dabei helfen, aus den verschiedenen Konfigurationsmöglichkeiten der PRIMERGY RX300 S7 die passende Lösung unter dem Gesichtspunkt der Disk-I/O-Performance auszuwählen. Hierbei kommt es auf die Auswahl geeigneter Komponenten und auf deren richtige Parametereinstellungen an. Diese beiden Aspekte sollen daher als Vorbereitung für die Diskussion der Performance-Werte behandelt werden. Komponenten Die erste wesentliche Komponente sind die Festplatten. Wenn im Folgenden von „Festplatten― die Rede ist, so ist dies als Oberbegriff gemeint für HDDs („hard disk drives―, also konventionelle Festplatten) und SSDs („solid state drives―, also nichtflüchtige elektronische Speichermedien). Durch die Auswahl des Festplattentyps und der Festplattenanzahl lässt sich eine Gewichtung in Richtung Speicherkapazität, Performance, Sicherheit oder Preis vornehmen. Um – je nach gewünschter Gewichtung – eine Vorauswahl unter den Festplattentypen zu ermöglichen, gibt es bei den PRIMERGY Servern eine Einteilung der Festplattentypen in drei Klassen: „Economic― (ECO): kostengünstige Festplatten „Business Critical― (BC): sehr ausfallsichere Festplatten „Enterprise― (EP): sehr ausfallsichere und sehr performante Festplatten Die folgende Tabelle stellt die für die PRIMERGY RX300 S7 seit System-Release verfügbaren Festplattentypen zusammen. Laufwerksklasse Datenträgertyp Schnittstelle Formfaktor krpm Business Critical HDD SATA 6G 2.5" 7.2 Business Critical HDD SATA 6G 3.5" 7.2 Enterprise HDD SAS 6G 3.5" 15 Enterprise HDD SAS 6G 2.5" 10, 15 Enterprise SSD SATA 6G 2.5" - Enterprise SSD SAS 6G 2.5" - Mischkonfigurationen von SAS- und SATA-Festplatten in einem System sind zulässig, sofern sie nicht für spezielle Festplattentypen im Konfigurator ausgeschlossen sind. Die SATA-HDDs bieten hohe Kapazitäten bis in den Terabyte-Bereich zu sehr günstigen Kosten. Durch die höhere Umdrehungsgeschwindigkeit der SAS-HDDs (im Vergleich zu den SATA-HDDs) besitzen die SASHDDs kürzere Zugriffszeiten und erreichen höhere Durchsätze. Unter den SAS-HDDs haben diejenigen mit der Umdrehungsgeschwindigkeit 15 krpm bessere Zugriffszeiten und Durchsätze als vergleichbare HDDs mit der Umdrehungsgeschwindigkeit 10 krpm. Bei den SAS-HDDs hat sich mittlerweile die Schnittstelle 6G als Standard durchgesetzt. Von allen Festplattentypen bieten die SSDs einerseits bei weitem die höchsten Transaktionsraten für wahlfreie Lastprofile, andererseits die kürzesten Zugriffszeiten. Dafür ist allerdings der Preis pro Gigabyte Speicherkapazität erheblich höher. Durch die Verwendung von 2.5"-Festplatten anstelle von 3.5"-Festplatten sind mehr Festplatten pro System möglich. Dadurch sinkt die Belastung, die jede einzelne Festplatte zu bewältigen hat, und die maximale Gesamt-Performance des Systems steigt. Detailliertere Performance-Aussagen zu den Festplattentypen sind im White Paper „Performance einzelner Festplatten― zu finden. Die maximale Anzahl von Festplatten im System hängt von der Systemkonfiguration ab. Die folgende Tabelle stellt die wesentlichen Fälle zusammen. Formfaktor Schnittstelle Anschlusstyp Anzahl PCIeController Maximalzahl Festplatten 2.5" SATA 3G, SAS 3G direkt 0 4 3.5" SATA 3G/6G, SAS 6G direkt 1 6 2.5" SATA 3G/6G, SAS 6G direkt 2 16 © Fujitsu Technology Solutions 2012 Seite 25 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Nach den Festplatten ist der RAID-Controller die zweite Performance-bestimmende Schlüsselkomponente. Bei diesen Controllern bietet das „Modular RAID― Konzept der PRIMERGY Server eine Fülle von Möglichkeiten, um den verschiedenen Anforderungen unterschiedlichster Anwendungsszenarien gerecht zu werden. Die folgende Tabelle fasst die wichtigsten Eigenschaften der verfügbaren RAID-Controller des Systems zusammen. Pro Controller ist hierin ein kurzer Alias angegeben, der bei der anschließenden Zusammenstellung der Performance-Werte verwendet wird. Controller-Name Alias Cache Unterstützte Interfaces Max. # Disks im System RAID Levels BBU/ FBU LSI SW RAID on Intel C600 (Onboard SATA) Patsburg A - SATA 3G - 4 × 2.5" 0, 1, 10 -/- LSI SW RAID on Intel C600 (Onboard SAS) Patsburg B - SATA 3G SAS 3G - 4 × 2.5" 0, 1, 10 -/- RAID Ctrl SAS 6G 0/1 (D2607) LSI2008 - SATA 3G/6G PCIe 2.0 SAS 3G/6G x8 8 × 2.5" 6 × 3.5" 0, 1, 1E, 10 -/- RAID Ctrl SAS 6G 5/6 512 MB (D2616) LSI2108 512 MB SATA 3G/6G PCIe 2.0 SAS 3G/6G x8 16 × 2.5" 6 × 3.5" 0, 1, 5, 6, 10, 50, 60 /- 16 × 2.5" 6 × 3.5" 0, 1, 1E, 5, 6, 10, 50, 60 -/ RAID Ctrl SAS 6G 5/6 1GB LSI2208-1G (D3116) 1 GB SATA 3G/6G PCIe 2.0 SAS 3G/6G x8 Der Onboard RAID Controller ist im Chip-Set Intel C600 auf dem Motherboard des Servers realisiert und benutzt die CPU des Servers für die RAID-Funktionalität. Dieser Controller ist eine einfache Lösung, die keinen PCIe-Steckplatz benötigt. Neben der immer vorhandenen Anschlussmöglichkeit von SATAFestplatten kann die optionale SAS-Funktionalität über einen „SAS enabling key― freigeschaltet werden. Systemspezifische Schnittstellen Die Schnittstellen eines Controllers zum Motherboard und zu den Festplatten haben jeweils spezifische Grenzen für den Datendurchsatz. Diese Grenzen sind in der folgenden Tabelle zusammengestellt. Das Minimum dieser beiden Werte ist eine prinzipielle Grenze, die nicht überschritten werden kann. Dieser Wert ist in der folgenden Tabelle mit Fettdruck hervorgehoben. ControllerAlias Effektiv in der Konfiguration Patsburg A 4 × SATA 3G Patsburg B 4 × SAS 3G 973 MB/s - - LSI2008 8 × SAS 6G 3890 MB/s 2.0 X8 3433 MB/s - LSI2108 8 × SAS 6G 3890 MB/s 2.0 X8 3433 MB/s LSI2208-1G 8 × SAS 6G 3890 MB/s 2.0 X8 3433 MB/s # Disk-Kanäle Grenze für Durchsatz Disk-Interface 973 MB/s Anschluss über Expander PCIeVersion PCIeBreite Grenze für Durchsatz PCIe-Interface - - - - - - Ein Expander ermöglicht es, in einem System mehr Festplatten anzuschließen als der Controller SASKanäle hat. Ein Expander kann den möglichen Maximaldurchsatz eines Controllers nicht steigern, stellt ihn aber in Summe allen angeschlossenen Festplatten zur Verfügung. Weitere Details zu den RAID-Controllern der PRIMERGY Systeme finden sich im White Paper „RAIDController-Performance―. Seite 26 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Einstellungen Der Cache der Festplatten hat in den meisten Fällen einen großen Einfluss auf die Disk-I/O-Performance. Er wird häufig als Sicherheitsproblem bei Stromausfall angesehen und daher abgeschaltet. Dennoch wurde er von den Festplattenherstellern aus gutem Grund zur Steigerung der Schreib-Performance integriert. Aus Performance-Gründen ist es daher empfehlenswert den Festplatten-Cache einzuschalten. Dies gilt insbesondere für SATA-HDDs. Bei bestimmten Zugriffsmustern und Festplattentypen kann sich die Performance hierdurch mehr als verzehnfachen. Nähere Informationen zu den Performance-Auswirkungen des Festplatten-Caches finden sich im Dokument „Performance einzelner Festplatten―. Um Datenverlusten bei Stromausfall vorzubeugen, empfiehlt es sich das System mit einer USV auszustatten. Bei Controllern mit Cache gibt es mehrere einstellbare Parameter. Die jeweils optimalen Einstellungen können vom RAID-Level, vom Anwendungsszenario und vom Datenträgertyp abhängen. Besonders bei den RAID-Levels 5 und 6 (und den davon abgeleiteten komplexeren RAID-Levels 50 und 60) ist bei Anwendungsszenarien mit Schreibanteil das Einschalten des Controller-Caches Pflicht. Bei aktiviertem Controller-Cache sollten die darin temporär gespeicherten Daten gegen Verlust bei Stromausfall gesichert werden. Hierfür ist geeignetes Zubehör verfügbar (beispielsweise eine BBU bzw. FBU). Zwecks einfacher und sicherer Handhabung der Einstellungen von RAID-Controller und Festplatten empfiehlt sich die für PRIMERGY Server mitgelieferte RAID-Manager-Software „ServerView RAID―. Üblicherweise wird man – spezifisch für den Anwendungsfall – mittels der vordefinierten Modi „Performance― oder „Data Protection― die kompletten Cache-Einstellungen für Controller und Festplatten en bloc vornehmen. Der Modus „Performance― gewährleistet für die Mehrzahl der Anwendungsszenarien Performance-optimale Einstellungen. Nähere Informationen zu den Einstellungsmöglichkeiten beim Controller-Cache sind im White Paper „RAIDController-Performance― zu finden. Performance-Werte Generell hängt die Disk-I/O-Performance eines RAID-Verbandes von Festplattentyp und –anzahl, vom RAID-Level und vom RAID-Controller ab. Sofern die Limitierungen der systemspezifischen Schnittstellen nicht überschritten werden, gelten also Aussagen zur Disk-I/O-Performance für alle PRIMERGY Systeme. Daher gelten auch alle Performance-Aussagen des Dokumentes „RAID-Controller-Performance― für die PRIMERGY RX300 S7, soweit die dort vermessenen Konfigurationen auch von diesem System unterstützt werden. Die Performance-Werte des Systems werden im Folgenden tabellarisch zusammengestellt, jeweils spezifisch für verschiedene RAID-Level, Zugriffsarten und Blockgrößen. Wesentlich verschiedene Konfigurationsvarianten werden getrennt behandelt. Die Performance-Werte in den folgenden Tabellen verwenden die etablierten Messgrößen, wie sie schon im Unterkapitel Benchmark-Beschreibung erwähnt wurden. Bei den wahlfreien Zugriffen wird also die Transaktionsrate angegeben, und bei den sequentiellen Zugriffen der Datendurchsatz. Um Verwechselungen der Maßeinheiten zu vermeiden, sind die Tabellen für die beiden Arten von Zugriffen getrennt. In den Tabellenzellen sind die maximal erreichbaren Werte eingetragen. Das bedeutet dreierlei: Zum einen wurden Festplatten mit optimaler Performance verwendet (die Komponenten sind im Unterkapitel Benchmark-Umgebung näher beschrieben). Des Weiteren sind Cache-Einstellungen von Controllern und Festplatten zugrunde gelegt, die für das jeweilige Zugriffsszenario und den RAID-Level optimal sind. Und schließlich ist jeder Wert das Maximum über den gesamten Bereich von Belastungsintensitäten (# of Outstanding I/Os). Zwecks zusätzlicher Visualisierung der Zahlenwerte ist jede Tabellenzelle mit einem waagerechten Balken hinterlegt, dessen Länge proportional zum Zahlenwert in der Tabellenzelle ist. Alle solchen Balken, die im gleichen Längenmaßstab dargestellt sind, haben die gleiche Farbe. Es können also nur die Tabellenzellen mit gleichfarbigen Balken sinnvoll visuell miteinander verglichen werden. Da die waagerechten Balken in den Tabellenzellen die maximal erreichbaren Performance-Werte veranschaulichen, sind sie als von links nach rechts heller werdende Farbverläufe dargestellt. Der helle Farbton am rechten Balkenende drückt aus, dass der Wert das Maximum ist und nur bei optimalen Voraussetzungen erreicht werden kann. Je dunkler dann der Farbton nach links hin wird, umso häufiger wird der entsprechende Wert in der Praxis erreichbar sein. © Fujitsu Technology Solutions 2012 Seite 27 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 804 694 17736 3916 RAID 0 RAID10 1830 1347 1015 744 37028 29082 8333 6779 2.5" 2 8 8 RAID 1 RAID 0 RAID10 820 3491 2716 702 1980 1516 17649 40766 28692 4117 12706 10539 3.5" 2 6 6 RAID 1 RAID 0 RAID10 868 2708 2090 729 N/A 1548 N/A 1160 N/A 2.5" 2 16 16 16 RAID 1 RAID 10 RAID 0 RAID 5 859 7944 10460 6324 679 4124 5606 3555 3.5" 2 6 6 6 RAID 1 RAID10 RAID 0 RAID 5 1042 3110 4216 2241 730 1600 2149 1138 2.5" 2 16 16 16 RAID 1 RAID 10 RAID 0 RAID 5 1109 8135 10460 5835 863 4232 5606 3257 3.5" 2 6 6 6 RAID 1 RAID 10 RAID 0 RAID 5 1105 3162 4384 2316 746 1632 2246 1259 2.5" LSI2008 SAS LSI2008 SAS LSI2208-1G LSI2208-1G Seite 28 (59) SAS SAS SAS 447 N/A 583 N/A 446 N/A SSDs wahlfrei 64 kB Blöcke 67% read [IO/s] RAID 1 4 4 SAS LSI2108 SSDs wahlfrei 8 kB Blöcke 67% read [IO/s] 2 Patsburg B 550 1073 828 HDDs wahlfrei 64 kB Blöcke 67% read [IO/s] RAID 1 RAID 0 RAID10 SATA 2.5" SAS RAIDLevel 2 4 4 Patsburg A LSI2108 # Disks Formfaktor Schnittstelle RAIDController Konfigurationsvariante HDDs wahlfrei 8 kB Blöcke 67% read [IO/s] Wahlfreie Zugriffe (Performance-Werte in IO/s): N/A N/A N/A N/A N/A N/A 19002 25172 77421 19675 N/A N/A N/A N/A 4400 15894 25486 12245 N/A N/A N/A N/A 20201 59199 182054 41271 N/A N/A N/A N/A 4362 31605 44447 21162 N/A N/A N/A N/A © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 2 RAID 1 199 192 504 180 4 4 RAID 0 RAID10 780 399 770 384 953 662 642 337 2.5" 2 8 8 RAID 1 RAID 0 RAID10 287 1492 745 190 1264 728 338 2470 1101 199 1322 634 3.5" 2 6 6 RAID 1 RAID 0 RAID10 283 964 528 2.5" 2 16 16 16 RAID 1 RAID10 RAID 0 RAID 5 371 1886 2750 1808 192 864 2483 1203 3.5" 2 6 6 6 RAID 1 RAID 10 RAID 0 RAID 5 342 881 1068 903 183 540 1077 898 2.5" 2 16 16 16 RAID 1 RAID10 RAID 0 RAID 5 355 1678 2575 2573 194 1549 2898 2166 3.5" 2 6 6 6 RAID 1 RAID 10 RAID 0 RAID 5 357 648 1080 901 183 548 1077 897 2.5" LSI2008 SAS LSI2008 SAS LSI2208-1G LSI2208-1G SAS SAS SSDs sequentiell 64 kB Blöcke 100% write [MB/s] 108 N/A 419 N/A 213 N/A SAS SAS SSDs sequentiell 64 kB Blöcke 100% read [MB/s] 112 422 226 Patsburg B LSI2108 HDDs sequentiell 64 kB Blöcke 100% write [MB/s] RAID 1 RAID 0 RAID10 SATA 2.5" SAS RAIDLevel 2 4 4 Patsburg A LSI2108 # Disks Formfaktor Schnittstelle RAIDController Konfigurationsvariante HDDs sequentiell 64 kB Blöcke 100% read [MB/s] Sequentielle Zugriffe (Performance-Werte in MB/s): N/A N/A N/A 184 N/A 986 N/A 517 N/A N/A N/A N/A 679 1953 2327 1870 N/A N/A N/A N/A 176 843 2177 1225 N/A N/A N/A N/A 680 2654 2564 2584 N/A N/A N/A N/A 169 1583 2828 2144 N/A N/A N/A N/A Die PRIMERGY RX300 S7 erreicht also mit einem Controller im Maximalausbau mit leistungsfähigen Festplatten (konfiguriert als RAID 0) einen Durchsatz von bis zu 2828 MB/s bei sequentiellen Lastprofilen und eine Transaktionsrate von bis zu 182054 IO/s bei typischen wahlfreien Anwendungsszenarien. © Fujitsu Technology Solutions 2012 Seite 29 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 SAP SD Benchmark-Beschreibung Die SAP Anwendungssoftware besteht aus Modulen zum Management aller Standard-Geschäftsprozesse. Es gibt u.a. Module für ERP (Enterprise Resource Planning) wie Assemble-to-Order (ATO), Financial Accounting (FI), Human Resources (HR), Materials Management (MM), Production Planning (PP) und Sales and Distribution (SD), aber auch für SCM (Supply Chain Management), Retail, Banking, Utilities, BI (Business Intelligence), CRM (Customer Relation Management) oder PLM (Product Lifecycle Management). Die Applikationssoftware setzt immer auf einer Datenbank auf, so dass eine SAP-Konfiguration neben der Hardware aus den Software-Komponenten Betriebssystem, Datenbank und letztendlich der SAP-Software selbst besteht. Zur Verifikation der Performance, Stabilität und Skalierbarkeit eines SAP-Applikationssystems hat die SAP AG die SAP Standard Application Benchmarks entwickelt. Die Benchmarks (der wichtigste und am meisten verbreitete ist der SD Benchmark) analysieren die Performance des Gesamtsystems und liefern somit ein Maß für die Qualität der Integration der Einzelkomponenten. Bei dem Benchmark wird zwischen einer Two-Tier- und einer Three-Tier-Konfiguration unterschieden. Bei der Two-Tier-Konfiguration sind die SAP-Applikation und die Datenbank auf einem Server installiert. Bei einer Three-Tier-Konfiguration können die einzelnen Komponenten der SAP-Applikation über mehrere Server verteilt sein und ein weiterer Server übernimmt die Datenbank. Eine komplette Spezifikation des von der SAP AG, Walldorf – Deutschland entwickelten Benchmarks ist unter http://www.sap.com/solutions/benchmark/index.epx zu finden. Benchmark-Umgebung Der Messaufbau wird symbolisch durch folgende Grafik veranschaulicht: 2-Tier-Umgebung Server Disk-Subsystem Netzwerk BenchmarkTreiber Seite 30 (59) System Under Test (SUT) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 System Under Test (SUT) Hardware Modell PRIMERGY RX300 S7 Prozessor 2 × Xeon E5-2690 Speicher 16 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC Netzwerkinterface 1Gbit/s LAN Disk-Subsystem PRIMERGY RX300 S7: 1 × RAID Ctrl SAS 6G 5/6 512MB (D2616) 3 × HD SATA 6G 250GB 7.2K HOT PLUG 2.5" BC 1 × FC Ctrl 8Gb/s 2 Chan LPe12002 1 × FibreCAT CX4-480 Storage Unit Netzteil 2 × Power supply 450W (hot-plug) Software BIOS-Einstellungen DDR Performance = Performance Optimized Betriebssystem Microsoft Windows Server 2008 R2 Enterprise SP1 Datenbank Microsoft SQL Server 2008 Enterprise x64 Edition SAP Business Suite Software SAP enhancement package 4 for SAP ERP 6.0 Benchmark-Treiber Hardware Modell PRIMERGY RX300 S4 Prozessor 2 × Xeon X5460 Speicher 32 GB Netzwerkinterface 1Gbit/s LAN Software Betriebssystem SUSE Linux Enterprise Server 11 SP1 Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. Benchmark-Ergebnisse Zertifikationsnummer 2012008 Number of SAP SD benchmark users 7570 Average dialog response time 0.99 seconds Throughput Fully processed order line items/hour Dialog steps/hour SAPS 826,330 2,479,000 41,320 Average database request time (dialog/update) 0.019 sec / 0.014 sec CPU utilization of central server 99% Operating system, central server Windows Server 2008 R2 Enterprise Edition RDBMS SQL Server 2008 SAP Business Suite software SAP enhancement package 4 for SAP ERP 6.0 Configuration Central Server Fujitsu PRIMERGY RX300 S7 2 processors / 16 cores / 32 threads Intel Xeon E5-2690, 2.9GHz, 64KB L1 cache and 256KB L2 cache per core, 20 MB L3 cache per processor 128 GB main memory © Fujitsu Technology Solutions 2012 Seite 31 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 OLTP-2 Benchmark-Beschreibung OLTP steht für Online Transaction Processing. Dem OLTP-2-Benchmark liegt das typische Anwendungsszenario einer Datenbanklösung zugrunde. Es werden bei OLTP-2 Zugriffe auf eine Datenbank simuliert und die Anzahl erreichter Transaktionen pro Sekunde (tps) als Maß für die Leistungsfähigkeit des vermessenen Systems ermittelt. Im Gegensatz zu Benchmarks, wie beispielsweise SPECint und TPC-E, die von unabhängigen Gremien standardisiert wurden und bei denen die Einhaltung des jeweiligen Reglements überwacht wird, ist OLTP-2 ein interner Benchmark von Fujitsu. OLTP-2 basiert auf dem bekannten Datenbank-Benchmark TPC-E. OLTP-2 wurde so gestaltet, dass eine Vielzahl von Konfigurationen messbar sind, um die Skalierung eines Systems hinsichtlich CPU- und Speicherausbau darstellen zu können. Auch wenn die beiden Benchmarks OLTP-2 und TPC-E ähnliche Anwendungsszenarien simulieren und die gleichen Lastprofile verwenden, so sind die Ergebnisse nicht vergleichbar oder gar gleichzusetzen, da die beiden Benchmarks unterschiedliche Methoden zur Simulation der Benutzerlast verwenden. Typischerweise sind OLTP-2-Werte TPC-E-Werten ähnlich. Ein direkter Vergleich oder gar die Bezeichnung des OLTP-2Ergebnisses als TPC-E-Ergebnis ist nicht zulässig, da insbesondere kein Preis-Leistungswert ermittelt wird. Weitere Informationen können dem Dokument Benchmark-Überblick OLTP-2 entnommen werden. Benchmark-Umgebung Der Messaufbau wird symbolisch durch folgende Grafik veranschaulicht: Driver Tier A Tier B Netzwerk Netzwerk Applikations-Server Clients Datenbank-Server DiskSubsystem System Under Test (SUT) Alle Ergebnisse wurden exemplarisch auf einer PRIMERGY RX300 S7 ermittelt. Seite 32 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Datenbank-Server (Tier B) Hardware Modell PRIMERGY RX300 S7 Prozessor Xeon E5-2600 Prozessorserie Speicher 1 Prozessor: 8 × 32GB (1x32GB) 4Rx4 L DDR3-1333 LR ECC 2 Prozessoren: 16 × 32GB (1x32GB) 4Rx4 L DDR3-1333 LR ECC Netzwerk-Interface 2 × onboard LAN 1 Gb/s Disk-Subsystem RX300 S7: Onboard RAID Ctrl SAS 6G 5/6 1024MB (D3116) 2 × 73 GB 15k rpm SAS Drive, RAID1 (OS), 6 × 147 GB 15k rpm SAS Drive, RAID10 (LOG) 3 × LSI MegaRAID SAS 9286CV-8e 6 × JX40: Je 24 × 64 GB SSD Drive, RAID5 (Daten) Software BIOS Version V4.6.5.1 R1.0.5 Betriebssystem Microsoft Windows Server 2008 R2 Enterprise SP1 Datenbank Microsoft SQL Server 2008 R2 Enterprise SP1 Applikations-Server (Tier A) Hardware Modell 1 × PRIMERGY RX200 S6 Prozessor 2 × Xeon X5647 Speicher 12 GB, 1333 MHz registered ECC DDR3 Netzwerk-Interface 2 × onboard LAN 1 Gb/s 2 × Dual Port LAN 1Gb/s Disk-Subsystem 1 × 73 GB 15k rpm SAS Drive Software Betriebssystem Microsoft Windows Server 2008 R2 Standard Client (Lastgenerator) Hardware Modell 1 × PRIMERGY RX200 S5 Prozessor 2 × Xeon X5570 Speicher 24 GB, 1333 MHz registered ECC DDR3 Netzwerk-Interface 2 × onboard LAN 1 Gb/s Disk-Subsystem 1 × 73 GB 15k rpm SAS Drive Software Betriebssystem Microsoft Windows Server 2008 R2 Standard Benchmark OLTP-2 Software EGen version 1.12.0 Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2012 Seite 33 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Ergebnisse Die Datenbank-Performance ist in hohem Maße abhängig von den Ausbaumöglichkeiten mit CPU, Speicher und den Anschlussmöglichkeiten eines für die Datenbank angemessenen Disk-Subsystems. Bei den folgenden Skalierungsbetrachtungen der Prozessoren gehen wir davon aus, dass sowohl der Speicher als auch das Disk-Subsystem adäquat gewählt ist und keinen Engpass darstellt. Als Richtlinie für die Auswahl von Arbeitsspeicher gilt im Datenbankumfeld, dass eine ausreichende Menge wichtiger ist als die Geschwindigkeit der Speicherzugriffe. Daher wurde bei den Messungen mit zwei Prozessoren eine Bestückung mit insgesamt 512 GB Speicher und bei den Messungen mit einem Prozessor eine Bestückung mit insgesamt 256 GB Speicher betrachtet. Beide Speicherbestückungen haben einen Memory-Zugriff von 1333 MHz. Weitere Informationen über Speicherperformance sind in dem White Paper Speicher-Performance Xeon E5-2600 (Sandy Bridge-EP) basierter Systeme zu finden. Die nachfolgende Grafik zeigt die OLTP-2 Transaktionsraten, die mit einem und zwei Prozessoren der Intel Xeon Serie E5-2600 erreicht werden können. OLTP-2 tps 1695.97 E5-2690 - 8 Core, HT 971.33 1611.48 E5-2680 - 8 Core, HT 921.05 1569.23 E5-2670 - 8 Core, HT 895.92 1484.74 E5-2665 - 8 Core, HT 845.64 1400.25 E5-2660 - 8 Core, HT 795.37 1315.76 E5-2650 - 8 Core, HT 745.09 1144.99 E5-2650L - 8 Core, HT 635.64 1295.48 E5-2667 - 6 Core, HT 718.68 1153.27 E5-2640 - 6 Core, HT 638.47 1082.16 E5-2630 - 6 Core, HT 598.36 975.50 E5-2630L - 6 Core, HT 538.20 979.75 E5-2620 - 6 Core, HT 538.76 935.41 E5-2643 - 4 Core, HT 520.27 528.49 E5-2609 - 4 Core 287.16 428.08 232.60 E5-2603 - 4 Core 2CPUs 512GB RAM 1CPU 256GB RAM 487.33 E5-2637 - 2 Core, HT 261.81 0 200 400 600 800 1000 1200 1400 1600 1800 tps HT: Hyper-Threading Seite 34 (59) Fett: Kursiv: gemessen berechnet © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Es wird deutlich, dass durch die Vielzahl an freigegebenen Prozessoren eine große Leistungsbandbreite abgedeckt wird. Vergleicht man den OLTP-2-Wert des leistungsschwächsten Prozessors Xeon E5-2603 mit dem des leistungsstärksten Prozessors Xeon E5-2690, so ergibt sich eine Leistungssteigerung um den Faktor 4. Anhand der erzielten Resultate lassen sich die Prozessoren in verschiedene Leistungsgruppen unterteilen: Den Einstieg stellen Xeon E5-2603 und E5-2609 als Prozessoren mit vier Kernen aber ohne HyperThreading und ohne Turbo-Modus dar. Der Xeon E5-2637 besitzt zwar nur zwei Kerne, ist aber HyperThreading-fähig und liegt aufgrund der höheren Taktfrequenz leistungsmäßig zwischen diesen beiden Prozessoren. Mit dem Performance-optimierten 4-Core-Prozessor Xeon E5-2643 werden aufgrund seiner hohen Taktfrequenz und der hohen QPI-Geschwindigkeit von 8.00 GT/s fast schon die Durchsatzraten der 6-Core-Prozessoren mit den niedrigsten Frequenzen (Xeon E5-2620 und E5-2630L) erreicht, die mit 95 Watt bzw. 60 Watt aber auch eine deutlich geringere Leistungsaufnahme haben als der Xeon E5-2643 mit 130 Watt. Die 6-Core-Prozessoren sind alle Hyper-Threading-fähig, haben mit 7.20 GT/s eine höhere QPIGeschwindigkeit als die Gruppe der 4-Core-Prozessoren mit 6.40 GT/s und sie besitzen einen 50% größeren L3-Cache von 15 MB. Am oberen Leistungsende der 6-Core-Prozessoren liegt der besonders hoch getaktete Prozessor Xeon E5-2667 (130 Watt), der wiederum eine OLTP-Leistung leicht oberhalb des leistungsschwächsten 8-Core-Prozessor Xeon E5-2650L (70 Watt) erreicht. Am oberen Ende der Leistungsskala liegt die Gruppe der Prozessoren mit acht Kernen, einer QPIGeschwindigkeit von 8.00 GT/s und 20 MB L3-Cache. Durch die gestaffelten CPU-Taktfrequenzen wird eine OLTP-Leistung von 1145 tps (2 × Xeon E5-2650L) bis 1696 tps (2 × Xeon E5-2690) erreicht. Vergleicht man die maximal erreichbaren OLTP-2 Werte der aktuellen Systemgeneration mit den Werten, die auf den Vorgängersystemen erreicht wurden, so ergibt sich eine Steigerung von ca. 34%. Maximum OLTP-2 tps Vergleich der Systemgenerationen tps 2000 1800 + ~ 34% 1600 1400 1200 1000 800 2 × X5690 192 GB 2 × E5-2690 512 GB 600 400 200 0 Vorgängersystem Aktuelles System Aktuelles System TX300 S7 RX200 S7 RX300 S7 RX350 S7 BX924 S3 Vorgängersystem TX300 S6 RX200 S6 RX300 S6 TX300 S6 © Fujitsu Technology Solutions 2012 BX924 S2 Seite 35 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 TPC-E mit TPC-Energy Benchmark-Beschreibung Der TPC-E-Benchmark misst die Performance online transaktionsverarbeitender Systeme (Online Transaction Processing oder kurz OLTP genannt). Er basiert auf einer komplexen Datenbank und einer Reihe unterschiedlicher Transaktionstypen, die auf ihr ausgeführt werden. TPC-E ist ein sowohl Hardwareals auch Software-unabhängiger Benchmark und kann damit auf jeder Testplattform – sei es eine proprietäre oder offene – implementiert werden. Neben den Messergebnissen müssen auch sämtliche Details der vermessenen Systeme und des Messvorgangs in einem Messreport (Full Disclosure Report oder kurz FDR) erläutert werden. Dadurch wird überprüfbar, ob eine Messung allen Benchmark-Anforderungen entspricht und nachvollziehbar ist. Durch TPC-E wird nicht ein einzelner Server, sondern eine recht umfangreiche Systemkonfiguration vermessen. Performance-bestimmend ist hierbei die Systemleistung des Datenbankservers mit Disk-I/O und Netzwerk-Kommunikation. Die Performance-Metrik ist tpsE. tps steht dabei für transactions per second. tpsE ist die mittlere Anzahl an Trade-Result-Transaktionen, die innerhalb einer Sekunde ausgeführt wurden. Gemäß dem TPC-E-Standard besteht eine korrekte Angabe aus der tpsE-Rate, dem zugehörigen Preis/Leistungs-Wert und dem Verfügbarkeitsdatum (Availability Date) der Konfiguration. TPC-Energy ist eine Erweiterung bestehender TPC-Benchmarks (z.B. TPC-C, TPC-E, TPC-H), bei der für die verwendeten Systeme während der Durchführung des TPC-Benchmarks die Energie-Verbrauchswerte ermittelt werden. TPC hat dafür ein Regelwerk definiert, wie diese Werte zu messen sind. Als Ergebnis des Benchmarks wird aus den Messwerten eine Metrik in der Form „Energie / Performance― berechnet. Für TPCE ergibt sich die Metrik Watts/tpsE. Weitere Informationen über TPC-E und TPC-Energy können dem Übersichtsdokument Benchmark Overview TPC-E entnommen werden. Seite 36 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Ergebnisse Im Juli 2012 veröffentlichte Fujitsu ein TPC-E Benchmark-Ergebnis für PRIMERGY RX300 S7 mit dem 8-Core Prozessor Intel Xeon E5-2690 und 512 GB Speicher. Bei dieser Veröffentlichung wurden auch TPCEnergy Werte für die PRIMERGY RX300 S7 publiziert. Die Resultate zeigen eine enorme Leistungssteigerung gegenüber der PRIMERGY RX300 S6 bei gleichzeitiger Reduzierung der Kosten und geringerem Energieverbrauch. TPC-E 1.12.0 TPC Pricing 1.7.0 TPC-Energy 1.4.2 PRIMERGY RX300 S7 Report Date July 5, 2012 TPC-E Throughput 1,871.81 tpsE Price/Performance $ 175.57 USD per tpsE Availability Date August 17, 2012 Total System Cost $ 328,623 TPC-Energy Metric 0.69 Watts/tpsE Database Server Configuration Operating System Microsoft Windows Server 2008 R2 Enterprise Edition SP1 Database Manager Microsoft SQL Server 2012 Enterprise Edition SUT Processors/Cores/Threads 2/16/32 Memory 512 GB Tier A PRIMERGY RX200 S7 1x Intel Xeon E5-2660 2.20 GHz 16 GB Memory 1x 250 GB 7.2k rpm SATA Drive 2x onboard LAN 1 Gb/s 1x Dual Port LAN 1 Gb/s Tier B PRIMERGY RX300 S7 2x Intel Xeon E5-2690 2.90 GHz 512 GB Memory 8x 146 GB 15k rpm SAS Drives 2x onboard LAN 1 Gb/s 5x SAS RAID Controller Storage 1x PRIMECENTER Rack 4x ETERNUS JX40 60x 200 GB SSD Drives 2 ×1 TB 7.2k rpm SATA Drives Initial Database Size 7,704 GB Redundancy Level 1 RAID-5 data and RAID-10 log Storage 60 x 200 GB SSD 2 x 1 TB 7.2k rpm HDD 6 x 146 GB 15k rpm HDD Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2012 Seite 37 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 PRIMERGY RX300 S7 TPC-E Throughput 1,871.81 tpsE VERSION: 1.3 2012-10-09 TPC-E 1.12.0 TPC Pricing 1.7.0 TPC-Energy 1.4.2 Report Date July 5, 2012 Availability Date August 17, 2012 Energy Summary Price/Performance $ 175.57 USD per tpsE Availability Date August 17, 2012 Total System Cost $ 328,623 TPC-Energy Metric 0.69 Watts/tpsE Numerical Quantities For Reported Energy Configuration: REC Idle Power: Average Power of REC : 843.88 Watts 1288.82 Watts Subsystem Reporting: Secondary Metrics Database Server *) Storage *) Application Server *) Miscellaneous *) Total REC watts/tpsE 0.32 0.31 0.05 0.01 0.69 Additional Numerical Quantities Full Load Avg Watts 592.41 578.42 100.99 17.00 1,288.82 Full Load % of REC 45.97% 44.88% 7.84% 1.32% 100.00% Idle Avg Watts 239.56 544.80 59.12 0.40 843.88 Idle % of REC 28.39% 64.56% 7.01% 0.05% 100.00% *) see pricing for list of components Lowest ambient temperature at air inlet: 20.13 Degrees Celsius Items in Priced Configuration not in the Reported Energy Configuration None Items in the Reported Energy Configuration not in the Measured Energy Configuration Fujitsu Display B20T-6 LED Weitere Informationen zu diesem TPC-E Ergebnis, speziell auch den Full Disclosure Report, findet man auf der TPC-Webseite http://www.tpc.org/tpce/results/tpce_result_detail.asp?id=112070501. Seite 38 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Im Juli 2012 ist Fujitsu in der TPC-E Liste mit zehn PRIMERGY Veröffentlichungen vertreten: Durchsatz System und Prozessoren Preis / Performance Watts/tpsE Verfügbarkeitsdatum TX300 S4 mit 2 × Xeon X5460 317.45 tpsE $523.49 pro tpsE - 30. August 2008 RX600 S4 mit 4 × Xeon X7350 492.34 tpsE $559.88 pro tpsE - 1. Januar 2009 RX600 S4 mit 4 × Xeon X7460 721.40 tpsE $459.71 pro tpsE - 1. Januar 2009 RX300 S5 mit 2 × Xeon X5570 800.00 tpsE $343.91 pro tpsE - 1. April 2009 RX600 S5 mit 4 × Xeon X7560 2046.96 tpsE $193.68 pro tpsE - 1. September 2010 RX900 S1 mit 8 × Xeon X7560 3800.00 tpsE $245.82 pro tpsE - 1. Oktober 2010 RX300 S6 mit 2 × Xeon X5680 1246.13 tpsE $191.48 pro tpsE - 1. November 2010 RX300 S6 mit 2 × Xeon X5690 1268.30 tpsE $183.94 pro tpsE 0.93 1. März 2011 RX900 S2 mit 8 × Xeon E7-8870 4555.54 tpsE $217.27 pro tpsE 1.00 1. Juli 2011 RX300 S7 mit 2 × Xeon E5-2690 1871.81 tpsE $175.57 pro tpsE 0.69 17. August 2012 Weitere Informationen sowie alle TPC-E Ergebnisse können der TPC-Webseite (http://www.tpc.org/tpce) entnommen werden. Die folgende Grafik für 2-Sockel PRIMERGY Systeme mit den unterschiedlichen Prozessortypen zeigt die gute Leistung des 2-Sockel-Systems PRIMERGY RX300 S7. tpsE $/tpsE 2500 tpsE $/tpsE 500 523.49 2000 1,871.81 400 1500 343.91 300 1,246.13 1,268.30 1000 200 191.48 183.94 175.57 500 100 better better 800.00 317.45 0 0 PRIMERGY TX300 S4 2 × X5460 64 GB PRIMERGY RX300 S5 2 × X5570 96 GB PRIMERGY RX300 S6 2 × X5680 96 GB PRIMERGY RX300 S6 2 × X5690 96 GB PRIMERGY RX300 S7 2 × E5-2690 512 GB Gegenüber der PRIMERGY RX300 S6 beträgt der Leistungsgewinn +48% und gegenüber der PRIMERGY RX300 S5 +134%. Der Preis pro Performance ist $175.57/tpsE. Die Kosten reduzieren sich gegenüber der PRIMERGY RX300 S6 auf 95% und gegenüber der PRIMERGY RX300 S5 auf 51%. © Fujitsu Technology Solutions 2012 Seite 39 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Die folgende Übersicht zeigt die besten TPC-E Ergebnisse (Stand 5. Juli 2012) und die zugehörigen Preis/Performance-Werte für Konfigurationen mit zwei Prozessoren. Dabei erreicht PRIMERGY RX300 S7 mit 1871.71 tpsE den höchsten Performance-Wert in dieser Klasse. Der Preis/Performance-Wert von $175.57/tpsE ist der zweitbeste Wert bei den hier betrachteten TPC-E Veröffentlichungen. System Prozessoren tpsE (höher ist besser) $/tpsE Verfügbar(niedriger ist besser) keitsdatum Fujitsu PRIMERGY RX300 S7 2×E5-2690 1871.71 175.57 2012-08-17 IBM System x3650 M4 2×E5-2690 1863.23 207.85 2012-05-31 IBM System x3690 X5 2×E7-2870 1560.70 143.32 2011-05-27 HP ProLiant DL380 G7 Server 2×X5690 1284.14 250.00 2011-05-04 Fujitsu PRIMERGY RX300 S6 12x2.5 2×X5690 1268.30 183.94 2011-03-01 Fujitsu PRIMERGY RX300 S6 2×X5680 1246.13 191.48 2010-11-01 HP ProLiant DL385 G7 Server 2×6282 SE 1232.84 257.00 2011-12-31 HP ProLiant DL380G7 2×X5680 1110.10 294.00 2010-05-11 Dell PowerEdge T710 2×X5680 1074.14 264.32 2010-06-21 HP ProLiant DL385G7 2×6176 SE 887.38 296.00 2010-05-06 Weitere Informationen sowie alle TPC-E Ergebnisse können der TPC-Webseite (http://www.tpc.org/tpce) entnommen werden. Seite 40 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Die TPC-E Konfiguration mit der PRIMERGY RX300 S7 als Datenbankserver erreicht mit 0.69 Watts/tpsE das beste TPC-E TPC-Energy Ergebnis aller TPC-E TPC-Energy Veröffentlichungen. Gegenüber der TPC-E Konfiguration mit dem Vorgängersystem PRIMERGY RX300 S6 als Datenbankserver hat sich die Energieeffizienz der Gesamtkonfiguration, dokumentiert in „Watts/tpsE―, um 25% gesteigert. Alle veröffentlichten Fujitsu TPC-Energy Ergebnisse lassen die zwei bisher veröffentlichten Ergebnisse des Mitbewerbs weit hinter sich. TPC-E TPC-Energy: Primery Metric [Watts/tpsE] 8 6.72 6 5.84 better 4 2 0.69 0.93 Fujitsu 1) PRIMERGY RX300 S7 Fujitsu 2) PRIMERGY RX300 S6 1.00 1.09 0 Fujitsu 3) Fujitsu 4) PRIMERGY PRIMEQUEST RX900 S2 1800E2 HP 5) ProLiant DL580 G7 HP 6) ProLiant DL585 G7 Weitere Informationen sowie alle TPC-E und TPC-Energy Ergebnisse können der TPC-Webseite (http://www.tpc.org/tpce) entnommen werden. 1) 2) 3) 4) 5) 6) Fujitsu PRIMERGY RX300 S7 1871.81 tpsE, $175.57/tpsE, 0.69 Watts/tpsE, availability date 08/17/2012 Fujitsu PRIMERGY RX300 S6 1268.30 tpsE, $183.94/tpsE, 0.93 Watts/tpsE, availability date 03/01/2011 Fujitsu PRIMERGY RX900 S2 4555.54 tpsE, $217.27/tpsE, 1.00 Watts/tpsE, availability date 07/01/2011 Fujitsu PRIMEQUEST 1800E2 4414.79 tpsE, $226.19/tpsE, 1.09 Watts/tpsE, availability date 07/01/2011 HP ProLiant DL580 G7 2001.12 tpsE, $347.00/tpsE, 5.84 Watts/tpsE, availability date 06/21/2010 HP ProLiant DL585 G7 1400.14 tpsE, $330.00/tpsE, 6.72 Watts/tpsE, availability date 06/21/2010 © Fujitsu Technology Solutions 2012 Seite 41 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 vServCon Benchmark-Beschreibung vServCon ist ein bei Fujitsu Technology Solutions verwendeter Benchmark zum Vergleich von Serverkonfigurationen mit Hypervisor in Bezug auf ihre Eignung für Server-Konsolidierung. Hiermit ist sowohl der Vergleich von Systemen, Prozessoren und I/O-Technologien möglich, wie auch der Vergleich von Hypervisor-en, Virtualisierungsformen und zusätzlichen Treibern für virtuelle Maschinen. Bei vServCon handelt es sich nicht um einen neuen Benchmark im eigentlichen Sinn. Es ist vielmehr ein Framework, das bereits etablierte Benchmarks, ggf. auch in modifizierter Form, als Workloads zusammenfasst, um die Last einer konsolidierten und virtualisierten Serverumgebung nachzubilden. Es kommen drei bewährte Benchmarks zum Einsatz, die die Anwendungsszenarien Datenbank, Applikationsserver und Web-Server abdecken. Anwendungsszenario Benchmark Anzahl logischer CPU-Cores Memory Database Sysbench (angepasst) 2 Java-Applikationsserver SPECjbb (angepasst, mit 50% - 60% Last) 2 2 GB Webserver WebBench 1 1.5 GB 1.5 GB Jedes der drei Anwendungsszenarien wird jeweils einer dedizierten virtuellen Maschine (VM) zugeordnet. Hinzu kommt eine vierte, so genannte Idle-VM. Diese vier VMs bilden eine „Tile― (engl. Kachel). Durch die Leistungsfähigkeit der zugrunde liegenden Server-Hardware ist es meist notwendig, dass im Rahmen einer Messung mehrere identische Tiles parallel gestartet werden müssen um eine maximale GesamtPerformance zu erreichen. System under Test Database VM Java VM Web VM … Database Java VM VM Database Java VM VM Database Java VM VM Web VM Web VM Web VM Idle VM Tile n … Idle VM Idle VM Idle VM Tile 3 Tile 2 Tile 1 Jedes der drei vServCon-Anwendungsszenarien ergibt für die jeweilige VM ein spezifisches Ergebnis in Form von applikationsspezifischen Transaktionsraten. Um hieraus eine normalisierte Bewertungszahl zu bilden, werden die einzelnen Ergebnisse für eine Tile in Relation zu den jeweiligen Ergebnissen eines Referenzsystems gesetzt. Die daraus resultierenden relativen Performance-Werte werden geeignet gewichtet und über alle VMs und Tiles aufsummiert. Das Ergebnis ist eine Bewertungszahl, „Score― genannt, für diese Tile-Anzahl. Diese Prozedur wird – in der Regel beginnend mit eins – für steigende Tile-Anzahlen durchgeführt, bis keine signifikante Steigerung dieses vServCon-Scores mehr eintritt. Der finale vServCon-Score ist dann das Maximum über die vServCon-Scores aller Tile-Anzahlen. Diese Bewertungszahl spiegelt somit den maximalen Gesamtdurchsatz wider, den man durch den Betrieb des in vServCon definierten Mixes aus vielen Anwendungs-VMs bis zur möglichst vollständigen Ausnutzung der CPU-Ressourcen erzielen kann. Dabei ist die Messumgebung für vServCon so ausgelegt, dass nur die CPU der begrenzende Faktor ist und keine Limitierungen durch andere Ressourcen eintreten. Der Verlauf der vServCon-Scores über die Tile-Anzahlen liefert nützliche Informationen über das Skalierungsverhalten des „System under Test―. Ferner werden bei vServCon die Gesamt-CPU-Auslastung des Hosts (VMs und alle übrigen CPUAktivitäten) und soweit möglich die elektrische Leistungsaufnahme dokumentiert. Eine ausführliche Beschreibung von vServCon ist zu finden im Übersichtsdokument: Benchmark-Überblick vServCon. Seite 42 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Umgebung Der Messaufbau wird symbolisch durch folgende Grafik veranschaulicht: FrameworkController Server Disk-Subsystem Mehrere 1Gb oder 10Gb Netzwerke System Under Test (SUT) Lastgeneratoren Alle Ergebnisse wurden exemplarisch auf einer PRIMERGY RX350 S7 ermittelt. System Under Test (SUT) Hardware Modell PRIMERGY RX350 S7 Prozessor Xeon E5-2600 Prozessorserie Speicher 1 Prozessor: 8 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC 2 Prozessoren: 16 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC Netzwerk-Interface 1 × dual port 1GbE Adapter 1 × dual port 10GbE Server Adapter Disk-Subsystem 1 × dual-channel FC-Controller Emulex LPe12002 ETERNUS DX80 Storage-Systeme: Je Tile: 50 GB LUN Je LUN: RAID 0 mit 2 × Seagate ST3300657SS-Disks (15 krpm) Software Betriebssystem VMware ESX 5.0.0 Build 469512 Lastgenerator (inkl. Framework-Controller) Hardware (Shared) Gehäuse PRIMERGY BX900 Hardware Modell 18 × PRIMERGY BX920 S1 Server-Blades Prozessor 2 × Xeon X5570 Speicher 12 GB Netzwerk-Interface 3 × 1 Gbit/s LAN Software Betriebssystem Microsoft Windows Server 2008 R2 Enterprise mit Hyper-V © Fujitsu Technology Solutions 2012 Seite 43 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Lastgenerator-VM (pro Tile 3 Lastgenerator-VMs auf verschiedenen Server-Blades) Hardware Prozessor 1 × logische CPU Speicher 512 MB Netzwerk-Interface 2 × 1 Gbit/s LAN Software Betriebssystem Microsoft Windows Server 2003 R2 Enterprise Edition Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. Seite 44 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Ergebnisse Prozessor RX200 S7 RX300 S7 RX350 S7 TX300 S7 BX924 S3 CX250 S1 CX270 S1 Die hier behandelten PRIMERGY Zwei-Sockel-Systeme basieren auf Intel Xeon Prozessoren der Serie E5-2600. Die Eigenschaften der Prozessoren sind im Kapitel „Technische Daten― zusammengestellt. Die verfügbaren Prozessoren dieser Systeme mit ihren Ergebnissen zeigt folgende Tabelle. #Tiles 2 Cores, HT, TM E5-2637 4 3.58 E5-2603 4 3.18 E5-2609 4 4.09 4 Cores, HT, TM E5-2643 4 7.02 E5-2620 7 7.44 E5-2630L 7 7.45 E5-2630 7 8.30 E5-2640 7 8.80 E5-2667 7 9.93 E5-2650L 8 8.77 E5-2650 8 10.4 E5-2660 8 11.4 E5-2665 8 11.7 E5-2670 8 12.5 E5-2680 8 12.8 E5-2690 8 13.5 Xeon E5-2600 Serie 4 Cores 6 Cores HT, TM 8 Cores HT, TM Score HT = Hyper-Threading, TM = Turbo-Modus Diese PRIMERGY Zwei-Sockel-Systeme sind durch weitere Fortschritte in der Prozessortechnologie gut für die Virtualisierung von Anwendungen geeignet. Verglichen mit einem System basierend auf der vorherigen Prozessorgeneration ist eine etwa 40% höhere Virtualisierungs-Performance (gemessen in vServCon-Score in der jeweils größten Konfiguration) erreichbar. Die relativ großen Performance-Unterschiede zwischen den Prozessoren sind durch ihre Eigenschaften zu erklären. Die Werte skalieren aufgrund der Anzahl der Cores, der Größe des L3-Caches und der CPUTaktfrequenz sowie durch die bei den meisten Prozessortypen vorhandenen Features Hyper-Threading und Tubo-Modus. Darüber hinaus bestimmt auch die Datenübertragungsrate zwischen den Prozessoren („QPI Speed―) die Performance. Grundsätzlich hat auch die Speicherzugriffsgeschwindigkeit Auswirkungen auf die Leistung. Als Richtschnur für die Auswahl von Arbeitsspeicher gilt im Virtualisierungsumfeld, dass eine ausreichende Menge wichtiger ist als die Geschwindigkeit der Speicherzugriffe. Näheres zur Thematik „Speicher-Performance― und zur QPI-Architektur ist zu finden im White Paper Speicher-Performance Xeon E5-2600 (Sandy Bridge-EP) basierter Systeme. © Fujitsu Technology Solutions 2012 Seite 45 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Die erste Grafik vergleicht die mit den hier betrachteten Prozessortypen erreichbaren Werte der Virtualisierungs-Performance. Xeon E5-2600 Prozessorserie 8 E5-2650 E5-2660 8 8 8 8 E5-2690 8 E5-2680 8 E5-2670 7 E5-2665 7 E5-2650L E5-2630L 7 E5-2667 7 E5-2640 7 E5-2630 4 E5-2620 E5-2603 4 E5-2643 4 E5-2609 4 E5-2637 #Tiles 14 Final vServCon Score 12 10 8 6 4 2 0 2 Core 4 Core 6 Core 8 Core Den Einstieg stellt der Xeon E5-2637 als Prozessor mit nur zwei Kernen dar. Eine ähnlich geringe Leistung zeigen die Xeon E5-2603 und E5-2609 Prozessoren, da sie ohne Hyper-Threading (HT) und Turbo-Mode (TM) auskommen müssen. Grundsätzlich sind diese schwächsten Prozessoren für das Virtualisierungsumfeld nur bedingt geeignet. Einen weiteren Leistungssprung erreicht der Prozessor mit vier Kernen, der sowohl Hyper-Threading als auch den Turbo-Modus unterstützt (Xeon E5-2643). Bei den 8-Core Varianten tragen deutlich der L3-Cache und die Datenübertragungsrate, neben der Anzahl der Kerne, zu der jeweiligen Leistungssteigerung gegenüber den 6-Core Varianten bei. Innerhalb einer Gruppe von Prozessoren mit gleicher Core-Anzahl sieht man eine Skalierung über die CPUTaktfrequenz. × 1.94 13.50@8 tiles 10 6.95@4 tiles Final vServCon Score 15 1 x E5-2690 2 x E5-2690 5 0 Seite 46 (59) Bisher wurde die Virtualisierungs-Performance eines voll ausgebauten Systems betrachtet. Bei einem Server mit zwei Sockeln stellt sich jedoch auch die Frage, wie gut die Performance von einem auf zwei Prozessoren skaliert. Je besser die Skalierung, desto geringer ist der Overhead, der durch die gemeinsame Nutzung der Ressourcen innerhalb eines Servers üblicherweise entsteht. Der Skalierungsfaktor hängt auch von der Anwendung ab. Dient der Server als Virtualisierungsplattform für die Server-Konsolidierung, skaliert das System mit dem Faktor 1.94. Beim Betrieb mit zwei Prozessoren erreicht das System also fast die doppelte Leistung wie mit einem Prozessor, wie die nebenstehende Grafik am Beispiel der Prozessorvariante Xeon E5-2690 verdeutlicht. © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 10.4 10.1 9.59 8.64 7.46 5.96 4.22 2.02 7.44 7.38 7.20 6.39 5.35 3.83 1.97 vServCon score Die nächste Grafik veranschaulicht die Virtualisierungs-Performance für wachsende VM-Anzahlen am Beispiel der Prozessoren Xeon E5-2620 (6-Core) und E5-2650 (8-Core). Zusätzlich sind die jeweiligen CPUAuslastungen des Hosts eingetragen. Im Bereich um 90% liegen typischerweise die Tile-Anzahlen mit optimaler CPU-Ausnutzung; jenseits davon liegt der Überlastbereich, in E5-2620 E5-2650 dem die Virtualisierungs-Performance 12 100% nicht mehr zunimmt bzw. wieder ---- CPU Util % 90% abnimmt. 10 Neben der erhöhten Anzahl 80% physikalischer Cores ist das Hyper70% Threading, das fast alle Xeon 8 Prozessoren der E5-2600 Serie 60% unterstützen, ein weiterer Grund für die hohe Anzahl betreibbarer VMs. 6 50% Hierdurch wird bekanntermaßen ein 40% physikalischer Prozessorkern in zwei 4 logische Cores unterteilt und damit 30% die für den Hypervisor verfügbare Anzahl Cores verdoppelt. Dieses 20% 2 standardmäßig eingestellte Feature 10% steigert daher im Allgemeinen die Virtualisierungs-Performance eines 0 0% Systems. 1 2 3 4 5 6 7 1 2 3 4 5 6 7 8 #Tiles Der in der vorangegangenen Grafik dargestellte Verlauf der Skalierungskurve über die Tile-Anzahl ist spezifisch für Systeme mit Hyper-Threading. Bei den Prozessoren Xeon E5-2650 stehen 16 physikalische und damit 32 logische Cores zur Verfügung, und pro Tile werden etwa vier davon verwendet (siehe Benchmark-Beschreibung). Das bedeutet, dass bis etwa vier Tiles eine parallele Nutzung gleicher physikalischer Cores durch mehrere VMs vermieden wird. Daher skaliert die Performance in diesem Bereich nahezu ideal. Darüber verläuft der Performance-Zuwachs bis zur CPU-Sättigung flacher. Das vorige Bild hat den Aspekt der summierten Performance über alle Anwendungs-VMs eines Hosts betrachtet. Genauso interessant ist aber auch die Performance aus Sicht einer einzelnen Anwendungs-VM. Diese Information lässt sich ebenfalls aus dem vorigen Bild entnehmen. Im oben dargestellten Fall des Xeon E5-2650 beispielsweise wird bei 24 Anwendungs-VMs (acht Tiles, die Idle-VMs nicht mitgezählt) das Gesamtoptimum erreicht; der Niedriglastfall wird durch drei Anwendungs-VMs (eine Tile, die Idle-VM nicht mitgezählt) repräsentiert. Man rufe sich in Erinnerung: der vServCon-Score für eine Tile ist ein Durchschnittswert über die drei Anwendungsszenarien in vServCon. Diese durchschnittliche Performance einer einzelnen Tile sinkt beim Übergang vom Niedriglastfall zum Gesamtoptimum des vServCon-Scores von 2.02 auf 10.4/8=1.3, also auf 64%. Dabei können die einzelnen Typen von Anwendungs-VMs im Hochlastfall durchaus unterschiedlich reagieren. Hierdurch wird deutlich, dass man bezüglich der VMAnzahlen auf einem Virtualisierungs-Host im konkreten Fall die Performance-Anforderungen einer einzelnen Anwendung gegen die Gesamtanforderungen abwägen muss. © Fujitsu Technology Solutions 2012 Seite 47 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Die virtualisierungsrelevanten Fortschritte in der Prozessortechnologie seit dem Jahre 2008 wirken zum einen auf eine einzelne VM und zum anderen auf die maximal mögliche Anzahl von VMs bis zur CPUSättigung. Die folgende Gegenüberstellung arbeitet die Anteile der beiden Arten von Verbesserungen heraus. Verglichen werden vier Systeme mit annähernd gleicher Prozessorfrequenz: ein System von 2008 mit 2 × Xeon E5420, ein System von 2009 mit 2 × Xeon E5540, ein System von 2011 mit. 2 × Xeon E5649 und ein aktuelles System mit 2 × Xeon E5-2670. Virtualisierungsrelevante Fortschritte 16 Wenige VMs (1 Tile) Score bei optimaler Tile-Anzahl 14 × 1.64 vServCon Score 12 10 × 1.47 8 × 2.02 6 4 × 1.30 2 0 2008 E5420 2.50 GHz 4C 2012 2011 2009 2008 TX300 S7 TX300 S6 TX300 S5 TX300 S4 2009 E5540 2.53 GHz 4C 2011 E5649 2.53 GHz 6C RX200 S7 RX200 S6 RX200 S5 RX200 S4 2012 E5-2670 2.60 GHz 8C RX300 S7 RX300 S6 RX300 S5 RX300 S4 2008 E5420 2.50 GHz 4C 2009 E5540 2.53 GHz 4C 2011 E5649 2.53 GHz 6C 2012 E5-2670 2.60 GHz 8C Year CPU Freq. #Cores RX350 S7 BX924 S3 CX250 S1 CX270 S1 TX300 S6 BX620 S6 BX922 S2 BX924 S2 BX620 S5 BX620 S4 - Die deutlichsten Performance-Fortschritte gab es von 2008 nach 2009 mit der Einführung der 1 Prozessorgeneration Xeon 5500 (z. B. durch das Feature „Extended Page Tables―, kurz EPT ). Hier zeigte sich bei wenigen VMs (eine Tile) eine Steigerung des vServCon-Scores um den Faktor 1.30. Bei Vollauslastung der Systeme mit VMs ergab sich eine Steigerung um den Faktor 2.02. Die eine Ursache hierfür war die für eine einzelne VM realisierbare Performance-Steigerung (siehe Score für wenige VMs). Die andere Ursache lag darin, dass beim Gesamtoptimum mehr VMs möglich waren (durch Hyper-Threading). Es ist allerdings auch zu erkennen, dass das Optimum bei der dreifachen Anzahl von VMs erkauft wurde mit einer verringerten Leistung der einzelnen VM. Worin liegen jetzt die Technologiefortschritte von 2009 nach 2012? Die Performance für eine einzelne VM in Niedriglastsituationen ist für die hier verglichenen Prozessoren annähernd gleicher Taktfrequenz, aber unterschiedlicher Cache-Größe und Geschwindigkeit der Speicheranbindung, annähernd gleich geblieben. Die entscheidenden Fortschritte liegen in der höheren Anzahl physikalischer Cores und – damit verbunden – in den gesteigerten Werten der reinen Performance (Faktor 1.47 und 1.64 in der Grafik). Es sei noch einmal ausdrücklich davor gewarnt, die durch den Score ausgedrückte gesteigerte Virtualisierungs-Performance komplett als Verbesserung für eine einzelne VM zu erhoffen. Mehr als etwa 30% - 50% mehr Durchsatz gegenüber einem gleich getakteten Prozessor der Generation Xeon 5400 aus dem Jahre 2008 ist hier nicht möglich. Performance-Steigerungen im Virtualisierungsumfeld werden seit 2009 hauptsächlich durch Steigerungen der VM-Anzahl aufgrund von mehr verfügbaren logischen oder physikalischen Cores erreicht. 1 EPT beschleunigt die Virtualisierung von Memory durch eine Hardware-Unterstützung für die Umsetzung zwischen Host- und Gast-Memory-Adressen. Seite 48 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 VMmark V2 Benchmark-Beschreibung VMmark V2 ist ein von VMware entwickelter Benchmark zum Vergleich von Serverkonfigurationen mit Hypervisor-Lösungen von VMware in Bezug auf ihre Eignung für Server-Konsolidierung. Neben der Software zur Lastgenerierung besteht der Benchmark aus einem definierten Lastprofil und aus einem verbindlichen Regelwerk. Die Benchmark-Ergebnisse können bei VMware eingereicht werden und werden nach einem erfolgreich durchlaufenen Review-Prozess auf deren Internet-Seite veröffentlicht. Nachdem der bewährte Benchmark „VMmark V1― im Oktober 2010 eingestellt wurde, gibt es den Nachfolger „VMmark V2―, der ein Cluster aus mindestens zwei Servern voraussetzt und Datacenter-Funktionen wie Cloning und Deployment von virtuellen Maschinen (VMs), Load Balancing sowie die Verschiebung von VMs durch vMotion und auch Storage vMotion mit abdeckt. Bei VMmark V2 handelt es sich nicht um einen neuen Anwendungsszenario Last-Tool # VMs Benchmark im eigentlichen Sinn. Es ist vielmehr ein LoadGen 1 Framework, das bereits etablierte Benchmarks als Mail-Server Olio client 2 Workloads zusammenfasst, um die Last einer Web 2.0 konsolidierten und virtualisierten Serverumgebung E-Commerce DVD Store 2 client 4 nachzubilden. Drei bewährte Benchmarks, die die Standby-Server (IdleVMTest) 1 Anwendungsszenarien Mail-Server, Web 2.0 und E-Commerce abdecken, wurden in VMmark V2 integriert. Die drei Anwendungsszenarien werden jeweils insgesamt sieben dedizierten VMs zugeordnet. Hinzu kommt eine achte VM, der so genannte Standby-Server. Diese acht VMs bilden eine „Tile― (englisch für „Kachel―). Durch die Leistungsfähigkeit der zugrunde liegenden Server-Hardware ist es meist notwendig, dass im Rahmen einer Messung mehrere identische Tiles parallel gestartet werden müssen um eine maximale Gesamt-Performance zu erreichen. Neu bei VMmark V2 ist eine Infrastruktur-Komponente, die einmal je zwei Hosts vorhanden ist. Diese misst Fähigkeiten der Datacenter-Konsolidierung durch VM Cloning und Deployment, vMotion und Storage vMotion. Zusätzlich wird die Load Balancing Fähigkeit des Datacenters eingesetzt (DRS, Distributed Resource Scheduler). Das Ergebnis von VMmark V2 ist eine Zahl, „Score― genannt, die Aufschluss über die Leistungsfähigkeit der vermessenen Virtualisierungslösung gibt. Der Score spiegelt für eine Server-Konfiguration mit Hypervisor den maximalen summarischen Konsolidierungs-Nutzen über alle Hosts und VMs wider und dient als Vergleichskriterium von verschiedenen Hardwareplattformen. Dieser Score wird aus den Einzelergebnissen der VMs und einem Infrastruktur-Ergebnis ermittelt. Jede der fünf VMmark V2 Anwendungs- bzw. Front End-VMs ergibt für jede VM ein spezifisches Ergebnis in Form von anwendungsspezifischen Transaktionsraten. Um hieraus eine normalisierte Bewertungszahl zu bilden, werden die einzelnen Ergebnisse für eine Tile in Relation zu den jeweiligen Ergebnissen eines Referenzsystems gesetzt. Die daraus resultierenden dimensionslosen Performance-Werte werden dann für diese Tile geometrisch gemittelt und als letztes über alle Tiles aufsummiert. Dieser Wert geht mit einer Gewichtung von 80% in den Gesamt-Score ein. Der Infrastruktur-Workload ist im Benchmark nur einmal pro zwei Hosts vorhanden; er bestimmt das Resultat zu 20%. Für die Infrastruktur-Workload-Komponenten werden jeweils die Anzahl der Transaktionen pro Stunde und die durchschnittliche Dauer in Sekunden für den Score ermittelt. Neben dem eigentlichen Score wird bei jedem VMmark V2 Ergebnis die Anzahl Tiles mit angegeben. Das ausgewiesene Resultat hat dann die Form „Score@Number of Tiles―, beispielsweise „4.20@5 Tiles―. Eine ausführliche Beschreibung von VMmark V2 ist im Übersichtsdokument Benchmark Overview VMmark V2 zu finden. © Fujitsu Technology Solutions 2012 Seite 49 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Umgebung Der Messaufbau wird symbolisch durch folgende Grafik veranschaulicht: Clients & Management Server(s) Storage-System Mehrere 1Gb oder 10Gb Netzwerke Lastgeneratoren inkl. Prime-Client und Datacenter Management Server vMotion Netzwerk System under Test (SUT) System Under Test (SUT) Hardware Anzahl Server 2 Modell PRIMERGY RX300 S7 Prozessor 2 × Xeon E5-2690 Speicher 256 GB: 16 × 16 GB (1x16GB) 2Rx4 L DDR3-1600 R ECC Netzwerk-Interface 1 × dual port 1GbE Adapter 1 × dual port 10GbE Server Adapter 1 × quad port 1GbE Adapter Disk-Subsystem 1 × dual-channel FC-Controller Emulex LPe12002 ETERNUS DX80 S1 und S2 Storage-Systeme: Je Tile: 241 GB Je DX80: RAID 0 mit mehreren LUNs Gesamt: 118 Festplatten (inkl. SSDs) Software BIOS Version V4.6.5.1 R1.4.0 BIOS-Einstellungen Siehe Details Betriebssystem VMware ESX 4.1.0 U2 Build 502767 Betriebssystemeinstellungen ESX-Einstellungen: siehe Details Seite 50 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Prime-Client/Datacenter Management Server (DMS) Hardware (Shared) Gehäuse PRIMERGY BX600 Netzwerk-Switch 1 × PRIMERGY BX600 GbE Switch Blade 30/12 Hardware Modell 1 × Server-Blade PRIMERGY BX620 S4 Prozessor 2 × Xeon X5470 Speicher 4 GB Netzwerk-Interface 2 × 1 Gbit/s LAN Software Betriebssystem Prime Client: DMS: Microsoft Windows Server 2003 R2 Enterprise Edition SP2, KB955839 Microsoft Windows Server 2003 R2 Enterprise x64 Edition SP2, KB955839 Lastgenerator Hardware Modell 1 × PRIMERGY RX600 S6 Prozessor 4 × Xeon E7-4870 Speicher 512 GB Netzwerk-Interface 1 × 1 Gbit/s LAN 2 × 10 Gbit/s LAN Software Betriebssystem VMware ESX 4.1.0 U2 Build 502767 Lastgenerator-VMs (pro Tile 1 Lastgenerator-VM) Hardware Prozessor 4 × logische CPU Speicher 4 GB Netzwerk-Interface 1 × 1 Gbit/s LAN Software Betriebssystem Microsoft Windows Server 2008 Enterprise x64 Edition SP2 Details Siehe Disclosure http://www.vmware.com/a/assets/vmmark/pdf/2012-05-01-Fujitsu-RX300S7.pdf Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2012 Seite 51 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Ergebnisse Am 01. Mai 2012 erzielte Fujitsu mit einer PRIMERGY RX300 S7 mit Xeon E5-2690 Prozessoren und VMware ESX 4.1.0 U2 einen VMmark V2-Score von „11.02@10 tiles― in einer Systemkonfiguration mit insgesamt 2 × 16 Prozessorkernen beim Einsatz von zwei identischen Servern im „System under Test― (SUT). Mit diesem Ergebnis ist die PRIMERGY RX300 S7 in der offiziellen VMmark V2-Rangliste einer der leistungsstärksten 2-Sockel-Server in einer „matched pair― Konfiguration aus zwei identischen Hosts (zum Zeitpunkt der Veröffentlichung des Benchmark-Ergebnisses). Die aktuellen VMmark V2-Ergebnisse sowie die ausführlichen Resultate und Konfigurationsdaten sind zu finden unter http://www.vmware.com/a/vmmark/. Vergleich der Systemgenerationen 12 x1.45 6 4 2 7.59@7 tiles 8 11.02@10 tiles VMmark V2 Score 10 Im Vergleich mit einem PRIMERGY System der Vorgängergeneration mit Xeon X5690 Prozessoren erreicht man bei VMmark V2 eine Leistungssteigerung von ca. 45%. Die nebenstehende Grafik zeigt das Ergebnis der PRIMERGY RX300 S7 im Vergleich zum Vorgängersystem PRIMERGY RX300 S6. 0 2 × Fujitsu PRIMERGY RX300 S7 2 × Xeon E5-2690 2 × Fujitsu PRIMERGY RX300 S6 2 × Xeon X5690 Wesentliche Voraussetzungen zur Erreichung des Ergebnisses der PRIMERGY RX300 S7 waren die verwendeten Prozessoren, die bei gut eingestelltem Hypervisor seine Prozessor-Features inklusive HyperThreading optimal nutzen konnten. All dies wirkt sich speziell bei der Virtualisierung positiv aus. Alle VMs, deren Anwendungsdaten, das Host-Betriebssystem sowie weitere erforderliche Daten befanden sich auf einem leistungsfähigen Fibre-Channel Disk-Subsystem aus ETERNUS DX80 Systemen. Die Einrichtung des Disk-Subsystems berücksichtigt möglichst die spezifischen Anforderungen des Benchmarks. Der Einsatz von SSDs (Solid State Disk) in der leistungsstärkeren ETERNUS DX80 S2 brachte weitere Vorteile bei den Antwortzeiten der eingesetzten Festplatten. Der Netzwerkanschluss der Lastgeneratoren und die Infrastruktur-Workload Verbindung zwischen den Hosts wurden über die 10Gb LAN Ports realisiert. Alle verwendeten Komponenten wurden dabei optimal aufeinander abgestimmt. Seite 52 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 STREAM Benchmark-Beschreibung STREAM ist ein seit vielen Jahren eingesetzter synthetischer Benchmark zur Ermittlung des Speicherdurchsatzes, der von John McCalpin während seiner Professur an der Universität in Delaware entwickelt wurde. Heute wird STREAM an der Universität von Virginia betreut. Dort kann der Quellcode wahlweise in Fortran oder C heruntergeladen werden. Besonders im HPC-Umfeld spielt STREAM nach wie vor eine wichtige Rolle. So ist er z.B. Bestandteil der HPC Challenge Benchmark-Suite. Der Benchmark ist so konzipiert, dass er sowohl auf PCs als auch auf Serversystemen eingesetzt werden kann. Die Maßeinheit des Benchmarks ist GB/s, also die Anzahl Gigabytes, die pro Sekunde gelesen und geschrieben werden kann. STREAM misst den Speicherdurchsatz bei sequentiellen Zugriffen. Diese können generell effizienter durchgeführt werden als Zugriffe, die zufällig auf den Speicher verteilt sind, da bei sequentiellem Zugriff die CPU-Caches genutzt werden. Vor der Ausführung wird der Quellcode der zu vermessenden Umgebung angepasst. So muss die Größe des Datenbereiches mindestens viermal höher sein als die Summe aller CPU Caches, damit diese einen möglichst geringen Einfluss auf das Ergebnis nehmen. Mit Hilfe der OpenMP-Programmbibliothek können ausgewählte Programmteile während der Laufzeit des Benchmarks parallel ausgeführt werden, wodurch eine optimale Lastverteilung auf die verfügbaren Prozessorkerne erreicht wird. Bei der Ausführung wird der definierte Datenbereich, bestehend aus 8-Byte-Elementen, nacheinander auf vier Arten kopiert, wobei teilweise zusätzlich arithmetische Berechnungen durchgeführt werden. Art Ausführung Bytes je Schritt Gleikommarechnung je Schritt COPY a(i) = b(i) 16 0 SCALE a(i) = q × b(i) 16 1 SUM a(i) = b(i) + c(i) 24 1 TRIAD a(i) = b(i) + q × c(i) 24 2 Bei jeder Berechnungs-Art wird der Durchsatz in GB/s ausgegeben. Die Unterschiede der verschiedenen Werte sind auf modernen Systemen in der Regel nur gering. Zum Vergleich wird im Allgemeinen nur noch der ermittelte TRIAD-Wert verwendet. Die Messergebnisse hängen in erster Linie von der Taktfrequenz der Speichermodule ab, die CPUs beeinflussen die arithmetischen Berechnungen. Die Genauigkeit der Ergebnisse beträgt etwa 5%. 9 In diesem Kapitel sind Durchsätze durchgängig zur Basis 10 angegeben (1 GB/s = 10 Byte/s). Benchmark-Umgebung System Under Test (SUT) Hardware Modell PRIMERGY RX300 S7 Prozessor 2 Prozessoren der Xeon E5-2600 Prozessorserie Speicher 16 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC Software BIOS-Einstellungen Hyper-Threading = Disabled Betriebssystem Red Hat Enterprise Linux Server release 6.2 Betriebssystemeinstellungen echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled Compiler Intel C Compiler 12.1 Benchmark Stream.c Version 5.9 Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2012 Seite 53 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Ergebnisse Prozessor Cores Prozessorfrequenz [Ghz] Max. Speicherfrequenz [MHz] TRIAD [GB/s] 2 × Xeon E5-2637 2 3.00 1600 41.1 2 × Xeon E5-2603 4 1.80 1067 48.1 2 × Xeon E5-2609 4 2.40 1067 53.9 2 × Xeon E5-2643 4 3.30 1600 75.4 2 × Xeon E5-2630L 6 2.00 1333 68.7 2 × Xeon E5-2620 6 2.00 1333 68.7 2 × Xeon E5-2630 6 2.30 1333 69.8 2 × Xeon E5-2640 6 2.50 1333 70.3 2 × Xeon E5-2667 6 2.90 1600 81.5 2 × Xeon E5-2650L 8 1.80 1600 71.4 2 × Xeon E5-2650 8 2.00 1600 77.0 2 × Xeon E5-2660 8 2.20 1600 78.5 2 × Xeon E5-2665 8 2.40 1600 79.3 2 × Xeon E5-2670 8 2.60 1600 80.0 2 × Xeon E5-2680 8 2.70 1600 79.5 2 × Xeon E5-2690 8 2.90 1600 80.7 Die Ergebnisse sind primär abhängig von der maximalen Speicherfrequenz. Eine Ausnahme bildet der Xeon E5-2637, der beim STREAM-Benchmark mit nur 2 Cores nicht alle 4 Kanäle des Memory-Controllers nutzt. Die geringeren Unterschiede bei Prozessoren mit gleicher maximaler Speicherfrequenz ergeben sich bei der arithmetischen Berechnung durch die unterschiedlichen Prozessorfrequenzen. Die folgende Grafik verdeutlicht den Durchsatz der PRIMERGY RX300 S7 im Vergleich zu ihrem Vorgänger, der PRIMERGY RX300 S6, in jeweils performantester Ausstattung. STREAM TRIAD: PRIMERGY RX300S7 vs. PRIMERGY RX300S6 GB/s 90 80 70 60 50 40 30 20 10 0 81.5 41.4 PRIMERGY RX300 S6 PRIMERGY RX300 S7 2 × Xeon X5667 2 × Xeon E5-2667 Seite 54 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 LINPACK Benchmark-Beschreibung LINPACK wurde in den 1970er Jahren von Jack Dongarra und anderen entwickelt, um die Leistungsfähigkeit von Supercomputern zu zeigen. Der Benchmark besteht aus einer Sammlung von Bibliotheksfunktionen zur Analyse und Lösung linearer Gleichungssysteme. Eine Beschreibung findet man in dem Dokument http://www.netlib.org/utk/people/JackDongarra/PAPERS/hplpaper.pdf. Mit LINPACK lässt sich die Geschwindigkeit eines Computers bei der Lösung eines N–dimensionalen linearen Gleichungssystems messen. Das Ergebnis wird in GFlops (Giga Floating Point Operations per Second) angegeben. Es ist ein Maß dafür, wie viele Gleitkommaoperationen pro Sekunde durchgeführt werden. Die Anzahl der zur Lösung notwendigen Gleitkommaoperationen wird durch die Formel 2 3 2 /3 × N + 2 × N bestimmt. Für die Berechnung benötigt LINPACK eine Matrix der Größe N × N im Hauptspeicher, der Wert N steht dabei für die Anzahl der zu lösenden Gleichungen. Die maximale Performance wird erreicht, wenn durch die Wahl dieses Wertes der noch zur Verfügung stehende Hauptspeicher komplett genutzt werden kann. Die Ermittlung dieses Grenzwertes ist allerdings sehr zeitaufwendig und die zu erwartende Steigerung des Ergebnisses nur geringfügig. Auch die Speicherbandbreite des Systems hat auf das Ergebnis kaum Einfluss, da während der Laufzeit hauptsächlich Gleitkommaberechnungen durchgeführt werden und ein Datenaustausch zwischen den parallelen Prozessen nur selten stattfindet. Daher wird das BenchmarkErgebnis für einen Wert von N ermittelt, der etwas unterhalb des Maximalwertes liegt. Im Umfeld des High Performance Computing (HPC) zählt LINPACK zu den führenden Benchmarks. Innerhalb der HPC Challenge Benchmark-Suite, die weitere Aspekte der Leistungsfähigkeit im HPC-Umfeld berücksichtigt, ist LINPACK einer von sieben aktuell enthaltenen Benchmarks. Intel bietet eine LINPACK-Version an, die für Einzelsysteme mit Intel Prozessoren hoch optimiert wurde. Die optimalen Parameterwerte werden von der Software auf Grund der aktuellen Prozessorarchitektur selbständig ermittelt. Eine weitere von Intel zur Verfügung gestellte Version basiert auf hpl (HighPerformance Linpack) zum Einsatz auf verteilten Systemen, wobei die Kommunikation der Server untereinander über Message Passing Interface (MPI) erfolgt. Bei dieser Version erfolgt die Einstellung der Parameterwerte über eine Konfigurationsdatei. Beide Versionen können von http://software.intel.com/enus/articles/intel-math-kernel-library-linpack-download/ heruntergeladen werden. Eine Veröffentlichung von LINPACK-Ergebnissen ist unter http://www.top500.org/ möglich. Voraussetzung hierfür ist die Verwendung einer auf Message Passing Interface (MPI) basierten Version. (Siehe: http://www.netlib.org/benchmark/hpl) Die maximale theoretische Performance eines Prozessorkernes ergibt sich aus der Anzahl der Gleitkommaoperationen, die innerhalb eines Taktzyklusses ausgeführt werden. So würde z.B. ein einzelner Prozessorkern mit 2.4 GHz Taktfrequenz und 4 Gleitkommaoperationen pro Zyklus eine maximale Performance von 9.6 GFlops erreichen. Das Verhältnis des gemessenen Ergebnisses zum maximalen Wert zeigt die Effizienz des Systems bei Gleitkommaberechnungen. Je weniger Speicherzugriffe während der Berechnung erforderlich sind, desto besser ist das Verhältnis. Auch bei der Verwendung von Grafikkarten für General Purpose Computation on Graphics Processing Unit (GPGPU) kommen herstellerspezifische LINPACK-Versionen zum Einsatz. Diese basieren auf hpl und beinhalten Erweiterungen, die zur Kommunikation mit den Grafikkarten benötigt werden. Zur Laufzeit wird die Rechenlast durch ein vom Anwender vorgegebenes Verhältnis auf die Systemprozessoren und die Prozessoren der Grafikkarten verteilt. Das LINPACK-Resultat besteht demnach aus der Summe der Leistungen der Systemprozessoren und der Grafikkarten, wobei die Systemprozessoren auf Grund des Datentransfers zwischen Hauptspeicher und Grafikkarte nicht das Ergebnis erreichen, das ohne Grafikkarte möglich wäre. © Fujitsu Technology Solutions 2012 Seite 55 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Umgebung System Under Test (SUT) Hardware Modell PRIMERGY RX300 S7 Prozessor 2 Prozessoren der Xeon-Serie E5-2600 Speicher 16 × 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC Software BIOS-Einstellungen Hyper-Threading = Disabled Betriebssystem Red Hat Enterprise Linux Server release 6.2 Benchmark xlinpack_xeon64 aus Intel Compiler 12.1 Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. Seite 56 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Benchmark-Ergebnisse Der zur Verfügung stehende Hauptspeicher von 128 GB erlaubt eine Dimension von N = 120000. Prozessor Cores Prozessorfrequenz [Ghz] Max. Turbofrequenz bei Volllast [Ghz] Theoretisches Maximum [GFlops] LINPACK Effizienz [GFlops] [%] 2 × Xeon E5-2637 2 3.00 3.50 112 101 90 2 × Xeon E5-2603 4 1.80 n/a 115 106 92 2 × Xeon E5-2609 4 2.40 n/a 154 140 91 2 × Xeon E5-2643 4 3.30 3.40 218 198 91 2 × Xeon E5-2630L 6 2.00 2.30 221 192 87 2 × Xeon E5-2620 6 2.00 2.30 221 204 92 2 × Xeon E5-2630 6 2.30 2.60 250 229 92 2 × Xeon E5-2640 6 2.50 2.80 269 247 92 2 × Xeon E5-2667 6 2.90 3.20 307 282 92 2 × Xeon E5-2650L 8 1.80 2.00 256 232 91 2 × Xeon E5-2650 8 2.00 2.40 307 280 91 2 × Xeon E5-2660 8 2.20 2.70 346 285 82 2 × Xeon E5-2665 8 2.40 2.80 358 314 88 2 × Xeon E5-2670 8 2.60 3.00 384 318 83 2 × Xeon E5-2680 8 2.70 3.10 397 347 87 2 × Xeon E5-2690 8 2.90 3.30 422 352 83 Für Prozessoren ohne Turbomodus lässt sich durch die Formel GFlopsmax = Anzahl Gleitkommaoperationen pro Taktzyklus × Anzahl Prozessorkerne × Prozessorfrequenz[GHz] ein theoretischer Maximalwert errechnen. Prozessoren, die über einen Turbomodus verfügen, sind durch die nominale Prozessorfrequenz nicht limitiert und liefern daher keine konstante Prozessorfrequenz. Hier liegt die tatsächliche Prozessorfrequenz zwischen der nominalen Prozessorfrequenz und der maximalen Turbofrequenz bei Volllast. Zur Berechnung des theoretischen Maximums wird bei diesen Prozessoren folgende Formel verwendet: GFlopsmax = Anzahl Gleitkommaoperationen pro Taktzyklus × Anzahl Prozessorkerne × maximale Turbofrequenz bei Volllast[GHz] Die folgende Grafik verdeutlicht den Durchsatz der PRIMERGY RX300 S7 im Vergleich zu ihrem Vorgänger, der PRIMERGY RX300 S6, in jeweils performantester Ausstattung. LINPACK: PRIMERGY RX300 S7 vs. PRIMERGY RX300 S6 GFlops 400 352 350 300 250 200 160 150 100 50 0 PRIMERGY RX300 S6 PRIMERGY RX300 S7 2 × Xeon X5690 2 × Xeon E5-2690 © Fujitsu Technology Solutions 2012 Seite 57 (59) WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 Literatur PRIMERGY Systeme http://primergy.de/ PRIMERGY RX300 S7 Datenblatt http://docs.ts.fujitsu.com/dl.aspx?id=29c4002e-158e-4aea-bbf6-aa2ff349e299 Speicher-Performance Xeon E5-2600/4600 (Sandy Bridge-EP) basierter Systeme http://docs.ts.fujitsu.com/dl.aspx?id=afd4d4f2-e57d-46a4-868d-a54b1fe2690a PRIMERGY Performance http://www.fujitsu.com/de/products/computing/servers/primergy/benchmarks/ Disk-I/O Grundlagen Disk-I/O-Performance http://docs.ts.fujitsu.com/dl.aspx?id=3d4fbad8-2a7e-465f-b9ee-d43b711f636d Performance einzelner Festplatten http://docs.ts.fujitsu.com/dl.aspx?id=664c076d-f57b-4dcc-beeb-c40451554d92 RAID-Controller-Performance http://docs.ts.fujitsu.com/dl.aspx?id=71fac54b-7ec3-4b3f-b13d-f80fbb42d583 Informationen über Iometer http://www.iometer.org LINPACK http://www.netlib.org/linpack/ OLTP-2 Benchmark-Überblick OLTP-2 http://docs.ts.fujitsu.com/dl.aspx?id=743d7d46-56e8-41d2-9d50-9ab29ccf4d18 SAP SD http://www.sap.com/solutions/benchmark/index.epx Benchmark Überblick SAP SD http://docs.ts.fujitsu.com/dl.aspx?id=ae039b1d-73d8-4946-ae60-08dcef54cfa8 SPECcpu2006 http://www.spec.org/osg/cpu2006 Benchmark Überblick SPECcpu2006 http://docs.ts.fujitsu.com/dl.aspx?id=04351fd2-8a69-42a3-ba1c-4342dcc89b89 SPECjbb2005 http://www.spec.org/jbb2005 Benchmark Überblick SPECjbb2005 http://docs.ts.fujitsu.com/dl.aspx?id=e8477909-3a17-40dd-8c64-ff338b6457a0 SPECpower_ssj2008 http://www.spec.org/power_ssj2008 Benchmark-Überblick SPECpower_ssj2008 http://docs.ts.fujitsu.com/dl.aspx?id=66467935-98dc-4374-80b2-3ddae4c73491 STREAM http://www.cs.virginia.edu/stream/ Seite 58 (59) © Fujitsu Technology Solutions 2012 WHITE PAPER PERFORMANCE REPORT PRIMERGY RX300 S7 VERSION: 1.3 2012-10-09 TPC-E mit TPC-Energy http://www.tpc.org/tpce Benchmark Overview TPC-E (DE) http://docs.ts.fujitsu.com/dl.aspx?id=08c95eef-5f18-4453-bed6-cbf9363f4e2f VMmark V2 Benchmark-Überblick VMmark V2 http://docs.ts.fujitsu.com/dl.aspx?id=ea18bef0-c1ff-46ae-81b3-c47811f866de VMmark V2 http://www.vmmark.com VMmark V2 Ergebnisse http://www.vmware.com/a/vmmark/ vServCon Benchmark-Überblick vServCon http://docs.ts.fujitsu.com/dl.aspx?id=214ee9dc-9239-4985-86e4-f0f9ac78ea25 Kontakt FUJITSU Website: http://www.fujitsu.com/de/ PRIMERGY Product Marketing mailto:[email protected] PRIMERGY Performance und Benchmarks mailto:[email protected] Alle Rechte vorbehalten, insbesondere gewerbliche Schutzrechte. Änderung von technischen Daten sowie Lieferbarkeit vorbehalten. Haftung oder Garantie für Vollständigkeit, Aktualität und Richtigkeit der angegebenen Daten und Abbildungen ausgeschlossen. Wiedergegebene Bezeichnungen können Marken und/oder Urheberrechte sein, deren Benutzung durch Dritte für eigene Zwecke die Rechte der Inhaber verletzen kann. Weitere Einzelheiten unter http://www.fujitsu.com/de/resources/navigation/terms-of-use.html 2012-10-09 WW DE © Fujitsu Technology Solutions 2012 Copyright © Fujitsu Technology Solutions 2012 Seite 59 (59)