Supercomputador Pleiades Introduo ao Processamento Paralelo e

Transcrição

Supercomputador Pleiades Introduo ao Processamento Paralelo e
Supercomputador Pleiades
Introduo ao Processamento Paralelo e Distribudo
Renato M. Dilli1
1
Centro Politcnico – Mestrado em Cincia da Computao
Universidade Catlica de Pelotas (UCPel)
[email protected]
Resumo. Este trabalho descreve as principais caractersticas e recursos do supercomputador Pleiades. Em novembro de 2008 ele estava em terceiro lugar na
lista do site TOP500. apresentado um pequeno histrico dos supercomputadores da Diviso de Supercomputao Avanada da NASA, local onde se encontra o
supercomputadore Pleiades.
1. Histrico
Pleiades um sistema SGI ICE [?] capaz de atingir 565TFlops com 47104 cores. O seu
nome uma referncia ao aglomerado estelar na constelao de Touro. O aglomerado estelar
das Pliades [?] o aglomerado de estrelas mais brilhantes em todo o cu, tambm chamado
de Sete Irms, M45 ou Subaru (no Japo).
Figura 1. Supercomputador Pleiades
O Pleiades composto de 5888 nodos interconectados com Infiniband em uma topologia hipercubo. Cada nodo contm oito processadores Intel Xeon X5472 3.0 GHz
(Harpertown) em dois Quad-Cores, e 8 GB de memria.
A NASA possui dois sistemas SGI Altix ICE (Integraded Compute Environment)
chamados Pleiades e RTJones [?].
A unio destes dois sistemas pontuou o supercomputador Pleiades como o terceiro
supercomputador mais potente do mundo, conforme a lista dos supercomputadores mais
potentes de novembro de 2008, no site TOP500 [?]. Atingiu o ndice de 487 TeraFLOPS
no teste realizado com LINPACK, com pico de 608 TeraFLOPS. Este resultado faz do
Pleiades o supercomputador para uso geral mais potente do mundo. Ele est instalado
no centro de pesquisas da NASA (National Aeronautics and Space Administration) em
Mountain View, Califrnia, Estados Unidos.
A Diviso de Supercomputao Avanada da NASA h 25 anos dedica-se a disponibilizar recursos e ferramentas de simulao necessrias para misses crticas e fazer novas
descobertas cientficas para o benefcio da humanidade.
O RTJones foi instalado em 2007 e usado exclusivamente por usurios de Misses
Aeronticas Direcionadas. Seu nome uma homenagem a Robert Thomas Jones, famoso por
descobrir um ingrediente essencial para alcanar boa relao custo-eficcia em voos supersnicos. RTJones composto de 512 nodos interconectados com Infiniband numa topologia
hipercubo. Cada nodo contm oito processadores Intel Xeon 2.66Ghz (Clovertown) em
dois Quad-Cores, e 8GB de memria. Seus 4096 cores tem um pico terico de performance
de 43 TFlops.
O Pleiades suplementa o supercomputador Columbia, tambm instalado na NASA,
que estreou em 2004 como o segundo supercomputador mais rpido do mundo. O Columbia ajudou a NASA a retomar com sucesso o programa Space Shuttle e economizar
milhares de horas de pesquisa em muitos outros projetos. O Columbia formado por 14336
cores numa plataforma SGI Altix da Silicon Graphics.
O supercomputador Columbia foi pontuado na lista de junho de 2008, do site
TOP500, em vigsimo quinto e na lista de novembro de 2008 em trigsimo nono.
2. Motivaes
Os pesquisadores utilizam o Pleiades para simular falhas catastrficas, para que possam
conceber sistemas e procedimentos para prevenir problemas que possam ameaar a segurana e a sobrevivncia dos astronautas.
Atualmente o Pleiades possui mais que o dobro da potncia e capacidade do sistema
inicial de 40 rmrios SGI Altix ICE. A rpida expanso resultou de um esforo em conjunto
da NASA, Silicon Graphics e Benchmark Electronics.
Segundo Rupak Biswas [?], chefe da diviso de supercomputao da NASA (NAS),
o Pleiades permite realizar o trabalho seis vezes mais rpido que o Columbia , permitindo
aos pesquisadores realizarem projetos maiores e mais complexos sem comprometer a
capacidade computacional para simulao ou para outros projetos em andamento.
Pleiades tem sido escolhido pela NASA como a prxima gerao tecnolgica que
atende as necessidades futuras de supercomputao da agncia.
Com o Pleiades, ser possvel atender mais que duas vezes e meia a atual necessidade computacional dos cientistas e engenheiros de conduzir simulaes e modelar misses.
O Pleiades um sistema SGI Altix ICE, da Silicon Graphics 3,5 vezes maior do
que qualquer outra instalao SGI Altix ICE. Na produo do Pleiades a Silicon Graphics em
parceria com Mellanox Technologies esto criando o maior cluster InfiniBand do mundo,
com mais de 12800 nodos. O sistema de interconexo InfiniBand 70% maior que os dois
maiores sistemas combinados. No total ele suporta mais de 128TBits/s de largura de
banda em comunicaes IB.
3. Objetivos
A NASA est utilizando o Pleiades em projetos do Programa Constellation, para refinar
mtodos de visualizao da aeronave V-22 Osprey Tiltrotor e conduzir clculos complexos
para determinar como surgiu a vida na Terra.
Entre os projetos aceitos para serem processados no Pleiades, podemos destacar:
• Complexas simulaes de grandes problemas computacionais para o projeto futuro
de veculos espaciais
• Desenvolvimento de modelos cada vez mais detalhados da evoluo da galxia
• Executar modelos atmosfricos-oceanolgicos para prever alteraes climticas
4. Viso Geral da Arquitetura Pleiades + RTJones
Cluster de 51200 nodos instalados num sistema SGI(R) Altix(R) ICE 8200EX da Silicon
Graphics, Inc. (SGI).
4.1. Sistema
•
•
•
•
100 Gabinetes (64 nodos em cada, 6400 nodos ao total)
609 TFlops
Total de cores: 51200
Nodos
– 5888 nodos (Pleiades)
∗ 2 processadores quad-core por nodo
∗ Processadores Xeon E5472 (Harpertown)
∗ Velocidade do processador de 3Ghz
∗ Cache - 6MB por par de cores
– 512 nodos (RTJones)
∗ 2 processadores quad-core por nodo
∗ Processadores Xeon X5355 (Clovertown)
∗ Velocidade do processador de 2.66 Ghz
∗ Cache - 4MB por par de cores
4.2. Sub-Sistemas
• 8 nodos de front-end
• 1 PBS server
4.3. Memria
• Tipo DDR2 FB-DIMMs
• 1GB por core, 8GB por nodo
• Total de Memria - 51 TB
4.4. Interconexes
• Entre nodos - InfiniBand, 6400 nodos em uma topologia hipercubo 10D
• Dois InfiniBand fabrics independentes rodando a 4x DDR
• Rede de gerenciamento Gigabit Ethernet
4.5. InfiniBand
A arquitetura InfiniBand [?] rompe a limitao da largura de banda do barramento PCI migrando a tradicional arquitetura de barramento compartilhado em uma arquitetura comutada (switched fabric). As figura 2 mostra uma configurao simplificada de uma instalao
InfiniBand. Um nodo pode representar um servidor bem como um dispositivo de E/S,
como um sub-sistema RAID. O switched fabric consiste de um nico switch, nos caso
mais simples ou uma coleo de switches e roteadores interconectados.
O termo switched fabric tambm conhecido como switching fabric ou somente
fabric uma topologia de rede onde os nodos conectam-se atravs de um ou mais switches
de rede. Esta topologia permite a conexo terica de at 16 milhes de dispositivos, limitada
apenas pelo espao de endereamento disponvel.
A conexo entre nodos, switches, e roteadores uma conexo serial ponto-a-ponto.
Esta caracterstica agrega os seguintes benefcios:
• Por ser uma conexo serial, ele requer apenas quatro vias para conexo, ao contrrio
da grande quantidade de vias necessrias no barramento PCI, que paralelo.
• A natureza ponto-a-ponto da conexo permite total capacidade de conexo entre
duas extremidades porque o link dedicado para os nodos. Isto elimina a conteno do
barramento, bem como delays que podem ocorrer em condies de utilizao extrema,
situaes comuns numa arquitetura de barramento compartilhado.
• O canal InfiniBand foi concebido para conectar hosts e dispositivos de E/S dentro
de um Data Center. Desta forma, o comprimento das conexes so relativamente
curtas, permitindo que uma largura de banda muito maior possa ser alcanada.
A figura 3 ilustra um sistema em rede que utiliza a arquitetura InfiniBand. Nesta
figura a fabric consiste de trs switches que conectam seis nodos. Cada nodo conecta ao
fabric atravs de um adaptador de canal. A especificao InfiniBand classifica os adaptadores
de canal em duas categorias: Host Channel Adapters (HCA) e Target Cahnnel Adapters
(TCA).
Figura 2. Topologia Basica InfiniBand Fabric
HCA esto presentes em servidores ou eventualmente em desktops e proveem uma
interface que usada para integrar o InfiniBand com o sistema operacional. TCAs esto
presentes em dispositivos de E/S, tal como, subsistemas RAID. Cada adaptador de canal
pode ter uma ou mais portas. Um adaptador de canal com mais de uma porta pode conectar em vrios portas de switches. Isto permite vrios caminhos entre a origem e o destino,
resultando ganho de desempenho.
Figura 3. Rede baseada na arquitetura InfiniBand
Duas caractersticas da arquitetura InfiniBand que esto evidentes na figura 3 so a
habilidade de compartilhar dispositivos de armazenagem atravs de mltiplos servidores e
a habilidade de realizar um third-party E/S. Third-party E/S o termo usado para referirse a capacidade de dois dispositivos de armazenagem completarem uma transao de E/S
sem envolvimento direto de hosts que no esto envolvidos na operao. Esta caracterstica
extremamente importante na perspectiva de desempenho, pois muitas operaes de E/S entre
dois dispositivos de armazenamento podem ser totalmente independentes do servidor,
eliminando a utilizao desnecessria de CPU.
Tabela 1. Taxa de transferncia terica - InfiniBand
Single(SDR)
1X
2 Gbit/s
4X
8 Gbit/s
12X
24 Gbit/s
Double(DDR)
4 Gbit/s
16 Gbit/s
48 Gbit/s
Quad(QDR)
8 Gbit/s
32 Gbit/s
96 Gbit/s
A conexo serial do InfiniBand tem uma taxa de 2,5 Gbit/s em cada direo, por
conexo (SDR). Infiniband tambm suporta velocidades DDR e QDR, equivalente a 5 Gbit/s
ou 10 Gbit/s respectivamente, na mesma velocidade de clock.
Como utilizado a codificao 8B/10B, a cada 10 bits enviados, 8 so utilizados com
dados, as velocidades caem para 2 Gbit/s (SDR), 4 Gbit/s (DDR) e 8 Gbit/s.
A tabela 1 relacionada as velocidades mximas alcanadas em links de 1X, 4X e
12X.
4.6. Armazenamento
• Nexis 9000 home filesystem
• 3 sistemas de arquivos Lustre, cada um contendo:
– 8 Object Storage Servers(OSS)
– 1 Metadata server (MDS)
– 2 DDN 9900 RAIDs - 300TB total
4.7. SGI InfiniteStorage NEXIS 9000
Utilizado pelo supercomputador Pleiades o SGI InfiniteStorage NEXIS 9000 NetworkAtached Storage(NAS) usa rede InfiniBand para extrair mxima performance em armazenagem baseada em arquivos.
Figura 4. SGI NEXIS 9000
Os discos rgidos utilizados pelo NEXIS 9000 utilizam a tecnologia SAS (serialattached SCSI) que vem a substituir a SCSI. SAS transmite mais dados e mais rpido em
um nico fio que o SCSI que precisa de 32 vias no cabo. O SAS manteve o conjunto
de comandos SCSI para que seja compatvel com SCSI. Com um expansor SAS possvel
conectar at 128 dispositivos sem estender a distncia de at 8 metros. Um domnio SAS
pode ter at 16256 dispositivos, conectando-se diversos expansores. A velocidade bsica de
3 Gbps, que equivale a 300MBps, que pode ser duplicada a 600MBps desde que o canal
SAS seja full-duplex.
Principais Caractersticas:
•
•
•
•
•
Totalmente integrado, pr-configurado e ajustado para mxima performance
Expansvel
Otimizado para servidores SGI de alta performance
Ip sobre InfiniBand (IB), 10 Gigabit Ethernet ou Gigabit Ethernet
Conjunto de ferramentas para Administrao e Gerenciamento para uma rpida implementao
• Sistema de Arquivos de alta performance, baixa latncia e escalvel
NAS Server - Caractersticas:
• Tipo de CPU - 4 a 8 Intel Itanium Dual Core
• Memria do Sistema - At 192GB
• Opes de Conectividade (E/S) - 6 portas GbE copper plus compatvel com os cartes:
1 Porta DDR InfiniBand (IB), ou 1 Porta 10GbE ptica ou 4 portas GigE
• Host Backend - 4 a 10 portas de 4 canais SAS
Storage - Caractersticas:
• 4 a 10 conjuntos RAID com controladores RAID redundantes
• 48 a 480 drives SAS
• At 12 trays de 12 drives SAS idnticos no sistema base
• At 6 conjuntos adicionais
• RAID nvel 5
• Capacidade mxima de 216TB
Dimenses:
•
•
•
•
NAS Server - 10U
Storage Controller Tray - 2U
Storage Expansion Tray - 2U
Rack - 39U ou SGI Server Rack
4.8. DDN S2A9900
O sistema S2A9900 StorageScaler da DataDirect Networks possui tcnicas revolucionrias
que so as seguintes:
Figura 5. DDN S2A9900
•
•
•
•
•
•
•
•
Leitura e escrita na mesma velocidade (6GB/s)
Qualidade de servio em tempo real
RAID 6 sem queda de performance
1.2PB em apenas dois armrios
1200 drives por sistema
Consumo de energia reduzido
S2A SleepMode
InfiniBand 4X DDR nativo e canal de fibra 8Gbps
4.9. Ambiente Operacional
• Sistema Operacional - SUSE Linux Enterprise Server
• Job Scheduler - PBS (Portable Batch System)
4.10. Aplicaes
• Linguagens de Programao e Debugadores
– Intel C++ Compiler
– GNU GCC
– Intel Fortran (Fortran 95)
– GNU GCC (Fortran 77)
– Intel Debugger
– GNU GDB
– TotalView Debugger
– MemoryScape Memory Debugger
– Intel Thread Checker
• Bibliotecas
– Intel Math Kernel Library
– Intel Integraded Performance Primitives
– Intel Threading Building Blocks
– Intel MPI Library
• Ferramentas de Desenvolvimento
– Intel VTune Performance Analyzer
– Intel Trace Analyzer Collector
– Interactive Supercomputing Star-P
– Plataform MPI
– OpenMP
– SGI Message Passing Toolkit
4.11. Sistema de Arquivos Lustre
O sistema de arquivos Lustre utilizado pelo supercomputador Pleiades um sistema de
arquivos distribudos de cdigo aberto, largamente utilizado em clusters de grande porte.
O projeto tenta prover um sistemas de arquivos para um cluster de dezenas de milhares
de ns e petabytes de capacidade de armazenamento, sem comprometer a estabilidade e a
segurana.
Cada arquivo armazenado em um sistema de arquivos Lustre [?] considerado um
objeto. Lustre apresenta a todos os clientes uma semntica POSIX padro e acesso de
leitura e escrita concorrente aos objetos compartilhados. Um sistema de arquivos Lustre
tem quatro unidades funcionais: um “Servidor de Meta dados”(MDS) para armazenar os
meta dados; um Armazenador de Alvos de Objeto (OST) para armazenar os dados atuais;
um Servidor de Objetos Armazenados (OSS) para administrar o OSTs e cliente(s) para
acessar e o usar os dados. OSTs so baseados em dispositivos de blocos. Um MDS, OSS,
e um OST podem estar no mesmo n ou em ns diferentes. Lustre no fala diretamente
e no administra OSTs, ele apenas delega esta responsabilidade a OSSs para assegurar
escalabilidade a grandes clusters e supercomputadores.
• Requisitos do Sistema
– Plataformas - IA64, I686, X86 64, PPC, Cross-endian
– Sistemas Operacionais - Red Hat Enterprise Linux 4.5, SUSE 9.10, Linux
com kernel 2.6
– Suporte a Rede - TCP/IP, Quadrics Elan 3.4, Myrinet, InfiniBand (Open
Fabrics, OpenIB Gen 1, Silverstorm, Voltaire, Cisco)
Figura 6. Sistema de Arquivos Lustre
5. Arquitetura SGI Altix ICE
A arquitetura SGI Altix ICE da Silicon Graphics composta por armrios de 42U que comportam at 4 blade enclosures. Cada blade enclosures possui 16 sockets duplas para compute blades, para at 128 sockets e 512 cores por armrio.
Figura 7. Armrios SGI Altix ICE
O Blade Enclosure ICE 8200EX possui quatro 4x DDR IB switch blades, topologia hipercubo e rede Gigabit Ethernet dedicada.
5.1. Softwares
Todo software utilizado nos clusters Altix ICE da NAS (Pleiades e RTJones) gerenciado
atravs de um sistema chamado modules para centralizar a localizao de produtos licenciados e de domnio pblico instalados no Pleiades e RTJones.
Os mdulos (programas) podem ser gerenciados da seguinte forma:
•
•
•
•
•
module avail: para encontrar que outros mdulos esto disponveis
module list: para listar quais mdulos esto em seu ambiente
module purge: para descarregar todos arquivos do mdulo carregado
module load module-name: para carregar o mdulo desejado
module switch old-module-name new-module-name: para alterar entre diferentes
verses de um software
Softwares de de terceiros, licenciados, disponveis:
• FieldView - Software para identificar rapidamente importantes fluxos de recursos
e caractersticas em simulaes
• IDL - Anlise de dados, visualizao, e uma plataforma de desenvolvimento de aplicaes
• LSTC-DYNA - Software capaz de simular problemas complexos do mundo real
• Tecplot - Utilizado para processar resultados de simulaes
Softwares de Cdigo Aberto, Domnio Pblico:
• Grace - um WYSIWIG(O que voc v o que voc faz) para plotagem em 2D
• MVAPICH - Utilizado entre a rede do cluster para aumento de performance e
escalabilidade de aplicaes
6. Caractersticas do Sistema RTJones
Cluster de 512 nodos em uma arquitetura SGI ICE 8200.
6.1. Nodos
Os nodos disponveis para computao so nomeados como r[097-100,113-116],i[0-3]n[015]. H ainda um nodo servidor PBS e nodos front-end, ambos no disponveis aos usurios.
6.2. Processador
•
•
•
•
•
•
•
•
CPU Quad-Core Xeon X5355 (Clovertown)
CPU-Clock - 2.66GHz
Operaes de Ponto Flutuante por ciclo de clock - 4
Nmero de Quad-Cores por nodo - 2
Nmero de Cores por nodo - 8
Total de nodos no cluster - 512
Total de Cores no Cluster - 4096
FSB - 1333MHz, 10,6 GB/s
6.3. Memria
• L1 Cache - local para cada core, 32K para cache de instrues, 32K para cache de
dados
• L2 Cache - 8MB por Quad-Core, 4MB compartilhada entre pares de cores
• Tamanho padro da pgina - 4KB
• Memria local por core - 1GB
• Memria total por nodo (blade) - 8GB
6.4. Sistemas de Arquivos
• Home - /rtj-home/u/userid, 2.7TB, soft limit 10GB, hard limit 12GB
• /nobackup - /nobackup 172TB, soft limit 200GB, hard limit 400GB
6.5. Hierarquia de Hardware
• Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de
1333 MHz com a memria)
• 2 Quad-Cores em um nodo (blade)
• 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack
units)
• 4 IRUs, nomeadas como i0-i3 em um armrio
• 8 armrios, nomeados como r097-r100, r113-r116 no cluster
Figura 8. Nodo RTJones
Em adio aos 512 nodos h muitos outros nodos para funes diversas, conforme relacionados abaixo:
• Service nodes:
– 6 para todo cluster (2 como nodos para autenticao,1-2 como nodos interativos para compilao de software e 1 PBS server)
– Usurios conectam-se neste nodo para compular e executar programas MPI
– Proveem funcionalidade de gateway de E/S do cluster para rede interna do
usurio
• Leader nodes (no acessveis pelos usurios)
– 1 por armrio
– Proveem imagem de boot do sistema para os nodos
– Executa software de gerenciamento que monitora as funes do InfiniBand
fabric
– Conexes de rede GigE para nodo admin, nodos de servio e nodos
– Monitora, envia funes para os IRUs dentro dos armrios e recebe dados dos
nodos e IRUs.
– Repassa dados dos IRUs e nodos para nodo admin
• nodos (Compute nodes)
– 512 ao total no cluster (16 por IRU ou 64 por armrio)
– Conexes de rede: GigE para os leader nodes, 100bT Ethernet to CMC,
dual-plane IB para o resto do cluster. A comunicao entre os nodos e o
nodo admin restrita
– Controlados e monitorados pelos leader nodes
– Aceita jobs para processamento batch
• Nodos de Armazenamento (Storage nodes)
– 8 nodos de armazenamento para dados, 2 nodos para meta dados
– Conexes de rede: IB para plano 1 (ib1), Ethernet para CMC
• System Admin Controller (no acessvel pelos usurios)
– 1 para todo cluster
– Prove interface LAN externa
– Conexes de rede: sem conexes IB
– Gerencia configurao de software para o cluster
– Usado para ativar e desativar todo cluster
– Usado pelo administrador do sistema para gerenciar e monitorar o cluster
O SGI Altix ICE 8200 utiliza arquitetura de interconexo InfiniBand com velocidade 4x DDR, integrado em unidades de armrio independentes (IRU - independeent rack
unit), sem cabos. Cada IRU inclui dois switches de nodos.
A fabric conecta os nodos de servio (service nodes), leader nodes e os nodos
(compute nodes). H dois IB fabrics no RTJones, um para MPI (ib0), e outro para E/S
(ib1). A figura 9 exemplifica a utilizao do InfiniBand no sistema SGU Altix ICE.
Figura 9. InfiniBand com dois IRUs
Atualmente os dois fabrics so separados em trfego IP e trfego MPI no ib0 e trfego
do sistema de arquivos Lustre no ib1.
O InfiniBand do SGI Altix ICE utiliza o software Open Fabrics Enterprise Distribuition (OFED) 1.2.
7. Caractersticas do Sistema Pleiades
7.1. Nodos
Os nodos disponveis para computao so nomeados como r[1-76,81-88,105-108, 121124]i[0-3]n[0-15]. H ainda um nodo servidor PBS e nodos front-end, ambos no disponveis aos usurios.
7.2. Processador
•
•
•
•
•
•
•
•
CPU Quad-Core Xeon X5472 (Harpertown)
CPU-Clock - 3GHz
Operaes de Ponto Flutuante por ciclo de clock - 4
Nmero de Quad-Cores por nodo - 2
Nmero de Cores por nodo - 8
Total de nodos no cluster - 5888
Total de Cores no Cluster - 47104
FSB - 1600MHz, 12,8 GB/s
7.3. Memria
• L1 Cache - local para cada core, 32K para cache de instrues, 32K para cache de
dados
• L2 Cache - 12MB por Quad-Core, 6MB compartilhada entre pares de cores, velocidade de 3GHz
• Tamanho padro da pgina - 4KB
• Memria local por core - 1GB
• Memria total por nodo (blade) - 8GB
7.4. Sistemas de Arquivos
• Home - /u/userid, 1TB, soft limit 8GB, hard limit 10GB
• /nobackup - /nobackup1 110TB, /nobackup2 220TB, soft limit 200GB, hard limit
400GB
7.5. Hierarquia de Hardware
• Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de
1600 MHz com a memria)
• 2 Quad-Cores em um nodo (blade)
• 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack
units)
• 4 IRUs, nomeadas como i0-i3 em um armrio
• 92 armrios, nomeados como r1-r76, r81-r88, r121-r124 no cluster
8. Caractersticas do Columbia
O super cluster Columbia tornou possvel a NASA avanar na cincia e engenharia para a
explorao espacial. A avanada arquitetura do Columbia est sendo disponibilizada para uma
ampla comunidade de engenheiros e cientistas.
Figura 10. SGI Altix Columbia
Tabela 2. SGI Altix - Columbia
Nodos
Tipo
Velocidade
11 Altix 3700 (512 cores)
Madison
1.5 GHz
3 Altix 3700-BX2 (512 cores) Madison
1.5 GHz
5 Altix 3700-BX2 (512 cores) Madison
1.6 GHz
1 Altix 4700 (512 cores)
Montecito
1.6 GHz
1 Altix 4700 (2048 cores)
Montecito
1.6 GHz
2 Altix 4700 (1024 cores)
Montvale
1.6 GHz
Cache
6MB
6MB
9MB
9MB
9MB
9MB
8.1. Nodos
8.2. Arquitetura do Sistema
• 304 nodos (compute node)
• 88.88 Teraflop/s (pico terico)
8.3. Sub-Sistemas
• 2 sistemas Data Life Cycle (DLM)
• 3 nodos front-end
8.4. Memria
• Tipo DDR SDRAM
• 2GB por processador
• Memria total - 28672GB
8.5. Interconexes
• NUMALink interconecta imagem do sistema aos nodos
• Entre nodos: InfiniBand 4X DDR, 10Gb Ethernet, 1Gb Ethernet
8.6. Storage
• DataDirect Networks
• LSI RAID
• SGI CXFS
8.7. Ambiente Operacional
• Sistema operacional - SUSE Linux Enterprise
• Job Scheduler - PBS
• Compiladores - Intel Fortran, C, SGI MPI
9. Caractersticas do Schirra
O supercomputador Schirra o primeiro cluster selecionado pela NASA para atender as
necessidades futuras de supercomputao. O nome Schirra uma homenagem ao astronauta
Walter Schirra.
Figura 11. IBM Power5+ Schirra
9.1. Arquitetura do Sistema
• 6 Gabinetes
• 4.8 Tflop/s
9.2. Nodos
•
•
•
•
•
40 IBM 9118-575
Processadores POWER5+
Velocidade do processador - 1.9GHz
320 processadores dual-core, 640 cores
36MB cache L3 por processador
9.3. Sub-Sistemas
• 2 nodos front-end
9.4. Memria
• IBM DIMMS
• 2GB por core
• Memria total - 1280GB
9.5. Interconexes
• Entre nodos - Switch de alta performance
• Dentro do nodo - Avanado switch distribudo
• 10Gb Ethernet para conexo dos front-end e nodes de armazenagem
9.6. Storage
• Data Direct RAID, 160TB
9.7. Ambiente Operacional
• Sistema Operacional - AIX Unix
• Job Scheduler - PBS
• Compiladores - IBM C/C++, IBM Fortran, IBM POE, gcc, g++
10. Gerenciamento dos Supercomputadores na NAS
A equipe de desenvolvimento de software da NAS desenvolveu um software para monitorar os supercomputadores atravs da WEB (miniHUD). Esta ferramenta permite aos
usurios uma viso de alto nvel em detalhes de nodos e sub-sistemas, incluindo utilizao de
CPU, status da fila do PBS, entre outras informaes do sistema. Mensagens popup informam anomalias no sistema como servios que no esto sendo executados, discos que esto
quase cheios, eficincia de CPU baixa e sistemas parados.
Figura 12. Gerenciamento de Supercomputadores
11. Supercomputao Verde na NAS
A Diviso de Supercomputao Avanada da NASA (NAS) criou um novo padro com a instalao do Pleiades, um dos mais supercomputadores mais eficientes no consumo de energia
no mundo. Pleiades est pontuado em vigsimo segundo na lista Green500 [?]. Ele tem um
desempenho de 233,02 MFlops por Watt e um consumo de 2090 kW.
O sistema possui fontes de alimentao com no mnimo 89% de eficincia, e apenas
uma por armrio, reduzindo substancialmente o consumo de energia. As novas tecnologias
utilizadas no Pleiades fazem ele ser cerca de 4 vezes mais eficiente que o supercomputador
Columbia.
A NAS limitou o montante de memria necessrio da maioria dos usurios, embora
algumas poucas aplicaes tiveram uma pequena reduo em performance por core, resultando
uma reduo no consumo de energia entre 10% e 15%.
Para obter o mximo de produtividade e consumo eficiente de energia a NAS investe em algumas prticas:
• Mtodos para certificar que processadores que no esto ativos entrem automaticamente em espera com pouca energia
• Atualizao de hardware e ferramentas para aumentar a utilizao do sistema, reduzindo ciclos de computao
• Produzir mais resultados computacionais com os mesmos recursos
• Tcnicas de resfriamento de supercomputadores mais eficientes
Referências
Green500 (2009). The green500 list. http://www.top500.org.
NASA (2009). Nasa advanced supercomputing division. Website. http://www.nas.
nasa.gov.
Newswire, P. (2008). Powered by silicon graphics, pleiades supercomputer fuels nasa’s
journey to moon, then mars. http://uk.sys-con.com/node/750560.
Pentakalos, O. (2002). An introduction to the infiniband architecture. Website. http:
//www.oreillynet.com/pub/a/network/2002/02/04/windows.html.
SGI (2009). Silicon graphics inc. Website. http://www.sgi.com.
Sun (2009).
Lustre file system.
http://www.sun.com/software/products/
lustre/features.xml.
Top500 (2009). Top500 supercomputer sites. http://www.top500.org.
Wikipedia (2009). Plêiades. Website. http://pt.wikipedia.org/wiki/Pliades_
M45.

Documentos relacionados

Supercomputador Pleiades Introduç ˜ao ao Processamento Paralelo

Supercomputador Pleiades Introduç ˜ao ao Processamento Paralelo A arquitetura InfiniBand [Pentakalos 2002] rompe a limitação da largura de banda do barramento PCI migrando a tradicional arquitetura de barramento compartilhado em uma arquitetura comutada (swit...

Leia mais