IBM Roadrunner Angelo Luz final

Transcrição

Supercomputador IBM Roadrunner
Angelo Gonçalves da Luz
Centro Politécnico – Universidade Católica de Pelotas (UCPel)
[email protected]
Abstract. This article aims to describe the main features of Roadrunner
supercomputer, as well as its architecture, showing the why is the Roadrunner the
supercomputer with more computational power of the present.
Resumo. Este artigo tem por objetivo descrever as principais características do
supercomputador Roadrunner, assim como sua arquitetura, mostrando o porquê
do Roadrunner ser supercomputador com maior poder computacional da
atualidade.
1.
Introdução
O que define o prefixo "super" adicionado a "computador" é a velocidade de
seus cálculos, que precisa ser milhares de vezes mais rápidos que a de uma “máquina de
mesa”. O ranking dos supercomputadores, que precisa ser atualizado a cada seis meses,
inclui 500 máquinas. O mais lento deles trabalha numa velocidade de 5,9 teraflops, ou
5,9 trilhões de cálculos por segundo. No topo da última lista, que foi publicada em
novembro de 2008 , está o Roadrunner.
Com prioridade ao uso militar, a máquina foi montada em parceria entre a IBM e
o Laboratório Nacional Los Alamos, nos Estados Unidos. O nome é uma alusão a uma
ave típica do estado do Novo México, onde o supercomputador está instalado, e ao
personagem de desenho animado, papa léguas. Não se trata apenas do computador mais
veloz já construído, mas também do primeiro a ultrapassar um petaflop, medida de
velocidade equivalente a 1 quatrilhão de cálculos por segundo.
O Roadrunner utiliza um sistema misto de microprocessadores convencionais de
dois núcleos e chips similares aos usados pelo videogame Playstation 3, que são mais
rápidos para fazer seqüências de cálculos repetitivos [Veja, 2008]. O Departamento de
Energia dos Estados Unidos vai usar o supercomputador para simular matematicamente
os efeitos de uma bomba nuclear durante as primeiras frações de segundo que se
seguem à explosão. Com isso, poderá verificar a confiabilidade de um arsenal nuclear
sem a necessidade de testá-lo de fato. "Até alguns anos atrás, os supercomputadores
eram projetados para trabalhar com tipos específicos de cálculos", disse a VEJA o físico
Luiz Nunes de Oliveira, coordenador do projeto do supercomputador da Universidade
de São Paulo. Agora, eles são programados para atuar em diversos projetos e podem
fazer de previsões meteorológicas a mapeamentos do genoma humano. Os avanços
nessa área podem ser comemorados pelos usuários de máquinas comuns: a história
mostra que os equipamentos de ponta de hoje serão, com aperfeiçoamentos, os nossos
computadores de mesa de amanhã.
Foram gastos com o Roadrunner, 133 milhões de dólares, com o objetivo de
alcançar a performance de 1.7 petaflops, onde já foi alcançando e mantido por alguns
minutos 1.026 petaflops em 25 de maio de 2008, alcançando picos de 1.5 petaflops,
tornando-se assim o primeiro supercomputador a sustentar seu desempenho em
petaflops, e, conseqüentemente, a liderança do ranking TOP500 de supercomputadores,
atingindo praticamente o dobro do desempenho do antigo número 1 do ranking,
também da IBM, o Blue Gene, situado no Laboratório Nacional de Livermore
(Califórnia, EUA).
Para poder ter uma idéia sobre o poder computacional deste supercomputador,
D’Agostino, diretor da Administração da Segurança Nuclear Americana fez a seguinte
comparação, “Se todos os 6,5 bilhões de habitantes da Terra usassem calculadoras
durante 24 horas por dia, 7 dias por semana, seriam necessários 46 anos para fazerem
os cálculos que Roadrunner faz em apenas um dia” [Siqueira, 2008].
E para ter uma noção sobre a evolução dos supercomputadores, o Roadrunner
levaria uma semana para calcular o que o computador mais rápido, há 10 anos atrás,
levaria 20 anos [Lanl, 2008].
2.
TOP500
O projeto TOP500 classifica e detalha a arquitetura dos quinhentos melhores
supercomputadores do mundo, a lista é organizada pela universidade de Mannheim,
Alemanha, Universidade do Tennessee, EUA e por NERSC/LBNL (National Energy
Research Scientific Computing Center/ Lawrence Berkeley National Laboratory).
Com inicio em 1993, o TOP500, disponibiliza duas listas anuais com os 500
computadores mais velozes da atualidade, sendo uma no mesmo de junho e outra no
mês de novembro.
O objetivo do TOP500 é oferecer uma base confiável para rastrear e detectar
tendências na computação de alto desempenho.
Para medir o desempenho destes supercomputadores é utilizado o Linpack
benchmark. Este banchmark mede a taxa de instruções de ponto flutuante, que é
determinada através da execução de um programa que resolve um sistema denso de
equações lineares [LINPACK, FAQs].
2.1.
Linpack Benchmark
Com todo o avanço alcançado nas arquiteturas de computadores, fica cada vez
mais difícil comparar o desempenho entre duas máquinas apenas através de suas
especificações técnicas. Para isso são utilizados programas benchmarks, que forçam as
máquinas a determinadas tarefas para medir o seu desempenho.
O Linpack banchmark foi criado por Jack Dongarra, Jim Bunch, Clever Moler e
Pete Stewart e é baseado na biblioteca Linpack que provê álgebra linear numérica em
computadores digitais. Ela foi escrita em Fortran no inicio dos anos 80 e faz uso das
bibliotecas BLAS (Basic Algebra Subprograms) para desempenhar operações em
vetores e matrizes.
O linpack possui várias versões, a utilizada no TOP500 é uma variação da HPC
(high parallel computing), que na sua versão original é permitido escolher o tamanho
do problema que faz o computador atingir o desempenho ótimo e também o tamanho da
entrada em que metade do desempenho máximo é obtido.
Na variação utilizada pelo TOP500 são seguidos os seguintes passos:
•
Resolver um sistema de equações lineares;
•
Variar o tamanho dos problemas;
•
Medir o tempo de execução para cada problema executado.
Ao se medir o desempenho para diferentes problemas de tamanho N, se tem os
seguintes resultados nas seguintes variáveis:
•
Rmax – Devolve o desempenho da máquina em Gflops/s para a maior
instância que a máquina executou;
•
Nmax – O tamanho da maior instância que a máquina executou;
•
Rpeak – O pico de desempenho teórico em Gflops/s para a máquina.
Os resultados obtidos pelo Roadrunner nestes testes foram:
Nmax – 1.105.000
Rpeak – 1.456.704
Nmax – 2.329.599
3.
Roadrunner
Este supercomputador foi construído para o U.S Departament of Energy’s
(DOE) e para a National Nuclear Security Administration (NNSA). Ele possui uma
arquitetura híbrida, com 12.960 processadores IBM PowerXCell e 6.480 AMD Opteron
dual-core especialmente designado a Server blades conectados por Infiniband,
utilizando sistema operacional Red Hat e são gerenciados com o software XCAT para
computação distribuída.
O Roadrunner ocupa aproximadamente 560m² e pesa 220 toneladas.
O supercomputador será utilizado no Los Alamos National Laboraty para
trabalhar em problemas de segurança nacional, testar torpedos nucleares, executar
testes anuais de armas nucleares variadas, predizer as mudanças climáticas de longo
prazo, estudar o universo e tentar encontrar uma vacina contra a AIDS, segundo a
previsão de John Morisson, encarregado do departamento de alto desempenho do Los
Alamos National Laboraty [IBM, 2008].
Uma imagem do supercomputador Roadrunner pode ser vista na Figura 1:
Figura 1 - Supercomputador Roadrunner
4.
Características
4.1
Arquitetura Hibrida
O Roadrunner difere de muitos supercomputadores atuais na medida em que é
um
sistema
híbrido,
com
dois
processadores
de
arquiteturas
diferentes.
Supercomputadores normalmente utilizam apenas uma já que é mais fácil programar e
modelar. Para conseguir utilizar todo o potencial do Roadrunner, todos os programas
têm que serem escritos especialmente para esta arquitetura híbrida.
O modelo híbrido consiste de um servidor de processadores Opteron dual-core
fabricados pela AMD utilizando o padrão AMD64, e processadores PowerXCell
fabricados pela IBM.
5.
Desenvolvimento
Roadrunner está em desenvolvimento desde 2002, e foi colocado em
funcionamento em 2006. O Roadrunner foi construído em três fases[Wikipedia, 2009]
onde alcançou sua ultima fase em 2008.
4.1
Fase 1
A primeira fase do Roadrunner foi a construção de um cluster padrão baseado
em Opteron, enquanto avaliavam a viabilidade de continuar a construir e programar a
futura versão híbrida. Nesta Fase 1, o Roadrunner atingiu 71 TeraFlops e foi posto em
pleno funcionamento no Los Alamos National Laboratory para fazer simulações de
armas avançadas desde 2006. Mesmo se o Roadrunner não tivesse avançado para a
Fase 2 já seria um supercomputador formidável e já estaria no top 10 entre os
computadores mais rápidos do mundo.
4.2
Fase 2
A Fase 2, conhecida como AAIS (Advanced Architecture Initial System) inclui a
construção de uma pequena versão híbrida do sistema final, usando uma versão mais
antiga do processador Cell. Esta fase foi utilizada para construir protótipos de
aplicações para a arquitetura híbrida. Ele começou a funcionar em 2007.
4.3
Fase 3
O objetivo da Fase 3 foi atingir e manter o desempenho acima de 1 petaflops.
Para isto, mais nodos Opterons e novos processadores PowerXCell foram adicionados à
arquitetura. Estes processadores PowerXCell são cinco vezes mais poderosos que os
processadores Cell utilizados na Fase 2. Foi construída a escala completa da IBM em
Poughkeepsie, Nova York, onde se quebrou a barreira de 1 petaflops durante sua quarta
tentativa, em 25 de maio de 2008 ao meio da noite. “A maioria das pessoas já haviam
se recolhido, em função do adiantamento da hora, conta Don Grice, engenheiro
responsável pelo projeto, mas dois técnicos ficaram de guarda para vigiar o
supercomputador durante a execução da aplicação e puderam ler o relatório final de
velocidade”. O sistema completo foi transferido para a sua localização permanente no
Novo México no verão de 2008, onde os melhoramentos das aplicações irão prosseguir
até o fim de 2009 [Lanl, 2008].
6.
Especificações Técnicas
Roadrunner foi projetado exclusivamente para uma concepção híbrida, usando
dois modelos diferentes de processadores.
6.1
Opteron
AMD Opteron 2210, rodando a 1.8 GHz. Estes são processadores com dois
núcleos cada. Opterons podem ser utilizados tanto para operações (monitoramento e
armazenamento de dados, etc) quanto para computação (resolução de problemas). O
Roadrunner tem um total de 6.912 processadores Opteron (6480 destinados a
computação e 432 a operações) que implica em um total de 13.824 núcleos.
6.2
PowerXCell
IBM PowerXCell 8i, rodando a 3.2 GHz. Estes processadores têm um núcleo
para finalidade geral (PPE), e oito núcles especiais para desempenho em operações com
ponto flutuante (SPE). Roadrunner tem um total de 12.960 processadores PowerXCell
com 12.960 núcleos PPE, e 103.680 núcleos SPE, que dá um total de 116.640 núcleos.
6.3
Número de núcleos
Pela lista Top 500, o Roadrunner diz ter 129.600 núcleos. É importante saber
quais cores são contados.
Ao total são 13.824 núcleos Opteron + 116.640 núcleos Cell = 130.464 núcleos
para ambos os nodos, computacionais e operacionais.
O que acontece é que o Roadrunner não utiliza os processadores Opteron
destinados a operações ao rodar o Linpack.
6480 Opteros (2 núcleos) + 12.960 PowerXCell 8i (9 núcleos) = 129.600.
6.4
TriBlade
Uma TriBlade é constituída por dois dual-core Opterons com 16 GB de RAM e
quatro PowerXCell 8i com 16 GB de RAM.
Fisicamente, um TriBlade consiste de um LS21 Opteron Blade, uma expansion
blade, e dois QS22 Cell blades. O LS21 tem dois Opterons dual-core rodando a 1.8
GHz, com 16 GB de memória para toda a lamina, proporcionando 8 GB para cada
CPU. Cada QS22 tem dois PowerXCell 8i, rodando a 3.2 GHz e 8 GB de memória,
onde fica 4 GB para cada CPU. A expansão da lâmina conecta dois QS22 através de
quatro PCIe x8 ao LS21, dois links para cada QS22. Ele fornece também conectividade
externa através de um adaptador InfiniBand DDR 4x. Isto toma uma largura total de
quatro faixas para um único TriBlade. Três Triblades se encaixam em um chassi
chamado BladeCenter H.
Para facilitar a compreensão, a Figura 2 ilustra a arquitetura da TriBlade
[Wikipedia].
Figura 2 - Arquitetura da TriBlade
6.5
Connected Unit
A connected unit é constituída de 60 BladeCenter H cheio de TriBlades, que são
180 TriBlades.
CU sistema de informações:
•
360 Opterons dual-core com 2,88 TiB RAN.
•
720 núcleos PowerXCell 8i com 2,88 TiB RAM.
•
12 System x3755 com dupla 10-Gbit Ethernet cada.
•
288-port Voltaire ISR2012 Switch com 192 infiniband 4x DDR (180 TriBlades
e 20 nodos de I/O)
6.6
Roadrunner Cluster
O cluster final é composto de 18 unidades interligadas (CU), que estão ligadas
através de oito Switches infiniband ISR2012. Cada CU está ligada através de doze
uplinks para cada segundo estágio do Switch, que faz um total de 96 conexões uplink.
Sistema global de informação:
•
6.480 processadores Opteron com 51,8 TiB de RAM (3,240 blades LS21)
•
12,960 processadores Cell com 51,8 TiB de RAM ( em 6,480 blades QS22)
•
216 sistemas de nodos de I/O x3755
•
18 CUs.
•
270 Racks
•
1080 BladeCenter H
•
3240 TriBlades
•
Um total de 103.6 TB de memória RAM.
•
Consumo de 2.35 MW
6.7
Aplicações Testadas
Algumas aplicações já foram testadas no supercomputador Roadrunner, algumas
delas são:
• SPaSM - Scalable Parallel Short-range Molecular Dynamics: Modelo geral de
Interação entre partículas, resolve as leis de Newton em níveis atômicos, sendo
utilizado principalmente na área de metais. Obteve resultados nas seguintes
áreas: resistência de metais, compressão de metais, instabilidade de fluidos.
• VPIC - VParticle In Cell: técnica para resolução de uma certa classe de equações
diferenciais parciais, usado principalmente para simulação de plasma.
• MILAGRO - Simulação da evolução de um campo de radiação no tempo,
considerando as seguintes interações entre as partículas: colisões, perda de
massa, reflexões e passagem pelas fronteiras do sistema.
• Sweep3D - Simulação determinística de transporte de nêutrons e raios gamma.
• DNS - Direct Numerical Simulation: solução de equações de Navier-Stokes:
equações diferencias a derivadas parciais que descrevem o escoamento de
fluidos, considerando velocidade e pressão.
7.
Curiosidades
O Roadrunner além de ser a máquina de maior desempenho do mundo,
também é uma das máquinas mais econômicas. Segundo o Green500, que
disponibiliza uma lista dos computadores mais econômicos dentre os 500 do
TOP500, o Roadrunner está localizado na sétima posição [Green500, 2009],
como pode ser visto na Figura 3.
Figura 3 – Green500
8.
Conclusões
O Roadrunner, até então, vem alcançando as expectativas de desempenho
colocadas sobre ele utilizar esse novo conceito de arquitetura.
O modelo híbrido, de processadores Opteron e PowerXCells se revelaram um
possibilidade real de evolução para os atuais modelos existentes, atingindo alta
performance e baixo consumo de energia, o que de certa forma é um grande avanço
pois os supercomputadores de mais alto desempenho também possuem elevado
consumo de energia, como pode ser visto na Figura 3, onde entre os 10 primeiros
colocados em menor custo de energia, tirando o Roadrunner, o melhor colocado no
TOP500 está na posição 41.
9.
Referências
Linpack FAQ, Frequently Asked Questions on the Linpack Benchmark and Top500.
Veja, O supercomputador Papa-léguas. Junho de 2008. Disponível em
http://veja.abril.com.br/180608/p_136.shtml
Lanl, World's Fastest Computer. 2008. Disponível em
http://www.lanl.gov/discover/roadrunner_fastest_computer
IBM, Fact Sheet & Bacground: Roadrunner Smashes the Petaflop Barrier. Junho de
2008. http://www-03.ibm.com/press/us/en/pressrelease/24405.wss
Siqueira, Ethevaldo. Fazendo um quatrilhão de cálculos por segundo. Junho de 2008.
Disponível em http://www.ethevaldo.com.br/Generic.aspx?pid=123
Wikipedia,
IBM
Roadrunner.Março
de
2009.
Disponível
http://en.wikipedia.org/wiki/IBM_Roadrunner
Green500, The Green500 list, 2009. Disponível em www.green500.org
em

IBM Roadrunner Angelo Luz final

Transcrição

Documentos relacionados

Fazendo um quatrilhão de cálculos por segundo

Leica SmartWorx Viva Software de Campo

Supercomputador da IBM Watson desafiará

T-Rex – O Supercomputador da Receita Federal do Brasil

USP de São Carlos inaugura supercomputador Euler

Introdução à Supercomputação

Supercomputador POWER7 leva Unicamp a uma nova era

Esclarecimentos - Tribunal de Justiça Militar do Estado de Minas

15-Sistemas com múltiplos processadores

Benchmarks