IBM Roadrunner Angelo Luz final
Transcrição
IBM Roadrunner Angelo Luz final
Supercomputador IBM Roadrunner Angelo Gonçalves da Luz Centro Politécnico – Universidade Católica de Pelotas (UCPel) [email protected] Abstract. This article aims to describe the main features of Roadrunner supercomputer, as well as its architecture, showing the why is the Roadrunner the supercomputer with more computational power of the present. Resumo. Este artigo tem por objetivo descrever as principais características do supercomputador Roadrunner, assim como sua arquitetura, mostrando o porquê do Roadrunner ser supercomputador com maior poder computacional da atualidade. 1. Introdução O que define o prefixo "super" adicionado a "computador" é a velocidade de seus cálculos, que precisa ser milhares de vezes mais rápidos que a de uma “máquina de mesa”. O ranking dos supercomputadores, que precisa ser atualizado a cada seis meses, inclui 500 máquinas. O mais lento deles trabalha numa velocidade de 5,9 teraflops, ou 5,9 trilhões de cálculos por segundo. No topo da última lista, que foi publicada em novembro de 2008 , está o Roadrunner. Com prioridade ao uso militar, a máquina foi montada em parceria entre a IBM e o Laboratório Nacional Los Alamos, nos Estados Unidos. O nome é uma alusão a uma ave típica do estado do Novo México, onde o supercomputador está instalado, e ao personagem de desenho animado, papa léguas. Não se trata apenas do computador mais veloz já construído, mas também do primeiro a ultrapassar um petaflop, medida de velocidade equivalente a 1 quatrilhão de cálculos por segundo. O Roadrunner utiliza um sistema misto de microprocessadores convencionais de dois núcleos e chips similares aos usados pelo videogame Playstation 3, que são mais rápidos para fazer seqüências de cálculos repetitivos [Veja, 2008]. O Departamento de Energia dos Estados Unidos vai usar o supercomputador para simular matematicamente os efeitos de uma bomba nuclear durante as primeiras frações de segundo que se seguem à explosão. Com isso, poderá verificar a confiabilidade de um arsenal nuclear sem a necessidade de testá-lo de fato. "Até alguns anos atrás, os supercomputadores eram projetados para trabalhar com tipos específicos de cálculos", disse a VEJA o físico Luiz Nunes de Oliveira, coordenador do projeto do supercomputador da Universidade de São Paulo. Agora, eles são programados para atuar em diversos projetos e podem fazer de previsões meteorológicas a mapeamentos do genoma humano. Os avanços nessa área podem ser comemorados pelos usuários de máquinas comuns: a história mostra que os equipamentos de ponta de hoje serão, com aperfeiçoamentos, os nossos computadores de mesa de amanhã. Foram gastos com o Roadrunner, 133 milhões de dólares, com o objetivo de alcançar a performance de 1.7 petaflops, onde já foi alcançando e mantido por alguns minutos 1.026 petaflops em 25 de maio de 2008, alcançando picos de 1.5 petaflops, tornando-se assim o primeiro supercomputador a sustentar seu desempenho em petaflops, e, conseqüentemente, a liderança do ranking TOP500 de supercomputadores, atingindo praticamente o dobro do desempenho do antigo número 1 do ranking, também da IBM, o Blue Gene, situado no Laboratório Nacional de Livermore (Califórnia, EUA). Para poder ter uma idéia sobre o poder computacional deste supercomputador, D’Agostino, diretor da Administração da Segurança Nuclear Americana fez a seguinte comparação, “Se todos os 6,5 bilhões de habitantes da Terra usassem calculadoras durante 24 horas por dia, 7 dias por semana, seriam necessários 46 anos para fazerem os cálculos que Roadrunner faz em apenas um dia” [Siqueira, 2008]. E para ter uma noção sobre a evolução dos supercomputadores, o Roadrunner levaria uma semana para calcular o que o computador mais rápido, há 10 anos atrás, levaria 20 anos [Lanl, 2008]. 2. TOP500 O projeto TOP500 classifica e detalha a arquitetura dos quinhentos melhores supercomputadores do mundo, a lista é organizada pela universidade de Mannheim, Alemanha, Universidade do Tennessee, EUA e por NERSC/LBNL (National Energy Research Scientific Computing Center/ Lawrence Berkeley National Laboratory). Com inicio em 1993, o TOP500, disponibiliza duas listas anuais com os 500 computadores mais velozes da atualidade, sendo uma no mesmo de junho e outra no mês de novembro. O objetivo do TOP500 é oferecer uma base confiável para rastrear e detectar tendências na computação de alto desempenho. Para medir o desempenho destes supercomputadores é utilizado o Linpack benchmark. Este banchmark mede a taxa de instruções de ponto flutuante, que é determinada através da execução de um programa que resolve um sistema denso de equações lineares [LINPACK, FAQs]. 2.1. Linpack Benchmark Com todo o avanço alcançado nas arquiteturas de computadores, fica cada vez mais difícil comparar o desempenho entre duas máquinas apenas através de suas especificações técnicas. Para isso são utilizados programas benchmarks, que forçam as máquinas a determinadas tarefas para medir o seu desempenho. O Linpack banchmark foi criado por Jack Dongarra, Jim Bunch, Clever Moler e Pete Stewart e é baseado na biblioteca Linpack que provê álgebra linear numérica em computadores digitais. Ela foi escrita em Fortran no inicio dos anos 80 e faz uso das bibliotecas BLAS (Basic Algebra Subprograms) para desempenhar operações em vetores e matrizes. O linpack possui várias versões, a utilizada no TOP500 é uma variação da HPC (high parallel computing), que na sua versão original é permitido escolher o tamanho do problema que faz o computador atingir o desempenho ótimo e também o tamanho da entrada em que metade do desempenho máximo é obtido. Na variação utilizada pelo TOP500 são seguidos os seguintes passos: • Resolver um sistema de equações lineares; • Variar o tamanho dos problemas; • Medir o tempo de execução para cada problema executado. Ao se medir o desempenho para diferentes problemas de tamanho N, se tem os seguintes resultados nas seguintes variáveis: • Rmax – Devolve o desempenho da máquina em Gflops/s para a maior instância que a máquina executou; • Nmax – O tamanho da maior instância que a máquina executou; • Rpeak – O pico de desempenho teórico em Gflops/s para a máquina. Os resultados obtidos pelo Roadrunner nestes testes foram: Nmax – 1.105.000 Rpeak – 1.456.704 Nmax – 2.329.599 3. Roadrunner Este supercomputador foi construído para o U.S Departament of Energy’s (DOE) e para a National Nuclear Security Administration (NNSA). Ele possui uma arquitetura híbrida, com 12.960 processadores IBM PowerXCell e 6.480 AMD Opteron dual-core especialmente designado a Server blades conectados por Infiniband, utilizando sistema operacional Red Hat e são gerenciados com o software XCAT para computação distribuída. O Roadrunner ocupa aproximadamente 560m² e pesa 220 toneladas. O supercomputador será utilizado no Los Alamos National Laboraty para trabalhar em problemas de segurança nacional, testar torpedos nucleares, executar testes anuais de armas nucleares variadas, predizer as mudanças climáticas de longo prazo, estudar o universo e tentar encontrar uma vacina contra a AIDS, segundo a previsão de John Morisson, encarregado do departamento de alto desempenho do Los Alamos National Laboraty [IBM, 2008]. Uma imagem do supercomputador Roadrunner pode ser vista na Figura 1: Figura 1 - Supercomputador Roadrunner 4. Características 4.1 Arquitetura Hibrida O Roadrunner difere de muitos supercomputadores atuais na medida em que é um sistema híbrido, com dois processadores de arquiteturas diferentes. Supercomputadores normalmente utilizam apenas uma já que é mais fácil programar e modelar. Para conseguir utilizar todo o potencial do Roadrunner, todos os programas têm que serem escritos especialmente para esta arquitetura híbrida. O modelo híbrido consiste de um servidor de processadores Opteron dual-core fabricados pela AMD utilizando o padrão AMD64, e processadores PowerXCell fabricados pela IBM. 5. Desenvolvimento Roadrunner está em desenvolvimento desde 2002, e foi colocado em funcionamento em 2006. O Roadrunner foi construído em três fases[Wikipedia, 2009] onde alcançou sua ultima fase em 2008. 4.1 Fase 1 A primeira fase do Roadrunner foi a construção de um cluster padrão baseado em Opteron, enquanto avaliavam a viabilidade de continuar a construir e programar a futura versão híbrida. Nesta Fase 1, o Roadrunner atingiu 71 TeraFlops e foi posto em pleno funcionamento no Los Alamos National Laboratory para fazer simulações de armas avançadas desde 2006. Mesmo se o Roadrunner não tivesse avançado para a Fase 2 já seria um supercomputador formidável e já estaria no top 10 entre os computadores mais rápidos do mundo. 4.2 Fase 2 A Fase 2, conhecida como AAIS (Advanced Architecture Initial System) inclui a construção de uma pequena versão híbrida do sistema final, usando uma versão mais antiga do processador Cell. Esta fase foi utilizada para construir protótipos de aplicações para a arquitetura híbrida. Ele começou a funcionar em 2007. 4.3 Fase 3 O objetivo da Fase 3 foi atingir e manter o desempenho acima de 1 petaflops. Para isto, mais nodos Opterons e novos processadores PowerXCell foram adicionados à arquitetura. Estes processadores PowerXCell são cinco vezes mais poderosos que os processadores Cell utilizados na Fase 2. Foi construída a escala completa da IBM em Poughkeepsie, Nova York, onde se quebrou a barreira de 1 petaflops durante sua quarta tentativa, em 25 de maio de 2008 ao meio da noite. “A maioria das pessoas já haviam se recolhido, em função do adiantamento da hora, conta Don Grice, engenheiro responsável pelo projeto, mas dois técnicos ficaram de guarda para vigiar o supercomputador durante a execução da aplicação e puderam ler o relatório final de velocidade”. O sistema completo foi transferido para a sua localização permanente no Novo México no verão de 2008, onde os melhoramentos das aplicações irão prosseguir até o fim de 2009 [Lanl, 2008]. 6. Especificações Técnicas Roadrunner foi projetado exclusivamente para uma concepção híbrida, usando dois modelos diferentes de processadores. 6.1 Opteron AMD Opteron 2210, rodando a 1.8 GHz. Estes são processadores com dois núcleos cada. Opterons podem ser utilizados tanto para operações (monitoramento e armazenamento de dados, etc) quanto para computação (resolução de problemas). O Roadrunner tem um total de 6.912 processadores Opteron (6480 destinados a computação e 432 a operações) que implica em um total de 13.824 núcleos. 6.2 PowerXCell IBM PowerXCell 8i, rodando a 3.2 GHz. Estes processadores têm um núcleo para finalidade geral (PPE), e oito núcles especiais para desempenho em operações com ponto flutuante (SPE). Roadrunner tem um total de 12.960 processadores PowerXCell com 12.960 núcleos PPE, e 103.680 núcleos SPE, que dá um total de 116.640 núcleos. 6.3 Número de núcleos Pela lista Top 500, o Roadrunner diz ter 129.600 núcleos. É importante saber quais cores são contados. Ao total são 13.824 núcleos Opteron + 116.640 núcleos Cell = 130.464 núcleos para ambos os nodos, computacionais e operacionais. O que acontece é que o Roadrunner não utiliza os processadores Opteron destinados a operações ao rodar o Linpack. 6480 Opteros (2 núcleos) + 12.960 PowerXCell 8i (9 núcleos) = 129.600. 6.4 TriBlade Uma TriBlade é constituída por dois dual-core Opterons com 16 GB de RAM e quatro PowerXCell 8i com 16 GB de RAM. Fisicamente, um TriBlade consiste de um LS21 Opteron Blade, uma expansion blade, e dois QS22 Cell blades. O LS21 tem dois Opterons dual-core rodando a 1.8 GHz, com 16 GB de memória para toda a lamina, proporcionando 8 GB para cada CPU. Cada QS22 tem dois PowerXCell 8i, rodando a 3.2 GHz e 8 GB de memória, onde fica 4 GB para cada CPU. A expansão da lâmina conecta dois QS22 através de quatro PCIe x8 ao LS21, dois links para cada QS22. Ele fornece também conectividade externa através de um adaptador InfiniBand DDR 4x. Isto toma uma largura total de quatro faixas para um único TriBlade. Três Triblades se encaixam em um chassi chamado BladeCenter H. Para facilitar a compreensão, a Figura 2 ilustra a arquitetura da TriBlade [Wikipedia]. Figura 2 - Arquitetura da TriBlade 6.5 Connected Unit A connected unit é constituída de 60 BladeCenter H cheio de TriBlades, que são 180 TriBlades. CU sistema de informações: • 360 Opterons dual-core com 2,88 TiB RAN. • 720 núcleos PowerXCell 8i com 2,88 TiB RAM. • 12 System x3755 com dupla 10-Gbit Ethernet cada. • 288-port Voltaire ISR2012 Switch com 192 infiniband 4x DDR (180 TriBlades e 20 nodos de I/O) 6.6 Roadrunner Cluster O cluster final é composto de 18 unidades interligadas (CU), que estão ligadas através de oito Switches infiniband ISR2012. Cada CU está ligada através de doze uplinks para cada segundo estágio do Switch, que faz um total de 96 conexões uplink. Sistema global de informação: • 6.480 processadores Opteron com 51,8 TiB de RAM (3,240 blades LS21) • 12,960 processadores Cell com 51,8 TiB de RAM ( em 6,480 blades QS22) • 216 sistemas de nodos de I/O x3755 • 18 CUs. • 270 Racks • 1080 BladeCenter H • 3240 TriBlades • Um total de 103.6 TB de memória RAM. • Consumo de 2.35 MW 6.7 Aplicações Testadas Algumas aplicações já foram testadas no supercomputador Roadrunner, algumas delas são: • SPaSM - Scalable Parallel Short-range Molecular Dynamics: Modelo geral de Interação entre partículas, resolve as leis de Newton em níveis atômicos, sendo utilizado principalmente na área de metais. Obteve resultados nas seguintes áreas: resistência de metais, compressão de metais, instabilidade de fluidos. • VPIC - VParticle In Cell: técnica para resolução de uma certa classe de equações diferenciais parciais, usado principalmente para simulação de plasma. • MILAGRO - Simulação da evolução de um campo de radiação no tempo, considerando as seguintes interações entre as partículas: colisões, perda de massa, reflexões e passagem pelas fronteiras do sistema. • Sweep3D - Simulação determinística de transporte de nêutrons e raios gamma. • DNS - Direct Numerical Simulation: solução de equações de Navier-Stokes: equações diferencias a derivadas parciais que descrevem o escoamento de fluidos, considerando velocidade e pressão. 7. Curiosidades O Roadrunner além de ser a máquina de maior desempenho do mundo, também é uma das máquinas mais econômicas. Segundo o Green500, que disponibiliza uma lista dos computadores mais econômicos dentre os 500 do TOP500, o Roadrunner está localizado na sétima posição [Green500, 2009], como pode ser visto na Figura 3. Figura 3 – Green500 8. Conclusões O Roadrunner, até então, vem alcançando as expectativas de desempenho colocadas sobre ele utilizar esse novo conceito de arquitetura. O modelo híbrido, de processadores Opteron e PowerXCells se revelaram um possibilidade real de evolução para os atuais modelos existentes, atingindo alta performance e baixo consumo de energia, o que de certa forma é um grande avanço pois os supercomputadores de mais alto desempenho também possuem elevado consumo de energia, como pode ser visto na Figura 3, onde entre os 10 primeiros colocados em menor custo de energia, tirando o Roadrunner, o melhor colocado no TOP500 está na posição 41. 9. Referências Linpack FAQ, Frequently Asked Questions on the Linpack Benchmark and Top500. Veja, O supercomputador Papa-léguas. Junho de 2008. Disponível em http://veja.abril.com.br/180608/p_136.shtml Lanl, World's Fastest Computer. 2008. Disponível em http://www.lanl.gov/discover/roadrunner_fastest_computer IBM, Fact Sheet & Bacground: Roadrunner Smashes the Petaflop Barrier. Junho de 2008. http://www-03.ibm.com/press/us/en/pressrelease/24405.wss Siqueira, Ethevaldo. Fazendo um quatrilhão de cálculos por segundo. Junho de 2008. Disponível em http://www.ethevaldo.com.br/Generic.aspx?pid=123 Wikipedia, IBM Roadrunner.Março de 2009. Disponível http://en.wikipedia.org/wiki/IBM_Roadrunner Green500, The Green500 list, 2009. Disponível em www.green500.org em
Documentos relacionados
Fazendo um quatrilhão de cálculos por segundo
Instalado em Los Alamos, no Novo México, o Roadrunner conquista, assim, a posição de mais rápido supercomputador do mundo, superando o ex-campeão Blue-Gene/L, também da IBM, a serviço do Laboratóri...
Leia mais