Supercomputador Pleiades Introduo ao Processamento Paralelo e
Transcrição
Supercomputador Pleiades Introduo ao Processamento Paralelo e
Supercomputador Pleiades Introduo ao Processamento Paralelo e Distribudo Renato M. Dilli1 1 Centro Politcnico – Mestrado em Cincia da Computao Universidade Catlica de Pelotas (UCPel) [email protected] Resumo. Este trabalho descreve as principais caractersticas e recursos do supercomputador Pleiades. Em novembro de 2008 ele estava em terceiro lugar na lista do site TOP500. apresentado um pequeno histrico dos supercomputadores da Diviso de Supercomputao Avanada da NASA, local onde se encontra o supercomputadore Pleiades. 1. Histrico Pleiades um sistema SGI ICE [?] capaz de atingir 565TFlops com 47104 cores. O seu nome uma referncia ao aglomerado estelar na constelao de Touro. O aglomerado estelar das Pliades [?] o aglomerado de estrelas mais brilhantes em todo o cu, tambm chamado de Sete Irms, M45 ou Subaru (no Japo). Figura 1. Supercomputador Pleiades O Pleiades composto de 5888 nodos interconectados com Infiniband em uma topologia hipercubo. Cada nodo contm oito processadores Intel Xeon X5472 3.0 GHz (Harpertown) em dois Quad-Cores, e 8 GB de memria. A NASA possui dois sistemas SGI Altix ICE (Integraded Compute Environment) chamados Pleiades e RTJones [?]. A unio destes dois sistemas pontuou o supercomputador Pleiades como o terceiro supercomputador mais potente do mundo, conforme a lista dos supercomputadores mais potentes de novembro de 2008, no site TOP500 [?]. Atingiu o ndice de 487 TeraFLOPS no teste realizado com LINPACK, com pico de 608 TeraFLOPS. Este resultado faz do Pleiades o supercomputador para uso geral mais potente do mundo. Ele est instalado no centro de pesquisas da NASA (National Aeronautics and Space Administration) em Mountain View, Califrnia, Estados Unidos. A Diviso de Supercomputao Avanada da NASA h 25 anos dedica-se a disponibilizar recursos e ferramentas de simulao necessrias para misses crticas e fazer novas descobertas cientficas para o benefcio da humanidade. O RTJones foi instalado em 2007 e usado exclusivamente por usurios de Misses Aeronticas Direcionadas. Seu nome uma homenagem a Robert Thomas Jones, famoso por descobrir um ingrediente essencial para alcanar boa relao custo-eficcia em voos supersnicos. RTJones composto de 512 nodos interconectados com Infiniband numa topologia hipercubo. Cada nodo contm oito processadores Intel Xeon 2.66Ghz (Clovertown) em dois Quad-Cores, e 8GB de memria. Seus 4096 cores tem um pico terico de performance de 43 TFlops. O Pleiades suplementa o supercomputador Columbia, tambm instalado na NASA, que estreou em 2004 como o segundo supercomputador mais rpido do mundo. O Columbia ajudou a NASA a retomar com sucesso o programa Space Shuttle e economizar milhares de horas de pesquisa em muitos outros projetos. O Columbia formado por 14336 cores numa plataforma SGI Altix da Silicon Graphics. O supercomputador Columbia foi pontuado na lista de junho de 2008, do site TOP500, em vigsimo quinto e na lista de novembro de 2008 em trigsimo nono. 2. Motivaes Os pesquisadores utilizam o Pleiades para simular falhas catastrficas, para que possam conceber sistemas e procedimentos para prevenir problemas que possam ameaar a segurana e a sobrevivncia dos astronautas. Atualmente o Pleiades possui mais que o dobro da potncia e capacidade do sistema inicial de 40 rmrios SGI Altix ICE. A rpida expanso resultou de um esforo em conjunto da NASA, Silicon Graphics e Benchmark Electronics. Segundo Rupak Biswas [?], chefe da diviso de supercomputao da NASA (NAS), o Pleiades permite realizar o trabalho seis vezes mais rpido que o Columbia , permitindo aos pesquisadores realizarem projetos maiores e mais complexos sem comprometer a capacidade computacional para simulao ou para outros projetos em andamento. Pleiades tem sido escolhido pela NASA como a prxima gerao tecnolgica que atende as necessidades futuras de supercomputao da agncia. Com o Pleiades, ser possvel atender mais que duas vezes e meia a atual necessidade computacional dos cientistas e engenheiros de conduzir simulaes e modelar misses. O Pleiades um sistema SGI Altix ICE, da Silicon Graphics 3,5 vezes maior do que qualquer outra instalao SGI Altix ICE. Na produo do Pleiades a Silicon Graphics em parceria com Mellanox Technologies esto criando o maior cluster InfiniBand do mundo, com mais de 12800 nodos. O sistema de interconexo InfiniBand 70% maior que os dois maiores sistemas combinados. No total ele suporta mais de 128TBits/s de largura de banda em comunicaes IB. 3. Objetivos A NASA est utilizando o Pleiades em projetos do Programa Constellation, para refinar mtodos de visualizao da aeronave V-22 Osprey Tiltrotor e conduzir clculos complexos para determinar como surgiu a vida na Terra. Entre os projetos aceitos para serem processados no Pleiades, podemos destacar: • Complexas simulaes de grandes problemas computacionais para o projeto futuro de veculos espaciais • Desenvolvimento de modelos cada vez mais detalhados da evoluo da galxia • Executar modelos atmosfricos-oceanolgicos para prever alteraes climticas 4. Viso Geral da Arquitetura Pleiades + RTJones Cluster de 51200 nodos instalados num sistema SGI(R) Altix(R) ICE 8200EX da Silicon Graphics, Inc. (SGI). 4.1. Sistema • • • • 100 Gabinetes (64 nodos em cada, 6400 nodos ao total) 609 TFlops Total de cores: 51200 Nodos – 5888 nodos (Pleiades) ∗ 2 processadores quad-core por nodo ∗ Processadores Xeon E5472 (Harpertown) ∗ Velocidade do processador de 3Ghz ∗ Cache - 6MB por par de cores – 512 nodos (RTJones) ∗ 2 processadores quad-core por nodo ∗ Processadores Xeon X5355 (Clovertown) ∗ Velocidade do processador de 2.66 Ghz ∗ Cache - 4MB por par de cores 4.2. Sub-Sistemas • 8 nodos de front-end • 1 PBS server 4.3. Memria • Tipo DDR2 FB-DIMMs • 1GB por core, 8GB por nodo • Total de Memria - 51 TB 4.4. Interconexes • Entre nodos - InfiniBand, 6400 nodos em uma topologia hipercubo 10D • Dois InfiniBand fabrics independentes rodando a 4x DDR • Rede de gerenciamento Gigabit Ethernet 4.5. InfiniBand A arquitetura InfiniBand [?] rompe a limitao da largura de banda do barramento PCI migrando a tradicional arquitetura de barramento compartilhado em uma arquitetura comutada (switched fabric). As figura 2 mostra uma configurao simplificada de uma instalao InfiniBand. Um nodo pode representar um servidor bem como um dispositivo de E/S, como um sub-sistema RAID. O switched fabric consiste de um nico switch, nos caso mais simples ou uma coleo de switches e roteadores interconectados. O termo switched fabric tambm conhecido como switching fabric ou somente fabric uma topologia de rede onde os nodos conectam-se atravs de um ou mais switches de rede. Esta topologia permite a conexo terica de at 16 milhes de dispositivos, limitada apenas pelo espao de endereamento disponvel. A conexo entre nodos, switches, e roteadores uma conexo serial ponto-a-ponto. Esta caracterstica agrega os seguintes benefcios: • Por ser uma conexo serial, ele requer apenas quatro vias para conexo, ao contrrio da grande quantidade de vias necessrias no barramento PCI, que paralelo. • A natureza ponto-a-ponto da conexo permite total capacidade de conexo entre duas extremidades porque o link dedicado para os nodos. Isto elimina a conteno do barramento, bem como delays que podem ocorrer em condies de utilizao extrema, situaes comuns numa arquitetura de barramento compartilhado. • O canal InfiniBand foi concebido para conectar hosts e dispositivos de E/S dentro de um Data Center. Desta forma, o comprimento das conexes so relativamente curtas, permitindo que uma largura de banda muito maior possa ser alcanada. A figura 3 ilustra um sistema em rede que utiliza a arquitetura InfiniBand. Nesta figura a fabric consiste de trs switches que conectam seis nodos. Cada nodo conecta ao fabric atravs de um adaptador de canal. A especificao InfiniBand classifica os adaptadores de canal em duas categorias: Host Channel Adapters (HCA) e Target Cahnnel Adapters (TCA). Figura 2. Topologia Basica InfiniBand Fabric HCA esto presentes em servidores ou eventualmente em desktops e proveem uma interface que usada para integrar o InfiniBand com o sistema operacional. TCAs esto presentes em dispositivos de E/S, tal como, subsistemas RAID. Cada adaptador de canal pode ter uma ou mais portas. Um adaptador de canal com mais de uma porta pode conectar em vrios portas de switches. Isto permite vrios caminhos entre a origem e o destino, resultando ganho de desempenho. Figura 3. Rede baseada na arquitetura InfiniBand Duas caractersticas da arquitetura InfiniBand que esto evidentes na figura 3 so a habilidade de compartilhar dispositivos de armazenagem atravs de mltiplos servidores e a habilidade de realizar um third-party E/S. Third-party E/S o termo usado para referirse a capacidade de dois dispositivos de armazenagem completarem uma transao de E/S sem envolvimento direto de hosts que no esto envolvidos na operao. Esta caracterstica extremamente importante na perspectiva de desempenho, pois muitas operaes de E/S entre dois dispositivos de armazenamento podem ser totalmente independentes do servidor, eliminando a utilizao desnecessria de CPU. Tabela 1. Taxa de transferncia terica - InfiniBand Single(SDR) 1X 2 Gbit/s 4X 8 Gbit/s 12X 24 Gbit/s Double(DDR) 4 Gbit/s 16 Gbit/s 48 Gbit/s Quad(QDR) 8 Gbit/s 32 Gbit/s 96 Gbit/s A conexo serial do InfiniBand tem uma taxa de 2,5 Gbit/s em cada direo, por conexo (SDR). Infiniband tambm suporta velocidades DDR e QDR, equivalente a 5 Gbit/s ou 10 Gbit/s respectivamente, na mesma velocidade de clock. Como utilizado a codificao 8B/10B, a cada 10 bits enviados, 8 so utilizados com dados, as velocidades caem para 2 Gbit/s (SDR), 4 Gbit/s (DDR) e 8 Gbit/s. A tabela 1 relacionada as velocidades mximas alcanadas em links de 1X, 4X e 12X. 4.6. Armazenamento • Nexis 9000 home filesystem • 3 sistemas de arquivos Lustre, cada um contendo: – 8 Object Storage Servers(OSS) – 1 Metadata server (MDS) – 2 DDN 9900 RAIDs - 300TB total 4.7. SGI InfiniteStorage NEXIS 9000 Utilizado pelo supercomputador Pleiades o SGI InfiniteStorage NEXIS 9000 NetworkAtached Storage(NAS) usa rede InfiniBand para extrair mxima performance em armazenagem baseada em arquivos. Figura 4. SGI NEXIS 9000 Os discos rgidos utilizados pelo NEXIS 9000 utilizam a tecnologia SAS (serialattached SCSI) que vem a substituir a SCSI. SAS transmite mais dados e mais rpido em um nico fio que o SCSI que precisa de 32 vias no cabo. O SAS manteve o conjunto de comandos SCSI para que seja compatvel com SCSI. Com um expansor SAS possvel conectar at 128 dispositivos sem estender a distncia de at 8 metros. Um domnio SAS pode ter at 16256 dispositivos, conectando-se diversos expansores. A velocidade bsica de 3 Gbps, que equivale a 300MBps, que pode ser duplicada a 600MBps desde que o canal SAS seja full-duplex. Principais Caractersticas: • • • • • Totalmente integrado, pr-configurado e ajustado para mxima performance Expansvel Otimizado para servidores SGI de alta performance Ip sobre InfiniBand (IB), 10 Gigabit Ethernet ou Gigabit Ethernet Conjunto de ferramentas para Administrao e Gerenciamento para uma rpida implementao • Sistema de Arquivos de alta performance, baixa latncia e escalvel NAS Server - Caractersticas: • Tipo de CPU - 4 a 8 Intel Itanium Dual Core • Memria do Sistema - At 192GB • Opes de Conectividade (E/S) - 6 portas GbE copper plus compatvel com os cartes: 1 Porta DDR InfiniBand (IB), ou 1 Porta 10GbE ptica ou 4 portas GigE • Host Backend - 4 a 10 portas de 4 canais SAS Storage - Caractersticas: • 4 a 10 conjuntos RAID com controladores RAID redundantes • 48 a 480 drives SAS • At 12 trays de 12 drives SAS idnticos no sistema base • At 6 conjuntos adicionais • RAID nvel 5 • Capacidade mxima de 216TB Dimenses: • • • • NAS Server - 10U Storage Controller Tray - 2U Storage Expansion Tray - 2U Rack - 39U ou SGI Server Rack 4.8. DDN S2A9900 O sistema S2A9900 StorageScaler da DataDirect Networks possui tcnicas revolucionrias que so as seguintes: Figura 5. DDN S2A9900 • • • • • • • • Leitura e escrita na mesma velocidade (6GB/s) Qualidade de servio em tempo real RAID 6 sem queda de performance 1.2PB em apenas dois armrios 1200 drives por sistema Consumo de energia reduzido S2A SleepMode InfiniBand 4X DDR nativo e canal de fibra 8Gbps 4.9. Ambiente Operacional • Sistema Operacional - SUSE Linux Enterprise Server • Job Scheduler - PBS (Portable Batch System) 4.10. Aplicaes • Linguagens de Programao e Debugadores – Intel C++ Compiler – GNU GCC – Intel Fortran (Fortran 95) – GNU GCC (Fortran 77) – Intel Debugger – GNU GDB – TotalView Debugger – MemoryScape Memory Debugger – Intel Thread Checker • Bibliotecas – Intel Math Kernel Library – Intel Integraded Performance Primitives – Intel Threading Building Blocks – Intel MPI Library • Ferramentas de Desenvolvimento – Intel VTune Performance Analyzer – Intel Trace Analyzer Collector – Interactive Supercomputing Star-P – Plataform MPI – OpenMP – SGI Message Passing Toolkit 4.11. Sistema de Arquivos Lustre O sistema de arquivos Lustre utilizado pelo supercomputador Pleiades um sistema de arquivos distribudos de cdigo aberto, largamente utilizado em clusters de grande porte. O projeto tenta prover um sistemas de arquivos para um cluster de dezenas de milhares de ns e petabytes de capacidade de armazenamento, sem comprometer a estabilidade e a segurana. Cada arquivo armazenado em um sistema de arquivos Lustre [?] considerado um objeto. Lustre apresenta a todos os clientes uma semntica POSIX padro e acesso de leitura e escrita concorrente aos objetos compartilhados. Um sistema de arquivos Lustre tem quatro unidades funcionais: um “Servidor de Meta dados”(MDS) para armazenar os meta dados; um Armazenador de Alvos de Objeto (OST) para armazenar os dados atuais; um Servidor de Objetos Armazenados (OSS) para administrar o OSTs e cliente(s) para acessar e o usar os dados. OSTs so baseados em dispositivos de blocos. Um MDS, OSS, e um OST podem estar no mesmo n ou em ns diferentes. Lustre no fala diretamente e no administra OSTs, ele apenas delega esta responsabilidade a OSSs para assegurar escalabilidade a grandes clusters e supercomputadores. • Requisitos do Sistema – Plataformas - IA64, I686, X86 64, PPC, Cross-endian – Sistemas Operacionais - Red Hat Enterprise Linux 4.5, SUSE 9.10, Linux com kernel 2.6 – Suporte a Rede - TCP/IP, Quadrics Elan 3.4, Myrinet, InfiniBand (Open Fabrics, OpenIB Gen 1, Silverstorm, Voltaire, Cisco) Figura 6. Sistema de Arquivos Lustre 5. Arquitetura SGI Altix ICE A arquitetura SGI Altix ICE da Silicon Graphics composta por armrios de 42U que comportam at 4 blade enclosures. Cada blade enclosures possui 16 sockets duplas para compute blades, para at 128 sockets e 512 cores por armrio. Figura 7. Armrios SGI Altix ICE O Blade Enclosure ICE 8200EX possui quatro 4x DDR IB switch blades, topologia hipercubo e rede Gigabit Ethernet dedicada. 5.1. Softwares Todo software utilizado nos clusters Altix ICE da NAS (Pleiades e RTJones) gerenciado atravs de um sistema chamado modules para centralizar a localizao de produtos licenciados e de domnio pblico instalados no Pleiades e RTJones. Os mdulos (programas) podem ser gerenciados da seguinte forma: • • • • • module avail: para encontrar que outros mdulos esto disponveis module list: para listar quais mdulos esto em seu ambiente module purge: para descarregar todos arquivos do mdulo carregado module load module-name: para carregar o mdulo desejado module switch old-module-name new-module-name: para alterar entre diferentes verses de um software Softwares de de terceiros, licenciados, disponveis: • FieldView - Software para identificar rapidamente importantes fluxos de recursos e caractersticas em simulaes • IDL - Anlise de dados, visualizao, e uma plataforma de desenvolvimento de aplicaes • LSTC-DYNA - Software capaz de simular problemas complexos do mundo real • Tecplot - Utilizado para processar resultados de simulaes Softwares de Cdigo Aberto, Domnio Pblico: • Grace - um WYSIWIG(O que voc v o que voc faz) para plotagem em 2D • MVAPICH - Utilizado entre a rede do cluster para aumento de performance e escalabilidade de aplicaes 6. Caractersticas do Sistema RTJones Cluster de 512 nodos em uma arquitetura SGI ICE 8200. 6.1. Nodos Os nodos disponveis para computao so nomeados como r[097-100,113-116],i[0-3]n[015]. H ainda um nodo servidor PBS e nodos front-end, ambos no disponveis aos usurios. 6.2. Processador • • • • • • • • CPU Quad-Core Xeon X5355 (Clovertown) CPU-Clock - 2.66GHz Operaes de Ponto Flutuante por ciclo de clock - 4 Nmero de Quad-Cores por nodo - 2 Nmero de Cores por nodo - 8 Total de nodos no cluster - 512 Total de Cores no Cluster - 4096 FSB - 1333MHz, 10,6 GB/s 6.3. Memria • L1 Cache - local para cada core, 32K para cache de instrues, 32K para cache de dados • L2 Cache - 8MB por Quad-Core, 4MB compartilhada entre pares de cores • Tamanho padro da pgina - 4KB • Memria local por core - 1GB • Memria total por nodo (blade) - 8GB 6.4. Sistemas de Arquivos • Home - /rtj-home/u/userid, 2.7TB, soft limit 10GB, hard limit 12GB • /nobackup - /nobackup 172TB, soft limit 200GB, hard limit 400GB 6.5. Hierarquia de Hardware • Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de 1333 MHz com a memria) • 2 Quad-Cores em um nodo (blade) • 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack units) • 4 IRUs, nomeadas como i0-i3 em um armrio • 8 armrios, nomeados como r097-r100, r113-r116 no cluster Figura 8. Nodo RTJones Em adio aos 512 nodos h muitos outros nodos para funes diversas, conforme relacionados abaixo: • Service nodes: – 6 para todo cluster (2 como nodos para autenticao,1-2 como nodos interativos para compilao de software e 1 PBS server) – Usurios conectam-se neste nodo para compular e executar programas MPI – Proveem funcionalidade de gateway de E/S do cluster para rede interna do usurio • Leader nodes (no acessveis pelos usurios) – 1 por armrio – Proveem imagem de boot do sistema para os nodos – Executa software de gerenciamento que monitora as funes do InfiniBand fabric – Conexes de rede GigE para nodo admin, nodos de servio e nodos – Monitora, envia funes para os IRUs dentro dos armrios e recebe dados dos nodos e IRUs. – Repassa dados dos IRUs e nodos para nodo admin • nodos (Compute nodes) – 512 ao total no cluster (16 por IRU ou 64 por armrio) – Conexes de rede: GigE para os leader nodes, 100bT Ethernet to CMC, dual-plane IB para o resto do cluster. A comunicao entre os nodos e o nodo admin restrita – Controlados e monitorados pelos leader nodes – Aceita jobs para processamento batch • Nodos de Armazenamento (Storage nodes) – 8 nodos de armazenamento para dados, 2 nodos para meta dados – Conexes de rede: IB para plano 1 (ib1), Ethernet para CMC • System Admin Controller (no acessvel pelos usurios) – 1 para todo cluster – Prove interface LAN externa – Conexes de rede: sem conexes IB – Gerencia configurao de software para o cluster – Usado para ativar e desativar todo cluster – Usado pelo administrador do sistema para gerenciar e monitorar o cluster O SGI Altix ICE 8200 utiliza arquitetura de interconexo InfiniBand com velocidade 4x DDR, integrado em unidades de armrio independentes (IRU - independeent rack unit), sem cabos. Cada IRU inclui dois switches de nodos. A fabric conecta os nodos de servio (service nodes), leader nodes e os nodos (compute nodes). H dois IB fabrics no RTJones, um para MPI (ib0), e outro para E/S (ib1). A figura 9 exemplifica a utilizao do InfiniBand no sistema SGU Altix ICE. Figura 9. InfiniBand com dois IRUs Atualmente os dois fabrics so separados em trfego IP e trfego MPI no ib0 e trfego do sistema de arquivos Lustre no ib1. O InfiniBand do SGI Altix ICE utiliza o software Open Fabrics Enterprise Distribuition (OFED) 1.2. 7. Caractersticas do Sistema Pleiades 7.1. Nodos Os nodos disponveis para computao so nomeados como r[1-76,81-88,105-108, 121124]i[0-3]n[0-15]. H ainda um nodo servidor PBS e nodos front-end, ambos no disponveis aos usurios. 7.2. Processador • • • • • • • • CPU Quad-Core Xeon X5472 (Harpertown) CPU-Clock - 3GHz Operaes de Ponto Flutuante por ciclo de clock - 4 Nmero de Quad-Cores por nodo - 2 Nmero de Cores por nodo - 8 Total de nodos no cluster - 5888 Total de Cores no Cluster - 47104 FSB - 1600MHz, 12,8 GB/s 7.3. Memria • L1 Cache - local para cada core, 32K para cache de instrues, 32K para cache de dados • L2 Cache - 12MB por Quad-Core, 6MB compartilhada entre pares de cores, velocidade de 3GHz • Tamanho padro da pgina - 4KB • Memria local por core - 1GB • Memria total por nodo (blade) - 8GB 7.4. Sistemas de Arquivos • Home - /u/userid, 1TB, soft limit 8GB, hard limit 10GB • /nobackup - /nobackup1 110TB, /nobackup2 220TB, soft limit 200GB, hard limit 400GB 7.5. Hierarquia de Hardware • Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de 1600 MHz com a memria) • 2 Quad-Cores em um nodo (blade) • 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack units) • 4 IRUs, nomeadas como i0-i3 em um armrio • 92 armrios, nomeados como r1-r76, r81-r88, r121-r124 no cluster 8. Caractersticas do Columbia O super cluster Columbia tornou possvel a NASA avanar na cincia e engenharia para a explorao espacial. A avanada arquitetura do Columbia est sendo disponibilizada para uma ampla comunidade de engenheiros e cientistas. Figura 10. SGI Altix Columbia Tabela 2. SGI Altix - Columbia Nodos Tipo Velocidade 11 Altix 3700 (512 cores) Madison 1.5 GHz 3 Altix 3700-BX2 (512 cores) Madison 1.5 GHz 5 Altix 3700-BX2 (512 cores) Madison 1.6 GHz 1 Altix 4700 (512 cores) Montecito 1.6 GHz 1 Altix 4700 (2048 cores) Montecito 1.6 GHz 2 Altix 4700 (1024 cores) Montvale 1.6 GHz Cache 6MB 6MB 9MB 9MB 9MB 9MB 8.1. Nodos 8.2. Arquitetura do Sistema • 304 nodos (compute node) • 88.88 Teraflop/s (pico terico) 8.3. Sub-Sistemas • 2 sistemas Data Life Cycle (DLM) • 3 nodos front-end 8.4. Memria • Tipo DDR SDRAM • 2GB por processador • Memria total - 28672GB 8.5. Interconexes • NUMALink interconecta imagem do sistema aos nodos • Entre nodos: InfiniBand 4X DDR, 10Gb Ethernet, 1Gb Ethernet 8.6. Storage • DataDirect Networks • LSI RAID • SGI CXFS 8.7. Ambiente Operacional • Sistema operacional - SUSE Linux Enterprise • Job Scheduler - PBS • Compiladores - Intel Fortran, C, SGI MPI 9. Caractersticas do Schirra O supercomputador Schirra o primeiro cluster selecionado pela NASA para atender as necessidades futuras de supercomputao. O nome Schirra uma homenagem ao astronauta Walter Schirra. Figura 11. IBM Power5+ Schirra 9.1. Arquitetura do Sistema • 6 Gabinetes • 4.8 Tflop/s 9.2. Nodos • • • • • 40 IBM 9118-575 Processadores POWER5+ Velocidade do processador - 1.9GHz 320 processadores dual-core, 640 cores 36MB cache L3 por processador 9.3. Sub-Sistemas • 2 nodos front-end 9.4. Memria • IBM DIMMS • 2GB por core • Memria total - 1280GB 9.5. Interconexes • Entre nodos - Switch de alta performance • Dentro do nodo - Avanado switch distribudo • 10Gb Ethernet para conexo dos front-end e nodes de armazenagem 9.6. Storage • Data Direct RAID, 160TB 9.7. Ambiente Operacional • Sistema Operacional - AIX Unix • Job Scheduler - PBS • Compiladores - IBM C/C++, IBM Fortran, IBM POE, gcc, g++ 10. Gerenciamento dos Supercomputadores na NAS A equipe de desenvolvimento de software da NAS desenvolveu um software para monitorar os supercomputadores atravs da WEB (miniHUD). Esta ferramenta permite aos usurios uma viso de alto nvel em detalhes de nodos e sub-sistemas, incluindo utilizao de CPU, status da fila do PBS, entre outras informaes do sistema. Mensagens popup informam anomalias no sistema como servios que no esto sendo executados, discos que esto quase cheios, eficincia de CPU baixa e sistemas parados. Figura 12. Gerenciamento de Supercomputadores 11. Supercomputao Verde na NAS A Diviso de Supercomputao Avanada da NASA (NAS) criou um novo padro com a instalao do Pleiades, um dos mais supercomputadores mais eficientes no consumo de energia no mundo. Pleiades est pontuado em vigsimo segundo na lista Green500 [?]. Ele tem um desempenho de 233,02 MFlops por Watt e um consumo de 2090 kW. O sistema possui fontes de alimentao com no mnimo 89% de eficincia, e apenas uma por armrio, reduzindo substancialmente o consumo de energia. As novas tecnologias utilizadas no Pleiades fazem ele ser cerca de 4 vezes mais eficiente que o supercomputador Columbia. A NAS limitou o montante de memria necessrio da maioria dos usurios, embora algumas poucas aplicaes tiveram uma pequena reduo em performance por core, resultando uma reduo no consumo de energia entre 10% e 15%. Para obter o mximo de produtividade e consumo eficiente de energia a NAS investe em algumas prticas: • Mtodos para certificar que processadores que no esto ativos entrem automaticamente em espera com pouca energia • Atualizao de hardware e ferramentas para aumentar a utilizao do sistema, reduzindo ciclos de computao • Produzir mais resultados computacionais com os mesmos recursos • Tcnicas de resfriamento de supercomputadores mais eficientes Referências Green500 (2009). The green500 list. http://www.top500.org. NASA (2009). Nasa advanced supercomputing division. Website. http://www.nas. nasa.gov. Newswire, P. (2008). Powered by silicon graphics, pleiades supercomputer fuels nasa’s journey to moon, then mars. http://uk.sys-con.com/node/750560. Pentakalos, O. (2002). An introduction to the infiniband architecture. Website. http: //www.oreillynet.com/pub/a/network/2002/02/04/windows.html. SGI (2009). Silicon graphics inc. Website. http://www.sgi.com. Sun (2009). Lustre file system. http://www.sun.com/software/products/ lustre/features.xml. Top500 (2009). Top500 supercomputer sites. http://www.top500.org. Wikipedia (2009). Plêiades. Website. http://pt.wikipedia.org/wiki/Pliades_ M45.
Documentos relacionados
Supercomputador Pleiades Introduç ˜ao ao Processamento Paralelo
A arquitetura InfiniBand [Pentakalos 2002] rompe a limitação da largura de banda do barramento PCI migrando a tradicional arquitetura de barramento compartilhado em uma arquitetura comutada (swit...
Leia mais