Oak Ridge National Laboratory`s Cray XT5 ”Jaguar” Supercomputer
Transcrição
Oak Ridge National Laboratory`s Cray XT5 ”Jaguar” Supercomputer
Oak Ridge National Laboratory’s Cray XT5 ”Jaguar” Supercomputer Gustavo Zechlinski1 1 Programa de Pós Graduação em Informática – Universidade Católica de Pelotas Rua Félix da Cunha, 412 – 96.010-000 – Pelotas – RS – Brazil [email protected] 1. Histórico A Cray Inc. iniciou a sua história em 1972 quando o lendário Seymour Cray, o “pai da supercomputação” fundou a empresa Cray Research. A pesquisa, o desenvolvimento e a manufatura ficaram localizados no centro de Chippewa Falls, Wisconsin enquanto que o escritório de negócios ficava em Minneapolis, Minnesota. O primeiro sistema Cray-1 foi instalado no Laboratório Nacional Los Alamos em 1976 por 8,8 milhões de dólares. Este sistema bateu o recorde mundial de operações de ponto flutante por segundo, chegando a 160 megaflops e de memória principal, alcançando 8 megabytes (1 milhão de palavras). A arquitetura de Cray-1 refletia bem a inclinação do projetista para ultrapassar barreiras técnicas com idéias revolucionárias. Com o objetivo de aumentar a velocidade do sistema, o Cray-1 possuı́a uma única placa, o que permitia que os circuitos integrados fossem colocados juntos e bem perto uns dos outros. Não havia fios no sistema que era maior que quatro pés, aproximadamente 1,22 metros. Para lidar com o intenso calor gerado pelo computador, a Cray desenvolveu um inovador sistema de refrigeração usando Freon. Figura 1. Seymour Cray Figura 2. Cray-1 System A fim de concentrar os seus esforços na concepção e projeto, Seymour Cray deixou a posição de CEO da empresa em 1980 e se tornou um contratante independente. Como ele havia trabalhado no desenvolvimento do Cray-1, outro grupo dentro da empresa desenvolveu o primeiro supercomputador multiprocessador, o Cray X-MP, que foi introduzido em 1982. O sistema Cray-2 surgiu 1985, proporcionando um aumento de performance dez vezes maior que o sistema Cray-1. Em 1988, a Cray Research introduziu o Cray Y-MP, o primeiro supercomputador do mundo a sustentar mais de 1 gigaflop em muitas aplicações. Múltiplos processadores de 333 MFLOPS constituiam o sistema chegando à uma velocidade recorde de 2,3 gigaflops. Sempre um visionário, Seymour Cray explorou o uso de arseneto de gálio na criação de um semicondutor mais rápido do que o silı́cio. Entretanto, os custos e as complexidades deste material tornaram difı́cil para a empresa apoiar ambos os esforços de desenvolvimento do Cray-3 e do Cray C90. Em 1989, a Cray Research desmembrou o projeto do Cray-3 em uma empresa separada, chamada Cray Computer Corporation, encabeçada por Seymour Cray, e com base em Colorado Springs, Colorado.Tragicamente, Seymour Cray morreu dos ferimentos sofridos em um acidente automóvel em setembro de 1996 com a idade de 71 anos. O fracasso do Cray-3, devido a diminuição da demanda por “large machines” com o fim da guerra fria, fez com que a polı́tica e a parte técnica fossem alteradas dentro da empresa, tomando rumo em direção aos projetos de máquinas massivamente paralelas. Mesmo com a desaprovação de seu fundador que era um crı́tico dessa abordagem, quando questionado pelo Wall Street Journal que os sistemas MPP (Massive Parallel Systems) ainda não tinham provado a sua supremacia sobre os computadores vetoriais, principalmente pela dificuldade dos usuários em programar as grandes máquinas paralelas ele disse:“Eu não acho que eles serão universalmente bem-sucedidos, ao menos no meu tempo de vida”, o que acabou se tornando verdade. Figura 3. Cray-2 System Figura 4. Cray-3 System A década de 1990 trouxe uma série de eventos que iria transformar a Cray Research. A empresa continuou a sua liderança em fornecer os mais poderosos supercomputadores para aplicações de produção. O Cray C90 incluiu um novo processador central liderando a indústria de supercomputadores com desempenho sustentado de 1 gigaflop. Usando 16 desses poderosos processadores e 256 milhões de palavras de memória central, o sistema impulsionou um incomparável desempenho total. A empresa também apresentou o seu primeiro ”mini-supercomputador,”o sistema Cray XMS, seguido pelo Cray Y-MP EL series e em seguida o Cray J90. Em 1993, a Cray Research ofereceu o seu primeiro sistema de processamento massivamente paralelo (MPP), o supercomputador Cray T3D, e rapidamente se tornou lı́der do mercado MPP de empresas novas como a Thinking Machines e MasPar. O Cray T3D provou ser extremamente robusto, confiável, compartilhável e fácil de administrar, em comparação com os sistemas MPP concorrentes. Desde sua estréia em 1995, o sucessor do Cray T3D, o supercomputador Cray T3E tem sido o sistema MPP mais bem vendido do mundo.O sistema Cray T3E-1200E foi o primeiro supercomputador a sustentar 1 teraflop (1 trilhão de cálculos por segundo) em uma aplicação do mundo real. Em Novembro de 1998, uma equipe cientı́fica conjunta do Oak Ridge National Laboratory, do National Energy Research Scientific Computing Center (NERSC), do Pittsburgh Supercomputing Center e da Universidade de Bristol (Reino Unido) executou uma aplicação de magnetismo à uma velocidade sustentada de 1,02 teraflops. Figura 5. Cray C90 System Figura 6. Cray T3E System Em outro marco tecnológico, o Cray T90 tornou-se o primeiro supercomputador sem fios (wireless) do mundo em 1994. Também apresentado nesse ano, o Cray J90 series se tornou o supercomputador mais popular do mundo, com mais de 400 sistemas vendidos. A Cray Research se fundiu com a SGI (Silicon Graphics, Inc.) em fevereiro de 1996. Em Agosto de 1999, A SGI criou uma unidade separada de negócios da Cray Research para centrar-se exclusivamente nas necessidades únicas dos clientes de alto nı́vel da supercomputação. Ativos desta unidade de negócios foram vendidas à Tera Computer Company em março de 2000. A Tera Computer Company foi fundada em 1987 em Washington, DC, e se mudou para Seattle, Washington, em 1988. A Tera começou desenvolvendo software para sistemas de arquitetura Multithreaded (MTA) nesse ano, o projeto de hardware inciou-se em 1991. O sistema Cray MTA-2 apresenta uma memória compartilhada escalável, onde cada processador tem acesso igual a todos os locais de memória, simplificando muito a programação devido a eliminação das preocupações sobre o layout da memória. A empresa completou a sua oferta pública inicial em 1995 (Tera no NASDAQ Stock Exchange), e logo depois recebeu a sua primeira encomenda para o MTA do San Diego Supercomputer Center. O sistema multiprocessador foi aceito pelo centro em 1998, sendo depois atualizado para oito processadores. Após a fusão com a Cray Research divisão da SGI, em 2000, a empresa foi renomeada para Cray Inc. e o sı́mbolo foi alterado para CRAY. Atualmente a empresa produz supercomputadores de pequeno e grande porte, sendo que o mais famoso, o Jaguar está instalado no NCCS (National Center for Computational Sciences), Oak Ridge National Laboratory, Oak Ridge, Tennessee, Estados Unidos. 2. Motivações Hoje em dia, os supercomputadores exercem um papel importante no cenário cientı́fico, os sistemas com poder de processamento da ordem de terabytes e petabytes tem se mostrado uma ferramenta indispensável para investigação cientı́fica e resolução de problemas. As áreas que exploram largamente o uso destes tipos de computadores vão desde o teste de novas fontes de energia e exame das dinâmicas das mudanças de clima até a manipulação de funções de proteı́nas (DNA). A capacidade das máquinas com poder de processamento da ordem de petabytes pode expandir os avanços e abordar os mais esmagadores problemas da espécie humana de uma forma sem precedentes. 3. Objetivos O objetivo principal deste trabalho é apresentar uma visão geral sobre a arquitetura de hardware do supercomputador Jaguar e seus componentes bem como aspectos de software como o sistema operacional e o sistema de arquivos, salientando também o tipo de resfriamento utilizado e as áreas onde o Jaguar é empregado. 4. Arquitetura O sistema Jaguar atualmente é constituı́do de 84 gabinetes quad-core do tipo Cray XT4 e 200 novos gabinetes do tipo Cray XT5, que também utilizam processadores quad-core. Ambas as partes do sistema possuem 2 gigabytes de memória por core, fornecendo ao usuário um total de 362 terabytes de memória de alta velocidade em todo o sistema. Estes dois sistemas, XT4 e XT5 estão conectados entre si e ao sistema de arquivos Spider através da sua ligação ao SION (Scalable I/O Network), que será descrito mais adiante. O sistema XT5 possui 214 nodos de serviço e de I/O fornecendo uma largura de banda de até 240 gigabytes por segundo para o SION e 200 gigabits por segundo para redes externas, enquanto que o XT4 tem 116 nodos de serviço e de I/O fornecendo uma largura de banda de 44 gigabytes por segundo para o SION e 100 gigabits por segundo para redes externas. Tanto nas placas do XT4 quanto nas placas do XT5 existem 4 nodos. Os nodos do XT4 possuem um único processador Opteron 1354 “Budapest” acoplado à 8 gigabytes de memória DDR-2 800 Mhz. O XT5 é uma versão de dupla densidade do XT4, ele tem o dobro da capacidade de processamento, de memória e de largura de banda no acesso à memória em cada um de seus nodos. O nodo do XT5 tem dois processadores Opteron 2356 “Barcelona” ligados por conexões duais “HyperTransport”. Cada um dos “Opteron” do XT5 tem acoplado 8 gigabytes de memória DDR-2 800 Mhz, resultando em um nodo de soquete duplo com 8 cores e 16 gigabytes de memória compartilhada cujo pico da performance de processamento chega a 73.6 gigaflops. 4.1. Processadores - AMD Opteron O AMD Opteron SE de quatro núcleos é o processador de mais alta performance da AMD para servidores e estações de trabalho, atendendo às suas aplicações mais exigentes. Com a Arquitetura de Conexão Direta testada e comprovada da AMD, fornece desempenho que equilibra gerenciamento da memória, I/O e processamento puro. 4.1.1. Arquitetura de Conexão Direta A Arquitetura de Conexão Direta dos processadores AMD Opteron pode melhorar a performance e a eficiência gerais do sistema eliminando os tradicionais gargalos inerentes as arquiteturas de barramento frontal. Os barramentos frontais restringem e interrompem o fluxo dos dados. Um fluxo de dados mais lento significa mais latência, o que se traduz em menor desempenho do sistema. Um fluxo de dados interrompido significa escalabilidade limitada do sistema. Com a Arquitetura de Conexão Direta, o barramento frontal é eliminado. Em vez dele, o núcleo do processador é conectado diretamente à memória, ao subsistema de I/O e a qualquer outro processador da configuração, através de conexões “HyperTransport” de alta largura de banda. O controlador de memória fica localizado na pastilha do processador, e não na placa-mãe, como acontece na arquitetura de barramento frontal. Isso reduz ainda mais a latência e melhora o desempenho. 4.1.2. Controlador de memória integrado Os processadores Opteron com Arquitetura de Conexão Direta apresentam um controlador de memória integrado na pastilha, otimizando o desempenho da memória e a largura de banda por CPU. A largura de banda da memória da AMD aumenta de acordo com o número de processadores, ao contrário dos designs mais antigos que apresentam pouca escalabilidade, porque o acesso à memória principal é limitado pelos chips Northbridge externos. 4.1.3. Tecnologia HyperTransport A tecnologia HyperTransport é uma conexão de comunicação ponto a ponto de alta velocidade, bidirecional e de baixa latência que fornece uma interconexão de largura de banda escalável entre núcleos de computação, subsistemas de I/O, bancos de memória e outros chipsets. Os processadores AMD Opteron suportam até 3 (três) conexões HyperTransport, rendendo uma largura de banda máxima de até 24,0 GB/s por processador. Na Figura 7 é apresentada a arquitetura de um processador AMD Opteron através de um diagrama em blocos e na Figura 8 é apresentada a arquitetura de Conexão Direta. Figura 7. Processador AMD Opteron Figura 8. Arquitetura de Conexão Direta Além das vantagens citadas o processador AMD Opteron ainda apresenta os seguintes benefı́cios: • Proteção do investimento - Ao utilizar a Estratégia de Núcleo Comum e a Tecnologia de Mesmo Soquete, os processadores AMD Opteron são projetados para minimizar mudanças em sua infra-estrutura de software e data center, protegendo seu investimento em TI e simplificando o gerenciamento. • Desempenho excepcional - Os processadores AMD Opteron de Quatro Núcleos foram projetados para oferecer desempenho ideal com aplicativos multithreaded através de: – design nativo de núcleo quádruplo, apresentando quatro núcleos em uma única pastilha para maior eficiência no compartilhamento de dados; – uma estrutura de cache aprimorada e um controlador de memória integrado, projetados para sustentar a taxa de transferência de dados exigida pelos aplicativos multithreaded. Melhorando desta forma a relação performance-por-watt, a capacidade de resposta de TI ao mesmo tempo que mantém os custos. • Uso mais eficiente da energia - Os processadores AMD Opteron de Quatro Núcleos são as CPUs para servidor com uso mais eficiente da energia que já produzimos, graças à tecnologia AMD PowerNow! Aprimorada e à adição da inovadora Tecnologia CoolCore. Essas inovações têm o objetivo de reduzir o custo total de propriedade (TCO), as necessidades de energia do data center e os custos de resfriamento, ao baixar o consumo de energia da sua infra-estrutura de TI. • Virtualização ideal - Os processadores AMD Opteron de Quatro Núcleos com Arquitetura de Conexão Direta proporcionam a maior eficiência do mercado na plataforma de virtualização. Apresentando a tecnologia AMD Virtualization (AMDV) com Rápida Indexação da Virtualização, os processadores AMD Opteron de Quatro Núcleos podem acelerar o desempenho dos aplicativos virtualizados e melhorar a eficiência da alternância entre as máquinas virtuais, para que os clientes possam hospedar mais máquinas virtuais e usuários por sistema, a fim de maximizar a consolidação e os benefı́cios de economia de energia obtidos com a virtualização. Certamente, devido a esses benefı́cios mencionados acima e outros não divulgados, os processadores AMD Opteron foram escolhidos para fazer parte do supercomputador da Cray, equipando cada um de seus nodos com 1 ou 2 processadores AMD Opteron. 4.2. Sistema de Interconexão - Cray SeaStar2 O coração da performance para a execução de sistemas massivamente paralelos está na rede de interconexão entre os processadores. Nos supercomputadores Cray da famı́lia XT a interconexão é feita através do sistema de comunicação SeaStar2, apresentado na Figura 9. O sistema de interconexão Cray SeaStar2 conecta diretamente todos os nodos de computação através de uma topologia de toróide 3D usando os links Hyper-Transport dos processadores Opteron, proporcionando um ótimo ambiente de largura de banda. O sistema de interconexão SeaStar2 transmite, carrega todo o tráfego de troca de mensagens (MPI) bem como todo o tráfego de I/O em ambos os sistemas (XT4 e XT5). Figura 9. Cray SeaStar2 System 4.3. Sistema Operacional O sistema operacional escolhido para ser utilizado em cada nodo do XT Cray foi o SUSE linux adaptado para as suas necessidades, ou seja, foi criada uma versão Cray do sistema SUSE através da remoção dos serviços não necessários à computação nos nodos do kernel original. O resultado disso é a diminuição das interrupções do código rodando no sistema, fornecendo dessa forma tempos de execução de aplicações previsı́veis e passı́veis de repetição. O ambiente Cray linux, além do sistema operacional SUSE, também possui serviços de sistema, software de rede, comunicações e I/O e bibliotecas matemáticas, além de compiladores, debuggers e ferramentas de avaliação de performance. Para a programação dos nodos, os seguintes modelos são suportados: • • • • MPI; OpenMP; SHMEM; PGAS. O National Center for Computational Sciences (NCCS) suporta compiladores da PGI, Pathscale e GNU no Jaguar. 4.4. Aplicações As aplicações à serem executadas no Jaguar devem obedecer o sistema de batchs, através de um sistema de enfileiramento de jobs chamado PBS Pro (Portable Batch System Professional Edition), que utiliza o ALPS (Application Level Placement Scheduler) para colocar e lançar a execução das aplicações nos nodos. Essas aplicações devem utilizar os padrões do MPI para o seu desenvolvimento e execução. Um exemplo de como rodar quatro processos MPI nos nodos pode ser visto na Figura 10 Figura 10. Job em sistema de batchs 4.5. SION(Scalable I/O Network) - Rede Interna Para uma total integração dos componentes do sistema, foi desenvovida uma SAN (System Area Network) chamada SION. Sion é uma rede Infiniband multi-estágio que conecta todas as plataformas do NCCS. Através de um link de alta performance entre os múltiplos sistemas, SION permite a comunicação entre os dois segmentos do Jaguar. Novas funcionalidades como a visualização on-line são agora possı́veis pois os dados das plataformas de simulação podem viajar até a plataforma de visualização com uma taxa de transferência extremamente alta. Novas plataformas são frequentemente implantadas e a SION continuará a fornecer um estrutura integrada de serviços de forma escalável. Em vez de replicar os serviços de infraestrutura para cada nova implantação, SION permite o acesso aos serviços existentes reduzindo custos, melhorando a usabilidade e diminuindo o tempo das aquisições iniciais necessárias a nova implantação. 4.5.1. Especificações da SION SION é uma rede Infiniband DDR de alta performance que pode oferecer uma largura de banda biseccional de até 889 gigabytes por segundo. O núcleo da infraestrutura de rede é baseado em três switches Cisco 7024D IB de 288 portas. Um switch fornece um link de agregação com os outros componentes do sistema enquanto que os outros dois switches restantes provê a conectividade entre os dois segmentos do Jaguar e o sistema de arquivos Spider. Um quarto switch 7024D proporciona a conectividade com as outras plataformas e é ligado ao switch de agregação. O Spider é conectado aos switches do núcleo via 48 switches Flextronics IB de 24 portas, os quais permitem o endereçamento diretamente do SION. Switches adicionais fornecem conectividade para o restante das plataformas, no total a SION possui mais de 3.000 portas Infiniband e mais de 3 milhas da cabos óticos fornecendo uma conectividade de alta performance. 4.5.2. Rede NCCS - Rede Externa A capacidade de rede no NCCS está sendo expandida em paralelo com sua capacidade de computação para assegurar transferências de dados em alta velocidade e com precisão. As redes com altas taxas de transferência entre estes sistemas e a atualização das conexões para ESnet (Energy Sciences Network) e Internet2 contribuiram para aumentar a velocidade da transferência de dados entre o NCCS e outras instituições. Dessa forma permitindo acesso a computações de alto desempenho à mais de 200 instituições educacionais, corporações e agências governamentais sem fins lucrativos. O núcleo da rede LAN do NCCS consiste de dois roteadores Cisco 6500 series junto com um roteador Force10 E1200. O núcleo da rede provê 100 portas 10GE para conexões intra switch e para conectar diretamente hosts. Também é oferecido 1200 portas Ethernet Gigabit para máquinas com necessidades de transferência de dados menores. 4.6. Sistema de Arquivos(SPIDER) e Sistema de Armazenamento O sistema de arquivos Spider é baseado no sistema de arquivos Lustre e vai substituir os vários sistemas de arquivos na rede da NCCS com um único sistema escalável. O Spider fornece um acesso centralizado aos data sets cujo tamanho é da ordem de petabytes, a partir de qualquer plataforma na rede NCCS, eliminando dessa forma as ilhas de dados. Transferência de arquivos entre computadores e outros sistemas serão desnecessárias. A transferência de data sets de escala peta entre o Jaguar e o sistema de visualização, por exemplo, pode levar horas, diminuindo a largura de banda do Jaguar e atrasando as simulações em andamento. A eliminação das transferências de arquivos irá melhorar a performance, a conveniência e o custo. Plataformas de análises de dados se beneficiarão da grande largura de banda do Spider sem exigir um grande investimento em armazenamento dedicado. O acesso ao Spider por cada plataforma NCCS é configurado com roteadores Lustre. Esses roteadores permitem aos clientes Lustre nos nodos de computação acessar o Spider como se o armazenamento estivesse presente localmente. Todos os outros componentes Lustre ficam dentro da infra-estrutura do Spider fornecendo facilidade de manutenção, acessibilidade durante as falhas de serviço nos nodos de computação e a possibilidade de expandir a performance e a capacidade do sistema de arquivos independentemente dessas plataformas. Usar um sistema de arquivos centralizados requer uma redundância aumentada e tolerância a falhas. O Spider foi projetado para eliminar pontos de falha e maximizar a disponibilidade através dos seguintes recursos: • Failover pairs, ou seja, utilizar pares de servidores onde na falta de um deles o outro assume o seu trabalho; • Multiple networking paths, vários caminhos de rede até o servidor são criados e não apenas um, caso um dos caminhos de rede tenha problemas, outros poderão ser utilizados; • Resiliency features do sistema de arquivos Lustre, definido como a capacidade de se adaptar as adversidades e voltar ı́ntegro após o acontecimento de um problema. Diferentemente dos sistemas de armazenamento anteriores, os quais eram simplesmente raids de alta performance, conectadas diretamente a plataforma de computação, o Spider é um cluster de armazenamento em larga escala. Por trás disso tem-se 48 DDN S2A9900 contendo cada um, 280 unidades de disco rı́gido de 1 terabyte cada, oferecendo uma capacidade armazenamento formatada/utilizável de 10.752 terabytes (acima de 10 petabytes) ou o equivalente a 1000 cópias do total conteúdo da biblioteca do congresso dos Estados Unidos. Fornecendo uma largura de banda acima de 240 gigabytes por segundo e uma capacidade acima de 10 petabytes o Spider é capaz de suportar as exigências de I/O acima de 180.000 núcleos(cores) de computação de CPU. Permitindo dessa forma a entrega de até 1.000 trilhões de cálculos por segundo, ou 1 petaflop. Integrando esses sistemas temos a rede I/O escalável SION, proporcionando uma plataforma de alta performance para o Spider. Figura 11. Spider 4.7. DDN S2A9900 High Performance Storage Platforms Atualmente, a DDN (DataDirect Networks, Inc.) provê a infra-estrutura para os ambientes de computação de mais alta performance e mais extremos do mundo. Devido a isso, se tornou a escolha da Oak Ridge National Laboratory(ORNL) para constituir o Spider, que é considerado o maior e mais veloz sistema de arquivos do mundo. O S2A9900 foi criado para evitar os gargalos e problemas de esclabilidade inerentes das arquiteturas tradicionais. Constitui-se de 1 datacenter rack com capacidade para até 10 baias, cada baia pode conter até 60 discos rı́gidos com capacidade máxima de 1 terabyte cada. Assim, é possı́vel oferecer 1.2 petabytes em apenas 2 racks. O rack do S2A9900 é mostrado na Figura 7. Figura 12. Rack do S2A9900 As dimensões do rack,na sua especificação máxima, 2,18 metros de altura x 71,1 centı́metros de largura x 1,05 metros de profundidade são apropriadas para uma grande capacidade de armazenamento em um espaço compacto. Cada baia possui uma ultra densidade, ou seja, pode armazenar até 60 discos rı́gidos em um espaço com dimensões de 17,8 centı́metros de altura x 44,6 centı́metros de largura x 91,4 centı́metros de profundidade. Caracterı́sticas como velocidades de leitura e escrita de até 6 gigabytes por segundo, baixa latência e nenhuma contenção são proporcionadas por 8 portas paralelas de acesso com a tecnologia infiniband 4x DDR de adaptadores de rede e uma ligação através de fibra ótica de até 8 gigabytes por segundo. Outra caracterı́stica desejável, tal como Qualidade de Serviço (Quality of Service), é oferecida através das seguintes estratégias: • Sem penalizações para as escritas, elas ocorrem tão rápido quanto as leituras; • Implementação de RAID 6 com proteção de dupla paridade, sendo a melhor prática atual para implantação de SATA(Serial Advanced Thecnology); • Verificação da integridade dos dados é feita em tempo real sem perda de performance ou redução de capacidade. • DirectRaid, mantém a performance de tempo real mesmo com a perda de discos rı́gidos e canais de comunicação. Reconstrói até 4 discos rı́gidos concorrentemente e checa condições de erro ou falhas. Além dessas caracterı́ticas, o SA2A9900 apresenta vantagens que o qualificam como um dos melhores sistemas de armazenamento atuais, tais como: • Escalabilidade, configuração modular, ou seja, os discos e as gavetas podem ser adicionadas online. Até 1.200 discos podem ser adicionados; • Otimização de espaço, energia e resfriamento, possuindo um dos menores consumos de energia por gigabyte de espaço e fornecendo um grande espaço de armazenamento em apenas dois racks. Devido aos atributos mencionados anteriormente o S2A9900 se apresenta como uma escolha correta para o Jagua e o seu sistema de arquivos Spider. 4.8. Lustre File System O Lustre é um sistema de arquivos distribuı́dos baseado em objetos geralmente utilizado para computação de cluster em larga escala. O nome Lustre é uma combinação de duas palavras, Linux e cluster. Seu objetivo principal é provêr um sistema de arquivos para dezenas ou milhares de nodos com capacidade de armazenamento da ordem de petabytes sem comprometer a velocidade ou segurança. Projetado, desenvolvido e mantido pela Sun Microsystems, Inc., o Lustre foi adquirido em 2007 com a intenção de agregar os seus benefı́cios ao sistema de arquivos ZFS da Sun e consequentemente ao sistema operacional Solaris. Atualmente 15 dos 30 super computadores mais poderosos do mundo utilizam o Lustre e devido a sua alta escalabilidade a implantação desse sistema de arquivos é comum em setores de óleo e gás, manufatura, publicidade e finanças. 4.8.1. Histórico A arquitetura do sistema de arquivos Lustre foi desenvolvido com um projeto de pesquisa em 1999 por Peter Braam, que nesta época era cientista senior de sistemas na Carnegie Mellon University. Mais tarde Braam fundou sua própria empresa chamada Cluster File Systems, a qual liberou a primeira versão do Lustre em 2003. A Cluster File Systems foi adquirida pela Sun Microsystems, Inc. em 2007. 4.8.2. Arquitetura O sistema de arquivos Lustre possui três unidades funcionais maiores: • Um único Metadata Target (MDT) por sistema de arquivos, armazenado em um metadata server, que armazena meta dados tais como: – – – – nomes de arquivos; diretórios; permissões; layout de arquivos; • Um ou mais object storage targets (OSTs) que armazenam os dados do arquivo em um ou mais object storage servers (OSSes). Dependendo do hardware do servidor, um OSS tipicamente serve entre dois e oito targets, onde cada target é um sistema de arquivos em disco local de até 8 terabytes de tamanho. A capacidade de um sistema de arquivos Lustre é a soma das capacidades fornecidas pelos targets; • Clientes que acessam e usam os dados. O Lustre oferece a todos os clientes a semântica do POSIX e o acesso concorrente das leituras e escrita aos arquivos no sistema de arquivos. O MDT, OST e cliente podem estar no mesmo nodo ou em nodos diferentes, mas em instalações tı́picas, estas funções ficam em nodos separados com dois a quatro OSTs por nodo OSS se comunicando em uma rede. O Lustre suporta vários tipos de rede, incluindo infiniband, TCP/IP sobre Ethernet, Myrinet, Quadrics e outras tecnologias proprietárias e pode tirar vantagem das transferências RDMA (remote direct memory access), quando disponı́vel, para aumentar a taxa de transferência e reduzir o uso da CPU. O armazenamento anexado aos servidores é particionado, opcionalmente organizado com logical volume management (LVM) e/ou RAID, e formatado como m sistema de arquivos. Os servidores Lustre OSS e MDS realizam as leituras, escritas e modificam os dados no formato imposto por esse sistema de arquivos. Um OST é um sistema de arquivos dedicado que exporta uma interface para faixas de bytes de objetos para operações de leitura e escrita. Um MDT é um sistema de arquivos dedicado que controla o acesso aos arquivos e diz aos clientes quais objetos formam um arquivo. MDTs e OSTs atualmente usam uma versão modificada do ext3 para armazenar dados. No futuro, o sistema de arquivos da Sun Microsystems, Inc. ZFS/DMU será usada para armazenar dados. Figura 13. Arquitetura do Lustre 4.8.3. Implementação Em uma instalação tı́pica do Lustre em um cliente Linux, um módulo de driver do sistema de arquivos Lustre é caregado no kernel e o sistema de arquivos é montado como qualquer outro sistema de arquivos local ou de rede. Aplicações cliente enxergam um único sistema de arquivos mesmo que ele seja composto de dezenas ou milhares de servidores individuais e sistemas de arquivos MDT/OST. 4.9. HPSS - Armazenamento de Arquivos O HPSS (High Performance Storage System) é o armazenador de arquivos do NCCS, tem sido significativamente atualizado para assegurar altas taxas de transferência de dados, armazenamento e recuperação confiável de datasets de tamanho da ordem de petabytes, os quais contém petabytes de dados. Atualmente o HPSS armazena mais de 3 petabytes de dados e em média 40 terabytes são adicionados diariamente. A quantidade de armazenamento dobra a cada ano e a adição de dois sistemas de escala peta estão sendo esperados para suportar essa taxa de crescimento. Para suportar as demandas das plataformas de simulação de escala peta (petaescalar), o HPSS é expandido todos os anos. Os esforços de integração irão oportunizar ao HPSS a conectividade ao SION, proporcionando novas funcionalidades como a integração com o Spider. Esta integração habilitará transferências de entrada e saı́da de dados diretamente do Spider com extrema performance, usando mecanismos de multiplas transferências como o HPSS transfer agent ou o local file mover. A infraestrutura do HPSS inclui 28 servidores Dell usados como núcleo, CSLS, gateway de interface de usuário e Movers (disco/fita). O armazenamento em fita é feito por duas bibliotecas robóticas STK PowderHorn contendo 14 drives de fita STK 9840 e mais de 11.000 fitas. As duas bibliotecas robóticas da Sun, modelo Storage Tek SL8500 contendo 16 9940, 24 T10000A e 24 T10000B drives de fita com mais de 9800 fitas que foram adicionadas para aumentar a capacidade e a taxa de transferência completam a camada de fita do HPSS. A camada de disco é composta por quatro DDN 9550 com capacidade conjunta de mais de 1500 terabytes de armazenamento e fornecendo um acesso de alta performance para pequenos e médios arquivos e também atuando como mecanismo de cache para grandes arquivos destinados para as fitas. Figura 14. High Performance Storage System 5. Consumo de Energia e Dissipação de Calor Com uma alta densidade energética de aproximadamente 2000 watts por pé quadrado, ou seja, 0,0929 metros quadrados, o Jaguar não poderia ter sido concebido sem um forma de refrigeração lı́quida para prevenir qualquer tipo de super aquecimento. Com 4.400 pés quadrados ou 408,76 metros quadrados, o segmento do XT5 é grande como uma quadra de basquete. Teria sido muito difı́cil manter a refrigeração, mesmo em um ambiente com a temperatura e a pressão do ar controladas, para cada um dos 200 gabinetes, usando o tradicional resfriamento por ventilação forçada. O Jaguar resolveu este problema através de uma nova tecnologia de resfriamento chamada Cray ECOphlex. Essa tecnologia de refrigeração lı́quida usa um refrigerante chamado R-134a, o mesmo utilizado em ar-condicionado de automóveis, para remover o calor do ar que entra e sai de cada gabinete. O resultado disso é uma economia de 900 kilowatts de eletricidade e acima de 500.000 dólares por ano, que seriam necessários para alimentar os ventiladores em um sistema de refrigeração tradicional de ventilação forçada. Mais economias são feitas devido as fontes de alimentação de 480 volts de cada gabinete, pois ao manter a tensão alta, as perdas elétricas nos cabos de alimentação são minimizadas, gerando uma economia em torno de 500.000 dólares durante o ciclo de vida do sistema. 6. Áreas de Aplicação O Jaguar é utilizado para resolver problemas nas mais diversas áreas cientı́ficas, onde pode-se destacar as seguintes: • • • • • • • • • Energia (novas fontes); Biologia (DNA); Meteorologia (variações climáticas); Ciência de Materiais; Energia Nuclear e Fı́sica Nuclear; Combustão; Geociência; Astrofı́sica; Quı́mica; Esse grande número de áreas onde o Jaguar atua demonstra a sua importância atual e a necessidade de que ele continue evoluindo para que possa solucionar estes problemas cada vez mais rápido, ocupando menos espaço e consumindo menos energia. Referências http://www.cray.com/ http://www.cray.com/About/History.aspx http://www.amd.com/br-pt/Processors/ProductInformation/ 0,,30_118_8796_15223,00.html http://www.ddn.com/s2a http://en.wikipedia.org/wiki/Lustre_(file_system) http://www.hpcwire.com/offthewire/ORNL_Selects_DataDirect_ for_Spider_File_System.html http://www.nccs.gov/