Oak Ridge National Laboratory`s Cray XT5 ”Jaguar” Supercomputer

Transcrição

Oak Ridge National Laboratory’s Cray XT5 ”Jaguar”
Supercomputer
Gustavo Zechlinski1
1
Programa de Pós Graduação em Informática – Universidade Católica de Pelotas
Rua Félix da Cunha, 412 – 96.010-000 – Pelotas – RS – Brazil
[email protected]
1. Histórico
A Cray Inc. iniciou a sua história em 1972 quando o lendário Seymour Cray, o “pai da
supercomputação” fundou a empresa Cray Research. A pesquisa, o desenvolvimento e a
manufatura ficaram localizados no centro de Chippewa Falls, Wisconsin enquanto que o
escritório de negócios ficava em Minneapolis, Minnesota. O primeiro sistema Cray-1 foi
instalado no Laboratório Nacional Los Alamos em 1976 por 8,8 milhões de dólares. Este
sistema bateu o recorde mundial de operações de ponto flutante por segundo, chegando a
160 megaflops e de memória principal, alcançando 8 megabytes (1 milhão de palavras).
A arquitetura de Cray-1 refletia bem a inclinação do projetista para ultrapassar barreiras
técnicas com idéias revolucionárias. Com o objetivo de aumentar a velocidade do sistema,
o Cray-1 possuı́a uma única placa, o que permitia que os circuitos integrados fossem
colocados juntos e bem perto uns dos outros. Não havia fios no sistema que era maior
que quatro pés, aproximadamente 1,22 metros. Para lidar com o intenso calor gerado pelo
computador, a Cray desenvolveu um inovador sistema de refrigeração usando Freon.
Figura 1. Seymour Cray
Figura 2. Cray-1 System
A fim de concentrar os seus esforços na concepção e projeto, Seymour Cray deixou a posição de CEO da empresa em 1980 e se tornou um contratante independente.
Como ele havia trabalhado no desenvolvimento do Cray-1, outro grupo dentro da empresa desenvolveu o primeiro supercomputador multiprocessador, o Cray X-MP, que foi
introduzido em 1982. O sistema Cray-2 surgiu 1985, proporcionando um aumento de performance dez vezes maior que o sistema Cray-1. Em 1988, a Cray Research introduziu
o Cray Y-MP, o primeiro supercomputador do mundo a sustentar mais de 1 gigaflop em
muitas aplicações. Múltiplos processadores de 333 MFLOPS constituiam o sistema chegando à uma velocidade recorde de 2,3 gigaflops. Sempre um visionário, Seymour Cray
explorou o uso de arseneto de gálio na criação de um semicondutor mais rápido do que o
silı́cio. Entretanto, os custos e as complexidades deste material tornaram difı́cil para a empresa apoiar ambos os esforços de desenvolvimento do Cray-3 e do Cray C90. Em 1989,
a Cray Research desmembrou o projeto do Cray-3 em uma empresa separada, chamada
Cray Computer Corporation, encabeçada por Seymour Cray, e com base em Colorado
Springs, Colorado.Tragicamente, Seymour Cray morreu dos ferimentos sofridos em um
acidente automóvel em setembro de 1996 com a idade de 71 anos. O fracasso do Cray-3,
devido a diminuição da demanda por “large machines” com o fim da guerra fria, fez com
que a polı́tica e a parte técnica fossem alteradas dentro da empresa, tomando rumo em
direção aos projetos de máquinas massivamente paralelas. Mesmo com a desaprovação
de seu fundador que era um crı́tico dessa abordagem, quando questionado pelo Wall Street
Journal que os sistemas MPP (Massive Parallel Systems) ainda não tinham provado a sua
supremacia sobre os computadores vetoriais, principalmente pela dificuldade dos usuários
em programar as grandes máquinas paralelas ele disse:“Eu não acho que eles serão universalmente bem-sucedidos, ao menos no meu tempo de vida”, o que acabou se tornando
verdade.
A década de 1990 trouxe uma série de eventos que iria transformar a Cray Research. A empresa continuou a sua liderança em fornecer os mais poderosos supercomputadores para aplicações de produção. O Cray C90 incluiu um novo processador central
liderando a indústria de supercomputadores com desempenho sustentado de 1 gigaflop.
Usando 16 desses poderosos processadores e 256 milhões de palavras de memória central, o sistema impulsionou um incomparável desempenho total. A empresa também apresentou o seu primeiro ”mini-supercomputador,”o sistema Cray XMS, seguido pelo Cray
Y-MP EL series e em seguida o Cray J90. Em 1993, a Cray Research ofereceu o seu
primeiro sistema de processamento massivamente paralelo (MPP), o supercomputador
Cray T3D, e rapidamente se tornou lı́der do mercado MPP de empresas novas como a
Thinking Machines e MasPar. O Cray T3D provou ser extremamente robusto, confiável,
compartilhável e fácil de administrar, em comparação com os sistemas MPP concorrentes. Desde sua estréia em 1995, o sucessor do Cray T3D, o supercomputador Cray T3E
tem sido o sistema MPP mais bem vendido do mundo.O sistema Cray T3E-1200E foi o
primeiro supercomputador a sustentar 1 teraflop (1 trilhão de cálculos por segundo) em
uma aplicação do mundo real. Em Novembro de 1998, uma equipe cientı́fica conjunta
do Oak Ridge National Laboratory, do National Energy Research Scientific Computing
Center (NERSC), do Pittsburgh Supercomputing Center e da Universidade de Bristol
(Reino Unido) executou uma aplicação de magnetismo à uma velocidade sustentada de
1,02 teraflops.
Figura 5. Cray C90 System
Figura 6. Cray T3E System
Em outro marco tecnológico, o Cray T90 tornou-se o primeiro supercomputador
sem fios (wireless) do mundo em 1994. Também apresentado nesse ano, o Cray J90 series se tornou o supercomputador mais popular do mundo, com mais de 400 sistemas
vendidos. A Cray Research se fundiu com a SGI (Silicon Graphics, Inc.) em fevereiro de
1996. Em Agosto de 1999, A SGI criou uma unidade separada de negócios da Cray Research para centrar-se exclusivamente nas necessidades únicas dos clientes de alto nı́vel
da supercomputação. Ativos desta unidade de negócios foram vendidas à Tera Computer Company em março de 2000. A Tera Computer Company foi fundada em 1987 em
Washington, DC, e se mudou para Seattle, Washington, em 1988. A Tera começou desenvolvendo software para sistemas de arquitetura Multithreaded (MTA) nesse ano, o projeto
de hardware inciou-se em 1991. O sistema Cray MTA-2 apresenta uma memória compartilhada escalável, onde cada processador tem acesso igual a todos os locais de memória,
simplificando muito a programação devido a eliminação das preocupações sobre o layout
da memória. A empresa completou a sua oferta pública inicial em 1995 (Tera no NASDAQ Stock Exchange), e logo depois recebeu a sua primeira encomenda para o MTA do
San Diego Supercomputer Center. O sistema multiprocessador foi aceito pelo centro em
1998, sendo depois atualizado para oito processadores. Após a fusão com a Cray Research divisão da SGI, em 2000, a empresa foi renomeada para Cray Inc. e o sı́mbolo
foi alterado para CRAY. Atualmente a empresa produz supercomputadores de pequeno e
grande porte, sendo que o mais famoso, o Jaguar está instalado no NCCS (National Center for Computational Sciences), Oak Ridge National Laboratory, Oak Ridge, Tennessee,
Estados Unidos.
2. Motivações
Hoje em dia, os supercomputadores exercem um papel importante no cenário cientı́fico, os
sistemas com poder de processamento da ordem de terabytes e petabytes tem se mostrado
uma ferramenta indispensável para investigação cientı́fica e resolução de problemas. As
áreas que exploram largamente o uso destes tipos de computadores vão desde o teste de
novas fontes de energia e exame das dinâmicas das mudanças de clima até a manipulação
de funções de proteı́nas (DNA). A capacidade das máquinas com poder de processamento
da ordem de petabytes pode expandir os avanços e abordar os mais esmagadores problemas da espécie humana de uma forma sem precedentes.
3. Objetivos
O objetivo principal deste trabalho é apresentar uma visão geral sobre a arquitetura de
hardware do supercomputador Jaguar e seus componentes bem como aspectos de software como o sistema operacional e o sistema de arquivos, salientando também o tipo de
resfriamento utilizado e as áreas onde o Jaguar é empregado.
4. Arquitetura
O sistema Jaguar atualmente é constituı́do de 84 gabinetes quad-core do tipo Cray XT4
e 200 novos gabinetes do tipo Cray XT5, que também utilizam processadores quad-core.
Ambas as partes do sistema possuem 2 gigabytes de memória por core, fornecendo ao
usuário um total de 362 terabytes de memória de alta velocidade em todo o sistema.
Estes dois sistemas, XT4 e XT5 estão conectados entre si e ao sistema de arquivos Spider
através da sua ligação ao SION (Scalable I/O Network), que será descrito mais adiante.
O sistema XT5 possui 214 nodos de serviço e de I/O fornecendo uma largura de banda
de até 240 gigabytes por segundo para o SION e 200 gigabits por segundo para redes
externas, enquanto que o XT4 tem 116 nodos de serviço e de I/O fornecendo uma largura
de banda de 44 gigabytes por segundo para o SION e 100 gigabits por segundo para redes
externas. Tanto nas placas do XT4 quanto nas placas do XT5 existem 4 nodos. Os nodos
do XT4 possuem um único processador Opteron 1354 “Budapest” acoplado à 8 gigabytes
de memória DDR-2 800 Mhz. O XT5 é uma versão de dupla densidade do XT4, ele tem
o dobro da capacidade de processamento, de memória e de largura de banda no acesso à
memória em cada um de seus nodos. O nodo do XT5 tem dois processadores Opteron
2356 “Barcelona” ligados por conexões duais “HyperTransport”. Cada um dos “Opteron”
do XT5 tem acoplado 8 gigabytes de memória DDR-2 800 Mhz, resultando em um nodo
de soquete duplo com 8 cores e 16 gigabytes de memória compartilhada cujo pico da
performance de processamento chega a 73.6 gigaflops.
4.1. Processadores - AMD Opteron
O AMD Opteron SE de quatro núcleos é o processador de mais alta performance da AMD
para servidores e estações de trabalho, atendendo às suas aplicações mais exigentes. Com
a Arquitetura de Conexão Direta testada e comprovada da AMD, fornece desempenho
que equilibra gerenciamento da memória, I/O e processamento puro.
4.1.1. Arquitetura de Conexão Direta
A Arquitetura de Conexão Direta dos processadores AMD Opteron pode melhorar a performance e a eficiência gerais do sistema eliminando os tradicionais gargalos inerentes as
arquiteturas de barramento frontal. Os barramentos frontais restringem e interrompem o
fluxo dos dados. Um fluxo de dados mais lento significa mais latência, o que se traduz
em menor desempenho do sistema. Um fluxo de dados interrompido significa escalabilidade limitada do sistema. Com a Arquitetura de Conexão Direta, o barramento frontal é
eliminado. Em vez dele, o núcleo do processador é conectado diretamente à memória, ao
subsistema de I/O e a qualquer outro processador da configuração, através de conexões
“HyperTransport” de alta largura de banda. O controlador de memória fica localizado na
pastilha do processador, e não na placa-mãe, como acontece na arquitetura de barramento
frontal. Isso reduz ainda mais a latência e melhora o desempenho.
4.1.2. Controlador de memória integrado
Os processadores Opteron com Arquitetura de Conexão Direta apresentam um controlador de memória integrado na pastilha, otimizando o desempenho da memória e a largura
de banda por CPU. A largura de banda da memória da AMD aumenta de acordo com o
número de processadores, ao contrário dos designs mais antigos que apresentam pouca
escalabilidade, porque o acesso à memória principal é limitado pelos chips Northbridge
externos.
4.1.3. Tecnologia HyperTransport
A tecnologia HyperTransport é uma conexão de comunicação ponto a ponto de alta velocidade, bidirecional e de baixa latência que fornece uma interconexão de largura de
banda escalável entre núcleos de computação, subsistemas de I/O, bancos de memória
e outros chipsets. Os processadores AMD Opteron suportam até 3 (três) conexões HyperTransport, rendendo uma largura de banda máxima de até 24,0 GB/s por processador.
Na Figura 7 é apresentada a arquitetura de um processador AMD Opteron através de um
diagrama em blocos e na Figura 8 é apresentada a arquitetura de Conexão Direta.
Figura 7. Processador AMD Opteron
Figura 8. Arquitetura de Conexão Direta
Além das vantagens citadas o processador AMD Opteron ainda apresenta os seguintes benefı́cios:
• Proteção do investimento - Ao utilizar a Estratégia de Núcleo Comum e a Tecnologia de Mesmo Soquete, os processadores AMD Opteron são projetados para
minimizar mudanças em sua infra-estrutura de software e data center, protegendo
seu investimento em TI e simplificando o gerenciamento.
• Desempenho excepcional - Os processadores AMD Opteron de Quatro Núcleos
foram projetados para oferecer desempenho ideal com aplicativos multithreaded
através de:
– design nativo de núcleo quádruplo, apresentando quatro núcleos em uma
única pastilha para maior eficiência no compartilhamento de dados;
– uma estrutura de cache aprimorada e um controlador de memória integrado, projetados para sustentar a taxa de transferência de dados exigida
pelos aplicativos multithreaded.
Melhorando desta forma a relação performance-por-watt, a capacidade de resposta
de TI ao mesmo tempo que mantém os custos.
• Uso mais eficiente da energia - Os processadores AMD Opteron de Quatro Núcleos
são as CPUs para servidor com uso mais eficiente da energia que já produzimos,
graças à tecnologia AMD PowerNow! Aprimorada e à adição da inovadora Tecnologia CoolCore. Essas inovações têm o objetivo de reduzir o custo total de
propriedade (TCO), as necessidades de energia do data center e os custos de resfriamento, ao baixar o consumo de energia da sua infra-estrutura de TI.
• Virtualização ideal - Os processadores AMD Opteron de Quatro Núcleos com Arquitetura de Conexão Direta proporcionam a maior eficiência do mercado na plataforma de virtualização. Apresentando a tecnologia AMD Virtualization (AMDV) com Rápida Indexação da Virtualização, os processadores AMD Opteron de
Quatro Núcleos podem acelerar o desempenho dos aplicativos virtualizados e melhorar a eficiência da alternância entre as máquinas virtuais, para que os clientes
possam hospedar mais máquinas virtuais e usuários por sistema, a fim de maximizar a consolidação e os benefı́cios de economia de energia obtidos com a
virtualização.
Certamente, devido a esses benefı́cios mencionados acima e outros não divulgados, os processadores AMD Opteron foram escolhidos para fazer parte do supercomputador da Cray, equipando cada um de seus nodos com 1 ou 2 processadores AMD Opteron.
4.2. Sistema de Interconexão - Cray SeaStar2
O coração da performance para a execução de sistemas massivamente paralelos está na
rede de interconexão entre os processadores. Nos supercomputadores Cray da famı́lia
XT a interconexão é feita através do sistema de comunicação SeaStar2, apresentado na
Figura 9. O sistema de interconexão Cray SeaStar2 conecta diretamente todos os nodos
de computação através de uma topologia de toróide 3D usando os links Hyper-Transport
dos processadores Opteron, proporcionando um ótimo ambiente de largura de banda. O
sistema de interconexão SeaStar2 transmite, carrega todo o tráfego de troca de mensagens
(MPI) bem como todo o tráfego de I/O em ambos os sistemas (XT4 e XT5).
Figura 9. Cray SeaStar2 System
4.3. Sistema Operacional
O sistema operacional escolhido para ser utilizado em cada nodo do XT Cray foi o SUSE
linux adaptado para as suas necessidades, ou seja, foi criada uma versão Cray do sistema SUSE através da remoção dos serviços não necessários à computação nos nodos do
kernel original. O resultado disso é a diminuição das interrupções do código rodando no
sistema, fornecendo dessa forma tempos de execução de aplicações previsı́veis e passı́veis
de repetição. O ambiente Cray linux, além do sistema operacional SUSE, também possui serviços de sistema, software de rede, comunicações e I/O e bibliotecas matemáticas,
além de compiladores, debuggers e ferramentas de avaliação de performance. Para a
programação dos nodos, os seguintes modelos são suportados:
•
•
•
•
MPI;
OpenMP;
SHMEM;
PGAS.
O National Center for Computational Sciences (NCCS) suporta compiladores da
PGI, Pathscale e GNU no Jaguar.
4.4. Aplicações
As aplicações à serem executadas no Jaguar devem obedecer o sistema de batchs, através
de um sistema de enfileiramento de jobs chamado PBS Pro (Portable Batch System Professional Edition), que utiliza o ALPS (Application Level Placement Scheduler) para colocar e lançar a execução das aplicações nos nodos. Essas aplicações devem utilizar os
padrões do MPI para o seu desenvolvimento e execução. Um exemplo de como rodar
quatro processos MPI nos nodos pode ser visto na Figura 10
Figura 10. Job em sistema de batchs
4.5. SION(Scalable I/O Network) - Rede Interna
Para uma total integração dos componentes do sistema, foi desenvovida uma SAN (System Area Network) chamada SION. Sion é uma rede Infiniband multi-estágio que conecta todas as plataformas do NCCS. Através de um link de alta performance entre os
múltiplos sistemas, SION permite a comunicação entre os dois segmentos do Jaguar. Novas funcionalidades como a visualização on-line são agora possı́veis pois os dados das
plataformas de simulação podem viajar até a plataforma de visualização com uma taxa de
transferência extremamente alta. Novas plataformas são frequentemente implantadas e a
SION continuará a fornecer um estrutura integrada de serviços de forma escalável. Em
vez de replicar os serviços de infraestrutura para cada nova implantação, SION permite o
acesso aos serviços existentes reduzindo custos, melhorando a usabilidade e diminuindo
o tempo das aquisições iniciais necessárias a nova implantação.
4.5.1. Especificações da SION
SION é uma rede Infiniband DDR de alta performance que pode oferecer uma largura de
banda biseccional de até 889 gigabytes por segundo. O núcleo da infraestrutura de rede é
baseado em três switches Cisco 7024D IB de 288 portas. Um switch fornece um link de
agregação com os outros componentes do sistema enquanto que os outros dois switches
restantes provê a conectividade entre os dois segmentos do Jaguar e o sistema de arquivos
Spider. Um quarto switch 7024D proporciona a conectividade com as outras plataformas
e é ligado ao switch de agregação. O Spider é conectado aos switches do núcleo via 48
switches Flextronics IB de 24 portas, os quais permitem o endereçamento diretamente do
SION. Switches adicionais fornecem conectividade para o restante das plataformas, no
total a SION possui mais de 3.000 portas Infiniband e mais de 3 milhas da cabos óticos
fornecendo uma conectividade de alta performance.
4.5.2. Rede NCCS - Rede Externa
A capacidade de rede no NCCS está sendo expandida em paralelo com sua capacidade
de computação para assegurar transferências de dados em alta velocidade e com precisão.
As redes com altas taxas de transferência entre estes sistemas e a atualização das conexões para ESnet (Energy Sciences Network) e Internet2 contribuiram para aumentar a
velocidade da transferência de dados entre o NCCS e outras instituições. Dessa forma
permitindo acesso a computações de alto desempenho à mais de 200 instituições educacionais, corporações e agências governamentais sem fins lucrativos. O núcleo da rede LAN
do NCCS consiste de dois roteadores Cisco 6500 series junto com um roteador Force10
E1200. O núcleo da rede provê 100 portas 10GE para conexões intra switch e para conectar diretamente hosts. Também é oferecido 1200 portas Ethernet Gigabit para máquinas
com necessidades de transferência de dados menores.
4.6. Sistema de Arquivos(SPIDER) e Sistema de Armazenamento
O sistema de arquivos Spider é baseado no sistema de arquivos Lustre e vai substituir
os vários sistemas de arquivos na rede da NCCS com um único sistema escalável. O
Spider fornece um acesso centralizado aos data sets cujo tamanho é da ordem de petabytes, a partir de qualquer plataforma na rede NCCS, eliminando dessa forma as ilhas
de dados. Transferência de arquivos entre computadores e outros sistemas serão desnecessárias. A transferência de data sets de escala peta entre o Jaguar e o sistema de
visualização, por exemplo, pode levar horas, diminuindo a largura de banda do Jaguar e
atrasando as simulações em andamento. A eliminação das transferências de arquivos irá
melhorar a performance, a conveniência e o custo. Plataformas de análises de dados se
beneficiarão da grande largura de banda do Spider sem exigir um grande investimento
em armazenamento dedicado. O acesso ao Spider por cada plataforma NCCS é configurado com roteadores Lustre. Esses roteadores permitem aos clientes Lustre nos nodos de
computação acessar o Spider como se o armazenamento estivesse presente localmente.
Todos os outros componentes Lustre ficam dentro da infra-estrutura do Spider fornecendo facilidade de manutenção, acessibilidade durante as falhas de serviço nos nodos
de computação e a possibilidade de expandir a performance e a capacidade do sistema de
arquivos independentemente dessas plataformas. Usar um sistema de arquivos centralizados requer uma redundância aumentada e tolerância a falhas. O Spider foi projetado para
eliminar pontos de falha e maximizar a disponibilidade através dos seguintes recursos:
• Failover pairs, ou seja, utilizar pares de servidores onde na falta de um deles o
outro assume o seu trabalho;
• Multiple networking paths, vários caminhos de rede até o servidor são criados e
não apenas um, caso um dos caminhos de rede tenha problemas, outros poderão
ser utilizados;
• Resiliency features do sistema de arquivos Lustre, definido como a capacidade de
se adaptar as adversidades e voltar ı́ntegro após o acontecimento de um problema.
Diferentemente dos sistemas de armazenamento anteriores, os quais eram simplesmente
raids de alta performance, conectadas diretamente a plataforma de computação, o Spider
é um cluster de armazenamento em larga escala. Por trás disso tem-se 48 DDN S2A9900
contendo cada um, 280 unidades de disco rı́gido de 1 terabyte cada, oferecendo uma capacidade armazenamento formatada/utilizável de 10.752 terabytes (acima de 10 petabytes)
ou o equivalente a 1000 cópias do total conteúdo da biblioteca do congresso dos Estados
Unidos. Fornecendo uma largura de banda acima de 240 gigabytes por segundo e uma
capacidade acima de 10 petabytes o Spider é capaz de suportar as exigências de I/O acima
de 180.000 núcleos(cores) de computação de CPU. Permitindo dessa forma a entrega de
até 1.000 trilhões de cálculos por segundo, ou 1 petaflop. Integrando esses sistemas temos
a rede I/O escalável SION, proporcionando uma plataforma de alta performance para o
Spider.
Figura 11. Spider
4.7. DDN S2A9900 High Performance Storage Platforms
Atualmente, a DDN (DataDirect Networks, Inc.) provê a infra-estrutura para os ambientes
de computação de mais alta performance e mais extremos do mundo. Devido a isso, se
tornou a escolha da Oak Ridge National Laboratory(ORNL) para constituir o Spider,
que é considerado o maior e mais veloz sistema de arquivos do mundo. O S2A9900
foi criado para evitar os gargalos e problemas de esclabilidade inerentes das arquiteturas
tradicionais. Constitui-se de 1 datacenter rack com capacidade para até 10 baias, cada
baia pode conter até 60 discos rı́gidos com capacidade máxima de 1 terabyte cada. Assim,
é possı́vel oferecer 1.2 petabytes em apenas 2 racks. O rack do S2A9900 é mostrado na
Figura 7.
Figura 12. Rack do S2A9900
As dimensões do rack,na sua especificação máxima, 2,18 metros de altura x 71,1
centı́metros de largura x 1,05 metros de profundidade são apropriadas para uma grande
capacidade de armazenamento em um espaço compacto. Cada baia possui uma ultra densidade, ou seja, pode armazenar até 60 discos rı́gidos em um espaço com dimensões de
17,8 centı́metros de altura x 44,6 centı́metros de largura x 91,4 centı́metros de profundidade. Caracterı́sticas como velocidades de leitura e escrita de até 6 gigabytes por segundo,
baixa latência e nenhuma contenção são proporcionadas por 8 portas paralelas de acesso
com a tecnologia infiniband 4x DDR de adaptadores de rede e uma ligação através de fibra
ótica de até 8 gigabytes por segundo. Outra caracterı́stica desejável, tal como Qualidade
de Serviço (Quality of Service), é oferecida através das seguintes estratégias:
• Sem penalizações para as escritas, elas ocorrem tão rápido quanto as leituras;
• Implementação de RAID 6 com proteção de dupla paridade, sendo a melhor
prática atual para implantação de SATA(Serial Advanced Thecnology);
• Verificação da integridade dos dados é feita em tempo real sem perda de performance ou redução de capacidade.
• DirectRaid, mantém a performance de tempo real mesmo com a perda de discos
rı́gidos e canais de comunicação. Reconstrói até 4 discos rı́gidos concorrentemente e checa condições de erro ou falhas.
Além dessas caracterı́ticas, o SA2A9900 apresenta vantagens que o qualificam como um
dos melhores sistemas de armazenamento atuais, tais como:
• Escalabilidade, configuração modular, ou seja, os discos e as gavetas podem ser
adicionadas online. Até 1.200 discos podem ser adicionados;
• Otimização de espaço, energia e resfriamento, possuindo um dos menores consumos de energia por gigabyte de espaço e fornecendo um grande espaço de armazenamento em apenas dois racks.
Devido aos atributos mencionados anteriormente o S2A9900 se apresenta como uma escolha correta para o Jagua e o seu sistema de arquivos Spider.
4.8. Lustre File System
O Lustre é um sistema de arquivos distribuı́dos baseado em objetos geralmente utilizado
para computação de cluster em larga escala. O nome Lustre é uma combinação de duas
palavras, Linux e cluster. Seu objetivo principal é provêr um sistema de arquivos para
dezenas ou milhares de nodos com capacidade de armazenamento da ordem de petabytes
sem comprometer a velocidade ou segurança. Projetado, desenvolvido e mantido pela
Sun Microsystems, Inc., o Lustre foi adquirido em 2007 com a intenção de agregar os seus
benefı́cios ao sistema de arquivos ZFS da Sun e consequentemente ao sistema operacional
Solaris. Atualmente 15 dos 30 super computadores mais poderosos do mundo utilizam
o Lustre e devido a sua alta escalabilidade a implantação desse sistema de arquivos é
comum em setores de óleo e gás, manufatura, publicidade e finanças.
4.8.1. Histórico
A arquitetura do sistema de arquivos Lustre foi desenvolvido com um projeto de pesquisa
em 1999 por Peter Braam, que nesta época era cientista senior de sistemas na Carnegie
Mellon University. Mais tarde Braam fundou sua própria empresa chamada Cluster File
Systems, a qual liberou a primeira versão do Lustre em 2003. A Cluster File Systems foi
adquirida pela Sun Microsystems, Inc. em 2007.
4.8.2. Arquitetura
O sistema de arquivos Lustre possui três unidades funcionais maiores:
• Um único Metadata Target (MDT) por sistema de arquivos, armazenado em um
metadata server, que armazena meta dados tais como:
–
–
–
–
nomes de arquivos;
diretórios;
permissões;
layout de arquivos;
• Um ou mais object storage targets (OSTs) que armazenam os dados do arquivo em
um ou mais object storage servers (OSSes). Dependendo do hardware do servidor,
um OSS tipicamente serve entre dois e oito targets, onde cada target é um sistema
de arquivos em disco local de até 8 terabytes de tamanho. A capacidade de um
sistema de arquivos Lustre é a soma das capacidades fornecidas pelos targets;
• Clientes que acessam e usam os dados. O Lustre oferece a todos os clientes a
semântica do POSIX e o acesso concorrente das leituras e escrita aos arquivos no
sistema de arquivos.
O MDT, OST e cliente podem estar no mesmo nodo ou em nodos diferentes,
mas em instalações tı́picas, estas funções ficam em nodos separados com dois a quatro
OSTs por nodo OSS se comunicando em uma rede. O Lustre suporta vários tipos de
rede, incluindo infiniband, TCP/IP sobre Ethernet, Myrinet, Quadrics e outras tecnologias
proprietárias e pode tirar vantagem das transferências RDMA (remote direct memory
access), quando disponı́vel, para aumentar a taxa de transferência e reduzir o uso da CPU.
O armazenamento anexado aos servidores é particionado, opcionalmente organizado com
logical volume management (LVM) e/ou RAID, e formatado como m sistema de arquivos.
Os servidores Lustre OSS e MDS realizam as leituras, escritas e modificam os dados
no formato imposto por esse sistema de arquivos. Um OST é um sistema de arquivos
dedicado que exporta uma interface para faixas de bytes de objetos para operações de
leitura e escrita. Um MDT é um sistema de arquivos dedicado que controla o acesso aos
arquivos e diz aos clientes quais objetos formam um arquivo. MDTs e OSTs atualmente
usam uma versão modificada do ext3 para armazenar dados. No futuro, o sistema de
arquivos da Sun Microsystems, Inc. ZFS/DMU será usada para armazenar dados.
Figura 13. Arquitetura do Lustre
4.8.3. Implementação
Em uma instalação tı́pica do Lustre em um cliente Linux, um módulo de driver do sistema
de arquivos Lustre é caregado no kernel e o sistema de arquivos é montado como qualquer outro sistema de arquivos local ou de rede. Aplicações cliente enxergam um único
sistema de arquivos mesmo que ele seja composto de dezenas ou milhares de servidores
individuais e sistemas de arquivos MDT/OST.
4.9. HPSS - Armazenamento de Arquivos
O HPSS (High Performance Storage System) é o armazenador de arquivos do NCCS, tem
sido significativamente atualizado para assegurar altas taxas de transferência de dados, armazenamento e recuperação confiável de datasets de tamanho da ordem de petabytes, os
quais contém petabytes de dados. Atualmente o HPSS armazena mais de 3 petabytes de
dados e em média 40 terabytes são adicionados diariamente. A quantidade de armazenamento dobra a cada ano e a adição de dois sistemas de escala peta estão sendo esperados
para suportar essa taxa de crescimento. Para suportar as demandas das plataformas de
simulação de escala peta (petaescalar), o HPSS é expandido todos os anos. Os esforços
de integração irão oportunizar ao HPSS a conectividade ao SION, proporcionando novas
funcionalidades como a integração com o Spider. Esta integração habilitará transferências
de entrada e saı́da de dados diretamente do Spider com extrema performance, usando mecanismos de multiplas transferências como o HPSS transfer agent ou o local file mover.
A infraestrutura do HPSS inclui 28 servidores Dell usados como núcleo, CSLS, gateway
de interface de usuário e Movers (disco/fita). O armazenamento em fita é feito por duas
bibliotecas robóticas STK PowderHorn contendo 14 drives de fita STK 9840 e mais de
11.000 fitas. As duas bibliotecas robóticas da Sun, modelo Storage Tek SL8500 contendo
16 9940, 24 T10000A e 24 T10000B drives de fita com mais de 9800 fitas que foram
adicionadas para aumentar a capacidade e a taxa de transferência completam a camada
de fita do HPSS. A camada de disco é composta por quatro DDN 9550 com capacidade
conjunta de mais de 1500 terabytes de armazenamento e fornecendo um acesso de alta
performance para pequenos e médios arquivos e também atuando como mecanismo de
cache para grandes arquivos destinados para as fitas.
Figura 14. High Performance Storage System
5. Consumo de Energia e Dissipação de Calor
Com uma alta densidade energética de aproximadamente 2000 watts por pé quadrado, ou
seja, 0,0929 metros quadrados, o Jaguar não poderia ter sido concebido sem um forma
de refrigeração lı́quida para prevenir qualquer tipo de super aquecimento. Com 4.400
pés quadrados ou 408,76 metros quadrados, o segmento do XT5 é grande como uma
quadra de basquete. Teria sido muito difı́cil manter a refrigeração, mesmo em um ambiente com a temperatura e a pressão do ar controladas, para cada um dos 200 gabinetes,
usando o tradicional resfriamento por ventilação forçada. O Jaguar resolveu este problema através de uma nova tecnologia de resfriamento chamada Cray ECOphlex. Essa
tecnologia de refrigeração lı́quida usa um refrigerante chamado R-134a, o mesmo utilizado em ar-condicionado de automóveis, para remover o calor do ar que entra e sai de
cada gabinete. O resultado disso é uma economia de 900 kilowatts de eletricidade e acima
de 500.000 dólares por ano, que seriam necessários para alimentar os ventiladores em um
sistema de refrigeração tradicional de ventilação forçada. Mais economias são feitas devido as fontes de alimentação de 480 volts de cada gabinete, pois ao manter a tensão alta,
as perdas elétricas nos cabos de alimentação são minimizadas, gerando uma economia em
torno de 500.000 dólares durante o ciclo de vida do sistema.
6. Áreas de Aplicação
O Jaguar é utilizado para resolver problemas nas mais diversas áreas cientı́ficas, onde
pode-se destacar as seguintes:
•
•
•
•
•
•
•
•
•
Energia (novas fontes);
Biologia (DNA);
Meteorologia (variações climáticas);
Ciência de Materiais;
Energia Nuclear e Fı́sica Nuclear;
Combustão;
Geociência;
Astrofı́sica;
Quı́mica;
Esse grande número de áreas onde o Jaguar atua demonstra a sua importância atual
e a necessidade de que ele continue evoluindo para que possa solucionar estes problemas
cada vez mais rápido, ocupando menos espaço e consumindo menos energia.
Referências
http://www.cray.com/
http://www.cray.com/About/History.aspx
http://www.amd.com/br-pt/Processors/ProductInformation/
0,,30_118_8796_15223,00.html
http://www.ddn.com/s2a
http://en.wikipedia.org/wiki/Lustre_(file_system)
http://www.hpcwire.com/offthewire/ORNL_Selects_DataDirect_
for_Spider_File_System.html
http://www.nccs.gov/

Oak Ridge National Laboratory`s Cray XT5 ”Jaguar” Supercomputer

Transcrição

Documentos relacionados

SHELLAC 78`

Formulação do plano estratégico Cray Valley

Nota de Alta

Tempo e Memória no Cinema Contemp.

Field Programmable Gate Array

1a Frequência — 2002/2003

Nas Ãºltimas dÃ©cadas a importÃ¢ncia dos ecossistemas naturais

Reitores na Moncloa - Duvi

A Viagem de Chihiro

Computação Híbrida Reconfigurável