Oak Ridge National Laboratory`s Cray XT5 ”Jaguar” Supercomputer

Transcrição

Oak Ridge National Laboratory`s Cray XT5 ”Jaguar” Supercomputer
Oak Ridge National Laboratory’s Cray XT5 ”Jaguar”
Supercomputer
Gustavo Zechlinski1
1
Programa de Pós Graduação em Informática – Universidade Católica de Pelotas
Rua Félix da Cunha, 412 – 96.010-000 – Pelotas – RS – Brazil
[email protected]
1. Histórico
A Cray Inc. iniciou a sua história em 1972 quando o lendário Seymour Cray, o “pai da
supercomputação” fundou a empresa Cray Research. A pesquisa, o desenvolvimento e a
manufatura ficaram localizados no centro de Chippewa Falls, Wisconsin enquanto que o
escritório de negócios ficava em Minneapolis, Minnesota. O primeiro sistema Cray-1 foi
instalado no Laboratório Nacional Los Alamos em 1976 por 8,8 milhões de dólares. Este
sistema bateu o recorde mundial de operações de ponto flutante por segundo, chegando a
160 megaflops e de memória principal, alcançando 8 megabytes (1 milhão de palavras).
A arquitetura de Cray-1 refletia bem a inclinação do projetista para ultrapassar barreiras
técnicas com idéias revolucionárias. Com o objetivo de aumentar a velocidade do sistema,
o Cray-1 possuı́a uma única placa, o que permitia que os circuitos integrados fossem
colocados juntos e bem perto uns dos outros. Não havia fios no sistema que era maior
que quatro pés, aproximadamente 1,22 metros. Para lidar com o intenso calor gerado pelo
computador, a Cray desenvolveu um inovador sistema de refrigeração usando Freon.
Figura 1. Seymour Cray
Figura 2. Cray-1 System
A fim de concentrar os seus esforços na concepção e projeto, Seymour Cray deixou a posição de CEO da empresa em 1980 e se tornou um contratante independente.
Como ele havia trabalhado no desenvolvimento do Cray-1, outro grupo dentro da empresa desenvolveu o primeiro supercomputador multiprocessador, o Cray X-MP, que foi
introduzido em 1982. O sistema Cray-2 surgiu 1985, proporcionando um aumento de performance dez vezes maior que o sistema Cray-1. Em 1988, a Cray Research introduziu
o Cray Y-MP, o primeiro supercomputador do mundo a sustentar mais de 1 gigaflop em
muitas aplicações. Múltiplos processadores de 333 MFLOPS constituiam o sistema chegando à uma velocidade recorde de 2,3 gigaflops. Sempre um visionário, Seymour Cray
explorou o uso de arseneto de gálio na criação de um semicondutor mais rápido do que o
silı́cio. Entretanto, os custos e as complexidades deste material tornaram difı́cil para a empresa apoiar ambos os esforços de desenvolvimento do Cray-3 e do Cray C90. Em 1989,
a Cray Research desmembrou o projeto do Cray-3 em uma empresa separada, chamada
Cray Computer Corporation, encabeçada por Seymour Cray, e com base em Colorado
Springs, Colorado.Tragicamente, Seymour Cray morreu dos ferimentos sofridos em um
acidente automóvel em setembro de 1996 com a idade de 71 anos. O fracasso do Cray-3,
devido a diminuição da demanda por “large machines” com o fim da guerra fria, fez com
que a polı́tica e a parte técnica fossem alteradas dentro da empresa, tomando rumo em
direção aos projetos de máquinas massivamente paralelas. Mesmo com a desaprovação
de seu fundador que era um crı́tico dessa abordagem, quando questionado pelo Wall Street
Journal que os sistemas MPP (Massive Parallel Systems) ainda não tinham provado a sua
supremacia sobre os computadores vetoriais, principalmente pela dificuldade dos usuários
em programar as grandes máquinas paralelas ele disse:“Eu não acho que eles serão universalmente bem-sucedidos, ao menos no meu tempo de vida”, o que acabou se tornando
verdade.
Figura 3. Cray-2 System
Figura 4. Cray-3 System
A década de 1990 trouxe uma série de eventos que iria transformar a Cray Research. A empresa continuou a sua liderança em fornecer os mais poderosos supercomputadores para aplicações de produção. O Cray C90 incluiu um novo processador central
liderando a indústria de supercomputadores com desempenho sustentado de 1 gigaflop.
Usando 16 desses poderosos processadores e 256 milhões de palavras de memória central, o sistema impulsionou um incomparável desempenho total. A empresa também apresentou o seu primeiro ”mini-supercomputador,”o sistema Cray XMS, seguido pelo Cray
Y-MP EL series e em seguida o Cray J90. Em 1993, a Cray Research ofereceu o seu
primeiro sistema de processamento massivamente paralelo (MPP), o supercomputador
Cray T3D, e rapidamente se tornou lı́der do mercado MPP de empresas novas como a
Thinking Machines e MasPar. O Cray T3D provou ser extremamente robusto, confiável,
compartilhável e fácil de administrar, em comparação com os sistemas MPP concorrentes. Desde sua estréia em 1995, o sucessor do Cray T3D, o supercomputador Cray T3E
tem sido o sistema MPP mais bem vendido do mundo.O sistema Cray T3E-1200E foi o
primeiro supercomputador a sustentar 1 teraflop (1 trilhão de cálculos por segundo) em
uma aplicação do mundo real. Em Novembro de 1998, uma equipe cientı́fica conjunta
do Oak Ridge National Laboratory, do National Energy Research Scientific Computing
Center (NERSC), do Pittsburgh Supercomputing Center e da Universidade de Bristol
(Reino Unido) executou uma aplicação de magnetismo à uma velocidade sustentada de
1,02 teraflops.
Figura 5. Cray C90 System
Figura 6. Cray T3E System
Em outro marco tecnológico, o Cray T90 tornou-se o primeiro supercomputador
sem fios (wireless) do mundo em 1994. Também apresentado nesse ano, o Cray J90 series se tornou o supercomputador mais popular do mundo, com mais de 400 sistemas
vendidos. A Cray Research se fundiu com a SGI (Silicon Graphics, Inc.) em fevereiro de
1996. Em Agosto de 1999, A SGI criou uma unidade separada de negócios da Cray Research para centrar-se exclusivamente nas necessidades únicas dos clientes de alto nı́vel
da supercomputação. Ativos desta unidade de negócios foram vendidas à Tera Computer Company em março de 2000. A Tera Computer Company foi fundada em 1987 em
Washington, DC, e se mudou para Seattle, Washington, em 1988. A Tera começou desenvolvendo software para sistemas de arquitetura Multithreaded (MTA) nesse ano, o projeto
de hardware inciou-se em 1991. O sistema Cray MTA-2 apresenta uma memória compartilhada escalável, onde cada processador tem acesso igual a todos os locais de memória,
simplificando muito a programação devido a eliminação das preocupações sobre o layout
da memória. A empresa completou a sua oferta pública inicial em 1995 (Tera no NASDAQ Stock Exchange), e logo depois recebeu a sua primeira encomenda para o MTA do
San Diego Supercomputer Center. O sistema multiprocessador foi aceito pelo centro em
1998, sendo depois atualizado para oito processadores. Após a fusão com a Cray Research divisão da SGI, em 2000, a empresa foi renomeada para Cray Inc. e o sı́mbolo
foi alterado para CRAY. Atualmente a empresa produz supercomputadores de pequeno e
grande porte, sendo que o mais famoso, o Jaguar está instalado no NCCS (National Center for Computational Sciences), Oak Ridge National Laboratory, Oak Ridge, Tennessee,
Estados Unidos.
2. Motivações
Hoje em dia, os supercomputadores exercem um papel importante no cenário cientı́fico, os
sistemas com poder de processamento da ordem de terabytes e petabytes tem se mostrado
uma ferramenta indispensável para investigação cientı́fica e resolução de problemas. As
áreas que exploram largamente o uso destes tipos de computadores vão desde o teste de
novas fontes de energia e exame das dinâmicas das mudanças de clima até a manipulação
de funções de proteı́nas (DNA). A capacidade das máquinas com poder de processamento
da ordem de petabytes pode expandir os avanços e abordar os mais esmagadores problemas da espécie humana de uma forma sem precedentes.
3. Objetivos
O objetivo principal deste trabalho é apresentar uma visão geral sobre a arquitetura de
hardware do supercomputador Jaguar e seus componentes bem como aspectos de software como o sistema operacional e o sistema de arquivos, salientando também o tipo de
resfriamento utilizado e as áreas onde o Jaguar é empregado.
4. Arquitetura
O sistema Jaguar atualmente é constituı́do de 84 gabinetes quad-core do tipo Cray XT4
e 200 novos gabinetes do tipo Cray XT5, que também utilizam processadores quad-core.
Ambas as partes do sistema possuem 2 gigabytes de memória por core, fornecendo ao
usuário um total de 362 terabytes de memória de alta velocidade em todo o sistema.
Estes dois sistemas, XT4 e XT5 estão conectados entre si e ao sistema de arquivos Spider
através da sua ligação ao SION (Scalable I/O Network), que será descrito mais adiante.
O sistema XT5 possui 214 nodos de serviço e de I/O fornecendo uma largura de banda
de até 240 gigabytes por segundo para o SION e 200 gigabits por segundo para redes
externas, enquanto que o XT4 tem 116 nodos de serviço e de I/O fornecendo uma largura
de banda de 44 gigabytes por segundo para o SION e 100 gigabits por segundo para redes
externas. Tanto nas placas do XT4 quanto nas placas do XT5 existem 4 nodos. Os nodos
do XT4 possuem um único processador Opteron 1354 “Budapest” acoplado à 8 gigabytes
de memória DDR-2 800 Mhz. O XT5 é uma versão de dupla densidade do XT4, ele tem
o dobro da capacidade de processamento, de memória e de largura de banda no acesso à
memória em cada um de seus nodos. O nodo do XT5 tem dois processadores Opteron
2356 “Barcelona” ligados por conexões duais “HyperTransport”. Cada um dos “Opteron”
do XT5 tem acoplado 8 gigabytes de memória DDR-2 800 Mhz, resultando em um nodo
de soquete duplo com 8 cores e 16 gigabytes de memória compartilhada cujo pico da
performance de processamento chega a 73.6 gigaflops.
4.1. Processadores - AMD Opteron
O AMD Opteron SE de quatro núcleos é o processador de mais alta performance da AMD
para servidores e estações de trabalho, atendendo às suas aplicações mais exigentes. Com
a Arquitetura de Conexão Direta testada e comprovada da AMD, fornece desempenho
que equilibra gerenciamento da memória, I/O e processamento puro.
4.1.1. Arquitetura de Conexão Direta
A Arquitetura de Conexão Direta dos processadores AMD Opteron pode melhorar a performance e a eficiência gerais do sistema eliminando os tradicionais gargalos inerentes as
arquiteturas de barramento frontal. Os barramentos frontais restringem e interrompem o
fluxo dos dados. Um fluxo de dados mais lento significa mais latência, o que se traduz
em menor desempenho do sistema. Um fluxo de dados interrompido significa escalabilidade limitada do sistema. Com a Arquitetura de Conexão Direta, o barramento frontal é
eliminado. Em vez dele, o núcleo do processador é conectado diretamente à memória, ao
subsistema de I/O e a qualquer outro processador da configuração, através de conexões
“HyperTransport” de alta largura de banda. O controlador de memória fica localizado na
pastilha do processador, e não na placa-mãe, como acontece na arquitetura de barramento
frontal. Isso reduz ainda mais a latência e melhora o desempenho.
4.1.2. Controlador de memória integrado
Os processadores Opteron com Arquitetura de Conexão Direta apresentam um controlador de memória integrado na pastilha, otimizando o desempenho da memória e a largura
de banda por CPU. A largura de banda da memória da AMD aumenta de acordo com o
número de processadores, ao contrário dos designs mais antigos que apresentam pouca
escalabilidade, porque o acesso à memória principal é limitado pelos chips Northbridge
externos.
4.1.3. Tecnologia HyperTransport
A tecnologia HyperTransport é uma conexão de comunicação ponto a ponto de alta velocidade, bidirecional e de baixa latência que fornece uma interconexão de largura de
banda escalável entre núcleos de computação, subsistemas de I/O, bancos de memória
e outros chipsets. Os processadores AMD Opteron suportam até 3 (três) conexões HyperTransport, rendendo uma largura de banda máxima de até 24,0 GB/s por processador.
Na Figura 7 é apresentada a arquitetura de um processador AMD Opteron através de um
diagrama em blocos e na Figura 8 é apresentada a arquitetura de Conexão Direta.
Figura 7. Processador AMD Opteron
Figura 8. Arquitetura de Conexão Direta
Além das vantagens citadas o processador AMD Opteron ainda apresenta os seguintes benefı́cios:
• Proteção do investimento - Ao utilizar a Estratégia de Núcleo Comum e a Tecnologia de Mesmo Soquete, os processadores AMD Opteron são projetados para
minimizar mudanças em sua infra-estrutura de software e data center, protegendo
seu investimento em TI e simplificando o gerenciamento.
• Desempenho excepcional - Os processadores AMD Opteron de Quatro Núcleos
foram projetados para oferecer desempenho ideal com aplicativos multithreaded
através de:
– design nativo de núcleo quádruplo, apresentando quatro núcleos em uma
única pastilha para maior eficiência no compartilhamento de dados;
– uma estrutura de cache aprimorada e um controlador de memória integrado, projetados para sustentar a taxa de transferência de dados exigida
pelos aplicativos multithreaded.
Melhorando desta forma a relação performance-por-watt, a capacidade de resposta
de TI ao mesmo tempo que mantém os custos.
• Uso mais eficiente da energia - Os processadores AMD Opteron de Quatro Núcleos
são as CPUs para servidor com uso mais eficiente da energia que já produzimos,
graças à tecnologia AMD PowerNow! Aprimorada e à adição da inovadora Tecnologia CoolCore. Essas inovações têm o objetivo de reduzir o custo total de
propriedade (TCO), as necessidades de energia do data center e os custos de resfriamento, ao baixar o consumo de energia da sua infra-estrutura de TI.
• Virtualização ideal - Os processadores AMD Opteron de Quatro Núcleos com Arquitetura de Conexão Direta proporcionam a maior eficiência do mercado na plataforma de virtualização. Apresentando a tecnologia AMD Virtualization (AMDV) com Rápida Indexação da Virtualização, os processadores AMD Opteron de
Quatro Núcleos podem acelerar o desempenho dos aplicativos virtualizados e melhorar a eficiência da alternância entre as máquinas virtuais, para que os clientes
possam hospedar mais máquinas virtuais e usuários por sistema, a fim de maximizar a consolidação e os benefı́cios de economia de energia obtidos com a
virtualização.
Certamente, devido a esses benefı́cios mencionados acima e outros não divulgados, os processadores AMD Opteron foram escolhidos para fazer parte do supercomputador da Cray, equipando cada um de seus nodos com 1 ou 2 processadores AMD Opteron.
4.2. Sistema de Interconexão - Cray SeaStar2
O coração da performance para a execução de sistemas massivamente paralelos está na
rede de interconexão entre os processadores. Nos supercomputadores Cray da famı́lia
XT a interconexão é feita através do sistema de comunicação SeaStar2, apresentado na
Figura 9. O sistema de interconexão Cray SeaStar2 conecta diretamente todos os nodos
de computação através de uma topologia de toróide 3D usando os links Hyper-Transport
dos processadores Opteron, proporcionando um ótimo ambiente de largura de banda. O
sistema de interconexão SeaStar2 transmite, carrega todo o tráfego de troca de mensagens
(MPI) bem como todo o tráfego de I/O em ambos os sistemas (XT4 e XT5).
Figura 9. Cray SeaStar2 System
4.3. Sistema Operacional
O sistema operacional escolhido para ser utilizado em cada nodo do XT Cray foi o SUSE
linux adaptado para as suas necessidades, ou seja, foi criada uma versão Cray do sistema SUSE através da remoção dos serviços não necessários à computação nos nodos do
kernel original. O resultado disso é a diminuição das interrupções do código rodando no
sistema, fornecendo dessa forma tempos de execução de aplicações previsı́veis e passı́veis
de repetição. O ambiente Cray linux, além do sistema operacional SUSE, também possui serviços de sistema, software de rede, comunicações e I/O e bibliotecas matemáticas,
além de compiladores, debuggers e ferramentas de avaliação de performance. Para a
programação dos nodos, os seguintes modelos são suportados:
•
•
•
•
MPI;
OpenMP;
SHMEM;
PGAS.
O National Center for Computational Sciences (NCCS) suporta compiladores da
PGI, Pathscale e GNU no Jaguar.
4.4. Aplicações
As aplicações à serem executadas no Jaguar devem obedecer o sistema de batchs, através
de um sistema de enfileiramento de jobs chamado PBS Pro (Portable Batch System Professional Edition), que utiliza o ALPS (Application Level Placement Scheduler) para colocar e lançar a execução das aplicações nos nodos. Essas aplicações devem utilizar os
padrões do MPI para o seu desenvolvimento e execução. Um exemplo de como rodar
quatro processos MPI nos nodos pode ser visto na Figura 10
Figura 10. Job em sistema de batchs
4.5. SION(Scalable I/O Network) - Rede Interna
Para uma total integração dos componentes do sistema, foi desenvovida uma SAN (System Area Network) chamada SION. Sion é uma rede Infiniband multi-estágio que conecta todas as plataformas do NCCS. Através de um link de alta performance entre os
múltiplos sistemas, SION permite a comunicação entre os dois segmentos do Jaguar. Novas funcionalidades como a visualização on-line são agora possı́veis pois os dados das
plataformas de simulação podem viajar até a plataforma de visualização com uma taxa de
transferência extremamente alta. Novas plataformas são frequentemente implantadas e a
SION continuará a fornecer um estrutura integrada de serviços de forma escalável. Em
vez de replicar os serviços de infraestrutura para cada nova implantação, SION permite o
acesso aos serviços existentes reduzindo custos, melhorando a usabilidade e diminuindo
o tempo das aquisições iniciais necessárias a nova implantação.
4.5.1. Especificações da SION
SION é uma rede Infiniband DDR de alta performance que pode oferecer uma largura de
banda biseccional de até 889 gigabytes por segundo. O núcleo da infraestrutura de rede é
baseado em três switches Cisco 7024D IB de 288 portas. Um switch fornece um link de
agregação com os outros componentes do sistema enquanto que os outros dois switches
restantes provê a conectividade entre os dois segmentos do Jaguar e o sistema de arquivos
Spider. Um quarto switch 7024D proporciona a conectividade com as outras plataformas
e é ligado ao switch de agregação. O Spider é conectado aos switches do núcleo via 48
switches Flextronics IB de 24 portas, os quais permitem o endereçamento diretamente do
SION. Switches adicionais fornecem conectividade para o restante das plataformas, no
total a SION possui mais de 3.000 portas Infiniband e mais de 3 milhas da cabos óticos
fornecendo uma conectividade de alta performance.
4.5.2. Rede NCCS - Rede Externa
A capacidade de rede no NCCS está sendo expandida em paralelo com sua capacidade
de computação para assegurar transferências de dados em alta velocidade e com precisão.
As redes com altas taxas de transferência entre estes sistemas e a atualização das conexões para ESnet (Energy Sciences Network) e Internet2 contribuiram para aumentar a
velocidade da transferência de dados entre o NCCS e outras instituições. Dessa forma
permitindo acesso a computações de alto desempenho à mais de 200 instituições educacionais, corporações e agências governamentais sem fins lucrativos. O núcleo da rede LAN
do NCCS consiste de dois roteadores Cisco 6500 series junto com um roteador Force10
E1200. O núcleo da rede provê 100 portas 10GE para conexões intra switch e para conectar diretamente hosts. Também é oferecido 1200 portas Ethernet Gigabit para máquinas
com necessidades de transferência de dados menores.
4.6. Sistema de Arquivos(SPIDER) e Sistema de Armazenamento
O sistema de arquivos Spider é baseado no sistema de arquivos Lustre e vai substituir
os vários sistemas de arquivos na rede da NCCS com um único sistema escalável. O
Spider fornece um acesso centralizado aos data sets cujo tamanho é da ordem de petabytes, a partir de qualquer plataforma na rede NCCS, eliminando dessa forma as ilhas
de dados. Transferência de arquivos entre computadores e outros sistemas serão desnecessárias. A transferência de data sets de escala peta entre o Jaguar e o sistema de
visualização, por exemplo, pode levar horas, diminuindo a largura de banda do Jaguar e
atrasando as simulações em andamento. A eliminação das transferências de arquivos irá
melhorar a performance, a conveniência e o custo. Plataformas de análises de dados se
beneficiarão da grande largura de banda do Spider sem exigir um grande investimento
em armazenamento dedicado. O acesso ao Spider por cada plataforma NCCS é configurado com roteadores Lustre. Esses roteadores permitem aos clientes Lustre nos nodos de
computação acessar o Spider como se o armazenamento estivesse presente localmente.
Todos os outros componentes Lustre ficam dentro da infra-estrutura do Spider fornecendo facilidade de manutenção, acessibilidade durante as falhas de serviço nos nodos
de computação e a possibilidade de expandir a performance e a capacidade do sistema de
arquivos independentemente dessas plataformas. Usar um sistema de arquivos centralizados requer uma redundância aumentada e tolerância a falhas. O Spider foi projetado para
eliminar pontos de falha e maximizar a disponibilidade através dos seguintes recursos:
• Failover pairs, ou seja, utilizar pares de servidores onde na falta de um deles o
outro assume o seu trabalho;
• Multiple networking paths, vários caminhos de rede até o servidor são criados e
não apenas um, caso um dos caminhos de rede tenha problemas, outros poderão
ser utilizados;
• Resiliency features do sistema de arquivos Lustre, definido como a capacidade de
se adaptar as adversidades e voltar ı́ntegro após o acontecimento de um problema.
Diferentemente dos sistemas de armazenamento anteriores, os quais eram simplesmente
raids de alta performance, conectadas diretamente a plataforma de computação, o Spider
é um cluster de armazenamento em larga escala. Por trás disso tem-se 48 DDN S2A9900
contendo cada um, 280 unidades de disco rı́gido de 1 terabyte cada, oferecendo uma capacidade armazenamento formatada/utilizável de 10.752 terabytes (acima de 10 petabytes)
ou o equivalente a 1000 cópias do total conteúdo da biblioteca do congresso dos Estados
Unidos. Fornecendo uma largura de banda acima de 240 gigabytes por segundo e uma
capacidade acima de 10 petabytes o Spider é capaz de suportar as exigências de I/O acima
de 180.000 núcleos(cores) de computação de CPU. Permitindo dessa forma a entrega de
até 1.000 trilhões de cálculos por segundo, ou 1 petaflop. Integrando esses sistemas temos
a rede I/O escalável SION, proporcionando uma plataforma de alta performance para o
Spider.
Figura 11. Spider
4.7. DDN S2A9900 High Performance Storage Platforms
Atualmente, a DDN (DataDirect Networks, Inc.) provê a infra-estrutura para os ambientes
de computação de mais alta performance e mais extremos do mundo. Devido a isso, se
tornou a escolha da Oak Ridge National Laboratory(ORNL) para constituir o Spider,
que é considerado o maior e mais veloz sistema de arquivos do mundo. O S2A9900
foi criado para evitar os gargalos e problemas de esclabilidade inerentes das arquiteturas
tradicionais. Constitui-se de 1 datacenter rack com capacidade para até 10 baias, cada
baia pode conter até 60 discos rı́gidos com capacidade máxima de 1 terabyte cada. Assim,
é possı́vel oferecer 1.2 petabytes em apenas 2 racks. O rack do S2A9900 é mostrado na
Figura 7.
Figura 12. Rack do S2A9900
As dimensões do rack,na sua especificação máxima, 2,18 metros de altura x 71,1
centı́metros de largura x 1,05 metros de profundidade são apropriadas para uma grande
capacidade de armazenamento em um espaço compacto. Cada baia possui uma ultra densidade, ou seja, pode armazenar até 60 discos rı́gidos em um espaço com dimensões de
17,8 centı́metros de altura x 44,6 centı́metros de largura x 91,4 centı́metros de profundidade. Caracterı́sticas como velocidades de leitura e escrita de até 6 gigabytes por segundo,
baixa latência e nenhuma contenção são proporcionadas por 8 portas paralelas de acesso
com a tecnologia infiniband 4x DDR de adaptadores de rede e uma ligação através de fibra
ótica de até 8 gigabytes por segundo. Outra caracterı́stica desejável, tal como Qualidade
de Serviço (Quality of Service), é oferecida através das seguintes estratégias:
• Sem penalizações para as escritas, elas ocorrem tão rápido quanto as leituras;
• Implementação de RAID 6 com proteção de dupla paridade, sendo a melhor
prática atual para implantação de SATA(Serial Advanced Thecnology);
• Verificação da integridade dos dados é feita em tempo real sem perda de performance ou redução de capacidade.
• DirectRaid, mantém a performance de tempo real mesmo com a perda de discos
rı́gidos e canais de comunicação. Reconstrói até 4 discos rı́gidos concorrentemente e checa condições de erro ou falhas.
Além dessas caracterı́ticas, o SA2A9900 apresenta vantagens que o qualificam como um
dos melhores sistemas de armazenamento atuais, tais como:
• Escalabilidade, configuração modular, ou seja, os discos e as gavetas podem ser
adicionadas online. Até 1.200 discos podem ser adicionados;
• Otimização de espaço, energia e resfriamento, possuindo um dos menores consumos de energia por gigabyte de espaço e fornecendo um grande espaço de armazenamento em apenas dois racks.
Devido aos atributos mencionados anteriormente o S2A9900 se apresenta como uma escolha correta para o Jagua e o seu sistema de arquivos Spider.
4.8. Lustre File System
O Lustre é um sistema de arquivos distribuı́dos baseado em objetos geralmente utilizado
para computação de cluster em larga escala. O nome Lustre é uma combinação de duas
palavras, Linux e cluster. Seu objetivo principal é provêr um sistema de arquivos para
dezenas ou milhares de nodos com capacidade de armazenamento da ordem de petabytes
sem comprometer a velocidade ou segurança. Projetado, desenvolvido e mantido pela
Sun Microsystems, Inc., o Lustre foi adquirido em 2007 com a intenção de agregar os seus
benefı́cios ao sistema de arquivos ZFS da Sun e consequentemente ao sistema operacional
Solaris. Atualmente 15 dos 30 super computadores mais poderosos do mundo utilizam
o Lustre e devido a sua alta escalabilidade a implantação desse sistema de arquivos é
comum em setores de óleo e gás, manufatura, publicidade e finanças.
4.8.1. Histórico
A arquitetura do sistema de arquivos Lustre foi desenvolvido com um projeto de pesquisa
em 1999 por Peter Braam, que nesta época era cientista senior de sistemas na Carnegie
Mellon University. Mais tarde Braam fundou sua própria empresa chamada Cluster File
Systems, a qual liberou a primeira versão do Lustre em 2003. A Cluster File Systems foi
adquirida pela Sun Microsystems, Inc. em 2007.
4.8.2. Arquitetura
O sistema de arquivos Lustre possui três unidades funcionais maiores:
• Um único Metadata Target (MDT) por sistema de arquivos, armazenado em um
metadata server, que armazena meta dados tais como:
–
–
–
–
nomes de arquivos;
diretórios;
permissões;
layout de arquivos;
• Um ou mais object storage targets (OSTs) que armazenam os dados do arquivo em
um ou mais object storage servers (OSSes). Dependendo do hardware do servidor,
um OSS tipicamente serve entre dois e oito targets, onde cada target é um sistema
de arquivos em disco local de até 8 terabytes de tamanho. A capacidade de um
sistema de arquivos Lustre é a soma das capacidades fornecidas pelos targets;
• Clientes que acessam e usam os dados. O Lustre oferece a todos os clientes a
semântica do POSIX e o acesso concorrente das leituras e escrita aos arquivos no
sistema de arquivos.
O MDT, OST e cliente podem estar no mesmo nodo ou em nodos diferentes,
mas em instalações tı́picas, estas funções ficam em nodos separados com dois a quatro
OSTs por nodo OSS se comunicando em uma rede. O Lustre suporta vários tipos de
rede, incluindo infiniband, TCP/IP sobre Ethernet, Myrinet, Quadrics e outras tecnologias
proprietárias e pode tirar vantagem das transferências RDMA (remote direct memory
access), quando disponı́vel, para aumentar a taxa de transferência e reduzir o uso da CPU.
O armazenamento anexado aos servidores é particionado, opcionalmente organizado com
logical volume management (LVM) e/ou RAID, e formatado como m sistema de arquivos.
Os servidores Lustre OSS e MDS realizam as leituras, escritas e modificam os dados
no formato imposto por esse sistema de arquivos. Um OST é um sistema de arquivos
dedicado que exporta uma interface para faixas de bytes de objetos para operações de
leitura e escrita. Um MDT é um sistema de arquivos dedicado que controla o acesso aos
arquivos e diz aos clientes quais objetos formam um arquivo. MDTs e OSTs atualmente
usam uma versão modificada do ext3 para armazenar dados. No futuro, o sistema de
arquivos da Sun Microsystems, Inc. ZFS/DMU será usada para armazenar dados.
Figura 13. Arquitetura do Lustre
4.8.3. Implementação
Em uma instalação tı́pica do Lustre em um cliente Linux, um módulo de driver do sistema
de arquivos Lustre é caregado no kernel e o sistema de arquivos é montado como qualquer outro sistema de arquivos local ou de rede. Aplicações cliente enxergam um único
sistema de arquivos mesmo que ele seja composto de dezenas ou milhares de servidores
individuais e sistemas de arquivos MDT/OST.
4.9. HPSS - Armazenamento de Arquivos
O HPSS (High Performance Storage System) é o armazenador de arquivos do NCCS, tem
sido significativamente atualizado para assegurar altas taxas de transferência de dados, armazenamento e recuperação confiável de datasets de tamanho da ordem de petabytes, os
quais contém petabytes de dados. Atualmente o HPSS armazena mais de 3 petabytes de
dados e em média 40 terabytes são adicionados diariamente. A quantidade de armazenamento dobra a cada ano e a adição de dois sistemas de escala peta estão sendo esperados
para suportar essa taxa de crescimento. Para suportar as demandas das plataformas de
simulação de escala peta (petaescalar), o HPSS é expandido todos os anos. Os esforços
de integração irão oportunizar ao HPSS a conectividade ao SION, proporcionando novas
funcionalidades como a integração com o Spider. Esta integração habilitará transferências
de entrada e saı́da de dados diretamente do Spider com extrema performance, usando mecanismos de multiplas transferências como o HPSS transfer agent ou o local file mover.
A infraestrutura do HPSS inclui 28 servidores Dell usados como núcleo, CSLS, gateway
de interface de usuário e Movers (disco/fita). O armazenamento em fita é feito por duas
bibliotecas robóticas STK PowderHorn contendo 14 drives de fita STK 9840 e mais de
11.000 fitas. As duas bibliotecas robóticas da Sun, modelo Storage Tek SL8500 contendo
16 9940, 24 T10000A e 24 T10000B drives de fita com mais de 9800 fitas que foram
adicionadas para aumentar a capacidade e a taxa de transferência completam a camada
de fita do HPSS. A camada de disco é composta por quatro DDN 9550 com capacidade
conjunta de mais de 1500 terabytes de armazenamento e fornecendo um acesso de alta
performance para pequenos e médios arquivos e também atuando como mecanismo de
cache para grandes arquivos destinados para as fitas.
Figura 14. High Performance Storage System
5. Consumo de Energia e Dissipação de Calor
Com uma alta densidade energética de aproximadamente 2000 watts por pé quadrado, ou
seja, 0,0929 metros quadrados, o Jaguar não poderia ter sido concebido sem um forma
de refrigeração lı́quida para prevenir qualquer tipo de super aquecimento. Com 4.400
pés quadrados ou 408,76 metros quadrados, o segmento do XT5 é grande como uma
quadra de basquete. Teria sido muito difı́cil manter a refrigeração, mesmo em um ambiente com a temperatura e a pressão do ar controladas, para cada um dos 200 gabinetes,
usando o tradicional resfriamento por ventilação forçada. O Jaguar resolveu este problema através de uma nova tecnologia de resfriamento chamada Cray ECOphlex. Essa
tecnologia de refrigeração lı́quida usa um refrigerante chamado R-134a, o mesmo utilizado em ar-condicionado de automóveis, para remover o calor do ar que entra e sai de
cada gabinete. O resultado disso é uma economia de 900 kilowatts de eletricidade e acima
de 500.000 dólares por ano, que seriam necessários para alimentar os ventiladores em um
sistema de refrigeração tradicional de ventilação forçada. Mais economias são feitas devido as fontes de alimentação de 480 volts de cada gabinete, pois ao manter a tensão alta,
as perdas elétricas nos cabos de alimentação são minimizadas, gerando uma economia em
torno de 500.000 dólares durante o ciclo de vida do sistema.
6. Áreas de Aplicação
O Jaguar é utilizado para resolver problemas nas mais diversas áreas cientı́ficas, onde
pode-se destacar as seguintes:
•
•
•
•
•
•
•
•
•
Energia (novas fontes);
Biologia (DNA);
Meteorologia (variações climáticas);
Ciência de Materiais;
Energia Nuclear e Fı́sica Nuclear;
Combustão;
Geociência;
Astrofı́sica;
Quı́mica;
Esse grande número de áreas onde o Jaguar atua demonstra a sua importância atual
e a necessidade de que ele continue evoluindo para que possa solucionar estes problemas
cada vez mais rápido, ocupando menos espaço e consumindo menos energia.
Referências
http://www.cray.com/
http://www.cray.com/About/History.aspx
http://www.amd.com/br-pt/Processors/ProductInformation/
0,,30_118_8796_15223,00.html
http://www.ddn.com/s2a
http://en.wikipedia.org/wiki/Lustre_(file_system)
http://www.hpcwire.com/offthewire/ORNL_Selects_DataDirect_
for_Spider_File_System.html
http://www.nccs.gov/

Documentos relacionados