Clinical Chemistry
Transcrição
Clinical Chemistry
Clinical Chemistry Q&A Bioinformatica: O que o Laboratório clínico precisa saber e estar preparado 1 2 3 4 Gregory J. Tsongalis, Moderator ,*, Elizabeth Chao, Expert , Jill M. Hagenkord, Expert , Tina Hambuch, Expert and 5 Jason H. Moore, Expert Afiliação dos Autores 1 Director of Molecular Pathology and Co-Director of the Translational Research Program, Geisel School of Medicine at Dartmouth, Dartmouth-Hitchcock Medical Center, Lebanon, NH; 2 Director of Translational Medicine, Ambry Genetics, Aliso Viejo, CA; 3 Chief Medical Officer and Senior Vice President, Complete Genomics, Inc., Mountain View, CA; 4 Illumina Clinical Services Laboratory, Illumina, Mountain View, CA; 5 Professor of Genetics and Community and Family Medicine, Director of the Institute for Quantitative Biomedical Sciences, Associate Director for Bioinformatics, Norris-Cotton Cancer Center, and Editor-in-Chief of BioData Mining, Geisel School of Medicine at Dartmouth, Dartmouth-Hitchcock Medical Center, Lebanon, NH. * Endereço para correspondência do Autor: Geisel School of Medicine at Dartmouth and the Dartmouth-Hitchcock Medical Center, One Medical Center Drive, Lebanon, NH, 03756. Fax 603-650-6120; e-mail [email protected]. A introdução no Laboratório Clínico de tecnologias de diagnóstico molecular para uma ampla variedade de aplicações tem ocorrido em ritmo recorde e levado a mudanças revolucionárias no campo. Microarranjos, por examplo, são rotineiramente usados no laboratório clínico como primeira linha de testes para anormalidades constitucionais associadas com atrasos no desenvolvimento e autismo. Além disso, microarranjos empregando milhares de sondas para cada análise são usados para genotipagem em larga escala e perfil de expressão gênica em associação com algoritmos clínicos. Seqüenciamento paralelo massivo de nova 6 geração (NGS) também está se tornando rotina no laboratório clínico para genes alvo, exons e seqüenciamento genômico. A quantidade de dados gerada por estas análises requerem conhecimento sofisticado de bioinformática para a própria armazenagem, análise e significado destes dados. Enquanto laboratórios clínicos têm experiência com bioinformática e processamento de uma série de resultados, os sistemas utilizados para tal são inadequados para manejo de dados de estudos omicos. Neste Q&A, muitos investigadores da academia e indústria foram convidados a discutir a importância da bioinformática e como os laboratórios clínicos podem melhor se preparar para o manejo da quantidade aumentada e complexidade de dados gerados pelos seus laboratórios na condução de tais estudos. Bioinformática e Bioestatística são freqüentemente usados como sinônimos, apesar das diferenças substanciais. Você pode definir estes termos e indicar a forma como a bioinformática pode impactar o laboratório clínico? Elizabeth Chao: Bioestatística aplica estatísticas de temas biológicos. A ênfase é colocada sobre o uso de análise estatística para projetar experimentos envolvendo grandes populações. Bioestatística destaca resultados significativos por meio de inferência estatística, classificação, portanto, fora do sinal de ruído. Bioinformática, por outro lado, é uma ciência interdisciplinar que une moderna biologia, ciência da computação, matemática aplicada, e as estatísticas em uma disciplina. O principal objetivo da bioinformática é desenvolver e utilizar programas de computador para estudar os processos biológicos. Ambos bioinformática e bioestatística, apesar de suas diferenças, são parte integrante da análise de grandes conjuntos de dados. Em laboratórios de análises clínicas, bioinformática é indispensável para acomodar a entrada de instrumentos de alto rendimento e conjuntos de dados genômicos. Clinical Chemistry Jill M. Hagenkord: Na minha opinião, a bioinformática é a utilização de ferramentas comp-utacionais para estudar complexos conjuntos de dados biológicos de grande porte. Bioinformática é bastante interdisciplinar e inclui elementos de biologia, química, matemática, ciência da computação e estatísticas. Exemplos incluem algoritmos para a determinação da sequência de DNA do exome de milhões de sobreposições fragmentadas ou prever o impacto biológico de uma variante da sequência de ADN sobre a função da proteína. Eu acho que de bioestatística como a aplicação de estatísticas para ensaios clínicos, por exemplo, como ligar suficientemente um estudo ou como representar significância estatística dos resultados. Estamos vendo a migração de mais e mais métodos de ensaio "massivamente paralelos" de laboratórios de pesquisa em laboratórios clínicos. Matrizes citogenômicas, que essencialmente reconstroem os cromossomos dentro do computador de DNA interrompido hibridizadas em um microarranjo, já são o teste de primeira linha para muitas doenças genéticas constitucionais e estão ganhando uso para aplicações de câncer. NGS está sendo usado para sequenciar todo ou partes de genomas-germline inteiros, câncer e micróbios. Não há praticamente nenhuma área da patologia que não será afetada por ensaios NGS em um futuro próximo. Projetando, validando a execução e interpretação de ensaios clínicos genômicos vai cair sob a alçada da patologia e cada etapa requer uma grande quantidade de bioinformática. Todos os dados de NGS são digitais e estamos essencialmente transformando bases em bytes e, em seguida, visualizá-los como bases de novo dentro do computador. Em comparação com os dados estáticos, esta informação digital prontamente a interface com algoritmos ou bases de dados adicionais para ajudar a laboratorios clínicos a interpretar os dados no contexto da pergunta clínica para cada paciente. É fundamental que o patologista ou cientista responsável compreenda as premissas por trás de cada algoritmo e os pontos fortes e Q&A limitações de bancos de dados externos. É provável que em cada laboratório será necessário empregar um ou mais bioinformatas clínicos. Tina Hambuch: Bioinformatica é o processamento de conjuntos de dados biológicos, e abrange logística, bem como processos de análise. Biostatistica é especificamente um subconjunto de processos analíticos voltadas para identificação de tipos específicos de padrões / tendências através da utilização de ferramentas estatísticas. Como o escopo dos dados torna-se maior, bioinformática torna-se mais crítica. Ele também permite a ciência de laboratório clínico para se tornar mais padronizada e quantitativa, tanto em termos de desempenho interoperador e interlaboratorial. No entanto, como alguns laboratórios clínicos têm um forte contingente de bioinformática, isso vai ser um desafio significativo para eles, a curto prazo, e o perigo de bioinformática mal aplicados é substancial. Por exemplo, diferentes programas são otimizados para detectar diferentes tipos de variantes genéticas e seu desempenho pode variar consideravelmente; Assim, a compreensão de como os dados são analisados e os pressupostos e otimizações das várias ferramentas utilizadas para sua análise é fundamental para a sua adequada aplicação. Jason H. Moore: Bioestatística é uma disciplina formal que utiliza a matemática para realizar ponto de estimação e testes de hipóteses, com o objetivo de responder a problemas biológicos e biomédicos. Estimação pontual centra-se na estimativa precisa de parâmetros populacionais tais como média e variância ou outras medidas, como a inclinação de uma linha de regressão. O teste de hipóteses enfoca o processo formal de inferência a partir de testar uma hipótese nula sobre um ou mais parâmetros. Entender os conceitos e métodos básicos em bioestatística é fundamental para Clinical Chemistry laboratoristas clínicos e todos os outros em ciências biomédicas. Bioinformática é uma disciplina relativamente nova que combina bioestatística com ciência da computação para resolver os problemas biomédicos complexos. Bioinformática teve suas origens na década de 1970, quando a necessidade de armazenar, gerenciar e analisar os dados da seqüência do DNA surgiu. Em seguida, ele decolou na década de 1990 com a disseminação da internet e os computadores acessíveis. Grande parte da bioinformática é focada no desenvolvimento, avaliação e aplicação de novas bases de dados e algoritmos computacionais para a análise de dados de alta dimensão de tecnologias como sequenciamento de DNA e espectrometria de massa. Este foco em ciência da computação e suas muitas subdisciplinas, tais como a aprendizagem de máquina e visualização, são o que é bioinformática além de bioestatística. No entanto, os bons bioinformáticos são capazes de integrar métodos biostatisticos de som em suas estratégias analíticas. Ambos bioestatística e bioinformática são críticas para o ambiente de laboratório clínico. Por exemplo, amostras de DNA clínicos de sequenciamento podem requerer métodos bioestatísticos formais para QC enquanto seria necessária bioinformática para armazenar os dados brutos, seguida pela integração com bases de dados clínicos ou de investigação. Em laboratórios de análises clínicas, as tecnologias de microarranjo e NGS representam ferramentas de diagnóstico conhecidas para gerar grandes quantidades de dados. Quais são algumas das opções para análise de dados, armazenamento e de significado? Elizabeth Chao: Laboratórios clínicos abrigam infraestruturas de computação de TI internos para interpretar e transmitir grandes quantidades de dados. Os fornecedores podem oferecer soluções que oferecem uma grande variedade de soluções de armazenamento e computação de alto desempenho para atender às necessidades de laboratório exclusivos. Jill M. Hagenkord: Microarranjos de citogenômica geram em torno de um gigabyte de dados e seqüenciamento do genoma inteiro gera em torno de um terabyte. No entanto, é raro que nós sempre precisamos voltar para os dados brutos e é Q&A suficiente, na minha opinião, para armazenar dados processados. Os dados processados por um genoma humano inteiro é apenas alguns gigabytes, que se torna financeiramente razoável para armazenar. Além disso, a Mãe Natureza já descobriu a forma mais barata para armazenar genomas-ele é chamado DNA. Então, é realmente mais barato para armazenar os arquivos de dados processados para amostras clínicas, em vez de os dados brutos e, em seguida reprocessar o DNA nas raras ocasiões em que é necessário fazê-lo. É um modelo diferente do que estamos acostumados no laboratório clínico, mas mantém o espírito dos requisitos de retenção de dados a partir de amostras clínicas. Outra consideração é a de armazenar dados genômicos na nuvem crua ou processada e acessá-lo remotamente para escrever relatórios, conforme necessário. O relatório final vai para o histórico médico do paciente, mas os dados genômicos residem em um seguro banco de dados, Health Insurance Portability e Accountability de 1996 (HIPAA). Se alguém quiser minimizar os custos, armazenar o DNA em seu freezer da clínica e colocar os dados processados em armazenamento a frio na nuvem. Tina Hambuch: Há muitas opções disponíveis e o desafio é identificar quais delas são as mais adequadas. Isso vai depender de como o laboratório particular está tentando usar os dados e quais perguntas estão sendo feitas. Dito isto, a padronização em torno de certos formatos, como BAM (alinhamento binário / mapa) ou VCF (formato chamada variante), vai melhorar muito as coisas. Para armazenamento de dados, usamos Isilon (EMC) e para a análise dos dados, um motor de grade Sun (cluster de computação). Enquanto alguns pacotes de software comerciais estão se tornando disponíveis, usamos um conjunto de programas e scripts personalizados. Jason M. Moore: Duas das ferramentas mais utilizadas para análise da sequência de DNA são Galaxy e CLC Genomics Workbench. Galaxy é um pacote de software livre baseado na web que inclui dezenas de ferramentas de análise para a manipulação de seqüência de DNA, QC, o alinhamento, a detecção de variantes, análise estatística, etc. Ele rapidamente se tornou um dos recursos principais para a análise da sequência de DNA. CLC Genomics Workbench é um pacote de software comercial, que tem grande parte da mesma Clinical Chemistry funcionalidade com uma interface gráfica do usuário muito mais intuitiva. Apesar de caro, CLC Genomics Workbench é muito acessível para não bioinformatas. O que é a "Nuvem"? É essa opção de armazenamento de dados adequado para laboratórios regidas por restrições financeiras, HIPAA e outras questões regulatórias? Elizabeth Chao: A nuvem oferece fácil acesso e distribuição de dados e capacidades de processamento. É irrestrito geograficamente, permitindo que seus serviços estejam disponíveis em todos os momentos. Além disso, é uma solução de negócio rentável que visava intensificar as capacidades de armazenamento e processamento em resposta às necessidades da empresa. Esta ideia é mais explorada quando se compara capacidades de rede de nuvem privada e pública. A principal diferença é a infra-estrutura de acolhimento que pré determina a transmissão e processamento de dados. Infra-estrutura pública usa a World Wide Web para se comunicar e é inerentemente um risco do ponto de vista da tecnologia da informação. Uma equipe de suporte de tecnologia da informação na empresa responsável pela salvaguarda dos dados, por outro lado, apoia a infra-estrutura privada. Este último exige rigorosos programas de segurança da informação a ser postos em prática. Jill M. Hagenkord: Uma maneira fácil de conceituar a nuvem é pensar Yahoo Mail ou Gmail. Estes são os serviços de e-mail baseado na web que rodam em servidores remotos usando software remoto. À medida que o usuário final, você não precisa instalar ou manter tanto o hardware ou o software. A nuvem permite que os usuários finais utilizem (e paguem) apenas a largura de banda que eles precisam enquanto aprecia as economias de escala proporcionados pelo modelo de "usuário comum". Software, TI, especialistas em centro de segurança de dados e cuidar da tecnologia na nuvem para que, no caso dos laboratórios hospitalares, os usuários finais podem se concentrar em usar a informação genômica para o atendimento ao paciente. Regulamentações HIPAA introduziram alguns obstáculos interessantes para o cloud computing, mas eles não são insuperáveis. Por exemplo, para manter a conformidade HIPAA, os dados não devem deixar o solo do US; nem sempre é transparente para o usuário final, onde a nuvem é, em Q&A determinado momento. Esta é apenas uma das muitas maneiras que a genómica baseada em conjuntos de teste de políticas de conformidade de ontem sobre as suas cabeças. Tente interpretar '88 CLIA no contexto de uma fábrica operando genoma clínico compatível! No entanto, há muitas opções que podem ser aproveitados na implementação de soluções de cloud computing. Serviços como Nuvens Privadas Virtuais, criptografia e controle de acesso pode ser aproveitado para construir HIPAA e outras soluções de regulamentação conformes. Atualmente muitos serviços em execução na produção sobre a nuvem que preencham esses requisitos. Genômica e Cloud computing vai continuar a amadurecer e ganhar aceitação e vão ser parte da paisagem futuro da medicina genômica. Como profissionais de laboratório, precisamos estar cientes das políticas regulatórias vigentes e garantir que nossas soluções omics estão aderindo a estas orientações, assim como nós educar os decisores políticos sobre o que pode ser mais apropriado para o teste genômico. Tina Hambuch: Nós estamos explorando isso, mas existem preocupações significativas em torno HIPAA. Em última análise, eu acho que vai permitir a exploração e utilitário otimizado da informação que é gerada, mas no curto prazo, há muitos desafios significativos em matéria de segurança de dados e capacidade de compartilhá-los de forma adequada. Jason H. Moore: A computação em nuvem é um serviço de armazenamento e análise de dados que é oferecido através da internet. Entidades públicas ou privadas vendem o acesso ao seu hardware de computação e armazenamento de dados de alto desempenho para os usuários que estão geograficamente distribuídos em toda a internet. A vantagem deste modelo é que você não precisa para manter os recursos de computação em si mesmo e pagar apenas para os serviços que você usa. Para um laboratório de análises clínicas, isto pode significar usando a nuvem para todas as necessidades de armazenamento de dados. Você pagaria pelo gigabyte e duração de tempo que você deseja que os dados sejam armazenados. O que você recebe é o armazenamento de dados barato com alguma redundância que protege contra a perda de dados devido a falhas de hardware. É claro, o lado negativo é que os dados que deixa a sua instalação pode não atender às suas normas de privacidade e segurança. Uma vez que os dados estão no servidor de outra Clinical Chemistry pessoa, você não tem mais controle sobre a sua protecção. Muitos laboratórios clínicos não estão dispostos a correr esse risco neste momento. Em março de 2012, o Instituto de Medicina (IOM) publicou um relatório sobre a validação de conjuntos de dados gerados por meio de testes de alta complexidade e posterior análise (Evolution of Translational Omics). Quais são seus pensamentos sobre a reprodutibilidade das análises de bioinformática e como laboratórios de análises clínicas pode evitar as questões problemáticas apresentadas no relatório? Elizabeth Chao: A reprodutibilidade das análises de bioinformática tem sido uma questão emergente com a rápida introdução da genómica em trabalho clínico. É reconfortante que tanto a OIM e o Colégio Americano de Genética Médica (ACMG) escolheu para abordar estas práticas tão rapidamente. ACMG coloca diante de declarações políticas e estão trabalhando ativamente sobre as orientações específicas para toda-exome e de todo o seqüenciamento do genoma. Como líderes e pioneiros neste campo, a nossa empresa contou com benchmarks internos de confiabilidade e reprodutibilidade, que são mais rigorosos do que aqueles no atual relatório da OIM. Dito isto, temos o prazer que essas normas mínimas vão estar no local para garantir maior padronização no futuro. O investimento necessário para chegar a esta fase não deve ser esquecido, e é mais do que vale a pena. Jill M. Hagenkord: Existem diferentes tipos de ensaios de genômica, alguns mais transparentes do que os outros. Padrões de expressão podem ser particularmente opacos para o utilizador final, e variáveis devem ser rigorosamente controladas para obter resultados consistentes. Além disso, estes tipos de ensaios requerem validade de utilidade de cuidadosos estudos clínicos, bem como a validação técnica. Outros tipos de ensaios de genômica têm saída mais familiar. Por exemplo, uma matriz de citogenômica que produz um cariograma, mostrando uma deleção do cromossoma 13q14 no DNA a partir de células tumorais de um paciente com leucemia linfocítica crônica. Embora existam complexos algoritmos que convertem o ADN interrompido no in silico cariograma, a representação dos dados é familiar (um cromossoma) e corresponde a nossa compreensão Q&A da biologia dos tumores de leucemia linfocítica crônica, a qual fornece um pouco de uma verificação de sanidade. Porque matrizes citogenômicas usadas dessa forma são apenas um método alternativo para detectar alterações com significado clínico estabelecido, validação técnica e / ou estudos de rendimento diagnóstico pode ser suficiente. Patologistas clínicos e cientistas de laboratório submetidos a anos de treinamento para validar os testes para o uso clínico. Nós abraçamos a padrões muito elevados a este respeito. Bioinformática será parte do projeto, validação, aplicação e interpretação dos testes desenvolvidos em laboratório daqui para frente. Laboratórios clínicos que oferecem testes genômicos precisa ter bioinformatas clínicos intimamente envolvidos no processo e em comunicação estreita e constante com o pessoal de testes de laboratório e diretores médicos. Os algoritmos e saídas precisam ser validados e controle de versão como parte do teste desenvolvido em laboratório. Tina Hambuch: Reprodutibilidade é fundamental para a precisão dos dados, e nós certamente avaliamos a reprodutibilidade em nossas validações técnicas do nosso software de bioinformática. É possível conseguir, mas não pode ser assumido. Jason H. Moore: Laboratórios clínicos são por design extremamente cuidadosos para evitar erros nas suas medições. Muitas salvaguardas e freios e contrapesos foram postas em prática para se certificar de que os dados clínicos são confiáveis e precisos, pois o atendimento ao paciente depende dele. Dados Omics são inerentemente menos confiáveis devido à natureza da tecnologia de alta produtividade, tais como a sequenciação de ADN. Além disso, os dados de genômica em grande escala muitas vezes exigem muitas rodadas de processamento para produzir informações úteis. Informações úteis são então convertidas em conhecimento através da aplicação de diferentes métodos de análise de bioinformática e bioestatística. Cada etapa do gasoduto da análise do QC para análise e interpretação final pode gerar erros não intencionais. Por exemplo, muitos métodos de aprendizado de máquina tem várias definições que cada um pode ter grandes efeitos sobre os resultados. É fácil de mal especificar e misreport um ambiente de tal forma que os resultados são inválidos e / ou posteriormente não replicáveis. Há um movimento no campo da Clinical Chemistry bioinformática, e ciência da computação de modo mais geral, para fornecer o software e as configurações exatas que foram usadas com um conjunto de dados específico para gerar resultados publicados. Qualquer pessoa deve ser capaz de baixar tanto os dados e o software e facilmente reproduzir um achado. A cultura de dados e metodologia de partilha tem sido lento para mudar, mas é necessário se quisermos acreditar nos resultados publicados. Esta é uma outra boa razão pela qual é fundamental para laboratoristas clínicos para ter um conhecimento de trabalho de ambas bioinformática e bioestatística. Se você tivesse apenas um recurso disponível para educar-se sobre bioinformática, o que seria e por quê? Elizabeth Chao: O campo da bioinformática evolui mais rápido do que recursos educacionais atuais. Portanto, a entrada global de pesquisadores e líderes no campo referenciam novos métodos de análise de dados e continua a ser um recurso educacional primário. Isso se traduz diretamente para assistir a conferências locais e nacionais e juntando oradores em várias universidades, bem como ter reuniões pessoais com especialistas na área. Jill M. Hagenkord: Essa é uma pergunta difícil. Eu não acho que alguém poderia aprender o que eles precisam saber para a genômica clínica de uma única fonte. Mas, dito isto, eu acho que a melhor maneira de aprender é fazendo. Sociedades profissionais devem realizar oficinas para os membros interessados e estagiários devem apresentar casos genômicos publicamente disponíveis em conferências de caso em uma base regular. Muitas empresas genômicas e fornecedores de software têm conjuntos de dados publicamente disponíveis para propósitos educacionais, se a sua instituição ainda não está oferecendo testes genômicos. Eu tive a sorte de me manter em estreita proximidade com muitos bioinformatas muito inteligentes para ajudar a esclarecer dúvidas sobre algoritmos e inconsistências aparentes na representação dos dados. Laboratoristas clínicos precisam fazer um esforço para obter-se educados e conectados a bioinformatas e ser paciente e manter seu senso de humor, enquanto os profissionais médicos e bioinformatas aprenderem a se comunicar uns com os outros. Tenho inúmeras histórias engraçadas Q&A sobre o quão difícil pode ser para um médico e um bioinformata para se comunicar. Tina Hambuch: Realmente não há um único recurso bom. O campo é talvez demasiado diversificado e também muito incipiente. Ele também é complexo o suficiente para que as pessoas precisem de formação abrangente que vai além de um único livro ou um site. Além disso, recursos e infra-estrutura de computação são necessários para aprender neste campo. Jason H. Moore: O pacote de software de programação estatística R é um foco ideal para aprendizado de bioinformática. R é de código aberto e disponível gratuitamente e será executado em sistemas operacionais Linux, Mac e Windows. A vantagem de R é que se tornou rapidamente o pacote de software de análise bioinformática primário. Isto é em parte porque ele é livre, mas também porque é extensível. Muitos bioinformatas libertam os seus novos métodos como pacotes dentro de R que qualquer um pode baixar e usar imediatamente. Há uma extensa documentação online e uma coleção de ferramentas de bioinformática em um pacote chamado biocondutor. A curva de aprendizado inicial de R é um pouco íngreme. No entanto, o tempo investido vale bem as portas que sabendo R é aberta. R agora inclui pacotes para qualquer coisa que você gostaria de bioinformática e bioestatística. Notas de Rodapé 6 Abreviaturas não padronizadas: NGS, Sequenciamento de última geração; HIPAA, Ato de 1996 de Health Insurance Portability and Accountability; IOM, Instituto de Medicina; ACMG, Colégio Americano de Genética Médica. Contribuições Autor: Todos os autores confirmaram que têm contribuído para o conteúdo intelectual deste trabalho e que tenham cumprido os três requisitos seguintes: (a) contribuições significativas para a concepção e design, aquisição de dados, ou análise e interpretação dos dados; (b) elaboração ou revisão do artigo para o conteúdo intelectual; e (c) a aprovação final do artigo publicado. Divulgações dos autores ou potenciais conflitos de interesse: Após o envio do manuscrito, todos os autores preenchido o formulário de divulgação autor. Divulgações e / ou potenciais Clinical Chemistry conflitos de interesse: Emprego ou Liderança: E. Chao, Ambry Genética; J. M. Hagenkord, invitae Corporation; T. Hambuch, Illumina. Consultor ou papel consultivo: Nenhum declarado. Da propriedade: T. Hambuch, Illumina. Honorários: Nenhum declarado. Q&A O financiamento da pesquisa: Nenhum declarado. Prova Pericial: Nenhum declarado. Patentes: Nenhum declarado. Recebido para publicação 01 de maio de 2013. Aceito para publicação em 09 de maio de 2013. © 2013 A Associação Americana de Química Clínica