Desenvolvimento e aplicação de ferramentas de bioinformática em

Transcrição

Desenvolvimento e aplicação de ferramentas de bioinformática em
TACG
Projeto Componente 1
(Bioinformática)
Roberto H. Higa (Líder)
Juiz de Fora, 2 a 6 de setembro de 2013
Sumário
» Introdução
» Estrutura do projeto
» Ações Gerenciais
» Planos de Ação.
Motivação
http://www.genome.gov/sequencingcosts/
Motivação
Novas aplicações ...
» Ressequenciamento;
» Transcriptoma;
» Metagenômica;
» Etc.
Projetos
Componentes
Experimentais
da RGA II
Motivação
Novas aplicações ...
» Ressequenciamento;
Projetos
Componentes
Experimentais
da RGA II
» Transcriptoma;
» Metagenômica;
» Etc.
… mas
NextGenSeq geram um volume enorme de sequencias curtas de
DNA que precisam ser armazenadas e processadas /
analisadas.
RGA II
Objetivos
Objetivos
Estrutura
Precisamos nos estruturar para
lidar a infraestrutura necessária
para armazenamento dos
dados interagir com os PCs
experimentais para analisar
esses dados.
Fonte: http://thumbs.dreamstime.com/z/cebola-14960885.jpg
Estrutura
Laboratório Multiusuário de Bionformática
da Embrapa
Estrutura
PA 4 - Infra-estrutura
Laboratório Multiusuário de Bionformática
da Embrapa
PA 5
Metagenoma
PA 3
Comp. Reg.
PA 2
RNASeq
Genoma
Estrutura
PA 6
PA 4 - Infra-estrutura
Laboratório Multiusuário de Bionformática
da Embrapa
PA 5
Metagenoma
PA 3
Comp. Reg.
PA 2
RNASeq
PC 2
Métodos
Quant.
Genoma
Estrutura
PA 6
PA 4 - Infra-estrutura
Laboratório Multiusuário de Bionformática
da Embrapa
PC 7
Capacitação
Estrutura
PA 5
Metagenoma
PA 3
PC 4
Genes Inter.
Comp. Reg.
PA 2
RNASeq
PC 2
Métodos
Quant.
Genoma
PC 3
Sel. Genômica
PC 5
Novas Espécies
PA 6
PA 4 - Infra-estrutura
Laboratório Multiusuário de Bionformática
da Embrapa
PC 6
Metagenoma
PC 7
Capacitação
Equipe
Interações com PCs experimentais
Proposta:
Organização de reuniões temáticas com os responsáveis por
PAs dos PCs experimentais, precedidas por cursos de
análise de dados genômicos.
Temas:
» Transcriptoma
» Genoma (montagem)
» Metagenoma
Curso de análise de transcriptoma +
Reunião com PAs experimentais
Cps, 11, 12 e 13 de jun/2013
Próximos eventos
» Curso de análise de transcriptomas (24 e 25 de set) + reunião
entre equipes do PC1 e PC6 (26 e 27 de set), em Cps.
» Curso de montagem de genomas (15 e 16 de out) + reunião
entre equipes do PC1 e PCs 4 e 5 (17 de out), em Cps.
Próximos eventos
» Curso de análise de transcriptomas (24 e 25 de set) + reunião
entre equipes do PC1 e PC6 (26 e 27 de set), em Cps.
» Curso de montagem de genomas (15 e 16 de out) + reunião
entre equipes do PC1 e PCs 4 e 5 (17 de out), em Cps.
» Eventos estão sendo reagendados para o início de 2014.
» Reuniões serão mantidas, mas utilizando recurso de
videoconferência.
Reunião PC1-PC2
Cps, 21 e 22 de mai/2013
Disponibilização de Scripts
Repositório central
Galaxy
Scripts
https://www.snvserver.cnptia.embrapa.br/rga
Cópia local
Cópia local
Cópia local
TACG
Plano de Ação 1.4
(infraestrutura)
Leandro C. Cintra (Resp.)
Juiz de Fora, 2 a 6 de setembro de 2013
Objetivo
Solução de TI para armazenamento e gerenciamento de dados de
sequenciamento de nova geração e de genotipagem em larga
escala.
Projeto associado (Líder: Leandro Carrijo)
MP5 - Tecnologias para computação distribuída, armazenamento de
grandes volumes de dados e workflow científico, em suporte à
pesquisa agropecuária.
Atividades
Atividade
Responsável
Execução
At 1.4.1 - Definir e implantar uma solução para o
acesso e transferência fácil e seguro aos dados
armazenados no LMB
Adhemar
1/1/2013 a 30/6/2013
At 1.4.2 - Definir e implantar uma forma de
armazenamento padronizada para os dados no LMB
(política de dados)
Francisco
1/1/2013 a 31/12/2013
At 1.4.3 - Gerenciar a política de dados do LMB
Leandro
1/1/2014 a 31/12/2016
At 1.4.4 - Identificar e implantar uma arquitetura
econômica e tecnologicamente adequadas para o
armazenamento de grandes volumes de dados no
LMB
Leandro
1/10/2013 a 30/9/2014
At. 1.4.1 – Transferência de dados
» Objetivo “era” adotar um protocolo de transferência fácil e padronizar
(WebDav) de tal forma que o próprio “usuário” pudesse realizar a tarefa
de transferência.
» Testes mostraram que ele não funciona muito bem para transferência
de grandes volumes de dados.
Solução: ftp (depende da fonte de origem dos dados) + protocolo
(interno) de recebimento de dados.
At. 1.4.4 – Armazenamento
Infraestrutura atual do LMB
2 servidores IBM system x3850 X5:
»
512 GB e 1 TB de RAM + 8 processadores 6-core.
1 servidor HP system Proliant DL785 G6:
»
256GB de RAM + 4 processadores 6-Core.
1 storage IBM DS3512:
»
60 HDs Sata 2 TB com RAID5, 101 TB de espaço útil.
Sistema de backup:
»
Servidor SunFire X4440.
At. 1.4.4 – Armazenamento
Novas aquisições
1 servidor NUMA (non-uniform memory access):
»
2 TB de RAM + 128 núcleos.
1 cluster com 4 nós de processamento:
»
512GB de RAM + 64 núcleos (cada nó).
1 storage:
»
100 a 140 TB de espaço útil.
Resumo:
»
Capacidade de armazenamento 245 TeraBytes.
»
Capacidade de processamento: 8 TeraFlops
At. 1.4.2 – Política de Dados
Áreas /projects
At. 1.4.2 – Política de Dados
Banco de dados de genótipos
Perspectivas futuras
» Mapear processos de TI.
» Documentar esses processos.
» Implementar medições periódicas de acesso e uso.
» Atividade de organização lógica dos dados (At. 1.4.2).
Planos de Ação de Análise
Estabelecimento de
pipelines de análise
Aplicação dos
pipelines
(análises)
Fase 1
Fase 2
TACG
Plano de Ação 1.2
(montagem)
Francisco Lobo (Resp.)
Juiz de Fora, 2 a 6 de setembro de 2013
Objetivo
Desenvolvimento e disponibilização de pipeline(s) para montagem
de genomas.
Montagem de genomas dos experimentos dos PAs 3.xx e 5.xx
Atividades de construção de
pipelines
Diversos grupos de pesquisa têm procurado o LMB para
a colaboração em projetos-genoma
Consequentemente, tivemos que lidar com diversos
montadores para nos adequar aos diferentes dados de NGS;
No momento contamos com os seguintes montadores
instalados e testados:
» Newbler (1);
» MIRA;
» SOAPdenovo 1 & 2 (2);
» Velvet;
» AllPaths-LG (1);
Atividades de montagem de genomas
» PA 3.1 - Seleção genômica nas raças zebuinas leiteiras e sintéticas no
Brasil.
» PA 5.1 - Sequenciamento e montagem do genoma da Cachara
(Pseudoplatystoma reticulatum).
» PA 5.2 - Sequenciamento e montagem do genoma do tambaqui
(Colossoma macropomum)
» PA 5.3 - Sequenciamento e Montagem de Lentivirus Caprino.
Aguardando a chegada de dados
Direções futuras
Gerar rotinas computacionais para montagens híbridas;
Investir em software para etapas específicas da montagem;
• Read merge (FLASH);
• Scaffolding (bambus, SSPACE);
Disponibilização para a comunidade da Embrapa as pipelines
necessárias para a execução das pipelines (scripts shell,
arquivos de configuração, etc).
TACG
Plano de Ação 1.3
(RNASeq)
Felipe Rodrigues Silva (Resp.)
Juiz de Fora, 2 a 6 de setembro de 2013
Objetivo
Desenvolvimento e disponibilização de pipeline(s) para análise de
expressão diferencial de transcriptomas.
Análise dos dados dos experimentos dos PAs 4.xx e 5.xx.
Atividades de construção de
pipelines
Atividade
Responsável
Status
At 1.3.1 - Desenvolver e/ou adaptar procedimentos
para mapeamento dos fragmentos em sequencias de
referência
Adhemar
Top hat rodando no
Galaxy
At 1.3.2 - Desenvolver e/ou adaptar procedimentos
para divisão dos fragmentos por categorias gênicas
Francisco
Cufflinks rodando no
Galaxy
At 1.3.3 - Desenvolver e/ou adaptar procedimentos
para normalização dos dados
Felipe
Cufflinks rodando no
Galaxy
At 1.3.4 - Desenvolver e/ou adaptar procedimentos
para detecção da expressão gênica diferencial
Felipe
Cuffdif rodando no
Galaxy
Adhemar
Toda a análise
funcionando no
Galaxy
At 1.3.5 - Incroporar os procedimentos desenvolvidos à
Ferramenta Galaxy
At. 1.3.6 – Aplicar pipelines de análise
» PA4.02 - IntegrOssea- Identificação de genes associados a problemas
locomotores em frango de corte por meio de RNA-seq do fêmur .
» PA4.10 - VermCapr- Identificação de genes associados à resistência a
verminoses gastrintestinal em caprinos.
» PA 5.7 - Transcriptoma da glândula salivar do carrapato (Rhipicephalus
Boophilus microplus).
» PA 5.8 - Transcriptoma de isolados de Haemonchus contortus
provenientes de diferentes hospedeiros e em situações de tratamento
com antihelmínticos.
Aguardando a chegada de dados
TACG
Plano de Ação 1.5
(componentes regulatórios)
Poliana Fernanda Giachetto (Resp.)
Juiz de Fora, 2 a 6 de setembro de 2013
Objetivo
Identificar e implementar ferramentas de análise que contribuam para uma
melhor compreensão dos resultados gerados nos experimentos de
RNAseq previstos nos Planos de Ação dos Projetos Componentes 4 e 5.
Análise secundária.
Análise dos dados dos experimentos dos Pas 4.xx e 5.xx.
Atividades
RNA-Seq
PCs experimentais
Transcritos
GDE
PA1.3
Inferência função de
genes não anotados
At 1.5.3
Identificação de
miRNAs e genes alvo
At 1.5.2
Visualização
dos dados
At 1.5.4
Ferramentas no
Galaxy
At 1.5.5
Análise de
enriquecimento
At 1.5.1
At. 1.5.1
As listas de genes diferencialmente expressos identificados a partir dos
transcriptomas serão submetidas a uma análise de enriquecimento
funcional, como subsídio para a compreensão do(s) mecanismo(s)
biológico(s) objeto de estudo, baseada na super-representação de termos
de ontologia gênica e vias metabólicas.
metodologias consolidadas: Blast2GO (Conesa et al., 2005)
DAVID (Huang et al, 2009)
metodologias a serem testadas: plugins da plataforma Cytoscape (BINGO)
GOseq (Young et al., 2010)
software Ingenuity Pathways Analysis (www.ingenuity.com)
software Metacore
Prazo: out/2015
Status: em andamento
At. 1.5.2
Identificação de miRNAs e predição de genes alvos dos miRNAs
metodologias baseadas em homologia com miRNAs conhecidos
(miRBase)
metodologias ab initio, predição baseada na estrutura secundária de
moléculas de RNA
RNAfold (Hofacker et al., 2004)
Mireap (2008 - http://sourceforge.net/projects/mireap/)
Prazo: 10/2013
Status: em andamento
At. 1.5.3
uso de metodologias que permitam a análise dos transcritos não
anotados, para inferência de função
metodologia baseada em co-expressão (WGCNA – Iancu et al., 2013)
para predição da função de genes em função dos genes co-expressos
Prazo: 06/2013
Status: em andamento
At. 1.5.4
visualização da informação gerada pelas ferramentas de análise
Gbrowse (consolidado)
Trackster (Galaxy)
Jbrowse
Prazo: 12/2013
Status: GBrowse finalizado .
At. 1.5.5
At 1.5.5
incorporação dos procedimentos desenvolvidos à plataforma Galaxy
Prazo: 12/2013
Status: não iniciada
At. 1.5.6
aplicação dos procedimentos desenvolvidos nas atividades At 1.5.1 a At
1.5.5, em colaboração com as equipes dos PCs 4 e 5.
reuniões do CG e demais reuniões da equipe
workshops do projeto
Prazo: jan/2017
Status: em andamento
TACG
Plano de Ação 1.6
(metagenômica)
Maurício Egídio Cantão (Resp.)
Juiz de Fora, 2 a 6 de setembro de 2013
Descrição
Etapas das análises:
» Controle de Qualidade;
» Montagem;
» Predição e anotação gênica;
» Classificação taxonômica;
» Estudo de riqueza de diversidade;
» Comparação metagenômica.
Descrição
Etapas das análises:
Metodologias:
» Controle de Qualidade;
» Shotgun metagenômico;
» Montagem;
» Bibliotecas de rRNA 16S.
» Predição e anotação gênica;
» Classificação taxonômica;
» Estudo de riqueza de diversidade;
» Comparação metagenômica.
Plataformas de sequenciamento:
» 454 Roche;
» Illumina.
Experimentos (PC 6)
» PA 6.2 – Metagenômica de micro-organismos de ovinos morada nova;
» PA 6.3 – Metagenômica da glândula mamária de ovinos de corte;
» PA 6.4 – Caracterização do metagenôma do conteúdo cecal de
poedeiras e de corte;
» PA 6.5 – Metagenômica intestinal de frangos de corte e de suas
linhagens;
» PA 6.6 – Metagenômica de vírus respiratório de suínos;
» PA 6.7 – Estudo comparativo da microbiota do aparelho digestivo de
frangos decorte e da cama do aviário;
» PA 6.8 – Caracterização da microbiota presente em efluentes da
suinocultura e avicultura.
Estruturação das análises
At 1 - Procedimentos para processamento das reads
– 16S
- 454, Illumina (20%)
– Shotgun
- 454 (30%), Illumina
At 2 - Procedimentos para montagem metagenômicas
– Shotgun
- 454 (20%), Illumina
At 3 - Procedimentos para predição gênica
– Shotgun
- 454 (10%), Illumina
Estruturação das análises
At 4 - Procedimentos para anotação gênica
– Shotgun
- 454, Illumina
At 5 - Análise da diversidade de microbiotas
– 16S
- 454 (40%), Illumina
– Shotgun
- 454 (10%), Illumina
Estruturação das análises
At 6 - Análise comparativa de metagenomas
– 16S
- 454 (40%), Illumina
– Shotgun
- 454 (10%), Illumina
At 7 - Incorporar os procedimentos à Ferramenta Galaxy
– 16S
- 454, Illumina
– Shotgun
- 454, Illumina
Análises iniciadas
At 6.5 - Metagenômica intestinal de frangos de corte de duas
linhagens
• Resumo publicao no Congresso: X-meeting 2012;
• FURLAN, L. R.; CANTÃO, M. E.; GIACHETO, P. F.;
LUNEDO, R.; FERNANDES, C. C.; MACARI, M.
Quantitative analysis of the intestinal bacterial communities
in broiler chickens using qPCR and metagenomic analysis.
In: X-meeting, 2012, Campinas.
At 6.8 Caracterização da microbiota presente em efluentes da
suinocultura e avicultura
• Obtenção do sequenciamento em 454 e início das análises;
Perspectivas para 2013
- Finalizar os procedimentos para análises de sequências
metagenômicas produzidas por 454 amplicon 16S;
- Entregar os primeiros resultados do projeto “Caracterização da
microbiota presente em efluentes da suinocultura e avicultura”;
- Inserir os passos iniciais de análise de amplicon 16S pelo
programa Mothur na ferramenta Galaxy.
Situação Global
Obrigado!
» Adhemar Zorlotini Neto.
» Michel Eduardo Beleza Yamagishi.
» Felipe Rodrigues Silva.
» Paula Kuser Falcão.
» Francisco Lobo.
» Poliana Fernanda Giachetto (více
líder).
» Leandro Carrijo Cintra.
» Maurício Egídio Cantão
» Maurício Mudadu.
» Roberto Hirochi Herai (Colaborador)
» Roberto Hiroshi Higa (Líder)

Documentos relacionados