Ferramentas e métodos quantitativos para

Transcrição

Ferramentas e métodos quantitativos para
Ferramentas e métodos quantitativos para
utilização de informações genômicas no
melhoramento e em sistemas de produção
animal
Fernando F. Cardoso, Méd. Vet., PhD
Embrapa Pecuária Sul, Bagé/RS
TACG - Talking About Computing and Genomics
2 e 6 de setembro de 2013, Juiz de Fora, MG.
Sumário
• Antecedentes
• Objetivos
• Planos de ação
•
•
•
Objetivos específicos
Atividades
Resultados preliminares (caso disponíveis)
• Considerações finais
Pipelines disponíveis (RGAI)
• Pipeline controle de qualidade de genótipos
SNP
• Script R/SNPStats
• Pipeline para estudos de desequilíbrio de
ligação
• fastPHASE+Haploview (pipeline.versao1.linux.pl)
• Pipelines para seleção genômica e GWAS
• Script R + BLUPF90
• Pipeline para estudos de expressão gênica
• Script R/Bioconductor (affy + affyqcreport +
maanova/limma)
Avanços tecnológicos x novos desafios
para a equipe de métodos quantitativos
•
•
Novos chips de
genotipagem de alta e
baixa densidade
•
Affymetrix (650K)
•
Illumina (777K)
•
80K, 20K-LD
•
Sequenciamento
paralelo massivo de
moléculas de DNA
•
Resequenciamento
genômico
•
RNASeq
•
Ferramentas e métodos
para:
•
Imputação de genótipos
•
GWAS e Seleção
Genômica com Genótipos
HD e de resequenciamento
de DNA
•
Análise de expressão
gênica com dados de
sequenciamento de RNA
Aplicação prática dos
resultados nos programas
de melhoramento
genético
Objetivos gerais
•
Desenvolver, incorporar e aplicar ferramentas e
métodos quantitativos para análise de dados
genômicos obtidos pela nova geração de
tecnologias de seqüenciamento e genotipagem
em larga escala
•
Desenvolver e aplicar ferramentas, métodos e
estratégias para viabilizar o uso de informações
genômicas no melhoramento e sistemas de
produção animal
Planos de ação (PA)
PA2.6 –
Aplicações
práticas
PA2.2 –
Imputação e DL
M. Mudadu
(CPPSE)
PA2.1- Gestão
F. Cardoso
(CPPSUL)
PA2.3 – SG e
GWAS
M. Yokoo
(CPPSUL)
PA2.4 - RNASeq
P. Giachetto
(CNPTIA)
F. Cardoso
(CPPSUL)
PA2.5 – Ações
gênicas
complexas
R. HIGA
(CNPTIA)
PA2.1-Gestão (Fernando Cardoso
– CPPSUL)
Atividade
Resposável
Prazo
At. 2.1.1. Acompanhar atividades e enviar
relatórios parcias e final
F. Cardoso
12/2016
At. 2.1.2. Comunição interna da equipe e com os
demais membros da rede
F. Cardoso
12/2016
At. 2.1.3. Reunião técnica inicial do projeto
R. Higa
08/2013
At. 2.1.4. Reuniões e visitas técnicas de
acompanhamento no decorrer do projeto
F. Cardoso
12/2016
At. 2.1.5. Reunião técnica final do projeto
M. Yokoo
08/2016
PA 2.2 – Métodos e ferramentas
para imputação de genótipos e
estudos de desequilíbrio de
ligação
Maurício de A. Mudadu – CPPSE
[email protected]
PA 2.2. Objetivos específicos
1. Incorporar, adaptar e disponibilizar ferramentas
para estudos de desequilíbrio de ligação e
caracterização de blocos de haplótipos em
mapas densos de marcadores SNPs derivados
de genotipagem em alta densidade
2. Incorporar ferramentas e desenvolver
estratégias para inferir (imputar) genótipos
perdidos ou de marcadores não genotipados
em amostras com conjuntos mais esparsos de
SNPs
Desequilíbrio de ligação



Haplótipo é um conjunto de alelos
ligados em um cromossoma que
tendem a ser herdados em conjunto
Desequilíbrio de ligação (LD) é a
associação não aleatória de alelos em
dois ou mais loci
A
B
Q
a
B
q
Conhecimento de LD permite:



Estimar a acurácia para predizer o genótipo de um
lócus observando outro lócus
Inferir o tamanho efetivo de uma população
Delinear estudos de associação e esquemas de
seleção genômica mais efetivos
Equilibrio de Ligação
Associação aleatória entre marcador e QTL
Dekkers (2010)
Desequilibrio de Ligação
Associação não-aleatória entre marcador e QTL
Blocos e Haplótipos
Densidades de genotipagem
Bovine HD (770K)
~$200
Bovine SNP50 (50K)
~$85
Bovine LD (6K)
~$30
Imputação de genótipos –
reduzindo custos de genotipagem
Touro – 50K ou 777K
Vaca – 50K ou 777K
Progênie- 6K
•
Animais jovens genotipados para 6K ($30) e avaliados
com a informação equivalente a 50K ($85) ou 777K
($200)
Schenkel et al., 2012
Imputação de genótipos –
reduzindo custos de genotipagem
Touro – 50K ou 777K
Vaca – 50K ou 777K
Progênie- 6K
•
Animais jovens genotipados para 6K ($30) e avaliados
com a informação equivalente a 50K ($85) ou 777K
($200)
Schenkel et al., 2012
PA2.2- Imputação de genótipos e
estudos de desequilíbrio de ligação
(Maurício Mudadu – CPPSE)
Atividade
Resposável
Prazo
At. 2.2.1. Softwares e formatação de dados
provindos de genotipagem em larga escala
M. Mudadu
07/2014
At. 2.2.2. - Funcionalidades e comparar
desempenho entre softwares de imputação de
genótipos
Joaquim
Silva
(UNICAMP)
12/2016
At. 2.2.3. - Rotinas em R para cálculo de
desequilíbrio de ligação (r2), persistência de fase,
divergências de raças e tamanho efetivo de
população
J. Steibel
(MSU)
12/2015
At. 2.2.4 - Pipelines para construção de blocos de
haplótipos comparando diversas metodologias e
softwares
M. Cantão
12/2016
At. 2.2.5 - Imputação em gado nelore usando chips
de SNPs de alta densidade
G. Mourão
12/2016
At. 2.2.1 - Instalação de softwares e formatação de
dados provindos de genotipagem em larga escala
(Maurício A. Mudadu)
• Instalação dos softwares fastPhase, Phase, AlphaPhase,
AlphaImpute, MACH, Impute, Haploview, Plink e
SnpStat/R/Bioconductor serão instalados em servidor Linux da
Embrapa Pecuária sudeste e CNPTIA.
• Desenvolvimento de scripts para formatação de dados brutos
provindos de genotipagem em larga escala: Scripts e pipelines serão
desenvolvidos para formatar os dados brutos de genotipagem para
entrada nos softwares em questão.
• Confecção de tutoriais e manuais de instrução de uso.
Formato de dados inicial
Final Report
SNP_ID
Sample_ID
A/B
GC_Score
Formato LINKAGE
Arquivo pedigree
Map file:
•SNP ID
•Chr
•Position
Produtos At. 2.2.1
Scripts para formatação de dados brutos
Dados Brutos (Arquivo Final Report
Illumina)
Finalreport2ped.pl
Formato LINKAGE (pedigree)
snpStats/R
ped2fastphase.pl
ped2alphaimpute.pl
ped2beagle.pl
Haploview
Plink
FastPhase
AlphaImpute
AlphaPhase
Beagle
At. 2.2.2. - Verificar funcionalidades e comparar
desempenho entre softwares de imputação de
genótipos (Joaquim Manoel da Silva - Unicamp)
Final Report (chip 770K e 50K) – Canchim, Nelore, Braford,
outros...
Mascarar dados para chips LD: 3, 6Ped2alphaimpute_imputation.pl;
e 50K. Pop. referência?
ped2fastphase_imputation.pl; scripts em java.
Scripts para formatação dos dados para os softwares
Ver At. 2.2.1
Rodar Softwares: Fimpute, Beagle, FastPhase, AlphaImpute,
MACH, Impute2
Scripts para cálculo da Acurácia e velocidade
Relatório Técnico
Calc_sucesso_fastphase.pl;
calc_sucesso_aimpute.pl, scripts
em C++ e python.
Imputação no Braford & Hereford
100%
Imputation Accuracy (%)
98%
96%
94%
92%
90%
88%
86%
0
20
40
60
Number of animals
80
100
 Average accuracy 6K→50K = 96,5% (Fimpute)
 1,991 reference, 101 imputed
Silva et al., 2013
At. 2.2.3. - Desenvolvimento de rotinas em R para cálculo
de desequilíbrio de ligação (r2), persistência de fase,
divergências de raças e tamanho efetivo de população
(Juan P. Steibel - Michigan State University)
Incorporação de scripts e documentação já desenvolvidos:
LD_Estimate –
https://www.msu.edu/~steibelj/JP_files/LD_estimate.html
Desenvolvimento de script para tamanho efetivo de população
(Fernando F. Cardoso)
Utilizar nas análises dos PCs 3 (seleção genômica) e 4
(prospecção de genes e estudos de associação)
Incorporar no Galaxy
LD(r2) x distância entre marcadores
Conclusão:
• Necessitamos milhares de
marcadores (35.000-45.000)
• Distância média (~60000bp)
Persistência de fase x distância
Conclusão:
• Podemos utilizar os resultados
da raça Braford para selecionar
bovinos Hereford em distâncias
genômicas próximas
Tamanho efetivo de população
0
100
200
Ne
300
400
500
Braford
Hereford
0
10
20
30
Generation in the past, years
40
50
Interface Galaxy
At. 2.2.4. Desenvolvimento de pipelines para construção de
blocos de haplótipos comparando diversas metodologias e
softwares. (Maurício Egidio Cantão – CNPSA)
Dados Formato LINKAGE (.ped)
Construção da fase de ligação : AlphaImpute,
FastPhase, Beagle, FImpute
•Haploview (Gabriel et al., 4 gamete blocks; solid
spine blocks, splines).
•Plink: sliding window
•Verificar a eficiência dos softwares, número e
tamanho dos blocos
•Testar no QTL/MAS
At. 2.2.5. Testes de Imputação em gado Nelore usando
chips de SNPs de alta densidade
(Gerson Barreto Mourão – ESALQ)
Final Report (chip 770K) – Nelore (813 animais, meio-irmãos)
Mascarar dados para chips LD: 3, 6Ped2alphaimpute_imputation.pl;
e 50K. Pop. Ref.: touros
ped2fastphase_imputation.pl;
Scripts para formatação dos dados para os softwares
Ver At. 2.2.1
Rodar Softwares: Beagle, FastPhase, AlphaImpute
Scripts para cálculo da Acurácia e velocidade
Calc_sucesso_fastphase.pl;
calc_sucesso_aimpute.pl
“Accuracy of genotype imputation in a Nellore cattle population
in Brazil”
PA 2.3 – Métodos e ferramentas para
seleção genômica e estudos de
associação por todo o genoma utilizando
dados de sequenciamento de nova
geração
Marcos Jun-Iti Yokoo
(CPPSUL)
Objetivos específicos
1. Incorporar e desenvolver ferramentas e
métodos para estudos de seleção genômica
e prospecção de genes usando dados de
sequenciamento de nova geração
•
Modelos parcimoniosos e diferentes pressuposições para
estimar os efeitos dos marcadores
•
Métodos bayesianos serão adotados para incorporar o
conhecimento prévio da distribuição dos efeitos dos
marcadores nas estimativas
•
Estudos de assinatura de seleção
PA2.3- Seleção genômica e estudos de
associação por todo o genoma
(Marcos Yokoo – CPPSUL)
Atividade
Resposável
Prazo
At. 2.3.1. GWAS baseadas em marcador único
M. Yokoo
12/201
6
At. 2.3.2. GWAS baseadas em marcadores múltiplos e
seleção genômica.
F. Cardoso
12/201
6
At. 2.3.3. Assessoria estatística global em GWAS
M. Yokoo
12/201
6
At. 2.3.4. Assessoria estatística global em SG
M.V. Silva
12/201
6
At. 2.3.5. Poder estatísticos e delineamento de estudos
de associação por todo o genoma
Joseane
Silva
12/201
4
At. 2.3.6. Métodos para identificar assinaturas de
seleção
M.V. Silva
07/201
6
At. 2.3.7. Seleção genômica combinando fenótipo,
pedigree e marcadores baseada em um procedimento
I. Aguilar
(INIA-UY)
01/201
6
At. 2.3.1. Ferramentas para GWAS baseadas em
marcador único
Descrição: Nesta atividade serão elaborados e
implementados algoritmos e pipelines usando os
pacotes PLINK, GenABEL e QxPak, entre outros, para
utilização de dados moleculares em estudo de GWAS.
Estas ferramentas buscam estimar um marcador por vez e
mais o efeito poligênico. Estas ferramentas tem o
objetivo de auxiliar a atividade seguinte (At. 2.3.2.),
fazendo uma pré-seleção dos marcadores mais
significativos, de acordo com um limiar escolhido, para
proceder as próximas análises denominadas “Measured
Genotype”.
Andamento: GenABEL instalado e
testado no linux e no mac.
Responsável: MARCOS JUN ITI YOKOO
Data de Início: 01/01/2013
Data término: 12/2016
3
6
At. 2.3.2. Ferramentas para GWAS baseadas em
marcadores múltiplos e seleção genômica.
Descrição: Nesta atividade serão elaborados e
implementados algoritmos e ferramentas
utilizando usando BLUP e métodos Bayesianos
para utilização simultânea milhares de
marcadores SNP em estudos de associação por
todo o Genoma e para estimação de valores
genômicos.
Responsável: FERNANDO FLORES CARDOSO
Data de Início: 01/01/2013
Data término: 12/2016
Efeitos dos SNPs para resistência por
todo o genoma (ssGBLUP)
1


g

X
(
XX
)
u

G  XX / k
At. 2.3.3. Assessoria estatística global em
GWAS: análise de dados e interpretação de
resultados de experimentos de marcadores
moleculares do tipo SNP
Descrição: Nesta atividade as ferramentas
disponibilizadas pelo presente PA serão
utilizadas para análise estatística dos dados
de marcadores SNP e será dado suporte na
interpretação dos resultados para as
equipes do PC4.
Responsável: MARCOS JUN-ITI YOKOO
Data de Início: 01/01/2013
Data término: 01/2017
At. 2.3.4. Assessoria estatística global em
seleção genômica
Descrição: Esta atividade visa assessorar as
equipes do PC3 quanto aos procedimentos
estatísticos global em seleção genômica, no
quesito análise de dados e interpretação de
resultados de experimentos de marcadores
moleculares do tipo SNP.
Responsável: MARCOS VINICIUS GUALBERTO B SILVA
Data de Início: 01/01/2013
Data término: 01/2017
40
At. 2.3.5. Poder estatísticos e delineamento
de estudos de associação por todo o
genoma;
Descrição: Esta atividade em envolve o
delineamento e avaliação de poder
estatístico em estudos de associação por
todo o genoma, baseados tanto em
caracteres quantitativos como casos
controles.
Responsável: JOSEANE PADILHA DA SILVA
Data de Início: 01/01/2013
Data término: 01/2015
41
At. 2.3.6. Métodos para identificar
assinaturas de seleção
Descrição:Esta atividade objetiva entender a
filogenia da espécie, identificando alterações
em determinadas partes do DNA, pontos
conhecidos como polimorfismos de sítio único
(SNP) que servem como base para a
descoberta de marcadores de DNA, estudando
o equilíbrio de ligação. Estas análises podem
mostrar a diversidade genética entre as raças
ou linhagens
Responsável: MARCOS VINICIUS GUALBERTO B SILVA
Data de Início: 01/01/2013
Data término: 07/2016
42
At. 2.3.7. Seleção genômica combinando
fenótipo, pedigree e marcadores baseada em um
procedimento unificado
Pedigree
Dados
SNPs
ssGBLUP
DEP Genômica
Responsável: Ignacio Aguilar
Data de Início: 01/01/2013
Data término: 01/2016
43
Avaliação genômica de touros
Hereford e Braford
Touros Braford
Nome do Touro
Nascimento
Resistência ao Carrapato
Contagens1
DEPG (%)3
Genótipos 2
AC4
5
0,39 (65)
0
0,27
4
1,61 (95)
2
60
24
0,23
-1,27 (10)
0,55
PAMPIANO 38-A198
(CASA NOVA)
13
-1,26 (10)
0
0,31
4
-0,65 (26)
2
0,26
Nome no registro
ANGICO
Grau de
sangue
26/9/2006
CCG.120290
3/8
ARAGANO
2/10/2005
CCG.103191
BIG BROTHER
CCG.73647
3/8
21/9/2001
3/8
CASANOVA
29/8/1998
PS.58734
3/8
CAUDILHO
29/8/1998
CCG.103192
3/8
CATY 38 - E338
(CAUDILHO)
DON JUAN
CCG.115489
25/9/2006
3/8
GUATAMBU 38-F524
(DON JUAN)
2
0
-0,04 (15)
0,15
DOSEQUIS
EST.IA-B015
DUQUE
CCG.39122
28/3/2001
3/8
24/9/1997
CHADWICK DOWNS DOS
EQUIS
92
44
219
-0,44 (33)
0,59
-1,19 (12)
CHAPADA 38-852670
(FORMULA 1)
24
34
10
0,57
-1,17 (12)
0,49
PAMPIANO 38-1544
(GURI)
0
0
NA
NA
Registro
FORMULA -1
CCG.101292
1/4
15/10/2004
3/8
GURI
PS.15721
28/9/1993
3/8
CATY 38-F725 (ANGICO)
CATY 38-E219
(ARAGANO)
PITANGUEIRA 38-A252
(BIG BROTHER)
ALVORADA 14-T1724
(DUQUE)
PA2.4 - Métodos e ferramentas para análise de dados
de transcriptoma baseados em tecnologias de
sequenciamento de nova geração
Poliana Fernanda Giachetto
Embrapa Informática Agropecuária
Objetivos específicos
Incorporar e desenvolver ferramentas e métodos para
estudos de transcriptomas baseados em tecnologias de
sequenciamento de nova geração
Implementar análises que permitam uma otimização
dos resultados gerados com RNA-seq, para a obtenção
de informações biológicas que auxiliem na
compreensão
dos
problemas
abordados
nos
experimentos dos Planos de Ação do Projetos
Componentes 4.
* Todas as atividades com início previsto a partir de janeiro/2015
(após obtenção dos dados de RNA-Seq)
PA2.4- Análise de transcriptomas
baseadas em tecnologias de
sequenciamento de nova geração
(Poliana Giachetto – CNPTIA)
Atividade
Resposável
Prazo
At. 2.4.1. Identificação e utilização de ferramenta para
a análise de expressão alelo-específica a partir de
dados de RNA-seq
W. Arbex
07/201
6
At. 2.4.2. Identificação e implementação de métodos
para a reconstrução de redes gênicas regulatórias
P. Giachetto
07/201
6
At. 2.4.3. Aplicação da metodologia GSEA aos dados
de RNA-seq
R. Herai
(UNICAMP)
07/201
6
At. 2.4.4. Análise discriminante para dados de RNA-seq Glauber Vaz
(CNPTIA)
07/201
6
At. 2.4.5. Integração das atividades do PA2.4 com os
PAs de RNA-seq experimentais (PC4) e do PC1
12/201
6
P. Giachetto
At. 2.4.1. Identificação e utilização de ferramenta
para a análise de expressão alelo-específica a partir
de dados de RNA-seq (Wagner Arbex - CNPGL)
A expressão alelo-específica descreve uma situação onde os 2 alelos de um
gene são expressos em diferentes níveis e refletem uma mutação
regulatória em cis ou trans. SNPs heterozigotos serão analisados com
relação a expressão alelo-específica.
mapeamento, identificação dos SNPs heterozigotos e contagem dos alelos
uso de filtros e masking para reduzir viéses de montagem
análises estatísticas estimar o desbalanço alélico (Degner et al., 2009; EsteveCodina et al., 2011)
Status: em andamento
At. 2.4.2. Identificação e implementação de métodos
para a reconstrução de redes gênicas regulatórias
(Poliana F Giachetto - CNPTIA)
Identificação e implementação de métodos para a reconstrução de redes de
interação gênica. Diferente da análise de identificação de vias, que distribui
um conjunto de genes em vias biológicas previamente definidas (vias do
banco de dados KEGG, por exemplo), a reconstrução de redes pode levar a
descoberta de novos membros de uma via biológica.
metodologia baseada em co-expressão (WGCNA – Massa et al., 2011; Iancu et
al., 2013)
Status: em andamento
At. 2.4.3. Aplicação da metodologia GSEA aos dados
de RNA-seq (Roberto H. Herai - UCSD)
At 2.4.3 aplicação da metodologia GSEA (Gene Set Enrichment Analysis) aos
dados de RNA-seq. Aplicada a uma lista ordenada de genes
diferencialmente expressos, essa metodologia permite identificar se um
grupo pré-definido de genes (baseado em termos de GO, vias do KEGG)
difere entre 2 condições biológicas, com base na magnitude de expressão.
GSVA/R Bioconductor (Hanzelmann et al., 2013)
SeqGSEA/R Bioconductor (Wang & Cairns, 2013)
Status: não iniciada
At. 2.4.4. Análise discriminante para dados de RNAseq (Glauber José Vaz - CNPTIA)
Análise discriminante para análise de dados de RNA-seq. Aplicação de uma
metodologia que resulta na identificação de conjuntos de genes capazes de
discriminar os fenótipos sob estudo (biomarcadores)
LDA (Witten et al., 2011)
Status: não iniciada
At. 2.4.5. Integração das atividades do PA2.4 com os
PAs de RNA-seq experimentais (PC4) e do PC1
(Poliana F Giachetto - CNPTIA)
Integração das atividades do PA2.4 com os PAs de RNA-seq experimentais
(PC4) e do PC1
reuniões do CG e demais reuniões da equipe
workshops da RGAII
Status: em andamento
PA 2.5. Métodos e ferramentas para estudos
de identificação de ações gênicas mais
complexas e interações entre genes
Roberto H. Higa
(CNPTIA)
PA 2.5 – Objetivos específicos
Incorporar e desenvolver ferramentas e métodos para
estudos de identificação de ações gênicas mais complexas e
interações entre genes que afetam fenótipos de interesse nos
programas de melhoramento e sistemas de produção animal
» Interações alélicas (dominância e epistasia);
» Ações gênicas mais complexas, tais como CNVs, ...
PA2.5- Formas de ação gênica mais
complexas e interação entre genes
(Roberto Higa – CNPTIA)
Atividade
Resposável
Prazo
At 2.5.1 - Modelos lineares mistos para identificados
para análise de efeitos de dominância e epistáticos por
meio de estudos de simulação
R. Higa
08/201
4
At 2.5.2 - Estudos de efeitos de dominância baseados
em modelos lineares mistos.
M. Ledur
12/201
6
At 2.5.3 - Epistasia entre SNPs com efeito principal
significativo e outros SNPs
M. Ledur
12/201
6
At 2.5.4 - Pipelines e métodos para detecção de CNVs
a dados de estudo de associação baseados em SNPs
P. Giachetto
05/201
5
At 2.5.5 - Detecação de efeitos de epistasia baseados
em métodos de aprendizado de máquina
R. Higa
12/201
6
At 2.5.6 - Pipeline para métodos de associação que
considerem informações sobre mecanismos biológicos
e pathways que influenciam a característica estudada
R. Higa
12/201
6
At 2.5.7 - Incorporar os procedimentos desenvolvidos à
Ferramenta Galaxy.
A. Zerlotini
05/201
5
Atividades do PA 2.5
Aplicar MLM
com efeitos de
dominância
(2.5.2)
Avaliação por
simulação
(2.5.1)
Incorporar
procedimentos
ao Galaxy
(2.5.7)
QxPak (MLM)
epiSNPmpi
Aplicar MLM
com efeitos
epistáticos
(2.5.3)
Aplicar
Machine
Learning
(2.5.5)
MDR (qt)
Logic Regression
Pipeline para
GWAS - pathways
(2.5.6)
Dados reais
(aves - PC4)
Outros
dados reais?
PennCNV
Detecção de
CNVs
(2.5.4)
At. 2.5.4 - Fluxograma - CNVs
Metodologia: software PennCNV (Wang et al., 2010)
Arquivo bruto de intensidade de sinal Arquivo com coordenadas dos SNPs
Final Report.txt
SNP Map.txt
PFB file
+
LRR file
PennCNV software
CNV calls
At 2.5.4 – Dado de entrada
Final Report.txt
At 2.5.4 - Status
» Metodologia de identificação de CNVs pronta;
» Metodologia de processamento e CNVs em andamento.
» Prazo para conclusão: 05/2015.
At. 2.5.6 – GWAS baseado em Pathway
» Proposto no contexto de GWAS em humanos, tendo como pressuposto
que para doenças complexas variações individuais tem efeito marginal e
que após ajuste para múltiplos testes, associações fracas, mas
verdadeiras, é perdida;
» GWAS baseado em pathway testam o efeito de grupos de variações
genéticas que pertencem a uma mesma via biológica (ex: kegg e go).
» A suposição é que um maior poder resulta da contribuição (modesta) de
diversas mutações em diferentes genes.
Status: (i) foram definidas 4 análises baseadas em pathways
(literatura), sendo que a implementação (em R) da primeira está em
curso; (ii) foi criado banco de dados local para (mapeamento
snps/genes/pathways) para suporte às análises definidas no item (i).
At. 2.5.6 – Esquema da análise
NCBI e Kegg
BD
Local
Mapeamento
SNP-Gene-Pathway/GO
genótipos x fenótipos
Linear
Mixed
Model
GSEA
Weng et al.
BMC Bioinformatics (2011)
Random
Forest
SNP Ratio
O'Dushlaine etal.
Bioinformatics (2009)
Chung & Chen.
Plos One (2012)
Wang et al.
Bioinformatics (2011)
PA 2.6 - Ferramentas e estratégias de
inovação para os programas de
melhoramento e sistemas de produção
animal
Fernando F. Cardoso, Méd. Vet., PhD
Embrapa Pecuária Sul, Bagé/RS
PA 2.6 Objetivos específicos
•
•
Desenvolver e avaliar diferentes metodologias para integração
da informação genômica nos programas de melhoramento.
Testar por simulação e utilizando dados de populações reais,
diferentes estratégias de incorporação da informação
molecular,
•
•
•
•
•
Diferentes níveis de genotipagem em alta e baixa densidade,
seqüenciamento - imputação de genótipos
Diferentes estruturas populacionais (de descoberta, validação e
seleção)
Estrutura dos programas de melhoramento das diferentes espécies
Custos e benefícios (ganhos genéticos esperados) da inclusão
da genômica nos programas de melhoramento
Pipeline para determinação de paternidade, rastreabilidade,
certificação racial e identificação de híbridos a partir de painéis
de baixa densidade de SNPs em diferentes espécies
PA2.6- Genômicas nos programas
comerciais de melhoramento animal
(Fernando Cardoso – CPPSUL)
Atividade
Resposável
Prazo
At. 2.6.1. Métodos para combinar informações
genômicas e tradicionais nos programas de seleção.
M. Piccoli
12/201
4
At. 2.6.2. Estratégias de seleção combinando DEPs
genômicas e tradicionais em bovinos de corte
F. Cardoso
12/201
6
At. 2.6.3. Estratégias de seleção combinando DEPs
genômicas e tradicionais em bovinos de leite.
M.V. Silva
12/201
6
At. 2.6.4. Seleção de SNPs para painéis de
identificação de espécies e híbridos.
Joseane
Silva
12/201
5
At. 2.6.5. Seleção de SNPs para compor painéis de
seleção assistida por marcadores, determinação de
paternidade e rastreabilidade.
Joseane
Silva
12/201
6
At. 2.6.6. Predição da proporção de genes de cada
uma das raças fundadoras em animais cruzados
Patrícia
Biegelmeyer
12/201
4
At. 2.6.1. Métodos para combinar
informações genômicas e tradicionais
nos programas de seleção.
Estimação de valores de genômicos (GEBV)
Características da análise
• Nem todos os animais são genotipados
• Informação fenotípica histórica
• Múltiplas estimativas dos valores genéticos
Metodologia usada nas avaliações genéticas de
gado leiteiro envolve várias etapas:
1) Avaliação genética tradicional
2) Obtenção de pseudo-observações: valores desregressados
3) Estimação de efeitos de SNPs -> predições genômicas
4) Combinação de valores tradicionais e predições
genômicas
Desde janeiro 2009 implementado na avaliação
genética oficial nos EUA
Seleção genômica de múltiplas
etapas
Registros “Y”
Pedigree
BLUP
Pseudo Registros
VG Desregressados
SPA*w3
PA*w2
Van Raden et al, 2009
GEBV
SNPs
GEBV*w1
index
Valores genômicos
Modelo atual de seleção genômica
em gado de corte (Angus EUA)
Associação
F+P
Base dados: fenótipo (F)
+ pedigree (P)
Criadores
DEPgenômica
“DNA”
F+P
DEPgenômica
Pfizer/Igenity
AGI

valor molecular
Base dados: DNA +
genótipo + equação
predição
População de treinamento estática



Genótipos não são repassados aos produtores, somente valores moleculares
Animais selecionados não retroalimentam o sistema a medida que tem fenótipos
Acurácias vão decrescendo com o tempo
Adaptado de Carvalheiro, 2012
EBV aprimorados pela Seleção
Genômica
rg
Pedigree
Registros fenotípicos
Valores Moleculares
MT-BLUP
Blupf90
Valores genômicos
Macneil et al, 2010
Modelo de seleção genômica
proposto para o Hereford e
Braford
genótipo (G)
Empresa de
genotipagem
DNA
Associação de
Criadores/Raça
F + P + DNA
Base dados: fenótipo (F)
+ pedigree (P) +
genótipo (G) + DNA
DEPgenômica
F+P+G
DEPgenômica
Empresa de
avaliação genética
Criadores
Embrapa & Parceiros
Pesquisa, Desenvolvimento
e Inovação Tecnologica
Adaptado de Carvalheiro, 2012
Seleção Genômica em Uma Etapa
Pedigree
Registros “Y”
SNPs
Blupf90
Valores genômicos
Aguilar et al, 2010
At. 2.6.2. Estratégias de seleção combinando DEPs
genômicas e tradicionais em bovinos de corte
Cenário atual
1. “Atual” (Índices de DEP’s)
I = b PD + b PS+ b MUSC
$
1
2
3
Quando muda o lucro mudando 1Kg de peso
ao desmame
ΔG= Intensidade de seleção x acurácia x variabilidade Genética
Intervalo de gerações
Nos objetivos
At. 2.6.2. Estratégias de seleção combinando DEPs
genômicas e tradicionais em bovinos de corte
Novos cenários
2. Inclusão da resistência ao carrapato no objetivo
I = b PD + b PS+ b MUSC + b CARR
$
1
2
3
4
3. Genotipagem* + DEPG para objetivos de seleção
¢ PD + ¢ PS + ¢ MUSC + ¢CARR
=
g
g
I $ b1 g b2 g b3
b4
4. Genotipagem* seletiva + DEPG para Objetivos de
seleção
Aplica o índice cenário 3
• GENÔMICA
*Custo adicional - Genotipagem
Painéis de 50K
Painéis de 9K → Imputação
Número de animais no conjunto de calibração e
precisão da GEBV para Peso Desmama (PD), Peso
Sobreano (PS), Musculosidade (MUSC) e
Resistência para carrapato (RES)
rMG
0,1
PD
87
PS
65
MUSC
50
RES
77
0,2
360
270
208
318
0,3
855
641
493
754
0,4
1646
1235
950
1452
0,5
2881
2161
1662
2542
0,6
4862
3646
2805
4290
0,7
8304
6228
4791
7327
0,8
15366
11524
8865
13558
0,9
36848
27636
21258
32513
Esquema de Seleção
DESCARTE DESMAMA
• 50% machos selecionados
na desmama
• X% novilhas selecionas
para reposição das vacas
de descarte
• 50% machos
• 0 – 10% fêmeas
DESCARTE SOBREANO
a) Genotipar 25% dos machos
b) Genotipar 25% dos machos + fêmeas no sobreano
Estratégias de seleção
Parâmetros
genéticos
Estrutura de
população
Cenários de
melhoramento
QMSim
RScript
ΔG – I$ e objetivos
Custo marginal e
Retorno econômico
At. 2.6.6. Predição da proporção de genes de
cada uma das raças fundadoras em animais
cruzados
Estrutura de
população – a priori
SNPs
SNPStats
Plink
Structure
Duas populações
Proporções
raciais
Braford
Hereford
Nelore
Resultados
Descrição
PA
N
Metodologias para análises genômicas (imputação de genótipos,
identificação de indivíduos puros e híbridos em peixes, RNASeq,
poder estatístico em estudos de associação, ações gênicas mais
complexas)
2.22.6
12
Pipelines para análises genômicas (imputação de genótipos e
estudos de desequilíbrio de ligação, genética de populações, poder
estatístico em estudos de associação, ações gênicas complexas)
2.22.6
10
Ferramentas para seleção genômica e estudos de associação por
todo o genoma, incorporação de informações genômicas nos
programas comerciais de melhoramento animal e para análise de
dados de transcriptomas.
2.22.6
10
Considerações finais
• Essencial a efetiva interação e
desenvolvimento conjunto com o PC1 e PCs
finalísticos
• Reuniões presenciais e virtuais periódicas
• Workshops
• Necessita melhorar a disponibilização das
ferramentas disponíveis
• Interface online
• Tutoriais, exemplos
• Muitíssimo trabalho pela frente!
Muito obrigado!
[email protected]

Documentos relacionados

Apresentação do PowerPoint

Apresentação do PowerPoint PA 2.3 – Métodos e ferramentas para seleção genômica e estudos de associação por todo o genoma utilizando dados de MARCOS JUN ITI YOKOO sequenciamento de nova geração. PA 2.4 – Métodos e ferramenta...

Leia mais

Utilização da Genômica na Seleção de suínos

Utilização da Genômica na Seleção de suínos - são a forma mais frequente de variação genética (90%) - são extremamente abundantes nos genomas (amplamente distribuídos) Possibilidade de genotipagem em massa (SNP chip)

Leia mais