Introdução ao SRS – Sequence Retrieval System
Transcrição
Introdução ao SRS – Sequence Retrieval System
Introdução ao SRS – Sequence Retrieval System Marcelo Falsarella Carazzolle Resumo • • • • • • Motivação Introdução Bancos de Dados Ferramentas de bioinformática SRS Exemplos Motivação • Existem muitos bancos de dados de informações biológicas e com diferentes enfoques : – – – – NCBI KEGG EMBL ... • Muitos dados são redundantes nos diferentes bancos e muitas vezes desconectados • Existem muitas ferramentas de bioinformática disponíveis na WEB : – Algumas são online : – Clustalw – Blast – Primer3 – Outras que necessitam de instalação local : – Emboss – Generunner Introdução • SRS é uma programa que : – Gerencia bancos de dados : – Eliminando a redundância – Conectando-os através dos arquivos de índices – Permitindo realizar consultas por : • Palavra chave • Similaridade em sequências (blasts) – Permite rodar programas de bioinformática online em : • Sequências resultantes das consultas • Sequências próprias – Permite armazenar em projetos : • Resultados das consultas • Resultados das análises dos programas – Permite trabalhar via WEB http://downloads.biowisdomsrs.com/publicsrs.html Bancos de dados do SRS • EMBL : Nucleotide Sequence Database – http://www.ebi.ac.uk/embl/ – Dividido em : – Emblcontigs : repositório de sequências formadas a partir de montagens (contigs) de genomas completos e anotados – Emblwgs : repositório de contigs gerados por shotgun, mas de projetos em andamento – Embltpa : repositório de sequências, já existentes no banco, mas que foram modificadas ou re-anotadas – Formas de consulta : – Palavra chave – Blasts • UNIPROT : Universal Protein Resource – http://www.pir.uniprot.org/ – Dividido em : – Swiss-Prot : Banco de dados de sequências de proteinas anotadas manualmente – TrEMBL : Banco de dados de sequências de proteinas anotadas automaticamente – Uniref100/90/50 : Bancos não redundantes, no qual as sequências são agrupadas pela identidade sendo : Uniref100 (100%), Uniref90 (90%) e Uniref50 (50%). – Formas de consulta : – Palavra chave – Blasts • KEGG : Kyoto Encyclopedia of Genes and Genomes – http://www.genome.jp/kegg/ – Dividido em : – Pathway : vias metabólicas – Compound, Glycan e Reaction : compostos e reações químicas – Genes, SSDB e KO : Bancos de genes e proteínas ortólogas – Formas de consulta : – Palavra chave – Blasts • PFAM : Protein Families database of alignments and HMMS (hidden Markov models) – http://www.sanger.ac.uk/Software/Pfam/ – Dividido em : – Pfam-A : alinhamentos múltiplos curados (alta qualidade) – Pfam-B : alinhamentos múltiplos automáticos (baixa qualidade) – Formas de consulta : – Palavra chave – Blasts • Prosite : banco de dados de famílias de proteinas e domínios, possui padrões e perfis que ajudam a identificar regiões de domínios em sequências desconhecidas (http://us.expasy.org/prosite/) • OMIM : banco de dados de genes humanos e mutações genéticas (http://www3.ncbi.nlm.nih.gov/omim) • PDB : banco de dados de estruturas tridimensionais de proteínas (http://www.rcsb.org/pdb/) Arquivos de índices : arquivos responsáveis pela conexão entre os banco de dados. Exemplo : Pfam-A : 7.500 entradas Id Ac Description Interpro Band_7 PF01145.12 SPFH Domain IPR001107 ... ... ... ... Interpro : 11.972 entradas Ac Description ... Uniprot IPR001107 The band 7 ... ... 026788 IPR001107 The band 7 ... O61491 Uniprot : 2.000.000 entradas EntryName Identifier Sequence Reference O26788 Y816TREPA AAAATT... ... O61491 FM20AHuma TTTGGG... ... Ferramentas de bioinfo • Clustalw : Programa para alinhamento múltiplo de sequências de DNA ou proteínas (http://www.ebi.ac.uk/clustalw/) • Prositesearch : Programa que identifica padrões em sequências de proteínas. Utiliza o banco de dados prosite (ftp://ftp.seqnet.dl.ac.uk/pub/hilbers/prositesearch ) • HMMER : pacote de programas que utilizam Hidden Markov Model para identificar regiões gênicas utilizando um banco de genes conhecidos e modelos estatísticos (http://hmmer.wustl.edu/ ) • EMBOSS : Pacote de programas desenvolvidos para biologia molecular – http://www.uk.embnet.org/Software/EMBOSS/ – Dividido em : – Ferramentas de alinhamento – Ferramentas de visualização – Ferramentas de edição – Ferramentas de informação – Ferramentas de nucleotídeos – Ferramentas de proteínas – Ferramentas de filogenia SRS Quick Searches Inicia um projeto Palavra chave Escolha do banco Busca por código de identificação Blast search http://www.embnet.sk:8080/srs81 Query Builder Buscas mais específicas Palavra chave Tipo de informação desejada Refinando ... Refinando mais ... Se precisar escolher o campo da consulta Analysis Tools Ferramentas agrupadas por categoria Query Results Refina a consulta Resultado da consulta Relacionamento com os outros bancos de dados Ferramentas úteis Query Blast Results Conexões entre os diversos bancos de dados Ferramentas online Ferramentas de alinhamento entre sequências que permitem realizar montagens, análises de SNPs e gráficos de análises de similaridades Ferramentas úteis para edição de sequências Ferramentas de geração e análise de ORFs Desenho de primers Conectando ferramentas com as consultas FIM
Documentos relacionados
Instruções: Siga estas instruções para analisar os seus
4. Para o alinhamento das sequências pode se usar as seguintes ferramentas online: http://www.genone.com.br/sms2/ http://www.ch.embnet.org/software/LALIGN_form.html http://pbil.univ-lyon1.fr/lfasta...
Leia maisSistema web para identificação e busca de ilhas CPG na base
(dinucleotídeo CpG), e está presente principalmente em regiões promotoras dos genes (de Oliveira et al, 2010). A maior contribuição da ciência brasileira ao genoma humano foi trazida pelo Projeto G...
Leia maisTESE DE DOUTORADO Desenvolvimento das ferramentas
KEGG - Kyoto Encyclopedia of Genes and Genomes KO - KEGG Orthology (KEGG Ortologia) LCA - Lowest Common Ancestor (ancestral comum mais recente) LCAWS - Lowest Common Ancestor Web Service Mut - Meti...
Leia mais