Introdução ao SRS – Sequence Retrieval System

Transcrição

Introdução ao SRS –
Sequence Retrieval System
Marcelo Falsarella Carazzolle
Resumo
•
•
•
•
•
•
Motivação
Introdução
Bancos de Dados
Ferramentas de bioinformática
SRS
Exemplos
Motivação
• Existem muitos bancos de dados de
informações biológicas e com diferentes
enfoques :
–
–
–
–
NCBI
KEGG
EMBL
...
• Muitos dados são redundantes nos diferentes
bancos e muitas vezes desconectados
• Existem muitas ferramentas de bioinformática
disponíveis na WEB :
– Algumas são online :
– Clustalw
– Blast
– Primer3
– Outras que necessitam de instalação local :
– Emboss
– Generunner
Introdução
• SRS é uma programa que :
– Gerencia bancos de dados :
– Eliminando a redundância
– Conectando-os através dos arquivos de índices
– Permitindo realizar consultas por :
• Palavra chave
• Similaridade em sequências (blasts)
– Permite rodar programas de bioinformática online em :
• Sequências resultantes das consultas
• Sequências próprias
– Permite armazenar em projetos :
• Resultados das consultas
• Resultados das análises dos programas
– Permite trabalhar via WEB
http://downloads.biowisdomsrs.com/publicsrs.html
Bancos de dados do SRS
• EMBL : Nucleotide Sequence Database
– http://www.ebi.ac.uk/embl/
– Dividido em :
– Emblcontigs : repositório de sequências formadas a
partir de montagens (contigs) de genomas completos e
anotados
– Emblwgs : repositório de contigs gerados por shotgun,
mas de projetos em andamento
– Embltpa : repositório de sequências, já existentes no
banco, mas que foram modificadas ou re-anotadas
– Formas de consulta :
– Palavra chave
– Blasts
• UNIPROT : Universal Protein Resource
– http://www.pir.uniprot.org/
– Dividido em :
– Swiss-Prot : Banco de dados de sequências de proteinas
anotadas manualmente
– TrEMBL : Banco de dados de sequências de proteinas
anotadas automaticamente
– Uniref100/90/50 : Bancos não redundantes, no qual as
sequências são agrupadas pela identidade sendo :
Uniref100 (100%), Uniref90 (90%) e Uniref50 (50%).
– Palavra chave
– Blasts
• KEGG : Kyoto Encyclopedia of Genes and Genomes
– http://www.genome.jp/kegg/
– Dividido em :
– Pathway : vias metabólicas
– Compound, Glycan e Reaction : compostos e reações
químicas
– Genes, SSDB e KO : Bancos de genes e proteínas
ortólogas
– Palavra chave
– Blasts
• PFAM : Protein Families database of alignments and
HMMS (hidden Markov models)
– http://www.sanger.ac.uk/Software/Pfam/
– Dividido em :
– Pfam-A : alinhamentos múltiplos curados (alta
qualidade)
– Pfam-B : alinhamentos múltiplos automáticos (baixa
qualidade)
– Palavra chave
– Blasts
• Prosite : banco de dados de famílias de proteinas e domínios,
possui padrões e perfis que ajudam a identificar regiões de
domínios em sequências desconhecidas
(http://us.expasy.org/prosite/)
• OMIM : banco de dados de genes humanos e mutações
genéticas (http://www3.ncbi.nlm.nih.gov/omim)
• PDB : banco de dados de estruturas tridimensionais de
proteínas (http://www.rcsb.org/pdb/)
Arquivos de índices : arquivos responsáveis pela conexão
entre os banco de dados. Exemplo :
Pfam-A : 7.500 entradas
Id
Ac
Description
Interpro
Band_7
PF01145.12
SPFH
Domain
IPR001107
...
...
...
...
Interpro : 11.972 entradas
Ac
Description
...
Uniprot
IPR001107
The band 7
...
...
026788
IPR001107
The band 7
...
O61491
Uniprot : 2.000.000 entradas
EntryName
Identifier
Sequence
Reference
O26788
Y816TREPA
AAAATT...
...
O61491
FM20AHuma
TTTGGG...
...
Ferramentas de bioinfo
• Clustalw : Programa para alinhamento múltiplo de
sequências de DNA ou proteínas
(http://www.ebi.ac.uk/clustalw/)
• Prositesearch : Programa que identifica padrões em
sequências de proteínas. Utiliza o banco de dados
prosite
(ftp://ftp.seqnet.dl.ac.uk/pub/hilbers/prositesearch )
• HMMER : pacote de programas que utilizam Hidden
Markov Model para identificar regiões gênicas
utilizando um banco de genes conhecidos e modelos
estatísticos (http://hmmer.wustl.edu/ )
• EMBOSS : Pacote de programas desenvolvidos para
biologia molecular
– http://www.uk.embnet.org/Software/EMBOSS/
– Dividido em :
– Ferramentas de alinhamento
– Ferramentas de visualização
– Ferramentas de edição
– Ferramentas de informação
– Ferramentas de nucleotídeos
– Ferramentas de proteínas
– Ferramentas de filogenia
SRS
Quick Searches
Inicia um projeto
Palavra chave
Escolha do banco
Busca por código
de identificação
Blast search
http://www.embnet.sk:8080/srs81
Query Builder
Buscas mais específicas
Palavra chave
Tipo de informação
desejada
Refinando ...
Refinando mais ...
Se precisar escolher o
campo da consulta
Analysis Tools
Ferramentas agrupadas
por categoria
Query Results
Refina a consulta
Resultado da
consulta
Relacionamento com os
outros bancos de dados
Ferramentas úteis
Query Blast Results
Conexões entre os diversos bancos de dados
Ferramentas online
Ferramentas de alinhamento entre
sequências que permitem realizar
montagens, análises de SNPs e
gráficos de análises de similaridades
Ferramentas úteis para
edição de sequências
Ferramentas de
geração e análise
de ORFs
Desenho de primers
Conectando ferramentas com as consultas
FIM

Introdução ao SRS – Sequence Retrieval System

Transcrição

Documentos relacionados

Instruções: Siga estas instruções para analisar os seus

View

Anotação Funcional de Sequências com BLAST2GO

Diapositivo 1 - Universidade de Évora

sequências aritméticas de ordem superior e aplicações

Visualizar soluções em PDF

Megaminx - 20M.com

TAXONOMIA E ESTUDO DE COMUNIDADES BACTERIANAS ERA

SEQUENCIAMENTO DE DNA PLASTIDIAL E ESTUDOS DE

Cabo Espichel, Cascais, Ericeira

MRI of the pelvis in women - final

A510 – 3102 - Kalunga.com

Alinhamento Simples

Sistematica e Taxonomia

4/11/14 1 Sequenciamento de genomas procariotos

Sistema web para identificação e busca de ilhas CPG na base

Desenvolvimento de ferramentas para elaboração de um

TESE DE DOUTORADO Desenvolvimento das ferramentas

Diversidade Morfológica e Molecular de - Campus Macaé