Tutorial RPS-Blast e InterproScan

Transcrição

Tutorial RPS-Blast e InterproScan
Tutorial RPS-Blast e InterproScan
Observação:
As análises via web deverão ser feitas usando-se o navegador Firefox do seu
terminal. Não é necessário logar no servidor Seal. Utilize os links abaixo para baixar as
sequências:
http://www.coccidia.icb.usp.br/disciplinas/BMP5762/files/praticas/Eace_0074.fasta
http://www.coccidia.icb.usp.br/disciplinas/BMP5762/files/praticas/Eace_0951.fasta
As análises em linha de comando serão feitas no servidor Seal. Os dados estão no
subdiretório motifs do seu diretório.
RPS-BLAST
O RPS-BLAST é um programa do pacote BLAST que usa o algoritmo de “reverse
position-specific BLAST”. A seqüência consulta é comparada a uma matriz de escores
posição-específica (PSSM) preparada a partir de alinhamentos de domínios
conservados.
Marchler-Bauer A, Lu S, Anderson JB, Chitsaz F, Derbyshire MK, Deweese-Scott C,
Fong JH, Geer LY, Geer RC, Gonzales NR, Gwadz M, Hurwitz DI, Jackson JD, Ke
Z, Lanczycki CJ, Lu F, Marchler GH, Mullokandov M, Omelchenko MV, Robertson
CL, Song JS, Thanki N, Yamashita RA, Zhang D, Zhang N, Zheng C, Bryant SH.
(2011). CDD: a Conserved Domain Database for the functional annotation of
proteins. Nucleic Acids Res. 39(Database issue): D225-229.
Análise em servidores Web
1. Utilize o arquivo Eace_0074.fasta para as análises a seguir.
2. Aponte seu navegador web para um servidor CD-Search do NCBI
(http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi).
3. Submeta a seqüência do arquivo Eace_0074.fasta para uma busca contra a base
de dados CDD.
a. Que domínios foram identificados?
b. Clique no link no sinal + e observe o alinhamento.
c. Clique no link do PssmId para visualizar o alinhamento múltiplo
utilizado para gerar a PSSM.
d. Clique no botão “Search for similar domain architectures”, que irá
redirecioná-lo para o CDART: Conserved Domain Architecture Retrieval
Tool. Quantas arquiteturas diferentes você identificou?
4. Repita a análise com a seqüência Eace_0951.fasta.
a. Que domínio foi encontrado?
b. Qual a função desse domínio?
c. Vá para o CDART. Esse domínio é comum na arquitetura de muitas
proteínas? Qual a função dessas proteínas?
Análise em servidor local
5. Repita agora as análises com as duas seqüências usando a linha de comando:
rpsblast_plus -query arquivo_de_entrada -db
/usr/local/genome/databases/cdd/Cdd
-out arquivo_de_saida.txt
6. Abra os arquivos de saída e observe os resultados.
InterproScan
InterproScan é uma ferramenta que combina diferentes métodos de busca de
motivos/assinaturas protéicas em várias bases de dados de domínios e/ou famílias de
proteínas. Os resultados são apresentados de forma integrada e com referências cruzadas
às diferentes bases. Também são apresentadas referências cruzadas a termos de
ontologia gênica (GO).
Nicola J. Mulder, Rolf Apweiler, Teresa K. Attwood, Amos Bairoch, Alex Bateman,
David Binns, Peer Bork, Virginie Buillard, Lorenzo Cerutti, Richard Copley,
Emmanuel Courcelle, Ujjwal Das, Louise Daugherty, Mark Dibley, Robert Finn,
Wolfgang Fleischmann, Julian Gough, Daniel Haft, Nicolas Hulo, Sarah Hunter,
Daniel Kahn, Alexander Kanapin, Anish Kejariwal, Alberto Labarga, Petra S.
Langendijk-Genevaux, David Lonsdale, Rodrigo Lopez, Ivica Letunic, Martin
Madera, John Maslen, Craig McAnulla, Jennifer McDowall, Jaina Mistry, Alex
Mitchell,, Anastasia N. Nikolskaya, Sandra Orchard, Christine Orengo, Robert
Petryszak, Jeremy D. Selengut, Christian J. A. Sigrist, Paul D. Thomas, Franck
Valentin, Derek Wilson, Cathy H. Wu and Corin Yeats (2007) New developments in
the InterPro database. Nucleic Acids Res. 35 (Database Issue):D224-D228.
1. Use agora as duas seqüências protéicas para fazer uma busca com o programa
InterproScan. Para isso, aponte seu navegador web para o endereço
http://www.ebi.ac.uk/Tools/pfa/iprscan/.
2. Cole cada seqüência no formulário e submeta-a para uma busca.
3. Clique nas abas Summary Table, Tool Output e Visual Output. O que você
observa?
4. Que motivos foram encontrados em cada sequência?
5. No caso da sequência Eace_0074, aba Summary Output, que termos GO foram
associados à proteína?
6. Clique em um link de entrada InterPro e observe as seguintes informações:
a. Links para uma série de assinaturas de motivos protéicos: Pfam,
PRINTS, Prosite, Panther, PIR, etc.
b. Anotação de termos GO
c. Anotação do Interpro
d. Links para estruturas de proteínas de mesma função
e. Links para bases de motivos protéicos
f. Links para proteínas com interações protéicas conhecidas com a proteína
consulta
g. Cobertura taxonômica
h. Entradas Interpro com sobreposição
i. Exemplos de proteínas
j. Referências bibliográficas
7. Agora observe e anote os resultados para a proteína Eace_0951.
Análise em servidor local
8. Repita agora as análises com as duas seqüências usando a linha de comando. Ex:
iprscan -cli -i Eace_0951.fasta -iprlookup –goterms -o
saída_951.gff -format raw
-cli - Specify to the script to be used in command line mode. This same script is
also used as CGI script when configured web interface.
-i <seqfile> - Your sequence file (mandatory).
-o <output file> - The output file where to write results (optional)
-iprlookup - Switch on the InterPro lookup for results.
-format - (raw|xml|txt|ebixml|html) Output format (default xml).
-goterms - Switch on look up of corresponding Gene Ontology annotation
(requires -iprlookup option to be used too)
9. Caso queira uma saída em formato HTML, use o parâmetro -format html.
10. Abra os arquivos de saída e observe os resultados. Compare com aqueles obtidos
no servidor web do InterPro.

Documentos relacionados

sites de bioinformática - Rodrigo Mendes

sites de bioinformática - Rodrigo Mendes BANCO DE DADOS Genbank http://www.ncbi.nlm.nih.gov/ Banco de dados americano de seqüências de DNA e proteínas. EBI http://www.ebi.ac.uk/ Banco de dados europeu de seqüências de DNA. DDBJ http://www...

Leia mais