Bioinformatik II: Phylogenetik

Transcrição

Bioinformatik II: Phylogenetik
Bioinformatik II: Phylogenetik
phylogenetisch
Phylai:
griechische Klans
phylum:
der Stamm
phylogenetisch:
die Stammesgeschichte
von Lebewesen
betreffend
Hierarchien der Klassifikation:
Domäne: Eukaryonten
Reich: Gewebetiere
Stamm: Wirbeltiere
Klasse: Säugetiere
Ordnung: Primaten
Familie: Menschenaffen
Gattung: Menschen
Art: Homo Sapiens
Phylogenetische Vergleiche
Stammbäume
Charles Darwin (1859): The Origin of Species by Means of Natural Selection
Baum des Lebens
Doolittle, W. F. (1999): Science 284, 2124-2128
Busch des Lebens
Doolittle, W. F. (1999): Science 284, 2124-2128
Orthologe und Paraloge
gemeinsamer
Vorläufer
Genduplikation
Organismus
-evolution
Sequenzevolution
Orthologes Gen
(Protein hat
gleiche Funktion)
Paraloges Gen
Pseudogen
(Protein hat
(funktionsloses
verwandte, aber Gen, kein Protein)
andere Funktion)
Die COG-Datenbank
COG: cluster of orthologous groups
The current method to classify orthologous sequences
from different genomes is the construction of COGs
Roman
Tatusov
Eugene
Koonin
David
Lipman
Voraussetzung: komplette Genome
reverse
forward
Arcanobacterium
haemolyticum
RNA
GC-content
GC-skew
III: Sequenzvergleiche alles mit allem
II: Ermitteln aller best hits (BeTs)
Gene aus Genom 1
BeTs in
genome 2
BeTs in
genome 1
Genes aus Genom 2
III: Bestimmung aller
minimaler COGs
IV: Zusammenführen
aller minimaler COGs
V: Trennen von COGs
mit Genfusionen
Cluster aus Proteinsequenzen
Cluster aus Proteindomänen
Cluster of orthologous Groups (COG)
Proteinsequenzen kategorisiert
nach ihrer Funktion
Beispiel eines typischen COGs
Vorhersage funktioneller
Verbindungen I: Genfusionen
rosetta stone
sequence
Vorhersage funktioneller
Verbindungen II: Genetische Umgebung
Vorhersage funktioneller
Verbindungen II: Genetische Umgebung
Multifunktionales Enzym:
Tryptophan Synthase
Vorhersage funktioneller
Verbindungen II: Genetische Umgebung
Vorhersage funktioneller
Verbindungen II: Genetische Umgebung
Vorhersage funktioneller
Verbindungen III:
Physikalische Interaktion
Proteine, die mit ras interagieren
Yeast two hybrid screen
Reaktion der β-Galaktosidase
Vorhersage funktioneller
Verbindungen III: Vorkommen
yes
yes
yes
yes
yes
yes
yes
yes
yes
no
no
no
yes
yes
no
yes
no
yes
yes
yes
no
yes
no
yes
yes
yes
yes
yes
yes
no
no
no
no
yes
no
no
Phylogenetisches Muster:
Tryptophan Biosynthese
Phylogenetisches Muster:
Thermophile
Phylogenetisches Muster:
thermophilenspezifische Proteine
Anzahl der mesophilen Organismen im COG (von 53)
Anzahl der thermophilen Organismen im COG (von 13)
0
13
1
3
COG1618 COG3635
12
COG1980
11
COG1581 COG1350
COG1888 COG1909
10
COG1110
9
2
COG1318
COG1630
COG2250
4
5
COG1355 COG2078
COG1371
COG1144 COG1730 COG1503
COG1820
COG1867
Einzige Zelle, die ohne Ausnahmen
analysiert würde
Phylogenetisches Muster:
COG ranking
Phylogenetisches Muster:
COG ranking
Zuordnung der Organismen
entweder zur Gruppe A (A)
oder zur gruppe B (B) oder
oder zu keiner Gruppe (I)
Für jedes COG wird durch die Software ein Spezifitätsindex
berechnet. Dies ist ein Maß für die Eigenschaft eines COGs,
ausschließlich Proteine aus Organismen der Gruppe A zu enthalten.
Alle COGs werden
gemäß ihrer Spezifitätsindices gerankt
Der Spezifitätsindex
wird für jeden COG wie folgt berechnet:
Addieren einer Konstanten A für jedes
Protein aus einem Organismus der
Gruppe A (Belohnung)
und
Subtraktion einer Konstanten B für
jedes Protein aus einem Organismus
der
Gruppe B (Strafe)
wobei
Ages
A= B
ges
B
B = Ages
ges
Atot: Anzahl aller Organismen in Gruppe A
Btot: Anzahl aller Organismen in Gruppe B
Danach werden alle S-Werte auf Werte
zwischen 0 und 1 Normalisiert
Beispiel I:
Archaeae-spezifische COGs
Beispiel I:
Ergebnis
Beispiel II:
Atmungskette Komplex I Untereinheit 1
Ergebnis:
Atmungskettenproteine
Beispiel III:
Thermophilenspezifisch
Ergebnis:
Thermophilenspezifische Proteine
(THEPs)
Vorhersage funktioneller
Verbindungen V: Koexpression
Expression: Northern Blot
Vorhersage funktioneller
Verbindungen V: Koexpression
Microarray I: printing
Microarray III: Auswertung
Vorhersage funktioneller
Verbindungen V: Koexpression