Kapitel 6: Pathway-Datenbanken - Abteilung Datenbanken Leipzig

Transcrição

Kapitel 6: Pathway-Datenbanken - Abteilung Datenbanken Leipzig
Kapitel 6: Pathway-Datenbanken
n
Pathway – biochemische Reaktionswege
n
Pathway: Folge von biochemischen Reaktionen, meist einer oder mehreren Funktion(en) im Organismus zugeordnet
n
Grobeinteilung der Pathways in
Motivation und biologische Grundlagen
− Metabolische Pfade
− Stoffwechselwege (metabolic pathways)
− Regulatorische Pfade
n
− Regulatorische Pfade (regulatory pathways)
Pathway-Datenbanken und ihre Anwendung
− Anforderungen
n
Metabolische Pfade
− Gesamtheit aller (lebens)notwendigen biochemischen Vorgänge beim Aufbau, Abbau und Umbau
eines Organismus sowie dessen Stoffaustausch mit der Umwelt
− KEGG
− EcoCyc/BioCyc
− 2 grundlegende Stoffwechselvorgänge: 1. Assimilation/Anabolismus (Photosynthese, Chemosynthese, Verdauungsprozesse); 2. Dissimilation/Katabolismus (Atmung, Gärung)
n
Regulatorische Pfade
− Regulation der Genexpression (genetic networks, genetic-regulatory pathways)
− Signalwege (signalling pathways, signal-transduction cascades)
(C) Prof. R. Müller, Prof. E. Rahm
6-1
Metabolische Pfade:
Bsp. Glykolyse
n
6-2
(C) Prof. R. Müller, Prof. E. Rahm
Enzymatische Reaktion
Schritt 3der Glycolyse –Phosphofructokinasekatalysiert
PhosphorylierungvonFructose-6-phosphat:
fructose-6-phosphate+ATPÆfructose-1,6-bisphosphate+ADP
Zuckerabbau; wichtiger energieliefernder
Prozess
Edukt
Coedukt
(C) Prof. R. Müller, Prof. E. Rahm
6-3
(C) Prof. R. Müller, Prof. E. Rahm
Produkt
Enzym Coprodukt
6-4
Substanzen/
Metabolite
Hierarchie der Enzyme: E.C. - Code
n
Standardisierter Code zur Klassifizierung der Enzyme (IUBMB Enzyme Nomenclature Commitee)
n
Codierung: Oxidoreduktasen (1), Transferasen (2), Hydrolasen (3), Lyasen (4), Isomerasen (5), Ligasen (6).
n
Bsp.: Phosphofructokinase, E.C. 2.7.1.11, gehört zur Enzymklasse der Transferasen (2)
Regulatorische Pfade: Bsp. p53-Signalweg
E
C
C
o
d
eB
e
d
e
u
tu
n
g
2
2
.7
2
.7
.1
2
.7
.1
.1
1
E
n
z
y
m
e
,d
ief
u
n
k
tio
n
e
lleG
r
u
p
p
e
n
ü
b
e
r
tr
a
g
e
n
E
n
z
y
m
ea
u
s2
,f
k
t.G
r
u
p
p
e
=
P
h
o
s
p
h
a
tg
r
u
p
p
e
E
n
z
y
m
ea
u
s2
.7
,m
ita
lk
o
h
o
lis
c
h
e
rG
r
u
p
p
ea
lsA
k
z
e
p
to
r
P
h
o
s
p
h
o
f
r
u
c
to
k
in
a
s
e
6-5
(C) Prof. R. Müller, Prof. E. Rahm
Pathway-Datenbanken
n
E c o C yc
h t t p : / / e c o c y c . o rg /
E s c h e ric h ia c o li K -1 2 g e no m e , m e ta b o lic p a thw a ys ,
tra ns p o rte rs a nd g e ne re g ula tio n
E NZ YME
http://w ww .ex pas y .c h/enz y m e/
E nzym e no m e nc la ture
EpoDB
h t t p : / / w w w . c b il. u p e n n . e d u / E p o D B /
G e ne s e xp re s s e d d uring hum a n e rythro p o ie s is
K lo tho
h t t p : / / w w w . ib c . w u s t l. e d u / k lo t h o /
C o lle c tio n a nd c a te g o riza tio n o f b io lo g ic a l c o m p o und s
KEGG
h t t p : / / w w w . g e n o m e . a d . jp / k e g g
M e ta b o lic a nd re g ula to ry p a thw a ys
L IG A ND
h t t p : / / w w w . g e n o m e . a d . jp / lig a n d /
C he m ic a l c o m p o und s a nd re a c tio ns in b io lo g ic a l
p a thw a ys
M e taC yc
h t t p : / / e c o c y c . o rg /
Spezifische Anforderungen
UMB B D
http://um bbd.ahc .um n.edu/
− Rechnerverwertbare Darstellung/Modellierung der Pfade und Netzwerke (erweiterte Datenmodelle; z.B. graphbasiert)
P athD B
h t t p : / / w w w . n c g r. o rg / p a t h d b
P R O D O R IC
h t t p : / / p ro d o ric . t u -b s . d e
− Methoden zur Visualisierung
R e g ulo nD B
h t t p : / / w w w . c ifn . u n a m . m x / C o m p u t a t i
o n a l_ G e n o m ic s / re g u lo n d b /
− Standards für den Datenaustausch
U M -B B D
http://um bbd.ahc .um n.edu/
W IT 2
h t t p : / / w it . m c s . a n l. g o v/ W IT2 /
Motivation
− "Lexikon der Biochemie" in Praxis, Lehre und Forschung
− Identifizierung potentieller Angriffspunkte für Arzneimittel (drug targets)
− Vorhersage von Stoffwechselwegen sequenzierter Organismen (Beispiel BioCyc)
n
Pathway-Datenbanken: Übersicht
M e ta b o l i c P a th w a y s a n d C e l l u l a r R e g u l a ti o n
Inhalt einer Pathway-Datenbank
− Strukturierte Informationen über biochemische Reaktionswege, Einzelreaktionen, beteiligte Enzyme und Substrate
n
6-6
(C) Prof. R. Müller, Prof. E. Rahm
− Algorithmen zur Pathway-Analyse
M e ta b o lic p a thw a ys a nd e nzym e s fro m va rio us
o rg a nis m s
C ura te d info rm a tio n o n m ic ro b ia l c a ta b o lis m a nd re la te d
b io tra ns fo rm a tio ns
B io c he m ic a l p a thw a ys , c o m p o und s a nd m e ta b o lis m
P ro k a ryo tic d a ta b a s e o f g e ne re g ula tio n a nd re g ula to ry
ne tw o rk s
E s c h e ric h ia c o li tra ns c rip tio na l re g ula tio n a nd o p e ro n
o rg a niza tio n
M ic ro b ia l b io c a ta lytic re a c tio ns a nd b io d e g ra d a tio n
p a thw a ys
Inte g ra te d s ys te m fo r m e ta b o lic m o d e ls
a u s : T h e Mo le c u la r B io lo g y D a ta b a s e C o lle c tio n : 2 0 0 3 u p d a te , N u c le ic Ac id s R e s e a rc h , 2 0 0 3 , Vo l. 3 1 , N o . 1 1 -1 2
(C) Prof. R. Müller, Prof. E. Rahm
6-7
(C) Prof. R. Müller, Prof. E. Rahm
6-8
Beispiel KEGG *
Zusammenhang mit anderen biologischen
Datenbanken
Pathway-Datenbanken
EnzymDatenbanken
LiteraturDatenbanken
ProteinDatenbanken
Chemische
Datenbanken
Genom-Datenbanken
* Kyoto Encyclopedia of Genes and Genomes
6-9
(C) Prof. R. Müller, Prof. E. Rahm
KEGG
n
Kyoto Encyclopedia of Genes and Genomes*
n
Umfangreiche Datenbanksammlung des japanischen GenomeNet-Service zu Pathway-Informationen
n
KEGG/PATHWAY-DB
− enthält alle bekannten Stoffwechselwege
− Auswahl regulatorischer Pathways
n
Methoden und Tools für Berechnungen und Analysen
(C) Prof. R. Müller, Prof. E. Rahm
6 - 10
KEGG: Pathway-Hierarchie
Metabolism
Carbohydrate Metabolism
Energy Metabolism
Lipid Metabolism
Nucleotide Metabolism
Amino Acid Metabolism
Metabolism of Other Amino Acids
Metabolism of Complex Carbohydrates
Metabolism of Complex Lipids
Metabolism of Cofactors and Vitamins
Biosynthesis of Secondary Metabolites
Biodegradation of Xenobiotics
Genetic Information
Processing
Transcription
Translation
Sorting and Degradation
Replication and Repair
Environmental
Information Processing
Membrane Transport
Signal Transduction
Ligand-Receptor Interaction
Cellular Processes
Cell Motility
Cell Growth and Death
Cell Communication
Development
Behavior
Human Diseases
Neurodegenerative Disorders
* http://www.genome.ad.jp/kegg
(C) Prof. R. Müller, Prof. E. Rahm
6 - 11
(C) Prof. R. Müller, Prof. E. Rahm
6 - 12
KEGG: Metabolische Übersichtskarten
Metabolische Übersichtskarten
Pathways
des Kohlenhydrat-Stoffwechsels
graphische Übersicht zum Stoffwechselnetz
(C) Prof. R. Müller, Prof. E. Rahm
KEGG: Einstiegsseite
in KEGG
6 - 13
(C) Prof. R. Müller, Prof. E. Rahm
KEGG: Suchbeispiel 1
(C) Prof. R. Müller, Prof. E. Rahm
6 - 15
6 - 14
KEGG: Suchbeispiel 1 (2)
(C) Prof. R. Müller, Prof. E. Rahm
6 - 16
KEGG: Suchbeispiel 2
(C) Prof. R. Müller, Prof. E. Rahm
6 - 17
KEGG: Suchbeispiel 2 (2)
KEGG: Suchbeispiel 2 (3)
KEGG: XML-Darstellung
n
(C) Prof. R. Müller, Prof. E. Rahm
6 - 19
6 - 18
(C) Prof. R. Müller, Prof. E. Rahm
KGML (KEGG Markup Language)
(C) Prof. R. Müller, Prof. E. Rahm
6 - 20
KEGG: Beispiel für pathogenen Pfad
KEGG: Interne Darstellung
n
Graphorientiertes Modell
Node
Graph
Edge
Gene
6 - 21
KEGG: Interne Darstellung (2)
(C) Prof. R. Müller, Prof. E. Rahm
6 - 23
GENES
Protein-coding
gene
Sequence similarity
(orthology, paralogy, etc.)
SSDB
Gene
Adjacency
GENES,
GENOME
Gene
Expression similarity
EXPRESSION
Gene or gene
product
Interaction or relation
BRITE
Protein
network
Gene product or
subnetwork
Direct protein-protein interaction
Gene expression relation
Enzyme-enzyme relation
PATHWAY
Chemical
universe
Chemical
compound
Chemical
compound
Gene universe
(C) Prof. R. Müller, Prof. E. Rahm
Database
(C) Prof. R. Müller, Prof. E. Rahm
COMPOUND
Chemical reaction
REACTION
6 - 22
KEGG: Interne Darstellung (3)
(C) Prof. R. Müller, Prof. E. Rahm
6 - 24
KEGG: Interne Darstellung (4)
KEGG: Pfad-Deduktion
n
Verwendung der deduktiven Datenbank CORAL*
n
Probleme
− Aufsplitterung der Abhängigkeitsgraphen in Relationen (vermehrte Notwendigkeit von Joins)
− Zyklenerkennung
* http://www.cs.wisc.edu/coral/
6 - 25
(C) Prof. R. Müller, Prof. E. Rahm
(C) Prof. R. Müller, Prof. E. Rahm
EcoCyc
n
Encyclopedia of Escherichia coli Genes and Metabolism
n
Pathway/Genom-Datenbank (PGDB)
6 - 26
BioCyc: Datenbanken
− Enthält das vollständig sequenzierte Genom und die metabolischen sowie regulatorischen Pathways des E. coli-Bakteriums
n
Rechnergestützte Analysemethoden
n
Teil der BioCyc* Knowledge Library (Datenbanksammlung zu Mikroorganismen)
mit ca. 15 Datenbanken
n
Datenpflege
− 5 hauptamtliche Curators
− Hauptinformationsquellen: Bio-Literatur, Generierung von Pfaden auf der Basis von Gensequenzen
− Korrektur ggf. durch Forchungsgruppen
− Vierteljährliche Releases
* http://BioCyc.org/
(C) Prof. R. Müller, Prof. E. Rahm
6 - 27
(C) Prof. R. Müller, Prof. E. Rahm
6 - 28
EcoCyc: Datenmodell
n
Ca. 1000 Klassen, die Schlüsselkonzepte der Biochemie und Molekularbiologie codieren, z.B. 'Pathways', 'Compounds', 'Genes'
n
Ca. 200 Slots (Attribute), die Eigenschaften und Relationen zwischen den Klassen
beschreiben, z.B. Slot 'REACTION-LIST' eines 'Pathway'-Objektes
n
Frame-Wissensrepräsentationssystem (via Lisp)
EcoCyc: Pathway-Taxonomie
n
Vererbungshierarchie:
− ähnlich einem OODBS
− Web of frames': Frame = ein einzelnes biologisches Objekt (z.B. Gen, Protein), beschrieben durch
seine Eigenschaften (Slots)
− Vernetzung zwischen den Frames durch Slots, die semantische Relationen beschreiben, z.B. Protein x = Genprodukt von Gen y
(C) Prof. R. Müller, Prof. E. Rahm
6 - 29
(C) Prof. R. Müller, Prof. E. Rahm
EcoCyc:
Lisp-Frame
(C) Prof. R. Müller, Prof. E. Rahm
•P a th w a y s
•E n e rg y m e ta b o lis m
•S u p e r-P a th w a y s
•A m in o a c id fa m ilie s
•B io sy n th e s is
•C a rb o h y d ra te s
•C e ll-s tru c tu re s
•M u re in s a c c u lu s
•S u rfa c e s tru c tu re s
•F a tty a c id s a n d lip id s
•C o fa c to rs , p ro s th e tic g ro u p s , e le c tro n c a rrie rs
•N u c le o tid e s
•R ib o n u c le o tid e s
•p u rin e s a n d p y rim id in e s
•2 '-d e o x y rib o n u c le o tid e s
•P o ly a m in e s
•A m in o a c id b io sy n th e s is
•A m in o a c id fa m ilie s
•In d iv id u a l a m in o a c id s
6 - 30
EcoCyc: Datenmengen
6 - 31
(C) Prof. R. Müller, Prof. E. Rahm
6 - 32
EcoCyc: Beispiel-Suche
(C) Prof. R. Müller, Prof. E. Rahm
6 - 33
EcoCyc: Beispiel-Suche (2)
(C) Prof. R. Müller, Prof. E. Rahm
EcoCyc: Beispiel-Suche (3)
(C) Prof. R. Müller, Prof. E. Rahm
6 - 35
6 - 34
EcoCyc: Beispiel-Suche (4)
(C) Prof. R. Müller, Prof. E. Rahm
6 - 36
EcoCyc:
Übersicht
EcoCyc: Tools
n "Karten" für
z
PathoLogic
z Prediction of metabolic network from genome
z Computational creation of new Pathway/Genome Databases
z
Pathway/Genome Editors
z Distributed curation of PGDBs
z Distributed object database system, interactive editing tools
z
Pathway/Genome Navigator
z WWW publishing of PGDBs
z Querying, visualization of pathways, chromosomes, operons
z Analysis operations
Gesamtstoffwechsel
n Überlagerung
mit anderen
Spezies
‹
‹
z
6 - 37
(C) Prof. R. Müller, Prof. E. Rahm
Pathway visualization of gene-expression data
Global comparisons of metabolic networks
Bioinformatics 18:S225 2002
(C) Prof. R. Müller, Prof. E. Rahm
EcoCyc: Tools (2)
6 - 38
EcoCyc: Architektur
zAllegro Common Lisp
zQuery,
visualization and editing tools for
these datatypes:
Metabolic Map
Paint gene expression data on metabolic
network; compare metabolic networks
zPathways
z Pathway prediction
zReactions
z Balance checker
zCompounds
z Chemical substructure comparison
zEnzymes, Transporters, Transcription
Factors
zGenes: Blast search
zChromosomes
zOperons
z Operon prediction
zSun and PC platforms
zFull
z
(C) Prof. R. Müller, Prof. E. Rahm
zOcelot object database
z250,000 lines of code
zLisp-based WWWserver at BioCyc.org
z Manages 15 PGDBs
6 - 39
(C) Prof. R. Müller, Prof. E. Rahm
6 - 40
EcoCyc: Architektur (2)
WWW
Server
Pathway
Genome
Navigator
X-Windows
Graphics
GFP API
Object Editor
Pathway Editor
Reaction Editor
EcoCyc: Architektur (3)
z
Persistent storage via disk files, Oracle DBMS
z Concurrent development: Oracle
z Single-user development: disk files
z Read-only delivery: bundle data into binary program
z
Oracle storage
z DBMS is submerged within Ocelot, invisible to users
z Relational schema is domain independent, supports multiple KBs
simultaneously
z Frames transferred from DBMS to Ocelot
‹
‹
Object DBMS
Oracle
‹
‹
(C) Prof. R. Müller, Prof. E. Rahm
6 - 41
On demand
By background prefetcher
Memory cache
Persistent disk cache to speed performance via Internet
(C) Prof. R. Müller, Prof. E. Rahm
EcoCyc: WWW-Server
6 - 42
Weitere Quellen zu Pathway-Datenbanken
n
The BioPathways Consortium,
− http://www.biopathways.org/
n
Pacific Symposium on Biocomputing
− http://psb.stanford.edu/
n
ASM/TIGR Conference on Microbial Genomes
− http://www.tigr.org/conf/mg/index.htm
n
International Conference on Systems Biology 2004
− http://www.icsb2004.org/
− GLIM (Generalized Interactive Modelling): Software für Datenauswertung und -visualisierung
(C) Prof. R. Müller, Prof. E. Rahm
6 - 43
(C) Prof. R. Müller, Prof. E. Rahm
6 - 44
Zusammenfassung
n
Motivation und biologische Grundlagen
− Metabolische Pfade
− Regulatorische Pfade
n
Pathway-Datenbanken und ihre Anwendung
− Anforderungen
− KEGG
− EcoCyc
n
Spezifische Problematik
− Abbildung der Netzwerke (Aufsplitterung der Abhängigkeitsgraphen in Relationen versus OOKonzepte)
− Visualisierung
− Zyklenerkennung
(C) Prof. R. Müller, Prof. E. Rahm
6 - 45

Documentos relacionados