Kapitel 6: Pathway-Datenbanken - Abteilung Datenbanken Leipzig
Transcrição
Kapitel 6: Pathway-Datenbanken - Abteilung Datenbanken Leipzig
Kapitel 6: Pathway-Datenbanken n Pathway – biochemische Reaktionswege n Pathway: Folge von biochemischen Reaktionen, meist einer oder mehreren Funktion(en) im Organismus zugeordnet n Grobeinteilung der Pathways in Motivation und biologische Grundlagen − Metabolische Pfade − Stoffwechselwege (metabolic pathways) − Regulatorische Pfade n − Regulatorische Pfade (regulatory pathways) Pathway-Datenbanken und ihre Anwendung − Anforderungen n Metabolische Pfade − Gesamtheit aller (lebens)notwendigen biochemischen Vorgänge beim Aufbau, Abbau und Umbau eines Organismus sowie dessen Stoffaustausch mit der Umwelt − KEGG − EcoCyc/BioCyc − 2 grundlegende Stoffwechselvorgänge: 1. Assimilation/Anabolismus (Photosynthese, Chemosynthese, Verdauungsprozesse); 2. Dissimilation/Katabolismus (Atmung, Gärung) n Regulatorische Pfade − Regulation der Genexpression (genetic networks, genetic-regulatory pathways) − Signalwege (signalling pathways, signal-transduction cascades) (C) Prof. R. Müller, Prof. E. Rahm 6-1 Metabolische Pfade: Bsp. Glykolyse n 6-2 (C) Prof. R. Müller, Prof. E. Rahm Enzymatische Reaktion Schritt 3der Glycolyse –Phosphofructokinasekatalysiert PhosphorylierungvonFructose-6-phosphat: fructose-6-phosphate+ATPÆfructose-1,6-bisphosphate+ADP Zuckerabbau; wichtiger energieliefernder Prozess Edukt Coedukt (C) Prof. R. Müller, Prof. E. Rahm 6-3 (C) Prof. R. Müller, Prof. E. Rahm Produkt Enzym Coprodukt 6-4 Substanzen/ Metabolite Hierarchie der Enzyme: E.C. - Code n Standardisierter Code zur Klassifizierung der Enzyme (IUBMB Enzyme Nomenclature Commitee) n Codierung: Oxidoreduktasen (1), Transferasen (2), Hydrolasen (3), Lyasen (4), Isomerasen (5), Ligasen (6). n Bsp.: Phosphofructokinase, E.C. 2.7.1.11, gehört zur Enzymklasse der Transferasen (2) Regulatorische Pfade: Bsp. p53-Signalweg E C C o d eB e d e u tu n g 2 2 .7 2 .7 .1 2 .7 .1 .1 1 E n z y m e ,d ief u n k tio n e lleG r u p p e n ü b e r tr a g e n E n z y m ea u s2 ,f k t.G r u p p e = P h o s p h a tg r u p p e E n z y m ea u s2 .7 ,m ita lk o h o lis c h e rG r u p p ea lsA k z e p to r P h o s p h o f r u c to k in a s e 6-5 (C) Prof. R. Müller, Prof. E. Rahm Pathway-Datenbanken n E c o C yc h t t p : / / e c o c y c . o rg / E s c h e ric h ia c o li K -1 2 g e no m e , m e ta b o lic p a thw a ys , tra ns p o rte rs a nd g e ne re g ula tio n E NZ YME http://w ww .ex pas y .c h/enz y m e/ E nzym e no m e nc la ture EpoDB h t t p : / / w w w . c b il. u p e n n . e d u / E p o D B / G e ne s e xp re s s e d d uring hum a n e rythro p o ie s is K lo tho h t t p : / / w w w . ib c . w u s t l. e d u / k lo t h o / C o lle c tio n a nd c a te g o riza tio n o f b io lo g ic a l c o m p o und s KEGG h t t p : / / w w w . g e n o m e . a d . jp / k e g g M e ta b o lic a nd re g ula to ry p a thw a ys L IG A ND h t t p : / / w w w . g e n o m e . a d . jp / lig a n d / C he m ic a l c o m p o und s a nd re a c tio ns in b io lo g ic a l p a thw a ys M e taC yc h t t p : / / e c o c y c . o rg / Spezifische Anforderungen UMB B D http://um bbd.ahc .um n.edu/ − Rechnerverwertbare Darstellung/Modellierung der Pfade und Netzwerke (erweiterte Datenmodelle; z.B. graphbasiert) P athD B h t t p : / / w w w . n c g r. o rg / p a t h d b P R O D O R IC h t t p : / / p ro d o ric . t u -b s . d e − Methoden zur Visualisierung R e g ulo nD B h t t p : / / w w w . c ifn . u n a m . m x / C o m p u t a t i o n a l_ G e n o m ic s / re g u lo n d b / − Standards für den Datenaustausch U M -B B D http://um bbd.ahc .um n.edu/ W IT 2 h t t p : / / w it . m c s . a n l. g o v/ W IT2 / Motivation − "Lexikon der Biochemie" in Praxis, Lehre und Forschung − Identifizierung potentieller Angriffspunkte für Arzneimittel (drug targets) − Vorhersage von Stoffwechselwegen sequenzierter Organismen (Beispiel BioCyc) n Pathway-Datenbanken: Übersicht M e ta b o l i c P a th w a y s a n d C e l l u l a r R e g u l a ti o n Inhalt einer Pathway-Datenbank − Strukturierte Informationen über biochemische Reaktionswege, Einzelreaktionen, beteiligte Enzyme und Substrate n 6-6 (C) Prof. R. Müller, Prof. E. Rahm − Algorithmen zur Pathway-Analyse M e ta b o lic p a thw a ys a nd e nzym e s fro m va rio us o rg a nis m s C ura te d info rm a tio n o n m ic ro b ia l c a ta b o lis m a nd re la te d b io tra ns fo rm a tio ns B io c he m ic a l p a thw a ys , c o m p o und s a nd m e ta b o lis m P ro k a ryo tic d a ta b a s e o f g e ne re g ula tio n a nd re g ula to ry ne tw o rk s E s c h e ric h ia c o li tra ns c rip tio na l re g ula tio n a nd o p e ro n o rg a niza tio n M ic ro b ia l b io c a ta lytic re a c tio ns a nd b io d e g ra d a tio n p a thw a ys Inte g ra te d s ys te m fo r m e ta b o lic m o d e ls a u s : T h e Mo le c u la r B io lo g y D a ta b a s e C o lle c tio n : 2 0 0 3 u p d a te , N u c le ic Ac id s R e s e a rc h , 2 0 0 3 , Vo l. 3 1 , N o . 1 1 -1 2 (C) Prof. R. Müller, Prof. E. Rahm 6-7 (C) Prof. R. Müller, Prof. E. Rahm 6-8 Beispiel KEGG * Zusammenhang mit anderen biologischen Datenbanken Pathway-Datenbanken EnzymDatenbanken LiteraturDatenbanken ProteinDatenbanken Chemische Datenbanken Genom-Datenbanken * Kyoto Encyclopedia of Genes and Genomes 6-9 (C) Prof. R. Müller, Prof. E. Rahm KEGG n Kyoto Encyclopedia of Genes and Genomes* n Umfangreiche Datenbanksammlung des japanischen GenomeNet-Service zu Pathway-Informationen n KEGG/PATHWAY-DB − enthält alle bekannten Stoffwechselwege − Auswahl regulatorischer Pathways n Methoden und Tools für Berechnungen und Analysen (C) Prof. R. Müller, Prof. E. Rahm 6 - 10 KEGG: Pathway-Hierarchie Metabolism Carbohydrate Metabolism Energy Metabolism Lipid Metabolism Nucleotide Metabolism Amino Acid Metabolism Metabolism of Other Amino Acids Metabolism of Complex Carbohydrates Metabolism of Complex Lipids Metabolism of Cofactors and Vitamins Biosynthesis of Secondary Metabolites Biodegradation of Xenobiotics Genetic Information Processing Transcription Translation Sorting and Degradation Replication and Repair Environmental Information Processing Membrane Transport Signal Transduction Ligand-Receptor Interaction Cellular Processes Cell Motility Cell Growth and Death Cell Communication Development Behavior Human Diseases Neurodegenerative Disorders * http://www.genome.ad.jp/kegg (C) Prof. R. Müller, Prof. E. Rahm 6 - 11 (C) Prof. R. Müller, Prof. E. Rahm 6 - 12 KEGG: Metabolische Übersichtskarten Metabolische Übersichtskarten Pathways des Kohlenhydrat-Stoffwechsels graphische Übersicht zum Stoffwechselnetz (C) Prof. R. Müller, Prof. E. Rahm KEGG: Einstiegsseite in KEGG 6 - 13 (C) Prof. R. Müller, Prof. E. Rahm KEGG: Suchbeispiel 1 (C) Prof. R. Müller, Prof. E. Rahm 6 - 15 6 - 14 KEGG: Suchbeispiel 1 (2) (C) Prof. R. Müller, Prof. E. Rahm 6 - 16 KEGG: Suchbeispiel 2 (C) Prof. R. Müller, Prof. E. Rahm 6 - 17 KEGG: Suchbeispiel 2 (2) KEGG: Suchbeispiel 2 (3) KEGG: XML-Darstellung n (C) Prof. R. Müller, Prof. E. Rahm 6 - 19 6 - 18 (C) Prof. R. Müller, Prof. E. Rahm KGML (KEGG Markup Language) (C) Prof. R. Müller, Prof. E. Rahm 6 - 20 KEGG: Beispiel für pathogenen Pfad KEGG: Interne Darstellung n Graphorientiertes Modell Node Graph Edge Gene 6 - 21 KEGG: Interne Darstellung (2) (C) Prof. R. Müller, Prof. E. Rahm 6 - 23 GENES Protein-coding gene Sequence similarity (orthology, paralogy, etc.) SSDB Gene Adjacency GENES, GENOME Gene Expression similarity EXPRESSION Gene or gene product Interaction or relation BRITE Protein network Gene product or subnetwork Direct protein-protein interaction Gene expression relation Enzyme-enzyme relation PATHWAY Chemical universe Chemical compound Chemical compound Gene universe (C) Prof. R. Müller, Prof. E. Rahm Database (C) Prof. R. Müller, Prof. E. Rahm COMPOUND Chemical reaction REACTION 6 - 22 KEGG: Interne Darstellung (3) (C) Prof. R. Müller, Prof. E. Rahm 6 - 24 KEGG: Interne Darstellung (4) KEGG: Pfad-Deduktion n Verwendung der deduktiven Datenbank CORAL* n Probleme − Aufsplitterung der Abhängigkeitsgraphen in Relationen (vermehrte Notwendigkeit von Joins) − Zyklenerkennung * http://www.cs.wisc.edu/coral/ 6 - 25 (C) Prof. R. Müller, Prof. E. Rahm (C) Prof. R. Müller, Prof. E. Rahm EcoCyc n Encyclopedia of Escherichia coli Genes and Metabolism n Pathway/Genom-Datenbank (PGDB) 6 - 26 BioCyc: Datenbanken − Enthält das vollständig sequenzierte Genom und die metabolischen sowie regulatorischen Pathways des E. coli-Bakteriums n Rechnergestützte Analysemethoden n Teil der BioCyc* Knowledge Library (Datenbanksammlung zu Mikroorganismen) mit ca. 15 Datenbanken n Datenpflege − 5 hauptamtliche Curators − Hauptinformationsquellen: Bio-Literatur, Generierung von Pfaden auf der Basis von Gensequenzen − Korrektur ggf. durch Forchungsgruppen − Vierteljährliche Releases * http://BioCyc.org/ (C) Prof. R. Müller, Prof. E. Rahm 6 - 27 (C) Prof. R. Müller, Prof. E. Rahm 6 - 28 EcoCyc: Datenmodell n Ca. 1000 Klassen, die Schlüsselkonzepte der Biochemie und Molekularbiologie codieren, z.B. 'Pathways', 'Compounds', 'Genes' n Ca. 200 Slots (Attribute), die Eigenschaften und Relationen zwischen den Klassen beschreiben, z.B. Slot 'REACTION-LIST' eines 'Pathway'-Objektes n Frame-Wissensrepräsentationssystem (via Lisp) EcoCyc: Pathway-Taxonomie n Vererbungshierarchie: − ähnlich einem OODBS − Web of frames': Frame = ein einzelnes biologisches Objekt (z.B. Gen, Protein), beschrieben durch seine Eigenschaften (Slots) − Vernetzung zwischen den Frames durch Slots, die semantische Relationen beschreiben, z.B. Protein x = Genprodukt von Gen y (C) Prof. R. Müller, Prof. E. Rahm 6 - 29 (C) Prof. R. Müller, Prof. E. Rahm EcoCyc: Lisp-Frame (C) Prof. R. Müller, Prof. E. Rahm •P a th w a y s •E n e rg y m e ta b o lis m •S u p e r-P a th w a y s •A m in o a c id fa m ilie s •B io sy n th e s is •C a rb o h y d ra te s •C e ll-s tru c tu re s •M u re in s a c c u lu s •S u rfa c e s tru c tu re s •F a tty a c id s a n d lip id s •C o fa c to rs , p ro s th e tic g ro u p s , e le c tro n c a rrie rs •N u c le o tid e s •R ib o n u c le o tid e s •p u rin e s a n d p y rim id in e s •2 '-d e o x y rib o n u c le o tid e s •P o ly a m in e s •A m in o a c id b io sy n th e s is •A m in o a c id fa m ilie s •In d iv id u a l a m in o a c id s 6 - 30 EcoCyc: Datenmengen 6 - 31 (C) Prof. R. Müller, Prof. E. Rahm 6 - 32 EcoCyc: Beispiel-Suche (C) Prof. R. Müller, Prof. E. Rahm 6 - 33 EcoCyc: Beispiel-Suche (2) (C) Prof. R. Müller, Prof. E. Rahm EcoCyc: Beispiel-Suche (3) (C) Prof. R. Müller, Prof. E. Rahm 6 - 35 6 - 34 EcoCyc: Beispiel-Suche (4) (C) Prof. R. Müller, Prof. E. Rahm 6 - 36 EcoCyc: Übersicht EcoCyc: Tools n "Karten" für z PathoLogic z Prediction of metabolic network from genome z Computational creation of new Pathway/Genome Databases z Pathway/Genome Editors z Distributed curation of PGDBs z Distributed object database system, interactive editing tools z Pathway/Genome Navigator z WWW publishing of PGDBs z Querying, visualization of pathways, chromosomes, operons z Analysis operations Gesamtstoffwechsel n Überlagerung mit anderen Spezies z 6 - 37 (C) Prof. R. Müller, Prof. E. Rahm Pathway visualization of gene-expression data Global comparisons of metabolic networks Bioinformatics 18:S225 2002 (C) Prof. R. Müller, Prof. E. Rahm EcoCyc: Tools (2) 6 - 38 EcoCyc: Architektur zAllegro Common Lisp zQuery, visualization and editing tools for these datatypes: Metabolic Map Paint gene expression data on metabolic network; compare metabolic networks zPathways z Pathway prediction zReactions z Balance checker zCompounds z Chemical substructure comparison zEnzymes, Transporters, Transcription Factors zGenes: Blast search zChromosomes zOperons z Operon prediction zSun and PC platforms zFull z (C) Prof. R. Müller, Prof. E. Rahm zOcelot object database z250,000 lines of code zLisp-based WWWserver at BioCyc.org z Manages 15 PGDBs 6 - 39 (C) Prof. R. Müller, Prof. E. Rahm 6 - 40 EcoCyc: Architektur (2) WWW Server Pathway Genome Navigator X-Windows Graphics GFP API Object Editor Pathway Editor Reaction Editor EcoCyc: Architektur (3) z Persistent storage via disk files, Oracle DBMS z Concurrent development: Oracle z Single-user development: disk files z Read-only delivery: bundle data into binary program z Oracle storage z DBMS is submerged within Ocelot, invisible to users z Relational schema is domain independent, supports multiple KBs simultaneously z Frames transferred from DBMS to Ocelot Object DBMS Oracle (C) Prof. R. Müller, Prof. E. Rahm 6 - 41 On demand By background prefetcher Memory cache Persistent disk cache to speed performance via Internet (C) Prof. R. Müller, Prof. E. Rahm EcoCyc: WWW-Server 6 - 42 Weitere Quellen zu Pathway-Datenbanken n The BioPathways Consortium, − http://www.biopathways.org/ n Pacific Symposium on Biocomputing − http://psb.stanford.edu/ n ASM/TIGR Conference on Microbial Genomes − http://www.tigr.org/conf/mg/index.htm n International Conference on Systems Biology 2004 − http://www.icsb2004.org/ − GLIM (Generalized Interactive Modelling): Software für Datenauswertung und -visualisierung (C) Prof. R. Müller, Prof. E. Rahm 6 - 43 (C) Prof. R. Müller, Prof. E. Rahm 6 - 44 Zusammenfassung n Motivation und biologische Grundlagen − Metabolische Pfade − Regulatorische Pfade n Pathway-Datenbanken und ihre Anwendung − Anforderungen − KEGG − EcoCyc n Spezifische Problematik − Abbildung der Netzwerke (Aufsplitterung der Abhängigkeitsgraphen in Relationen versus OOKonzepte) − Visualisierung − Zyklenerkennung (C) Prof. R. Müller, Prof. E. Rahm 6 - 45