EST/cDNA, Technik von Microarrays
Transcrição
EST/cDNA, Technik von Microarrays
Molekularbiologische Datenbanken ESTs und cDNAs Microarrays Ulf Leser Wissensmanagement in der Bioinformatik Sequenzierung • Methode nach Sanger • Verarbeitungsschritte – Base Calling – Assembly – Finishing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 2 Biotechnologie Primer Template ACGAACGCGAGTTAGTTAGACCAGTAGCCA... Polymerase ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACG ACGAACGCGAGTTAGTTAGACCAGTAGCCA... C A ACT A A GA C G A T T C G A C T G G G CT A C T GC T TG ACGAACGCGAGTTA ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAG ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTTAGT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGA Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 3 Rohergebnisse Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 4 Base Calling in PHRED (Sketch) [EHWG98] • PHRED: Heuristischer, hochgradig getunter Algorithmus • Schritt 1: Berechnung der erwarteten Peakpositionen – Erster Schritt: Finden von vermutlichen Peaks – Berechnung der durchschnittlichen Peakabstände – Sliding Window von 200 Tracepoints (zum Ausgleich sich kontinuierlich ändernder Perioden) – Bestimmung der Periode durch Sinuskurve – Erwarteter Peak = Zentrum der Sinuskurve – Iteratives Verschiebung des Fensters Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 5 Assembly – Abstrakte Formulierung • SUPERSTRING – Geg.: Menge S von Strings – Ges.: String T so, dass • (a) ∀s∈S: s∈T • (b) ∀T‘, für die (a) gilt, gilt: |T| ≤ |T‘| (s Substring von T) ( T ist minimal) – NP-vollständiges Problem • Verschärfungen – Fehler in Sequenzen (s „ungefähr Substring“ von T) – Zwei Orientierungen von s möglich – Gaps ¾ Heuristische Verfahren Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 6 Finishing – Neue Reads Gaps Geringe Redundanz Low quality • Auswahl (möglichst weniger) neuer Reads – – – – Design spezifischer Primer Gezielte Selektion von Clonen aus Shotgun–Bibliothek Sequenzierrichtung / - technik ändern Neue Reads – neues Assembly Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 7 Feature von BIOENTRY_ID Location: SEQFEATURE_LOCATION Qualifier: SEQFEATURE_QUALIFIER_VALUE Key: ONTOLOGY_TERM Label: SEQFEATURE_SOURCE_ID Wert: QUALIFIER_VALUE BioSQL Feature Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 8 EMBL Feature 2 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 9 Inhalt dieser Vorlesung • • • • • • ESTs und cDNA Bibliotheken EST Clustering Genexpression - Grundidee cDNA Arrays Oligo Arrays Anwendungsgebiete Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 10 DNA -> Protein • Zentrales Dogma – DNA – RNA – Protein • RNA editing – 5‘ CAP – 3‘ PolyA Tail – Splicing ¾ messenger RNA (mRNA) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 11 mRNA - cDNA • Trick: Rück-Übersetzung von mRNA in cDNA – cDNA = complementary DNA – Herstellung benötigt Enzym Reverse Transcriptase (RT) – Wo setzt man den Primer an? • Am PolyA Tale • Zufällige Oligomere – klappt oder klappt nicht • Clonierung der cDNA in Libraries Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 12 Reverse Transcriptase Retroviren (z.B. HIV) Quelle: Kimball's Biology Pages Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 13 cDNA Bibliotheken • cDNAs: Gene / kodierende Regionen – Viel interessanter als genomische DNA • Differential Splicing – verschiedene cDNAs eines Gens • cDNA enthält (meist) PolyA und 3‘ Ende • cDNA enthält (oft) nicht 5‘ Ende • Inhalt einer cDNA Bibliothek abhängig von – Gewebe – Entwicklungsstadium (Embryo - Erwachsen) – Organismusstatus (Krank – Gesund) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 14 cDNA -> EST • EST: Expressed Sequence Tags • EST Erzeugung – – – – „Single Read“ Sequenzierung der cDNA Ausgerichtet auf sehr hoher Durchsatz Einmalige Sequenzierung mit kurzen Reads (400 – 600 Basen) Inkaufnahme geringer Genauigkeit (2-3% Basenfehler) • Sehr populär (Stand 4/2003) – 8 von 30GB in Genbank – 16 von 23 Millionen Submissions in Genbank – Ca. 4.500.000 humane ESTs • Warum? – Sehr schnelle Methode, um Gene zu finden – Interessante Regionen werden dann konventionell sequenziert • Und damit hat man dann das komplette Gen – Aber: Vermutlich sind nicht alle Gene in cDNA Bibliotheken enthalten Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 15 EST Clustering • 4.5 Millionen ESTs – wie viele Gene ? ¾ Clustern der EST nach Sequenzüberlappungen • Ähnlich Assembly, aber • Hohe Fehlerrate in Sequenz • Differential Splicing • ESTs sind auf Exons zusammengesetzt • Überlappungen liegen in „Blöcken“ vor • Löcher dazwischen (gespleisste Exons) stören nicht • Verwendung spezieller Algorithmen • Vorsicht beim Vergleich mit genomischer DNA: keine Introns Original Gen (ohne Introns) Mögliche EST Varianten Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 16 UniGene [PWS02] • Unterscheidung von cDNA und EST Sequenzen – cDNA: Bessere Qualität, länger, höhere Redundanz, weniger vorhanden – EST: Geringe Qualität, kurz, sehr viele vorhanden • Heuristisches, mehr-phasiges Verfahren – Entfernen von Low-Quality Regions, Repeats, Kontamination – Clustern aller cDNA, dann clustern aller EST in Genbank (MegaBlast) • Lokales Alignment • Zu wenig Toleranz - false negatives wegen Sequenzierfehlern • Zu hohe Toleranz - false positives, z.B.: durch Pseudogene – Mergen der Cluster bei Sequenzüberlappung – Mergen der Cluster, wenn ein EST von einer cDNA abstammt • Annotation – Anchoring: Nur Gene mit 3‘ (PolyA oder Annotation) behalten • Dadurch jedes Gen nur einmal repräsentiert – Singleton cDNA und ESTs erneut mit geringerer Spezifität vergleichen und bei Treffer dem Cluster zuordnen • Wöchentliche Aktualisierung Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 17 UniGene Ergebnisse • Bewertung – Heuristisches Verfahren ohne Garantie „optimaler“ Lösung – Clustern können sich von Woche zu Woche ändern (keine stabilen „Gene“ => nicht auf Cluster-IDs verweisen) • Ergebnis 4/2003 – 110.000 Cluster (wie viele Gene hat der Mensch?) – Sequenzen pro Cluster: Von 1 (40.000) bis 30.000 (wenige) – Ca. 70% bestehen nur aus ESTs • Andere Verfahren – STACK: d2_cluster (q-grams), Assemblies mit PHRAP – TIGR Gene Index: Assemblies mit CAP3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 18 Microarrays - Grundidee • Wir haben jetzt cDNA Bibliotheken • Durch Clustering kann man auch redundanzarme Bibliotheken erstellen • Was kann man damit machen? – – – – – Microarrays, Genchips, Genexpressionmessung Bibliothek alles cDNA (z.B: UniGene): Probe cDNAs aus Zellen extrahieren: Sample cDNAs in Sample hybridisieren mit cDNAs als Probe Messen der Expressionsniveaus aller Gene einer bestimmten Zelle zu einem bestimmten Zeitpunkt Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 19 Anwendung von Microarrays • Krankheiten mit „einfachen“ genetischen Ursachen – Mukoviszidose, cystische Fibrose, Huntington‘s, DMD ¾ Diagnose: Nachweis von Mutationen • Krankheiten mit komplexen genetischen Faktoren – Volkskrankheiten: Diabetis, Alzheimer, HerzKreislauferkrankungen, ... – Tumore ¾ Alle nach heutigem Kenntnisstand nicht monokausal ¾ Nachweis von einzelnen Mutationen nicht ausreichend ¾ Hoffnung: Messen von Unterschieden in Expression vieler Gene Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 20 Differentielle Expressionsanalyse Gesundes Gewebe Krankes Gewebe Differenz in Expression ? Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 21 Probenaufbereitung • • • • cDNA Library vervielfältigen (PCR) Auf Array aufbringen Jede Zelle entspricht einem Gen (idealisiert) Array-Layout: Redundanz, feste Proben, Abstandsmaximierung, ... S1 S2 S3 S4 S5 S6 … Z1 G001 G100 G200 ... ... ... ... Z2 G002 ... ... ... ... ... ... Z3 G003 ... ... ... ... ... ... Z4 G004 ... ... ... ... ... ... Z5 G005 ... ... ... ... ... ... Z6 G006 ... ... ... ... ... ... ... ... ... ... ... ... ... ... Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 22 Sampleaufbereitung • • • • Isolierung einer Zelle im Zustand X Extraktion aller RNA Umwandlung in cDNA Markierung der cDNA mit Farbstoff ¾ Pipette mit markierter cDNA aller in der Zelle im Zustand X exprimierten Gene Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 23 Ablauf Referenzarray (Probe) Zellprobe (Sample) Hybridisierung Sample-cDNA hybridisiert mit Proben-cDNA Arrayaufbereitung Entfernen nicht hybridisierter Sample cDNA Scanning Laserabtastung des Arrays TIFF Bild Bilderkennung Erkennen von Lichtpunkten, Intensität und Koordinaten Rohdaten Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 24 Zweifarbenaufnahmen • Quantifizierung des Expressionsniveau ist extrem schwierig – Warum? Später • Ziel ist meistens auch nur, Unterschiede in Expression zu finden – Ausreichend für Klassifizierung – Absolute Werte nicht notwendig • Zwei Samples auf einem Array – Gesund – Krank – Unterschiedlicher Farbstoff (rot, grün) – Laserabtastung auf zwei Wellenlängen • Vorteil – Unterschiede in Proben, Array, Scanner nivelliert Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 25 Ergebnis • Sample A: rot • Sample B: grün • Verhältnis Rot/Grün – Dunkel: Gen weder in A noch B exprimiert – Rot: Gen nur in A exprimiert – Grün: Gen nur in B exprimiert – Gelb: Gen in A und B exprimiert Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 26 Probleme • Bilderkennung • Signalverarbeitung • Hintergrundleuchten • Normalisierung • Ab wann haben Expressionsunterschiede biologische Bedeutung ? • Später Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 27 Oligo Chips • Oligonukleotide: kurze Sequenzstücke (15-80) • Oligo Chips – Array enthält Oligos (statt kompletter cDNA) – Oligosequenzen aus cDNA Sequenzen abgeleitet – In-situ Synthetisierung: Oligos auf Array erzeugen • Vorteile – – – – Beliebige Sequenzen können getestet werden Höhere Dichte ( ~400.000 Oligos auf Chip) Höhere Genauigkeit durch mehrere Oligos pro Gen Robusteres Verfahren • Kommerzielles System: Affymetrix GeneChips Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 28 Oligo in-situ Synthetisierung • Voraussetzung: photo-chemische DNA-Bindung • Verfahren Chip mit Base X∈{A,C,G,T} fluten Belichtungsmaske berechnen Array belichten: In belichteten Zellen bindet X an Chip Array waschen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 29 Affy GeneChips 1,28 cm • Bis zu 400.000 Zellen • Pro Zelle 1 Oligo • Redundante Auslegung • 20 Matches pro Gen • 20 Mismatches Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 30 Einschub: Algorithmische Probleme mit Oligo Chips • Bestimmung der Oligo Sequenzen – Cross-Hybridisierung verhindern • „Differenzierende“ Oligos – Selbsthybridisierung verhindern • Keine „komplementären Repeats“ – Optimierungsproblem • Reihenfolge der Basen und Belichtungsmasken bei der In-Situ Synthetisierung – Minimale Menge von Belichtungen – Cross-Belichtung minimieren • Abstände zwischen belichteten Zellen vergrößern – Optimierungsproblem Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 31 Vergleich cDNA – Oligo Chips • Oligo Chips – – – – Kommerziell, teuer (~ 1000 Euro pro Chip) Sehr hohe Dichte Robustes Verfahren → reproduzierbare Ergebnisse Eigene Chips schwierig zu erstellen • cDNA Arrays – Technik in vielen Labors vorhanden – Geringere Dichte (3000-30.000) → geringere Redundanz – Fehleranfälligere Arbeitsschritte – Schlechtere Vergleichbarkeit von Daten Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 32 Anwendungsgebiete • Unterschiede in der Genaktivität zwischen Zellen – Zwischen Geweben / Zelltypen • Nerven, Haut, Muskel, Gehirn, ... – Zwischen verschiedenen Spezies • Mensch, Maus, Fliege, ... – Zwischen verschiedenen Entwicklungsstadien • Embryo, Säugling, Jugendlicher, Erwachsener, ... – Bei unterschiedlichen Umwelteinflüssen • Temperatur, Nahrung, Medikamente, ... • Ko-Regulation von Genen – Gleiche Aktivitätsmuster – gleiche Aufgabe? – Gleiche Aktivitätsmuster – gleiche Regulation? Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 33 Diagnostik • Finden typischer Genexpressionsmuster • Reportergene, Tumormarker – Screenen aller Gene, Finden der charakteristischen • Differentielle Diagnostik von Tumoren • Personalisierte Medizin – Individuelle Medikamentwirksamkeit – Pharmokogenomics ¾ Zuordnung von Genexpressionsmustern zu Phänotypen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 34 Systematische Probleme • Gesund–krank Messung schwierig – Genexpression ist in Zellen immer unterschiedlich (Phase in „Cell Cycle“, Umgebung, Vorfahren, ...) – Unterschiede zwischen zwei gesunden Zellen u.U. größer als zwischen Gesund – Krank – Tumore: Schwierig, reine Samples zu bekommen (Tumor–Gesund Gemische) • Genrepräsentation – Viele Gene nur selten und in geringer Dosis aktiv (insbesondere embryonale Zellen) – Geringe / fehlende Repräsentation in cDNA Libraries – Geringe Menge in Samples – nicht nachweisbares Signal Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 35 Systematische Probleme 2 • RNA Isolierung – Jede Zellmanipulation zur Verarbeitung induziert Veränderung in Genexpression (Stress, Apoptose, ...) – Verfälscht das Ergebnis ungewollt • Aktivitätszeiträume – Signalschritte sind teilweise sehr schnell (<1sec) – Wichtige Zwischenschritte in Reaktionsketten werden übersehen – Oder: extrem viele Samples notwendig • Ursache – Wirkung nicht trennbar – Primär-, Sekundäreffekte: Tumor (primär) führt zu erhöhter Zellteilung (sekundär) mit 100en aktivierten Genen ¾ Schwierig, charakteristische Effekte zu finden ¾ Schwierig, Vergleichbarkeit von Daten herzustellen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 36 Normalisierung • Intensitäten verschiedener Experimente sind nicht vergleichbar – Anzahl Zellen zur Sampleaufbereitung – Menge von mRNA in Zellen – Experimentelle Parameter (Temperatur, Chemikalien, Dauer, ...) – Sensitivität der Messung (Kamera, Laser) – ... ¾ Normalisierung ¾ Metadaten Jetzt Später Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 37 Normalisierungsverfahren • Normalisieren auf mRNA Menge in Sample – Messen der totalen mRNA Menge in Sample – Teilen aller Intensitäten durch diesen Wert – Annahme: „Zellen produzieren proportionale RNA Mengen“ • Referenzgene – Auswahl von „Housekeeping“ Genen – Teilen aller Intensitäten durch deren Intensität – Annahme: „Bestimmte Gene sind immer gleich exprimiert“ Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 38 Normalisierungsverfahren • Referenz RNA – Zugabe von festen Mengen bekannter RNA zum Sample – Teilen aller Intensitäten durch gemessene Intensitäten dieser Peaks – Unterschiede im Protokoll nach der Zugabe können nivelliert werden (zu spät...) • Globale Skalierung – Summe aller Intensitäten in Array berechnen – Teilen aller Intensitäten durch diese Summe – Reine Skalierung, Proportionen bleiben erhalten, absolute Werte bedeutungslos – Gewährleistet bestenfalls Vergleichbarkeit innerhalb eines festen Protokolls • Aber das mit wenig Zusatzannahmen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 39 Zusammenfassung • Verschiedene Techniken – cDNA: – Oligo: cDNA Library & Hybridisierung Artifizielle Oligos & Hybridisierung • Probleme – Bilderkennung und Signalzuordnung – Normalisierung – „Ceteri Paribus“ Annahme praktisch immer falsch • Vielfältige Möglichkeiten – Differentielle Diagnose – Erkenntnisse über Zusammenspiel von Genen in Pathways • Mainstreamtechnik Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 40 Vergleich Genexpression - Sequenzierung • Genomsequenzierung – – – – Sequenz ist stabil Praktisch identisch innerhalb einer Spezies Einmal sequenziert – für immer richtig Sequenz ist „richtig“ – nur kleine Fehler • Genexpression – Abhängig von vielen Faktoren: Zelltyp, Umgebung, Vergangenheit, Entwicklungsstufe, Eltern, ... – Messungen schwer vergleichbar, da nie alle Umgebungsvariablen gleich sind – Eine „normale“ Genexpression gibt es nicht Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004 41