EST/cDNA, Technik von Microarrays

Transcrição

EST/cDNA, Technik von Microarrays
Molekularbiologische
Datenbanken
ESTs und cDNAs
Microarrays
Ulf Leser
Wissensmanagement in der
Bioinformatik
Sequenzierung
• Methode nach Sanger
• Verarbeitungsschritte
– Base Calling
– Assembly
– Finishing
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
2
Biotechnologie
Primer
Template
ACGAACGCGAGTTAGTTAGACCAGTAGCCA...
Polymerase
ACGAACGCGAGTTAGTTAGACCAGTAGCCA...
ACGAACG
ACGAACGCGAGTTAGTTAGACCAGTAGCCA...
C
A ACT A A
GA C
G
A
T
T
C
G A C
T
G
G
G CT A
C T GC T
TG
ACGAACGCGAGTTA
ACGAACGCGAGTTAGTTAGACCAGTAGCCA...
ACGAACGCGAG
ACGAACGCGAGTTAGTTAGACCAGTAGCCA...
ACGAACGCGAGTTAGTT
ACGAACGCGAGTTAGTTAGACCAGTAGCCA...
ACGAACGCGAGTTAGTTAGT
ACGAACGCGAGTTAGTTAGACCAGTAGCCA...
ACGAACGCGA
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
3
Rohergebnisse
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
4
Base Calling in PHRED (Sketch)
[EHWG98]
• PHRED: Heuristischer, hochgradig getunter
Algorithmus
• Schritt 1: Berechnung der erwarteten
Peakpositionen
– Erster Schritt: Finden von vermutlichen Peaks
– Berechnung der durchschnittlichen Peakabstände
– Sliding Window von 200 Tracepoints (zum Ausgleich
sich kontinuierlich ändernder Perioden)
– Bestimmung der Periode durch Sinuskurve
– Erwarteter Peak = Zentrum der Sinuskurve
– Iteratives Verschiebung des Fensters
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
5
Assembly – Abstrakte Formulierung
• SUPERSTRING
– Geg.: Menge S von Strings
– Ges.: String T so, dass
• (a) ∀s∈S: s∈T
• (b) ∀T‘, für die (a) gilt, gilt: |T| ≤ |T‘|
(s Substring von T)
( T ist minimal)
– NP-vollständiges Problem
• Verschärfungen
– Fehler in Sequenzen (s „ungefähr Substring“ von T)
– Zwei Orientierungen von s möglich
– Gaps
¾ Heuristische Verfahren
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
6
Finishing – Neue Reads
Gaps
Geringe Redundanz
Low quality
• Auswahl (möglichst weniger) neuer Reads
–
–
–
–
Design spezifischer Primer
Gezielte Selektion von Clonen aus Shotgun–Bibliothek
Sequenzierrichtung / - technik ändern
Neue Reads – neues Assembly
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
7
Feature von BIOENTRY_ID
Location: SEQFEATURE_LOCATION
Qualifier: SEQFEATURE_QUALIFIER_VALUE
Key:
ONTOLOGY_TERM
Label:
SEQFEATURE_SOURCE_ID
Wert:
QUALIFIER_VALUE
BioSQL Feature
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
8
EMBL Feature 2
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
9
Inhalt dieser Vorlesung
•
•
•
•
•
•
ESTs und cDNA Bibliotheken
EST Clustering
Genexpression - Grundidee
cDNA Arrays
Oligo Arrays
Anwendungsgebiete
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
10
DNA -> Protein
• Zentrales Dogma
– DNA
– RNA
– Protein
• RNA editing
– 5‘ CAP
– 3‘ PolyA Tail
– Splicing
¾ messenger RNA
(mRNA)
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
11
mRNA - cDNA
• Trick: Rück-Übersetzung von mRNA in cDNA
– cDNA = complementary DNA
– Herstellung benötigt Enzym Reverse Transcriptase (RT)
– Wo setzt man den Primer an?
• Am PolyA Tale
• Zufällige Oligomere – klappt oder klappt nicht
• Clonierung der cDNA in Libraries
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
12
Reverse Transcriptase
Retroviren
(z.B. HIV)
Quelle: Kimball's Biology Pages
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
13
cDNA Bibliotheken
• cDNAs: Gene / kodierende Regionen
– Viel interessanter als genomische DNA
• Differential Splicing – verschiedene cDNAs eines
Gens
• cDNA enthält (meist) PolyA und 3‘ Ende
• cDNA enthält (oft) nicht 5‘ Ende
• Inhalt einer cDNA Bibliothek abhängig von
– Gewebe
– Entwicklungsstadium (Embryo - Erwachsen)
– Organismusstatus (Krank – Gesund)
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
14
cDNA -> EST
• EST: Expressed Sequence Tags
• EST Erzeugung
–
–
–
–
„Single Read“ Sequenzierung der cDNA
Ausgerichtet auf sehr hoher Durchsatz
Einmalige Sequenzierung mit kurzen Reads (400 – 600 Basen)
Inkaufnahme geringer Genauigkeit (2-3% Basenfehler)
• Sehr populär (Stand 4/2003)
– 8 von 30GB in Genbank
– 16 von 23 Millionen Submissions in Genbank
– Ca. 4.500.000 humane ESTs
• Warum?
– Sehr schnelle Methode, um Gene zu finden
– Interessante Regionen werden dann konventionell sequenziert
• Und damit hat man dann das komplette Gen
– Aber: Vermutlich sind nicht alle Gene in cDNA Bibliotheken enthalten
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
15
EST Clustering
• 4.5 Millionen ESTs – wie viele Gene ?
¾ Clustern der EST nach Sequenzüberlappungen
• Ähnlich Assembly, aber
• Hohe Fehlerrate in Sequenz
• Differential Splicing
• ESTs sind auf Exons zusammengesetzt
• Überlappungen liegen in „Blöcken“ vor
• Löcher dazwischen (gespleisste Exons) stören nicht
• Verwendung spezieller Algorithmen
• Vorsicht beim Vergleich mit genomischer DNA: keine Introns
Original Gen
(ohne Introns)
Mögliche EST Varianten
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
16
UniGene
[PWS02]
• Unterscheidung von cDNA und EST Sequenzen
– cDNA: Bessere Qualität, länger, höhere Redundanz, weniger
vorhanden
– EST: Geringe Qualität, kurz, sehr viele vorhanden
• Heuristisches, mehr-phasiges Verfahren
– Entfernen von Low-Quality Regions, Repeats, Kontamination
– Clustern aller cDNA, dann clustern aller EST in Genbank (MegaBlast)
• Lokales Alignment
• Zu wenig Toleranz - false negatives wegen Sequenzierfehlern
• Zu hohe Toleranz - false positives, z.B.: durch Pseudogene
– Mergen der Cluster bei Sequenzüberlappung
– Mergen der Cluster, wenn ein EST von einer cDNA abstammt
• Annotation
– Anchoring: Nur Gene mit 3‘ (PolyA oder Annotation) behalten
• Dadurch jedes Gen nur einmal repräsentiert
– Singleton cDNA und ESTs erneut mit geringerer Spezifität vergleichen
und bei Treffer dem Cluster zuordnen
• Wöchentliche
Aktualisierung
Ulf Leser: Molekularbiologische
Datenbanken, Vorlesung, Sommersemester 2004
17
UniGene Ergebnisse
• Bewertung
– Heuristisches Verfahren ohne Garantie „optimaler“ Lösung
– Clustern können sich von Woche zu Woche ändern
(keine stabilen „Gene“ => nicht auf Cluster-IDs verweisen)
• Ergebnis 4/2003
– 110.000 Cluster (wie viele Gene hat der Mensch?)
– Sequenzen pro Cluster: Von 1 (40.000) bis 30.000 (wenige)
– Ca. 70% bestehen nur aus ESTs
• Andere Verfahren
– STACK: d2_cluster (q-grams), Assemblies mit PHRAP
– TIGR Gene Index: Assemblies mit CAP3
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
18
Microarrays - Grundidee
• Wir haben jetzt cDNA Bibliotheken
• Durch Clustering kann man auch
redundanzarme Bibliotheken erstellen
• Was kann man damit machen?
–
–
–
–
–
Microarrays, Genchips, Genexpressionmessung
Bibliothek alles cDNA (z.B: UniGene): Probe
cDNAs aus Zellen extrahieren: Sample
cDNAs in Sample hybridisieren mit cDNAs als Probe
Messen der Expressionsniveaus aller Gene einer
bestimmten Zelle zu einem bestimmten Zeitpunkt
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
19
Anwendung von Microarrays
• Krankheiten mit „einfachen“ genetischen Ursachen
– Mukoviszidose, cystische Fibrose, Huntington‘s, DMD
¾ Diagnose: Nachweis von Mutationen
• Krankheiten mit komplexen genetischen Faktoren
– Volkskrankheiten: Diabetis, Alzheimer, HerzKreislauferkrankungen, ...
– Tumore
¾ Alle nach heutigem Kenntnisstand nicht monokausal
¾ Nachweis von einzelnen Mutationen nicht ausreichend
¾ Hoffnung: Messen von Unterschieden in Expression vieler Gene
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
20
Differentielle Expressionsanalyse
Gesundes Gewebe
Krankes Gewebe
Differenz in
Expression ?
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
21
Probenaufbereitung
•
•
•
•
cDNA Library vervielfältigen (PCR)
Auf Array aufbringen
Jede Zelle entspricht einem Gen (idealisiert)
Array-Layout: Redundanz, feste Proben,
Abstandsmaximierung, ...
S1
S2
S3
S4
S5
S6
…
Z1
G001
G100
G200
...
...
...
...
Z2
G002
...
...
...
...
...
...
Z3
G003
...
...
...
...
...
...
Z4
G004
...
...
...
...
...
...
Z5
G005
...
...
...
...
...
...
Z6
G006
...
...
...
...
...
...
...
...
...
...
...
...
...
...
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
22
Sampleaufbereitung
•
•
•
•
Isolierung einer Zelle im Zustand X
Extraktion aller RNA
Umwandlung in cDNA
Markierung der cDNA mit Farbstoff
¾ Pipette mit markierter cDNA aller in der Zelle im
Zustand X exprimierten Gene
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
23
Ablauf
Referenzarray
(Probe)
Zellprobe
(Sample)
Hybridisierung
Sample-cDNA hybridisiert mit
Proben-cDNA
Arrayaufbereitung
Entfernen nicht hybridisierter
Sample cDNA
Scanning
Laserabtastung des Arrays
TIFF Bild
Bilderkennung
Erkennen von Lichtpunkten,
Intensität und Koordinaten
Rohdaten
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
24
Zweifarbenaufnahmen
• Quantifizierung des Expressionsniveau ist extrem
schwierig
– Warum? Später
• Ziel ist meistens auch nur, Unterschiede in Expression
zu finden
– Ausreichend für Klassifizierung
– Absolute Werte nicht notwendig
• Zwei Samples auf einem Array
– Gesund – Krank
– Unterschiedlicher Farbstoff (rot, grün)
– Laserabtastung auf zwei Wellenlängen
• Vorteil
– Unterschiede in Proben, Array, Scanner nivelliert
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
25
Ergebnis
• Sample A: rot
• Sample B: grün
• Verhältnis Rot/Grün
– Dunkel: Gen weder in
A noch B exprimiert
– Rot: Gen nur in A
exprimiert
– Grün: Gen nur in B
exprimiert
– Gelb: Gen in A und B
exprimiert
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
26
Probleme
• Bilderkennung
• Signalverarbeitung
• Hintergrundleuchten
• Normalisierung
• Ab wann haben
Expressionsunterschiede
biologische Bedeutung ?
• Später
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
27
Oligo Chips
• Oligonukleotide: kurze Sequenzstücke (15-80)
• Oligo Chips
– Array enthält Oligos (statt kompletter cDNA)
– Oligosequenzen aus cDNA Sequenzen abgeleitet
– In-situ Synthetisierung: Oligos auf Array erzeugen
• Vorteile
–
–
–
–
Beliebige Sequenzen können getestet werden
Höhere Dichte ( ~400.000 Oligos auf Chip)
Höhere Genauigkeit durch mehrere Oligos pro Gen
Robusteres Verfahren
• Kommerzielles System: Affymetrix GeneChips
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
28
Oligo in-situ Synthetisierung
• Voraussetzung: photo-chemische DNA-Bindung
• Verfahren
Chip mit Base X∈{A,C,G,T} fluten
Belichtungsmaske berechnen
Array belichten: In belichteten
Zellen bindet X an Chip
Array waschen
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
29
Affy GeneChips
1,28
cm
• Bis zu 400.000 Zellen
• Pro Zelle 1 Oligo
• Redundante Auslegung
• 20 Matches pro Gen
• 20 Mismatches
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
30
Einschub: Algorithmische Probleme mit
Oligo Chips
• Bestimmung der Oligo Sequenzen
– Cross-Hybridisierung verhindern
• „Differenzierende“ Oligos
– Selbsthybridisierung verhindern
• Keine „komplementären Repeats“
– Optimierungsproblem
• Reihenfolge der Basen und Belichtungsmasken bei der
In-Situ Synthetisierung
– Minimale Menge von Belichtungen
– Cross-Belichtung minimieren
• Abstände zwischen belichteten Zellen vergrößern
– Optimierungsproblem
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
31
Vergleich cDNA – Oligo Chips
• Oligo Chips
–
–
–
–
Kommerziell, teuer (~ 1000 Euro pro Chip)
Sehr hohe Dichte
Robustes Verfahren → reproduzierbare Ergebnisse
Eigene Chips schwierig zu erstellen
• cDNA Arrays
– Technik in vielen Labors vorhanden
– Geringere Dichte (3000-30.000) → geringere
Redundanz
– Fehleranfälligere Arbeitsschritte
– Schlechtere Vergleichbarkeit von Daten
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
32
Anwendungsgebiete
• Unterschiede in der Genaktivität zwischen Zellen
– Zwischen Geweben / Zelltypen
• Nerven, Haut, Muskel, Gehirn, ...
– Zwischen verschiedenen Spezies
• Mensch, Maus, Fliege, ...
– Zwischen verschiedenen Entwicklungsstadien
• Embryo, Säugling, Jugendlicher, Erwachsener, ...
– Bei unterschiedlichen Umwelteinflüssen
• Temperatur, Nahrung, Medikamente, ...
• Ko-Regulation von Genen
– Gleiche Aktivitätsmuster – gleiche Aufgabe?
– Gleiche Aktivitätsmuster – gleiche Regulation?
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
33
Diagnostik
• Finden typischer Genexpressionsmuster
• Reportergene, Tumormarker
– Screenen aller Gene, Finden der charakteristischen
• Differentielle Diagnostik von Tumoren
• Personalisierte Medizin
– Individuelle Medikamentwirksamkeit
– Pharmokogenomics
¾ Zuordnung von Genexpressionsmustern zu
Phänotypen
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
34
Systematische Probleme
• Gesund–krank Messung schwierig
– Genexpression ist in Zellen immer unterschiedlich
(Phase in „Cell Cycle“, Umgebung, Vorfahren, ...)
– Unterschiede zwischen zwei gesunden Zellen u.U. größer als
zwischen Gesund – Krank
– Tumore: Schwierig, reine Samples zu bekommen
(Tumor–Gesund Gemische)
• Genrepräsentation
– Viele Gene nur selten und in geringer Dosis aktiv
(insbesondere embryonale Zellen)
– Geringe / fehlende Repräsentation in cDNA Libraries
– Geringe Menge in Samples – nicht nachweisbares Signal
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
35
Systematische Probleme 2
• RNA Isolierung
– Jede Zellmanipulation zur Verarbeitung induziert Veränderung in
Genexpression (Stress, Apoptose, ...)
– Verfälscht das Ergebnis ungewollt
• Aktivitätszeiträume
– Signalschritte sind teilweise sehr schnell (<1sec)
– Wichtige Zwischenschritte in Reaktionsketten werden übersehen
– Oder: extrem viele Samples notwendig
• Ursache – Wirkung nicht trennbar
– Primär-, Sekundäreffekte: Tumor (primär) führt zu erhöhter
Zellteilung (sekundär) mit 100en aktivierten Genen
¾ Schwierig, charakteristische Effekte zu finden
¾ Schwierig, Vergleichbarkeit von Daten herzustellen
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
36
Normalisierung
• Intensitäten verschiedener Experimente sind
nicht vergleichbar
– Anzahl Zellen zur Sampleaufbereitung
– Menge von mRNA in Zellen
– Experimentelle Parameter (Temperatur, Chemikalien,
Dauer, ...)
– Sensitivität der Messung (Kamera, Laser)
– ...
¾ Normalisierung
¾ Metadaten
Jetzt
Später
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
37
Normalisierungsverfahren
• Normalisieren auf mRNA Menge in Sample
– Messen der totalen mRNA Menge in Sample
– Teilen aller Intensitäten durch diesen Wert
– Annahme: „Zellen produzieren proportionale RNA
Mengen“
• Referenzgene
– Auswahl von „Housekeeping“ Genen
– Teilen aller Intensitäten durch deren Intensität
– Annahme: „Bestimmte Gene sind immer gleich
exprimiert“
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
38
Normalisierungsverfahren
• Referenz RNA
– Zugabe von festen Mengen bekannter RNA zum Sample
– Teilen aller Intensitäten durch gemessene Intensitäten dieser
Peaks
– Unterschiede im Protokoll nach der Zugabe können nivelliert
werden (zu spät...)
• Globale Skalierung
– Summe aller Intensitäten in Array berechnen
– Teilen aller Intensitäten durch diese Summe
– Reine Skalierung, Proportionen bleiben erhalten, absolute Werte
bedeutungslos
– Gewährleistet bestenfalls Vergleichbarkeit innerhalb eines festen
Protokolls
• Aber das mit wenig Zusatzannahmen
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
39
Zusammenfassung
• Verschiedene Techniken
– cDNA:
– Oligo:
cDNA Library & Hybridisierung
Artifizielle Oligos & Hybridisierung
• Probleme
– Bilderkennung und Signalzuordnung
– Normalisierung
– „Ceteri Paribus“ Annahme praktisch immer falsch
• Vielfältige Möglichkeiten
– Differentielle Diagnose
– Erkenntnisse über Zusammenspiel von Genen in Pathways
• Mainstreamtechnik
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
40
Vergleich Genexpression - Sequenzierung
• Genomsequenzierung
–
–
–
–
Sequenz ist stabil
Praktisch identisch innerhalb einer Spezies
Einmal sequenziert – für immer richtig
Sequenz ist „richtig“ – nur kleine Fehler
• Genexpression
– Abhängig von vielen Faktoren: Zelltyp, Umgebung,
Vergangenheit, Entwicklungsstufe, Eltern, ...
– Messungen schwer vergleichbar, da nie alle
Umgebungsvariablen gleich sind
– Eine „normale“ Genexpression gibt es nicht
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
41