EST/cDNA, Technik von Microarrays

Transcrição

Molekularbiologische
Datenbanken
ESTs und cDNAs
Microarrays
Ulf Leser
Wissensmanagement in der
Bioinformatik
Sequenzierung
• Methode nach Sanger
• Verarbeitungsschritte
– Base Calling
– Assembly
– Finishing
Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, Sommersemester 2004
2
Biotechnologie
Primer
Template
ACGAACGCGAGTTAGTTAGACCAGTAGCCA...
Polymerase
ACGAACG
C
A ACT A A
GA C
G
A
T
T
C
G A C
T
G
G
G CT A
C T GC T
TG
ACGAACGCGAGTTA
ACGAACGCGAG
ACGAACGCGAGTTAGTT
ACGAACGCGAGTTAGTTAGT
ACGAACGCGA
3
Rohergebnisse
4
Base Calling in PHRED (Sketch)
[EHWG98]
• PHRED: Heuristischer, hochgradig getunter
Algorithmus
• Schritt 1: Berechnung der erwarteten
Peakpositionen
– Erster Schritt: Finden von vermutlichen Peaks
– Berechnung der durchschnittlichen Peakabstände
– Sliding Window von 200 Tracepoints (zum Ausgleich
sich kontinuierlich ändernder Perioden)
– Bestimmung der Periode durch Sinuskurve
– Erwarteter Peak = Zentrum der Sinuskurve
– Iteratives Verschiebung des Fensters
5
Assembly – Abstrakte Formulierung
• SUPERSTRING
– Geg.: Menge S von Strings
– Ges.: String T so, dass
• (a) ∀s∈S: s∈T
• (b) ∀T‘, für die (a) gilt, gilt: |T| ≤ |T‘|
(s Substring von T)
( T ist minimal)
– NP-vollständiges Problem
• Verschärfungen
– Fehler in Sequenzen (s „ungefähr Substring“ von T)
– Zwei Orientierungen von s möglich
– Gaps
¾ Heuristische Verfahren
6
Finishing – Neue Reads
Gaps
Geringe Redundanz
Low quality
• Auswahl (möglichst weniger) neuer Reads
–
–
–
–
Design spezifischer Primer
Gezielte Selektion von Clonen aus Shotgun–Bibliothek
Sequenzierrichtung / - technik ändern
Neue Reads – neues Assembly
7
Feature von BIOENTRY_ID
Location: SEQFEATURE_LOCATION
Qualifier: SEQFEATURE_QUALIFIER_VALUE
Key:
ONTOLOGY_TERM
Label:
SEQFEATURE_SOURCE_ID
Wert:
QUALIFIER_VALUE
BioSQL Feature
8
EMBL Feature 2
9
Inhalt dieser Vorlesung
•
•
•
•
•
•
ESTs und cDNA Bibliotheken
EST Clustering
Genexpression - Grundidee
cDNA Arrays
Oligo Arrays
Anwendungsgebiete
10
DNA -> Protein
• Zentrales Dogma
– DNA
– RNA
– Protein
• RNA editing
– 5‘ CAP
– 3‘ PolyA Tail
– Splicing
¾ messenger RNA
(mRNA)
11
mRNA - cDNA
• Trick: Rück-Übersetzung von mRNA in cDNA
– cDNA = complementary DNA
– Herstellung benötigt Enzym Reverse Transcriptase (RT)
– Wo setzt man den Primer an?
• Am PolyA Tale
• Zufällige Oligomere – klappt oder klappt nicht
• Clonierung der cDNA in Libraries
12
Reverse Transcriptase
Retroviren
(z.B. HIV)
Quelle: Kimball's Biology Pages
13
cDNA Bibliotheken
• cDNAs: Gene / kodierende Regionen
– Viel interessanter als genomische DNA
• Differential Splicing – verschiedene cDNAs eines
Gens
• cDNA enthält (meist) PolyA und 3‘ Ende
• cDNA enthält (oft) nicht 5‘ Ende
• Inhalt einer cDNA Bibliothek abhängig von
– Gewebe
– Entwicklungsstadium (Embryo - Erwachsen)
– Organismusstatus (Krank – Gesund)
14
cDNA -> EST
• EST: Expressed Sequence Tags
• EST Erzeugung
–
–
–
–
„Single Read“ Sequenzierung der cDNA
Ausgerichtet auf sehr hoher Durchsatz
Einmalige Sequenzierung mit kurzen Reads (400 – 600 Basen)
Inkaufnahme geringer Genauigkeit (2-3% Basenfehler)
• Sehr populär (Stand 4/2003)
– 8 von 30GB in Genbank
– 16 von 23 Millionen Submissions in Genbank
– Ca. 4.500.000 humane ESTs
• Warum?
– Sehr schnelle Methode, um Gene zu finden
– Interessante Regionen werden dann konventionell sequenziert
• Und damit hat man dann das komplette Gen
– Aber: Vermutlich sind nicht alle Gene in cDNA Bibliotheken enthalten
15
EST Clustering
• 4.5 Millionen ESTs – wie viele Gene ?
¾ Clustern der EST nach Sequenzüberlappungen
• Ähnlich Assembly, aber
• Hohe Fehlerrate in Sequenz
• Differential Splicing
• ESTs sind auf Exons zusammengesetzt
• Überlappungen liegen in „Blöcken“ vor
• Löcher dazwischen (gespleisste Exons) stören nicht
• Verwendung spezieller Algorithmen
• Vorsicht beim Vergleich mit genomischer DNA: keine Introns
Original Gen
(ohne Introns)
Mögliche EST Varianten
16
UniGene
[PWS02]
• Unterscheidung von cDNA und EST Sequenzen
– cDNA: Bessere Qualität, länger, höhere Redundanz, weniger
vorhanden
– EST: Geringe Qualität, kurz, sehr viele vorhanden
• Heuristisches, mehr-phasiges Verfahren
– Entfernen von Low-Quality Regions, Repeats, Kontamination
– Clustern aller cDNA, dann clustern aller EST in Genbank (MegaBlast)
• Lokales Alignment
• Zu wenig Toleranz - false negatives wegen Sequenzierfehlern
• Zu hohe Toleranz - false positives, z.B.: durch Pseudogene
– Mergen der Cluster bei Sequenzüberlappung
– Mergen der Cluster, wenn ein EST von einer cDNA abstammt
• Annotation
– Anchoring: Nur Gene mit 3‘ (PolyA oder Annotation) behalten
• Dadurch jedes Gen nur einmal repräsentiert
– Singleton cDNA und ESTs erneut mit geringerer Spezifität vergleichen
und bei Treffer dem Cluster zuordnen
• Wöchentliche
Aktualisierung
Ulf Leser: Molekularbiologische
Datenbanken, Vorlesung, Sommersemester 2004
17
UniGene Ergebnisse
• Bewertung
– Heuristisches Verfahren ohne Garantie „optimaler“ Lösung
– Clustern können sich von Woche zu Woche ändern
(keine stabilen „Gene“ => nicht auf Cluster-IDs verweisen)
• Ergebnis 4/2003
– 110.000 Cluster (wie viele Gene hat der Mensch?)
– Sequenzen pro Cluster: Von 1 (40.000) bis 30.000 (wenige)
– Ca. 70% bestehen nur aus ESTs
• Andere Verfahren
– STACK: d2_cluster (q-grams), Assemblies mit PHRAP
– TIGR Gene Index: Assemblies mit CAP3
18
Microarrays - Grundidee
• Wir haben jetzt cDNA Bibliotheken
• Durch Clustering kann man auch
redundanzarme Bibliotheken erstellen
• Was kann man damit machen?
–
–
–
–
–
Microarrays, Genchips, Genexpressionmessung
Bibliothek alles cDNA (z.B: UniGene): Probe
cDNAs aus Zellen extrahieren: Sample
cDNAs in Sample hybridisieren mit cDNAs als Probe
Messen der Expressionsniveaus aller Gene einer
bestimmten Zelle zu einem bestimmten Zeitpunkt
19
Anwendung von Microarrays
• Krankheiten mit „einfachen“ genetischen Ursachen
– Mukoviszidose, cystische Fibrose, Huntington‘s, DMD
¾ Diagnose: Nachweis von Mutationen
• Krankheiten mit komplexen genetischen Faktoren
– Volkskrankheiten: Diabetis, Alzheimer, HerzKreislauferkrankungen, ...
– Tumore
¾ Alle nach heutigem Kenntnisstand nicht monokausal
¾ Nachweis von einzelnen Mutationen nicht ausreichend
¾ Hoffnung: Messen von Unterschieden in Expression vieler Gene
20
Differentielle Expressionsanalyse
Gesundes Gewebe
Krankes Gewebe
Differenz in
Expression ?
21
Probenaufbereitung
•
•
•
•
cDNA Library vervielfältigen (PCR)
Auf Array aufbringen
Jede Zelle entspricht einem Gen (idealisiert)
Array-Layout: Redundanz, feste Proben,
Abstandsmaximierung, ...
S1
S2
S3
S4
S5
S6
…
Z1
G001
G100
G200
...
...
...
...
Z2
G002
...
...
...
...
...
...
Z3
G003
...
...
...
...
...
...
Z4
G004
...
...
...
...
...
...
Z5
G005
...
...
...
...
...
...
Z6
G006
...
...
...
...
...
...
...
...
...
...
...
...
...
...
22
Sampleaufbereitung
•
•
•
•
Isolierung einer Zelle im Zustand X
Extraktion aller RNA
Umwandlung in cDNA
Markierung der cDNA mit Farbstoff
¾ Pipette mit markierter cDNA aller in der Zelle im
Zustand X exprimierten Gene
23
Ablauf
Referenzarray
(Probe)
Zellprobe
(Sample)
Hybridisierung
Sample-cDNA hybridisiert mit
Proben-cDNA
Arrayaufbereitung
Entfernen nicht hybridisierter
Sample cDNA
Scanning
Laserabtastung des Arrays
TIFF Bild
Bilderkennung
Erkennen von Lichtpunkten,
Intensität und Koordinaten
Rohdaten
24
Zweifarbenaufnahmen
• Quantifizierung des Expressionsniveau ist extrem
schwierig
– Warum? Später
• Ziel ist meistens auch nur, Unterschiede in Expression
zu finden
– Ausreichend für Klassifizierung
– Absolute Werte nicht notwendig
• Zwei Samples auf einem Array
– Gesund – Krank
– Unterschiedlicher Farbstoff (rot, grün)
– Laserabtastung auf zwei Wellenlängen
• Vorteil
– Unterschiede in Proben, Array, Scanner nivelliert
25
Ergebnis
• Sample A: rot
• Sample B: grün
• Verhältnis Rot/Grün
– Dunkel: Gen weder in
A noch B exprimiert
– Rot: Gen nur in A
exprimiert
– Grün: Gen nur in B
exprimiert
– Gelb: Gen in A und B
exprimiert
26
Probleme
• Bilderkennung
• Signalverarbeitung
• Hintergrundleuchten
• Normalisierung
• Ab wann haben
Expressionsunterschiede
biologische Bedeutung ?
• Später
27
Oligo Chips
• Oligonukleotide: kurze Sequenzstücke (15-80)
• Oligo Chips
– Array enthält Oligos (statt kompletter cDNA)
– Oligosequenzen aus cDNA Sequenzen abgeleitet
– In-situ Synthetisierung: Oligos auf Array erzeugen
• Vorteile
–
–
–
–
Beliebige Sequenzen können getestet werden
Höhere Dichte ( ~400.000 Oligos auf Chip)
Höhere Genauigkeit durch mehrere Oligos pro Gen
Robusteres Verfahren
• Kommerzielles System: Affymetrix GeneChips
28
Oligo in-situ Synthetisierung
• Voraussetzung: photo-chemische DNA-Bindung
• Verfahren
Chip mit Base X∈{A,C,G,T} fluten
Belichtungsmaske berechnen
Array belichten: In belichteten
Zellen bindet X an Chip
Array waschen
29
Affy GeneChips
1,28
cm
• Bis zu 400.000 Zellen
• Pro Zelle 1 Oligo
• Redundante Auslegung
• 20 Matches pro Gen
• 20 Mismatches
30
Einschub: Algorithmische Probleme mit
Oligo Chips
• Bestimmung der Oligo Sequenzen
– Cross-Hybridisierung verhindern
• „Differenzierende“ Oligos
– Selbsthybridisierung verhindern
• Keine „komplementären Repeats“
– Optimierungsproblem
• Reihenfolge der Basen und Belichtungsmasken bei der
In-Situ Synthetisierung
– Minimale Menge von Belichtungen
– Cross-Belichtung minimieren
• Abstände zwischen belichteten Zellen vergrößern
– Optimierungsproblem
31
Vergleich cDNA – Oligo Chips
• Oligo Chips
–
–
–
–
Kommerziell, teuer (~ 1000 Euro pro Chip)
Sehr hohe Dichte
Robustes Verfahren → reproduzierbare Ergebnisse
Eigene Chips schwierig zu erstellen
• cDNA Arrays
– Technik in vielen Labors vorhanden
– Geringere Dichte (3000-30.000) → geringere
Redundanz
– Fehleranfälligere Arbeitsschritte
– Schlechtere Vergleichbarkeit von Daten
32
Anwendungsgebiete
• Unterschiede in der Genaktivität zwischen Zellen
– Zwischen Geweben / Zelltypen
• Nerven, Haut, Muskel, Gehirn, ...
– Zwischen verschiedenen Spezies
• Mensch, Maus, Fliege, ...
– Zwischen verschiedenen Entwicklungsstadien
• Embryo, Säugling, Jugendlicher, Erwachsener, ...
– Bei unterschiedlichen Umwelteinflüssen
• Temperatur, Nahrung, Medikamente, ...
• Ko-Regulation von Genen
– Gleiche Aktivitätsmuster – gleiche Aufgabe?
– Gleiche Aktivitätsmuster – gleiche Regulation?
33
Diagnostik
• Finden typischer Genexpressionsmuster
• Reportergene, Tumormarker
– Screenen aller Gene, Finden der charakteristischen
• Differentielle Diagnostik von Tumoren
• Personalisierte Medizin
– Individuelle Medikamentwirksamkeit
– Pharmokogenomics
¾ Zuordnung von Genexpressionsmustern zu
Phänotypen
34
Systematische Probleme
• Gesund–krank Messung schwierig
– Genexpression ist in Zellen immer unterschiedlich
(Phase in „Cell Cycle“, Umgebung, Vorfahren, ...)
– Unterschiede zwischen zwei gesunden Zellen u.U. größer als
zwischen Gesund – Krank
– Tumore: Schwierig, reine Samples zu bekommen
(Tumor–Gesund Gemische)
• Genrepräsentation
– Viele Gene nur selten und in geringer Dosis aktiv
(insbesondere embryonale Zellen)
– Geringe / fehlende Repräsentation in cDNA Libraries
– Geringe Menge in Samples – nicht nachweisbares Signal
35
Systematische Probleme 2
• RNA Isolierung
– Jede Zellmanipulation zur Verarbeitung induziert Veränderung in
Genexpression (Stress, Apoptose, ...)
– Verfälscht das Ergebnis ungewollt
• Aktivitätszeiträume
– Signalschritte sind teilweise sehr schnell (<1sec)
– Wichtige Zwischenschritte in Reaktionsketten werden übersehen
– Oder: extrem viele Samples notwendig
• Ursache – Wirkung nicht trennbar
– Primär-, Sekundäreffekte: Tumor (primär) führt zu erhöhter
Zellteilung (sekundär) mit 100en aktivierten Genen
¾ Schwierig, charakteristische Effekte zu finden
¾ Schwierig, Vergleichbarkeit von Daten herzustellen
36
Normalisierung
• Intensitäten verschiedener Experimente sind
nicht vergleichbar
– Anzahl Zellen zur Sampleaufbereitung
– Menge von mRNA in Zellen
– Experimentelle Parameter (Temperatur, Chemikalien,
Dauer, ...)
– Sensitivität der Messung (Kamera, Laser)
– ...
¾ Normalisierung
¾ Metadaten
Jetzt
Später
37
Normalisierungsverfahren
• Normalisieren auf mRNA Menge in Sample
– Messen der totalen mRNA Menge in Sample
– Teilen aller Intensitäten durch diesen Wert
– Annahme: „Zellen produzieren proportionale RNA
Mengen“
• Referenzgene
– Auswahl von „Housekeeping“ Genen
– Teilen aller Intensitäten durch deren Intensität
– Annahme: „Bestimmte Gene sind immer gleich
exprimiert“
38
Normalisierungsverfahren
• Referenz RNA
– Zugabe von festen Mengen bekannter RNA zum Sample
– Teilen aller Intensitäten durch gemessene Intensitäten dieser
Peaks
– Unterschiede im Protokoll nach der Zugabe können nivelliert
werden (zu spät...)
• Globale Skalierung
– Summe aller Intensitäten in Array berechnen
– Teilen aller Intensitäten durch diese Summe
– Reine Skalierung, Proportionen bleiben erhalten, absolute Werte
bedeutungslos
– Gewährleistet bestenfalls Vergleichbarkeit innerhalb eines festen
Protokolls
• Aber das mit wenig Zusatzannahmen
39
Zusammenfassung
• Verschiedene Techniken
– cDNA:
– Oligo:
cDNA Library & Hybridisierung
Artifizielle Oligos & Hybridisierung
• Probleme
– Bilderkennung und Signalzuordnung
– Normalisierung
– „Ceteri Paribus“ Annahme praktisch immer falsch
• Vielfältige Möglichkeiten
– Differentielle Diagnose
– Erkenntnisse über Zusammenspiel von Genen in Pathways
• Mainstreamtechnik
40
Vergleich Genexpression - Sequenzierung
• Genomsequenzierung
–
–
–
–
Sequenz ist stabil
Praktisch identisch innerhalb einer Spezies
Einmal sequenziert – für immer richtig
Sequenz ist „richtig“ – nur kleine Fehler
• Genexpression
– Abhängig von vielen Faktoren: Zelltyp, Umgebung,
Vergangenheit, Entwicklungsstufe, Eltern, ...
– Messungen schwer vergleichbar, da nie alle
Umgebungsvariablen gleich sind
– Eine „normale“ Genexpression gibt es nicht
41

EST/cDNA, Technik von Microarrays

Transcrição

Documentos relacionados

Motive in Sequenzen - Hu

Datenmodelle

Multidimensionale Modellierung

PH Studi-News Ausgabe Februar 2014

OLAP Operationen, ME/R, Summierbarkeit

Data Warehousing

Einführung in Datenbanken und das WWW

Unser Angebot für Sie... - Schloss Apotheke Ettlingen

7 Normandie, Juli 1944 In der Ferne war das Brummen schwerer

deutsch

Thomas Klinkert

Januar 2015 - SV Funkstreife

Jens Becker - Institut für Technische und Numerische Mechanik

12. Vorlesung vom 29.01.2014

Embodied Conversational Agents

Vorlesungsplan Pathway-Datenbanken - Martin-Luther

3. Finanzierung