Script

Transcrição

Script
Shotgun-Sequenzierprojekt, Genvorhersage,
Promotorvorhersage, komparative Genomvergleiche
Sie werden in diesem Praktikumsteil ein kleines shotgun-DNA-Sequenzierprojekt bearbeiten.
Zum Editieren und Alignieren von shotgun-Rohdaten verwenden Sie hierbei ein
kommerzielles Programm (SeqMan-Option von DNASTAR), das eine semi-automatisierte
Qualitätskontrolle der Reads und eine Eliminierung von störenden Vektorsequenzen
beinhaltet. Die von Ihnen erstellte Contig-Sequenz eines Genomabschnitts der Maus
beinhaltet ein Gen, welches durch Genvorhersageprogramme erkannt und durch einen
Abgleich mit Transkripten der Maus bestätigt werden kann.
Durch einen komparativen Vergleich dieses Genomabschnitts mit anderen Spezies ist es
möglich, konservierte nicht-kodierende Sequenzbereiche zu erkennen, die für die
Promotoraktivität wichtige Elemente beinhalten.
Editieren von Sequenzchromatogrammen (Vorübung)
Das Programm FinchTV ist ein frei verfügbares Werkzeug für das Editieren von
Cromatogrammen.
Ein
Download
ist
über
folgenden
Link
möglich
(http://www.geospiza.com/finchtv/features/index.html). FinchTV beinhaltet eine Reihe von
nützlichen Optionen, so z. B. das Entfernen, Hinzufügen oder Austauschen einzelner oder
mehrerer Basen. Auch ist es möglich, das Chromatogramm in x- und y-Skala zu variieren,
definierte Sequenzabschnitte zu finden, sowie auch mit einem markierten Sequenzabschnitt
aus dem Chromatogramm direkt eine BLAST-Datenbanksuche (NCBI) durchzuführen.
Editieren
Sie
bitte
mithilfe
des
Programms
FinchTV
die
beigefügten
Sequenzchromatogramme. Entfernen Sie dabei nicht lesbare Basen am Beginn wie am Ende
des Chromatogramms und editieren Sie nicht-eindeutig durch das Programm identifizierte
Basen. Verwenden Sie hierbei die gängige IUPAC Nomenklatur.
1
Aufgabe:
a) Sehen Sie sich die Sequenzierungen seq1 und seq2 im Vergleich an. Welche Matrize diente
hier zur Sequenzierung? Interpretieren Sie die auftretenden heterogenen Bereiche.
b) Welche Matrize wurde bei den Sequenzierungen seq3 und seq4 verwendet? Wie erklären
Sie sich die unterschiedliche Leseweite?
c) Um welche Matrize handelt es sich bei den Sequenzierungen seq5 und seq6? Welchen
Unterschied beobachten Sie und wie interpretieren Sie diesen?
d) Wie können Sie den heterogenen Abschnitt in der Sequenzierung seq7 begründen?
2
Shotgun-Sequenzierprojekt eines Genomabschnitts der Maus:
Erstellung eines Contigs mit SeqMan II (DNASTAR)
Ziel ist es nun, Sequenzen eines shotgun-Sequenzierprojektes in Contigs zusammenzufügen.
Hierfür wurde eine PAC-Klon-DNA physikalisch geschert, kleine Fragmente nach dem
‚Polieren’ ihrer Enden in einen SmaI-geschnittenen pUC18-Vektor (glatte Enden und
dephosphoryliert) kloniert und 14 Subklone mit Primern links und rechts des Integrats
(forward und reverse) sequenziert. Die uneditierten forward- und reverse-Sequenzen werden
durch SeqMan II in ihrer Qualität beurteilt bzw. gekürzt und von kontaminierenden
Vektorsequenzen befreit, so dass sie direkt assembliert werden können. Mit diesem Programm
können „Dual-Ends“ (syn. „paired reads“) spezifiziert werden, die weitere
Sequenzierstrategien bis hin zum Schließen aller verbliebenen Lücken erleichtern.
Aufgabe 2:
Wieviele Klone müssen für einen BAC-/PAC-Klon von 100 kb Länge sequenziert werden,
um eine 10fache Abdeckung (Redundanz) zu erreichen, wenn die durchschnittliche Leselänge
einer Sequenz 800 bp beträgt?
3
SeqMan II (DNASTAR):
Die Programmoption SeqMan II des Programmpakets
DNASTAR ermöglicht die Assemblierung großer
Sequenzierprojekte mit mehreren 1000 Sequenzen.
Vorteile dieses Programms bestehen in der integrierten
Möglichkeit, Sequenzen in ihrer Qualität zu evaluieren und
Vektorsequenzen herauszufiltern. Dadurch ist es möglich,
Sequenzen direkt und ohne Vorarbeit (Editieren, Entfernen
der Vektorsequenz) zu assemblieren.
1. Erstellen einer neuen SeqMan II-Datei:
•
Öffnen Sie das Programm auf der Windows-Startleiste unter Programme\
DNASTAR\ SeqMan II
•
Erstellen Sie ein neues Projekt unter File Æ New oder drücken Sie Strg+N.
•
Es öffnet sich das „Unassembled Sequences“-Fenster, in dem die Sequenzen
eingefügt und bearbeitet werden können:
(um zusätzliche Sequenzen zu einem bestehenden Projekt hinzuzufügen, lässt sich
dieses Fenster durch SEQUENCE Æ Add öffnen)
•
Das Einfügen von Sequenzen erfolgt über dieses Fenster durch den Button
„Add Sequences…“. Es öffnet sich ein Fenster, in dem die zu assemblierenden
Sequenzen ausgewählt werden können:
4
•
Wählen sie den Ordner C:\ F1 Kurs\ ContigX und fügen Sie alle abi-Dateien dieses
Orders durch zweimaliges Anklicken oder die „Add Æ“ bzw. „Add All“Schaltfläche in das rechte „Selected-Sequences“-Fenster ein und klicken sie auf
„Done“. Die Dateien erscheinen nun im „Unassembled Sequences“-Fenster in der
Zeile „File“:
2. Entfernen von Sequenzabschnitten geringer Qualität:
Über die Schaltfläche „Trim Ends…“ des „Unassembled Sequences“-Fensters können
Sequenzabschnitte entfernt werden, die durch ihre zu geringe Qualität nicht zur Sicherung
der Consensussequenz beitragen können. Dabei gibt es die Möglichkeit, die Sequenz am
5’ und/oder 3’-Ende um eine bestimmte Basenpaaranzahl über die Auswahl „Fixed“ zu
kürzen oder die integrierte Qualitätsbeurteilung über die Auswahl Quality zu nutzen (das
hier angewendete Qualitätsbeurteilung ist nicht identisch zu dem in der Vorlesung
behandelten PHRED-Algorithmus, jedoch ähnlich).
Da es sich bei Ihren Daten um „Traces“ (Sequenzen mit Chromatogramm) handelt, wählen
Sie hier die „Quality“-Option, die die Form und Intensität der Peaks des Chromatogramms
beurteilt und die Bereiche unterhalb des gesetzten Grenzwertes (Medium) entfernt. Nach
Auswahl der Stringenz „Medium“ wählen Sie „Scan All“, um alle eingefügten Sequenzen
zu beurteilen.
5
SeqMan II ist auch in der Lage, die Qualität von Textdatei-Sequenzen ohne
Chromatogramm-Information zu beurteilen, wenn der Grenzwert zuvor durch die Optionen
„Window Size“ und „Max Ns“ festgelegt wird. Bei den Einstellungen „Window Size“=70
und „Max Ns“=2 werden z.B. alle Sequenzbereiche, die in einem Fenster von 70 bp mehr als
2 nicht definierte Basen („N“) besitzen entfernt.
•
Betrachten Sie sich das „Unassembled Sequences“-Fenster nach Qualitätsbeurteilung
der eingefügten Sequenzen! In der Spalte „Limits“ erkennen Sie jetzt, welche
Sequenzbereiche oberhalb des Grenzwertes lagen und nicht entfernt wurden. Klicken
Sie doppelt auf eine beliebige Sequenz, so dass folgendes Fenster erscheint:
Es ist deutlich zu erkennen, dass hier der Bereich bis zur 39. Base unterhalb des
Grenzwertes lag und entfernt wurde (die Maskierung kann durch Verschieben des
Balkens nach links entfernt werden, wenn Sie der Sequenz dort vertrauen).
3. Entfernen der Vektorsequenz:
Bevor die Vektorsequenz entfernt werden kann, muss definiert werden, in welchen Vektor
und in welche Schnittstelle das Integrat kloniert wurde
(hier: pUC18 in SmaI - CCC|GGG).
6
•
Wählen Sie in der Menüleiste Project Æ Vector Catalog
•
Klicken Sie auf die Schaltfläche „New…“, um einen Vektor hinzuzufügen. Wählen
Sie in dem Ordner C:\ F1 Kurs\ F1 Contig\ VectorData den Vektor pUC18 aus und
klicken Sie auf die Schaltfläche „Öffnen“:
•
Es öffnet sich folgendes Fenster, in dem die Schnittstelle definiert werden muss.
Ändern Sie die Angabe des Vektornamens und der „Clone Site“ entsprechend und
klicken Sie auf „OK“.
7
Lage der SmaI-Schnittstelle in pUC 18
Auch bis zu 60 bp von der SmaISchnittstelle entfernte Insertionspunkte
werden erkannt
•
Bevor Sie den Sequenzen einen Vektor zuordnen können, müssen Sie diese mit
Mausklick und gehaltener „Shift“-Taste markieren. Wählen Sie in einem der beiden
Vektor-„Pull-Down“-Menüs den neu editierten Vektor aus (durch das zweite Menü
könnte ein weiterer Vektor gewählt werden).
•
Der entsprechende Vektor erscheint nun mit vorangehendem Fragezeichen in allen zu
überprüfenden Sequenzen:
•
Um alle Vektorsequenzen zu entfernen, drücken Sie nun auf die Schaltfläche
„Options“ und wählen sie im geöffneten „Preassembly & Assembly Options“-Fenster
die Möglichkeit „Scan for Vector“ aus. Klicken Sie auf „Scan All“:
8
Die Fragezeichen vor dem ausgewählten Vektor wurden durch Häkchen (der
Vektoranteil wurde in dieser Sequenz gefunden und entfernt) bzw. „¿“
(Vektorsequenz in Sequenz nicht gefunden) ersetzt. Das Symbol „Ø“ würde bedeuten,
dass es sich bei der gesamten Sequenz nur um Vektor (=„leerer Klon“) handelt und
diese nicht weiter für das Assembling verwendet wird.
• Klicken Sie doppelt auf eine beliebige Datei im „Unassembled Sequences“-Fenster, in
der die Vektorsequenz entfernt wurde, so dass sich das Fenster mit dem
Chromatogramm öffnet. Hier ist genau zu erkennen, welcher Sequenzbereich als
Vektor identifiziert und entfernt wurde. Erkennen Sie den Anteil der SmaISchnittstelle?
Aufgabe:
Wie erklären Sie sich, dass in einigen Sequenzen kein Vektor erkannt wurde?
9
4. Assemblierung der Sequenzen:
Da Sie die Sequenzen bereits von Bereichen niedriger Qualität und Vektorsequenz befreit
haben, können Sie im Fenster „Options…“ die Schaltflächen „Trim Ends“ und „Scan
for Vector“ deaktivieren. Klicken Sie auf „Scan Later“, so dass diese Optionen bei der
Assemblierung nicht mehr durchgeführt werden.
•
Die Parameter für das Assembling finden Sie in der Menüleiste unter Project →
Parameter → Assembling. Wir sehen uns die ersten 3 Parameter genauer an:
In diesem Beispiel werden
Sequenzen
miteinander
assembliert, wenn jede eine
Länge von mindestens 100 bp
besitzt („Minimum Sequence
Length“) und sie mindestens über
12 bp („Match Size“) zu 80%
übereinstimmen
(„Minimum
Match Percentage“)
•
Ändern Sie die Angaben folgendermaßen: die Assemblierung soll erfolgen, wenn
mindestens 40 bp zu 85% übereinstimmen.
•
Betätigen Sie die Assemble-Schaltfläche des „Unassembled Sequences“-Fenster, so
dass in der unteren Hälfte des rechten Fensters alle assemblierten Sequenzen und in
der oberen Hälfte die zusammengefügten Contigs erscheinen:
10
•
Klicken Sie doppelt auf einen Contig. Es öffnet sich das „Alignment View“-Fenster
des Contigs, in dem die assemblierten Sequenzen und die resultierende ConsensusSequenz dargestellt ist. Die Richtung der Sequenz ist als grüner bzw. roter Pfeil
dargestellt (3’ entspricht der Pfeilspitze). Klicken Sie auf ein graues Dreieck, das sich
vor einer Sequenz befindet, um das Chromatogramm zu sehen:
In der linken Leiste dieses Fensters gibt es einige nützliche Tools:
Heran- bzw. Herauszoomen des „Alignment Views“.
Mit diesem Regler lässt sich die Höhe der Amplitude des Chromatogramms
regulieren.
Festlegung des Ankerpunktes, der beim Editieren die Richtung bestimmt, in
der die Sequenz verschoben wird (bei Auswahl der oberen Schaltfläche wird
die Sequenz nach rechts verschoben)
.
Mit der „Banane“ ist es möglich, ganze Sequenzen manuell zu verschieben.
Mit diesen Schaltflächen kann der Qualitätswert der einzelnen Basen
ausgeblendet
bzw. angezeigt werden. Dieser Wert wird durch die Form
und Höhe der „Peaks“ berechnet. Durch Anklicken der Schaltfläche
werden
Qualitätswerte in einem definierten Fenster angezeigt.
•
Versuchen Sie eine andere Möglichkeit, auf das Chromatogram zurückzugreifen:
markieren Sie eine Stelle in einer oder der Consensus-Sequenz und drücken Sie
„Strg+D“:
11
Es öffnet sich für jede Sequenz ein Fenster mit dem entsprechenden Chromatogramm,
in dem der im „Alignment View“-Fenster ausgewählte Bereich markiert ist.
•
Wechseln Sie in das „Alignment View“-Fenster und sehen Sie sich die Sequenzen
genauer an: beurteilen Sie die automatische Bearbeitung der Sequenzenden. Sie haben
die Möglichkeit, die Enden der Sequenzen durch Klicken und Ziehen mit der Maus zu
verkürzen oder auch die automatisch maskierten Bereiche wieder herzustellen (werden
dann mit gelbem Hintergrund dargestellt). Optimieren Sie die Sequenzenden und
editieren Sie gegebenenfalls die einzelnen Sequenzen im Vergleich mit den jeweiligen
Chromatogrammen.
•
Suchen Sie nun im Alignment nach Konflikten zwischen den einzelnen Sequenzen
(sind rot dargestellt), vergleichen Sie die Chromatogramme miteinander und editieren
Sie die einzelnen Sequenzen. Um eine Position in allen Sequenzen zu verändern,
können Sie auch die Consensussequenz markieren und editieren.
•
Führen Sie dies in allen Contigs durch.
5. Übersichtsansicht:
Um die weitere Strategie der Sequenzierung festzulegen ist es wichtig, einen Überblick
über die bisherigen Sequenzen und deren Richtung zu gewinnen. Dies ist in SeqMan II in
der Menüleiste über Contig → Strategy View möglich.
•
Wechseln Sie in die „Strategy View“-Ansicht:
12
In dieser Ansicht werden die einzelnen Sequenzen durch Pfeile in ihrer Länge, Lage
und Richtung dargestellt.
Die Zeile „Coverage“ zeigt die Absicherung der Consensussequenz: ist eine Region
durch eine dünne rote Linie dargestellt, ist diese nur durch eine Sequenz abgesichert,
bei einer blauen Linie ist die Sequenz durch mehrere Sequenzen des gleichen Stranges
abgesichert und wenn eine Region durch eine grüne Linie dargestellt ist, ist diese
durch Sequenzierung beider Stränge gesichert (nur eine dickere grüne Linie zeigt
jedoch, dass dieser Bereich oberhalb des programmintern definierten Wertes der
minimalen Anzahl jedes Stranges liegt).
Wird das Kästchen vor „Conflicts“ angeklickt, erscheint ein schwarzer Balken, der die
Lage und Stärke (siehe Farbbalken) von uneindeutigen Regionen der Sequenz darstellt. In
dieser Art der Ansicht sind die Sequenzen als einheitlich schwarze
Pfeile
dargestellt,
obwohl jeweils zwei Sequenzen aus der Sequenzierung eines Plasmids hervorgehen. Wie
diese Zuordnung in SeqMan II angezeigt werden kann, wird im nächsten Abschnitt
verdeutlicht.
6. Dual-End-Spezifizierung:
Das Programm kann Sequenzen, die aus zusammengehörigen forward- und reverseSequenzierungen eines Plasmids resultieren, erkennen und darstellen, wenn das
Dateiformat vorher definiert wird. Als Grundlage dienen Ausdrücke der
Programmiersprache PERL.
•
Definieren Sie das Format für forward- und reverse-Sequenzen über Project →
Parameters → Dual End Specifier wie in der folgenden Abbildung:
•
Klicken Sie auf die Schaltfläche „OK“.
Durch diese Definition ordnet das Programm jeweils 2 abi-Sequenzdateien einander
zu, die eine beliebige (aber gleiche) Bezeichnung besitzen und mit den Buchstaben f
(forward) bzw. r (reverse) enden. Das Programm erkennt z.B. die Dateien „1f.abi“ und
„1r.abi“ als forward- und reverse-Sequenzen eines Plasmids.
13
•
Klicken Sie doppelt auf einen Contig und wählen Sie in der Menüleiste „Contig →
Strategy View“ aus:
•
Außer der bekannten Anzeigen wird hier noch die Zeile „Pair Consistency“
angezeigt, die verdeutlicht, ob es sich bei den zugewiesenen Sequenzen unter den
eingestellten Parametern um forward- und reverse-Sequenzierungen eines Plasmids
handeln kann.
Bei dieser Darstellung wird zu jeder forward-Sequenz eines Plasmids (durchgezogener
Pfeil) die zugehörige reverse-Sequenz (gestrichelter Pfeil) angezeigt, wenn diese im
Contig vorhanden ist und umgekehrt. Die stärkere Linie stellt dabei die „echte“
Sequenz dieser Zeile dar, während die dünne Linie die Lage des entsprechenden
Sequenzpartners zeigt. Die Farben der „Dual-Ends“-Pfeile haben die folgende
Bedeutung:
o Schwarz:
es sind keine „Dual-End“-Daten vorhanden oder sie werden
nicht erkannt
o Grün:
„Dual-End“-Daten, die sich im selben Contig befinden
o Hellblau: „Dual-End“-Daten, die sich in verschiedenen Contigs befinden
(und diese Contigs damit indirekt zueinander anordnen)
o Rot: „Dual-End“-Daten, die in Richtung oder Lage nicht miteinander
vereinbar
sind
•
Klicken Sie einmal auf eine grün dargestellte Sequenz:
14
In dieser Abbildung wird deutlich, welche beiden Sequenzen ein Sequenzpaar bilden,
da die markierte Sequenz in beiden Zeilen hervorgehoben wird. In der oberen Zeile ist
der Pfeil fett dargestellt, da es sich hier um die „echte“ Sequenz (in diesem Beispiel:
012f.abi) handelt. In der Zeile des zugehörigen Sequenzpartners (012r.abi) ist diese
zwar markiert, aber durch einen dünnen Pfeil dargestellt, so dass trotz der Anzeige
beider Sequenzen in einer Zeile die Zuordnung dieser klar bleibt.
Aufgabe:
Stellen Sie die relative Reihenfolge der Contigs fest und legen Sie eine Strategie fest, wie Sie
an die noch fehlende Sequenzinformation gelangen!
7. Schließen der Lücken und Exportieren der Consensussequenz:
•
Die Ihnen noch fehlenden Sequenzinformationen finden Sie im Ordner C:\F1 Kurs\
ContigX\ XXX. Fügen Sie diese Sequenzen in das Programm ein, entfernen Sie
Sequenzen schlechter Qualität und Vektorbereiche und assemblieren Sie sie mit Ihren
bereits bestehenden Contigs.
.
•
Editieren Sie nun im Gesamtcontig alle unklaren Bereiche und speichern Sie die
Consenussequenz in der Menüleiste über Contig Æ Save Consensus Æ Single File.
15
„ab initio“ Genvorhersage
Durch HMM-basierte Werkzeug ist es möglich, ab initio eine Vorhersage über die in einer
Genomsequenz enthaltenen Gene zu treffen. Diese Programme kombinieren die Suche nach
offenen Leserahmen mit der Information über Splice-Donor- und -Akzeptor Sites, sowie die
unterschiedliche Basenzusammensetzung innerhalb kodierender und nicht-kodierender
Bereiche.
Aufgabe:
Führen Sie eine Vorhersage der kodierenden Sequenz sowie des Peptids mit Ihrer aus dem
Sequenzierprojekt erhaltenen Genomsequenz durch. Verwenden Sie dabei den GENSCAN
Web Server (http://genes.mit.edu/GENSCAN.html).
Welche Länge besitzt die vorhergesagte kodierende Sequenz und das Peptid? Was fällt Ihnen
am 3’-Ende der Sequenz auf?
Wie viele Introns sind in der Genomsequenz vorhanden?
Notieren Sie Länge, Start- und Endpunkte der Exons.
Führen Sie mit der CDS sowie der Peptidsequenz eine BLAST-Suche durch. Um welches
Gen/Protein handelt es sich? Handelt es sich hierbei um eine korrekte Genvorhersage?
Führen Sie die Genvorhersage nochmals aus. Wählen Sie dabei den Organismus
„Arabidopsis“ aus und vergleichen Sie die Ergebnisse. Warum erhalten Sie bei der Angabe
verschiedener Organismen unterschiedliche Vorhersagen?
16
Extrinsische (Homologie-basierte) Genvorhersage
Um die durchgeführte ab initio-Genvorhersage zu unterstützen können zusätzliche
extrinsische Daten wie z. B. EST- oder cDNA-Sequenzen verwendet werden. Da es sich bei
EST-Sequenzen um kleine ‚Sequenzschnipsel’ handelt, die selten das gesamte Transkript
umfassen, ist es von Vorteil zuerst einen alignierten EST-Cluster passend zu dem potenziellen
Gen zu erstellen. Die daraus resultierende cDNA-Consensussequenz kann dann für ein
Alignment mit der Genomsequenz verwendet werden.
Erstellen eines EST-Clusters
Da Sie bereits in Erfahrung gebracht haben, welches Gen sich in diesem Sequenzabschnitt der
Maus handelt, müssen Sie keine aufwendige BLAST-Suche durchführen, sondern können die
EST-Daten
direkt
mithilfe
der
UniGene-Datenbank
des
NCBI
laden
(http://www.ncbi.nlm.nih.gov/). Wählen Sie hierfür im Pulldown-Menü die Option
„UniGene“ und suchen Sie nach dem bekannten Gen. Sie erhalten eine Liste der Organismen
in denen dieses Gen bisher gefunden wurde. Klicken Sie auf den Link für die UniGene-Daten
der Maus und lassen Sie sich alle ESTs dieses Gens anzeigen.
Aufgabe:
Wie viele ESTs der Maus gibt es für dieses Gen und in welchem Gewebe ist es am stärksten
exprimiert?
Da ein Clustern der gesamten EST-Sequenzen sehr aufwendig wäre, erstellen Sie bitte ein
SeqMan-Alignment sowie die Consensussequenz folgender 8 ESTs:
AK087408 BY724728 CD741489 CX241856 CR519570 BM899392 BQ178892 BU700761
Kopieren Sie die Acc. Nos. in das Suchfeld und wählen dabei die Datenbank „Nucleotide“
aus. Lassen Sie sich die Sequenzen im FASTA-Format als Text anzeigen und kopieren Sie
diesen in ein Text-Dokument, das sie lokal als ESTconsensus.txt abspeichern können.
Starten Sie das Programm EditSeq (DNASTAR) und importieren Sie das FASTA-Dokument.
EditSeq erstellt für jede Sequenz eine seq-Datei, die Sie über SeqMan alignieren können.
Exportieren Sie die Consensussequenz des Alignments.
Aufgabe:
Wie viele 5’- bzw. 3’-EST-Sequenzen beinhaltet das resultierende Alignment? Welche Länge
besitzt die gesamte cDNA des Gens?
17
Erkennen Sie ein mögliches PolyA-Signal? Finden Sie eine Erklärung warum einige der 3’ESTs erst in der Mitte der Sequenz beginnen.
Identifizierung der CDS
Um innerhalb der Consensussequenz der ESTs den offenen Leserahmen von Start- bis
Stopkodon
zu
finden
öffnen
Sie
den
NCBI-ORFfinder
(http://www.ncbi.nlm.nih.gov/projects/gorf/), kopieren Sie die EST-Consensussequenz in das
Feld und starten Sie das Programm.
Aufgabe:
Warum können Sie einige der ORFs direkt von Ihrer Analyse ausschließen?
Testen Sie die Option „redraw“ mit dem Wert 300. Was ändert sich an der Ansicht?
In welchem relevanten Leserahmen liegt der längste ORF?
Wie lang ist dieser ORF in nt und Aminosäuren?
Wählen Sie den längsten relevanten ORF und lassen Sie sich die Proteinsequenz anzeigen.
Mit welchem der 3 Stops endet dieser ORF?
Um zu bestätigen, ob es sich um den ORF des bereits identifzierten Gens handelt, führen Sie
eine BLASTP-Suche direkt oben auf der Seite des ORFfinders durch. Können Sie die
bisherigen Ergebnisse bestätigen?
18
Vergleichen Sie die Ergebnisse der ORF-Suche mit den Daten der Genvorhersage. Was
können Sie über die Genauigkeit der Genvorhersage sagen?
Charakterisierung der Genstruktur
Ausgehend von der Consensussequenz des Sequenzierprojekts und des EST-Clusters können
Sie nun die Struktur des Gens rekonstruieren, indem Sie ein Alignment der cDNA-Sequenz
mit der Genomsequenz durchführen. Verwenden Sie hierfür das NCBI-Tool SPIDEY
(http://www.ncbi.nlm.nih.gov/spidey/), kopieren Sie beide Sequenzen in die entsprechenden
Felder und starten Sie das Programm mit „Align“.
Aufgabe:
Wie viele Introns befinden sich in dem verglichenen Abschnitt und wie lang sind diese?
Vergleichen Sie Ihre Ergebnisse mit der „ab initio“-Genvorhersage. Können Sie die
Vorhersage bestätigen?
Komparativer Genomvergleich
Durch den Vergleich von orthologen Genomabschnitten verschiedener Spezies werden nicht
nur konservierte kodierende Bereiche identifiziert, es können ebenfalls für die Regulation der
Transkription funktionell wichtige nicht-kodierende Regionen erkannt werden. In unserem
Projekt werden Sie nun den sequenzierten Teil-Genomabschnitt auf den gesamten Genbereich
erweitern, dann für dieses Gen wichtige Transkriptionsfaktorbindestellen identifizieren und
letztlich in einem zwischenartlichen Vergleich evolutionär konservierte (hoffentlich
funktionelle) Bindestellen eingrenzen.
Vervollständigen der Genomsequenz der Maus durch Datenbanksuche
Um einen komparativen Vergleich durchführen zu können, laden Sie die komplette MausGenomsequenz des Gens mit den flankierenden Bereichen in der NCBI-Datenbank herunter.
Führen Sie hierfür eine BLAST-Suche mit ihrer Consensussequenz des Sequenzierprojekts
innerhalb des Maus-Genoms durch (http://www.ncbi.nlm.nih.gov/BLAST/). Grenzen Sie
dabei ihre Suche auf die Datenbank „genome (reference only)“ ein. Folgen Sie dem grauen
Kaninchen, also der Schaltfläche „Genome View“ zur Ansicht des MapViewers.
19
Aufgabe:
Auf welchem Chromosom befindet sich das Cytoglobingen (Cygb)? Klicken Sie auf das
entsprechende Chromosom. Mit welchen Exons haben Sie sich bisher beschäftigt und wie
viele Exons besitzt das komplette Gen?
Lassen Sie sich weitere Informationen anzeigen indem Sie in der Spalte „Gene“ auf „Cygb“
klicken. In der Gene-Datenbank finden Sie unter anderem eine Vernetzung zu orthologen
Genen welcher 2 weiteren Spezies?
Wählen Sie unter „Homology“ die MapViewer-Ansicht. Gibt es zwischen den 3 Spezies
Unterschiede in der Genstruktur?
Laden Sie die Cygb-Genomsequenzen der Maus und des Menschen mit jeweils 1000 bp upund downstream herunter. Machen Sie sich zuerst die Lage des Gens auf dem Chromosom
klar. Da Sie für die weitere Analyse das Gen in der richtigen Orientierung angeben müssen,
ist es erforderlich zu wissen, ob Sie die direkte Sequenz oder das reverse Komplement
herunterladen. Die Information, ob das jeweilige Gen auf dem Plus- oder Minus-Strang liegt,
finden Sie durch einen Klick auf das „Cygb“ in der Gene-Datenbank („Symbol: Cygb“).
Welche der beiden Möglichkeiten müssen Sie bei der Maus- bzw. Mensch-Sequenz wählen?
Klicken Sie auf „Cygb“ und wählen die Option „download sequence“ (dl). Falls Sie das
reverse Komplement laden wollen, verändern Sie die Einstellung des Pulldown-Menüs
„Strand“. Erweitern Sie die Sequenz um jeweils 1000 bp, indem Sie in beiden „adjust by“Boxen 1KB eingeben. Die neuen Einstellungen werden übernommen, wenn Sie auf „Change
Region/Strand klicken. Laden Sie nun die Sequenz im FASTA-Format herunter, indem Sie
den Link „Display“ wählen und die dargestellte Sequenz in ein Text-Dokument kopieren, das
Sie lokal als „MmuCygbGenom.fas“ bzw. „HsaCygbGenom.fas“ abspeichern. Speichern Sie
die Mensch-Sequenz zusätzlich im Format GenBank ab.
Identifizierung von Transkriptionsfaktorbindestellen in der Hsa-Cygb-Sequenz
Eine aktuelle Fragestellung in Bezug auf die Expression des Cytoglobingens liegt in der
Regulation unter sauerstoffarmen Bedingungen (Hypoxie). Sie sollen nun klären, ob das
Cytoglobingen Transkriptionsfaktorbindestellen beinhaltet, die bereits in anderen Genen eine
transkriptionelle Regulation unter Hypoxie vermitteln. Solche „hypoxia-responsive-elements“
(HREs) setzen sich aus 2 in einem Sequenzabschnitt von maximal ca. 50 bp nebeneinander
20
liegenden Transkriptionsfaktorbindestellen zusammen. Diese sind entweder 2 Motive für den
„hypoxia-inducible transcription factor“ HIF-1 selbst, oder ein HIF-1-Motiv in Kombination
mit einer weiteren akzessorischen Bindestelle, wie z.B. eine EPO-Box oder eine „HIF
ancillary sequence“ (HAS).
Bindungsstelle
HIF-1
(hypoxia-inducible factor)
Sequenzmotiv
RCGTG (core)
HAS
(HIF ancillary sequence)
Epo-Box
CAGGT (core)
CACAG
Epo-like
CACTG
Referenz
Semenza et al., 1996
Camenisch et al., 2001
Fink et al., 2002
Miyazaki et al., 2002
Kimura et al., 2001
Semenza et al., 1992
Fink et al., 2002
Miyazaki et al., 2002
Palmer et al., 1998
Finden Sie die möglichen durch Hypoxie regulierten Transkriptionsfaktorbindestellen in der
Cytoglobingensequenz des Menschen. Öffnen Sie hierfür das Programm GenPalette v 1.2
(http://www.genepalette.org/) und fügen Sie die Mensch-Sequenz im GenBank-Format über
„File“ „New Sequence“ „GenBank Flat File“ ein.
21
Sie erhalten eine grafische Darstellung des Gens, einen Sequenzüberblick und ein Fenster in
dem markierte Sequenzbereiche dargestellt sind. Im unteren Bereich sehen Sie auf der linken
Seite die Übersicht über die Transkripte dieses Sequenzabschnitts. Auf der rechten Seite ist
ein Überblick über die so genannten „Features“, Sequenzabschnitte, die selbst definiert
werden können oder von GenePalette vordefiniert ausgewählt werden können. So ist es zum
Beispiel möglich, sich vordefinierte Restriktionsschnittstellen anzeigen zu lassen, Motive wie
Transkriptionsfaktorbindestellen müssen jedoch selbst definiert werden, da das Programm
nicht auf Datenbanken für Transkriptionsfaktoren, wie z.B. TRANSFAC
(http://www.biobase-international.com/pages/) , zurückgreifen kann.
Aufgabe:
Suchen Sie nach den in der Tabelle angegebenen Sequenzmotiven, indem Sie unter „Feature“
und „Add Feature“ das jeweilige Motiv definieren. Wie viele Motive finden Sie für die
jeweilige Bindestelle?
In der Grafischen Übersicht gibt es die Möglichkeit, Sequenzabschnitte oder Features zu
markieren. Deckt sich das hier angegebene Transkript mit Ihrer Analyse? Welche Länge
besitzt der 5’ bzw. 3’UTR?
Notieren Sie folgende Werte für das Cytoglobingen von Mensch UND Maus:
Transkriptionsstart und -stop, Anfangs- und Endpunkte der 4 Exons. Erstellen Sie für die
folgende komparative Analyse eine Text-Datei im folgenden Format und speichern Sie diese
lokal als „HsaCygbannot.txt“ bzw. „MmuCygbannot.txt“ ab.
> 100 200 BTNL2
100 120 UTR
121 140 CDS
180 190 CDS
190 200 UTR
< 400 500 ER3
400 500 CDS
22
Komparativer Genomvergleich der Cytoglobingene von Mensch und Maus
Die komparative Genomanalyse macht sich das evolutionäre Prinzip der „negativen,
reinigenden Selektion“ zu Nutze. Demnach liegen funktionelle regulatorische Bereiche bei
verwandten Spezies konserviert vor, da unvorteilhafte Mutationen „weggereinigt“ werden.
Die Herausforderung der Identifizierung und Charakterisierung von cis-regulatorischen
Elementen liegt in der Beschaffenheit der Bindemotive, die meist eine Länge von nur 6-12 bp
besitzen und deshalb sehr häufig zufällig ohne funktionelle Relevanz zufällig in der
Genomsequenz auftreten. Mit rVISTA 2.0 (http://rvista.dcode.org) steht ein Tool zur
Verfügung, das die Suche nach möglichen Transkriptionsfaktorbindestellen mit einer
komparativen Analyse kombiniert und so in der Lage ist, biologisch relevante (=konservierte)
Motive herauszufiltern. Dabei besteht die Möglichkeit auf vordefinierte Position-weightMatrizes der TRANSFAC-Datenbank zurückzugreifen oder auch Konsensussequenzen für
Bindestellen selbst zu definieren.
Aufgabe:
Führen Sie mit dem Tool zPicture (http://zpicture.dcode.org/) ein globales Alignment der
Mensch- und Maus-Cytoglobin-Genomsequenz durch. Maskieren Sie dabei repetitive
Elemente beider Sequenzen. Für die Annotierung verwenden Sie die Dateien „Hsa
Cygbannot.txt“ bzw. „MmuCygbannot.txt“.
Sehen Sie sich die Dot-Plot-Darstellung an. In welchem Sequenzbereich des Cytoglobingens
des Menschen erkennen Sie einen Bereich ohne Sequenzähnlichkeit? Welche Ursachen
könnten Sie sich für einen solchen Abschnitt vorstellen?
23
Lassen Sie sich die Liste der ECRs (evolutinary conserved regions) anzeigen. Wie viele
Regionen von über 100 bp mit 70% Sequenzidentität beinhaltet die Cytoglobinsequenz des
Menschen außerhalb der kodierenden Region? Wie viele Regionen von über 100 bp erhalten
Sie mit einer Sequenzidentität von 95%? Um welche Regionen handelt es sich dabei?
Wählen Sie nun die Ansicht „dynamic visualization“. Sehen Sie hier eine Bestätigung Ihrer
Erklärung des Bereichs ohne Sequenzidentität?
Interpretieren Sie die braun dargestellten Boxen unterhalb der Genannotation. Um welche
Bereiche handelt es sich hier?
Um nach konservierten Transkriptionsfaktorbindestellen zu suchen klicken Sie den rVISTALink. Wählen Sie die Möglichkeit der Definition von Bindestellen durch den Benutzer.
Suchen Sie in dem angegebenen Format nach den bereits oben angegebenen Sequenzmotiven
für HIF-1, HAS, EPO-Box und Epo-like. Wie viele Motive findet rVISTA innerhalb der
Maus- bzw. Menschsequenz und wie viele konservierte Motive enthält das Cytoglobingen?
Lassen Sie sich die Ansicht „dynamic visualization“ anzeigen. Da ein HRE aus 2
benachbarten Motiven besteht, lassen Sie sich hier die in einem Cluster von 50 bp
vorkommenden Bindestellen anzeigen. Verwenden Sie das „Combinatorial clustering“ da ein
HIF-1-Motiv auch mit einem der anderen Motive funktionell sein kann. Kann das
Cytoglobingen durch Hypoxie reguliert werden?
Die hier durchgeführte Analyse zeigt nur einen kleinen Teil der Möglichkeiten der VISTATools.
Diese
sind
in
folgendem
Tutorial
näher
beschrieben
(http://www.openhelix.com/downloads/vista/vista_tutorialhome.shtml).
24
Zusätzliche Übung: Erstellung einer positionsspezifischen Gewichtungsmatrize (PSM) für ein so genanntes NRSE („neuron-restrictive silencer
element“)
Wir haben aus immunhistologischen Daten die Hypothese entwickelt, dass ein weiteres
Vertebratenglobin, das Neuroglobin, wie der Name es bereits andeutet neuronenspezifisch
exprimiert wird. Für eine solche neuronenspezifische Expression sind möglicherweise cisaktive Sequenzen verantwortlich, die man als neuron-restrictive silencer elements (NRSE)
beschrieben hat. Das NRSE ist ein 21 bp langes Sequenzmotiv, das upstream des
Transkriptionsstarts in beiden Orientierungen funktionell sein kann. Das passende
Bindeprotein NRSF („neuron-restrictive silencer factor“) wird fast ausschließlich in nichtneuronalen Zellen gebildet, bindet dort an die Erkennungssequenz und inhibiert auf diese
Weise die Expression von NRSE-haltigen Genen.
Aus der Literatur haben wir Erkennungssequenzen von 16 funktionellen NRSE-Motiven und
deren Homologen aus anderen Spezies, folglich also insgesamt 36 NRSE-Motiven, extrahiert.
Mit diesen Daten soll nun eine „positional frequency matrix“ (PFM) für NRSE erstellt und
mithilfe des Tools MSCAN (http://tfscan.cgb.ki.se/cgi-bin/MSCAN) Bindestellen innerhalb
der Neuroglobinsequenz des Menschen identifiziert werden.
Aufgabe:
Laden Sie die Neuroglobinsequenz aus der Genomsequenz des Menschen mit jeweils 1000
flankierenden Basenpaaren. Speichern Sie diese im FASTA-Format.
(Literatur : http://www.nature.com/nbt/journal/v24/n4/full/nbt0406-423.html)
Um nach bestimmten DNA Motiven suchen zu können, müssen Sie zuerst eine ‚nucleotide
frequency matrix’ zu erstellen:
Links
http://weblogo.berkeley.edu/logo.cgi
http://biodev.hgen.pitt.edu/enologos
25
Wählen Sie das entsprechende ‚input’ Fromat (hier DNA alignment) und klicken Sie auf
‚submit’
Es erscheint ein Beispiel-Eingabeformat. Ersetzen Sie hier den Namen der Analyse und die
vorgegebenen Nucleotidsequenzen mit Ihrem eigenen Alignment (NRSEseqs.txt).
Klicken Sie nun auf
und danach auf ‚text output’
Die generierte Matrix kopieren Sie in den Texteditor (notepad) und speichern Sie dies als
‚NFM.txt’
Diese Datei öffnen Sie mit Excel (2x weiter, 1x fertig stellen anklicken)
Sie müssen diese Daten nun transponieren:
Markieren Sie die Spalte B2-E22 und kopieren Sie dies in die Zwischenablage. Weiter unten
ein leeres Feld anklicken (z.B. A25) und unter dem Menüpunkt ‚Bearbeiten’ auf ‚Inhalte
einfügen’ gehen, das Feld ‚Transponieren’ markieren, und bestätigen (OK klicken).
Markien Sie alle (STRG+A) und klicken sie doppelt auf den senkrechten Strich zwischen
Spalte A und B. Markieren Sie die tranponierte Matrix, fügen Sie sie in den Texteditor im
Fasta Format
>motif
2 0
0 2
1 2
33 32
0 36 0 1 36 0 0 18 3 1 0 35 0 35 0 11 6 3 5
35 0 0 34 0 36 35 0 26 0 0 0 33 0 0 23 2 23 29
0 0 36 0 0 0 0 14 2 35 36 0 3 1 36 0 25 6 0
1 0 0 1 0 0 1 4 5 0 0 1 0 0 0 2 3 4 2
ein und speichern Sie dies unter ‚NFM_trans.txt’.
Alle bisher geöffneten Fenster können nun geschlossen werden (speichern nicht notwendig).
26
Motivsuche
Öffnen Sie die Datei ‚NFM_trans.txt’ und KOPIEREN Sie die Matrix in das vorgegebene Feld
oder ‚UPLOADEN’ Sie die Textdatei.
LADEN/KOPIEREN Sie ebenfalls die gespeicherte Neuroglobinsequenz.
Aufgabe :
Identifizieren Sie ein NRSE-Motiv in der Neuroglobinsequenz. Welche Elemente können Sie
ausschliessen?
27