Script
Transcrição
Script
Shotgun-Sequenzierprojekt, Genvorhersage, Promotorvorhersage, komparative Genomvergleiche Sie werden in diesem Praktikumsteil ein kleines shotgun-DNA-Sequenzierprojekt bearbeiten. Zum Editieren und Alignieren von shotgun-Rohdaten verwenden Sie hierbei ein kommerzielles Programm (SeqMan-Option von DNASTAR), das eine semi-automatisierte Qualitätskontrolle der Reads und eine Eliminierung von störenden Vektorsequenzen beinhaltet. Die von Ihnen erstellte Contig-Sequenz eines Genomabschnitts der Maus beinhaltet ein Gen, welches durch Genvorhersageprogramme erkannt und durch einen Abgleich mit Transkripten der Maus bestätigt werden kann. Durch einen komparativen Vergleich dieses Genomabschnitts mit anderen Spezies ist es möglich, konservierte nicht-kodierende Sequenzbereiche zu erkennen, die für die Promotoraktivität wichtige Elemente beinhalten. Editieren von Sequenzchromatogrammen (Vorübung) Das Programm FinchTV ist ein frei verfügbares Werkzeug für das Editieren von Cromatogrammen. Ein Download ist über folgenden Link möglich (http://www.geospiza.com/finchtv/features/index.html). FinchTV beinhaltet eine Reihe von nützlichen Optionen, so z. B. das Entfernen, Hinzufügen oder Austauschen einzelner oder mehrerer Basen. Auch ist es möglich, das Chromatogramm in x- und y-Skala zu variieren, definierte Sequenzabschnitte zu finden, sowie auch mit einem markierten Sequenzabschnitt aus dem Chromatogramm direkt eine BLAST-Datenbanksuche (NCBI) durchzuführen. Editieren Sie bitte mithilfe des Programms FinchTV die beigefügten Sequenzchromatogramme. Entfernen Sie dabei nicht lesbare Basen am Beginn wie am Ende des Chromatogramms und editieren Sie nicht-eindeutig durch das Programm identifizierte Basen. Verwenden Sie hierbei die gängige IUPAC Nomenklatur. 1 Aufgabe: a) Sehen Sie sich die Sequenzierungen seq1 und seq2 im Vergleich an. Welche Matrize diente hier zur Sequenzierung? Interpretieren Sie die auftretenden heterogenen Bereiche. b) Welche Matrize wurde bei den Sequenzierungen seq3 und seq4 verwendet? Wie erklären Sie sich die unterschiedliche Leseweite? c) Um welche Matrize handelt es sich bei den Sequenzierungen seq5 und seq6? Welchen Unterschied beobachten Sie und wie interpretieren Sie diesen? d) Wie können Sie den heterogenen Abschnitt in der Sequenzierung seq7 begründen? 2 Shotgun-Sequenzierprojekt eines Genomabschnitts der Maus: Erstellung eines Contigs mit SeqMan II (DNASTAR) Ziel ist es nun, Sequenzen eines shotgun-Sequenzierprojektes in Contigs zusammenzufügen. Hierfür wurde eine PAC-Klon-DNA physikalisch geschert, kleine Fragmente nach dem ‚Polieren’ ihrer Enden in einen SmaI-geschnittenen pUC18-Vektor (glatte Enden und dephosphoryliert) kloniert und 14 Subklone mit Primern links und rechts des Integrats (forward und reverse) sequenziert. Die uneditierten forward- und reverse-Sequenzen werden durch SeqMan II in ihrer Qualität beurteilt bzw. gekürzt und von kontaminierenden Vektorsequenzen befreit, so dass sie direkt assembliert werden können. Mit diesem Programm können „Dual-Ends“ (syn. „paired reads“) spezifiziert werden, die weitere Sequenzierstrategien bis hin zum Schließen aller verbliebenen Lücken erleichtern. Aufgabe 2: Wieviele Klone müssen für einen BAC-/PAC-Klon von 100 kb Länge sequenziert werden, um eine 10fache Abdeckung (Redundanz) zu erreichen, wenn die durchschnittliche Leselänge einer Sequenz 800 bp beträgt? 3 SeqMan II (DNASTAR): Die Programmoption SeqMan II des Programmpakets DNASTAR ermöglicht die Assemblierung großer Sequenzierprojekte mit mehreren 1000 Sequenzen. Vorteile dieses Programms bestehen in der integrierten Möglichkeit, Sequenzen in ihrer Qualität zu evaluieren und Vektorsequenzen herauszufiltern. Dadurch ist es möglich, Sequenzen direkt und ohne Vorarbeit (Editieren, Entfernen der Vektorsequenz) zu assemblieren. 1. Erstellen einer neuen SeqMan II-Datei: • Öffnen Sie das Programm auf der Windows-Startleiste unter Programme\ DNASTAR\ SeqMan II • Erstellen Sie ein neues Projekt unter File Æ New oder drücken Sie Strg+N. • Es öffnet sich das „Unassembled Sequences“-Fenster, in dem die Sequenzen eingefügt und bearbeitet werden können: (um zusätzliche Sequenzen zu einem bestehenden Projekt hinzuzufügen, lässt sich dieses Fenster durch SEQUENCE Æ Add öffnen) • Das Einfügen von Sequenzen erfolgt über dieses Fenster durch den Button „Add Sequences…“. Es öffnet sich ein Fenster, in dem die zu assemblierenden Sequenzen ausgewählt werden können: 4 • Wählen sie den Ordner C:\ F1 Kurs\ ContigX und fügen Sie alle abi-Dateien dieses Orders durch zweimaliges Anklicken oder die „Add Æ“ bzw. „Add All“Schaltfläche in das rechte „Selected-Sequences“-Fenster ein und klicken sie auf „Done“. Die Dateien erscheinen nun im „Unassembled Sequences“-Fenster in der Zeile „File“: 2. Entfernen von Sequenzabschnitten geringer Qualität: Über die Schaltfläche „Trim Ends…“ des „Unassembled Sequences“-Fensters können Sequenzabschnitte entfernt werden, die durch ihre zu geringe Qualität nicht zur Sicherung der Consensussequenz beitragen können. Dabei gibt es die Möglichkeit, die Sequenz am 5’ und/oder 3’-Ende um eine bestimmte Basenpaaranzahl über die Auswahl „Fixed“ zu kürzen oder die integrierte Qualitätsbeurteilung über die Auswahl Quality zu nutzen (das hier angewendete Qualitätsbeurteilung ist nicht identisch zu dem in der Vorlesung behandelten PHRED-Algorithmus, jedoch ähnlich). Da es sich bei Ihren Daten um „Traces“ (Sequenzen mit Chromatogramm) handelt, wählen Sie hier die „Quality“-Option, die die Form und Intensität der Peaks des Chromatogramms beurteilt und die Bereiche unterhalb des gesetzten Grenzwertes (Medium) entfernt. Nach Auswahl der Stringenz „Medium“ wählen Sie „Scan All“, um alle eingefügten Sequenzen zu beurteilen. 5 SeqMan II ist auch in der Lage, die Qualität von Textdatei-Sequenzen ohne Chromatogramm-Information zu beurteilen, wenn der Grenzwert zuvor durch die Optionen „Window Size“ und „Max Ns“ festgelegt wird. Bei den Einstellungen „Window Size“=70 und „Max Ns“=2 werden z.B. alle Sequenzbereiche, die in einem Fenster von 70 bp mehr als 2 nicht definierte Basen („N“) besitzen entfernt. • Betrachten Sie sich das „Unassembled Sequences“-Fenster nach Qualitätsbeurteilung der eingefügten Sequenzen! In der Spalte „Limits“ erkennen Sie jetzt, welche Sequenzbereiche oberhalb des Grenzwertes lagen und nicht entfernt wurden. Klicken Sie doppelt auf eine beliebige Sequenz, so dass folgendes Fenster erscheint: Es ist deutlich zu erkennen, dass hier der Bereich bis zur 39. Base unterhalb des Grenzwertes lag und entfernt wurde (die Maskierung kann durch Verschieben des Balkens nach links entfernt werden, wenn Sie der Sequenz dort vertrauen). 3. Entfernen der Vektorsequenz: Bevor die Vektorsequenz entfernt werden kann, muss definiert werden, in welchen Vektor und in welche Schnittstelle das Integrat kloniert wurde (hier: pUC18 in SmaI - CCC|GGG). 6 • Wählen Sie in der Menüleiste Project Æ Vector Catalog • Klicken Sie auf die Schaltfläche „New…“, um einen Vektor hinzuzufügen. Wählen Sie in dem Ordner C:\ F1 Kurs\ F1 Contig\ VectorData den Vektor pUC18 aus und klicken Sie auf die Schaltfläche „Öffnen“: • Es öffnet sich folgendes Fenster, in dem die Schnittstelle definiert werden muss. Ändern Sie die Angabe des Vektornamens und der „Clone Site“ entsprechend und klicken Sie auf „OK“. 7 Lage der SmaI-Schnittstelle in pUC 18 Auch bis zu 60 bp von der SmaISchnittstelle entfernte Insertionspunkte werden erkannt • Bevor Sie den Sequenzen einen Vektor zuordnen können, müssen Sie diese mit Mausklick und gehaltener „Shift“-Taste markieren. Wählen Sie in einem der beiden Vektor-„Pull-Down“-Menüs den neu editierten Vektor aus (durch das zweite Menü könnte ein weiterer Vektor gewählt werden). • Der entsprechende Vektor erscheint nun mit vorangehendem Fragezeichen in allen zu überprüfenden Sequenzen: • Um alle Vektorsequenzen zu entfernen, drücken Sie nun auf die Schaltfläche „Options“ und wählen sie im geöffneten „Preassembly & Assembly Options“-Fenster die Möglichkeit „Scan for Vector“ aus. Klicken Sie auf „Scan All“: 8 Die Fragezeichen vor dem ausgewählten Vektor wurden durch Häkchen (der Vektoranteil wurde in dieser Sequenz gefunden und entfernt) bzw. „¿“ (Vektorsequenz in Sequenz nicht gefunden) ersetzt. Das Symbol „Ø“ würde bedeuten, dass es sich bei der gesamten Sequenz nur um Vektor (=„leerer Klon“) handelt und diese nicht weiter für das Assembling verwendet wird. • Klicken Sie doppelt auf eine beliebige Datei im „Unassembled Sequences“-Fenster, in der die Vektorsequenz entfernt wurde, so dass sich das Fenster mit dem Chromatogramm öffnet. Hier ist genau zu erkennen, welcher Sequenzbereich als Vektor identifiziert und entfernt wurde. Erkennen Sie den Anteil der SmaISchnittstelle? Aufgabe: Wie erklären Sie sich, dass in einigen Sequenzen kein Vektor erkannt wurde? 9 4. Assemblierung der Sequenzen: Da Sie die Sequenzen bereits von Bereichen niedriger Qualität und Vektorsequenz befreit haben, können Sie im Fenster „Options…“ die Schaltflächen „Trim Ends“ und „Scan for Vector“ deaktivieren. Klicken Sie auf „Scan Later“, so dass diese Optionen bei der Assemblierung nicht mehr durchgeführt werden. • Die Parameter für das Assembling finden Sie in der Menüleiste unter Project → Parameter → Assembling. Wir sehen uns die ersten 3 Parameter genauer an: In diesem Beispiel werden Sequenzen miteinander assembliert, wenn jede eine Länge von mindestens 100 bp besitzt („Minimum Sequence Length“) und sie mindestens über 12 bp („Match Size“) zu 80% übereinstimmen („Minimum Match Percentage“) • Ändern Sie die Angaben folgendermaßen: die Assemblierung soll erfolgen, wenn mindestens 40 bp zu 85% übereinstimmen. • Betätigen Sie die Assemble-Schaltfläche des „Unassembled Sequences“-Fenster, so dass in der unteren Hälfte des rechten Fensters alle assemblierten Sequenzen und in der oberen Hälfte die zusammengefügten Contigs erscheinen: 10 • Klicken Sie doppelt auf einen Contig. Es öffnet sich das „Alignment View“-Fenster des Contigs, in dem die assemblierten Sequenzen und die resultierende ConsensusSequenz dargestellt ist. Die Richtung der Sequenz ist als grüner bzw. roter Pfeil dargestellt (3’ entspricht der Pfeilspitze). Klicken Sie auf ein graues Dreieck, das sich vor einer Sequenz befindet, um das Chromatogramm zu sehen: In der linken Leiste dieses Fensters gibt es einige nützliche Tools: Heran- bzw. Herauszoomen des „Alignment Views“. Mit diesem Regler lässt sich die Höhe der Amplitude des Chromatogramms regulieren. Festlegung des Ankerpunktes, der beim Editieren die Richtung bestimmt, in der die Sequenz verschoben wird (bei Auswahl der oberen Schaltfläche wird die Sequenz nach rechts verschoben) . Mit der „Banane“ ist es möglich, ganze Sequenzen manuell zu verschieben. Mit diesen Schaltflächen kann der Qualitätswert der einzelnen Basen ausgeblendet bzw. angezeigt werden. Dieser Wert wird durch die Form und Höhe der „Peaks“ berechnet. Durch Anklicken der Schaltfläche werden Qualitätswerte in einem definierten Fenster angezeigt. • Versuchen Sie eine andere Möglichkeit, auf das Chromatogram zurückzugreifen: markieren Sie eine Stelle in einer oder der Consensus-Sequenz und drücken Sie „Strg+D“: 11 Es öffnet sich für jede Sequenz ein Fenster mit dem entsprechenden Chromatogramm, in dem der im „Alignment View“-Fenster ausgewählte Bereich markiert ist. • Wechseln Sie in das „Alignment View“-Fenster und sehen Sie sich die Sequenzen genauer an: beurteilen Sie die automatische Bearbeitung der Sequenzenden. Sie haben die Möglichkeit, die Enden der Sequenzen durch Klicken und Ziehen mit der Maus zu verkürzen oder auch die automatisch maskierten Bereiche wieder herzustellen (werden dann mit gelbem Hintergrund dargestellt). Optimieren Sie die Sequenzenden und editieren Sie gegebenenfalls die einzelnen Sequenzen im Vergleich mit den jeweiligen Chromatogrammen. • Suchen Sie nun im Alignment nach Konflikten zwischen den einzelnen Sequenzen (sind rot dargestellt), vergleichen Sie die Chromatogramme miteinander und editieren Sie die einzelnen Sequenzen. Um eine Position in allen Sequenzen zu verändern, können Sie auch die Consensussequenz markieren und editieren. • Führen Sie dies in allen Contigs durch. 5. Übersichtsansicht: Um die weitere Strategie der Sequenzierung festzulegen ist es wichtig, einen Überblick über die bisherigen Sequenzen und deren Richtung zu gewinnen. Dies ist in SeqMan II in der Menüleiste über Contig → Strategy View möglich. • Wechseln Sie in die „Strategy View“-Ansicht: 12 In dieser Ansicht werden die einzelnen Sequenzen durch Pfeile in ihrer Länge, Lage und Richtung dargestellt. Die Zeile „Coverage“ zeigt die Absicherung der Consensussequenz: ist eine Region durch eine dünne rote Linie dargestellt, ist diese nur durch eine Sequenz abgesichert, bei einer blauen Linie ist die Sequenz durch mehrere Sequenzen des gleichen Stranges abgesichert und wenn eine Region durch eine grüne Linie dargestellt ist, ist diese durch Sequenzierung beider Stränge gesichert (nur eine dickere grüne Linie zeigt jedoch, dass dieser Bereich oberhalb des programmintern definierten Wertes der minimalen Anzahl jedes Stranges liegt). Wird das Kästchen vor „Conflicts“ angeklickt, erscheint ein schwarzer Balken, der die Lage und Stärke (siehe Farbbalken) von uneindeutigen Regionen der Sequenz darstellt. In dieser Art der Ansicht sind die Sequenzen als einheitlich schwarze Pfeile dargestellt, obwohl jeweils zwei Sequenzen aus der Sequenzierung eines Plasmids hervorgehen. Wie diese Zuordnung in SeqMan II angezeigt werden kann, wird im nächsten Abschnitt verdeutlicht. 6. Dual-End-Spezifizierung: Das Programm kann Sequenzen, die aus zusammengehörigen forward- und reverseSequenzierungen eines Plasmids resultieren, erkennen und darstellen, wenn das Dateiformat vorher definiert wird. Als Grundlage dienen Ausdrücke der Programmiersprache PERL. • Definieren Sie das Format für forward- und reverse-Sequenzen über Project → Parameters → Dual End Specifier wie in der folgenden Abbildung: • Klicken Sie auf die Schaltfläche „OK“. Durch diese Definition ordnet das Programm jeweils 2 abi-Sequenzdateien einander zu, die eine beliebige (aber gleiche) Bezeichnung besitzen und mit den Buchstaben f (forward) bzw. r (reverse) enden. Das Programm erkennt z.B. die Dateien „1f.abi“ und „1r.abi“ als forward- und reverse-Sequenzen eines Plasmids. 13 • Klicken Sie doppelt auf einen Contig und wählen Sie in der Menüleiste „Contig → Strategy View“ aus: • Außer der bekannten Anzeigen wird hier noch die Zeile „Pair Consistency“ angezeigt, die verdeutlicht, ob es sich bei den zugewiesenen Sequenzen unter den eingestellten Parametern um forward- und reverse-Sequenzierungen eines Plasmids handeln kann. Bei dieser Darstellung wird zu jeder forward-Sequenz eines Plasmids (durchgezogener Pfeil) die zugehörige reverse-Sequenz (gestrichelter Pfeil) angezeigt, wenn diese im Contig vorhanden ist und umgekehrt. Die stärkere Linie stellt dabei die „echte“ Sequenz dieser Zeile dar, während die dünne Linie die Lage des entsprechenden Sequenzpartners zeigt. Die Farben der „Dual-Ends“-Pfeile haben die folgende Bedeutung: o Schwarz: es sind keine „Dual-End“-Daten vorhanden oder sie werden nicht erkannt o Grün: „Dual-End“-Daten, die sich im selben Contig befinden o Hellblau: „Dual-End“-Daten, die sich in verschiedenen Contigs befinden (und diese Contigs damit indirekt zueinander anordnen) o Rot: „Dual-End“-Daten, die in Richtung oder Lage nicht miteinander vereinbar sind • Klicken Sie einmal auf eine grün dargestellte Sequenz: 14 In dieser Abbildung wird deutlich, welche beiden Sequenzen ein Sequenzpaar bilden, da die markierte Sequenz in beiden Zeilen hervorgehoben wird. In der oberen Zeile ist der Pfeil fett dargestellt, da es sich hier um die „echte“ Sequenz (in diesem Beispiel: 012f.abi) handelt. In der Zeile des zugehörigen Sequenzpartners (012r.abi) ist diese zwar markiert, aber durch einen dünnen Pfeil dargestellt, so dass trotz der Anzeige beider Sequenzen in einer Zeile die Zuordnung dieser klar bleibt. Aufgabe: Stellen Sie die relative Reihenfolge der Contigs fest und legen Sie eine Strategie fest, wie Sie an die noch fehlende Sequenzinformation gelangen! 7. Schließen der Lücken und Exportieren der Consensussequenz: • Die Ihnen noch fehlenden Sequenzinformationen finden Sie im Ordner C:\F1 Kurs\ ContigX\ XXX. Fügen Sie diese Sequenzen in das Programm ein, entfernen Sie Sequenzen schlechter Qualität und Vektorbereiche und assemblieren Sie sie mit Ihren bereits bestehenden Contigs. . • Editieren Sie nun im Gesamtcontig alle unklaren Bereiche und speichern Sie die Consenussequenz in der Menüleiste über Contig Æ Save Consensus Æ Single File. 15 „ab initio“ Genvorhersage Durch HMM-basierte Werkzeug ist es möglich, ab initio eine Vorhersage über die in einer Genomsequenz enthaltenen Gene zu treffen. Diese Programme kombinieren die Suche nach offenen Leserahmen mit der Information über Splice-Donor- und -Akzeptor Sites, sowie die unterschiedliche Basenzusammensetzung innerhalb kodierender und nicht-kodierender Bereiche. Aufgabe: Führen Sie eine Vorhersage der kodierenden Sequenz sowie des Peptids mit Ihrer aus dem Sequenzierprojekt erhaltenen Genomsequenz durch. Verwenden Sie dabei den GENSCAN Web Server (http://genes.mit.edu/GENSCAN.html). Welche Länge besitzt die vorhergesagte kodierende Sequenz und das Peptid? Was fällt Ihnen am 3’-Ende der Sequenz auf? Wie viele Introns sind in der Genomsequenz vorhanden? Notieren Sie Länge, Start- und Endpunkte der Exons. Führen Sie mit der CDS sowie der Peptidsequenz eine BLAST-Suche durch. Um welches Gen/Protein handelt es sich? Handelt es sich hierbei um eine korrekte Genvorhersage? Führen Sie die Genvorhersage nochmals aus. Wählen Sie dabei den Organismus „Arabidopsis“ aus und vergleichen Sie die Ergebnisse. Warum erhalten Sie bei der Angabe verschiedener Organismen unterschiedliche Vorhersagen? 16 Extrinsische (Homologie-basierte) Genvorhersage Um die durchgeführte ab initio-Genvorhersage zu unterstützen können zusätzliche extrinsische Daten wie z. B. EST- oder cDNA-Sequenzen verwendet werden. Da es sich bei EST-Sequenzen um kleine ‚Sequenzschnipsel’ handelt, die selten das gesamte Transkript umfassen, ist es von Vorteil zuerst einen alignierten EST-Cluster passend zu dem potenziellen Gen zu erstellen. Die daraus resultierende cDNA-Consensussequenz kann dann für ein Alignment mit der Genomsequenz verwendet werden. Erstellen eines EST-Clusters Da Sie bereits in Erfahrung gebracht haben, welches Gen sich in diesem Sequenzabschnitt der Maus handelt, müssen Sie keine aufwendige BLAST-Suche durchführen, sondern können die EST-Daten direkt mithilfe der UniGene-Datenbank des NCBI laden (http://www.ncbi.nlm.nih.gov/). Wählen Sie hierfür im Pulldown-Menü die Option „UniGene“ und suchen Sie nach dem bekannten Gen. Sie erhalten eine Liste der Organismen in denen dieses Gen bisher gefunden wurde. Klicken Sie auf den Link für die UniGene-Daten der Maus und lassen Sie sich alle ESTs dieses Gens anzeigen. Aufgabe: Wie viele ESTs der Maus gibt es für dieses Gen und in welchem Gewebe ist es am stärksten exprimiert? Da ein Clustern der gesamten EST-Sequenzen sehr aufwendig wäre, erstellen Sie bitte ein SeqMan-Alignment sowie die Consensussequenz folgender 8 ESTs: AK087408 BY724728 CD741489 CX241856 CR519570 BM899392 BQ178892 BU700761 Kopieren Sie die Acc. Nos. in das Suchfeld und wählen dabei die Datenbank „Nucleotide“ aus. Lassen Sie sich die Sequenzen im FASTA-Format als Text anzeigen und kopieren Sie diesen in ein Text-Dokument, das sie lokal als ESTconsensus.txt abspeichern können. Starten Sie das Programm EditSeq (DNASTAR) und importieren Sie das FASTA-Dokument. EditSeq erstellt für jede Sequenz eine seq-Datei, die Sie über SeqMan alignieren können. Exportieren Sie die Consensussequenz des Alignments. Aufgabe: Wie viele 5’- bzw. 3’-EST-Sequenzen beinhaltet das resultierende Alignment? Welche Länge besitzt die gesamte cDNA des Gens? 17 Erkennen Sie ein mögliches PolyA-Signal? Finden Sie eine Erklärung warum einige der 3’ESTs erst in der Mitte der Sequenz beginnen. Identifizierung der CDS Um innerhalb der Consensussequenz der ESTs den offenen Leserahmen von Start- bis Stopkodon zu finden öffnen Sie den NCBI-ORFfinder (http://www.ncbi.nlm.nih.gov/projects/gorf/), kopieren Sie die EST-Consensussequenz in das Feld und starten Sie das Programm. Aufgabe: Warum können Sie einige der ORFs direkt von Ihrer Analyse ausschließen? Testen Sie die Option „redraw“ mit dem Wert 300. Was ändert sich an der Ansicht? In welchem relevanten Leserahmen liegt der längste ORF? Wie lang ist dieser ORF in nt und Aminosäuren? Wählen Sie den längsten relevanten ORF und lassen Sie sich die Proteinsequenz anzeigen. Mit welchem der 3 Stops endet dieser ORF? Um zu bestätigen, ob es sich um den ORF des bereits identifzierten Gens handelt, führen Sie eine BLASTP-Suche direkt oben auf der Seite des ORFfinders durch. Können Sie die bisherigen Ergebnisse bestätigen? 18 Vergleichen Sie die Ergebnisse der ORF-Suche mit den Daten der Genvorhersage. Was können Sie über die Genauigkeit der Genvorhersage sagen? Charakterisierung der Genstruktur Ausgehend von der Consensussequenz des Sequenzierprojekts und des EST-Clusters können Sie nun die Struktur des Gens rekonstruieren, indem Sie ein Alignment der cDNA-Sequenz mit der Genomsequenz durchführen. Verwenden Sie hierfür das NCBI-Tool SPIDEY (http://www.ncbi.nlm.nih.gov/spidey/), kopieren Sie beide Sequenzen in die entsprechenden Felder und starten Sie das Programm mit „Align“. Aufgabe: Wie viele Introns befinden sich in dem verglichenen Abschnitt und wie lang sind diese? Vergleichen Sie Ihre Ergebnisse mit der „ab initio“-Genvorhersage. Können Sie die Vorhersage bestätigen? Komparativer Genomvergleich Durch den Vergleich von orthologen Genomabschnitten verschiedener Spezies werden nicht nur konservierte kodierende Bereiche identifiziert, es können ebenfalls für die Regulation der Transkription funktionell wichtige nicht-kodierende Regionen erkannt werden. In unserem Projekt werden Sie nun den sequenzierten Teil-Genomabschnitt auf den gesamten Genbereich erweitern, dann für dieses Gen wichtige Transkriptionsfaktorbindestellen identifizieren und letztlich in einem zwischenartlichen Vergleich evolutionär konservierte (hoffentlich funktionelle) Bindestellen eingrenzen. Vervollständigen der Genomsequenz der Maus durch Datenbanksuche Um einen komparativen Vergleich durchführen zu können, laden Sie die komplette MausGenomsequenz des Gens mit den flankierenden Bereichen in der NCBI-Datenbank herunter. Führen Sie hierfür eine BLAST-Suche mit ihrer Consensussequenz des Sequenzierprojekts innerhalb des Maus-Genoms durch (http://www.ncbi.nlm.nih.gov/BLAST/). Grenzen Sie dabei ihre Suche auf die Datenbank „genome (reference only)“ ein. Folgen Sie dem grauen Kaninchen, also der Schaltfläche „Genome View“ zur Ansicht des MapViewers. 19 Aufgabe: Auf welchem Chromosom befindet sich das Cytoglobingen (Cygb)? Klicken Sie auf das entsprechende Chromosom. Mit welchen Exons haben Sie sich bisher beschäftigt und wie viele Exons besitzt das komplette Gen? Lassen Sie sich weitere Informationen anzeigen indem Sie in der Spalte „Gene“ auf „Cygb“ klicken. In der Gene-Datenbank finden Sie unter anderem eine Vernetzung zu orthologen Genen welcher 2 weiteren Spezies? Wählen Sie unter „Homology“ die MapViewer-Ansicht. Gibt es zwischen den 3 Spezies Unterschiede in der Genstruktur? Laden Sie die Cygb-Genomsequenzen der Maus und des Menschen mit jeweils 1000 bp upund downstream herunter. Machen Sie sich zuerst die Lage des Gens auf dem Chromosom klar. Da Sie für die weitere Analyse das Gen in der richtigen Orientierung angeben müssen, ist es erforderlich zu wissen, ob Sie die direkte Sequenz oder das reverse Komplement herunterladen. Die Information, ob das jeweilige Gen auf dem Plus- oder Minus-Strang liegt, finden Sie durch einen Klick auf das „Cygb“ in der Gene-Datenbank („Symbol: Cygb“). Welche der beiden Möglichkeiten müssen Sie bei der Maus- bzw. Mensch-Sequenz wählen? Klicken Sie auf „Cygb“ und wählen die Option „download sequence“ (dl). Falls Sie das reverse Komplement laden wollen, verändern Sie die Einstellung des Pulldown-Menüs „Strand“. Erweitern Sie die Sequenz um jeweils 1000 bp, indem Sie in beiden „adjust by“Boxen 1KB eingeben. Die neuen Einstellungen werden übernommen, wenn Sie auf „Change Region/Strand klicken. Laden Sie nun die Sequenz im FASTA-Format herunter, indem Sie den Link „Display“ wählen und die dargestellte Sequenz in ein Text-Dokument kopieren, das Sie lokal als „MmuCygbGenom.fas“ bzw. „HsaCygbGenom.fas“ abspeichern. Speichern Sie die Mensch-Sequenz zusätzlich im Format GenBank ab. Identifizierung von Transkriptionsfaktorbindestellen in der Hsa-Cygb-Sequenz Eine aktuelle Fragestellung in Bezug auf die Expression des Cytoglobingens liegt in der Regulation unter sauerstoffarmen Bedingungen (Hypoxie). Sie sollen nun klären, ob das Cytoglobingen Transkriptionsfaktorbindestellen beinhaltet, die bereits in anderen Genen eine transkriptionelle Regulation unter Hypoxie vermitteln. Solche „hypoxia-responsive-elements“ (HREs) setzen sich aus 2 in einem Sequenzabschnitt von maximal ca. 50 bp nebeneinander 20 liegenden Transkriptionsfaktorbindestellen zusammen. Diese sind entweder 2 Motive für den „hypoxia-inducible transcription factor“ HIF-1 selbst, oder ein HIF-1-Motiv in Kombination mit einer weiteren akzessorischen Bindestelle, wie z.B. eine EPO-Box oder eine „HIF ancillary sequence“ (HAS). Bindungsstelle HIF-1 (hypoxia-inducible factor) Sequenzmotiv RCGTG (core) HAS (HIF ancillary sequence) Epo-Box CAGGT (core) CACAG Epo-like CACTG Referenz Semenza et al., 1996 Camenisch et al., 2001 Fink et al., 2002 Miyazaki et al., 2002 Kimura et al., 2001 Semenza et al., 1992 Fink et al., 2002 Miyazaki et al., 2002 Palmer et al., 1998 Finden Sie die möglichen durch Hypoxie regulierten Transkriptionsfaktorbindestellen in der Cytoglobingensequenz des Menschen. Öffnen Sie hierfür das Programm GenPalette v 1.2 (http://www.genepalette.org/) und fügen Sie die Mensch-Sequenz im GenBank-Format über „File“ „New Sequence“ „GenBank Flat File“ ein. 21 Sie erhalten eine grafische Darstellung des Gens, einen Sequenzüberblick und ein Fenster in dem markierte Sequenzbereiche dargestellt sind. Im unteren Bereich sehen Sie auf der linken Seite die Übersicht über die Transkripte dieses Sequenzabschnitts. Auf der rechten Seite ist ein Überblick über die so genannten „Features“, Sequenzabschnitte, die selbst definiert werden können oder von GenePalette vordefiniert ausgewählt werden können. So ist es zum Beispiel möglich, sich vordefinierte Restriktionsschnittstellen anzeigen zu lassen, Motive wie Transkriptionsfaktorbindestellen müssen jedoch selbst definiert werden, da das Programm nicht auf Datenbanken für Transkriptionsfaktoren, wie z.B. TRANSFAC (http://www.biobase-international.com/pages/) , zurückgreifen kann. Aufgabe: Suchen Sie nach den in der Tabelle angegebenen Sequenzmotiven, indem Sie unter „Feature“ und „Add Feature“ das jeweilige Motiv definieren. Wie viele Motive finden Sie für die jeweilige Bindestelle? In der Grafischen Übersicht gibt es die Möglichkeit, Sequenzabschnitte oder Features zu markieren. Deckt sich das hier angegebene Transkript mit Ihrer Analyse? Welche Länge besitzt der 5’ bzw. 3’UTR? Notieren Sie folgende Werte für das Cytoglobingen von Mensch UND Maus: Transkriptionsstart und -stop, Anfangs- und Endpunkte der 4 Exons. Erstellen Sie für die folgende komparative Analyse eine Text-Datei im folgenden Format und speichern Sie diese lokal als „HsaCygbannot.txt“ bzw. „MmuCygbannot.txt“ ab. > 100 200 BTNL2 100 120 UTR 121 140 CDS 180 190 CDS 190 200 UTR < 400 500 ER3 400 500 CDS 22 Komparativer Genomvergleich der Cytoglobingene von Mensch und Maus Die komparative Genomanalyse macht sich das evolutionäre Prinzip der „negativen, reinigenden Selektion“ zu Nutze. Demnach liegen funktionelle regulatorische Bereiche bei verwandten Spezies konserviert vor, da unvorteilhafte Mutationen „weggereinigt“ werden. Die Herausforderung der Identifizierung und Charakterisierung von cis-regulatorischen Elementen liegt in der Beschaffenheit der Bindemotive, die meist eine Länge von nur 6-12 bp besitzen und deshalb sehr häufig zufällig ohne funktionelle Relevanz zufällig in der Genomsequenz auftreten. Mit rVISTA 2.0 (http://rvista.dcode.org) steht ein Tool zur Verfügung, das die Suche nach möglichen Transkriptionsfaktorbindestellen mit einer komparativen Analyse kombiniert und so in der Lage ist, biologisch relevante (=konservierte) Motive herauszufiltern. Dabei besteht die Möglichkeit auf vordefinierte Position-weightMatrizes der TRANSFAC-Datenbank zurückzugreifen oder auch Konsensussequenzen für Bindestellen selbst zu definieren. Aufgabe: Führen Sie mit dem Tool zPicture (http://zpicture.dcode.org/) ein globales Alignment der Mensch- und Maus-Cytoglobin-Genomsequenz durch. Maskieren Sie dabei repetitive Elemente beider Sequenzen. Für die Annotierung verwenden Sie die Dateien „Hsa Cygbannot.txt“ bzw. „MmuCygbannot.txt“. Sehen Sie sich die Dot-Plot-Darstellung an. In welchem Sequenzbereich des Cytoglobingens des Menschen erkennen Sie einen Bereich ohne Sequenzähnlichkeit? Welche Ursachen könnten Sie sich für einen solchen Abschnitt vorstellen? 23 Lassen Sie sich die Liste der ECRs (evolutinary conserved regions) anzeigen. Wie viele Regionen von über 100 bp mit 70% Sequenzidentität beinhaltet die Cytoglobinsequenz des Menschen außerhalb der kodierenden Region? Wie viele Regionen von über 100 bp erhalten Sie mit einer Sequenzidentität von 95%? Um welche Regionen handelt es sich dabei? Wählen Sie nun die Ansicht „dynamic visualization“. Sehen Sie hier eine Bestätigung Ihrer Erklärung des Bereichs ohne Sequenzidentität? Interpretieren Sie die braun dargestellten Boxen unterhalb der Genannotation. Um welche Bereiche handelt es sich hier? Um nach konservierten Transkriptionsfaktorbindestellen zu suchen klicken Sie den rVISTALink. Wählen Sie die Möglichkeit der Definition von Bindestellen durch den Benutzer. Suchen Sie in dem angegebenen Format nach den bereits oben angegebenen Sequenzmotiven für HIF-1, HAS, EPO-Box und Epo-like. Wie viele Motive findet rVISTA innerhalb der Maus- bzw. Menschsequenz und wie viele konservierte Motive enthält das Cytoglobingen? Lassen Sie sich die Ansicht „dynamic visualization“ anzeigen. Da ein HRE aus 2 benachbarten Motiven besteht, lassen Sie sich hier die in einem Cluster von 50 bp vorkommenden Bindestellen anzeigen. Verwenden Sie das „Combinatorial clustering“ da ein HIF-1-Motiv auch mit einem der anderen Motive funktionell sein kann. Kann das Cytoglobingen durch Hypoxie reguliert werden? Die hier durchgeführte Analyse zeigt nur einen kleinen Teil der Möglichkeiten der VISTATools. Diese sind in folgendem Tutorial näher beschrieben (http://www.openhelix.com/downloads/vista/vista_tutorialhome.shtml). 24 Zusätzliche Übung: Erstellung einer positionsspezifischen Gewichtungsmatrize (PSM) für ein so genanntes NRSE („neuron-restrictive silencer element“) Wir haben aus immunhistologischen Daten die Hypothese entwickelt, dass ein weiteres Vertebratenglobin, das Neuroglobin, wie der Name es bereits andeutet neuronenspezifisch exprimiert wird. Für eine solche neuronenspezifische Expression sind möglicherweise cisaktive Sequenzen verantwortlich, die man als neuron-restrictive silencer elements (NRSE) beschrieben hat. Das NRSE ist ein 21 bp langes Sequenzmotiv, das upstream des Transkriptionsstarts in beiden Orientierungen funktionell sein kann. Das passende Bindeprotein NRSF („neuron-restrictive silencer factor“) wird fast ausschließlich in nichtneuronalen Zellen gebildet, bindet dort an die Erkennungssequenz und inhibiert auf diese Weise die Expression von NRSE-haltigen Genen. Aus der Literatur haben wir Erkennungssequenzen von 16 funktionellen NRSE-Motiven und deren Homologen aus anderen Spezies, folglich also insgesamt 36 NRSE-Motiven, extrahiert. Mit diesen Daten soll nun eine „positional frequency matrix“ (PFM) für NRSE erstellt und mithilfe des Tools MSCAN (http://tfscan.cgb.ki.se/cgi-bin/MSCAN) Bindestellen innerhalb der Neuroglobinsequenz des Menschen identifiziert werden. Aufgabe: Laden Sie die Neuroglobinsequenz aus der Genomsequenz des Menschen mit jeweils 1000 flankierenden Basenpaaren. Speichern Sie diese im FASTA-Format. (Literatur : http://www.nature.com/nbt/journal/v24/n4/full/nbt0406-423.html) Um nach bestimmten DNA Motiven suchen zu können, müssen Sie zuerst eine ‚nucleotide frequency matrix’ zu erstellen: Links http://weblogo.berkeley.edu/logo.cgi http://biodev.hgen.pitt.edu/enologos 25 Wählen Sie das entsprechende ‚input’ Fromat (hier DNA alignment) und klicken Sie auf ‚submit’ Es erscheint ein Beispiel-Eingabeformat. Ersetzen Sie hier den Namen der Analyse und die vorgegebenen Nucleotidsequenzen mit Ihrem eigenen Alignment (NRSEseqs.txt). Klicken Sie nun auf und danach auf ‚text output’ Die generierte Matrix kopieren Sie in den Texteditor (notepad) und speichern Sie dies als ‚NFM.txt’ Diese Datei öffnen Sie mit Excel (2x weiter, 1x fertig stellen anklicken) Sie müssen diese Daten nun transponieren: Markieren Sie die Spalte B2-E22 und kopieren Sie dies in die Zwischenablage. Weiter unten ein leeres Feld anklicken (z.B. A25) und unter dem Menüpunkt ‚Bearbeiten’ auf ‚Inhalte einfügen’ gehen, das Feld ‚Transponieren’ markieren, und bestätigen (OK klicken). Markien Sie alle (STRG+A) und klicken sie doppelt auf den senkrechten Strich zwischen Spalte A und B. Markieren Sie die tranponierte Matrix, fügen Sie sie in den Texteditor im Fasta Format >motif 2 0 0 2 1 2 33 32 0 36 0 1 36 0 0 18 3 1 0 35 0 35 0 11 6 3 5 35 0 0 34 0 36 35 0 26 0 0 0 33 0 0 23 2 23 29 0 0 36 0 0 0 0 14 2 35 36 0 3 1 36 0 25 6 0 1 0 0 1 0 0 1 4 5 0 0 1 0 0 0 2 3 4 2 ein und speichern Sie dies unter ‚NFM_trans.txt’. Alle bisher geöffneten Fenster können nun geschlossen werden (speichern nicht notwendig). 26 Motivsuche Öffnen Sie die Datei ‚NFM_trans.txt’ und KOPIEREN Sie die Matrix in das vorgegebene Feld oder ‚UPLOADEN’ Sie die Textdatei. LADEN/KOPIEREN Sie ebenfalls die gespeicherte Neuroglobinsequenz. Aufgabe : Identifizieren Sie ein NRSE-Motiv in der Neuroglobinsequenz. Welche Elemente können Sie ausschliessen? 27