Das Erstellen einer Datenmaske
Transcrição
Das Erstellen einer Datenmaske
Das Erstellen einer Datenmaske Seminar Forschungsmethoden I, Herbstsemester 2013 P.Wilhelm 1. Programme zum Einlesen von Daten Daten können direkt in eine SPSS-Daten-Datei eingegeben werden (vgl. 5). Sie können aber auch in einem anderen Programm (Excel, Access, WORD-Tabelle, etc.) eingegeben und danach ins SPSS übertragen werden (vgl. 4.). 2. Kodierung Bei der Kodierung werden Antworten im Fragebogen (Kreuze, Wörter) in Antwortkategorien übersetzt und durch Codes (Zahlen oder Buchstabenfolgen) abgebildet, die von einem Statistikprogramm ausgewertet werden können. Die Antwortkategorien werden bei der Erstellung des Fragebogens festgelegt. Häufig ist es sinnvoll auf dem Fragebogen schon die Codes mit anzugeben, um dadurch spätere Kodierfehler zu vermeiden. 3. Variablen 3.1 Typen von Variablen Um die in einem Fragebogen enthaltene Information in eine Datendatei zu übertragen, wird für jede Informationseinheit eine Variable erstellt. Dabei lassen sich verschiedene Typen von Variablen unterscheiden. 1. Metrische Variablen (z.B. Alter) Die Zahl kann direkt so, wie sie im Fragebogen steht in den Datensatz übernommen werden 2. Rangvariablen: (z.B. Werte einer Ratingskala: fast immer =1, oft = 2, manchmal = 3, fast nie = 4) Den verbalen Ankern sind meist im Fragebogen schon Zahlenwerte zugeordnet, die dann in die Datei übernommen werden. Ob Daten, die mit Hilfe von Ratingskalen gewonnen wurden, Ordinal- oder Intervallskalenniveau haben, darüber gibt es unterschiedliche Auffassungen. Sehr häufig werden sie jedoch auf Intervallskalenniveau ausgewertet. 3. Kategoriale Variablen (z.B. Geschlecht: männlich = 1, weiblich = 2) Eine Kodierregel wird festgelegt, die angibt welche Bedeutung ein bestimmter Zahlenwert hat. 4. String Variablen: (Antwort in einer offen Kategorie oder Restkategorie, z.B. Studienfach oder andere Religion) Die Variable erfaßt die Antwort auf eine offene Frage. Hier wird direkt eingetragen, was der Untersuchungsteilnehmer geschrieben hat. 1 3.2 Variablennamen Damit das SPSS die Variablennamen lesen kann, müssen bestimmte Bedingungen erfüllte sein: • Jeder Variablenname darf nur einmal verwendet werden. • Name darf maximal 8 Zeichen lang sein (für SPSS 12.0 gilt diese Einschränkung nicht mehr). • Name muß mit Buchstaben beginnen. • Umlaute (ä,ö,ü) sowie besondere Buchstaben wie z.B. ß sind nicht erlaubt. • Am Ende kein Punkt (.) • Befehlszeichen können nicht verwendet werden: z.B. - : * / + , • SPSS-Befehlsworte dürfen nicht als Variablennamen verwendet werden: all, and, by, eq, ge, gt, le, lt, ne, not, or, to, with 3.3 Variablenformate im SPSS • Numerisch: Variablen enthalten ausschließlich Zahlen. Alle SPSS-Operationen können ausgeführt werden. • String: Variablen enthalten Zeichen. Auch Zahlen werden wie Zeichen behandelt. -> Nur eingeschränkte Operationen sind möglich • Datum: Unterschiedliche Datums- bzw. Zeitdefinitionen sind möglich. Datumsvariablen können in numerische Variablen überführt werden. Da die meisten Operationen im SPSS numerische Variablen voraussetzen, ist es sinnvoll auch kategoriale Variablen numerisch zu kodieren und so weit wie möglich auf String-Variablen zu verzichten. Es gibt keine gemischten Formate!!!: Ist das Variablenformat numerisch werden nur Zahlen akzeptiert, String-Informat wird automatisch zu Missing-Value umkodiert. 4. Erstellen einer Datenmaske in Excel Gegenüber der direkten Kodierung der Daten im SPSS hat die Eingabe mit Hilfe von Excel drei entscheidende Vorteile: • Excel ist fast auf allen Rechnern als Standardprogramm vorhanden • Man kann Spalten und Zeilen, die Kodierinformation enthalten, fixieren, was die Navigation erheblich erleichtert. • Man kann optische Marker setzen (z.B. Spalten farbig markieren) 4.1 Erstellen der Datenmaske • Pro Variable wird eine Spalte definiert • Die erste Zeile enthält die Variablennamen (Beachte Regeln für die Vergabe von Namen, vgl. 3.2) • In die nachfolgenden Zeilen kann weitere Information zu den Variablen geschrieben werden • z.B. genauere Bezeichnung der Variablen, Kodierungsregel. 2 Abbildung 1 : Auszug aus einer Excel Datenmaske (1. Zeile Variablennamen, 3. und 4. Zeile Erläuterungen zu den Variablen, 5. Zeile Kodierregel, die weiteren Zeilen enthalten die Daten) 4.2 Optionen zur Gestaltung der Datenmaske Mit dem Befehl WINDOW -> SPLIT kann die Anzeige so gestaltet werden, daß definierte Zeilen bzw. Spalten immer sichtbar bleiben. Dazu kann man die angezeigten Linien mit dem Kursor an die gewünschte Position fahren. Mit dem Befehl WINDOW -> FREEZE PANES wird diese Position dann fixiert. Wichtig ist diese Operation, um die Übersicht zu behalten, welche Variable, von welcher Versuchsperson man gerade kodiert. Des Weiteren kann man ganze Spalten oder einzelne Zellen farbig markieren, was die Orientierung bei der Dateneingabe erheblich erleichtert. Diese Gestaltungsmöglichkeiten des Fensters bestehen im SPSS nicht. 4.3 Bei der Eingabe der Daten zu beachten • Definieren wie fehlende Werte kodiert werden sollen (Felder ganz frei lassen oder Wert kodieren der in der Variablen nicht vorkommen kann, z.B. 999) • Darauf achten, daß numerische Variablen keine String-Information enthalten. Da die Dateneingabe eine relativ monotone Tätigkeit ist, die bald automatisiert wird und eine Art Trance erzeugt, sollte man beim Kodieren nicht denken müssen. Die Kodierregeln sollten dies berücksichtigen. D.h. die Information sollte so in die Datei übernommen werden, wie sie im Fragebogen erhoben ist. Weitere Umgestaltungen, Veränderungen der Variablen sollten dann im SPSS erfolgen. 4.4. Datenkontrolle bei der Eingabe: Definition von gültigen Werten Der Bereich der gültigen Werte kann vordefiniert werden. Excel akzeptiert dann nur Daten, die im definierten Wertebreich liegen und gibt bei allen anderen Werten eine Fehlermeldung. DATA -> VALIDITION -> …. Auswahloption, zur Definition des Wertebereichs. 3 4.5 Vorbereitung für Transfer nach SPSS Vor dem Transfer beachten!!! 1. Neuere SPSS Versionen (> 11) ordnen beim Einlesen automatisch das Variablenformat auf der Basis der Information zu, die in der Spalte enthalten sind. Findet SPSS Textzeichen in der Spalte, erhält die Variable Stringformat. Findet SPSS ausschliesslich Zahlen, erhält die Variable numerisches Format. Findet SPSS ein Datum, erhält die Variable Datumsformat, wenn kein Text in der Spalte steht. 2. Die Zusatzinformation, die das kodieren erleichtert hat, muß wieder gelöscht werden. In der ersten Zeile stehen die Variablennamen, in der zweiten Zeile müssen bereits die gültigen kodierten Werte enthalten sein. 3. Für ältere SPSS-Versionenen (Ausgabe < 10) ist zu beachten, dass die Excel-Datei im Format „Microsoft Excel 4.0 Worksheet (bzw. Tabelle)“ abgespeichert wird. Befehlsfolge: FILE -> SAVE AS -> Im erscheinenden Menue Name der Datei und Laufwerk angeben sowie im unteren Balken „Save File as Type“ „Microsoft Excel Worksheet 4.0“ anklicken. 4.6 Import der Excel-Datei ins SPSS. Eine Excel Datei kann man einlesen in dem man DATEI -> OEFFNEN -> DATEN anklickt. Im erscheinenden Dialogfenster wählt man dann bei Dateityp “*.xls” aus. Es erscheint dann ein Menüfenster, in dem angezeigt wird, welche Tabelle eingelesen werden soll (z.B. Tabelle 1 (A1:IV78) ) – Wenn die Datentabelle einen Namen hat wird dieser Name angezeigt. WICHTIG!!!: Bei Optionen “Variablennamen lesen” ankreuzen. SPSS transferiert dann automatisch die Excel-Datei in eine SPSS-Datei und übernimmt die Variablennnamen. Der SPSS Befehl zum Einlesen einer Excel Datei lautet: GET TRANSLATE /FILE ‘Laufwerk:/Pfad/Dateiname.xls’ /TYPE xls /FIELDNAMES. 4 5. Erstellen einer Datenmaske im SPSS für Windows Ab Version SPSS 11 öffnet sich automatisch beim Start ein Menü, das u.a. die Option Type in data enthält, mit der eine neue Datendatei erstellt werden kann. In dieses Fenster kann man auch später jederzeit vom aktiven Datenfenster aus wechseln: Das Datenfenster hat nämlich zwei Anzeigeoptionen: Entweder es werden die Daten angezeigt (Data View), oder es wird angezeigt, wie die Variablen definiert sind (Variable View). Die Schaltfläche ist unten links im Fenster. Wenn man ein leeres Datenfenster hat, wird in der Variable View-Option eine leere Tabelle angezeigt, die vorgegebene Spalten enthält. Sobald man in die erste mit Name betitelte Spalte einen Variablennamen eingibt (z.B. Code) werden automatisch die übrigen Spalten aktiviert. Die automatischen Voreinstellungen kann man dann entsprechend verändern. Abbildung 2 zeigt ein Beispiel für ein Datenfenster im Variable View Modus, in dem bereits die Variablen definiert sind: Abbildung 2: SPSS-Datenfenster im Variable View Modus Die Spalteninformation hat die folgende Bedeutung Name: Typ: Spaltenformat: Dezimalstellen: Variablenlabels: Wertelabels: Fehlende Werte: Variablenname, hier werden die Variablennamen vergeben. Dabei sind die unter 3.2 spezifizierten Regeln zu beachten (z.B. maximal 8 Zeichen, u.a.) Hier wird definiert, ob die Spalte eine numerische Variable, eine Datumsvarbiable oder Stringvariable enthält (oder andere Variablentypen) Hier wird die Breite der Spalte definiert Hier wird definiert, wie viele Dezimalstellen eine Variable hat Information zur Variablen (was bedeutet die Variable: z.B. Oekzufr = Zufriedenheit mit der finanziellen Situation) Information was die Zahlenwerte einer Variablen bedeuten (z.B. 1 = männlich, 2 = weiblich) Hier können bestimmte Zahlen als Missing definiert werden 5 Spalten: Ausrichtung: Messniveau: Rolle: Hier wird definiert wie breit die angezeigte Spalte ist Ausrichtung der Information Das Skalenniveau wird definiert: Scale = Intervallskalenniveau, wird automatisch vergeben, wenn die Variable numerisch ist und keine Value Labels definiert sind. Ordinal = Ordinalskalenniveau, wird automatisch vergeben, wenn die Variable numerisch ist und Value Labels definiert sind. Nominal = wird automatisch vergeben, wenn es sich um eine String Variable handelt. Rolle, die Variable in der Analyse spielen soll, kann hier vordefiniert werden. Die Option Variable View ermöglicht es, den Überblick über die oft große Zahl von Variablen zu behalten. Veränderungen in der Voreinstellung können direkt im Fenster vorgenommen werden. Mit dem Abspeichern werden die entsprechenden Formatdefinitionen in die Datei übernommen. Man kann die Variablen auch über die Syntaxebene definieren (Befehlsfenster, in dem man SPSS Befehle schreiben und auch abspeichern kann). Da man auf der Syntaxebene den Texteditor benutzen kann, ist die Bearbeitung von längeren Dateien, die ähnliche Labels haben oft schneller. Ein grosser Vorteil besteht auch darin, dass die Variablendefinition unabhängig von der Datendatei abgelegt ist, d.h. man kann die Syntax auch über andere Dateien laufen lassen. Dies ist insbesondere dann, wenn ähnliche Datensätze erhoben und getrennt aufbereitet werden, ein grosse Zeitersparnis. Die Befehlsstruktur für die Vergabe von Variable Labels und Value Labels sieht folgendermaßen aus: VARIABLE LABELS VALUE LABELS SEX ‘Geschlecht’. SEX 1 ‘männlich’ 2 ‘weiblich’. Allgemeine Befehlsstruktur VARIABLE LABELS [Variable] ‘[Information]’. VALUE LABELS [Variable] Zahlenwert ‘[Information]’ Zahlenwert ‘[Information]’ Zahlenwert ‘[Information]’ usw. . Wichtig ist die (‘) - Zeichen und den Punkt (.) am Ende des Befehls nicht zu vergessen. 6 Hausaufgabe Erstellt eine Excel-Datenmaske für die nachfolgende Tagebuchabfrage, die wiederholt für die Erfassung eines spezifischen Momentes erstellt wurde. 7 Kodierung der von Euch erhobenen Fragebogen Kodiert bitte den von Euch erhobenen Fragebogen. Benutzt dazu die Datenmaske, die der Version Eures Fragebogens entspricht. Auf dem Titelblatt ist in Klammern hinter der Überschrift Schweizer Werte die Version gekennzeichnet (z.B. DRT). Für die Version „DRT“ benutz ihr die entsprechende Datei: „Inter CH-2011_DRT.xls“, die ich Euch attached per e-mail zusende. Kopiert die entsprechende Datei auf Eure Festplatte. Öffnet die Datei von Eurer Festplatte aus, benennt sie um und speichert sie unter einem neuen Namen ab (z.B. (xy_13_DRT.xls“). Dann kodiert die Fragebogen und speichert die kodierten Werte in dieser Datei ab. Schickt mir bitte die Datei per e-mail an meine Adresse [email protected] Gebt der e-mail bitte das Subject „Datenmaske Forschungsmethoden 13“ Notiert Euch, wie ihr Daten kodiert habt, die nicht eindeutig der Kodierregel entsprechen und schickt mir diese Information mit. 8