Das Erstellen einer Datenmaske

Transcrição

Das Erstellen einer Datenmaske
Das Erstellen einer Datenmaske
Seminar Forschungsmethoden I, Herbstsemester 2013
P.Wilhelm
1. Programme zum Einlesen von Daten
Daten können direkt in eine SPSS-Daten-Datei eingegeben werden (vgl. 5).
Sie können aber auch in einem anderen Programm (Excel, Access, WORD-Tabelle, etc.)
eingegeben und danach ins SPSS übertragen werden (vgl. 4.).
2. Kodierung
Bei der Kodierung werden Antworten im Fragebogen (Kreuze, Wörter) in Antwortkategorien
übersetzt und durch Codes (Zahlen oder Buchstabenfolgen) abgebildet, die von einem
Statistikprogramm ausgewertet werden können. Die Antwortkategorien werden bei der
Erstellung des Fragebogens festgelegt. Häufig ist es sinnvoll auf dem Fragebogen schon die
Codes mit anzugeben, um dadurch spätere Kodierfehler zu vermeiden.
3. Variablen
3.1 Typen von Variablen
Um die in einem Fragebogen enthaltene Information in eine Datendatei zu übertragen, wird
für jede Informationseinheit eine Variable erstellt. Dabei lassen sich verschiedene Typen von
Variablen unterscheiden.
1. Metrische Variablen (z.B. Alter)
Die Zahl kann direkt so, wie sie im Fragebogen steht in den Datensatz übernommen werden
2. Rangvariablen: (z.B. Werte einer Ratingskala: fast immer =1, oft = 2, manchmal = 3, fast
nie = 4)
Den verbalen Ankern sind meist im Fragebogen schon Zahlenwerte zugeordnet, die dann in
die Datei übernommen werden. Ob Daten, die mit Hilfe von Ratingskalen gewonnen wurden,
Ordinal- oder Intervallskalenniveau haben, darüber gibt es unterschiedliche Auffassungen.
Sehr häufig werden sie jedoch auf Intervallskalenniveau ausgewertet.
3. Kategoriale Variablen (z.B. Geschlecht: männlich = 1, weiblich = 2)
Eine Kodierregel wird festgelegt, die angibt welche Bedeutung ein bestimmter Zahlenwert
hat.
4. String Variablen: (Antwort in einer offen Kategorie oder Restkategorie, z.B. Studienfach
oder andere Religion)
Die Variable erfaßt die Antwort auf eine offene Frage. Hier wird direkt eingetragen, was der
Untersuchungsteilnehmer geschrieben hat.
1
3.2 Variablennamen
Damit das SPSS die Variablennamen lesen kann, müssen bestimmte Bedingungen erfüllte
sein:
• Jeder Variablenname darf nur einmal verwendet werden.
• Name darf maximal 8 Zeichen lang sein (für SPSS 12.0 gilt diese Einschränkung nicht
mehr).
• Name muß mit Buchstaben beginnen.
• Umlaute (ä,ö,ü) sowie besondere Buchstaben wie z.B. ß sind nicht erlaubt.
• Am Ende kein Punkt (.)
• Befehlszeichen können nicht verwendet werden: z.B. - : * / + ,
• SPSS-Befehlsworte dürfen nicht als Variablennamen verwendet werden:
all, and, by, eq, ge, gt, le, lt, ne, not, or, to, with
3.3 Variablenformate im SPSS
• Numerisch: Variablen enthalten ausschließlich Zahlen. Alle SPSS-Operationen können
ausgeführt werden.
• String: Variablen enthalten Zeichen. Auch Zahlen werden wie Zeichen behandelt. -> Nur
eingeschränkte Operationen sind möglich
• Datum: Unterschiedliche Datums- bzw. Zeitdefinitionen sind möglich. Datumsvariablen
können in numerische Variablen überführt werden.
Da die meisten Operationen im SPSS numerische Variablen voraussetzen, ist es
sinnvoll auch kategoriale Variablen numerisch zu kodieren und so weit wie möglich
auf String-Variablen zu verzichten.
Es gibt keine gemischten Formate!!!: Ist das Variablenformat numerisch werden nur
Zahlen akzeptiert, String-Informat wird automatisch zu Missing-Value umkodiert.
4. Erstellen einer Datenmaske in Excel
Gegenüber der direkten Kodierung der Daten im SPSS hat die Eingabe mit Hilfe von Excel
drei entscheidende Vorteile:
• Excel ist fast auf allen Rechnern als Standardprogramm vorhanden
• Man kann Spalten und Zeilen, die Kodierinformation enthalten, fixieren, was die
Navigation erheblich erleichtert.
• Man kann optische Marker setzen (z.B. Spalten farbig markieren)
4.1 Erstellen der Datenmaske
• Pro Variable wird eine Spalte definiert
• Die erste Zeile enthält die Variablennamen (Beachte Regeln für die Vergabe von Namen,
vgl. 3.2)
• In die nachfolgenden Zeilen kann weitere Information zu den Variablen geschrieben
werden
• z.B. genauere Bezeichnung der Variablen, Kodierungsregel.
2
Abbildung 1 : Auszug aus einer Excel Datenmaske (1. Zeile Variablennamen, 3. und 4. Zeile Erläuterungen zu
den Variablen, 5. Zeile Kodierregel, die weiteren Zeilen enthalten die Daten)
4.2 Optionen zur Gestaltung der Datenmaske
Mit dem Befehl WINDOW -> SPLIT kann die Anzeige so gestaltet werden, daß definierte
Zeilen bzw. Spalten immer sichtbar bleiben. Dazu kann man die angezeigten Linien mit dem
Kursor an die gewünschte Position fahren.
Mit dem Befehl WINDOW -> FREEZE PANES wird diese Position dann fixiert. Wichtig ist
diese Operation, um die Übersicht zu behalten, welche Variable, von welcher
Versuchsperson man gerade kodiert.
Des Weiteren kann man ganze Spalten oder einzelne Zellen farbig markieren, was die
Orientierung bei der Dateneingabe erheblich erleichtert.
Diese Gestaltungsmöglichkeiten des Fensters bestehen im SPSS nicht.
4.3 Bei der Eingabe der Daten zu beachten
• Definieren wie fehlende Werte kodiert werden sollen (Felder ganz frei lassen oder Wert
kodieren der in der Variablen nicht vorkommen kann, z.B. 999)
• Darauf achten, daß numerische Variablen keine String-Information enthalten.
Da die Dateneingabe eine relativ monotone Tätigkeit ist, die bald automatisiert wird und eine
Art Trance erzeugt, sollte man beim Kodieren nicht denken müssen. Die Kodierregeln sollten
dies berücksichtigen. D.h. die Information sollte so in die Datei übernommen werden, wie sie
im Fragebogen erhoben ist. Weitere Umgestaltungen, Veränderungen der Variablen sollten
dann im SPSS erfolgen.
4.4. Datenkontrolle bei der Eingabe: Definition von gültigen Werten
Der Bereich der gültigen Werte kann vordefiniert werden. Excel akzeptiert dann nur Daten,
die im definierten Wertebreich liegen und gibt bei allen anderen Werten eine Fehlermeldung.
DATA -> VALIDITION -> …. Auswahloption, zur Definition des Wertebereichs.
3
4.5 Vorbereitung für Transfer nach SPSS
Vor dem Transfer beachten!!!
1. Neuere SPSS Versionen (> 11) ordnen beim Einlesen automatisch das Variablenformat auf
der Basis der Information zu, die in der Spalte enthalten sind. Findet SPSS Textzeichen in
der Spalte, erhält die Variable Stringformat. Findet SPSS ausschliesslich Zahlen, erhält die
Variable numerisches Format. Findet SPSS ein Datum, erhält die Variable Datumsformat,
wenn kein Text in der Spalte steht.
2. Die Zusatzinformation, die das kodieren erleichtert hat, muß wieder gelöscht werden.
In der ersten Zeile stehen die Variablennamen, in der zweiten Zeile müssen bereits die
gültigen kodierten Werte enthalten sein.
3. Für ältere SPSS-Versionenen (Ausgabe < 10) ist zu beachten, dass die Excel-Datei im
Format „Microsoft Excel 4.0 Worksheet (bzw. Tabelle)“ abgespeichert wird.
Befehlsfolge: FILE -> SAVE AS -> Im erscheinenden Menue Name der Datei und Laufwerk
angeben sowie im unteren Balken „Save File as Type“ „Microsoft Excel Worksheet 4.0“
anklicken.
4.6 Import der Excel-Datei ins SPSS.
Eine Excel Datei kann man einlesen in dem man DATEI -> OEFFNEN -> DATEN anklickt.
Im erscheinenden Dialogfenster wählt man dann bei Dateityp “*.xls” aus.
Es erscheint dann ein Menüfenster, in dem angezeigt wird, welche Tabelle eingelesen werden
soll (z.B. Tabelle 1 (A1:IV78) ) – Wenn die Datentabelle einen Namen hat wird dieser Name
angezeigt.
WICHTIG!!!: Bei Optionen “Variablennamen lesen” ankreuzen.
SPSS transferiert dann automatisch die Excel-Datei in eine SPSS-Datei und übernimmt die
Variablennnamen.
Der SPSS Befehl zum Einlesen einer Excel Datei lautet:
GET TRANSLATE /FILE ‘Laufwerk:/Pfad/Dateiname.xls’ /TYPE xls /FIELDNAMES.
4
5. Erstellen einer Datenmaske im SPSS für Windows
Ab Version SPSS 11 öffnet sich automatisch beim Start ein Menü, das u.a. die Option Type
in data enthält, mit der eine neue Datendatei erstellt werden kann. In dieses Fenster kann man
auch später jederzeit vom aktiven Datenfenster aus wechseln: Das Datenfenster hat nämlich
zwei Anzeigeoptionen: Entweder es werden die Daten angezeigt (Data View), oder es wird
angezeigt, wie die Variablen definiert sind (Variable View). Die Schaltfläche ist unten links
im Fenster.
Wenn man ein leeres Datenfenster hat, wird in der Variable View-Option eine leere Tabelle
angezeigt, die vorgegebene Spalten enthält. Sobald man in die erste mit Name betitelte Spalte
einen Variablennamen eingibt (z.B. Code) werden automatisch die übrigen Spalten aktiviert.
Die automatischen Voreinstellungen kann man dann entsprechend verändern. Abbildung 2
zeigt ein Beispiel für ein Datenfenster im Variable View Modus, in dem bereits die Variablen
definiert sind:
Abbildung 2: SPSS-Datenfenster im Variable View Modus
Die Spalteninformation hat die folgende Bedeutung
Name:
Typ:
Spaltenformat:
Dezimalstellen:
Variablenlabels:
Wertelabels:
Fehlende Werte:
Variablenname, hier werden die Variablennamen vergeben. Dabei sind
die unter 3.2 spezifizierten Regeln zu beachten (z.B. maximal 8
Zeichen, u.a.)
Hier wird definiert, ob die Spalte eine numerische Variable, eine
Datumsvarbiable oder Stringvariable enthält (oder andere Variablentypen)
Hier wird die Breite der Spalte definiert
Hier wird definiert, wie viele Dezimalstellen eine Variable hat
Information zur Variablen (was bedeutet die Variable: z.B. Oekzufr =
Zufriedenheit mit der finanziellen Situation)
Information was die Zahlenwerte einer Variablen bedeuten (z.B. 1 =
männlich, 2 = weiblich)
Hier können bestimmte Zahlen als Missing definiert werden
5
Spalten:
Ausrichtung:
Messniveau:
Rolle:
Hier wird definiert wie breit die angezeigte Spalte ist
Ausrichtung der Information
Das Skalenniveau wird definiert: Scale = Intervallskalenniveau, wird
automatisch vergeben, wenn die Variable numerisch ist und keine
Value Labels definiert sind. Ordinal = Ordinalskalenniveau, wird
automatisch vergeben, wenn die Variable numerisch ist und Value
Labels definiert sind. Nominal = wird automatisch vergeben, wenn es
sich um eine String Variable handelt.
Rolle, die Variable in der Analyse spielen soll, kann hier vordefiniert
werden.
Die Option Variable View ermöglicht es, den Überblick über die oft große Zahl von
Variablen zu behalten.
Veränderungen in der Voreinstellung können direkt im Fenster vorgenommen werden. Mit
dem Abspeichern werden die entsprechenden Formatdefinitionen in die Datei übernommen.
Man kann die Variablen auch über die Syntaxebene definieren (Befehlsfenster, in dem man
SPSS Befehle schreiben und auch abspeichern kann). Da man auf der Syntaxebene den
Texteditor benutzen kann, ist die Bearbeitung von längeren Dateien, die ähnliche Labels
haben oft schneller. Ein grosser Vorteil besteht auch darin, dass die Variablendefinition
unabhängig von der Datendatei abgelegt ist, d.h. man kann die Syntax auch über andere
Dateien laufen lassen. Dies ist insbesondere dann, wenn ähnliche Datensätze erhoben und
getrennt aufbereitet werden, ein grosse Zeitersparnis.
Die Befehlsstruktur für die Vergabe von Variable Labels und Value Labels sieht
folgendermaßen aus:
VARIABLE LABELS
VALUE LABELS
SEX ‘Geschlecht’.
SEX 1 ‘männlich’ 2 ‘weiblich’.
Allgemeine Befehlsstruktur
VARIABLE LABELS [Variable] ‘[Information]’.
VALUE LABELS
[Variable] Zahlenwert ‘[Information]’
Zahlenwert ‘[Information]’ Zahlenwert ‘[Information]’ usw. .
Wichtig ist die (‘) - Zeichen und den Punkt (.) am Ende des Befehls nicht zu vergessen.
6
Hausaufgabe
Erstellt eine Excel-Datenmaske für die nachfolgende Tagebuchabfrage, die wiederholt für die
Erfassung eines spezifischen Momentes erstellt wurde.
7
Kodierung der von Euch erhobenen Fragebogen
Kodiert bitte den von Euch erhobenen Fragebogen.
Benutzt dazu die Datenmaske, die der Version Eures Fragebogens entspricht. Auf dem
Titelblatt ist in Klammern hinter der Überschrift Schweizer Werte die Version
gekennzeichnet (z.B. DRT). Für die Version „DRT“ benutz ihr die entsprechende Datei:
„Inter CH-2011_DRT.xls“, die ich Euch attached per e-mail zusende. Kopiert die
entsprechende Datei auf Eure Festplatte. Öffnet die Datei von Eurer Festplatte aus, benennt
sie um und speichert sie unter einem neuen Namen ab (z.B. (xy_13_DRT.xls“). Dann kodiert
die Fragebogen und speichert die kodierten Werte in dieser Datei ab.
Schickt mir bitte die Datei per e-mail an meine Adresse [email protected]
Gebt der e-mail bitte das Subject „Datenmaske Forschungsmethoden 13“
Notiert Euch, wie ihr Daten kodiert habt, die nicht eindeutig der Kodierregel entsprechen und
schickt mir diese Information mit.
8