KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und

Transcrição

KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und
§
§
§
§
§
§
KONSTRUKTION UND ANALYSE VON SKALEN
Ziel
Skalen und Tests
Systematisierung von Tests
Itemarten
Skalenarten im Detail
Die Likert Skala
Skala: Eine Skala ist ein Instrument zur Messung von
(theoretischen) Konzepten, wie Intelligenz oder
Einstellungen (z.B. Fremdenfeindlichkeit, Arbeitsmotivation,
Umweltbewusstsein, Wohnzufriedenheit).
Ziel der Skalenbildung:
Eine Person auf einer Skala einzustufen, d.h. hinsichtlich
eines zu untersuchenden Konzeptes oder Merkmals (z.B.
„Umweltbewusstsein“, „Autoritarismus“) einen Skalenwert,
zuordnen. Der Skalenmesswert bringt dann zum Ausdruck,
wo sich die Person auf der untersuchten Dimension
befindet.
Eine Skala ist also Messinstrument,
im einfachsten Fall besteht diese aus einem Item
Basis einer Skala ist eine Anzahl von Items, die zur
Erfassung der zu messenden Variablen ausgewählt worden
sind und mit Hilfe der Itemanalyse in Hinblick auf ihre
Zuverlässigkeit überprüft wurden.
Häufige Anwendungsfelder: Einstellungsskalen,
psychologische Tests
=============== Skalenbildung === Folie 1 ========================
Psychologische Tests (Leistungstests, Intelligenztests
etc.) sind ebenfalls Skalen
⇒ Primäres Einsatzfeld Psychologische Diagnostik
Mögliche Systematisierung von Tests nach
⇒ Brickenkamp (Hrsg.), Handbuch psychologischer
und pädagogischer Tests
A Leistungstests
Entwicklungstests
Intelligenzallgemeine LeistungsSchulspezielle Funktionsprüfungs und Eignungstests
B Psychometrische Leistungstests
Persönlichkeits-StrukturEinstellungsInteressenKlinische Tests
C Persönlichkeits-Entfaltungsverfahren
Formdeuteverfahren
Verbal-thematische Verfahren
Zeichnerische und Gestaltungsverfahren
=============== Skalenbildung === Folie 2 ========================
Einstellungsskalen, drei Typen von Skalen
Likert Scale: Methode der summierten Schätzwerte
Thurstone Scale: Methode der gleich erscheinenden
Intervalle
Guttman Scale: Skalogramm-Methode
Terminologie bei der Skalenbildung:
§ Item
§ Gesamtskala, Subskalen
§ Score (Testwert)
§ Trennschärfe
§ Reliabilität
Itemarten
Forced-choice Items ⇒ die Antwort bei einem Item
beeinflußt die Beantwortung weitere Items, zumeist werden
Dyaden und Triaden mit 2 oder 3
Entscheidungsalternativen eingesetzt
=============== Skalenbildung === Folie 3 ========================
Vergleich der Vor- und Nachteile von forced-choice
Items
der Proband
normale Items
forced-choice
gibt die Intensität
eines Urteils an
muß eine
Entscheidung
treffen
Beeinflussung unabhängige Items abhängige Items
der Items
Vorteil
ökonomische
Auswertung und
Verrechnung
soziale
Erwünschtheit
und allgemeine
Antworttendenzen
spielen geringere
Rolle
Nachteil
Anfälligkeit
gegenüber
systematischen
Reaktionen der
Probanden
schwierigere
Testkonstruktion
Skalenarten im Detail
Likert Scale
umfasst in der Regel eine Reihe von Einstellungsitems
oder Wertitems. Zu jedem Item werden die Probanden
nach dem Ausmaß der Übereinstimmung oder
Nichtübereinstimmung gefragt. Die Messwerte werden
summiert, dann ggfs. gemittelt und ergeben den
individuellen Messwert einer Person auf dem
Kontinuum des untersuchten Merkmals. (Beispiel Skala
Umweltbewusstsein)
=============== Skalenbildung === Folie 4 ========================
Implizite und explizite Voraussetzungen dieser Art der
Skalierung:
1. die Items sind gleichwertig
2. es wird keine Skalierung der Items vorgenommen,
sondern der Personen
3. Existenz eines Einstellungsuniversums U mit einer
prinzipiell nicht begrenzten Anzahl der Items
4. Jede Teilmenge von Items aus U entspricht theoretisch
jeder anderen
Beispiel: 3 Items aus der F-Skala zur Messung autoritärer
Einstellung (Adorno u.a., The Autoritarian Personality,
1950)
◊
Gehorsam und Respekt vor der Autorität sind die
wichtigsten Tugenden, die Kinder lernen sollen.
◊
Was die Jugend am dringendsten braucht, ist strenge
Disziplin, eiserne Entschlossenheit und den Willen zur
Arbeit und zum Kampf für Familie und Vaterland.
◊
Die Wissenschaften haben zwar ihre Bedeutung, aber
es gibt viele Dinge, die der menschliche Geist wohl nie
begreifen wird.
Problem: Allgemeine Reaktionsformen (z.B. dass jemand
eher zu Extremen neigt, jemand anders eher
verhaltene Äußerungen von sich gibt) beeinflussen den
Skalenwert.
=============== Skalenbildung === Folie 5 ========================
Die einzelnen Schritte der Skalenbildung
1. Auswahl der Items, d.h. man sammelt Items, von denen
man begründet annimmt, dass sie zur gleichen
Dimension gehören. Man wählt eine bestimmte Form von
Skala aus, z.B. 3er, 5er, 7er Skala (etwa „stimme stark
zu“ bis „lehne stark ab“)
2. Voruntersuchung mit etwa 100 Probanden
3. Berechnungsart für den Gesamtpunktwert festlegen
4. Prüfung der Skalenreliabilität (d.h. der Zuverlässigkeit der
Messung) durch ein geeignetes Verfahren, z.B. split-half.
Frage: wie groß ist das Ausmaß der Streuung bei
Wiederholter Messung, wie zuverlässig ist der Meßwert?
5. Prüfung der Dimensionalität der Items
6. Entscheidung über Auswahl und Anordnung der Items
auf der endgültigen Skala
7. Prüfung der Validität der Skala
Trennschärfe:
Die Trennschärfe eines Items ist der Korrelationskoeffizient
zwischen den Antworten jedes Probanden auf dieses eine
Item und ihrer Werte bzgl. der gesamten Skala. Anders
ausgedrückt: "Der Trennschärfe eines Items ist zu
entnehmen, wie gut das gesamte Testergebnis aufgrund
der Beantwortung eines einzelnen Items vorhersagbar ist."
(Bortz/Döring 1995, S. 200)
Die Trennschärfe ist das wichtigste Beurteilungskriterium
bei der Itemanalyse, denn bei der Itemanalyse sollen ja
=============== Skalenbildung === Folie 6 ========================
gerade die Items herausgefunden werden, die 'gute' von
'schlechten' Vpn trennen. Die Trennschärfe kann nur Werte
zwischen -1 und +1 annehmen , je höher die Werte im
positiven Bereich liegen, desto besser. Konsequenz: Bei
der Itemanalyse ist es sinnvoll ist, die Items mit niedrigen
Trennschärfen aus der Skala zu entfernen. Items mit hohen
Trennschärfewerten führen in der Regel zu einem hohen
Alphawert für die Gesamtskala.
Prüfung der Skalenreliabilität mittels der SPSSProzedur Reliability
>> siehe SPSS Beispiel
Berechnet wird der Reliabilitätskoeffizient Cronbachs Alpha
Alpha ist ein Koeffizient, der angibt, wie reliabel eine Skala
ist. Es ist ein sehr häufig benutztes Maß, das auf der
internen Konsistenz einer Skala basiert. Es ist ein Maß für
die Zuverlässigkeit der Skala.
Alpha kann Werte zwischen 0 und 1 annehmen. In der
sozialwissenschaftlichen Forschung gelten Skalen mit
Alpha zwischen 0,7 und 0,8 als brauchbar. Je höher der
Alphawert wird, desto 'besser' ist die interne Konsistenz der
Skala. Werte zwischen 0,9 und 0,99 gelten als sehr gut und
werden außer in der psychologischen Diagnostik nur selten
erreicht.
Bedeutung von Alpha: Die durchschnittliche Korrelation
von Items innerhalb eines Tests unter der Voraussetzung,
dass sie standardisiert sind.
=============== Skalenbildung === Folie 7 ========================
Bedingung: Die Items müssen positiv korreliert sein,
ansonsten müssen Items umcodiert werden (Umpolung der
Skala).
Berechnung von Cronbachs Alpha
Voraussetzung: die Variablen sind standardisiert)
k •r
α=
1 + ( k − 1) r
k ist gleich der Anzahl der Items in der Skala und r ist der
durchschnittliche Korrelationskoeffizient.
Für den Fall, dass man 10 Items mit einer durchschnittlichen Korrelation von r=0,20 hat, ergibt sich ein Alpha von
0,71. Wird die Zahl der Items auf 25 erhöht, beträgt Alpha
0,86. Alpha steigt also mit der Anzahl der Items an und
kann auch bei relativ niedriger Korrelation der Items untereinander beträchtlich sein.
Alternative Reliabilitätsmodelle: Split-half oder Parallelformen eines Tests
=============== Skalenbildung === Folie 8 ========================
Prüfung der Validität
Verschiedene Konzepte der Gültigkeitsermittlung:
•
Augenscheinliche Validität (face validity)
•
Inhaltliche Validität (content validity)
•
Expertenvalidität (expert validity)
•
Parallelenvalidität (concurrent validity) = Validierung an
einem Außenkriterium
•
Prognosevalidität (predictive validity)
•
Extremgruppenvalidität
•
Known-groups validity
•
Konstruktvalidität (construct validity) = Forderung nach
Konsistenz mit den entsprechenden theoretischen
Konstrukten
Unterscheidung von interner und externer Validität,
wobei interne = der Eindeutigkeit der Messung und externe
= der Generalisierbarkeit der Ergebnisse
Thurstone Scale
Items weisen unterschiedlichen Intensitätsgrad auf, sie
werden von einer Expertenstichprobe auf einer meist 9
oder 11 Kategorien umfassenden Skala zugeordnet.
Jedem Item kann nun ein Skalenwert zugeordnet
werden. Individueller Skalenwert wird dann als Summe
der mit den Skalenwerten gewichteten Items
berechnet.
=============== Skalenbildung === Folie 9 ========================