KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und
Transcrição
KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und
§ § § § § § KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und Tests Systematisierung von Tests Itemarten Skalenarten im Detail Die Likert Skala Skala: Eine Skala ist ein Instrument zur Messung von (theoretischen) Konzepten, wie Intelligenz oder Einstellungen (z.B. Fremdenfeindlichkeit, Arbeitsmotivation, Umweltbewusstsein, Wohnzufriedenheit). Ziel der Skalenbildung: Eine Person auf einer Skala einzustufen, d.h. hinsichtlich eines zu untersuchenden Konzeptes oder Merkmals (z.B. „Umweltbewusstsein“, „Autoritarismus“) einen Skalenwert, zuordnen. Der Skalenmesswert bringt dann zum Ausdruck, wo sich die Person auf der untersuchten Dimension befindet. Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item Basis einer Skala ist eine Anzahl von Items, die zur Erfassung der zu messenden Variablen ausgewählt worden sind und mit Hilfe der Itemanalyse in Hinblick auf ihre Zuverlässigkeit überprüft wurden. Häufige Anwendungsfelder: Einstellungsskalen, psychologische Tests =============== Skalenbildung === Folie 1 ======================== Psychologische Tests (Leistungstests, Intelligenztests etc.) sind ebenfalls Skalen ⇒ Primäres Einsatzfeld Psychologische Diagnostik Mögliche Systematisierung von Tests nach ⇒ Brickenkamp (Hrsg.), Handbuch psychologischer und pädagogischer Tests A Leistungstests Entwicklungstests Intelligenzallgemeine LeistungsSchulspezielle Funktionsprüfungs und Eignungstests B Psychometrische Leistungstests Persönlichkeits-StrukturEinstellungsInteressenKlinische Tests C Persönlichkeits-Entfaltungsverfahren Formdeuteverfahren Verbal-thematische Verfahren Zeichnerische und Gestaltungsverfahren =============== Skalenbildung === Folie 2 ======================== Einstellungsskalen, drei Typen von Skalen Likert Scale: Methode der summierten Schätzwerte Thurstone Scale: Methode der gleich erscheinenden Intervalle Guttman Scale: Skalogramm-Methode Terminologie bei der Skalenbildung: § Item § Gesamtskala, Subskalen § Score (Testwert) § Trennschärfe § Reliabilität Itemarten Forced-choice Items ⇒ die Antwort bei einem Item beeinflußt die Beantwortung weitere Items, zumeist werden Dyaden und Triaden mit 2 oder 3 Entscheidungsalternativen eingesetzt =============== Skalenbildung === Folie 3 ======================== Vergleich der Vor- und Nachteile von forced-choice Items der Proband normale Items forced-choice gibt die Intensität eines Urteils an muß eine Entscheidung treffen Beeinflussung unabhängige Items abhängige Items der Items Vorteil ökonomische Auswertung und Verrechnung soziale Erwünschtheit und allgemeine Antworttendenzen spielen geringere Rolle Nachteil Anfälligkeit gegenüber systematischen Reaktionen der Probanden schwierigere Testkonstruktion Skalenarten im Detail Likert Scale umfasst in der Regel eine Reihe von Einstellungsitems oder Wertitems. Zu jedem Item werden die Probanden nach dem Ausmaß der Übereinstimmung oder Nichtübereinstimmung gefragt. Die Messwerte werden summiert, dann ggfs. gemittelt und ergeben den individuellen Messwert einer Person auf dem Kontinuum des untersuchten Merkmals. (Beispiel Skala Umweltbewusstsein) =============== Skalenbildung === Folie 4 ======================== Implizite und explizite Voraussetzungen dieser Art der Skalierung: 1. die Items sind gleichwertig 2. es wird keine Skalierung der Items vorgenommen, sondern der Personen 3. Existenz eines Einstellungsuniversums U mit einer prinzipiell nicht begrenzten Anzahl der Items 4. Jede Teilmenge von Items aus U entspricht theoretisch jeder anderen Beispiel: 3 Items aus der F-Skala zur Messung autoritärer Einstellung (Adorno u.a., The Autoritarian Personality, 1950) ◊ Gehorsam und Respekt vor der Autorität sind die wichtigsten Tugenden, die Kinder lernen sollen. ◊ Was die Jugend am dringendsten braucht, ist strenge Disziplin, eiserne Entschlossenheit und den Willen zur Arbeit und zum Kampf für Familie und Vaterland. ◊ Die Wissenschaften haben zwar ihre Bedeutung, aber es gibt viele Dinge, die der menschliche Geist wohl nie begreifen wird. Problem: Allgemeine Reaktionsformen (z.B. dass jemand eher zu Extremen neigt, jemand anders eher verhaltene Äußerungen von sich gibt) beeinflussen den Skalenwert. =============== Skalenbildung === Folie 5 ======================== Die einzelnen Schritte der Skalenbildung 1. Auswahl der Items, d.h. man sammelt Items, von denen man begründet annimmt, dass sie zur gleichen Dimension gehören. Man wählt eine bestimmte Form von Skala aus, z.B. 3er, 5er, 7er Skala (etwa „stimme stark zu“ bis „lehne stark ab“) 2. Voruntersuchung mit etwa 100 Probanden 3. Berechnungsart für den Gesamtpunktwert festlegen 4. Prüfung der Skalenreliabilität (d.h. der Zuverlässigkeit der Messung) durch ein geeignetes Verfahren, z.B. split-half. Frage: wie groß ist das Ausmaß der Streuung bei Wiederholter Messung, wie zuverlässig ist der Meßwert? 5. Prüfung der Dimensionalität der Items 6. Entscheidung über Auswahl und Anordnung der Items auf der endgültigen Skala 7. Prüfung der Validität der Skala Trennschärfe: Die Trennschärfe eines Items ist der Korrelationskoeffizient zwischen den Antworten jedes Probanden auf dieses eine Item und ihrer Werte bzgl. der gesamten Skala. Anders ausgedrückt: "Der Trennschärfe eines Items ist zu entnehmen, wie gut das gesamte Testergebnis aufgrund der Beantwortung eines einzelnen Items vorhersagbar ist." (Bortz/Döring 1995, S. 200) Die Trennschärfe ist das wichtigste Beurteilungskriterium bei der Itemanalyse, denn bei der Itemanalyse sollen ja =============== Skalenbildung === Folie 6 ======================== gerade die Items herausgefunden werden, die 'gute' von 'schlechten' Vpn trennen. Die Trennschärfe kann nur Werte zwischen -1 und +1 annehmen , je höher die Werte im positiven Bereich liegen, desto besser. Konsequenz: Bei der Itemanalyse ist es sinnvoll ist, die Items mit niedrigen Trennschärfen aus der Skala zu entfernen. Items mit hohen Trennschärfewerten führen in der Regel zu einem hohen Alphawert für die Gesamtskala. Prüfung der Skalenreliabilität mittels der SPSSProzedur Reliability >> siehe SPSS Beispiel Berechnet wird der Reliabilitätskoeffizient Cronbachs Alpha Alpha ist ein Koeffizient, der angibt, wie reliabel eine Skala ist. Es ist ein sehr häufig benutztes Maß, das auf der internen Konsistenz einer Skala basiert. Es ist ein Maß für die Zuverlässigkeit der Skala. Alpha kann Werte zwischen 0 und 1 annehmen. In der sozialwissenschaftlichen Forschung gelten Skalen mit Alpha zwischen 0,7 und 0,8 als brauchbar. Je höher der Alphawert wird, desto 'besser' ist die interne Konsistenz der Skala. Werte zwischen 0,9 und 0,99 gelten als sehr gut und werden außer in der psychologischen Diagnostik nur selten erreicht. Bedeutung von Alpha: Die durchschnittliche Korrelation von Items innerhalb eines Tests unter der Voraussetzung, dass sie standardisiert sind. =============== Skalenbildung === Folie 7 ======================== Bedingung: Die Items müssen positiv korreliert sein, ansonsten müssen Items umcodiert werden (Umpolung der Skala). Berechnung von Cronbachs Alpha Voraussetzung: die Variablen sind standardisiert) k •r α= 1 + ( k − 1) r k ist gleich der Anzahl der Items in der Skala und r ist der durchschnittliche Korrelationskoeffizient. Für den Fall, dass man 10 Items mit einer durchschnittlichen Korrelation von r=0,20 hat, ergibt sich ein Alpha von 0,71. Wird die Zahl der Items auf 25 erhöht, beträgt Alpha 0,86. Alpha steigt also mit der Anzahl der Items an und kann auch bei relativ niedriger Korrelation der Items untereinander beträchtlich sein. Alternative Reliabilitätsmodelle: Split-half oder Parallelformen eines Tests =============== Skalenbildung === Folie 8 ======================== Prüfung der Validität Verschiedene Konzepte der Gültigkeitsermittlung: • Augenscheinliche Validität (face validity) • Inhaltliche Validität (content validity) • Expertenvalidität (expert validity) • Parallelenvalidität (concurrent validity) = Validierung an einem Außenkriterium • Prognosevalidität (predictive validity) • Extremgruppenvalidität • Known-groups validity • Konstruktvalidität (construct validity) = Forderung nach Konsistenz mit den entsprechenden theoretischen Konstrukten Unterscheidung von interner und externer Validität, wobei interne = der Eindeutigkeit der Messung und externe = der Generalisierbarkeit der Ergebnisse Thurstone Scale Items weisen unterschiedlichen Intensitätsgrad auf, sie werden von einer Expertenstichprobe auf einer meist 9 oder 11 Kategorien umfassenden Skala zugeordnet. Jedem Item kann nun ein Skalenwert zugeordnet werden. Individueller Skalenwert wird dann als Summe der mit den Skalenwerten gewichteten Items berechnet. =============== Skalenbildung === Folie 9 ========================