Skalen-, Index - Dr. Wolfgang Langer

Transcrição

Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000
1
Einführung in sozialwissenschaftliche Skalen-, Index- und
Typenkonstruktion
Quellen:
1. Friedrichs, J.:
Methoden der empirischen Sozialforschung. Opladen: Westdeutscher Verlag, 1990, S.172 - 188
2. Holm, K.:
Die Gültigkeit sozialwissenschaftlichen Messen.
In: Ders.(ed.): Die Befragung 4. München:
Francke, 1976, S. 123 - 133
3. Rost, J.:
Lehrbuch Testtheorie, Testkonstruktion. Bern:
Huber 1996
4. Schnell, R., Hill, P.B.,& Esser, E.:
Methoden der empirischen Sozialforschung.
München: Oldenbourg, 1999(6)
5. Sixtl, F.:
Skalierungsverfahren: Grundzüge und ausgewählte Methoden sozialwissenschaftlichen Messens. In: K.Holm (ed.): Die Befragung 4. München: Francke, 1976, S. 9 - 95
Die Skalenbildung verfolgt zwei wichtige Ziele, erstens die Verbesserung der
Zuverlässigkeit der Messung durch den Einsatz einer Vielzahl von Items (Aussagen), die dasselbe messen sollen und zweitens der Reduktion der in dieser
Vielzahl von Items / Aussagen (Variablen) enthaltenen Informationen auf möglichst einen Skalen- oder Indexwert.
Bei der Skalenkonstruktion sieht sich der Forscher mit einer Vielzahl von Problem konfrontiert:
1.
Ist die gemessene Einstellung ein- oder mehrdimensional ?
2.
Welches Skalierungsmodell ist angemessen ?
3.
Welche Abstände bestehen zwischen den einzelnen Punkten einer Einstellungsdimension ?
4.
Wie stabil sind die Items und ihre Ordnung in einer Skala über Zeiträume
hinweg ?
Zunächst erfolgt die Darstellung einfacher Skalierungsverfahren, wie sie in den
Sozialwissenschaften zumeist angewendet werden. Hieran schließt sich eine
Einführung in die Konstruktion von Indizes und Typologien an.
Bei den Skalierungsmethoden liegt der Schwerpunkt der Vorstellung auf den
Rang-, Thurstone-, Likert- und Guttman-Verfahren. In weitere Auswertungsmethoden wie der probabilistischen Testtheorie führt Rost (1996) kenntnisreich
und praxisbezogen ein.
1.
2
Einfache Verfahren der Rangskalierung:
Bogardus Skalierung der "subjektiven sozialen Distanz" bei vorgegebenen
Rangplätzen
Vor der Hintergrund der vom Chicagoer Stadtsoziologen Park formulierten
Distanztheorie entwickelte Bogardus seine Skalierung der sozialen Distanz zu
Fremdgruppen. Seine Absicht bestand darin, Verhaltensintentionen der Befragten
gegenüber anderen Personen oder Gruppen zu erfassen. Hierbei ordnete er die zur
Fremdgruppe gehörenden Aussagen dergestalt, daß sie kontinuierlich die zwei
Pole der geringsten und größten Distanz verbinden. In ihrer ursprünglichen
Fassung bestand die Skala aus 7 Aussagen (Items), die mit der folgenden Instruktion für den Befragten versehen waren:
Instruktion:
Für jede der unten aufgeführten Rassen oder Nationalitäten kreisen Sie bitte jeden
Lebensbereich ein, zu der Sie ein durchschnittliches Mitglied dieser Rasse oder
Nationalität (weder den Besten noch den Schlechtesten, den Sie kennen) zulassen
würden. Antworten Sie bitte völlig spontan, ohne lange nachzudenken !
Ich würde ...
Juden
Neger
sie in meine Familie einheiraten lassen.
1
1
sie in meinen persönlichen Freundeskreis
aufnehmen.
2
2
sie als Nachbarn in meiner Straße akzeptieren.
3
3
sie als Kollegen an meinem Arbeitsplatz
dulden.
4
4
sie Staatsbürger meines Landes werden
lassen.
5
5
sie nur als Besucher in meinem Land
dulden.
6
6
ihnen die Einreise in mein Land verweigern.
7
7
3
Der Skalenwert 1 und 7 als Pole bilden die niedrigste bzw. die größte soziale
Distanz ab. Da jeder Befragte mehr als eine Antwort geben kann, indem er die
jeweiligen Items auswählt, benötigen wir ein Verfahren, um diese zusammenzufassen. Bogardus hat hierfür die Mittelwertsberechnung vorgeschlagen. Die
Punktwerte der vom Befragten befürworteten Verhaltensweisen hat der Forscher
aufzusummieren und anschließend durch sieben zu teilen. Je näher der resultierende Mittelwert einer Person dem Wert 1 näherkommt, desto geringer ist seine
Distanz zu vorgegebenen Fremdgruppe. Seine Präferenz für den Pol der „Einheirat in die eigene Familie“ ließe sich als Vorurteilslosigkeit interpretieren.
Hingegen steigt mit der Annäherung an den Punktwert 7 die Distanz kontinuierlich an, was auf eine offene Bekundung der Vorurteile gegenüber der Fremdgruppe schließen läßt.
Bogardus unterstellte ausdrücklich bei der Konstruktion seiner Skala zwei Annahmen: Alle sieben Items messen erstens die vorgegebene Zieldimension „Soziale Distanz gegenüber der Fremdgruppe X“. Zweitens entspricht die von ihm
mit Hilfe der ganzzahligen Punktwerte 1 bis 7 vorgenommene Gewichtung der
Items den wahren Intensitätsunterschieden auf der latenten Dimension. Beide
Annahmen konnte er mit den statistischen Hilfsmitteln seiner Zeit nicht überprüfen.
Skalierung bei nicht vorgegebenen Rangplätzen
Die vorgegebenen Items lassen sich hinsichtlich ihrer Zieldimension in einer
aufsteigenden Rangfolge eindeutig sortieren. Die entsprechenden Rangplätze
kann der Forscher entweder selbst willkürlich festsetzen, wie dies Bogardus getan
hat, oder er versucht, mit Hilfe der Rangplatzskalierung eine empirisch fundierte
Rangordnung zu identifizieren. Hierbei entspricht der mit Hilfe einer Untersuchung ermittelte "durchschnittliche" Rangplatz dem "Punktwert" des Items auf
der Skala der Zieldimension. Wir erhalten durch dieses Vorgehen eine Skala mit
rein ordinalem Meßniveau.
Wie können Sie als Forscher die Rangfolge ihrer Items auf der Zieldimension
bestimmen?
Methode:
1.
2.
3.
Rangskalierung
Schreiben Sie jedes Item auf eine einzelne Karteikarte.
Mischen Sie die Karten gut durch.
Bitte Sie Ihre Versuchsperson (Vp) die auf den Karten enthaltenen Aussagen von der schwächsten bis zur stärksten Aussage aufsteigend zu
3.1
3.2
4
sortieren.
Wählen Sie zunächst das schwächste und das stärkste Item aus.
Sortieren Sie die anderen Items zwischen diesen beiden Polen ein.
Auswertung: Berechnen Sie für jedes Item den durchschnittlichen Rangplatz.
Sollte eine Vp zwei Items gleichrangig eingeordnet haben, so verkoden Sie beide
Items mit dem Mittelwert ihrer aufeinanderfolgenden theoretischen Rangplätze.
Wenn beispielsweise bei einer sechsstufigen Rangfolge zwei Items den Platz 4
zugewiesen bekommen, tragen Sie als Rangwert 4,5 ein. Alle höher angeordneten
Items müssen natürlich dann um einen Rangplatz nach oben verschoben werden.
Beispiel für eine Rangskalierung:
Quelle:
Eurobarometer Nr. 30
Skala: "Restriktive Ausländerpolitik gegenüber Türken"
Frage:
Es gibt verschiedene politische Zielvorstellungen zur Anwesenheit
von Türken in der Bundesrepublik Deutschland. Welche politische
Linie sollte Ihrer Meinung nach von der Bundesregierung langfristig
verfolgt werden ?
Instruktion:
Sehr geehrter Teilnehmer, Sehr geehrte Teilnehmerin !
Bei der folgenden Aufgabe geht es ausdrücklich nicht darum Ihre persönliche
Einstellung zu Türken zu erfassen, sondern wir bitten Sie darum, die sechs
folgenden Aussagen zur Ausländerpolitik hinsichtlich der Stärke der in ihnen
zum Ausdruck kommenden Diskriminierung zu sortieren. Denken Sie daran, wir
wollen nicht Ihre Einstellung zu Türken erfassen, sondern wir bitten Sie lediglich
darum, Ihr Urteil über die Stärke der in den Aussagen enthaltenen Diskriminierung abzugeben.
1.
Lesen Sie sich in aller Ruhe alle sechs Aussagen zur Ausländerpolitik
gegenüber Türken durch.
2.
Wählen Sie die am meisten diskriminierende Politikvariante aus und weisen Sie ihr den Rangplatz 6 zu.
5
3.
Wählen Sie die am wenigsten diskriminierende Politikvariante aus und
weisen Sie ihr den Rangplatz 1 zu.
4.
Ordnen Sie die verbleibenden 4 Politikvarianten zwischen den in Punkt 2
und 3 festgelegten Polen dergestalt ein, daß sie hinsichtlich der in ihnen
enthaltenen Diskriminierungsstufen eine Rangfolge bilden.
5.
Sollte Sie sich bei zwei Aussagen als in gleichem Maße diskriminierend
ansehen, vergeben Sie bitte zwei identische Rangplatznummern.
Aussagen zur Ausländerpolitik:
Die Bundesregierung sollte ....
- ... nur diejenigen Türken zurückschicken, die nicht zum wirtschaftlichen Wachstum der Bundesrepublik beitragen.
- ... nur diejenigen Türken zurückschicken, die keine Aufenthaltserlaubnis besitzen.
- ... keinen von den Türken zurückschicken, die heute in der
Bundesrepublik leben.
- ... nur diejenigen Türken in ihr Heimatland zurückschicken, die
nicht in der Bundesrepublik geboren sind.
- ... alle Türken in ihr Heimatland zurückschicken, auch diejenigen, die in der Bundesrepublik geboren sind.
- ... nur diejenigen Türken zurückschicken, die hier Verbrechen
oder schwere kriminelle Delikte begangen haben.
Rangplatz
6
Im Sommersemester 1995 führte ich diese Rangskalierung mit 35 Studenten des
Methoden-I-Kurses durch. Nach der Anwendung der Regel für „verknüpfte
Rangsplätze“ erhielt ich die folgende Datentabelle:
Probnr
Not working
Illegals
None back
Back not
born here
All back
Criminals
1
5,0
2,0
1,0
3,0
6,0
4,0
2
5,0
3,0
1,0
4,0
6,0
2,0
3
5,0
2,0
1,0
4,0
6,0
3,0
4
5,0
3,0
1,0
4,0
6,0
2,0
5
5,0
4,0
1,0
3,0
6,0
2,0
6
5,0
3,0
1,0
4,0
6,0
2,0
7
5,0
2,0
1,0
4,0
6,0
3,0
8
5,0
2,0
1,0
4,0
6,0
3,0
9
4,5
3,0
1,0
4,5
6,0
2,0
10
4,5
3,0
1,0
4,5
6,0
2,0
11
6,0
3,0
2,0
5,0
4,0
1,0
12
6,0
3,0
2,0
5,0
4,0
I,0
13
4,0
5,0
1,0
3,0
6,0
2,0
14
6,0
3,0
1,0
4,0
5,0
2,0
15
6,0
3,5
1,0
3,5
5,0
2,0
16
4,0
2,0
1,0
3,0
6,0
5,0
17
4,0
2,0
1,0
5,0
6,0
3,0
18
5,0
3,0
1,0
4,0
6,0
2,0
19
5,0
3,0
1,0
4,0
6,0
2,0
20
5,0
2,0
1,0
4,0
6,0
3,0
21
4,0
2,0
1,0
5,0
6,0
3,0
22
5,0
3,0
1,0
4,0
6,0
2,0
23
5,0
2,0
1,0
4,0
6,0
3,0
24
5,0
3,0
1,0
4,0
6,0
2,0
25
5,0
3,0
1,0
3,0
6,0
3,0
26
5,0
4,0
1,0
3,0
6,0
2,0
27
5,0
4,0
1,0
3,0
6,0
2,0
7
Probnr
Not working
Illegals
None back
Back not
born here
All back
Criminals
28
5,0
3,0
1,5
5,0
5,0
1,5
29
4,5
3,0
1,5
4,5
6,0
1,5
30
4,0
2,5
1,0
5,0
6,0
2,5
31
4,5
2,0
1,0
4,5
6,0
3,0
32
5,0
2,0
1,0
3,0
6,0
4,0
33
5,0
3,0
1,0
4,0
6,0
2,0
34
5,0
4,0
1,0
3,0
6,0
2,0
35
5,0
3,0
1,0
4,0
6,0
2,0
Die Bundesregierung sollte ....
Not working:
Illegals:
None back:
Not born here:
Back all:
Criminals:
nur diejenigen Türken zurückschicken, die nicht zum wirtschaftlichen Wachstum der Bundesrepublik beitragen.
nur diejenigen Türken zurückschicken, die keine Aufenthaltserlaubnis haben.
keinen von den Türken zurückschicken, die heute in der Bundesrepublik leben.
nur diejenigen Türken in ihr Heimatland zurückschicken, die nicht in der Bundesrepublik
geboren sind.
alle Türken in ihr Heimatland zurückschicken, auch diejenigen, die in der Bundesrepublik
geboren sind.
nur diejenigen Türken zurückschicken, die hier Verbrechen oder schwere kriminelle Delikte begangen haben.
Für die sechs zu skalierenden Items erhielt ich folgende durchschnittliche und
mittlere Rangplätze, wobei letztere zwischen den sechs Items präzise diskriminieren:
Die Bundesregierung
sollte Türken ...
Mittelwert
zurück, die nicht arbeiten
4,91
zurück, keine
2,86
Aufenthaltserlaubnis
zurück, keinen einzigen
1,09
zurück, nicht in BRD
3,96
geboren
zurück, alle Türken
5,80
zurück, Straffällige
2,39
Standardab
weichung
,54
Median
5,00
,74
3,00
,26
1,00
,69
4,00
,53
,83
6,00
2,00
8
Die Streuung der mittleren Rangplätze läßt sich mit Hilfe des von John Tukey
entwickelten Box-Whiskers-Plot anschaulich darstellen. Der dicke Balken in der
Mitte jeder Rubrik markiert jeweils den mittleren Rangplatz, an dem genau 50%
der vergebenen Ränge liegen. Die untere bzw. obere Begrenzung des Kasten
markiert jeweils die untere bzw. obere Quartilsgrenze, an der jeweils 25% bzw.
75% der verteilten Ränge liegen. Die beiden äußeren waagerechten Begrenzungsstriche markieren den 10% bzw. 90% Bereich der Verteilung. Punkte , die mit
einem Kreis bzw. Stern versehen sind, liegen außerhalb des 1,5 bzw. 3-fachen
Interquartilsabstand. Die Betrachtung des Box-Plots ergibt, daß lediglich die
Items „Straffällige“ und „Illegale“ sich in der Wahrnehmung ihrer Intensität auf
Seiten der Befragten leicht überschneiden. Ob dies Überschneidung statistisch
relevant ist, läßt sich mit Hilfe des Mediantest oder der Berechnung von Vertrauenintervallen für die Mediane überprüfen. Diese Art von Fragen sind aber
Gegenstand der Veranstaltung Methoden III.
2.
9
Methode des Paarvergleiches (Thurstone´s law of comparative judgement")
Ähnlich wie bei der Rangskalierung wird die Versuchsperson (Vp) gebeten, ein
Urteil über die Reizintensität von Items / Aussagen abzugeben. Im Unterschied
zur Rangskalierung hat die Vp aber nicht die Gesamtheit der Items vor Augen,
sondern sie wird gebeten, jeweils zwei Aussagen zu vergleichen. Ihre Aufgabe
besteht jetzt darin, festzustellen, ob dier erste Aussage stärker, intensiver oder
größer als die zweite ist. In unserem Falle, ob die erste Variante der Ausländerpolitik eine größeres Ausmaß an Diskriminierung beinhaltet als die zweite. Bei
insgesamt 6 Items sind (6 * (6-1)) / 2 Paarvergleiche möglich, d.h. insgesamt
müssen 15 Paarvergleiche durchgeführt werden. Anschließend lassen sich die
Aussagen in einer Rangfolge ordnen. Soll diese Rangfolge auf eine metrische
Skala übertragen werden, so müssen Zusatzannahmen eingeführt werden, wie
SIXTL (1967) ausführlich darstellt.
Beispiel:
Paarvergleich der Items zur Ausländerpolitik gegenüber Türken.
Nachteil:
Im Vergleich zur einfachen Rangskalierung ist der Paarvergleich
sehr aufwendig.
3.
Likert-Skala (Methode der summierten Beobachtung)
Diese Form der Vorgabe von Antwortkategorien und ihrer anschließenden Skalierung wird vor allem bei der Fragebatterien verwendet. Hierbei wird das Ausmaß
der Zustimmung eines Befragten über die Vorgabe von verbalen Ankern und
nummerischen Werten gemessen. Bei einer fünfstufigen Skala lauten die Anwortvorgaben beispielsweise folgendermaßen:
10
Antwortformate der Likert-Skala
Nummerisch:
Verbal:
Zeichen:
1
Ich stimme stark zu
++
2
Ich stimme zu
+
3
Ich bin neutral
(teils/teils)
0
4
Ich lehne es ab
-
5
Ich lehne es stark ab
--
9
Ich weiß nicht (oder
Antwortverweigerung)
Definitionsgemäß verfügt die Likert-Skala über ein intervallskaliertes Meßniveau, da die Abstände zwischen ihren nummerischen Werten eindeutig definiert
sind. Daher empfiehlt HOLM (1974) ausdrücklich die Verwendung von LikertSkalen als Antwortformate. Aufgrund ihres Meßniveaus eignen sie sich besonders gut für multivariate statistische Analyseverfahren wie die Faktorenanalyse. Diese spezielle Verfahren gestattet es, zu überprüfen, ob die zu einer
"Batterie" gehörenden Items wirklich nur ihre Zieldimension messen oder ob
sich hinter ihnen noch eine weitere Fremddimension verbirgt.
Will man diejenigen Antworten eines Probanden, die er auf eine Batterie gegeben
hat, zu einem Index zusammenfassen, so muß man sich zunächst der richtigen
Polung der einzelnen Items versichern. Oftmals werden Items "negativ formuliert" um der "Tendenz zum Jahsagen" des Probanden entgegenzuwirken. Hat
man die Antworten dieser "Testitems" in Richtung der Zieldimension gedreht, so
kann man den Summenwert des Probanden über alle Antworten dieser Batterie
bilden. Nur dieser Summenwert fließt dann in die weiteren statistischen Analysen
ein.
Likertskalen erfreuen sich in der Umfrageforschung größster Beliebtheit, wobei
sie in unterschiedlichen Formaten (4er, 5er, 7er oder mehrstufig) eingesetzt
werden. Seit Beginn der achtziger Jahre enthält die Allgemeine Bevölkerungsumfrage in den Sozialwissenschaften, welche die prägnante Abkürzung ALLBUS trägt, eine 7-stufige Likertskala zur Messung von Gastarbeiter- bzw. Ausländerfeindlichkeit. Sie besteht aus vier Items, die der folgende Auszug des
ALLBUS 96 Fragebogens dokumentiert:
11
Alle vier Items messen in derselben Richtung die geäußerte Ausländerfeindlichkeit. Eine Drehung einzelner Items ist daher nicht erforderlich. Der Gesamtpunktwert für jeden Befragten auf der Skala „Ausländerfeindlichkeit“ ergibt aus der
Summe seiner Einzelantworten auf den vier vorgegebenen Items. Weigert er sich,
eines der Items zu beantworten, so resultiert hieraus ein fehlender Wert, der zum
Ausschluß des Befragten von der Bildung des Gesamtpunktwertes („score“) führt.
Hinter der offensichtlich einfachen Summenbildung verbergen sich meßtheoretische Annahmen, die oftmals in Vergessenheit geraten sind. Schnell, Hill & Esser
(1999, S. 435) haben sie in ihrem Anhang A klar herausgearbeitet. Bei der einfachen Summenbildung unterstellt der Forscher implizit eine parallele Itemcharakteristik, die von folgenden Bedingungen ausgeht:
1.
2.
Alle Items messen gleichermaßen gut ihre Zieldimension (latentes Konstrukt)
Die Meßfehler aller Items sind gleichgroß und stochastisch voneinander
unabhängig. D.h., sie korrelieren nicht miteinander.
12
Bei der eigentlichen Datenanalyse gelangt vor allem das kongenerische Meßmodell zur Anwendung. Es unterstellt ebenfalls unabhängige Meßfehler, die in ihrer
Stärke variieren dürfen. Dies trifft ebenfalls für die Stärke zu, mit der jedes Item
das gemeinsame Konstrukt mißt. Sowohl die explorative also auch die konfirmatorische Faktorenanalyse basieren auf diesem spezifischen Meßmodell , das Karl
G. Jöreskog (1973) für die Analyse linearer Strukturgleichungen (Linear Structural Relationships) entwickelt hat. Dieses Modell soll das folgende Beispiel
veranschaulichen, das den Kontakt zu Ausländern und die Xenophobie als latente
13
Variablen, auch Konstrukte oder Faktoren genannt, enthält. In Sinne Gordon W.
Allport hat ein Forscher untersucht, ob der Kontakt zur Fremdgruppe zu einer
bedeutsamen Reduktion der geäußerten Ausländerfeindlichkeit führt. Hierbei
unterstellt er, daß das Kontaktniveau als unabhängiges, exogenes Kontrukt und
die Xenophobie als abhängiges, endogenes Konstrukt fungieren.
Nach einer Schätzung mit dem Programm LISREL 8.30 erhält er folgende
Ladungs- und Pfadkoeffizienten:
4.
14
Guttman-Skala
Der Grundgedanke dieses Verfahren lautet, daß die Items einer Skala eine kumulative Ordnung aufweisen, so daß im Idealfall Personen, die eine bestimmte Frage
bejahen, alle höhere Ränge auf einer Skala haben als Personen, welche die gleiche Frage verneinen. Diese Form der Skalierung geht von einer Rangordnung der
Personen anhand ihrer Antworten auf die Fragen aus, so daß man am Rang einer
Person direkt ablesen kann, welche Items sie bejaht bzw. abgelehnt hat. Ihr
Vorteil besteht darin, daß sich ihre Eindimensionalität direkt per Augenschein
überprüfen überprüfen läßt.
Annahmen: 1.
2.
Beispiel:
Die Items verfügen über eine monotone Funktion, d.h., wenn
die Ja- in Nein-Antworten umschlagen bleiben sie bei Nein
und vice versa.
Die Items und Personen bilden ein gemeinsames Kontinuum.
Reiss-Skala zur Messung der "vorehelichen sexuellen Freizügigkeit"
auf dem Kontinuum "restriktiv-permissiv". (Friedrichs 1990, S.
180ff.)
„REISS hat eine GUTTMAN-Skala mit zwölf Items entwickelt, hielt jedoch in
späteren Untersuchungen die reduzierte Form mit nur sieben Items für ausreichend. Die Items werden nachfolgend in der Form für den Mann wiedergegeben;
die Form für die Frau ist entsprechend.
l.
Ich finde, daß Petting für den Mann vor der Ehe erlaubt ist, wenn er verlobt
ist.
Stimme zu: stark - mittel - wenig
Lehne ab : stark - mittel - wenig
2.
Ich finde Petting für den Mann vor der Ehe erlaubt, wenn er seine Partnerin
liebt.
Lehne ab: stark-mittel -wenig
3.
Ich finde Petting für den Mann vor der Ehe erlaubt, wenn er für seine
Partnerin starke Zuneigung empfindet.
Stimme zu : stark - mittel - wenig
Lehne ab: stark - mittel - wenig
4.
Ich finde, daß uneingeschränkte Sexualbeziehungen für den Mann vor der
Ehe erlaubt sind, wenn er verlobt ist.
Lehne ab : stark - mittel - wenig
15
5.
Ehe erlaubt sind, wenn er seine Partnerin liebt.
6.
Ehe erlaubt sind, wenn er für seine Partnerin starke Zuneigung empfindet.
Stimme zu : stark - mittel - wenig
7.
Ehe erlaubt sind, auch wenn er keine besonders starke Zuneigung für seine
Partnerin empfindet.
Lehne ab: stark - mittel - wenig“
Für seine Auswertung hat Reiss die Antworten der Befragten gemäß der Zustimmung / Ablehnung dichotomisiert. Er erhält für seine Items folgendes idealtypisches Skalogramm, wenn die Voraussetzungen der Guttman-Skala vollständig
erfüllt wären.
Ein Skalenwert gibt an, welche Items eine Person bejaht und welche sie verneint
hat; der Skalenwert «3» gibt beispielsweise präzise Auskunft über die bejahten
Items (1-5) und die verneinten (6 u. 7). Es muß demnach Umschlagpunkte geben,
an denen die Ja-Antworten in Nein-Antworten umschlagen.
Der zweite Vorteil einer Skalogramm-Analyse ist die Prüfung auf Eindimensionalität. Um solche Prüfung vorzunehmen, müssen die Antworten der Personen auf
16
die Items möglichst jene Anordnung erreichen, die im Beispiel der Skala von
REISS erreicht war. Im einfachen Falle einer Bejahung oder Ablehnung der Items
(also keiner differenzierten Antwortvorgaben) sind folgende Arbeitsschritte
erforderlich:
1.
2.
3.
Erstellung eines Skalogramms, d. h. einer Matrix, in deren Spalten die
Items und in deren Zeilen die Antworten der Befragten stehen. Zweckmäßig ist es, dabei a) die Items nach der Häufigkeit ihrer Bejahung zu
rangordnen und b) die Personen danach zu ordnen, in welchem Maße sie
alle, einen Teil oder kein Item bejaht haben.
Daraus ergibt sich, wenn die bislang nur unterstellte Skala auch vorhanden
ist, ein Parallelogramm. Eine Reihe von Fällen (= Reaktionsmuster der
Befragten) wird sich-nicht rangordnen lassen. Man verschiebt daher die
Anordnung der Items und die der Personen solange, bis sich eine Ordnung
ergibt, die möglichst wenig Ausnahmen hat. Dafür ist in Tabelle 7 ein
vereinfachtes Beispiel aufgeführt. Um die Umschlagpunkte zu ermitteln
sind mehrere Verfahren möglich. Wendet man die Cornell-Technik an, so
ergibt sich eine redet gute Annäherung an das ideale Muster (Tab. 8).
Ferner wurden folgende Regeln angewendet: Die Items und Befragten
werden solange umgeordnet, bis Umschlagpunkte entstehen, die zu einem
Minimum an Fehlern führen. Befragte mit gleichen Antwortmustern werden zusammengefaßt. Sollte ein Item zahlreiche Fehler aufweisen, nimmt
man es aus der Skala heraus. Ergeben sich mehrere Anordnungen der Items
bei gleicher Fehlerzahl, dann bleibt nur eine semantische Analyse der
Items.
Da es eine perfekte Übereinstimmung der empirischen Ergebnisse, d. h. der
Reaktionsmuster der Befragten mit dem Modell, nicht gibt, wird die Annäherung an das Modell durch die Zahl der Abweichungen vom idealen
Muster berechnet. Sie ist ein Maß für die Skalierbarkeit der Items wie der
Personen. Es gibt an, wie groß die Wahrscheinlichkeit ist, aus dem Punktwert einer Person auf der Skala ihre Reaktionen zu erschließen oder zu
reproduzieren. Dieser Koeffizient der Reproduzierbarkeit (coefficient of
reproducibility) wird gebildet aus:
Rep. 1 Zahl der Fehler
Zahl der Items Zahl der Befragten
Der Koeffizient sollte mindestens 0,90 betragen.
17
Verwendet man Items mit mehr als zwei Antwortkategorien, ist das Vorgehen
komplizierter:
1.
2.
3.
4.
5.
Man gewichtet die Kategorien jedes Items (z. B. 0,1 ,2, 3),
berechnet anhand der vorläufigen Ordnung der Items den Score pro Person
über alle Items,
rangordnet die Personen nach ihren Scores.
Ergibt sich eine, gemessen am Modell, große Zahl von Fehlern, so wird
man
Kategorien einzelner Items zusammenfassen und/oder viele Fehler produzierende Items ganz ausscheiden. Es wird dann
den zusammengefaßten Kategorien der Items eine neue Gewichtung gegeben (z. B. 0,1, 2) und das Verfahren ab (2) wiederholt. Um diese Prozesse
zu vereinfachen, sind alternative Verfahren vorgeschlagen worden (vgl.
TORGERSON 1958, S. 321 f.).
18
Zusammenfassend: Die GUTTMAN-Skala unterstellt ein gemeinsames Kontinuum von Items und Befragten. Sie erbringt eine Rangordnung, hat also ordinale
Skalenqualität. Über die Distanz zwischen den Personen resp. Items ist nichts
ausgesagt. Die Anordnung ist nicht frei von Willkür, da in einigen Fällen entschieden werden muß, welcher Teil eines Musters «falsch» ist. Tendenzfell steigt
mit der Zahl der Items die Differenziertheit der Skala, doch steigen auch a) die
Zahl der nicht mit dem Modell zu vereinbarenden Antwortmuster und b) der
Aufwand beträchtlich. Daher haben die meisten gebräuchlichen GUTTMAN-Skalen nicht mehr als zehn Items. Die Skala ist wahrscheinlich nur eine
enge Stichprobe aus dem Universum der möglichen Items. Die Anordnung der
Items sollte bei Verwendung der gleichen Skala nicht von Studie zu Studie
variiert werden, da ein soldfies Vorgehen wahrscheinlich die Reaktionsmuster
beeinflußt. GUTTMAN (1966, S. 89) selbst schreibt, daß die Items als Stichprobe aus dem «Universum» und die Rangordnung der Personen nicht über
19
Zeitpunkte hinweg stabil sein müssen. Die Skala ist, wie alle anderen auch,
relativ.“
Die Bildung von Indizes in den Sozialwissenschaften
Ein einzelner Indikator reicht für die Operationalisierung eines theoretischen
Begriff genau dann nicht aus, wenn entweder der Begriff der soziologischen
Theorie selbst mehrdimensional ist oder der einzelne Indikator nicht hinreichend
genau die theoretische Dimension messen kann. Beide Problem lassen sich mit
Hilfe der bereits vorgestellten Skalierungsverfahren oder der Indexkonstruktion
zumindest weitgehend beheben. Bei beiden handelt es sich um Auswertungs- und
nicht um Datenerhebungs- oder Meßverfahren.
Schnell, Hill & Esser (1999, S. 160) definieren den Index folgendermaßen:
„Unter einem ‚Index‘ wird eine Zusammenfassung von mehreren Einzelindikatoren zu einer neuen Variablen verstanden.“ Indizes gelangen immer an zur Anwendung, wenn eine soziologische Theorie einen Begriff verwendet, der von sich
aus mehrdimensional ist, aber die Theorie selbst eine gemeinsame latente Variable unterstellt. Ein Index wird dann aus den Indikatoren für jede der einzelnen
Dimensionen gebildet.
Zu den klassischen theoretischen Begriffen der Soziologie, die mehrdimensional
sind, gehört derjenigen der „sozialen Schicht“. Eine denkbare Explikation der
sozialen Schicht könnte die Dimensionen „Bildung“, „Einkommen“ und „berufliche Stellung“ (Berufsposition) umfassen. Alle drei Subdimensionen müssen für
die Operationalisierung getrennt gemessen und anschließend zu einer neuen
Variablenzusammengefaßt werden. Bei letzterer handelt es sich dann um den
eigentlichen Schichtindex. Bei seiner Konstruktion sieht sich der Forscher mit
zwei Problemen konfrontiert.
1.
2.
Welche Dimensionen sollen in die Indexbildung eingehen?
Wie sollen die ausgewählten und gemessenen Dimensionen miteinander
kombiniert werden?
Die ausgewählten Dimensionen des Begriffs spannen einen „Merkmalsraum“
auf, der im Falle der „sozialen Schicht“ drei Achsen aufweist. Jeder Befragte, für
den Angaben auf den erhobenen Indikatoren der drei theoretischen Dimensionen
vorliegen, kann im Merkmalsraum eindeutig lokalisiert werden, wie ihn Schnell,
Hill & Esser (1999, S. 161) darstellen.
20
Wenn der Forscher durch seine theoretischen Analysen festgelegt hat, welche
Dimensionen er in seinem Index einbezieht und er ihre Indikatoren erhoben hat,
stellt sich für ihn die Frage, wie er die Werte der verschiedenen Indikatoren zu
einem Index zusammenfassen soll. Hierbei hat er bestimmte Kombinationen der
Indikatorvariablen zusammenzuziehen, wie sich am Beispiel des Schichtungsindex von Scheuch und Daheim verdeutlichen läßt.
„SCHEUCH/DAHEIM (1970:102-103) verwendeten für ihren 1961 zuerst eingesetzten Schichtungsindex die genannten drei Dimensionen Bildung, Einkommen
und Berufsposition. SCHEUCH/DAHEIM unterschieden bei der Berufsposition
17 verschiedene Ausprägungen, 12 Nettoeinkommensgruppen und 11 verschiedene Ausprägungen der Schulbildung. Damit sind 17 * 12 * 11 = 2244 verschiedene
Kombinationen möglich. Diese 2244 Kombinationen sollen durch den Index so
zusammengefaßt werden, daß erstens nur wenige verschiedene Indexwerte entstehen und zweitens die Abfolge der Indexwerte der theoretischen Variablen
"Sozialprestige" entspricht. Allgemein faßt ein Index einige Kombinationen des
Merkmalsraumes (Typen) zu neuen Kombinationen zusammen. Indexkonstruktion kann daher als "Reduktion des Merkmalsraumes" aufgefaßt werden. Für die
Zusammenfassung verschiedener Typen zu einem Indexwert unterscheidet LAZARSFELD (1937:127-128) drei Gründe:
1.
Bestimmte Typen kommen gar nicht oder so selten vor, daß eine getrennte
Behandlung nicht gerechtfertigt werden kann ("functional reduction");
21
2.
Durch unterschiedliche Gewichtung der Indexvariablen werden verschiedene Kombinationen zusammengefaßt ("arbitrary numerical reduction");
3.
Die Zusammenfassung erscheint theoretisch sinnvoll ("pragmatic reduction").
Als SCHEUCH/DAHEIM ihren Index konstruierten, gab es noch kaum Akademikerarbeitslosigkeit. Die Kombination "Abgeschlossenes Hochschulstudium,
angelernter Arbeiter, Nettoeinkommen 700-799 DM" dürfte kaum aufgetreten
sein und liefert damit ein Beispiel für "functional reduction".
Auch ein Beispiel für "arbitrary numerical reduction" läßt sich bei der Konstruktion des Schichtindex finden. Die drei Variablen des Index wurden klassifiziert und je nach Ausprägung mit verschiedenen Punktwertem versehen. Da
SCHEUCH/DAHEIM (1970:70) die Variable "Berufsprestige" für die Bestimmung des Sozialprestige für wichtiger als die beiden anderen Variablen hielten,
konnten durch Berufsprestige maximal 30 Punkte und durch die beiden anderen
Variablen jeweils maximal 20 Punkte erreicht werden. Sie unterschieden 17
Berufspositionen von „ungelernte Arbeite“ (=1 Punkt) bis "führende Selbständige" (=30 Punkte), 12 Nettoeinkommensgruppen von "unter 149 DM" (=1 Punkt)
bis "2000 DM und mehr` (=20 Punkte) sowie 11 Schulbildungsniveaus von
"Volksschule, unvollständig" (=0 Punkte) bis "Hochschule mit Abschluß" (=20
Punkte). Die Punkte auf diesen drei Dimensionen wurden zum Schichtindex
addiert. Der Index wurde in 6 Gruppen von "untere Unterschicht" (=0-14 Punkte)
bis "Oberschicht" (=50 und mehr Punkte) eingeteilt.
Durch die Konstruktion eines Index werden allgemein verschiedene Kombinationen der Indikatorvariablen gleichgesetzt. Bei dem Schichtungsindex kann z. B.
der Wert "38" (= mittlere Mittelschicht) sowohl durch einen höchstqualifizierten
Facharbeiter (=13 Punkte) mit einem Nettoeinkommen zwischen 1000 und 1499
DM (=16 Punkte) und mittlerer Reife (=9 Punkte) als auch durch einen kleinen
Selbständigen (=15 Punkte) mit einem Einkommen zwischen 1500 und 1999 DM
(=19 Punkte) und Volksschule mit Lehre (=4 Punkte) erreicht werden. Durch die
unterschiedliche Gewichtung der Variablen erreichen also verschiedene Kombinationen der Indikatorvariablen dieselben Punktwerte: Ebendies ist "arbitrary
numerical reduction".
Als Beispiel für eine Zusammenfassung aus theoretischen Gründen könnte ein
Index der "Zufriedenheit mit der Lebenssituation" aus einem Indikator zur "Zufriedenheit im Beruf` und einem Indikator zur "Zufriedenheit mit privaten Lebensverhältnissen" gebildet werden. Die beiden Kombinationen "beruflich zufrieden, privat unzufrieden" und "beruflich unzufrieden, privat zufrieden" könnten zu "teilweise unzufrieden" zusammengefaßt werden. Der "theoretische"
22
Grund für die Zusammenfassung besteht hier lediglich aus der Unfähigkeit, ohne
weitere Informationen (z. B. ob subjektiv eher Zufriedenheit im Beruf oder privat
wichtig ist), eine Unterscheidung zwischen den beiden Typen in Hinsicht auf
"allgemeine Zufriedenheit" vornehmen zu können.
Die Beispiele sollten verdeutlicht haben, daß für ein gegebenes Indexproblem in
der Regel mehr als eine Lösung existiert. Die Festlegung der Abfolge der Merkmalskombinationen erfolgt willkürlich und kann nur durch Außenkriterien legitimiert werden (Messungen mit Indizes werden auch als "willkürliche Messung"
bezeichnet). Am Beispiel des Schicht-Index kann das Außenkriterium z. B. in
einem Vergleich zwischen dem Index und einer Einschätzung durch "Experten"
bestehen. In der Regel kann ein Index allerdings selten formal "validiert", sondern nur mit seiner theoretischen oder empirischen Nützlichkeit legitimiert
werden.
Die Zusammenfassung verschiedener Typen zu einem Indexwert ist also überwiegend ebenfalls eine rein theoretische Arbeit. Bisher ist nur ansatzweise erwähnt
worden, wie eine Zuordnung von Zahlenwerten zu Objekten technisch erfolgt.
Man kann Indizes dadurch bilden, daß man tatsächlich für jede mögliche Kombination der Werte der Indexvariablen explizit einen Indexwert durch eine Tabelle
festlegt ("Einem XYZ-Typ entspricht ein Indexwert von 23"). Einfacher ist es,
wenn eine einfache Zuordnungsregel angegeben werden kann, mit der den Elementen des Merkmalsraumes Zahlen zugeordnet werden können. Nach der Form
der Zuordnungsregel werden u.a. additive, multiplikative und gewichtete Indizes
unterschieden.“ (Schnell, Hill & Esser 1999, S.163ff.)
Bildung einer Typologie in den Sozialwissenschaften
Nehmen die Variablen, die den Merkmalsraum aufspannen, nur wenige verschiedene Werte an, so kann der Forscher ihre Kombinationen gleichermaßen in
einer Tabelle darstellen. Diese mehrdimensionale Tabelle, die auf einer Kombination aller Kategorien von zwei und mehr Variablen beruht, bezeichnen Schnell,
Hill & Esser (1999, S. 162) als „Typologie“. „Eine Typologie besteht aus der
Gesamtheit aller verschiedenen Kombinationen (Typen) der zugrundeliegenden
Variablen“. Zur Veranschaulichung haben sie eine Typologie des politischen
Engagements entwickelt, das auf den beiden Variablen Parteimitgliedschaft und
politisches Engagement basiert.
23
„Abbildung 4-8 zeigt ein Beispiel für eine Typologie politischen Engagements.
„Funktionär“, „Apathischer“ usw. werden hier als Namen für bestimmte Typen,
also bestimmte Kombinationen der zugrundeliegenden Variablen aufgefaßt.
Ähnliche Typenbegriffe wie „totale Institutionen“, „Feudalismus“ usw. werden in
der soziologischen Theoriebildung sehr häufig verwendet. Solche Begriffe lassen
sich als Elemente nicht explizierter Typologien auffassen, da die Dimensionen,
die der Typologie zugrunde liegen, meist nicht eindeutig angegeben werden. Um
solche Begriffe für die empirische Forschung nutzbar zu machen, müssen die
zugrundeliegenden Dimensionen erst theoretisch hergeleitet werden.
Diese theoretische Herleitung der einer Typologie zugrundeliegenden Dimensionen wird als "Rekonstruktion des Merkmalsraumes" (vgl. ZIEGLER 1973:15)
oder "Substruktion" (LAZARSFELD 1937:132) bezeichnete .
Die Bestimmung der Dimensionen, die in den Index eingehen sollen, ist eine rein
theoretische Arbeit. Es gibt keine objektiven Gütekriterien, die eine Beurteilung
erlauben würden, ob alle relevanten Dimensionen eines Begriffs berücksichtigt
wurden bzw. ob die berücksichtigten Dimensionen tatsächlich relevant sind.
Lediglich die theoretische Fruchtbarkeit einer solchen Analyse läßt sich manchmal beurteilen.“(a.a.O.)
Eine der bekanntesten Typologien hat Inglehart mit seiner Differenzierung von
Wertorientierung entwickelt. Sie basiert in ihrer ursprünglichen Form auf einer
Rangskalierung politischer Ziele, die er a priori bestimmten Werttypen zu ge-
24
ordnet hat. Beispielsweise findet sich im Eurobarometer Nr. 30 aus dem Jahre
1988 folgende Frageformulierung:
„128. Es gibt im Augenblick eine Reihe von Diskussionen, was die Ziele der
Bundesrepublik Deutschland in den nächsten 10 bis 15 Jahren sein sollten. Auf
dieser Liste sind einige Ziele aufgeführt, denen verschiedene Leute den Vorrang
einräumen würden.
1.
Aufrechterhaltung von Sicherheit und Ordnung in der Nation
2.
Verstärktes Mitspracherecht der Menschen bei wichtigen Regierungsentscheidungen
3.
Kampf gegen steigende Preise
4.
Schutz der freien Meinungsäußerung
Würden Sie mir bitte sagen, welches davon Sie selbst für das wichtigste auf
längere Sicht halten?
Und was halten Sie für das zweitwichtigste?“ (EMNID 1988, S. 4)
Für die Zuordnung zu den Werttypen „Postmaterialisten“, „Materialisten“ sowie
den „Mischtyp“ hat Inglehart folgende „theoriegeleitete“ Zuordnungsvorschrift
entwickelt.
25
Inglehart verwendet seine Typologie, um mit Hilfe gepoolter Querschnittsdaten
die Veränderung der Wertorientierung weltweit zu untersuchen. In seinem 1997
erschienen Buch „Modernization and Postmodernization“ hat er die Verschiebung
der Wertorientierung weg von der materiellen hin zu den postmateriellen Zielen
verglichen. Hierfür hat er die Differenz der Prozentwerte von bekennenden
Postmaterialisten und Materialisten pro Land gebildet. Als Datenbasis hat er in
Europa die Eurobarometer-Untersuchungen Februar 1970 vs. Herbst 1992 und in
den USA die „national election surveys“ 1972 vs. 1992 verwendet. In allen
betrachteten Ländern zeichnet sich zum zweiten Vergleichszeitpunkt ein deutliches Überwiegen der Postmaterialisten ab, die beim ersten Zeitpunkt noch deutlich in der Minderheit gewesen sind. (a.a.O., S. 140)
In der obigen Abbildung scheint die Veränderung des Wertebewußtsein der
Bevölkerung zwischen 1970 und 1994 dramatisch zu sein. Diese Befunde erweisen sich aber als fraglich, wenn ihre externe Validität genauer geprüft wird.
Die von Inglehart verwendeten Items erfassen zwar die „key issues“ der politischen Arena in den frühen siebziger Jahren, aber dieses Itemuniversum hat
26
spätestens seit Ende der siebziger Jahre beachtliche Veränderungen erfahren. Es
fehlen eindeutig die politischen Ziele der Friedensbewahrung, des Umweltschutzes und der Bekämpfung der Massenarbeitslosigkeit. Daher können die von
Inglehart festgestellten Veränderungen auf die Fehlspezifikation seines Issue-sets
Anfang der neunziger Jahre zurückzuführen sein.
Wie läßt sich die Zuverlässigkeit einer Skala überprüfen?
Lamnek (1988, S. 160f.) faßt die gängigen Verfahren zur Ermittlung der Reliabilität oder Zuverlässigkeit einer Skala folgendermaßen zusammen:
„1.
Das Test-Retest-Verfahren
Kann man davon ausgehen, daß ein Test innerhalb eines bestimmten Zeitraumes
wiederholt werden kann, ohne daß sich das zu messende Merkmal verändert hat
und ohne daß Einflüsse des Meßinstrumentes auf das zu messende Merkmal
möglich sind, so bietet der Vergleich beider Testergebnisse ein Maß für die
Zuverlässigkeit des Tests. Die Berechnung eines Korrelationskoeffizienten
zwischen erstem und zweitem Test wäre eine Maßzahl zur Bestimmung der
Reliabilität. In diesem Falle wird der Korrelationskoeffizient als Stabilitätskoeffizient bezeichnet, weil er die Stabilität des Meßinstrumentes über einen
bestimmten zeitlichen Abstand hinweg angibt.
2.
Die Split-half-Methode (Testhalbierung)
Hierbei wird ein Test in statistisch zufällig gewonnene Hälften geteilt und einer
Stichprobe von Probanden vorgelegt. Durch die statistische Zufälligkeit soll
erreicht werden, daß in beiden Testhälften Aufgaben zu den gleichen Dimensionen und mit gleichem Schwierigkeitsgrad enthalten sind. . . . Diese beiden
Testhälften werden den Probanden vorgelegt, so daß für jeden Probanden zwei
Testergebnisse vorliegen. Die Korrelation beider Testergebnisse liefert den
Koeffizienten der internen Konsistenz und gibt den Grad der Zuverlässigkeit an.
Ein hoher Korrelationskoeffizient entspricht also einem hohen Maß an Reliabilität der beiden Tests.
3.
Die Methode der äquivalenten Formen (Paralleltest)
Entwickelt man zu einem Objektbereich nicht - wie normalerweise üblich - nur
27
ein Testverfahren, sondern versucht man die zu messenden Variablen durch zwei
unabhängig voneinander konstruierte Erhebungsinstrumente zu operationalisieren, so bieten beide Testverfahren in gegenseitiger Kontrolle die Möglichkeit, die
Testergebnisse miteinander zu vergleichen und von daher auf Zuverlässigkeit der
Meßresultate zu schließen. Der Korrelationskoeffizient zwischen den Meßwerten
der beiden Testformen gibt das Ausmaß der Meßwertübereinstimmung an, mißt
also die Zuverlässigkeit der beiden Tests und wird als Äquivalenzkoeffizient
bezeichnet.
4.
Die Konsistenzmethode
Sie ist die extremtypische Weiterführung der Split-half-Methode. Dabei wird Der
Test in ebenso viele Elemente unterteilt wie Items vorhanden sind. Durch die
Korrelation dieser untereinander wird ein Reliabilitätskoeffizient berechnet", den
Cronbach für die Schätzung der internen Konsistenz einer additiven Itemskala ihrer Reliabilität - entwickelt hat. Sein Reliabilitätskoeffizienten . (alpha) ist auf
den Wertebereich von Null bis Eins normiert. Bevor der Forscher die Reliabilitätsanalysen durchführen kann, muß er zuerst alle Items in die gleiche Richtung
polen, d.h., alle “gedrehten Items” müssen in Richtung der Zieldimension rekodiert werden. Cronbach geht davon aus, daß alle Items gleichzeitig dieselbe
Zieldimension messen sollen (“Paralleltest”) und über dieselbe Varianz verfügen.
Cronbach s . kr
1 (k 1)r
[0;1]
Legende:
k:
r:
Anzahl der Items
Durchschnittliche Interkorrelation der Items
Cronbach’s . läßt sich interpretieren als die quadrierte Interkorrelation zwischen
den durch die Messung ermittelten und den “wahren” Skalenwerten. Es handelt
sich beim ihm um eine Schätzung der Untergrenze der Genauigkeit des Messvorgangs. Je höher die durchschnittliche Interkorrelation ausfällt und je mehr
Items zur Messung der Zieldimension verwendet werden, desto höher ist die
Reliabilität der Messung. Von einer reliablen Messung unserer Zieldimension
können wir ausgehen, wenn das Cronbach’s . den Wert von 0,70 bei Felduntersuchungen überschreitet.
28
Hinsichtlich des angewandten Meßverfahrens unterstellt Cronbach die TauÄquivalenz der einzelnen Indikatoren. Dies bedeutet, daß die Items alle gleichermaßen gut die Zieldimension messen müssen und sich lediglich bei den Meßfehlern unterscheiden dürfen.
Wie läßt sich die Validität einer summativen Itemskala überprüfen?
Mit der Validitätsüberprüfung summativer Itemskalen hat sich Holm (1976, S.
126 - 133) sehr intensiv auseinandergesetzt und die wichtigsten Verfahren hierzu
vorgestellt:
„2.1. Formale Gültigkeit als Hinweis auf inhaltliche Gültigkeit
Wenn für die Items einer Fragebatterie ermittelt wurde, daß sie auf nur einer
gemeinsamen Dimension messen, dann, so kann argumentiert werden, müßte es
schon ein seltsamer Zufall sein, wenn das nicht die Zieldimension, sondern
irgendeine andere Dimension wäre. Bei der Formulierung der einzelnen Fragen
der Batterie hat der Sozialforscher in jedem einzelnen Fall eine intuitive Dimensionsüberprüfung vorgenommen. Wenn die gesamte Fragebatterie (beispielsweise) "Berufszufriedenheit" messen soll, dann hat er beim Entwickeln und
Formulieren der einzelnen Fragen jedes Mal intuitiv überprüft, ob sie auf der
Zieldimension "Berufszufriedenheit" messen. Wenn nun durch einen relativ
zuverlässigen Kalkül (eben die Faktorenanalyse) ermittelt wurde, daß alle oder
sehr viele der formulierten Fragen auf einer gemeinsamen Dimension messen,
dann müßte sich der Sozialforscher systematisch bei der intuitiven Dimensionsprüfung aller Items geirrt haben. Und das scheint sehr unwahrscheinlich zu sein.
Aber auszuschließen ist ein derartiger systematischer Irrtum nicht. Es könnte etwa
sein, daß der Sozialforscher den Begriff "Berufszufriedenheit" definiert hat als
"Zufriedenheit eines Arbeiters, die er in seinem Beruf in seinem Betrieb empfängt". Das wäre eine zweidimensionale Definition, die "Berufszufriedenheit" (im
engeren und eigentlichen Sinne) und "Betriebszufriedenheit" umfaßt. Dabei
könnte es nun geschehen, daß der Sozialforscher ausschließlich oder überwiegend
Items formuliert, die "Betriebszufriedenheit" messen. Obwohl seine Fragebatterie
eindimensional ist, mißt sie dann, unbemerkt, nicht auf der Zieldimension, sondern auf einer anderen Dimension. Die Ursache für einen derartigen systematischen Irrtum liegt also wesentlich im Bereiche der Theorie- und Begriffs-Konstruktion; genauer: in der dimensionalen Auflösung des Forschungs-
29
gegenstandes.
2.2.
Expertenvalidierung
Bei der Methode der "Validierung durch Experten" (engl. "expert validity") legt
der Sozialforscher die zu überprüfende Fragebatterie (deren formale Gültigkeit er
zuvor ermittelt hat) Experten vor. Experten sind dabei Personen, die bezüglich
der Untersuchungsdimension ein größeres Wissen besitzen als der Sozialforscher.
Soll z.B. eine Fragebatterie zur Messung der Schulzufriedenheit von Kindern auf
ihre inhaltliche Gültigkeit getestet werden, dann werden Lehrer um ihr Urteil über
die Items der Fragebatterie gebeten. Eine derartige Methode ist deswegen unbefriedigend, weil die Experten in der Regel nicht aufgrund objektiven Wissens ihr
Gültigkeitsurteil abgeben, sondern aufgrund ihrer Intuition. Diese Methode kann
in manchen Fällen sogar zu krassen Fehlurteilen führen. So können etwa Lehrer
aufgrund fixierter Vorurteile über Kinder die vorgelegte Fragebatterie falsch
einschätzen. Experten stehen immer in der Gefahr, "betriebsblind" zu werden und
auf ihrem Gebiet mit eingeübten Vorurteilen zu operieren. Das gilt jedoch weniger für Fälle, wo objektives Wissen und objektive Kontrollen möglich sind. So
kann die Expertenvalidierung als Methode der Gültigkeitsermittlung durchaus
sinnvoll sein, wenn etwa eine Fragebatterie des technischen Wissens von Arbeitern entwickelt werden soll. Hier könnten etwa Betriebsingenieure als Experten
eingesetzt werden.
2.3.
Bekannte Vergleichsgruppen ("known groups")
Bei der Methode des "Vergleichs mit bekannten Gruppen" (engl. "known
groups") legt der Sozialforscher seine Fragebatterie Personengruppen vor, von
denen er weiß, daß sie in der Meßdimension sehr hohe bzw. sehr niedrige Werte
einnehmen. Bei der Validierung einer "Mental-Health-Skala"(eine Frage-Batterie,
mit der die geistig-seelische Gesundheit/Krankheit von Menschen gemessen
werden soll) legten J. G. Manis u.a. ( 1963) eine 22-Item-Skala folgenden Befragtengruppen vor:
1. Patienten eines Hospitals für geistig-seelisch Kranke, 2. Patientendieses Hospitals, die (als geheilt) entlassen werden sollten, 3. "normalen" College-Studenten,
4. "normalen" Einwohnern eines kleinen Dorfes (Stichprobe) und 5. "normalen"
Einwohnern einer Stadt (Stichprobe).
30
Wenn die Skala tatsächlich auf der Dimension der "Mental Health" mißt, dann
müssen sich die Patienten (Gruppe 1 ) von den geheilten Patienten (Gruppe 2)
und den Nicht-Patienten (Gruppen 3, 4, 5) signifikant unterscheiden. Das war
auch der Fall. Die gefundenen Mittelwerte für die 5 Gruppen waren folgende (je
höher der Punktwert, um so schlechter die "Mental Health"):
Gruppe:
Mittelwert auf Skala:
(1)
6,1
(2)
2,8
(3)
3,6
(4)
2,8
(5)
3,2
Der Unterschied der ersten Gruppe zu jeder der 4 anderen war hoch signifikant
( p = .001 ). Die Methode der "bekannten Vergleichsgruppen" besteht also darin,
die zu validierende Skala mindestens 2 Gruppen vorzulegen, von denen man
weiß, daß sie unterschiedliche mittlere Skalenwerte erzielen. Die gefundenen
arithmetischen Mittelwerte werden dann mit einem Signifikanztest (t- oder
z-Test) daraufhin untersucht, ob sie sich signifikant unterscheiden.
Die "kritische Stelle" dieser Methode ist natürlich das Wissen um die wahren
Werte der zu untersuchenden Gruppen auf der wahren, aber nicht wahrnehmbaren
Dimension. Dieses Wissen beruht lediglich auf Plausibilität, aber nicht auf einem
empirischen Beweis. Bei obigen Skalenwerten war überraschend, daß die Patienten, die entlassen werden sollten (Gruppe 2), sich nicht von den "normalen"
Gruppen unterschieden, teilweise sogar "gesünder" waren als diese. Die Autoren
deuteten diese Erscheinung als mangelhafte Trennschärfe der Skala. Hier wird
also folgendes Prinzip sichtbar: Wenn die zu validierende Skala für 2 (oder
mehrere) bekannte Vergleichsgruppen keine unterschiedlichen Zahlenwerte
liefert, dann muß das nicht notwendigerweise an der mangelnden inhaltlichen
Gültigkeit liegen, es kann auch an der mangelnden Trennschärfe liegen. Ein
negatives Ergebnis bei der Methode der "bekannten Vergleichsgruppen" kann
also zweifach interpretiert werden, ein positives weist jedoch auf gute inhaltliche
Gültigkeit hin (und daneben natürlich auch auf eine gute Trennschärfe der Skala).
2.4.
Vergleich mit anderen unabhängigen Kriterien ("independent criteria")
Eine theoretische Dimension ist immer mehrfach operationalisierbar. Für jede
theoretische Dimension existieren mehrere Indikatoren. Schichtzugehörigkeit
kann etwa dadurch festgestellt werden, daß man die materiellen Besitzgüter der
Menschen ermittelt - aber unter Umständen auch dadurch, daß man ihren Sprachstil feststellt.
Um die schulische Zufriedenheit eines Schülers zu ermitteln, kann man ihm 1.
31
eine Einstellungs-Skala vorlegen (die Items enthält wie "wenn ich morgens
aufwache und weiß, daß ich zur Schule muß, dann habe ich immer irgendwie
Angst") oder 2. eine Liste mit alternativen Handlungen vorlegen (wie: "Was wäre
Dir lieber, einen Vormittag lang in die Schule zu gehen oder einen Vormittag
lang im Regen herumzulaufen?") oder 3. dadurch daß man die Häufigkeit des
Krankseins feststellt.
Die Methode des "Vergleichs mit anderen unabhängigen Kriterien" besteht nun
darin, die zu validierende Fragebatterie, z.B. die Einstellungs-Skala, mit anderen
möglichen Indikatoren derselben Dimension (Präferenz bei alternativen Handlungen, Häufigkeit des Krankseins) zu vergleichen (zu korrelieren), wobei diese
anderen Indikatoren anderer Art sein sollen, d.h. einer anderen Klasse von Forschungsinstrumenten angehören sollen. So sollte etwa die zu validierende Fragebatterie nicht mit einer anderen (konkurrierenden) Fragebatterie verglichen
werden. Ein anderes Beispiel für diese Validierungsmethode wäre etwa: Werte,
die mit einer Skala der Arbeitszufriedenheit für die Arbeiter eines Betriebes
ermittelt werden, werden mit der Zahl der Beschwerden, die die Arbeiter einreichten, verglichen (korreliert). Skala und Beschwerden sind zwei voneinander
unabhängige Indikatoren ein und derselben Dimension
2.5.
"Construct validity"
Die Methoden der Expertenvalidierung, der Validierung durch "bekannte Vergleichsgruppen" und durch Vergleichen mit anderen Kriterien beruhen nicht auf
irgendwelchen theoretischen Reflexionen über das Gültigkeitsproblem. Sie sind
plausibel. Die Methode jedoch, die im folgenden beschrieben wird, beruht auf
einer Theorie der inhaltlichen Gültigkeit, die allerdings selten expliziert wird. In
der amerikanischen Sozialforschung wird diese Methode "construct validity"
(bzw. "construct validation") genannt.
Empirische Untersuchungen verfolgen immer auch den Zweck, Theorien über
einen bestimmten Gegenstandsbereich zu überprüfen. Wenn also eine Skala dazu
bestimmt ist, auf einer bestimmten Dimension zu messen, dann ist diese Dimension in einer Theorie eingebaut. Sie hat innerhalb dieser Theorie den Status einer
unabhängigen oder einer abhängigen Variablen. Aus dieser Einordnung der
Dimension in eine Theorie folgt die Möglichkeit, die Skala zu benennen, d.h. ihre
inhaltliche Gültigkeit zu beurteilen. Der Ablauf der "construct validation" ist
folgender:
32
1.
Der Sozialforscher hat hinsichtlich einer Meßdimension eine Fragebatterie
entwickelt. Die formale Gültigkeit (Eindimensionalität) der Items ist gesichert.
2.
Die Meßdimension muß, wie bereits oben gesagt, in eine Theorie eingebettet sein, d.h. sie muß Bestandteil einer explizit formulierten Hypothese
sein. Sie muß also zumindest mit einer anderen Dimension hypothetisch
verbunden sein. Beispiel: Die zu messende Dimension sei "Arbeitszufriedenheit", die andere Dimension "Dogmatismus". Die Hypothese lautet "je
geringer die Arbeitszufriedenheit, um so stärker der Dogmatismus".
3.
Die "andere" Dimension (Dogmatismus) muß meßbar sein, d.h. für die
andere Dimension muß auch ein Meßinstrument entwickelt werden.
4.
Die an einer repräsentativen Stichprobe gewonnenen Daten für die Meßdimension (Arbeitszufriedenheit) und die "andere" Dimension (Dogmatismus) müssen sich so verhalten, wie es die Hypothese prognostiziert; für
das Beispiel heißt das: Arbeitszufriedenheit und Dogmatismus müssen
(negativ) miteinander korrelieren.
5.
Wenn die Hypothese bestätigt wird, d.h. wenn die Prognose, die in der
Hypothese formuliert wird, durch das empirische Material erfüllt wird und
wenn für die Skala der "anderen" Dimension die inhaltliche Gültigkeit
(durch andere vorausgegangene Untersuchungen) gesichert ist, dann darf
für die Skala der eigentlichen Meßdimension inhaltliche Gültigkeit beansprucht werden. Kurz: Wird die Hypothese bestätigt und ist eine der
beiden Skalen auf ihre inhaltliche Gültigkeit überprüft, dann darf auch die
andere Skala als gültig erachtet werden.
6.
Welcher Schluß darf gezogen werden, wenn nun das empirische Material
die Hypothese bestätigt, die Skala für die "andere" Dimension (Dogmatismus) jedoch ebenfalls noch nicht auf ihre inhaltliche Gültigkeit überprüft
wurde?
Der Schluß ist im Grunde genommen derselbe wie oben unter Punkt 5. Wenn die
Hypothese bestätigt wurde, dann besteht eine annehmbare Wahrscheinlichkeit,
daß die beiden Skalen auch auf jenen Dimensionen messen, von denen in der
Hypothese gesprochen wird. Mit einer gewissen Sicherheit darf die inhaltliche
Gültigkeit beider Skalen behauptet werden - wenn auch diese Sicherheit wohl
geringer ist als in dem unter Punkt 5 beschriebenen Fall. Ist die Kausalhypothese
33
richtig und sind die verwendeten Skalen gültig, dann müssen die Skalen kovariieren, d.h. miteinander korrelieren. Das ist das, was beobachtbar ist.
Der umgekehrte Fall: Ist die Kausalhypothese falsch oder ist eine der beiden
Skalen nicht gültig, dann werden die beiden Skalen nicht kovariieren. Es gibt nun
jedoch noch einen anderen Grund, warum der Schluß auf die Gültigkeit der Skala
nicht zwingend ist.
Es könnte etwa sein, daß die Items der zu überprüfenden Skala nicht die Arbeitszufriedenheit erfassen, sondern die "Einstellung zur Firma, der man angehört". Es
mag nun sein, daß der Dogmatismusgrad eines Arbeitnehmers seine Einstellung
zur Firma determiniert, so daß auch für diese beiden Dimensionen eine (negative)
Korrelation der Meßdaten zu erwarten ist. Allgemein formuliert: Die "andere"
Dimension (Dogmatismus) ist innerhalb der Theorie nicht nur mit der angezielten
Meßdimension (Arbeitszufriedenheit), sondern auch mit wieder anderen Dimensionen (wie "Einstellung zur Firma") hypothetisch verbunden. Eine hypothesenkonforme Korrelation der empirischen Daten ist also kein absolut sicherer Beweis
für die Gültigkeit der zu überprüfenden Skala.
7.
Ein letztes sehr wichtiges Problem der Theorie der inhaltlichen Gültigkeit
ist noch zu klären. Es liegt eine große Versuchung für den Sozialforscher
darin, die Hypothesen so zu formulieren, daß sie durch das empirische
Material bestätigt werden - und zwar nachdem er die empirische Arbeit
geleistet hat und bestimmte Korrelationen gefunden hat.
Eine derartige Methode ist nicht zulässig, wenn gefordert wird, daß die Theorie
deduktiv gewonnen werden muß, d.h. wenn die Theorie aus einer Theorie mit
größerem Allgemeinheitsgrad abgeleitet werden muß. Hypothesen können dann
nicht mehr ad hoc "willkürlich" formuliert werden. Oder anders formuliert:
Werden bestimmte Hypothesen formuliert (die dann zur Gültigkeitsbestimmung
von Skalen verwendet werden sollen), dann muß nachgewiesen werden, daß diese
Hypothesen aus Sätzen einer allgemeineren Theorie deduktiv gewonnen werden
können. (Dieser Prozeß wird üblicherweise dann nicht "Deduktion", sondern
"Reduktion" genannt.) Damit diese allgemeinere Theorie nicht ebenfalls ad hoc
erfunden wird, muß die weitere Forderung aufgestellt werden, daß diese sich
bereits bewährt hat. Diese hier in Punkt 8 formulierte Bedingung mag sicherlich
ihre wissenschaftslogische Berechtigung haben; sie ist jedoch so restriktiv, daß es
nicht verwunderlich ist, daß sich keine Untersuchung nennen läßt, die diese
Bedingung eindeutig erfüllt. Die Sozialwissenschaften sind ohnehin arm an
explizierten Theorien, und deduktive Theorien sind gerade erst in der Entwicklung begriffen.
Bei den beiden im folgenden beschriebenen Methoden der "concurrent" und der
34
"predictive validity" handelt es sich um Techniken, die als Spezialfälle der "construct validity" betrachtet werden können. Bei der "concurrent validity" wird
aufgrund einer bestimmten Theorie eine Prognose über das manifeste Verhalten
von Personen geleistet. Angenommen, es sei eine Skala des Autoritarismus
entwickelt worden. Diese Skala gilt es zu validieren. Es liegt eine Theorie vor, in
der Aussagen über den Zusammenhang von autoritärer Einstellung und Formen
manifesten Handelns gemacht werden.
Wird die Autoritarismusskala beispielsweise auf Schullehrer angewendet, dann
können gemäß der Theorie folgende Prognosen über manifestes Verhalten geleistet werden:
Aggressive Akte gegen Schwache: Unter den Lehrern mit hohen Autoritarismuswerten werden mehr Personen angetroffen werden, die sich gegen Schüler aus
niedrigen sozialen Schichten mit einflußlosen Eltern aggressiv verhalten, als
unter denen, die niedrige Autoritarismusgrade besitzen.
Bedingungslose Unterwerfung unter den Mächtigen: Unter den stark autoritären
Lehrern werden mehr Personen angetroffen werden, die sich starr an den von der
Behörde und dem Rektor vorgegebenen Lehrplan halten.
Um die Autoritarismus-Skala zu validieren, müssen also noch die beiden Dimensionen 1. Verhalten gegen Schüler aus niedrigen sozialen Schichten und 2. Unterwerfung unter den vorgegebenen Lehrplan empirisch ermittelt werden. Danach
können Korrelationen berechnet werden. Werden die in den beiden obigen Aussagen gemachten Prognosen bestätigt, dann darf die Autoritarismus-Skala als
inhaltlich gültig behauptet werden. Dabei gilt natürlich die Regel: Die Sicherheit
der Behauptung wächst, je mehr verschiedene Personengruppen (Lehrer, Soldaten, Werkmeister usw.) auf diese Weise erfolgreich befragt werden. Die "concurrent validity" ist insofern eine Spielart der "construct validity" als bei ihr die
"anderen Dimensionen", über die aufgrund einer vorhandenen Theorie Prognosen
geleistet werden, in manifestem Verhalten und nicht wieder etwa in psychischen
Dimensionen bestehen. Im Idealfall braucht dieses manifeste Verhalten nur
einfach beobachtet zu werden, so daß also für die empirische Erfassung dieser
Dimensionen keine Instrumente (Fragen, Indizes, Skalen, Teste usw.), die ihrerseits wieder Zuverlässigkeits- und Gültigkeitsprobleme aufwerfen, entwickelt und
angewendet werden müssen.
Dieser Idealfall wird jedoch selten gegeben sein. Auch für die Beobachtung muß
gewissermaßen ein Instrument - ein Beobachtungsplan mit bestimmten Beobachtungskriterien - entwickelt werden, der dann Gültigkeitsprobleme aufwirft.
Die "concurrent validity" ist also in der Regel keine bessere Methode der Gültig-
35
keitsermittlung als die normale Methode der "construct validity", bei der eine
Prognose hinsichtlich "anderer" latenter Dimensionen geleistet wird.
2.7.
"Predictive validity"
Bei der "cancurrent validity" wird ein manifestes Verhalten prognostiziert, das
zeitgleich gegeben ist. Ein bestimmtes Maß an durchschnittlicher Arbeitszufriedenheit der Belegschaft eines Betriebes geht (zeitgleich) einher mit einer bestimmten Anzahl von Beschwerden. Wird zukünftiges manifestes Verhalten
prognostiziert, dann wird eine "predictive validity" geleistet. Zwischen "predictive" und "concurrent validation" besteht also kein prinzipieller Unterschied.
Beispiele für die "predictive validation" sind etwa: Es wird ein Leistungstest
durchgeführt und eine bestimmte Leistung in einer zukünftigen Situation vorausgesagt. Trifft die Voraussage ein, dann darf der Leistungstest als inhaltlich
gültig betrachtet werden. Oder: Durch eine bestimmte Skala wird festgestellt, daß
die Arbeitszufriedenheit von bestimmten Arbeitern sehr gering ist. Es wird
prognostiziert, daß ein erheblicher Anteil dieser Arbeiter den Betrieb bald verlassen werde. Dieser Art der "predictive validity", bei der ein zukünftiges Handeln
prognostiziert wird, liegt eine Theorie zugrunde, die über den Zusammenhang
zwischen einer latenten Disposition und einer manifesten Handlung Aussagen
macht; insofern ist also auch die "predictive validity" eine Spielart der "construct
validity". Eine Schwierigkeit besteht nun darin, daß selten ein direkter und monokausaler Zusammenhang zwischen Disposition und zukünftigem Handeln besteht.
Das setzt jedoch voraus, daß eine umfassende Theorie über den betreffenden
Gegenstandsbereich vorliegt. Wo das nicht der Fall ist, ist die "predictive validity" eine mehr oder weniger ungeeignete Methode der Validierung.“ (a.a.O.)

Skalen-, Index - Dr. Wolfgang Langer

Transcrição

Documentos relacionados

Panzer General Online – „How to“: Codes einlösen

Studie Leben nach dem Tod

KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und

DER KAMPF GUT GEGEN BÖSE KANN BEGINNT

ONLINE-FARMER IM VIRTUELLEN SPORTTRIKOT

FRBS – Kurzbeschreibung

Charmaine Saurwein 9. Mai 2008 Jahreshauptversammlung am

Beck Depressions-Inventar (BDI-II). Revision

SPSS-Beispiel zum Kapitel 6:

Folien - Institut für Statistik