Skalen-, Index - Dr. Wolfgang Langer
Transcrição
Skalen-, Index - Dr. Wolfgang Langer
Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 1 Einführung in sozialwissenschaftliche Skalen-, Index- und Typenkonstruktion Quellen: 1. Friedrichs, J.: Methoden der empirischen Sozialforschung. Opladen: Westdeutscher Verlag, 1990, S.172 - 188 2. Holm, K.: Die Gültigkeit sozialwissenschaftlichen Messen. In: Ders.(ed.): Die Befragung 4. München: Francke, 1976, S. 123 - 133 3. Rost, J.: Lehrbuch Testtheorie, Testkonstruktion. Bern: Huber 1996 4. Schnell, R., Hill, P.B.,& Esser, E.: Methoden der empirischen Sozialforschung. München: Oldenbourg, 1999(6) 5. Sixtl, F.: Skalierungsverfahren: Grundzüge und ausgewählte Methoden sozialwissenschaftlichen Messens. In: K.Holm (ed.): Die Befragung 4. München: Francke, 1976, S. 9 - 95 Die Skalenbildung verfolgt zwei wichtige Ziele, erstens die Verbesserung der Zuverlässigkeit der Messung durch den Einsatz einer Vielzahl von Items (Aussagen), die dasselbe messen sollen und zweitens der Reduktion der in dieser Vielzahl von Items / Aussagen (Variablen) enthaltenen Informationen auf möglichst einen Skalen- oder Indexwert. Bei der Skalenkonstruktion sieht sich der Forscher mit einer Vielzahl von Problem konfrontiert: 1. Ist die gemessene Einstellung ein- oder mehrdimensional ? 2. Welches Skalierungsmodell ist angemessen ? 3. Welche Abstände bestehen zwischen den einzelnen Punkten einer Einstellungsdimension ? 4. Wie stabil sind die Items und ihre Ordnung in einer Skala über Zeiträume hinweg ? Zunächst erfolgt die Darstellung einfacher Skalierungsverfahren, wie sie in den Sozialwissenschaften zumeist angewendet werden. Hieran schließt sich eine Einführung in die Konstruktion von Indizes und Typologien an. Bei den Skalierungsmethoden liegt der Schwerpunkt der Vorstellung auf den Rang-, Thurstone-, Likert- und Guttman-Verfahren. In weitere Auswertungsmethoden wie der probabilistischen Testtheorie führt Rost (1996) kenntnisreich und praxisbezogen ein. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 1. 2 Einfache Verfahren der Rangskalierung: Bogardus Skalierung der "subjektiven sozialen Distanz" bei vorgegebenen Rangplätzen Vor der Hintergrund der vom Chicagoer Stadtsoziologen Park formulierten Distanztheorie entwickelte Bogardus seine Skalierung der sozialen Distanz zu Fremdgruppen. Seine Absicht bestand darin, Verhaltensintentionen der Befragten gegenüber anderen Personen oder Gruppen zu erfassen. Hierbei ordnete er die zur Fremdgruppe gehörenden Aussagen dergestalt, daß sie kontinuierlich die zwei Pole der geringsten und größten Distanz verbinden. In ihrer ursprünglichen Fassung bestand die Skala aus 7 Aussagen (Items), die mit der folgenden Instruktion für den Befragten versehen waren: Instruktion: Für jede der unten aufgeführten Rassen oder Nationalitäten kreisen Sie bitte jeden Lebensbereich ein, zu der Sie ein durchschnittliches Mitglied dieser Rasse oder Nationalität (weder den Besten noch den Schlechtesten, den Sie kennen) zulassen würden. Antworten Sie bitte völlig spontan, ohne lange nachzudenken ! Ich würde ... Juden Neger sie in meine Familie einheiraten lassen. 1 1 sie in meinen persönlichen Freundeskreis aufnehmen. 2 2 sie als Nachbarn in meiner Straße akzeptieren. 3 3 sie als Kollegen an meinem Arbeitsplatz dulden. 4 4 sie Staatsbürger meines Landes werden lassen. 5 5 sie nur als Besucher in meinem Land dulden. 6 6 ihnen die Einreise in mein Land verweigern. 7 7 Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 3 Der Skalenwert 1 und 7 als Pole bilden die niedrigste bzw. die größte soziale Distanz ab. Da jeder Befragte mehr als eine Antwort geben kann, indem er die jeweiligen Items auswählt, benötigen wir ein Verfahren, um diese zusammenzufassen. Bogardus hat hierfür die Mittelwertsberechnung vorgeschlagen. Die Punktwerte der vom Befragten befürworteten Verhaltensweisen hat der Forscher aufzusummieren und anschließend durch sieben zu teilen. Je näher der resultierende Mittelwert einer Person dem Wert 1 näherkommt, desto geringer ist seine Distanz zu vorgegebenen Fremdgruppe. Seine Präferenz für den Pol der „Einheirat in die eigene Familie“ ließe sich als Vorurteilslosigkeit interpretieren. Hingegen steigt mit der Annäherung an den Punktwert 7 die Distanz kontinuierlich an, was auf eine offene Bekundung der Vorurteile gegenüber der Fremdgruppe schließen läßt. Bogardus unterstellte ausdrücklich bei der Konstruktion seiner Skala zwei Annahmen: Alle sieben Items messen erstens die vorgegebene Zieldimension „Soziale Distanz gegenüber der Fremdgruppe X“. Zweitens entspricht die von ihm mit Hilfe der ganzzahligen Punktwerte 1 bis 7 vorgenommene Gewichtung der Items den wahren Intensitätsunterschieden auf der latenten Dimension. Beide Annahmen konnte er mit den statistischen Hilfsmitteln seiner Zeit nicht überprüfen. Skalierung bei nicht vorgegebenen Rangplätzen Die vorgegebenen Items lassen sich hinsichtlich ihrer Zieldimension in einer aufsteigenden Rangfolge eindeutig sortieren. Die entsprechenden Rangplätze kann der Forscher entweder selbst willkürlich festsetzen, wie dies Bogardus getan hat, oder er versucht, mit Hilfe der Rangplatzskalierung eine empirisch fundierte Rangordnung zu identifizieren. Hierbei entspricht der mit Hilfe einer Untersuchung ermittelte "durchschnittliche" Rangplatz dem "Punktwert" des Items auf der Skala der Zieldimension. Wir erhalten durch dieses Vorgehen eine Skala mit rein ordinalem Meßniveau. Wie können Sie als Forscher die Rangfolge ihrer Items auf der Zieldimension bestimmen? Methode: 1. 2. 3. Rangskalierung Schreiben Sie jedes Item auf eine einzelne Karteikarte. Mischen Sie die Karten gut durch. Bitte Sie Ihre Versuchsperson (Vp) die auf den Karten enthaltenen Aussagen von der schwächsten bis zur stärksten Aussage aufsteigend zu Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 3.1 3.2 4 sortieren. Wählen Sie zunächst das schwächste und das stärkste Item aus. Sortieren Sie die anderen Items zwischen diesen beiden Polen ein. Auswertung: Berechnen Sie für jedes Item den durchschnittlichen Rangplatz. Sollte eine Vp zwei Items gleichrangig eingeordnet haben, so verkoden Sie beide Items mit dem Mittelwert ihrer aufeinanderfolgenden theoretischen Rangplätze. Wenn beispielsweise bei einer sechsstufigen Rangfolge zwei Items den Platz 4 zugewiesen bekommen, tragen Sie als Rangwert 4,5 ein. Alle höher angeordneten Items müssen natürlich dann um einen Rangplatz nach oben verschoben werden. Beispiel für eine Rangskalierung: Quelle: Eurobarometer Nr. 30 Skala: "Restriktive Ausländerpolitik gegenüber Türken" Frage: Es gibt verschiedene politische Zielvorstellungen zur Anwesenheit von Türken in der Bundesrepublik Deutschland. Welche politische Linie sollte Ihrer Meinung nach von der Bundesregierung langfristig verfolgt werden ? Instruktion: Sehr geehrter Teilnehmer, Sehr geehrte Teilnehmerin ! Bei der folgenden Aufgabe geht es ausdrücklich nicht darum Ihre persönliche Einstellung zu Türken zu erfassen, sondern wir bitten Sie darum, die sechs folgenden Aussagen zur Ausländerpolitik hinsichtlich der Stärke der in ihnen zum Ausdruck kommenden Diskriminierung zu sortieren. Denken Sie daran, wir wollen nicht Ihre Einstellung zu Türken erfassen, sondern wir bitten Sie lediglich darum, Ihr Urteil über die Stärke der in den Aussagen enthaltenen Diskriminierung abzugeben. 1. Lesen Sie sich in aller Ruhe alle sechs Aussagen zur Ausländerpolitik gegenüber Türken durch. 2. Wählen Sie die am meisten diskriminierende Politikvariante aus und weisen Sie ihr den Rangplatz 6 zu. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 5 3. Wählen Sie die am wenigsten diskriminierende Politikvariante aus und weisen Sie ihr den Rangplatz 1 zu. 4. Ordnen Sie die verbleibenden 4 Politikvarianten zwischen den in Punkt 2 und 3 festgelegten Polen dergestalt ein, daß sie hinsichtlich der in ihnen enthaltenen Diskriminierungsstufen eine Rangfolge bilden. 5. Sollte Sie sich bei zwei Aussagen als in gleichem Maße diskriminierend ansehen, vergeben Sie bitte zwei identische Rangplatznummern. Aussagen zur Ausländerpolitik: Die Bundesregierung sollte .... - ... nur diejenigen Türken zurückschicken, die nicht zum wirtschaftlichen Wachstum der Bundesrepublik beitragen. - ... nur diejenigen Türken zurückschicken, die keine Aufenthaltserlaubnis besitzen. - ... keinen von den Türken zurückschicken, die heute in der Bundesrepublik leben. - ... nur diejenigen Türken in ihr Heimatland zurückschicken, die nicht in der Bundesrepublik geboren sind. - ... alle Türken in ihr Heimatland zurückschicken, auch diejenigen, die in der Bundesrepublik geboren sind. - ... nur diejenigen Türken zurückschicken, die hier Verbrechen oder schwere kriminelle Delikte begangen haben. Rangplatz Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 6 Im Sommersemester 1995 führte ich diese Rangskalierung mit 35 Studenten des Methoden-I-Kurses durch. Nach der Anwendung der Regel für „verknüpfte Rangsplätze“ erhielt ich die folgende Datentabelle: Probnr Not working Illegals None back Back not born here All back Criminals 1 5,0 2,0 1,0 3,0 6,0 4,0 2 5,0 3,0 1,0 4,0 6,0 2,0 3 5,0 2,0 1,0 4,0 6,0 3,0 4 5,0 3,0 1,0 4,0 6,0 2,0 5 5,0 4,0 1,0 3,0 6,0 2,0 6 5,0 3,0 1,0 4,0 6,0 2,0 7 5,0 2,0 1,0 4,0 6,0 3,0 8 5,0 2,0 1,0 4,0 6,0 3,0 9 4,5 3,0 1,0 4,5 6,0 2,0 10 4,5 3,0 1,0 4,5 6,0 2,0 11 6,0 3,0 2,0 5,0 4,0 1,0 12 6,0 3,0 2,0 5,0 4,0 I,0 13 4,0 5,0 1,0 3,0 6,0 2,0 14 6,0 3,0 1,0 4,0 5,0 2,0 15 6,0 3,5 1,0 3,5 5,0 2,0 16 4,0 2,0 1,0 3,0 6,0 5,0 17 4,0 2,0 1,0 5,0 6,0 3,0 18 5,0 3,0 1,0 4,0 6,0 2,0 19 5,0 3,0 1,0 4,0 6,0 2,0 20 5,0 2,0 1,0 4,0 6,0 3,0 21 4,0 2,0 1,0 5,0 6,0 3,0 22 5,0 3,0 1,0 4,0 6,0 2,0 23 5,0 2,0 1,0 4,0 6,0 3,0 24 5,0 3,0 1,0 4,0 6,0 2,0 25 5,0 3,0 1,0 3,0 6,0 3,0 26 5,0 4,0 1,0 3,0 6,0 2,0 27 5,0 4,0 1,0 3,0 6,0 2,0 Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 7 Probnr Not working Illegals None back Back not born here All back Criminals 28 5,0 3,0 1,5 5,0 5,0 1,5 29 4,5 3,0 1,5 4,5 6,0 1,5 30 4,0 2,5 1,0 5,0 6,0 2,5 31 4,5 2,0 1,0 4,5 6,0 3,0 32 5,0 2,0 1,0 3,0 6,0 4,0 33 5,0 3,0 1,0 4,0 6,0 2,0 34 5,0 4,0 1,0 3,0 6,0 2,0 35 5,0 3,0 1,0 4,0 6,0 2,0 Die Bundesregierung sollte .... Not working: Illegals: None back: Not born here: Back all: Criminals: nur diejenigen Türken zurückschicken, die nicht zum wirtschaftlichen Wachstum der Bundesrepublik beitragen. nur diejenigen Türken zurückschicken, die keine Aufenthaltserlaubnis haben. keinen von den Türken zurückschicken, die heute in der Bundesrepublik leben. nur diejenigen Türken in ihr Heimatland zurückschicken, die nicht in der Bundesrepublik geboren sind. alle Türken in ihr Heimatland zurückschicken, auch diejenigen, die in der Bundesrepublik geboren sind. nur diejenigen Türken zurückschicken, die hier Verbrechen oder schwere kriminelle Delikte begangen haben. Für die sechs zu skalierenden Items erhielt ich folgende durchschnittliche und mittlere Rangplätze, wobei letztere zwischen den sechs Items präzise diskriminieren: Die Bundesregierung sollte Türken ... Mittelwert zurück, die nicht arbeiten 4,91 zurück, keine 2,86 Aufenthaltserlaubnis zurück, keinen einzigen 1,09 zurück, nicht in BRD 3,96 geboren zurück, alle Türken 5,80 zurück, Straffällige 2,39 Standardab weichung ,54 Median 5,00 ,74 3,00 ,26 1,00 ,69 4,00 ,53 ,83 6,00 2,00 Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 8 Die Streuung der mittleren Rangplätze läßt sich mit Hilfe des von John Tukey entwickelten Box-Whiskers-Plot anschaulich darstellen. Der dicke Balken in der Mitte jeder Rubrik markiert jeweils den mittleren Rangplatz, an dem genau 50% der vergebenen Ränge liegen. Die untere bzw. obere Begrenzung des Kasten markiert jeweils die untere bzw. obere Quartilsgrenze, an der jeweils 25% bzw. 75% der verteilten Ränge liegen. Die beiden äußeren waagerechten Begrenzungsstriche markieren den 10% bzw. 90% Bereich der Verteilung. Punkte , die mit einem Kreis bzw. Stern versehen sind, liegen außerhalb des 1,5 bzw. 3-fachen Interquartilsabstand. Die Betrachtung des Box-Plots ergibt, daß lediglich die Items „Straffällige“ und „Illegale“ sich in der Wahrnehmung ihrer Intensität auf Seiten der Befragten leicht überschneiden. Ob dies Überschneidung statistisch relevant ist, läßt sich mit Hilfe des Mediantest oder der Berechnung von Vertrauenintervallen für die Mediane überprüfen. Diese Art von Fragen sind aber Gegenstand der Veranstaltung Methoden III. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 2. 9 Methode des Paarvergleiches (Thurstone´s law of comparative judgement") Ähnlich wie bei der Rangskalierung wird die Versuchsperson (Vp) gebeten, ein Urteil über die Reizintensität von Items / Aussagen abzugeben. Im Unterschied zur Rangskalierung hat die Vp aber nicht die Gesamtheit der Items vor Augen, sondern sie wird gebeten, jeweils zwei Aussagen zu vergleichen. Ihre Aufgabe besteht jetzt darin, festzustellen, ob dier erste Aussage stärker, intensiver oder größer als die zweite ist. In unserem Falle, ob die erste Variante der Ausländerpolitik eine größeres Ausmaß an Diskriminierung beinhaltet als die zweite. Bei insgesamt 6 Items sind (6 * (6-1)) / 2 Paarvergleiche möglich, d.h. insgesamt müssen 15 Paarvergleiche durchgeführt werden. Anschließend lassen sich die Aussagen in einer Rangfolge ordnen. Soll diese Rangfolge auf eine metrische Skala übertragen werden, so müssen Zusatzannahmen eingeführt werden, wie SIXTL (1967) ausführlich darstellt. Beispiel: Paarvergleich der Items zur Ausländerpolitik gegenüber Türken. Nachteil: Im Vergleich zur einfachen Rangskalierung ist der Paarvergleich sehr aufwendig. 3. Likert-Skala (Methode der summierten Beobachtung) Diese Form der Vorgabe von Antwortkategorien und ihrer anschließenden Skalierung wird vor allem bei der Fragebatterien verwendet. Hierbei wird das Ausmaß der Zustimmung eines Befragten über die Vorgabe von verbalen Ankern und nummerischen Werten gemessen. Bei einer fünfstufigen Skala lauten die Anwortvorgaben beispielsweise folgendermaßen: Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 10 Antwortformate der Likert-Skala Nummerisch: Verbal: Zeichen: 1 Ich stimme stark zu ++ 2 Ich stimme zu + 3 Ich bin neutral (teils/teils) 0 4 Ich lehne es ab - 5 Ich lehne es stark ab -- 9 Ich weiß nicht (oder Antwortverweigerung) Definitionsgemäß verfügt die Likert-Skala über ein intervallskaliertes Meßniveau, da die Abstände zwischen ihren nummerischen Werten eindeutig definiert sind. Daher empfiehlt HOLM (1974) ausdrücklich die Verwendung von LikertSkalen als Antwortformate. Aufgrund ihres Meßniveaus eignen sie sich besonders gut für multivariate statistische Analyseverfahren wie die Faktorenanalyse. Diese spezielle Verfahren gestattet es, zu überprüfen, ob die zu einer "Batterie" gehörenden Items wirklich nur ihre Zieldimension messen oder ob sich hinter ihnen noch eine weitere Fremddimension verbirgt. Will man diejenigen Antworten eines Probanden, die er auf eine Batterie gegeben hat, zu einem Index zusammenfassen, so muß man sich zunächst der richtigen Polung der einzelnen Items versichern. Oftmals werden Items "negativ formuliert" um der "Tendenz zum Jahsagen" des Probanden entgegenzuwirken. Hat man die Antworten dieser "Testitems" in Richtung der Zieldimension gedreht, so kann man den Summenwert des Probanden über alle Antworten dieser Batterie bilden. Nur dieser Summenwert fließt dann in die weiteren statistischen Analysen ein. Likertskalen erfreuen sich in der Umfrageforschung größster Beliebtheit, wobei sie in unterschiedlichen Formaten (4er, 5er, 7er oder mehrstufig) eingesetzt werden. Seit Beginn der achtziger Jahre enthält die Allgemeine Bevölkerungsumfrage in den Sozialwissenschaften, welche die prägnante Abkürzung ALLBUS trägt, eine 7-stufige Likertskala zur Messung von Gastarbeiter- bzw. Ausländerfeindlichkeit. Sie besteht aus vier Items, die der folgende Auszug des ALLBUS 96 Fragebogens dokumentiert: Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 11 Alle vier Items messen in derselben Richtung die geäußerte Ausländerfeindlichkeit. Eine Drehung einzelner Items ist daher nicht erforderlich. Der Gesamtpunktwert für jeden Befragten auf der Skala „Ausländerfeindlichkeit“ ergibt aus der Summe seiner Einzelantworten auf den vier vorgegebenen Items. Weigert er sich, eines der Items zu beantworten, so resultiert hieraus ein fehlender Wert, der zum Ausschluß des Befragten von der Bildung des Gesamtpunktwertes („score“) führt. Hinter der offensichtlich einfachen Summenbildung verbergen sich meßtheoretische Annahmen, die oftmals in Vergessenheit geraten sind. Schnell, Hill & Esser (1999, S. 435) haben sie in ihrem Anhang A klar herausgearbeitet. Bei der einfachen Summenbildung unterstellt der Forscher implizit eine parallele Itemcharakteristik, die von folgenden Bedingungen ausgeht: 1. 2. Alle Items messen gleichermaßen gut ihre Zieldimension (latentes Konstrukt) Die Meßfehler aller Items sind gleichgroß und stochastisch voneinander unabhängig. D.h., sie korrelieren nicht miteinander. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 12 Bei der eigentlichen Datenanalyse gelangt vor allem das kongenerische Meßmodell zur Anwendung. Es unterstellt ebenfalls unabhängige Meßfehler, die in ihrer Stärke variieren dürfen. Dies trifft ebenfalls für die Stärke zu, mit der jedes Item das gemeinsame Konstrukt mißt. Sowohl die explorative also auch die konfirmatorische Faktorenanalyse basieren auf diesem spezifischen Meßmodell , das Karl G. Jöreskog (1973) für die Analyse linearer Strukturgleichungen (Linear Structural Relationships) entwickelt hat. Dieses Modell soll das folgende Beispiel veranschaulichen, das den Kontakt zu Ausländern und die Xenophobie als latente Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 13 Variablen, auch Konstrukte oder Faktoren genannt, enthält. In Sinne Gordon W. Allport hat ein Forscher untersucht, ob der Kontakt zur Fremdgruppe zu einer bedeutsamen Reduktion der geäußerten Ausländerfeindlichkeit führt. Hierbei unterstellt er, daß das Kontaktniveau als unabhängiges, exogenes Kontrukt und die Xenophobie als abhängiges, endogenes Konstrukt fungieren. Nach einer Schätzung mit dem Programm LISREL 8.30 erhält er folgende Ladungs- und Pfadkoeffizienten: Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 4. 14 Guttman-Skala Der Grundgedanke dieses Verfahren lautet, daß die Items einer Skala eine kumulative Ordnung aufweisen, so daß im Idealfall Personen, die eine bestimmte Frage bejahen, alle höhere Ränge auf einer Skala haben als Personen, welche die gleiche Frage verneinen. Diese Form der Skalierung geht von einer Rangordnung der Personen anhand ihrer Antworten auf die Fragen aus, so daß man am Rang einer Person direkt ablesen kann, welche Items sie bejaht bzw. abgelehnt hat. Ihr Vorteil besteht darin, daß sich ihre Eindimensionalität direkt per Augenschein überprüfen überprüfen läßt. Annahmen: 1. 2. Beispiel: Die Items verfügen über eine monotone Funktion, d.h., wenn die Ja- in Nein-Antworten umschlagen bleiben sie bei Nein und vice versa. Die Items und Personen bilden ein gemeinsames Kontinuum. Reiss-Skala zur Messung der "vorehelichen sexuellen Freizügigkeit" auf dem Kontinuum "restriktiv-permissiv". (Friedrichs 1990, S. 180ff.) „REISS hat eine GUTTMAN-Skala mit zwölf Items entwickelt, hielt jedoch in späteren Untersuchungen die reduzierte Form mit nur sieben Items für ausreichend. Die Items werden nachfolgend in der Form für den Mann wiedergegeben; die Form für die Frau ist entsprechend. l. Ich finde, daß Petting für den Mann vor der Ehe erlaubt ist, wenn er verlobt ist. Stimme zu: stark - mittel - wenig Lehne ab : stark - mittel - wenig 2. Ich finde Petting für den Mann vor der Ehe erlaubt, wenn er seine Partnerin liebt. Stimme zu: stark - mittel - wenig Lehne ab: stark-mittel -wenig 3. Ich finde Petting für den Mann vor der Ehe erlaubt, wenn er für seine Partnerin starke Zuneigung empfindet. Stimme zu : stark - mittel - wenig Lehne ab: stark - mittel - wenig 4. Ich finde, daß uneingeschränkte Sexualbeziehungen für den Mann vor der Ehe erlaubt sind, wenn er verlobt ist. Stimme zu: stark - mittel - wenig Lehne ab : stark - mittel - wenig Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 15 5. Ich finde, daß uneingeschränkte Sexualbeziehungen für den Mann vor der Ehe erlaubt sind, wenn er seine Partnerin liebt. Stimme zu: stark - mittel - wenig Lehne ab: stark - mittel - wenig 6. Ich finde, daß uneingeschränkte Sexualbeziehungen für den Mann vor der Ehe erlaubt sind, wenn er für seine Partnerin starke Zuneigung empfindet. Stimme zu : stark - mittel - wenig Lehne ab: stark - mittel - wenig 7. Ich finde, daß uneingeschränkte Sexualbeziehungen für den Mann vor der Ehe erlaubt sind, auch wenn er keine besonders starke Zuneigung für seine Partnerin empfindet. Stimme zu: stark - mittel - wenig Lehne ab: stark - mittel - wenig“ Für seine Auswertung hat Reiss die Antworten der Befragten gemäß der Zustimmung / Ablehnung dichotomisiert. Er erhält für seine Items folgendes idealtypisches Skalogramm, wenn die Voraussetzungen der Guttman-Skala vollständig erfüllt wären. Ein Skalenwert gibt an, welche Items eine Person bejaht und welche sie verneint hat; der Skalenwert «3» gibt beispielsweise präzise Auskunft über die bejahten Items (1-5) und die verneinten (6 u. 7). Es muß demnach Umschlagpunkte geben, an denen die Ja-Antworten in Nein-Antworten umschlagen. Der zweite Vorteil einer Skalogramm-Analyse ist die Prüfung auf Eindimensionalität. Um solche Prüfung vorzunehmen, müssen die Antworten der Personen auf Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 16 die Items möglichst jene Anordnung erreichen, die im Beispiel der Skala von REISS erreicht war. Im einfachen Falle einer Bejahung oder Ablehnung der Items (also keiner differenzierten Antwortvorgaben) sind folgende Arbeitsschritte erforderlich: 1. 2. 3. Erstellung eines Skalogramms, d. h. einer Matrix, in deren Spalten die Items und in deren Zeilen die Antworten der Befragten stehen. Zweckmäßig ist es, dabei a) die Items nach der Häufigkeit ihrer Bejahung zu rangordnen und b) die Personen danach zu ordnen, in welchem Maße sie alle, einen Teil oder kein Item bejaht haben. Daraus ergibt sich, wenn die bislang nur unterstellte Skala auch vorhanden ist, ein Parallelogramm. Eine Reihe von Fällen (= Reaktionsmuster der Befragten) wird sich-nicht rangordnen lassen. Man verschiebt daher die Anordnung der Items und die der Personen solange, bis sich eine Ordnung ergibt, die möglichst wenig Ausnahmen hat. Dafür ist in Tabelle 7 ein vereinfachtes Beispiel aufgeführt. Um die Umschlagpunkte zu ermitteln sind mehrere Verfahren möglich. Wendet man die Cornell-Technik an, so ergibt sich eine redet gute Annäherung an das ideale Muster (Tab. 8). Ferner wurden folgende Regeln angewendet: Die Items und Befragten werden solange umgeordnet, bis Umschlagpunkte entstehen, die zu einem Minimum an Fehlern führen. Befragte mit gleichen Antwortmustern werden zusammengefaßt. Sollte ein Item zahlreiche Fehler aufweisen, nimmt man es aus der Skala heraus. Ergeben sich mehrere Anordnungen der Items bei gleicher Fehlerzahl, dann bleibt nur eine semantische Analyse der Items. Da es eine perfekte Übereinstimmung der empirischen Ergebnisse, d. h. der Reaktionsmuster der Befragten mit dem Modell, nicht gibt, wird die Annäherung an das Modell durch die Zahl der Abweichungen vom idealen Muster berechnet. Sie ist ein Maß für die Skalierbarkeit der Items wie der Personen. Es gibt an, wie groß die Wahrscheinlichkeit ist, aus dem Punktwert einer Person auf der Skala ihre Reaktionen zu erschließen oder zu reproduzieren. Dieser Koeffizient der Reproduzierbarkeit (coefficient of reproducibility) wird gebildet aus: Rep. 1 Zahl der Fehler Zahl der Items Zahl der Befragten Der Koeffizient sollte mindestens 0,90 betragen. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 17 Verwendet man Items mit mehr als zwei Antwortkategorien, ist das Vorgehen komplizierter: 1. 2. 3. 4. 5. Man gewichtet die Kategorien jedes Items (z. B. 0,1 ,2, 3), berechnet anhand der vorläufigen Ordnung der Items den Score pro Person über alle Items, rangordnet die Personen nach ihren Scores. Ergibt sich eine, gemessen am Modell, große Zahl von Fehlern, so wird man Kategorien einzelner Items zusammenfassen und/oder viele Fehler produzierende Items ganz ausscheiden. Es wird dann den zusammengefaßten Kategorien der Items eine neue Gewichtung gegeben (z. B. 0,1, 2) und das Verfahren ab (2) wiederholt. Um diese Prozesse zu vereinfachen, sind alternative Verfahren vorgeschlagen worden (vgl. TORGERSON 1958, S. 321 f.). Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 18 Zusammenfassend: Die GUTTMAN-Skala unterstellt ein gemeinsames Kontinuum von Items und Befragten. Sie erbringt eine Rangordnung, hat also ordinale Skalenqualität. Über die Distanz zwischen den Personen resp. Items ist nichts ausgesagt. Die Anordnung ist nicht frei von Willkür, da in einigen Fällen entschieden werden muß, welcher Teil eines Musters «falsch» ist. Tendenzfell steigt mit der Zahl der Items die Differenziertheit der Skala, doch steigen auch a) die Zahl der nicht mit dem Modell zu vereinbarenden Antwortmuster und b) der Aufwand beträchtlich. Daher haben die meisten gebräuchlichen GUTTMAN-Skalen nicht mehr als zehn Items. Die Skala ist wahrscheinlich nur eine enge Stichprobe aus dem Universum der möglichen Items. Die Anordnung der Items sollte bei Verwendung der gleichen Skala nicht von Studie zu Studie variiert werden, da ein soldfies Vorgehen wahrscheinlich die Reaktionsmuster beeinflußt. GUTTMAN (1966, S. 89) selbst schreibt, daß die Items als Stichprobe aus dem «Universum» und die Rangordnung der Personen nicht über Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 19 Zeitpunkte hinweg stabil sein müssen. Die Skala ist, wie alle anderen auch, relativ.“ Die Bildung von Indizes in den Sozialwissenschaften Ein einzelner Indikator reicht für die Operationalisierung eines theoretischen Begriff genau dann nicht aus, wenn entweder der Begriff der soziologischen Theorie selbst mehrdimensional ist oder der einzelne Indikator nicht hinreichend genau die theoretische Dimension messen kann. Beide Problem lassen sich mit Hilfe der bereits vorgestellten Skalierungsverfahren oder der Indexkonstruktion zumindest weitgehend beheben. Bei beiden handelt es sich um Auswertungs- und nicht um Datenerhebungs- oder Meßverfahren. Schnell, Hill & Esser (1999, S. 160) definieren den Index folgendermaßen: „Unter einem ‚Index‘ wird eine Zusammenfassung von mehreren Einzelindikatoren zu einer neuen Variablen verstanden.“ Indizes gelangen immer an zur Anwendung, wenn eine soziologische Theorie einen Begriff verwendet, der von sich aus mehrdimensional ist, aber die Theorie selbst eine gemeinsame latente Variable unterstellt. Ein Index wird dann aus den Indikatoren für jede der einzelnen Dimensionen gebildet. Zu den klassischen theoretischen Begriffen der Soziologie, die mehrdimensional sind, gehört derjenigen der „sozialen Schicht“. Eine denkbare Explikation der sozialen Schicht könnte die Dimensionen „Bildung“, „Einkommen“ und „berufliche Stellung“ (Berufsposition) umfassen. Alle drei Subdimensionen müssen für die Operationalisierung getrennt gemessen und anschließend zu einer neuen Variablenzusammengefaßt werden. Bei letzterer handelt es sich dann um den eigentlichen Schichtindex. Bei seiner Konstruktion sieht sich der Forscher mit zwei Problemen konfrontiert. 1. 2. Welche Dimensionen sollen in die Indexbildung eingehen? Wie sollen die ausgewählten und gemessenen Dimensionen miteinander kombiniert werden? Die ausgewählten Dimensionen des Begriffs spannen einen „Merkmalsraum“ auf, der im Falle der „sozialen Schicht“ drei Achsen aufweist. Jeder Befragte, für den Angaben auf den erhobenen Indikatoren der drei theoretischen Dimensionen vorliegen, kann im Merkmalsraum eindeutig lokalisiert werden, wie ihn Schnell, Hill & Esser (1999, S. 161) darstellen. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 20 Wenn der Forscher durch seine theoretischen Analysen festgelegt hat, welche Dimensionen er in seinem Index einbezieht und er ihre Indikatoren erhoben hat, stellt sich für ihn die Frage, wie er die Werte der verschiedenen Indikatoren zu einem Index zusammenfassen soll. Hierbei hat er bestimmte Kombinationen der Indikatorvariablen zusammenzuziehen, wie sich am Beispiel des Schichtungsindex von Scheuch und Daheim verdeutlichen läßt. „SCHEUCH/DAHEIM (1970:102-103) verwendeten für ihren 1961 zuerst eingesetzten Schichtungsindex die genannten drei Dimensionen Bildung, Einkommen und Berufsposition. SCHEUCH/DAHEIM unterschieden bei der Berufsposition 17 verschiedene Ausprägungen, 12 Nettoeinkommensgruppen und 11 verschiedene Ausprägungen der Schulbildung. Damit sind 17 * 12 * 11 = 2244 verschiedene Kombinationen möglich. Diese 2244 Kombinationen sollen durch den Index so zusammengefaßt werden, daß erstens nur wenige verschiedene Indexwerte entstehen und zweitens die Abfolge der Indexwerte der theoretischen Variablen "Sozialprestige" entspricht. Allgemein faßt ein Index einige Kombinationen des Merkmalsraumes (Typen) zu neuen Kombinationen zusammen. Indexkonstruktion kann daher als "Reduktion des Merkmalsraumes" aufgefaßt werden. Für die Zusammenfassung verschiedener Typen zu einem Indexwert unterscheidet LAZARSFELD (1937:127-128) drei Gründe: 1. Bestimmte Typen kommen gar nicht oder so selten vor, daß eine getrennte Behandlung nicht gerechtfertigt werden kann ("functional reduction"); Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 21 2. Durch unterschiedliche Gewichtung der Indexvariablen werden verschiedene Kombinationen zusammengefaßt ("arbitrary numerical reduction"); 3. Die Zusammenfassung erscheint theoretisch sinnvoll ("pragmatic reduction"). Als SCHEUCH/DAHEIM ihren Index konstruierten, gab es noch kaum Akademikerarbeitslosigkeit. Die Kombination "Abgeschlossenes Hochschulstudium, angelernter Arbeiter, Nettoeinkommen 700-799 DM" dürfte kaum aufgetreten sein und liefert damit ein Beispiel für "functional reduction". Auch ein Beispiel für "arbitrary numerical reduction" läßt sich bei der Konstruktion des Schichtindex finden. Die drei Variablen des Index wurden klassifiziert und je nach Ausprägung mit verschiedenen Punktwertem versehen. Da SCHEUCH/DAHEIM (1970:70) die Variable "Berufsprestige" für die Bestimmung des Sozialprestige für wichtiger als die beiden anderen Variablen hielten, konnten durch Berufsprestige maximal 30 Punkte und durch die beiden anderen Variablen jeweils maximal 20 Punkte erreicht werden. Sie unterschieden 17 Berufspositionen von „ungelernte Arbeite“ (=1 Punkt) bis "führende Selbständige" (=30 Punkte), 12 Nettoeinkommensgruppen von "unter 149 DM" (=1 Punkt) bis "2000 DM und mehr` (=20 Punkte) sowie 11 Schulbildungsniveaus von "Volksschule, unvollständig" (=0 Punkte) bis "Hochschule mit Abschluß" (=20 Punkte). Die Punkte auf diesen drei Dimensionen wurden zum Schichtindex addiert. Der Index wurde in 6 Gruppen von "untere Unterschicht" (=0-14 Punkte) bis "Oberschicht" (=50 und mehr Punkte) eingeteilt. Durch die Konstruktion eines Index werden allgemein verschiedene Kombinationen der Indikatorvariablen gleichgesetzt. Bei dem Schichtungsindex kann z. B. der Wert "38" (= mittlere Mittelschicht) sowohl durch einen höchstqualifizierten Facharbeiter (=13 Punkte) mit einem Nettoeinkommen zwischen 1000 und 1499 DM (=16 Punkte) und mittlerer Reife (=9 Punkte) als auch durch einen kleinen Selbständigen (=15 Punkte) mit einem Einkommen zwischen 1500 und 1999 DM (=19 Punkte) und Volksschule mit Lehre (=4 Punkte) erreicht werden. Durch die unterschiedliche Gewichtung der Variablen erreichen also verschiedene Kombinationen der Indikatorvariablen dieselben Punktwerte: Ebendies ist "arbitrary numerical reduction". Als Beispiel für eine Zusammenfassung aus theoretischen Gründen könnte ein Index der "Zufriedenheit mit der Lebenssituation" aus einem Indikator zur "Zufriedenheit im Beruf` und einem Indikator zur "Zufriedenheit mit privaten Lebensverhältnissen" gebildet werden. Die beiden Kombinationen "beruflich zufrieden, privat unzufrieden" und "beruflich unzufrieden, privat zufrieden" könnten zu "teilweise unzufrieden" zusammengefaßt werden. Der "theoretische" Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 22 Grund für die Zusammenfassung besteht hier lediglich aus der Unfähigkeit, ohne weitere Informationen (z. B. ob subjektiv eher Zufriedenheit im Beruf oder privat wichtig ist), eine Unterscheidung zwischen den beiden Typen in Hinsicht auf "allgemeine Zufriedenheit" vornehmen zu können. Die Beispiele sollten verdeutlicht haben, daß für ein gegebenes Indexproblem in der Regel mehr als eine Lösung existiert. Die Festlegung der Abfolge der Merkmalskombinationen erfolgt willkürlich und kann nur durch Außenkriterien legitimiert werden (Messungen mit Indizes werden auch als "willkürliche Messung" bezeichnet). Am Beispiel des Schicht-Index kann das Außenkriterium z. B. in einem Vergleich zwischen dem Index und einer Einschätzung durch "Experten" bestehen. In der Regel kann ein Index allerdings selten formal "validiert", sondern nur mit seiner theoretischen oder empirischen Nützlichkeit legitimiert werden. Die Zusammenfassung verschiedener Typen zu einem Indexwert ist also überwiegend ebenfalls eine rein theoretische Arbeit. Bisher ist nur ansatzweise erwähnt worden, wie eine Zuordnung von Zahlenwerten zu Objekten technisch erfolgt. Man kann Indizes dadurch bilden, daß man tatsächlich für jede mögliche Kombination der Werte der Indexvariablen explizit einen Indexwert durch eine Tabelle festlegt ("Einem XYZ-Typ entspricht ein Indexwert von 23"). Einfacher ist es, wenn eine einfache Zuordnungsregel angegeben werden kann, mit der den Elementen des Merkmalsraumes Zahlen zugeordnet werden können. Nach der Form der Zuordnungsregel werden u.a. additive, multiplikative und gewichtete Indizes unterschieden.“ (Schnell, Hill & Esser 1999, S.163ff.) Bildung einer Typologie in den Sozialwissenschaften Nehmen die Variablen, die den Merkmalsraum aufspannen, nur wenige verschiedene Werte an, so kann der Forscher ihre Kombinationen gleichermaßen in einer Tabelle darstellen. Diese mehrdimensionale Tabelle, die auf einer Kombination aller Kategorien von zwei und mehr Variablen beruht, bezeichnen Schnell, Hill & Esser (1999, S. 162) als „Typologie“. „Eine Typologie besteht aus der Gesamtheit aller verschiedenen Kombinationen (Typen) der zugrundeliegenden Variablen“. Zur Veranschaulichung haben sie eine Typologie des politischen Engagements entwickelt, das auf den beiden Variablen Parteimitgliedschaft und politisches Engagement basiert. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 23 „Abbildung 4-8 zeigt ein Beispiel für eine Typologie politischen Engagements. „Funktionär“, „Apathischer“ usw. werden hier als Namen für bestimmte Typen, also bestimmte Kombinationen der zugrundeliegenden Variablen aufgefaßt. Ähnliche Typenbegriffe wie „totale Institutionen“, „Feudalismus“ usw. werden in der soziologischen Theoriebildung sehr häufig verwendet. Solche Begriffe lassen sich als Elemente nicht explizierter Typologien auffassen, da die Dimensionen, die der Typologie zugrunde liegen, meist nicht eindeutig angegeben werden. Um solche Begriffe für die empirische Forschung nutzbar zu machen, müssen die zugrundeliegenden Dimensionen erst theoretisch hergeleitet werden. Diese theoretische Herleitung der einer Typologie zugrundeliegenden Dimensionen wird als "Rekonstruktion des Merkmalsraumes" (vgl. ZIEGLER 1973:15) oder "Substruktion" (LAZARSFELD 1937:132) bezeichnete . Die Bestimmung der Dimensionen, die in den Index eingehen sollen, ist eine rein theoretische Arbeit. Es gibt keine objektiven Gütekriterien, die eine Beurteilung erlauben würden, ob alle relevanten Dimensionen eines Begriffs berücksichtigt wurden bzw. ob die berücksichtigten Dimensionen tatsächlich relevant sind. Lediglich die theoretische Fruchtbarkeit einer solchen Analyse läßt sich manchmal beurteilen.“(a.a.O.) Eine der bekanntesten Typologien hat Inglehart mit seiner Differenzierung von Wertorientierung entwickelt. Sie basiert in ihrer ursprünglichen Form auf einer Rangskalierung politischer Ziele, die er a priori bestimmten Werttypen zu ge- Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 24 ordnet hat. Beispielsweise findet sich im Eurobarometer Nr. 30 aus dem Jahre 1988 folgende Frageformulierung: „128. Es gibt im Augenblick eine Reihe von Diskussionen, was die Ziele der Bundesrepublik Deutschland in den nächsten 10 bis 15 Jahren sein sollten. Auf dieser Liste sind einige Ziele aufgeführt, denen verschiedene Leute den Vorrang einräumen würden. 1. Aufrechterhaltung von Sicherheit und Ordnung in der Nation 2. Verstärktes Mitspracherecht der Menschen bei wichtigen Regierungsentscheidungen 3. Kampf gegen steigende Preise 4. Schutz der freien Meinungsäußerung Würden Sie mir bitte sagen, welches davon Sie selbst für das wichtigste auf längere Sicht halten? Und was halten Sie für das zweitwichtigste?“ (EMNID 1988, S. 4) Für die Zuordnung zu den Werttypen „Postmaterialisten“, „Materialisten“ sowie den „Mischtyp“ hat Inglehart folgende „theoriegeleitete“ Zuordnungsvorschrift entwickelt. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 25 Inglehart verwendet seine Typologie, um mit Hilfe gepoolter Querschnittsdaten die Veränderung der Wertorientierung weltweit zu untersuchen. In seinem 1997 erschienen Buch „Modernization and Postmodernization“ hat er die Verschiebung der Wertorientierung weg von der materiellen hin zu den postmateriellen Zielen verglichen. Hierfür hat er die Differenz der Prozentwerte von bekennenden Postmaterialisten und Materialisten pro Land gebildet. Als Datenbasis hat er in Europa die Eurobarometer-Untersuchungen Februar 1970 vs. Herbst 1992 und in den USA die „national election surveys“ 1972 vs. 1992 verwendet. In allen betrachteten Ländern zeichnet sich zum zweiten Vergleichszeitpunkt ein deutliches Überwiegen der Postmaterialisten ab, die beim ersten Zeitpunkt noch deutlich in der Minderheit gewesen sind. (a.a.O., S. 140) In der obigen Abbildung scheint die Veränderung des Wertebewußtsein der Bevölkerung zwischen 1970 und 1994 dramatisch zu sein. Diese Befunde erweisen sich aber als fraglich, wenn ihre externe Validität genauer geprüft wird. Die von Inglehart verwendeten Items erfassen zwar die „key issues“ der politischen Arena in den frühen siebziger Jahren, aber dieses Itemuniversum hat Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 26 spätestens seit Ende der siebziger Jahre beachtliche Veränderungen erfahren. Es fehlen eindeutig die politischen Ziele der Friedensbewahrung, des Umweltschutzes und der Bekämpfung der Massenarbeitslosigkeit. Daher können die von Inglehart festgestellten Veränderungen auf die Fehlspezifikation seines Issue-sets Anfang der neunziger Jahre zurückzuführen sein. Wie läßt sich die Zuverlässigkeit einer Skala überprüfen? Lamnek (1988, S. 160f.) faßt die gängigen Verfahren zur Ermittlung der Reliabilität oder Zuverlässigkeit einer Skala folgendermaßen zusammen: „1. Das Test-Retest-Verfahren Kann man davon ausgehen, daß ein Test innerhalb eines bestimmten Zeitraumes wiederholt werden kann, ohne daß sich das zu messende Merkmal verändert hat und ohne daß Einflüsse des Meßinstrumentes auf das zu messende Merkmal möglich sind, so bietet der Vergleich beider Testergebnisse ein Maß für die Zuverlässigkeit des Tests. Die Berechnung eines Korrelationskoeffizienten zwischen erstem und zweitem Test wäre eine Maßzahl zur Bestimmung der Reliabilität. In diesem Falle wird der Korrelationskoeffizient als Stabilitätskoeffizient bezeichnet, weil er die Stabilität des Meßinstrumentes über einen bestimmten zeitlichen Abstand hinweg angibt. 2. Die Split-half-Methode (Testhalbierung) Hierbei wird ein Test in statistisch zufällig gewonnene Hälften geteilt und einer Stichprobe von Probanden vorgelegt. Durch die statistische Zufälligkeit soll erreicht werden, daß in beiden Testhälften Aufgaben zu den gleichen Dimensionen und mit gleichem Schwierigkeitsgrad enthalten sind. . . . Diese beiden Testhälften werden den Probanden vorgelegt, so daß für jeden Probanden zwei Testergebnisse vorliegen. Die Korrelation beider Testergebnisse liefert den Koeffizienten der internen Konsistenz und gibt den Grad der Zuverlässigkeit an. Ein hoher Korrelationskoeffizient entspricht also einem hohen Maß an Reliabilität der beiden Tests. 3. Die Methode der äquivalenten Formen (Paralleltest) Entwickelt man zu einem Objektbereich nicht - wie normalerweise üblich - nur Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 27 ein Testverfahren, sondern versucht man die zu messenden Variablen durch zwei unabhängig voneinander konstruierte Erhebungsinstrumente zu operationalisieren, so bieten beide Testverfahren in gegenseitiger Kontrolle die Möglichkeit, die Testergebnisse miteinander zu vergleichen und von daher auf Zuverlässigkeit der Meßresultate zu schließen. Der Korrelationskoeffizient zwischen den Meßwerten der beiden Testformen gibt das Ausmaß der Meßwertübereinstimmung an, mißt also die Zuverlässigkeit der beiden Tests und wird als Äquivalenzkoeffizient bezeichnet. 4. Die Konsistenzmethode Sie ist die extremtypische Weiterführung der Split-half-Methode. Dabei wird Der Test in ebenso viele Elemente unterteilt wie Items vorhanden sind. Durch die Korrelation dieser untereinander wird ein Reliabilitätskoeffizient berechnet", den Cronbach für die Schätzung der internen Konsistenz einer additiven Itemskala ihrer Reliabilität - entwickelt hat. Sein Reliabilitätskoeffizienten . (alpha) ist auf den Wertebereich von Null bis Eins normiert. Bevor der Forscher die Reliabilitätsanalysen durchführen kann, muß er zuerst alle Items in die gleiche Richtung polen, d.h., alle “gedrehten Items” müssen in Richtung der Zieldimension rekodiert werden. Cronbach geht davon aus, daß alle Items gleichzeitig dieselbe Zieldimension messen sollen (“Paralleltest”) und über dieselbe Varianz verfügen. Cronbach s . kr 1 (k 1)r [0;1] Legende: k: r: Anzahl der Items Durchschnittliche Interkorrelation der Items Cronbach’s . läßt sich interpretieren als die quadrierte Interkorrelation zwischen den durch die Messung ermittelten und den “wahren” Skalenwerten. Es handelt sich beim ihm um eine Schätzung der Untergrenze der Genauigkeit des Messvorgangs. Je höher die durchschnittliche Interkorrelation ausfällt und je mehr Items zur Messung der Zieldimension verwendet werden, desto höher ist die Reliabilität der Messung. Von einer reliablen Messung unserer Zieldimension können wir ausgehen, wenn das Cronbach’s . den Wert von 0,70 bei Felduntersuchungen überschreitet. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 28 Hinsichtlich des angewandten Meßverfahrens unterstellt Cronbach die TauÄquivalenz der einzelnen Indikatoren. Dies bedeutet, daß die Items alle gleichermaßen gut die Zieldimension messen müssen und sich lediglich bei den Meßfehlern unterscheiden dürfen. Wie läßt sich die Validität einer summativen Itemskala überprüfen? Mit der Validitätsüberprüfung summativer Itemskalen hat sich Holm (1976, S. 126 - 133) sehr intensiv auseinandergesetzt und die wichtigsten Verfahren hierzu vorgestellt: „2.1. Formale Gültigkeit als Hinweis auf inhaltliche Gültigkeit Wenn für die Items einer Fragebatterie ermittelt wurde, daß sie auf nur einer gemeinsamen Dimension messen, dann, so kann argumentiert werden, müßte es schon ein seltsamer Zufall sein, wenn das nicht die Zieldimension, sondern irgendeine andere Dimension wäre. Bei der Formulierung der einzelnen Fragen der Batterie hat der Sozialforscher in jedem einzelnen Fall eine intuitive Dimensionsüberprüfung vorgenommen. Wenn die gesamte Fragebatterie (beispielsweise) "Berufszufriedenheit" messen soll, dann hat er beim Entwickeln und Formulieren der einzelnen Fragen jedes Mal intuitiv überprüft, ob sie auf der Zieldimension "Berufszufriedenheit" messen. Wenn nun durch einen relativ zuverlässigen Kalkül (eben die Faktorenanalyse) ermittelt wurde, daß alle oder sehr viele der formulierten Fragen auf einer gemeinsamen Dimension messen, dann müßte sich der Sozialforscher systematisch bei der intuitiven Dimensionsprüfung aller Items geirrt haben. Und das scheint sehr unwahrscheinlich zu sein. Aber auszuschließen ist ein derartiger systematischer Irrtum nicht. Es könnte etwa sein, daß der Sozialforscher den Begriff "Berufszufriedenheit" definiert hat als "Zufriedenheit eines Arbeiters, die er in seinem Beruf in seinem Betrieb empfängt". Das wäre eine zweidimensionale Definition, die "Berufszufriedenheit" (im engeren und eigentlichen Sinne) und "Betriebszufriedenheit" umfaßt. Dabei könnte es nun geschehen, daß der Sozialforscher ausschließlich oder überwiegend Items formuliert, die "Betriebszufriedenheit" messen. Obwohl seine Fragebatterie eindimensional ist, mißt sie dann, unbemerkt, nicht auf der Zieldimension, sondern auf einer anderen Dimension. Die Ursache für einen derartigen systematischen Irrtum liegt also wesentlich im Bereiche der Theorie- und Begriffs-Konstruktion; genauer: in der dimensionalen Auflösung des Forschungs- Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 29 gegenstandes. 2.2. Expertenvalidierung Bei der Methode der "Validierung durch Experten" (engl. "expert validity") legt der Sozialforscher die zu überprüfende Fragebatterie (deren formale Gültigkeit er zuvor ermittelt hat) Experten vor. Experten sind dabei Personen, die bezüglich der Untersuchungsdimension ein größeres Wissen besitzen als der Sozialforscher. Soll z.B. eine Fragebatterie zur Messung der Schulzufriedenheit von Kindern auf ihre inhaltliche Gültigkeit getestet werden, dann werden Lehrer um ihr Urteil über die Items der Fragebatterie gebeten. Eine derartige Methode ist deswegen unbefriedigend, weil die Experten in der Regel nicht aufgrund objektiven Wissens ihr Gültigkeitsurteil abgeben, sondern aufgrund ihrer Intuition. Diese Methode kann in manchen Fällen sogar zu krassen Fehlurteilen führen. So können etwa Lehrer aufgrund fixierter Vorurteile über Kinder die vorgelegte Fragebatterie falsch einschätzen. Experten stehen immer in der Gefahr, "betriebsblind" zu werden und auf ihrem Gebiet mit eingeübten Vorurteilen zu operieren. Das gilt jedoch weniger für Fälle, wo objektives Wissen und objektive Kontrollen möglich sind. So kann die Expertenvalidierung als Methode der Gültigkeitsermittlung durchaus sinnvoll sein, wenn etwa eine Fragebatterie des technischen Wissens von Arbeitern entwickelt werden soll. Hier könnten etwa Betriebsingenieure als Experten eingesetzt werden. 2.3. Bekannte Vergleichsgruppen ("known groups") Bei der Methode des "Vergleichs mit bekannten Gruppen" (engl. "known groups") legt der Sozialforscher seine Fragebatterie Personengruppen vor, von denen er weiß, daß sie in der Meßdimension sehr hohe bzw. sehr niedrige Werte einnehmen. Bei der Validierung einer "Mental-Health-Skala"(eine Frage-Batterie, mit der die geistig-seelische Gesundheit/Krankheit von Menschen gemessen werden soll) legten J. G. Manis u.a. ( 1963) eine 22-Item-Skala folgenden Befragtengruppen vor: 1. Patienten eines Hospitals für geistig-seelisch Kranke, 2. Patientendieses Hospitals, die (als geheilt) entlassen werden sollten, 3. "normalen" College-Studenten, 4. "normalen" Einwohnern eines kleinen Dorfes (Stichprobe) und 5. "normalen" Einwohnern einer Stadt (Stichprobe). Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 30 Wenn die Skala tatsächlich auf der Dimension der "Mental Health" mißt, dann müssen sich die Patienten (Gruppe 1 ) von den geheilten Patienten (Gruppe 2) und den Nicht-Patienten (Gruppen 3, 4, 5) signifikant unterscheiden. Das war auch der Fall. Die gefundenen Mittelwerte für die 5 Gruppen waren folgende (je höher der Punktwert, um so schlechter die "Mental Health"): Gruppe: Mittelwert auf Skala: (1) 6,1 (2) 2,8 (3) 3,6 (4) 2,8 (5) 3,2 Der Unterschied der ersten Gruppe zu jeder der 4 anderen war hoch signifikant ( p = .001 ). Die Methode der "bekannten Vergleichsgruppen" besteht also darin, die zu validierende Skala mindestens 2 Gruppen vorzulegen, von denen man weiß, daß sie unterschiedliche mittlere Skalenwerte erzielen. Die gefundenen arithmetischen Mittelwerte werden dann mit einem Signifikanztest (t- oder z-Test) daraufhin untersucht, ob sie sich signifikant unterscheiden. Die "kritische Stelle" dieser Methode ist natürlich das Wissen um die wahren Werte der zu untersuchenden Gruppen auf der wahren, aber nicht wahrnehmbaren Dimension. Dieses Wissen beruht lediglich auf Plausibilität, aber nicht auf einem empirischen Beweis. Bei obigen Skalenwerten war überraschend, daß die Patienten, die entlassen werden sollten (Gruppe 2), sich nicht von den "normalen" Gruppen unterschieden, teilweise sogar "gesünder" waren als diese. Die Autoren deuteten diese Erscheinung als mangelhafte Trennschärfe der Skala. Hier wird also folgendes Prinzip sichtbar: Wenn die zu validierende Skala für 2 (oder mehrere) bekannte Vergleichsgruppen keine unterschiedlichen Zahlenwerte liefert, dann muß das nicht notwendigerweise an der mangelnden inhaltlichen Gültigkeit liegen, es kann auch an der mangelnden Trennschärfe liegen. Ein negatives Ergebnis bei der Methode der "bekannten Vergleichsgruppen" kann also zweifach interpretiert werden, ein positives weist jedoch auf gute inhaltliche Gültigkeit hin (und daneben natürlich auch auf eine gute Trennschärfe der Skala). 2.4. Vergleich mit anderen unabhängigen Kriterien ("independent criteria") Eine theoretische Dimension ist immer mehrfach operationalisierbar. Für jede theoretische Dimension existieren mehrere Indikatoren. Schichtzugehörigkeit kann etwa dadurch festgestellt werden, daß man die materiellen Besitzgüter der Menschen ermittelt - aber unter Umständen auch dadurch, daß man ihren Sprachstil feststellt. Um die schulische Zufriedenheit eines Schülers zu ermitteln, kann man ihm 1. Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 31 eine Einstellungs-Skala vorlegen (die Items enthält wie "wenn ich morgens aufwache und weiß, daß ich zur Schule muß, dann habe ich immer irgendwie Angst") oder 2. eine Liste mit alternativen Handlungen vorlegen (wie: "Was wäre Dir lieber, einen Vormittag lang in die Schule zu gehen oder einen Vormittag lang im Regen herumzulaufen?") oder 3. dadurch daß man die Häufigkeit des Krankseins feststellt. Die Methode des "Vergleichs mit anderen unabhängigen Kriterien" besteht nun darin, die zu validierende Fragebatterie, z.B. die Einstellungs-Skala, mit anderen möglichen Indikatoren derselben Dimension (Präferenz bei alternativen Handlungen, Häufigkeit des Krankseins) zu vergleichen (zu korrelieren), wobei diese anderen Indikatoren anderer Art sein sollen, d.h. einer anderen Klasse von Forschungsinstrumenten angehören sollen. So sollte etwa die zu validierende Fragebatterie nicht mit einer anderen (konkurrierenden) Fragebatterie verglichen werden. Ein anderes Beispiel für diese Validierungsmethode wäre etwa: Werte, die mit einer Skala der Arbeitszufriedenheit für die Arbeiter eines Betriebes ermittelt werden, werden mit der Zahl der Beschwerden, die die Arbeiter einreichten, verglichen (korreliert). Skala und Beschwerden sind zwei voneinander unabhängige Indikatoren ein und derselben Dimension 2.5. "Construct validity" Die Methoden der Expertenvalidierung, der Validierung durch "bekannte Vergleichsgruppen" und durch Vergleichen mit anderen Kriterien beruhen nicht auf irgendwelchen theoretischen Reflexionen über das Gültigkeitsproblem. Sie sind plausibel. Die Methode jedoch, die im folgenden beschrieben wird, beruht auf einer Theorie der inhaltlichen Gültigkeit, die allerdings selten expliziert wird. In der amerikanischen Sozialforschung wird diese Methode "construct validity" (bzw. "construct validation") genannt. Empirische Untersuchungen verfolgen immer auch den Zweck, Theorien über einen bestimmten Gegenstandsbereich zu überprüfen. Wenn also eine Skala dazu bestimmt ist, auf einer bestimmten Dimension zu messen, dann ist diese Dimension in einer Theorie eingebaut. Sie hat innerhalb dieser Theorie den Status einer unabhängigen oder einer abhängigen Variablen. Aus dieser Einordnung der Dimension in eine Theorie folgt die Möglichkeit, die Skala zu benennen, d.h. ihre inhaltliche Gültigkeit zu beurteilen. Der Ablauf der "construct validation" ist folgender: Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 32 1. Der Sozialforscher hat hinsichtlich einer Meßdimension eine Fragebatterie entwickelt. Die formale Gültigkeit (Eindimensionalität) der Items ist gesichert. 2. Die Meßdimension muß, wie bereits oben gesagt, in eine Theorie eingebettet sein, d.h. sie muß Bestandteil einer explizit formulierten Hypothese sein. Sie muß also zumindest mit einer anderen Dimension hypothetisch verbunden sein. Beispiel: Die zu messende Dimension sei "Arbeitszufriedenheit", die andere Dimension "Dogmatismus". Die Hypothese lautet "je geringer die Arbeitszufriedenheit, um so stärker der Dogmatismus". 3. Die "andere" Dimension (Dogmatismus) muß meßbar sein, d.h. für die andere Dimension muß auch ein Meßinstrument entwickelt werden. 4. Die an einer repräsentativen Stichprobe gewonnenen Daten für die Meßdimension (Arbeitszufriedenheit) und die "andere" Dimension (Dogmatismus) müssen sich so verhalten, wie es die Hypothese prognostiziert; für das Beispiel heißt das: Arbeitszufriedenheit und Dogmatismus müssen (negativ) miteinander korrelieren. 5. Wenn die Hypothese bestätigt wird, d.h. wenn die Prognose, die in der Hypothese formuliert wird, durch das empirische Material erfüllt wird und wenn für die Skala der "anderen" Dimension die inhaltliche Gültigkeit (durch andere vorausgegangene Untersuchungen) gesichert ist, dann darf für die Skala der eigentlichen Meßdimension inhaltliche Gültigkeit beansprucht werden. Kurz: Wird die Hypothese bestätigt und ist eine der beiden Skalen auf ihre inhaltliche Gültigkeit überprüft, dann darf auch die andere Skala als gültig erachtet werden. 6. Welcher Schluß darf gezogen werden, wenn nun das empirische Material die Hypothese bestätigt, die Skala für die "andere" Dimension (Dogmatismus) jedoch ebenfalls noch nicht auf ihre inhaltliche Gültigkeit überprüft wurde? Der Schluß ist im Grunde genommen derselbe wie oben unter Punkt 5. Wenn die Hypothese bestätigt wurde, dann besteht eine annehmbare Wahrscheinlichkeit, daß die beiden Skalen auch auf jenen Dimensionen messen, von denen in der Hypothese gesprochen wird. Mit einer gewissen Sicherheit darf die inhaltliche Gültigkeit beider Skalen behauptet werden - wenn auch diese Sicherheit wohl geringer ist als in dem unter Punkt 5 beschriebenen Fall. Ist die Kausalhypothese Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 33 richtig und sind die verwendeten Skalen gültig, dann müssen die Skalen kovariieren, d.h. miteinander korrelieren. Das ist das, was beobachtbar ist. Der umgekehrte Fall: Ist die Kausalhypothese falsch oder ist eine der beiden Skalen nicht gültig, dann werden die beiden Skalen nicht kovariieren. Es gibt nun jedoch noch einen anderen Grund, warum der Schluß auf die Gültigkeit der Skala nicht zwingend ist. Es könnte etwa sein, daß die Items der zu überprüfenden Skala nicht die Arbeitszufriedenheit erfassen, sondern die "Einstellung zur Firma, der man angehört". Es mag nun sein, daß der Dogmatismusgrad eines Arbeitnehmers seine Einstellung zur Firma determiniert, so daß auch für diese beiden Dimensionen eine (negative) Korrelation der Meßdaten zu erwarten ist. Allgemein formuliert: Die "andere" Dimension (Dogmatismus) ist innerhalb der Theorie nicht nur mit der angezielten Meßdimension (Arbeitszufriedenheit), sondern auch mit wieder anderen Dimensionen (wie "Einstellung zur Firma") hypothetisch verbunden. Eine hypothesenkonforme Korrelation der empirischen Daten ist also kein absolut sicherer Beweis für die Gültigkeit der zu überprüfenden Skala. 7. Ein letztes sehr wichtiges Problem der Theorie der inhaltlichen Gültigkeit ist noch zu klären. Es liegt eine große Versuchung für den Sozialforscher darin, die Hypothesen so zu formulieren, daß sie durch das empirische Material bestätigt werden - und zwar nachdem er die empirische Arbeit geleistet hat und bestimmte Korrelationen gefunden hat. Eine derartige Methode ist nicht zulässig, wenn gefordert wird, daß die Theorie deduktiv gewonnen werden muß, d.h. wenn die Theorie aus einer Theorie mit größerem Allgemeinheitsgrad abgeleitet werden muß. Hypothesen können dann nicht mehr ad hoc "willkürlich" formuliert werden. Oder anders formuliert: Werden bestimmte Hypothesen formuliert (die dann zur Gültigkeitsbestimmung von Skalen verwendet werden sollen), dann muß nachgewiesen werden, daß diese Hypothesen aus Sätzen einer allgemeineren Theorie deduktiv gewonnen werden können. (Dieser Prozeß wird üblicherweise dann nicht "Deduktion", sondern "Reduktion" genannt.) Damit diese allgemeinere Theorie nicht ebenfalls ad hoc erfunden wird, muß die weitere Forderung aufgestellt werden, daß diese sich bereits bewährt hat. Diese hier in Punkt 8 formulierte Bedingung mag sicherlich ihre wissenschaftslogische Berechtigung haben; sie ist jedoch so restriktiv, daß es nicht verwunderlich ist, daß sich keine Untersuchung nennen läßt, die diese Bedingung eindeutig erfüllt. Die Sozialwissenschaften sind ohnehin arm an explizierten Theorien, und deduktive Theorien sind gerade erst in der Entwicklung begriffen. Bei den beiden im folgenden beschriebenen Methoden der "concurrent" und der Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 34 "predictive validity" handelt es sich um Techniken, die als Spezialfälle der "construct validity" betrachtet werden können. Bei der "concurrent validity" wird aufgrund einer bestimmten Theorie eine Prognose über das manifeste Verhalten von Personen geleistet. Angenommen, es sei eine Skala des Autoritarismus entwickelt worden. Diese Skala gilt es zu validieren. Es liegt eine Theorie vor, in der Aussagen über den Zusammenhang von autoritärer Einstellung und Formen manifesten Handelns gemacht werden. Wird die Autoritarismusskala beispielsweise auf Schullehrer angewendet, dann können gemäß der Theorie folgende Prognosen über manifestes Verhalten geleistet werden: Aggressive Akte gegen Schwache: Unter den Lehrern mit hohen Autoritarismuswerten werden mehr Personen angetroffen werden, die sich gegen Schüler aus niedrigen sozialen Schichten mit einflußlosen Eltern aggressiv verhalten, als unter denen, die niedrige Autoritarismusgrade besitzen. Bedingungslose Unterwerfung unter den Mächtigen: Unter den stark autoritären Lehrern werden mehr Personen angetroffen werden, die sich starr an den von der Behörde und dem Rektor vorgegebenen Lehrplan halten. Um die Autoritarismus-Skala zu validieren, müssen also noch die beiden Dimensionen 1. Verhalten gegen Schüler aus niedrigen sozialen Schichten und 2. Unterwerfung unter den vorgegebenen Lehrplan empirisch ermittelt werden. Danach können Korrelationen berechnet werden. Werden die in den beiden obigen Aussagen gemachten Prognosen bestätigt, dann darf die Autoritarismus-Skala als inhaltlich gültig behauptet werden. Dabei gilt natürlich die Regel: Die Sicherheit der Behauptung wächst, je mehr verschiedene Personengruppen (Lehrer, Soldaten, Werkmeister usw.) auf diese Weise erfolgreich befragt werden. Die "concurrent validity" ist insofern eine Spielart der "construct validity" als bei ihr die "anderen Dimensionen", über die aufgrund einer vorhandenen Theorie Prognosen geleistet werden, in manifestem Verhalten und nicht wieder etwa in psychischen Dimensionen bestehen. Im Idealfall braucht dieses manifeste Verhalten nur einfach beobachtet zu werden, so daß also für die empirische Erfassung dieser Dimensionen keine Instrumente (Fragen, Indizes, Skalen, Teste usw.), die ihrerseits wieder Zuverlässigkeits- und Gültigkeitsprobleme aufwerfen, entwickelt und angewendet werden müssen. Dieser Idealfall wird jedoch selten gegeben sein. Auch für die Beobachtung muß gewissermaßen ein Instrument - ein Beobachtungsplan mit bestimmten Beobachtungskriterien - entwickelt werden, der dann Gültigkeitsprobleme aufwirft. Die "concurrent validity" ist also in der Regel keine bessere Methode der Gültig- Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 35 keitsermittlung als die normale Methode der "construct validity", bei der eine Prognose hinsichtlich "anderer" latenter Dimensionen geleistet wird. 2.7. "Predictive validity" Bei der "cancurrent validity" wird ein manifestes Verhalten prognostiziert, das zeitgleich gegeben ist. Ein bestimmtes Maß an durchschnittlicher Arbeitszufriedenheit der Belegschaft eines Betriebes geht (zeitgleich) einher mit einer bestimmten Anzahl von Beschwerden. Wird zukünftiges manifestes Verhalten prognostiziert, dann wird eine "predictive validity" geleistet. Zwischen "predictive" und "concurrent validation" besteht also kein prinzipieller Unterschied. Beispiele für die "predictive validation" sind etwa: Es wird ein Leistungstest durchgeführt und eine bestimmte Leistung in einer zukünftigen Situation vorausgesagt. Trifft die Voraussage ein, dann darf der Leistungstest als inhaltlich gültig betrachtet werden. Oder: Durch eine bestimmte Skala wird festgestellt, daß die Arbeitszufriedenheit von bestimmten Arbeitern sehr gering ist. Es wird prognostiziert, daß ein erheblicher Anteil dieser Arbeiter den Betrieb bald verlassen werde. Dieser Art der "predictive validity", bei der ein zukünftiges Handeln prognostiziert wird, liegt eine Theorie zugrunde, die über den Zusammenhang zwischen einer latenten Disposition und einer manifesten Handlung Aussagen macht; insofern ist also auch die "predictive validity" eine Spielart der "construct validity". Eine Schwierigkeit besteht nun darin, daß selten ein direkter und monokausaler Zusammenhang zwischen Disposition und zukünftigem Handeln besteht. Das setzt jedoch voraus, daß eine umfassende Theorie über den betreffenden Gegenstandsbereich vorliegt. Wo das nicht der Fall ist, ist die "predictive validity" eine mehr oder weniger ungeeignete Methode der Validierung.“ (a.a.O.)