Validitätsstudie zum HAWIK-IV im Vergleich zum HAWIK-III - E-LIB
Transcrição
Validitätsstudie zum HAWIK-IV im Vergleich zum HAWIK-III - E-LIB
Validitätsstudie zum HAWIK-IV im Vergleich zum HAWIK-III Dissertation zur Erlangung der Doktorwürde durch den Promotionsausschuss Dr. phil. der Universität Bremen vorgelegt von Maike Lipsius Bremen, im Dezember 2008 1. Gutachter: Prof. Dr. Franz Petermann 2. Gutachter: Prof. Dr. Uwe Tewes Promotionskolloquium am 16.06.2009 Danksagung Ohne die Hilfe vieler Menschen wäre diese Arbeit niemals fertig geworden. Es ist mir ein großes Anliegen, mich auf diesem Wege bei all denen zu bedanken, die mir tatkräftig zur Seite standen. Zunächst möchte ich mich herzlich bei Herrn Prof. Dr. Franz Petermann bedanken, der mir die Möglichkeit gab, an der Normierung des HAWIK-IV mitzuwirken und im Rahmen dieses Projektes zu promovieren und mich in den letzten vier Jahren dabei stets unterstützt hat. Mein besonderer Dank gilt Dr. Monika Daseking, die auch bei größter Arbeitsbelastung jederzeit ein offenes Ohr für große und kleine Probleme hatte, stets Interesse zeigte und eine fachliche und persönliche Bereicherung für mich war und hoffentlich weiterhin sein wird. Desweiteren bin ich meinen Kollegen und Kolleginnen des ZKPR sehr dankbar, die mich mit anregenden Gesprächen, aufbauenden Worten und fachlich kompetenten Tipps täglich begleitet und für eine entspannte und humorvolle Arbeitsatmosphäre gesorgt haben: Julia, Anne, Julia K., Julia D., Marijke, Sören, Dennis und viele mehr. PD Dr. Hans-Christian Waldmann danke ich für die methodische Betreuung und die konstruktive kritische Betrachtung des empirischen Teils. Ein großer Dank geht an die Schulen, Lehrer, Eltern, Kinder und Studenten (hier sei insbesondere der engagierte und kompetente Einsatz von Bea zu erwähnen), die mir mit ihrer Hilfe die Erstellung dieser Arbeit ermöglicht haben. Ich danke meinen Freundinnen Helena, Steffi und Andrea, die trotz eigener Belastungen immer für mich da waren und mich bei der Datenerhebung und der Erstellung der Dissertation unterstützt haben. Ebenso danke ich Jan, Jost, Susi, Anne und Julia für die konstruktiven Verbesserungsvorschläge. Antje danke ich für die kompetente Hilfe, dafür, dass sie an den Nutzen dieser Arbeit für die klinische Anwendung glaubt, für wertvolle Ablenkung und dafür, dass sie sich in meiner schwersten Zeit als wahre Freundin erwiesen hat. Schließlich danke ich meiner Familie, die ich von ganzem Herzen liebe! Insbesondere meinen Eltern, die mir immer das Gefühl gaben, dass sie stolz auf mich sind. Ohne euch wäre nichts von dem, was ich in meinen Leben bisher erreicht habe, möglich gewesen. Ich hoffe ich konnte euch in diesem so ereignisreichen Jahr etwas von dem zurückgeben, was ihr mir so viele Jahre gegeben habt. Inhaltsverzeichnis I 1 Einleitung .............................................................................................................................. 2 2 Theoretische Grundlagen: Was ist Intelligenz? ..................................................................... 7 3 2.1 Intelligenzdefinitionen ................................................................................................. 7 2.2 Das Intelligenzkonzept David Wechslers .................................................................. 14 2.3 Zusammenfassung ..................................................................................................... 16 Intelligenztheorien und -modelle......................................................................................... 18 3.1 Die General-Faktoren-Theorie von Spearman ........................................................... 18 3.1.1 Bewertung ........................................................................................................... 20 3.1.2 Verbindung zu den Wechsler-Skalen .................................................................. 20 3.2 Das Primärfaktorenmodell von Thurstone ................................................................. 20 3.2.1 Bewertung ........................................................................................................... 21 3.2.2 Verbindung zu den Wechsler-Skalen .................................................................. 22 3.3 Die Gf-Gc-Theorie von Cattell und Horn ................................................................... 22 3.3.1 Fluide Intelligenz (gf) .......................................................................................... 23 3.3.2 Kristalline Intelligenz (gc) ................................................................................... 23 3.3.3 Weiterentwicklung der Gf-Gc-Theorie ................................................................ 24 3.3.4 Bewertung ........................................................................................................... 25 3.3.5 Verbindung zu den Wechsler-Skalen .................................................................. 25 3.4 Die Three-Stratum-Theorie von Carroll .................................................................... 26 3.4.1 Bewertung ........................................................................................................... 27 3.4.2 Unterschiede zur Gf-Gc-Theorie .......................................................................... 28 3.4.3 Verbindung zu den Wechsler-Skalen .................................................................. 29 3.5 Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten .................................. 29 3.5.1 Bewertung ........................................................................................................... 33 3.5.2 Verbindung zu den Wechsler-Skalen .................................................................. 34 3.6 Diskussionen zur Existenz eines g-Faktors................................................................ 36 3.6.1 Was ist g? ............................................................................................................ 36 3.6.2 Pro und Kontra .................................................................................................... 36 3.6.3 Verbindung zur Studie ........................................................................................ 39 Inhaltsverzeichnis 3.7 4 II Zusammenfassung ..................................................................................................... 40 Die Wechsler-Skalen ........................................................................................................... 42 4.1 Die Geschichte der Wechsler-Skalen......................................................................... 42 4.2 Der HAWIK-III ......................................................................................................... 47 4.3 Der HAWIK-IV ......................................................................................................... 49 4.4 Testgütekriterien des HAWIK-III und HAWIK-IV................................................... 51 4.4.1 Objektivität .......................................................................................................... 52 4.4.1.1 Objektivität im HAWIK-III............................................................................. 52 4.4.1.2 Objektivität im HAWIK-IV ............................................................................ 53 4.4.2 Reliabilität ........................................................................................................... 54 4.4.3 Validität ............................................................................................................... 55 4.4.3.1 Nachweis der internen Struktur ....................................................................... 55 4.4.3.2 Konstruktvalidität ............................................................................................ 57 4.4.4 Normen des HAWIK-III und HAWIK-IV .......................................................... 58 4.4.5 Boden- und Deckeneffekte .................................................................................. 58 4.5 Die Bewertung der Wechsler-Skalen ......................................................................... 59 4.5.1 Fehlende theoretische Bindung ........................................................................... 60 4.5.2 Profilanalysen ...................................................................................................... 61 4.5.3 Weitere Kritikpunkte ........................................................................................... 63 4.5.4 Abschließende Betrachtung der Wechsler-Skalen .............................................. 63 4.6 Bewertung der WISC-IV ........................................................................................... 64 4.6.1 Aktualisierung der theoretischen Grundlagen ..................................................... 64 4.6.2 Anpassung an den Entwicklungsstand der Kinder .............................................. 68 4.6.3 Steigerung der Anwenderfreundlichkeit ............................................................. 68 4.6.4 Zusätzliche Auswertungsmöglichkeiten.............................................................. 69 4.6.5 Schwächen der WISC-IV .................................................................................... 70 4.7 Unterschiede zwischen HAWIK-III und -IV und deren Auswirkung auf die Vergleichbarkeit beider Testversionen.................................................................................... 71 4.7.1 Allgemeine und strukturelle Veränderungen zwischen beiden Testversionen .... 71 Inhaltsverzeichnis 4.7.2 5 Index Sprachverständnis ................................................................................. 74 4.7.2.2 Index Wahrnehmungsgebundenes Logisches Denken .................................... 79 4.7.2.3 Index Arbeitsgedächtnis .................................................................................. 81 4.7.2.4 Index Verarbeitungsgeschwindigkeit .............................................................. 82 Korrelationsstudien .................................................................................................... 84 5.1.1 Korrelationsstudien zur WISC-III ....................................................................... 84 5.1.2 Korrelationsstudien zum HAWIK-III ................................................................. 85 5.1.3 Korrelationsstudien zur WISC-IV ....................................................................... 86 5.1.4 Korrelationsstudien zum HAWIK-IV ................................................................. 86 5.1.5 Korrelationsstudien mit anderen Testverfahren .................................................. 87 5.2 Störeinflüsse .............................................................................................................. 88 5.2.1 Lerneffekt ............................................................................................................ 90 5.2.2 Flynn-Effekt ........................................................................................................ 94 5.3 Grenzen der Intelligenzdiagnostik ............................................................................. 96 5.4 Zusammenfassung ..................................................................................................... 97 Ableitung der Fragestellung und Hypothesen ..................................................................... 99 6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte von HAWIK-III und -IV 100 6.2 Hypothesen zur Faktorenstruktur des HAWIK-III und -IV ..................................... 102 6.3 Hypothesen zum Zusammenhang zwischen HAWIK-III und HAWIK-IV ............. 103 6.3.1 Einfluss der Testvorgabe ................................................................................... 104 6.3.2 Einfluss des Zeitintervalls ................................................................................. 105 6.4 7 Zusammenfassung ..................................................................................................... 83 Methodische Aspekte bei Vergleichsstudien ...................................................................... 84 5.1 6 Veränderungen in den einzelnen Untertests ........................................................ 72 4.7.2.1 4.8 III Hypothesen zur Regressionsanalyse ........................................................................ 106 Methoden und Datenanalyse ............................................................................................. 111 7.1 Studienablauf ........................................................................................................... 111 7.2 Studiendesign ........................................................................................................... 111 7.3 Stichprobenbeschreibung ......................................................................................... 113 Inhaltsverzeichnis 7.3.1 Gesamtstichprobe .............................................................................................. 113 7.3.2 Gematchte Stichprobe ....................................................................................... 115 7.4 Untersuchungsinstrumente....................................................................................... 117 7.5 Statistische Methoden zur Analyse der Daten ......................................................... 118 7.5.1 t-Tests für abhängige Stichproben ..................................................................... 118 7.5.2 Faktorenanalysen ............................................................................................... 119 7.5.3 Korrelationen ..................................................................................................... 119 7.5.3.1 7.5.4 8 IV Zusammengefasste Werte.............................................................................. 120 Regressionsanalysen.......................................................................................... 121 7.5.4.1 Multiple lineare Regression........................................................................... 122 7.5.4.2 Vorhergesagte Werte und Konfidenzintervalle ............................................. 122 Ergebnisse ......................................................................................................................... 124 8.1 Explorative Datenanalyse ........................................................................................ 124 8.1.1 Deskriptive Statistiken des HAWIK-III ............................................................ 124 8.1.2 Deskriptive Statistiken des HAWIK-IV ............................................................ 126 8.2 Überprüfung der Mittelwertdifferenzen ................................................................... 129 8.3 Mittelwertvergleich .................................................................................................. 131 8.3.1 Kurzes Intervall ................................................................................................. 132 8.3.2 Langes Intervall ................................................................................................. 134 8.4 Lerneffekt ................................................................................................................ 136 8.5 Flynn-Effekt ............................................................................................................. 142 8.6 Untersuchung der Teststruktur mit Hilfe von Faktorenanalysen ............................. 144 8.6.1 Faktorenanalysen ohne Vorgabe der Faktorenanzahl........................................ 144 8.6.2 Faktorenanalysen mit Vorgabe der Faktorenanzahl .......................................... 146 8.6.3 Zusammenfassung Faktorenanalysen ................................................................ 149 8.7 Untersuchung des Zusammenhangs mit Hilfe von Korrelationen ........................... 149 8.7.1 Korrelationen der Gesamtstichprobe ................................................................. 149 8.7.2 Korrelationen der Teilstichprobe....................................................................... 156 8.7.3 Zusammenfassung Korrelationsanalysen .......................................................... 158 Inhaltsverzeichnis 8.8 9 Regressionsanalysen ................................................................................................ 159 8.8.1 Untersuchung der Varianzaufklärung der HAWIK-III-Untertests .................... 159 8.8.2 Untersuchung der Varianzaufklärung der HAWIK-IV-Untertests.................... 161 8.8.3 Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ ................. 163 8.8.4 Erwartete Werte und Konfidenzintervalle ......................................................... 164 8.8.5 Zusammenfassung der Regressionsanalysen..................................................... 168 8.9 V Zusammenfassung der Ergebnisse ........................................................................... 169 Diskussion der Ergebnisse ................................................................................................ 170 9.1 Ergebnisbetrachtung des Mittelwertvergleichs ............................................................... 170 9.2 Ergebnisbetrachtung der Störeinflüsse ............................................................................ 171 9.2.1 Lerneffekt ................................................................................................................. 171 9.2.2 Flynn-Effekt ............................................................................................................. 174 9.3 Ergebnisbetrachtung der Faktorenanalysen..................................................................... 176 9.4 Ergebnisbetrachtung der Korrelationsanalysen ............................................................... 177 9.4.1 Einfluss der Testreihenfolge..................................................................................... 178 9.4.2 Höhe der Korrelationen der Gesamtstichprobe ........................................................ 178 9.4.3 Vergleich zwischen der gematchten und der Gesamtstichprobe .............................. 180 9.4.4 Einfluss der Länge des Re-Testintervalls ................................................................. 180 9.4.5 Abschließende Ergebnisbetrachtung der Korrelationsanalysen ............................... 181 9.5 Ergebnisbetrachtung der Regressionsanalysen ............................................................... 181 9.5.1 Varianzaufklärung der Untertests des HAWIK-III .................................................. 181 9.5.2 Varianzaufklärung der Untertests des HAWIK-IV .................................................. 184 9.5.3 Vorhersagekraft der Indizes auf den Gesamt-IQ ...................................................... 185 9.5.4 Abschließende Ergebnisbetrachtung der Regressionsanalysen ................................ 186 9.5.5 Erwartete Werte und Konfidenzintervalle ................................................................ 186 9.6 Unterschiede in der Rohwerte- und Wertpunktverteilung............................................... 187 9.7 Einzelfallbetrachtungen ................................................................................................... 188 9.7.1 Veränderungen in der Untertestzusammensetzung der Indizes ................................ 188 9.7.2 Klinische Relevanz ................................................................................................... 190 Inhaltsverzeichnis VI 9.7.3 Unterschiedliche Normierung .................................................................................. 190 9.7.4 Inhaltliche Veränderungen der Untertests ................................................................ 190 9.7.5 Veränderungen der Untertestreihenfolge ................................................................. 191 9.7.6 Zusammenfassung der Einzelfallbetrachtungen ....................................................... 192 9.8 Ausblick und Einschränkungen ....................................................................................... 192 9.8.1 Perspektiven für die Praxis ....................................................................................... 192 9.8.2 Einschränkungen der Studie ..................................................................................... 195 9.8.3 Forschungsperspektiven ........................................................................................... 197 Zusammenfassung ..................................................................................................................... 198 Literaturverzeichnis................................................................................................................... 199 Anhang ...................................................................................................................................... 217 Abbildungsverzeichnis .......................................................................................................... 217 Tabellenverzeichnis............................................................................................................... 218 Zusatztabellen ....................................................................................................................... 221 I Theoretischer Teil Kapitel 1 Einleitung 2 1 Einleitung Allgemeines Wissen, Frage 18: „Wie viel Tage hat das Jahr?“ Thilo, 8 Jahre: „Das ist mir doch egal, Hauptsache irgendwann ist Weihnachten!“ Die Intelligenz fasziniert die Menschen seit vielen Jahrhunderten. Bereits 300 v. Chr. fand der Begriff seine Erwähnung durch den chinesischen Philosophen Lao-Tse, der konstatierte: „Dinge wahrzunehmen ist der Keim der Intelligenz“. Bis heute wird darüber gerätselt und philosophiert, was Intelligenz eigentlich ist und was einen intelligenten Menschen ausmacht. Sie nimmt damit eine große Bedeutung in unserem Leben ein, auch wenn dies nicht von allen so gesehen wird: „Intelligenz ist nur eine zufällige Begleiterscheinung des Lebens, und vielleicht nicht einmal eine sehr nützliche“, findet der Biochemiker und Sciencefiction-Autor Isaac Asimov. Unzählige Forschungsarbeiten haben sich der Intelligenz angenommen. Allerdings gibt es bis heute keine einheitliche Ansicht darüber, was unter Intelligenz zu verstehen ist. Schon Anfang des vergangenen Jahrhunderts erklärten die Entwickler des ersten Intelligenztests, Binet und Simon (1916): “Life is so much a conflict of intelligences as a combat of characters” (S. 256). Es scheinen ebenso viele Intelligenzdefinitionen wie Intelligenzforscher1 zu existieren. In dieser Arbeit sollen die verschiedenen Definitionen beleuchtet und ihre Gemeinsamkeiten und Unterschiede aufgezeigt werden. Die Erfassung von Intelligenz hat mittlerweile auch Einzug in den Alltag gehalten. Ein Blick in die Fernsehlandschaft macht deutlich, dass sie in den letzten Jahren geradezu zu einem Modethema avancierte. „Der große IQ-Test“, „Deutschlands klügste Kinder“, „Wie schlau ist Deutschland?“ – das Rätselraten um das Wissen und die kognitiven Fähigkeiten hat Hochkonjunktur. Das Internet überhäuft seine Nutzer mit Gratis-IQ-Tests, die vorgeben, innerhalb kürzester Zeit anhand weniger Aufgaben einen aussagekräftigen Intelligenzquotienten ermitteln zu können. Diese Form von IQ-Testung ist jedoch oftmals fragwürdig und so sollte einem über eine TV-Sendung oder das Internet ermittelten Wert kritisch begegnet werden. Die Entwicklung eines wissenschaftlich fundierten Intelligenztests unterliegt strengen Anforderungen, die in der vorliegenden Arbeit ebenso thematisiert werden wie die Einschränkungen und Grenzen, die beim Einsatz von Intelligenztests zu beachten sind. Die Intelligenzdiagnostik zählt heute zu den wichtigsten Bereichen der klinischen Psychologie und bildet den Schwerpunkt psychologischer Leistungsdiagnostik (Petermann, 2006). Der Intelligenzdiagnostik kommt in vielen Berei1 Im Folgenden wird zur besseren Lesbarkeit ausschließlich die männliche Form verwendet, gemeint sind jedoch beide Geschlechter. Kapitel 1 Einleitung 3 chen der Psychologie eine wesentliche Bedeutung zu. Sie bildet den Schwerpunkt einer psychologischen Leistungsdiagnostik, die über die Darstellung eines normbasierten und ressourcenorientierten Leistungsprofils die Diagnose der kognitiven Leistungsfähigkeit einer Person ermöglicht (Daseking, Janke & Petermann, 2006). Diesen Stellenwert besitzt sie jedoch noch nicht so lange wie ihre mehr als hundertjährige Tradition vermuten lässt. Lange Zeit waren Intelligenztests umstritten. Erst in den letzten Jahrzehnten setzten sie sich als bedeutsames Diagnoseinstrument durch. Intelligenztests wie die Wechsler-Skalen kommen in vielen Bereichen zum Einsatz. Dazu gehören nach Aiken (2003) die Diagnose von Hoch- und Minderbegabung und die Auswahl intelligenzgeminderter oder hochbegabter Kinder für spezifische Fördermaßnahmen oder Schullaufbahnplanungen, die Prognose beruflicher Leistungen im Bereich der Personalauswahl und -entwicklung in der Arbeits- und Organisationspsychologie, die Diagnose im klinischen und psychiatrischen Setting, die Evaluation der Effektivität psychologischer Behandlungen und Interventionen sowie die Erforschung der kognitiven Fähigkeiten und der Persönlichkeit. Der Begriff Diagnostik entstammt dem griechischen Wort diagignostikein, das eine kognitive Funktion mit den Bedeutungen gründlich kennenlernen, Unterscheiden von Merkmalen und Beurteilungen vornehmen bezeichnet. Nach Kubinger (2006) erhebt ein psychologischer Leistungstest „unter standardisierten Bedingungen eine Informationsstichprobe über die Testperson, indem … mit systematisch erstellten Aufgaben interessierende Verhaltensweisen oder psychische Vorgänge ausgelöst und geprüft werden“ (S. 118). Er stellt ein Verfahren dar, das nach den Regeln der Testtheorie konstruiert wurde und eine Stichprobe jener Verhaltensweisen erhebt, die zum Zielmerkmal gehören und es operational definieren (Fisseni, 2004). Intelligenztests gehören dabei in den Bereich der Fähigkeitsmessung, wobei Fähigkeiten die psychischen und somatischen Bedingungen angeben, die eine Leistung ermöglichen. Intelligenz als Fähigkeit kann selbst nicht beobachtet werden, sie muss aus der Leistung in der Testsituation erschlossen werden. Nach Jäger und Petermann (1999) verfolgt psychologische Diagnostik das Ziel, Entscheidungen und sich daraus ergebende Handlungen zu begründen, zu kontrollieren und zu optimieren. In Anlehnung daran bezeichnen Eid und Petermann (2006) Diagnostik als „die regelgeleitete Sammlung und Verarbeitung von gezielt erhobenen Informationen, die für das Verständnis menschlichen Verhaltens bedeutsam sind“ (S. 16). Dies beinhaltet eine möglichst umfassende Erhebung relevanter Personendaten sowie die transparente Integration dieser Daten zu einer Kapitel 1 Einleitung 4 wissenschaftlich begründeten Diagnose, die möglichst direkt mit einer adäquaten Intervention einhergeht (Bölte, Adam-Schwebe, Englert, Schmeck & Poustka, 2000). Um veränderungorientierte Ansätze mehr in den Vordergrund zu stellen, definieren Amelang und Schmidt-Atzert (2006) als Aufgabe der Psychodiagnostik die Erfassung interindividueller Unterschiede im Verhalten und Erleben sowie intraindividueller Merkmale und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen. Somit werden hinlänglich präzise Vorhersagen künftigen Verhaltens und Erlebens sowie deren eventuelle Veränderungen in definierten Situationen möglich. Ende 2004 bekam das Zentrum für Klinische Psychologie und Rehabilitation der Universität Bremen den Auftrag, die US-amerikanische Intelligenztestbatterie WISC-IV für den deutschsprachigen Raum zu adaptieren und zu normieren. In den folgenden drei Jahren wurde der HAWIK-IV in Deutschland, Österreich und der deutschsprachigen Schweiz an über 2 600 Kindern und Jugendlichen im Alter von 6 bis 16 Jahren normiert. 2007 wurde der Test im HuberVerlag veröffentlicht. Parallel zur Normierung wurden diverse Validierungsstudien durchgeführt. Die Validierung dient einer Spezifikation und Präzisierung der diagnostischen Schlussfolgerungen, die aus seinen Ergebnissen korrekt gezogen werden können. Die Validität eines Testverfahrens gilt als das wichtigste Gütekriterium (Bortz & Döring, 2002) und demnach als wichtigster Aspekt bei der Testentwicklung und -evaluation (AERA, 1999; Angoff, 1988). Andere technische und konstruktionstheoretische Gütekriterien wie die Objektivität oder die Reliabilität gelten nur als Voraussetzungen zur Steigerung der Validität eines Instruments (Jäger, A. O., 1986). Zur Validierung des HAWIK-IV wurden beispielsweise regionale Unterschiede zwischen den Kindern aus Deutschland und der Schweiz untersucht (Grob et al., 2008). Einen ebenso wichtigen Beitrag zur Validität des Verfahrens leisten klinische Studien zu Kindern mit Hochbegabung, leichter oder mittelgradiger Intelligenzminderung, Lese-Rechtschreibstörung (LRS) und Aufmerksamkeitsdefizit-/Hyperaktivitätsstörung (ADHS) (Petermann & Petermann, 2008a). Weitere Studien wurden bereits veröffentlicht oder befinden sich zurzeit in Bearbeitung (Hagmann-von Arx, Meyer & Grob, 2008; Holocher-Ertl, Kubinger & Hohensinn, 2008). Neben der Mitarbeit an der Entwicklung und Normierung des HAWIK-IV bestand die Aufgabe der Verfasserin der vorliegenden Studie darin, die Gültigkeit des neuen Verfahrens nachzuweisen. Konkret sollte dies mit Hilfe eines Vergleichs zwischen dem Test und seinem Vorgängerverfahren, dem HAWIK-III, erfolgen. Bei der Entwicklung neuer Versionen von Testverfahren stellt die Interpretation einen wichtigen Aspekt dar. Testanwender sollten von einer Vergleichbarkeit des neuen Testverfahrens mit der vorherigen Version ausgehen können, wenn bei- Kapitel 1 Einleitung 5 spielsweise mit Hilfe des Testverfahrens für eine Verlaufsdiagnostik die Entwicklung eines Patienten anhand der alten Version (hier HAWIK-III) vor Beginn der Maßnahme und der neuen Version (hier HAWIK-IV) nach Beendigung der Maßnahme abgebildet werden soll. Abweichungen in der Struktur der Tests und der Intelligenz der Menschen (Flynn-Effekt) führen jedoch zu einer zu deutlichen Abweichung der neuen von der alten Version eines Testverfahrens, um eine ausreichende Übereinstimmung garantieren zu können. In dieser Studie soll nun untersucht werden, ob die veränderte Teststruktur, die aktualisierten Normen und die inhaltlichen Veränderungen in den Untertests die Vergleichbarkeit des aktuellen HAWIK-IV mit dem HAWIK-III beeinträchtigen. Verschiedene Studien legen nahe, dass der HAWIK-III aufgrund sogenannter „Normverschiebungen“ überhöhte Werte liefert (Sparrow & Gurland, 1998). Somit kann die kognitive Leistungsfähigkeit eines Kindes fehleingeschätzt (überschätzt) werden. Dies sollte durch die Revision und Neunormierung behoben werden. Den HAWIK-IV als neuen Maßstab für die Beurteilung individueller Testergebnisse anzulegen, setzt jedoch ein möglichst präzises Wissen über die möglichen Differenzen zwischen den Testergebnissen beider Versionen voraus. Als Methode zur Untersuchung dieser Differenzen bietet es sich an, beide Testversionen von denselben Kindern durchführen zu lassen und die Testergebnisse miteinander zu vergleichen. Damit wird versucht, dem Praktiker eine Richtlinie dafür zu geben, was er zu beachten hat, wenn er bisher den HAWIK-III angewandt hat und zukünftig mit dem HAWIK-IV arbeiten will. In den vergangenen Jahrzehnten spielte die dem Testverfahren zugrunde liegende Intelligenztheorie bei der Testentwicklung und -interpretation eine immer größere Rolle (Kamphaus, Winsor, Rowe & Kim, 2005). Aus diesem Grund wird im Folgenden auf die Intelligenztheorien und -modelle eingegangen, die bei der Entwicklung der Wechsler-Skalen von Bedeutung waren. Zwar legte Wechsler seinen Tests explizit keine Theorie zu Grunde, diesen wurden im Nachhinein aber diverse Intelligenztheorien und -modelle zugeordnet. Dabei sind vor allem Strukturmodelle zu nennen, die einen hierarchischen Aufbau aufweisen. Zur Einordnung der Ergebnisse dieser Studie werden bisherige Korrelationsstudien beschrieben, die Hinweise darauf geben können, welche Resultate in der vorliegenden Untersuchung zu erwarten sind. Außerdem wird ausführlich möglichen Störeinflüssen auf den Vergleich zwischen den Testversionen HAWIK-III und -IV nachgegangen. Die Wechsler-Skalen zählen zu den meist untersuchten und angewandten Intelligenztestverfahren der Welt (Zhu & Weiss, 2005). Sie prägen wie kein anderer Intelligenztest seit nunmehr siebzig Jahren die Diagnostik von Kleinkindern, Kindern, Jugendlichen und Erwachsenen. Vor allem dank seiner Skalen gilt David Wechsler als Hauptfigur im Bereich der Testentwicklung in der zweiten Hälfte des zwanzigsten Jahrhunderts (Edwards, 1994). Da es sich bei dem HAWIK- Kapitel 1 Einleitung 6 IV um den Test handelt, dessen Validität nachgewiesen werden soll, wird auf seine Vor- und Nachteile besonders eingegangen. So besteht neben vielen positiven Reaktionen auf das aktuelle Verfahren weiterhin diverse Kritik an den Wechsler-Skalen, die nicht unbeachtet gelassen werden kann. Dem HAWIK-IV liegen die bisher größten Änderungen gegenüber einer Vorgängerversion zu Grunde. Aus diesem Grund wird ein Vergleich der gegenständlichen Testversionen HAWIK-III und -IV im Hinblick darauf vorgenommen, inwieweit diese inhaltlichen und strukturellen Veränderungen zu Einschränkungen der Vergleichbarkeit beider Versionen führen können. Der Schwerpunkt dieser Arbeit liegt im methodischen Bereich, da weniger ein bestimmtes psychologisches Konstrukt oder klinisch-psychologisches Krankheitsbild anhand spezifischer Methoden untersucht wird, als vielmehr die Methode in Form eines Testverfahrens selbst. Im empirischen Teil werden zunächst neben der Vorstellung des Aufbaus und Designs dieser Validierungsstudie die Stichprobe und die angewandten statistischen Verfahren beschrieben. Weiterhin werden die gemäß den theoretischen Erwartungen aufgestellten Hypothesen untersucht und die Ergebnisse detailliert aufgezeigt. Abgeschlossen wird die vorliegende Arbeit mit der Diskussion der Ergebnisse, ihrer Einordnung in den theoretischen Rahmen, der kritischen Bewertung der Studie sowie der Erörterung der Implikationen der erhaltenen Ergebnisse für die Praxis und den daraus resultierenden Anregungen für zukünftige Forschungsarbeiten. Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 7 2 Theoretische Grundlagen: Was ist Intelligenz? Allgemeines Verständnis, Frage 5: „Was solltest du tun, wenn du in einem Geschäft eine Brieftasche oder ein Portemonnaie findest?“ Yannik, 7 Jahre: „Es behalten - ich steh auf Geld!“ Obwohl Intelligenz als das am meisten untersuchte Persönlichkeitsmerkmal in der Psychologie gilt, gibt es bis heute keine allgemeingültige Definition der Intelligenz (Holling, Preckel & Vock, 2004). Schon vor mehr als 20 Jahren hatte eine Umfrage unter den derzeit bekanntesten Intelligenztheoretikern schon ebenso viele Definitionen ergeben, wie Personen befragt worden waren (Sternberg & Detterman, 1986). Nach wie vor besitzt der Begriff Intelligenz keinen allgemein anerkannten, objektiven Inhalt (Funke & Vaterrodt-Plünnecke, 2004). Der Grund dafür dürfte sein, dass Intelligenz nicht direkt zu beobachten ist, sie muss vielmehr aus dem Verhalten eines Menschen, wie beispielsweise beim Lösen von Problemen, abgeleitet werden. Schon durch die verschiedenen Forschungsrichtungen in Bezug auf die Intelligenzleistungen haben sich unterschiedliche Intelligenzdefinitionen entwickelt. Diese spiegeln richtungsbedingt die unterschiedlichen Auffassungen und Perspektiven der jeweiligen Forscher wider. Im Folgenden sollen die am weitesten verbreiteten Definitionen von Intelligenz vorgestellt werden. 2.1 Intelligenzdefinitionen Die Franzosen Binet und Simon (1916), die Anfang des zwanzigsten Jahrhunderts den ersten Intelligenztest entwickelten, verstanden unter Intelligenz die Fähigkeit, gut urteilen und sich gut der Umwelt anpassen zu können sowie die Richtung des Bestrebens einer Person und ihre Fähigkeit zur Selbstkritik. Parallel dazu definierte der deutsche Psychologe und Begründer der differentiellen Psychologie, William Stern (1911), Intelligenz als die Fähigkeit einer Person, ihr Denken bewusst auf neue Situationen einstellen und sich deren Anforderungen erfolgreich anpassen zu können. Die wohl bekannteste Intelligenzdefinition geht nach Sternberg (2000b) auf Boring zurück, der 1923 vorschlug, Intelligenz als das anzusehen, was Intelligenztests messen. Boring sah dies jedoch nicht als endgültige Definition an, sondern verstand seinen Vorschlag eher als eine Art Startpunkt für eine Diskussion, in der diese Definition so lange Bestand habe, bis die wissenschaftliche Diskussion es erlaube, sie zu erweitern. Noch heute unterstützen Holling et al. (2004) Borings Definition, indem sie die Intelligenz als einen theoretischen Begriff beziehung- Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 8 sweise ein Konstrukt ansehen, das nicht direkt beobachtbar sei, und die Intelligenz einer Person somit aus ihrem Verhalten in unterschiedlichen Leistungssituationen (also Intelligenztests) erschlossen werden müsse. Auch nach Jensen ist Intelligenz per Definition das, was Intelligenztests messen (1972). Diese Definition wurde vielfach kritisiert (Sternberg, 2000b). Da bis zum heutigen Tage noch nicht vollständig geklärt ist, was genau Intelligenztests messen, wurde sie als wenig hilfreich eingestuft. Außerdem korrelieren verschiedene Intelligenztests nicht vollständig miteinander und bilden somit keine Einheit, wie es diese Definition impliziert. Weiterhin wurde diese Definition als konservativ kritisiert, da sie es niemals möglich machen werde, Intelligenz in einer Weise zu verstehen, die über die traditionellen Testverfahren hinausgehe. Nach Flynn (2007) könnte nie ein besserer IQ-Test entwickelt werden, wenn Intelligenz das ist, was aktuelle Intelligenztests messen, da der neue IQ-Test nach dieser Definition eine Abweichung von dem wäre, was man bis dahin als Intelligenz zu messen glaubte. Brody (2000) kam zu folgendem Schluss: „We know how to measure something called intelligence, but we do not know what has been measured” (S. 30). Es gehen auch nur wenige Wissenschaftler davon aus, dass IQ-Tests ein reines Maß der Intelligenz widerspiegeln. Intelligenz stellt nach Bjorklund und Schneider (2006) vielmehr ein Phänomen dar, das mit Hilfe eines einzelnen Messverfahrens nicht adäquat erfasst werden kann. 1921 fand ein Symposium zur Frage der Definition von Intelligenz statt, an dem 14 Experten teilnahmen, die folgende Definitionen von Intelligenz einbrachten: die Stärke guter Antworten aus dem Blickwinkel von Wahrheiten oder Fakten (Thorndike, 1921), die Fähigkeit, abstrakt zu denken (Terman, 1921), sensorisches Vermögen, Wiedererkennungsvermögen, Schnelligkeit und Bandbreite an Flexibilität beim Assoziieren, Leichtigkeit und Einbildungskraft, Aufmerksamkeitsspanne, Schnelligkeit oder Wachheit beim Antworten (Freeman, 1921), die Fähigkeit, zu lernen oder schon gelernt zu haben sich selbst mit der Umwelt zu arrangieren (Colvin, 1921), die Fähigkeit, sich adäquat an relativ neue Lebenssituationen anzupassen (Pintner, 1921), die Aufnahmefähigkeit für Wissen und verfügbares Wissen (Henmon, 1921), ein biologischer Mechanismus, der die Auswirkungen der Komplexität von Stimuli zusammenführt und einheitliche Wirkungen im Verhalten bereitstellt (Peterson, 1921), das Vermögen, instinktive Anpassung zu unterdrücken, diese instinktive Anpassung angesichts des vornehmlich angewendeten Prinzips von Versuch und Irrtum neu zu definieren und das Vermögen, die modifizierte instinktive Anpassung in offenem Verhalten zum Vorteil des Individuums als sozialem Wesen zu realisieren (Thurstone, 1921), das Vermögen, sich Vermögen anzueignen (Woodrow, 1921), Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 9 das Vermögen, zu lernen oder von Erfahrungen zu profitieren (Dearborn, 1921) sowie Empfindung, Wahrnehmung, Assoziation, Gedächtnis, Einbildungskraft, Diskriminationsfähigkeit, Urteilsvermögen und logisches Denken (Haggerty, 1921). Als gemeinsame Nenner finden sich nach Sternberg (1997a, 2004) in diesen Definitionen Fähigkeiten höherer Ordnung (wie abstraktes Denken, Problemlösen und Entscheidungsfähigkeit), die Fähigkeit, sich den Anforderungen der Umwelt anzupassen und die Fähigkeit zu lernen. Über 60 Jahre später fand ein weiteres Symposium statt, das die Definitionen von 1921 ablösen sollte. Zwei dutzend Forscher auf dem Gebiet der Intelligenz versuchten, eine Definition zu finden (Sternberg & Detterman, 1986). Wie oben erwähnt, kamen dabei ebenso viele Definitionen wie Teilnehmer des Symposiums heraus. Für Sternberg (1997a) waren bei diesem Treffen die am häufigsten genannten Elemente: Fähigkeiten höherer Ordnung, das, was durch die Bildung geschätzt werden kann und exekutive Prozesse. Es gab einige Gemeinsamkeiten zwischen beiden Symposien (Sternberg, 2000b). Attribute wie Anpassung an die Umwelt, basale mentale Prozesse und Denkprozesse höherer Ordnung wie logisches Denken, Problemlösungsverhalten und Entscheidungsfindung waren in beiden Treffen stark vertreten. Außerdem gab es einige Themen, die in beiden Symposien behandelt wurden. Dazu gehörte die Frage, ob Intelligenz eine oder mehrere Facetten hat, die jedoch in beiden Treffen nicht einvernehmlich beantwortet werden konnte (siehe dazu Kapitel 3.6), ebenso wie die Frage, wie weit die Definition von Intelligenz gefasst werden muss. Während einige Forscher Intelligenz relativ eng im Sinne von biologischen und kognitiven Elementen definierten, sahen andere in ihr auch weiter gefasste Bereiche wie Motivation oder Persönlichkeit. Auch hinsichtlich dieses Problems konnte keine Lösung gefunden werden. Es bestanden aber auch deutliche Unterschiede zwischen den Definitionen von 1921 und 1986. So kam der Metakognition, verstanden als die Fähigkeit sich selbst zu verstehen und zu kontrollieren (Sternberg, 2004), 1986 eine Bedeutung zu, die sie 1921 noch nicht eingenommen hatte. Außerdem wurden beim späteren Treffen die Rolle von Wissen und die Interaktion zwischen Wissen und kognitiven Prozessen stärker in den Vordergrund gestellt. Ebenso lag 1986 der Schwerpunkt bei der Definition von Intelligenz auf der Rolle des Kontextes und im Speziellen der Kultur. Auch Baltes (1983) hatte das Aneignen von Wissen als wichtigen Aspekt eines intelligenten Menschen betrachtet. Für ihn bedeutet Intelligenz nicht nur die Fähigkeit der Informationsverarbeitung und des logischen Denkens, sondern auch eine Fähigkeit des Aneignens, Organisierens und Gebrauchens von Kulturwissen. Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 10 Im Laufe der Jahre kam in vielen Definitionen, wie in der von Wechsler (siehe Kapitel 2.2), dem Thema der Anpassung eine zunehmende Bedeutung zu. Für Sternberg (1997b) passten sich Menschen nicht nur der Umgebung an, sondern formten sie auch und suchten sich von Zeit zu Zeit sogar eine neue Umwelt. Intelligenz reagiere nach ihm nicht nur auf die Umwelt, sondern forme sie auch aktiv. Sternberg beschrieb Intelligenz als diejenigen kognitiven Fähigkeiten, die sowohl für die Anpassung an äußere Gegebenheiten als auch für deren Formung und Auswahl notwendig seien. Da sich die Landschaft des umgebungsbedingten Kontextes im Laufe der Zeit ändere, setze die angemessene Anpassung, Formung und Auswahl einen lebenslangen Lernprozess voraus (Sternberg, 1997a). Ein erfolgreich intelligenter Mensch halte das Gleichgewicht zwischen Anpassung, Formung und Auswahl aufrecht, indem er von allem so viel wie notwendig einbringe (Sternberg, 2004). Für Sternberg stand also das Lernen im Vordergrund, da er davon ausging, ein Mensch muss erst lernen, wie man sich der Umwelt anpasst, bevor er sie formen oder sich am Ende eine neue aussuchen kann. Neisser (1979) vermutete zunächst, Intelligenz könne eher nach Prototypen definiert werden, es gebe also keine eindeutigen Eigenschaften von intelligenten Menschen, sondern charakteristische Eigenschaften, die typisch für intelligente Menschen seien. Ein intelligenter Mensch sei demnach jemand, der bestimmte Eigenschaften aufweist. Es gebe für ihn jedoch keine speziellen Eigenschaften, die als wichtig und ausreichend identifiziert werden könnten, um einen Menschen als intelligent zu bezeichnen. Später einigten sich Neisser und andere Intelligenzforscher (Neisser et al., 1996) darauf, dass Individuen sich in ihren Fähigkeiten voneinander unterschieden, komplexe Ideen zu verstehen, sich effektiv an ihre Umwelt anpassen zu können, von Erfahrungen zu lernen, verschiedene Formen des Schlussfolgerns anzuwenden und Hindernisse zu bewältigen, in dem sie sich Gedanken machten. Bei einer Befragung von Professoren verschiedener akademischer Fachbereiche zu ihrer Theorie von Intelligenz hoben sie jeweils die Fähigkeiten hervor, die für ihr Fach besonders wichtig waren (Sternberg, 1985b). Sternberg zog daraus den Schluss, dass den Intelligenz-Konzepten von Experten verschiedene Metaphern zu Grunde liegen (1985a, siehe Tabelle 2.1). systemisch soziologisch anthropologisch biologisch, genetischerkenntnistheoretisch rechenbetont geografisch Metapher Sternberg Berry Cole Charlesworth Vygotsky Feuerstein Piaget Spearman Thurstone Guilford Cattell Vernon Carroll Jensen Hunt Sternberg Vertreter Wie steuern sich Individuen? Interkultureller Vergleich Kognitive Trainingsstudie Komponentenanalyse Prototypanalyse Vermittelte Lernerfahrung Internale Informationskomponente Klinische Beobachtung Kultureller Kontext Schema Reaktionszeitanalyse Protokollanalyse Computersimulation elementarer Informationsprozess Welche Informationsprozesse unterliegen Intelligenz? Wie entwickelt sich Intelligenz als phylogenetisches und ontogenetisches System? Welche Form nimmt Intelligenz als kulturelle Entdeckung an? Wie sind soziale Prozesse in die Entwicklung verinnerlicht? Faktorenanalyse Typische Methode Faktor Zu Grunde liegende Einheit Welche Form besitzt das Abbild des Geistes (mind-map)? Hauptfrage Tabelle 2.1: Übersicht über die wichtigsten Intelligenzvorstellungen (modifiziert nach Sternberg, 1985a) Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 11 Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 12 Der Sinn des Gebrauchs solcher Metaphern weist für Sternberg (2000b) einen Zusammenhang mit dem Verwendungszweck auf. Welche Metapher man am besten übernehmen sollte, hängt von dem Ziel ab, für das man sie benötigt. Funke und Vaterrodt-Plünecke (2004) unterscheiden drei verschiedene Ansätze in der Betrachtung von Intelligenz: den Ansatz der Informationsverarbeitung sowie den psychometrischen und den entwicklungspsychologischen Ansatz. Der informations-verarbeitende Ansatz entwickelte sich aus der experimentellen Psychologie. Anhänger dieser Richtung befassen sich mit der Erforschung von Prozessen, die für die geistigen Leistungen grundlegende Bedeutung haben, indem beispielsweise Reaktionszeiten und Gedächtnisleistungen gemessen werden oder untersucht wird, in welcher Weise der Mensch Gelerntes verarbeitet. Im psychometrischen Ansatz werden auf der Basis von Tests psychische Merkmale gemessen. Es werden spezielle statistische Verfahren wie Faktorenanalysen angewendet, um die Testergebnisse zu analysieren. So wird dann eine Schlussfolgerung über die Struktur der Intelligenz abgeleitet. Der entwicklungspsychologische Ansatz geht auf Piaget zurück. Dieser Ansatz beschäftigt sich mit der kognitiven Entwicklung im Verlauf des Lebens. Bei einer Studie sowohl unter Experten als auch unter der normalen Bevölkerung der USA zu ihrer Vorstellung von Intelligenz ergaben sich in beiden Gruppen dieselben drei Faktoren: praktisches Problemlösen, verbale Fähigkeiten und soziale Kompetenz (Sternberg, Conway, Ketron & Bernstein, 1981). Die Autoren sahen hier bei den ersten beiden Faktoren eine Nähe zur G fGc-Theorie von Cattell und Horn (siehe Kapitel 3.3) wobei gf für das praktische Problemlösen und gc für die verbalen Fähigkeiten stehen. Flynn (2007) war der Ansicht, Intelligenz zu verstehen sei dasselbe, wie das Atom zu verstehen: man müsse nicht nur verstehen, was die Komponenten zusammenhalte, sondern auch, was sie voneinander trenne. Für ihn war der g-Faktor, die allgemeine Intelligenz, was die Komponenten von Intelligenz zusammenhalte; was sie trenne, der von ihm untersuchte Flynn-Effekt. Die allgemeine Intelligenz zeige sich, indem Menschen, die eine überdurchschnittliche kognitive Fähigkeit haben, zumeist auch in anderen Bereichen besser seien als andere. Sie sei also die Grundlage, auf der die überdurchschnittlichen Leistungen einer Person in vielen Bereichen beruhten. Dies gelte beispielsweise auch für den Bereich der Musik. Wir nennen einen Menschen musikalisch, wenn er mehrere Instrumente spielen kann, er hat also ein „musical g“ (Flynn, 2007, S. 6). Diese g-Ladungen zeigten das Ausmaß, in dem ein Mensch mit hohem IQ in einem Untertest die Leistung einer durchschnittlich begabten Person übertreffe. Je höher also die g-Ladung, desto deutlicher spiegelt der Untertest die höheren Fähigkeiten der begabteren Person wider. Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 13 Flynn (2007) nahm an, um Intelligenz zu verstehen, müsse man zunächst einmal feststellen, welche Eigenschaften unsere Fähigkeit beeinflussen, ein Problem mit Hilfe des kognitiven Inhalts zu lösen. Für ihn sind das die Folgenden: Geistige Scharfsinnigkeit: Die Fähigkeit, sofort Lösungsvorschläge für Probleme anbieten zu können, mit denen sich niemals zuvor auseinandergesetzt wurde, Probleme, die nicht durch mechanischen Einsatz einer gelernten Methode gelöst werden können und die häufig mehrere kreative alternative Lösungen abverlangen, aus denen gewählt werden muss. Denkgewohnheiten: Die Weiterentwicklung der Wissenschaft brachte neue Denkgewohnheiten von enormem Potential mit sich. Sie lösten das Logische und das Hypothetische von dem Konkreten ab und werden heutzutage genutzt, um eine ganze Reihe von neuen Problemen anzugehen. Einstellungen: Sie legen die Basis für das Aneignen von Denkgewohnheiten. Es musste erst gelernt werden, die wissenschaftliche Systematik ernst zu nehmen, bevor der wissenschaftliche Blickwinkel angenommen werden konnte, durch den heute auf die Welt geschaut wird. Wissen und Information: Je mehr davon vorhanden ist, desto mehr Probleme können angegangen werden. Verarbeitungsgeschwindigkeit, mit der man neue Daten aufnehmen kann. Müssen die Probleme innerhalb eines Zeitraums gelöst werden gilt: je schneller desto besser. Gedächtnis, mit dem Wissen und Informationen abgerufen werden können. Für Flynn trifft diese Definition die richtige Balance und ist weit genug, um kulturspezifische Abweichungen und alle gegenwärtigen Intelligenztheorien zuzulassen. Seiner Meinung nach konzipierten die Entwickler der bedeutendsten Intelligenztests ihre Tests, bewusst oder unbewusst, nach dieser Definition. Intelligenz steht demnach als Oberbegriff für die hierarchisch strukturierte Gesamtheit verschiedener allgemeiner geistiger Fähigkeiten, die das Niveau und die Qualität der Denkprozesse einer Person bestimmen und mit deren Hilfe die für das Handeln wesentlichen Eigenschaften einer Problemsituation in ihren Zusammenhängen erkannt und die Situation gemäß dieser Einsicht verändert werden kann (Guthke, 1999). Bei Intelligenz scheint es sich also im Wesentlichen um die Fähigkeiten zu handeln, die benötigt werden, um erworbenes Wissen anzuwenden, neuartige Probleme effektiv zu lösen und sich somit den Anforderungen der Umwelt anzupassen. Demnach gelingt es intelligenten Menschen besser, erfolgreiche Problemlösestrategien zu entwickeln, verschiedene Strategien auf ihre Effektivität hin zu vergleichen und die ausgewählten Strategien im Alltag erfolgreich umzusetzen (Petermann, 2006). Da es auch zukünftig keine einheitliche Definition von Intelligenz geben wird, wird die zum jeweiligen Zeitpunkt anerkannteste Definition von den jeweils aktuellen Intelligenztests geprägt. Schon Spearman (1927), der Entwickler der General-Faktoren-Theorie (siehe Kapitel 3.1), hielt Intelligenz in Wahrheit zu einem Wort mit so vielen Bedeutungen, dass es letzten Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 14 Endes gar keine mehr habe. Viele Forscher sehen den fehlenden Konsens auch nicht als negativ an, da sie der Meinung sind, wissenschaftliche Forschungen beginnen selten mit einer Übereinstimmung, auch wenn sie manchmal zu einer solchen führen (Neisser et al., 1996). Zusammenfassend lässt sich immerhin festhalten, dass auch ohne eine einheitliche Definition im Wesentlichen folgende Fähigkeiten Intelligenz ausmachen: Schlussfolgerungen ziehen, planen, Probleme lösen, abstrakt denken, komplexe Ideen verstehen, schnell verstehen und lernen sowie aus Erfahrung lernen. 2.2 Das Intelligenzkonzept David Wechslers Da die Wechsler-Skalen Gegenstand dieser Untersuchung sind, soll an dieser Stelle ausführlicher auf die Intelligenzdefinition von David Wechsler eingegangen werden, welche die Basis für die Entwicklung seiner Intelligenztestbatterien darstellt. David Wechsler war in erster Linie Kliniker, der seine Tests mehr aus dem praktischen Bedürfnis heraus entwickelte, seine Patienten zu verstehen, als theoretischen Überlegungen nachzugehen (Prifitera, 1994). Er entwickelte seine Vorstellung von Intelligenz während seiner Arbeit als Chefpsychologe in New Yorks Bellevue Psychiatric Hospital. Dabei definierte Wechsler (1944) Intelligenz wie folgt: “Intelligence is the aggregate or global capacity of the individual to act purposefully, to think rationally and to deal effectively with his environment“ (S. 3). Damit versuchte er zu vermeiden, eine Fähigkeit, wie angesehen sie auch immer sei (z. B. abstraktes Schlussfolgern), als entscheidend oder übermäßig wichtig hervorzuheben und implizierte, dass jeder Untertest eines Intelligenztests austauschbar sei (Flanagan & Kaufman, 2004). Diese Definition von Intelligenz, von der er bis zuletzt nicht abwich, stellte die Basis dar, auf der er seine Intelligenztestverfahren entwickelte (Edwards, 1994). Nach Wechsler (1939a) stellt die Intelligenz also ein globales Konstrukt dar, da sie das Verhalten eines Individuums als Ganzes bestimmt. Für ihn konnte allgemeine Intelligenz nicht gleichgesetzt werden mit intellektueller Fähigkeit, wie weit diese auch immer definiert sei, sondern musste als eine Manifestation der Persönlichkeit als Ganzes angesehen werden (Wechsler, 1950). Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 15 Andererseits war er der Ansicht, die Intelligenz könne als spezifisch dargestellt werden, da sie aus Elementen oder Fähigkeiten zusammengesetzt sei, die, obwohl nicht völlig unabhängig voneinander, qualitativ unterscheidbar seien (Wechsler, 1939a). Für Wechsler (1975) ist Intelligenz kein einzelnes und einzigartiges Merkmal, sondern eine vielfältige Einheit, ein Komplex diverser und vielfacher Komponenten. Testleistungen reflektierten seiner Meinung nach nur einen Teil dessen, was Intelligenz beinhaltete. Der Versuch, Intelligenztestergebnisse als Gesamtfähigkeit zu würdigen, das heißt als die Fähigkeit, alle möglichen Situationen wirkungsvoll zu bewältigen, war für Wechsler (1943) zum Scheitern verurteilt. Für ihn ermöglichen selbst die seinerzeit besten Intelligenztests nur eine unvollständige Messung des intelligenten Verhaltens als Fähigkeit des Einzelnen. Dies zeigte sich seiner Meinung nach darin, dass sich Menschen mit gleichen Testergebnissen in Bezug auf ihr Gesamtfunktionieren hinsichtlich praktischer Kriterien stark voneinander unterschieden. Damalige Intelligenztests konnten nur einen Teil und nicht alle Fähigkeiten, die bei intelligentem Verhalten eine Rolle spielen, effektiv messen. So vermied es Wechsler, Intelligenz in rein kognitiven Begriffen zu definieren. Für ihn war der IQ-Wert nicht mit der Intelligenz gleichzusetzen (Wechsler, 1950). Seines Erachtens tragen weitere Eigenschaften zu intelligentem Verhalten bei, wie die Fähigkeit zu planen, Zielbewusstsein, Begeisterungsfähigkeit, Feldabhängigkeit und -unabhängigkeit, Impulsivität, Ängstlichkeit und Ausdauer (Wechsler, 1939a). Diese Eigenschaften könnten die Leistung bei einer Testung, aber auch die Leistungsfähigkeit im täglichen Leben beeinflussen. Wechsler (1975) sah die Intelligenz demnach nicht nur als kognitive Funktionsfähigkeit, sondern auch als die allgemeine Fähigkeit des Individuums, die Welt, in der es lebt, zu verstehen und sich in ihr zurechtzufinden: What we measure with tests is not what tests measure – not information, not spatial perception, not reasoning ability. These are only a means to an end. What intelligence tests measure, what we hope they measure, is something much more important: the capacity of an individual to understand the world about him and his resourcefulness to cope with its challenges. (S. 139) In der Praxis sollten daher bei der Testinterpretation außer der Intelligenzleistung selbst auch einige dieser Eigenschaften berücksichtigt werden. Das Messen von Intelligenz gehe über das Erheben eines Testwertes hinaus und es bedürfe des klinischen Fachwissens und Urteils, um die vielen Faktoren zu berücksichtigen, die intelligentes Verhalten beeinflussen. Umgekehrt könnten Menschen mit unterschiedlichen Leistungsniveaus ähnliche Testergebnisse erzielen. Zu der Aufgabe, die Intelligenz eines Menschen zu beurteilen, gehörte für Wechsler notwendigerweise mehr, als nur Werte eines Intelligenztestes zu erheben (Matarazzo, J. D., 1990). So könnten zwei Menschen mit den gleichen Testwerten völlig unterschiedlich mit denselben Umweltanforderungen zu Recht kommen, und zwar aus Gründen, die unabhängig von kognitiven Fähigkeiten seien. Da Faktoren, die nicht von der Intelligenz abhängig seien, die Testleistung beeinflussten, könne es nach Wechsler außerdem sein, dass Menschen mit unterschiedli- Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 16 chen kognitiven Fähigkeitsniveaus gleiche oder ähnliche Testergebnisse erzielten (Zhu, Weiss, Prifitera & Coalson, 2004). Daher gehörte zum Messen von Intelligenz mehr als nur die Betrachtung der Intelligenztestergebnisse. Dieser Aspekt wurde von Wechsler (u. a. 1991, 2003b) stets hervorgehoben. Schon früh erkannte Wechsler (1940, 1944), dass sich andere nicht-kognitive und nichtintellektuelle Faktoren deutlich in den seinerzeit zur Verfügung stehenden Intelligenztests widerspiegelten. Doch den Einfluss solcher Faktoren zu erkennen, war für ihn nur der erste Schritt. Erforderlich war eine Methode sie zuverlässig zu bewerten. Während seiner Zeit bei der Armee stellte er fest, dass Intelligenz nicht von der übrigen Persönlichkeit getrennt werden kann. Für ihn standen Faktoren wie motorische Fertigkeiten, schulische Leistungen und Exekutivfunktionen eng mit Intelligenztestleistungen in Beziehung, diese sollten jedoch idealerweise mit Testverfahren erfasst werden, die speziell zur Beurteilung dieser Fragestellungen entwickelt wurden (Zhu et al., 2004). Oftmals wird intelligentes Verhalten als die Kapazität des Menschen angesehen, zu verstehen und daraus Konsequenzen abzuleiten. So interpretierte Spearman die allgemeine Intelligenz (den g-Faktor) als die Fähigkeit, zu urteilen, zu verstehen und handeln zu können. Wechsler (1975), selbst ein Schüler Spearmans, sah dies jedoch als unvollständig an. Um ein Verhalten als intelligent bezeichnen zu können, muss es für ihn nicht nur rational und zweckmäßig sein, nicht nur begründet, sondern auch wertvoll und angesehen sein. Kein Intelligenztest bietet die Möglichkeit, alle kognitiven Funktionsbereiche gleichzeitig auf praktisch umsetzbare und bedeutsame Weise zu erfassen (Carroll, 1997b). Wechsler entwickelte daher ein Verfahren, das diejenigen Bereiche abdecken sollte, die sich für ihn als wichtige kognitive Funktionen erwiesen hatten. Für ihn kann Intelligenz am besten mit einer großen Anzahl von Tests abgebildet werden (1974): „Intelligence can manifest itself in many forms, and an intelligence scale, to be effective as well as fair, must utilize as many different languages (tests) as possible“ (S. 5). Für seine Tests wählte er somit eine seiner Ansicht nach ausreichende Anzahl von Untertests aus, um mit möglichst wenig Zeitaufwand klinisch relevante Informationen über das kognitive Niveau der Person zu erhalten (Zhu et al., 2004). 2.3 Zusammenfassung Das Konstrukt Intelligenz gilt sowohl als meist diskutiertes als auch als meist umstrittenes Merkmal im Bereich der Persönlichkeitspsychologie. Seit mehr als einem Jahrhundert versuchen diverse Intelligenzforscher erfolglos, eine allgemein gültige Intelligenzdefinition zu entwickeln. Dabei spielen sowohl die Fähigkeit zu lernen, die Anpassung an die Umwelt, logisches Denken, Problemlösung und exekutive Prozesse eine große Rolle. Die jeweils anerkannteste Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 17 Intelligenzdefinition hat Einfluss auf die Entwicklung der Intelligenztests dieser Zeit. Zu den Koryphäen auf dem Bereich der Intelligenzforschung zählen Sternberg und Flynn ebenso wie David Wechsler, der in diesem Kapitel gesondert betrachtet wurde. Dabei wird auf seine Ansicht von Intelligenz eingegangen, die er als globale oder spezifische Fähigkeit definiert, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinander zu setzen. Zur Erfassung aller Aspekte menschlicher Intelligenz bedarf es für Wechsler möglichst vieler verschiedener Untertests. Kapitel 3 Intelligenztheorien und -modelle 18 3 Intelligenztheorien und -modelle Gemeinsamkeiten finden, Frage 9: „Was haben Ellenbogen und Knie gemeinsam?“ Friederike, 11 Jahre: „Das ist da, wo man am meisten drauf fällt.“ Jedem Intelligenzmessinstrument liegt eine Theorie zu Grunde. Diese Theorie kann sowohl offensichtlich als auch versteckt, sowohl formell und explizit als auch informell und implizit sein (Sternberg, 2004). Auch die Wechsler-Skalen wurden mit unterschiedlichen Intelligenzmodellen in Verbindung gebracht. Im Folgenden werden die hierarchischen Modelle vorgestellt, die einen expliziten oder impliziten Zusammenhang mit den Intelligenztests von Wechsler aufweisen. Es wird jedoch auch auf das nicht-hierarchische Modell von Thurstone eingegangen, das ebenfalls einen bedeutsamen Anteil an der Entwicklung der Wechsler-Skalen hat. Für ausführlichere Betrachtungen sämtlicher Intelligenzmodelle wird auf weiterführende Literatur verwiesen (u. a. Carroll, 1993; Flanagan, Genshaft & Harrison, 1997, 2005; Holling et al., 2004). Auf die Darstellung weiterer Modelle, die nicht mit psychometrischen Testverfahren messbar gemacht werden können wie beispielsweise der Theorie der emotionalen Intelligenz, die von Mayer und Salovey (1993) eingeführt und von Goleman (1995) populär gemacht wurde, wird an dieser Stelle ebenfalls mit dem Verweis auf Überblicksliteratur verzichtet (Goldstein & Beers, 2004; Sternberg, 2004; Wilhelm & Engle, 2005). Seit der ersten Hälfte des vergangenen Jahrhunderts werden Faktorenanalysen zur Erforschung der Struktur menschlicher Verhaltensweisen eingesetzt und kommen vor allem in der Intelligenzforschung zum Einsatz, in der sie ihren Ursprung haben (Anastasi & Urbina, 1997; Spearman, 1927). Mit der Entwicklung hierarchischer Intelligenztheorien geht die Entwicklung der Wechsler-Skalen einher, denen aufgrund ihrer Struktur im Nachhinein stets das zu der jeweiligen Zeit aktuelle hierarchische Modell zugeordnet wurde. Im Folgenden werden die hierarchischen Intelligenztheorien vorgestellt, die mit den Wechsler-Tests in Verbindung gebracht wurden. 3.1 Die General-Faktoren-Theorie von Spearman Der britische Forscher Spearman (1904) formulierte mit seiner Zwei-Generalfaktoren-Theorie die erste explizite Modellvorstellung von Intelligenz. Sie gilt bis heute als die wohl einflussreichste Theorie in der Geschichte der Intelligenzforschung (Sternberg, 2004). Für Spearman muss das Verständnis für die Unterschiede menschlicher Fähigkeiten auf validen Variablen basieren. Das Verständnis für kognitive Prinzipien sei Voraussetzung für die Untersuchung von Intelligenzunterschieden (Deary & Smith, 2004). Er stellte mit Hilfe der von ihm entwickelten Kapitel 3 Intelligenztheorien und -modelle 19 Faktorenanalyse fest, dass verschiedene kognitive Leistungen, die sich bei unterschiedlichen Erhebungsverfahren zeigen, eng miteinander korrelieren, sie also auf eine gemeinsame Quelle zurückgeführt werden können (Spearman, 1927). Darauf begründete er die Annahme einer allgemeinen Intelligenz, der ein allgemeiner, von ihm als general factor (kurz: g) bezeichneter Faktor, zugrunde liege. Die nicht durch g aufgeklärte Restvarianz bezeichnete Spearman als spezifische Faktoren (kurz: s). Somit geht die Testleistung nach Spearman immer auf zwei Faktoren zurück: die allgemeine Intelligenz (g) und die spezifische Fähigkeit (s), die für die Lösung der einzelnen Aufgaben erforderlich ist (siehe Abbildung 3.1). Abbildung 3.1: Das Zwei-Faktoren-Modell (modifiziert nach Spearman, 1927) Anmerkung: Quadrate repräsentieren manifeste Messinstrumente (Tests). Später modifizierte Spearman die Zwei-Faktoren-Theorie, da er eine Gruppe von Faktoren vermutete, die zwischen dem universalen g-Faktor und den strikt spezifischen s-Faktoren liege (Anastasi & Urbina, 1997). Diese als Gruppenfaktoren oder spezielle Gruppenfaktoren bezeichneten Fähigkeiten beinhalteten beispielsweise rechnerische, mechanische und sprachliche Fähigkeiten. In seinem viel zitierten Buch The abilities of man: Their nature and measurement vereinte Spearman die empirischen Ergebnisse seiner bisherigen Studien, legte die Konditionen dar, unter denen jede Fähigkeit in die zwei oben genannten Faktoren g und s unterteilt werden kann, und beschrieb Art, Herkunft, Entwicklung und Beziehungen der allgemeinen und der spezifischen Faktoren (Spearman, 1927). Nach Horn und McArdle (2007) hatte dieses Buch, mehr noch als seine bisherigen Studien, großen Einfluss auf die Untersuchung menschlicher Intelligenz. Betrachtet man die Ideen Spearmans aus dem heutigen Blickwinkel, scheinen seine Vorstellungen von Intelligenz in die heutigen Intelligenzstrukturmodelle eingebettet zu sein. Seine Vorstellung vom g-Faktor wird oftmals mit der heutigen Vorstellung von gf (siehe Kapitel 3.3.1) in Verbindung gebracht. Für Horn und McArdle (2007) entspricht Spearmans Vorstellung davon, was nicht durch g aufgeklärt wird, dem gc-Faktor (siehe Kapitel 3.3.2) moderner Theorien. Kapitel 3 Intelligenztheorien und -modelle 20 3.1.1 Bewertung Auch wenn der große Einfluss der Zwei-Faktoren-Theorie auf aktuelle Modelle unbestritten ist, bietet sie auch Anlass zur Kritik (Ausführliches dazu siehe Kapitel 3.6). So vermuten einige Forscher wie Gardner oder Sternberg, der g-Faktor in den Intelligenztests sei nur deshalb zu finden, weil diese Tests einzig akademische und relativ künstliche Aufgaben beinhalteten (Sternberg, 2004). Für sie werde der g-Faktor geschwächt oder verschwinde sogar gänzlich, wenn Intelligenztests eine größere Anzahl von Aufgabenfeldern abdecken würden. Betrachte man die Studien, die einen g-Faktor nachzuweisen scheinen, in Relation zu der Gesamtanzahl der Studien zur Untersuchung der Intelligenzstruktur, unterstützten sie die Zwei-Faktoren-Theorie nicht zwangsläufig (Horn & McArdle, 2007; Sternberg, 2000a). Die meisten dieser Studien verwendeten nur eine eingeschränkte Auswahl an Aufgabentypen, Testsituationen und sogar Testteilnehmern (Sternberg, 2004). 3.1.2 Verbindung zu den Wechsler-Skalen Ein Intelligenztest, der auf Spearmans Modell begründet wird, muss das übergeordnete Ziel haben, die allgemeine Intelligenz eines Individuums zu erfassen. Aufgrund der Möglichkeit zur Ermittlung eines Gesamt-IQ können die Wechsler-Skalen als Beispiel für Testverfahren angeführt werden, die einen g-Faktor im Sinne Spearmans abbilden. Auch Wechsler bestätigte den Einfluss seines Lehrers Spearman auf die Entwicklung seiner Skalen. So wurden die WISCVersionen, zumindest bis zur aktuellen WISC-IV, im Allgemeinen dessen Theorie zugeordnet (siehe z. B. Daseking et al., 2006). 3.2 Das Primärfaktorenmodell von Thurstone Den ersten systematischen Versuch, den Fokus auf Varianzquellen in einer Korrelationsmatrix kognitiver Fähigkeiten zu legen, die unabhängig von g sind, machte Louis L. Thurstone (1938). Er entwickelte die Methode der multiplen Faktorenanalyse, um unabhängige Faktoren zu bestimmen, die in einer Korrelationsmatrix präsentiert sind. Die Auswahl der Faktoren wurde durch das Kriterium der einfachen Struktur geleitet, das eine Faktorenstruktur anordnet, bei der Tests auf einem einzigen Faktor sehr hoch laden und auf den anderen Faktoren eine Ladung gegen Null aufweisen. Daraus entstanden Zerlegungen der Varianzen eines Tests in verschiedene unabhängige Faktoren. Auf diese Weise kann die Testleistung mit Hilfe eines Profils von Stärken und Schwächen für jede der Fähigkeiten beschrieben werden. Für Thurstones Studien wurden 56 verschiedene Tests kognitiver Fähigkeiten 240 Personen vorgegeben. Die erhaltenen Testwerte wurden mit Hilfe der von Spearman entwickelten Faktorenanalyse untersucht. Es ergaben sich 13 Faktoren, denen Thurstone nach Untersuchung der Faktorladungen sieben Faktoren mit psychologisch relevanten Interpretationen zuordnete. Diese nebeneinan- Kapitel 3 Intelligenztheorien und -modelle 21 der stehenden Primärfaktoren, die seine Theorie (Theory of primary mental abilities, Thurstone, 1938) begründeten, sind verbales Verständnis oder verbale Fähigkeiten, Wortflüssigkeit, schlussfolgerndes Denken, Erkennen von Regelhaftigkeiten, räumliches Vorstellungsvermögen, Merkfähigkeit, Kurzzeitgedächtnis, Rechenfähigkeit und Wahrnehmungsgeschwindigkeit. Thurstone und seine Frau (1941) führten drei Jahre nach dieser ersten Studie eine weitere Untersuchung an 710 Kindern durch, in der sie nach zunächst zehn Faktoren schließlich wiederum die selben sieben Faktoren der ersten Untersuchung herausfilterten. Es gab jedoch einen wichtigen Unterschied zwischen beiden Studien: In der zweiten Studie zeigten sich signifikante Interkorrelationen zwischen den Primärfaktoren, beispielsweise zwischen dem Faktor Rechenfähigkeit und den beiden verbalen Faktoren verbales Verständnis und Wortflüssigkeit. Daraufhin untersuchten sie per Faktorenanalyse die Korrelationen zwischen den Primärfaktoren und stellten fest, dass die Korrelationen als einzelner allgemeiner Faktor ausgewiesen werden können, den sie den allgemeinen Faktor zweiter Ordnung nannten. Jedoch sei dieser Faktor nur für Kinder und nicht zwangsläufig auch für Erwachsene charakteristisch (Carroll, 1994). Die Theorie der Primärfaktoren stellte zunächst einen Widerspruch zu Spearmans g-FaktorModell dar. Dennoch funktionieren nach Brody (2000) Thurstones Methoden nur, wenn kein gFaktor in der Korrelationsmatrix zu finden ist. Sind die meisten Kovarianzen einer FähigkeitenMatrix dem g-Faktor zuzuschreiben, wäre es unmöglich, einfache Strukturen für die voneinander unabhängigen Faktoren zu erhalten. Spearmans Methode, die g-Ladungen verschiedener Tests zu bestimmen, wäre nicht erfolgreich, wenn große Teile der Kovarianz einer Matrix Gruppenfaktoren zuzuordnen wären, die unabhängig von g sind. 3.2.1 Bewertung Thurstone galt als einer der einflussreichsten Kritiker Spearmans. Er gab an, den allgemeinen Faktor in seinen Daten nicht eindeutig gefunden zu haben, ohne vorher ausgeschlossen zu haben, ihn zu finden. Für Carroll (1994) waren Spearmans Methoden darauf ausgelegt, keinen g-Faktor zu finden. Dies sei zum einen einer stark selektiven Stichprobe und zum anderen seinen eingeschränkten faktoriellen Methoden zu verdanken, die keine obliquen, sondern nur orthogonale Rotationen beinhalteten, die nicht-korrelierende Faktoren voraussetzen. Sowohl Kapitel 3 Intelligenztheorien und -modelle 22 Spearman (1939) als auch Eysenck (1939) analysierten Thurstones Daten mit unterschiedlichen Methoden und entdeckten einen g-Faktor und andere Faktoren, die annähernd mit den Primärfaktoren von Thurstone übereinstimmten. In den Jahrzehnten nach ihrer Entwicklung gewann die Primärfaktoren-Theorie an Einfluss, vor allem aufgrund der zahlreichen Tests, die Thurstone und seine Frau auf Basis der Theorie entwickelten. Obwohl auch in diesen Testbatterien ein allgemeiner Intelligenzfaktor als Summe aller erzielten Werte geschätzt werden konnte, lag ihr Schwerpunkt auf der Untersuchung folgender grundlegender Fähigkeiten (Carroll, 1994): Verbale Fähigkeiten, Wahrnehmungsgeschwindigkeit, Rechenfähigkeit, räumliches Vorstellungsvermögen und schlussfolgerndes Denken. Bis zu seinem Tod im Jahre 1955 untersuchte Thurstone fortwährend die grundlegenden Fähigkeiten des Menschen und stieß dabei stetig auf zusätzliche Faktoren bzw. Variationen seiner sieben Faktoren. 3.2.2 Verbindung zu den Wechsler-Skalen Obwohl das Primärfaktorenmodell heutzutage keine häufige Verwendung findet, begründet es die Basis für viele aktuelle Modelle wie der Theorie der multiplen Intelligenzen von Gardner, dem Three-Stratum-Modell von Carroll sowie der Gf-Gc-Theorie von Cattell und Horn und somit auch dem CHC-Modell, das als theoretischer Hintergrund in die Entwicklung der WISC-IV einfloss. Damit hatte es großen Einfluss auf Forschung und Theorie hinsichtlich kognitiver Fähigkeiten (Horn & McArdle, 2007). Als weiterer wichtiger Beitrag Thurstones gilt die Etablierung der Faktorenanalyse zur Untersuchung intellektueller Fähigkeiten (Sternberg, 2004). 3.3 Die Gf-Gc-Theorie von Cattell und Horn Die Gf-Gc-Theorie nach Cattell (1971, 1987), einem Schüler Spearmans, gilt neben den Theorien von Spearman und Thurstone als einflussreichste Intelligenztheorie (Sternberg, 2004). Die Weiterentwicklung der durch Cattell in den 1940er Jahren ins Leben gerufenen Theorie erfolgte in den 1960er Jahren durch Cattell und Horn (1966, 1967). Sie gehen anders als Spearman nicht von einem übergeordneten Intelligenzfaktor (der allgemeinen Intelligenz oder dem g-Faktor) aus, sondern sehen die Intelligenz aufgeteilt in zwei voneinander unabhängige Faktoren: die fluide und die kristalline Intelligenz. Kapitel 3 Intelligenztheorien und -modelle 23 3.3.1 Fluide Intelligenz (gf) Unter fluider Intelligenz (gf) wird die Fähigkeit verstanden, sich neuen Situationen anzupassen und neuartige Probleme zu lösen, ohne dabei auf erlerntes Wissen zurückgreifen zu müssen (Daseking et al., 2006). Darunter werden Fähigkeiten wie schlussfolgerndes, problemlösendes Denken, räumliches Vorstellungsvermögen, Informationsverarbeitungsgeschwindigkeit, die Verarbeitung komplexer visueller Reize, abstraktes Denken oder mentale Rotation zusammengefasst. Jensen (2002) beschreibt gf als die Fähigkeit, auf die zurückgegriffen werde, „wenn man nicht weiß, was zu tun ist“ (S. 47, Übers. v. Verf.). Sie fließe in neues Lernen und das Lösen neuer Probleme ein, für die bisher keine spezifischen Algorithmen, Strategien oder Fertigkeiten vorhanden seien. Fluide Intelligenz wurde dabei als weitgehend von Geburt an vorhanden und von gesellschaftlichen und kulturellen Einflüssen unabhängig angesehen (Holling et al., 2004). Dieser Annahme widerspricht jedoch Sternberg (2004). Studien hätten zum einen gezeigt, dass Tests, die fluide Fähigkeiten messen, häufiger größere Unterschiede zwischen kulturellen Gruppen zeigten als Tests zur Messung der kristallinen Intelligenz; zum anderen seien diese Tests auch anfälliger für den Flynn-Effekt (siehe Kapitel 5.2.2). Wenn aber die fluide Intelligenz im Laufe der Zeit mehr ansteige als die kristalline Intelligenz, kann gf laut Sternberg nicht als von kulturellen und schulischen Einflüssen unabhängig gesehen werden. Auch Studien von Ceci (1991; Ceci & Williams, 1997) wiesen einen großen Einfluss der Schule auf jegliche Art von Testwerten auf. Die fluide Intelligenz wird mit Hilfe von Tests wie Zahlenfolgen, Analogien und Matrizen erhoben (Sternberg, 2004). Außerdem geben sprachfreie Testverfahren wie der SON 2½ - 7 (Tellegen, Laros & Petermann, 2007) und der BIVA (Schaarschmidt, Ricken, Kieschke & Preuß, 2004) oder kulturfreie Testverfahren wie der CFT von Cattell (neueste deutsche Revision CFT 20-R, Weiß, 2006) und die Raven-Matrizen CPM, SPM und APM (Raven, Raven & Court, 1998) an, die fluide Intelligenz zu erfassen. 3.3.2 Kristalline Intelligenz (gc) Die kristalline, allgemeine Intelligenz (gc) repräsentiert kognitive Fertigkeiten, die auf Lernerfahrungen und Faktenwissen beruhen und somit bei der Verarbeitung vertrauter Informationen und der Anwendung von Wissen relevant sind. Sie ist von hoher praktischer Bedeutung für den Erfolg eines Menschen in Schule, Ausbildung und Beruf (Jensen, 2002). In einer homogenen Population unter Berücksichtigung des Bildungs- und kulturellen Hintergrundes korrelieren gf und gc durchweg hoch miteinander (Jensen, 2002). Nach Cattell (1987) stellt die fluide Intelligenz die Voraussetzung für die kristalline Intelligenz dar. Eine empirische Kapitel 3 Intelligenztheorien und -modelle 24 Absicherung dafür konnte allerdings nicht gefunden werden. So widerspricht Sternberg (2004) dieser Annahme, da diese nur Gültigkeit hätte, wenn gf gänzlich unabhängig von äußeren Einflüssen sei, was seinen oben genannten Studien widerspreche. Testaufgaben, die gc abbilden, sind Wortschatz-Tests sowie Tests zum Leseverständnis und Allgemeinen Wissen (Sternberg, 2004). Sie wird mit sprachlichen Tests wie dem MWT (Lehrl, 2005) oder den Zusatzmodulen Zahlenfolgen und Wortschatztest des CFT 20 (Weiß, 2006) erfasst. 3.3.3 Weiterentwicklung der Gf-Gc-Theorie Horn erweiterte Cattells ursprüngliche Gf-Gc-Theorie um die Faktoren visuelle Wahrnehmung (gv), Kurzzeitgedächtnis (gsm), Langzeitabruf (glr), Bearbeitungsgeschwindigkeit (gs), auditive Verarbeitungsprozesse (ga), mengenbezogene Fähigkeiten (gq) sowie Schnelligkeit bei der Reaktion und Entscheidungsfindung (gt) (Horn, 1985, 1994). Als relativ neu entdeckte Fähigkeit identifizierte Horn schließlich den Faktor Lese- und Rechtschreibfähigkeiten (grw). Unterhalb der obengenannten Faktoren liegen auf der niedrigsten Hierarchieebene circa 40 Faktoren erster Ordnung (siehe Abbildung 3.2). Diese Faktoren entsprechen häufig einzelnen Untertests (Horn, 1994). g1 g2 F1 T1 T2 g3 F2 T3 T4 T5 …etc. F3 T6 T7 T8 T9 T10 F4 …etc. T11 T12 …etc. Abbildung 3.2: Cattell-Horn Gf-Gc-Modell (modifiziert nach McGrew, 2005) Anmerkungen: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Messinstrumente (Tests). F steht für die spezifischen kognitiven Fähigkeiten. Zweiseitige Pfeile geben latente Faktorkorrelationen an. So wurde aus der Gf-Gc-Theorie, bei der Cattell in den Anfängen von zwei Faktoren und in der Weiterentwicklung mit Horn in den 1960er Jahren von fünf Faktoren ausging, am Ende ein Modell, das acht oder mehr Faktoren beinhaltet (Bickley, Keith & Wolfle, 1995). Horn und Noll (1994) bezeichnen sie aus diesem Grund nicht mehr als Theorie der zwei, sondern der vielen Intelligenzen. Dennoch bleiben fluide und kristalline Intelligenz weiterhin die Kernfaktoren, die die kognitiven Fähigkeiten auf Grundlage genetischer Faktoren auf der einen und bildungskultureller Möglichkeiten auf der anderen Seite repräsentieren (Horn, 1991). Kapitel 3 Intelligenztheorien und -modelle 25 Die erstmalige Einbettung einer Intelligenztheorie in die Entwicklung von Intelligenztests begann 1985 mit einem Treffen von Horn, Carroll und Woodcock (McGrew, 2005). Auf der Grundlage von Horns Erkenntnissen aus der Gf-Gc-Theorie und Carrolls Faktorenanalyse der Woodcock-Johnson Psycho-Educational Battery (WJ) entschied Woodcock, das Gf-Gc-Modell als Basis für die Revision des Woodcock-Johnson (WJ-R) zu verwenden (Woodcock, 1990). Die WJ-R wurde so die erste Testbatterie, die einige Faktoren der Gf-Gc-Theorie abbildet. Horn beschrieb seine Erweiterung der Gf-Gc-Theorie erstmals 1991 im Technischen Manual des WJR. Es war die erste aktuelle und verständliche Beschreibung der Theorie in einer für den Diagnostiker zugänglichen Publikation. Damit begann die Umsetzung psychometrischer Intelligenztheorien in die Praxis (McGrew, 2005). 3.3.4 Bewertung In den 1980er und frühen 1990er Jahren hielten viele Forscher das Gf-Gc-Modell für die am besten empirisch-fundierte psychometrische Intelligenztheorie (McGrew, 2005). So stellte Carroll (1993) nach seiner umfassenden Faktorenanalyse (siehe 3.4) fest: „[The model] appears to offer the most well-founded and reasonable approach to an acceptable theory of the structure of cognitive abilities“ (S. 62). Auch Cole und Randall (2003) kamen bei einer Untersuchung der Modelle von Spearman, Carroll, Horn und Cattell an Daten aus der KAIT und dem WJ-R zu dem Schluss, das Modell von Horn und Cattell weise nicht nur die signifikant beste Passung zur Struktur der Testverfahren auf, sondern sei als einziges der drei Modelle geeignet, die Struktur der Tests ausreichend zu erklären. 3.3.5 Verbindung zu den Wechsler-Skalen Bis zur Mitte der 1980er Jahre spielte die Theorie kaum eine Rolle bei der Entwicklung von Intelligenztests (Alfonso, Flanagan & Radwan, 2005). Bis dato wurden Intelligenztestbatterien erst im Nachhinein den jeweils aktuellen Theorien zugeordnet. So entdeckte Matarazzo (1972, zitiert nach Holling et al., 2004) Überlappungen des Verbalteils2 der Wechsler-Skalen mit der kristallinen und des Handlungsteils mit der fluiden Intelligenz. Manche sprechen bei Wechslers Skalen sogar von der Theorie der verbalen und handlungsbezogenen Komponenten der Intelligenz (Carroll, 2005, S. 71). Damit wurde die WISC-III als erste Wechsler-Version der Gf-Gc Theorie zugeordnet (z. B. Hale, Fiorello, Kayanagh, Hoeppner & Gaither, 2001). Woodcock (1994) verbindet den Index Sprachverständnis des HAWIK-III mit dem Gf-Gc-Faktor kristalline Intelligenz (gc) und den Index Wahrnehmungsorganisation mit dem Gf-Gc-Faktor Verarbeitung visuel- 2 Auch wenn es sich um die amerikanischen Original-Gesamtwerte, -Indizes und -Untertests handelt, werden in Folgenden zum besseren Verständnis die deutschen Bezeichnungen verwendet. Kapitel 3 Intelligenztheorien und -modelle 26 ler Informationen (gv). Außerdem versteht er den Zahlen-Symbol-Test als Untertest zur Messung des Faktors Informationsverarbeitungsgeschwindigkeit (gs) und verbindet das Rechnerische Denken mit dem Faktor mengenbezogene Fähigkeiten (gq), den Wortschatz-Test mit dem Faktor Verständnis-Wissen (gc) und das Zahlennachsprechen mit dem Faktor Kurzzeitgedächtnis (gsm). Insgesamt bildet der HAWIK-III jedoch ebenso wie andere Intelligenztestbatterien nur wenige der über 40 Fähigkeiten erster Ordnung ab (Horn, 1994). Mit der so genannten „Gf Gc crossbattery assessment“ untersuchten McGrew und Flanagan die Wechsler-Tests auf ihre theoretische Passung an die Gf-Gc-Theorie und schrieben ihnen dennoch eine valide theoretische Grundlage zu (Flanagan, McGrew & Ortiz, 2000; McGrew & Flanagan, 1998). 3.4 Die Three-Stratum-Theorie von Carroll Den umfassendsten Überblick im Bezug auf die Struktur kognitiver Fähigkeiten bietet die faktorenanalytische Studie von Carroll (1993). Er analysierte 461 Datensätze aus Originalstudien und bot damit einen Überblick über siebzig Jahre Forschung. Seine Studie wurde von der Frage beeinflusst, wie man die Theorien von Spearman (es gibt einen g-Faktor) und Cattell und Horn (es gibt keinen g-Faktor, sondern – mit der fluiden und kristallinen Intelligenz – zwei gleichwertige Faktoren) kombinieren kann. Dabei kam er zu dem Schluss, dass die Intelligenzstruktur am besten in Form eines Three-Stratum-Modells beschrieben werden könne (Carroll, 1992, siehe Abbildung 3.3), einem Modell mit drei Hierarchieebenen, die sich in Breite und Allgemeingültigkeit unterscheiden. Damit schließt er sich einer Reihe amerikanischer Wissenschaftler an, die bereits Mitte des vergangenen Jahrhunderts von einer ähnlichen Struktur der Intelligenz ausgingen (Burt, 1949; Humphreys, 1962; Vernon, 1969, mehr dazu siehe Anastasi & Urbina, 1997). Die allgemeine Intelligenz wird, vergleichbar mit Spearmans g-Faktor, durch das Stratum III repräsentiert. Sie wird durch komplexe kognitive Prozesse höherer Ordnung bestimmt, die eine hohe Generalität für den gesamten Bereich kognitiver Fähigkeiten aufweisen (Holling et al., 2004). Dem darunterliegenden Stratum II werden acht Intelligenzfähigkeiten mittlerer Generalität (z. B. fluide und kristalline Intelligenz oder visuelle und auditive Wahrnehmung) zugeordnet, die stark signifikante Ladungen auf dem g-Faktor aufweisen (Carroll, 1993). Diese acht Fähigkeiten des Stratum II ähneln den Faktoren aus Horns expandiertem Gf-Gc-Modell (Horn, 1985, siehe Kapitel 3.3). Carroll (1994) wiederum vergleicht sie mit den Fähigkeiten, die Thurstone in seiner Theorie mehrerer gemeinsamer Fähigkeiten (siehe Kapitel 3.2) als grundlegende Fähigkeiten betrachtet. Sie repräsentierten für Carroll (1993) „basic constitutional and long-standing characteristics of individuals that can govern or influence a great variety of behaviors in a given domain“ (S. 634). Die Fähigkeiten des Stratum II beeinflussen wiederum 69 spezifische Fähigkeiten (Stratum I), wobei eine Fähigkeit durchaus von mehreren Stratum-II- Kapitel 3 Intelligenztheorien und -modelle 27 Faktoren beeinflusst sein könne. Die Zuordnung erfolgt danach, welche Fähigkeit der mittleren Ebene die spezifische Fähigkeit am stärksten bestimmt (Holling et al., 2004). g gf gv gs Stratum III glr gc ga gs gq 69 spezifische Fähigkeiten T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 Stratum II Stratum I T11 T12 …etc. Abbildung 3.3: Three-Stratum-Theorie der kognitiven Fähigkeiten (modifiziert nach Carroll, 1992; 1993) Anmerkung: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Messinstrumente (Tests). Bickley, Keith und Wolfle (1995) weisen darauf hin, dass das Stratum, zu dem ein Faktor gehört, nur eine Reflektion seines Generalisierungsgrades und nicht eine Indikation für die Dominanz über einen niedrigeren Stratum-Faktor ist. Auf der Basis konfirmatorischer Faktorenanalysen unterstützten sie die Three-Stratum-Theorie und kamen zusätzlich zu dem Schluss, dass zwischen Stratum II und III möglicherweise weitere Faktoren liegen. Auch Carroll (1993) vermutete weitere Faktoren zwischen den drei Ebenen. 3.4.1 Bewertung Viele Forscher sprechen bei Carrolls Arbeit von einem Durchbruch im Bereich der Intelligenzforschung und fordern, seine Studie als Grundlage bei der Entwicklung von Intelligenztests zu berücksichtigen (McGrew, 1997, 2005). McGrew (1997) bewertet Carrolls Arbeit als wichtige Brücke zwischen theoretischer und empirischer Forschung bei der Entdeckung von Intelligenzfaktoren sowie der Entwicklung und Interpretation psychoedukativer Testbatterien. Carroll präsentiere erstmalig eine empirisch basierte Klassifikation der Elemente kognitiver Fähigkeiten in einem einzelnen, verständlichen, organisierten und systematischen Rahmen, der es leichter möglich mache, unterschiedliche Tests innerhalb einer und zwischen mehreren Testbatterien zu vergleichen (McGrew, 2005). Kapitel 3 Intelligenztheorien und -modelle 28 Carrolls Ansichten wurden jedoch auch vielfach kritisiert (u. a. Kranzler & Jensen, 1991, 1993; Sternberg, 2004). Für Sternberg (2004) wird Carrolls Arbeit angesichts ihrer Komplexität weniger Einfluss auf die Messung von Intelligenz haben als einfachere Theorien wie die Gf-GcTheorie. Kognitive Theoretiker wie Sternberg oder Systemtheoretiker wie Gardner bestreiten, dass die konventionellen psychometrischen Testverfahren, die Carroll für seine Metaanalyse herangezogen hat, sämtliche Intelligenzbereiche abdecken, die von einer Intelligenztheorie abzudecken sind (Sternberg, 2004). So beinhalte seine Analyse kaum Studien, die sein Modell im Hinblick auf psychoneurologische Grundlagen kognitiver Fähigkeiten (Carroll, 1993, S. 660), den Einfluss von Schule (Carroll, 1993, S. 668) und Trainings- und Interventionseffekten (Carroll, 1993, S. 669) unterstützten. Carroll selbst (1993) gibt zu, bei der Auswahl seiner Studien wenig Aufmerksamkeit auf die Bedeutung, Validität und Nützlichkeit der von ihm identifizierten Fähigkeitsfaktoren gelegt zu haben. Für ihn waren Validitätsstudien eine überdimensionale und unsichere Literaturansammlung, die vom Hauptziel der Untersuchung nur unnötig ablenkte. Anders als Cole und Randall (2003, siehe oben) kamen Flanagan und McGrew (1998) bei einer Untersuchung zweier gängiger Intelligenztests (WJ-R und KAIT) zu dem Schluss, eine dem Three-Stratum-Modell ähnliche Grundlage erkläre die Struktur der Tests am besten. 3.4.2 Unterschiede zur Gf-Gc-Theorie Es bestehen vier wesentliche Unterschiede zwischen der Three-Stratum- und der Gf-Gc-Theorie (Alfonso et al., 2005): Die Three-Stratum-Theorie beinhaltet einen g-Faktor, die Gf-Gc-Theorie beinhaltet quantitatives Wissen und quantitatives Schlussfolgern als separate breite Fähigkeiten, während Carroll quantitatives Schlussfolgern als engere Fähigkeiten unterhalb von gf sieht, die Gf-Gc-Theorie weist einen breiten Lese- und Rechtschreib-Faktor (grw) auf, während Carroll diesen Faktor als engen Faktor unterhalb von gc sieht und Carroll sieht das Kurzzeitgedächtnis zusammen mit anderen Facetten der Merkfähigkeit unter dem Faktor gy, während Cattell und Horn das Kurzzeitgedächtnis (gsm) von anderen Merkfähigkeiten trennen, die sie im Faktor Langzeitabruf (glr) zusammenfassen. Die Gf-Gc-Theorie und die Three-Stratum-Theorie nehmen einen wichtigen Platz unter den Intelligenzmodellen ein. Zur Erklärung der Intelligenzstruktur verbinden sie die Positionen von Spearman und Thurstone und enthalten vielerlei empirische Hinweise zur Unterstützung einer hierarchischen Intelligenzstruktur (Davidson & Downing, 2000). Außerdem beschreiben und erklären sie die Testleistung über Zeit und verschiedene Probleme hinweg, sagen diese vorher und leisten somit einen großen Beitrag zur Erforschung menschlicher Intelligenz. Kapitel 3 Intelligenztheorien und -modelle 29 3.4.3 Verbindung zu den Wechsler-Skalen Auch die Three-Stratum-Theorie wurde mit den Wechsler-Skalen in Verbindung gebracht (Watkins, Wilson, Kotz, Carbone & Babula, 2006). Nach den Autoren des WISC-IV-Manuals sei die Einführung zusätzlicher Untertests zur Erfassung des fluiden Denkens dem Einfluss der GfGc- und der Three-Stratum-Theorie geschuldet (Wechsler, 2003b). Carroll (1993) fand in seinen faktorenanalytischen Studien heraus, dass der Verbal-IQ der Wechsler-Skalen als ein ungefähres Maß für die kristalline Intelligenz angesehen werden kann. Den Handlungs-IQ verstand er als ein Maß mit eingeschränkter Validität für die fluide Intelligenz bzw. als ein ungefähres Maß für den ebenfalls auf Stratum II liegenden Faktor visuelle Wahrnehmung. 3.5 Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten (kurz: CHC-Theorie) integriert die Gf-Gc-Theorie von Cattell und Horn (Horn & Blanksen, 2005; Horn & Noll, 1997) und die ThreeStatum-Theorie von Carroll (1993, 2005). Der Anstoß für die Entwicklung der CHC-Theorie begründete sich in dem Problem, dass die GfGc-Theorie angesichts ihres Namens oftmals fälschlicherweise für ein Zwei-Faktoren-Modell gehalten wurde. Dieses Kommunikationsproblem, das seit der Publikation des WJ-R im Jahre 1989 bestand, sollte ausgeräumt werden. So entstand 1999 nach einem Treffen der wichtigsten Forscher auf dem Gebiet der Intelligenztheorien (u.a. Horn, Carroll und Woodcock) der Konsens, einer neuen Theorie den Namen Cattell-Horn-Carroll Theory of Cognitive Abilities zu geben (McGrew, 2005). Die Struktur des CHC-Modells unterscheidet sich nicht substantiell von der Three-StratumTheorie (Cole & Randall, 2003, siehe Abbildung 3.3). Anders als bei bisherigen Modellentwicklungen stellten für das CHC-Modell nicht nur Faktorenanalysen die Grundlage dar, sondern auch Studien aus dem Bereich der Entwicklung, Erfolgsprädiktoren, Genetik und Neurokognition (McGrew, 2005). Entscheidend für die Weiterentwicklung der Gf-Gc-Theorie und des Three-Stratum-Modells zur CHC-Theorie war das 1997 erschienene Buch Contemporary Intellectual Assessment von Flanagan, Genshaft und Harrison. Es war die erste Veröffentlichung über Intelligenzdiagnostik, in der die Brücke zwischen der Gf-Gc-Theorie, Carrolls Modell sowie praktischen Untersuchungen und Interpretationen geschlagen wurde. Außerdem beschrieben Flanagan und McGrew (1997) darin erstmals die formellen Voraussetzungen und Prinzipien einer Gf-Gc cross-battery assessment. Dabei handelt es sich um die Zusammenstellung von Untertests aus verschiedenen Testbatterien, durch die die Erfassung sämtlicher nach der Gf-Gc-Theorie vorhandener Intelligenzfaktoren möglich gemacht werden soll. Damit sollte die systematische und empirische Basis für Kapitel 3 Intelligenztheorien und -modelle 30 die Zusammenstellung einer neuen Testbatterie aus den verschiedenen Intelligenztests gewährleistet werden. Daniel (1997) bezeichnete die cross-battery assessment als faszinierende und kreative Arbeit, die dazu beitrage, kognitive Testverfahren in einen multifaktoriellen Modellrahmen zu integrieren und in diesem Rahmen zu interpretieren. Die erste Beschreibung und formelle Operationalisierung einer Untersuchung mit Hilfe der „cross-battery assessment“, die für alle großen Intelligenztestbatterien angewendet werden kann, erschien 1998 in der Veröffentlichung Intelligence Test Desk Reference (ITDR): Gf-Gc Cross-Battery Assessment (McGrew & Flanagan). Damit wurde die Verbindung zwischen Intelligenztheorie und -praxis fortgeführt, die mit der Entwicklung des WJ-Tests auf Basis der Gf-Gc-Theorie begann, und somit der Weg für die CHC-Theorie geebnet (McGrew, 2005). Größter Streitpunkt zwischen den Entwicklern des CHC-Modells stellt die Existenz der auf dem Stratum III liegenden allgemeinen Intelligenz dar. Während Carroll sie vehement verteidigt, wird sie von Horn dementiert (siehe Kapitel 3.6). So wird das Modell mal mit und mal ohne Stratum III (siehe Alfonso et al., 2005) dargestellt (in Abbildung 3.4 und Abbildung 3.5 durch ein Fragezeichen gekennzeichnet). Weitere Unterschiede finden sich in der Zuordnung einzelner enger Faktoren zu den breiteren Faktoren. Außerdem nimmt Carroll nur einen Gedächtnisfaktor an, während Horn einen Kurz- und einen Langzeitgedächtnisfaktor unterscheidet. Die in Abbildung 3.4 aufgezeigte Struktur des CHC-Modells stellt nur ein Beispiel für die CHCDefinitionen der Fähigkeiten dar. Jensen (2004) sieht die CHC-Struktur als eine erweiterbare empirische Theorie an, der durch Ermittlung von bisher ungemessenen oder unbekannten Fähigkeiten weitere Faktoren auf einer der Ebenen hinzugefügt werden könnten. g? g1 g2 F1 T1 T2 g3 F3 F2 T3 T4 T5 …etc. T6 T7 T8 …etc. F4 T9 T10 T11 T12 …etc. Abbildung 3.4: Cattell-Horn-Carroll-Modell (modifiziert nach McGrew, 2005) Anmerkung: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Messinstrumente (Tests). Kapitel 3 Intelligenztheorien und -modelle 31 Derzeit besteht sie aus zehn breiten kognitiven Faktoren (siehe Abbildung 3.5) und mehr als 70 engeren Fähigkeiten (Alfonso et al., 2005). Doch die Theorie bleibt dynamisch und wird kontinuierlich verändert. So hat McGrew (2005) dem Faktor Lesen und Schreiben (grw) noch die Schreibgeschwindigkeit als Einflussfaktor hinzugefügt, der zusätzlich zur Varianzaufklärung des Faktors beiträgt. Außerdem erweiterte er die Theorie um zusätzliche Stratum-II-Faktoren wie psychomotorische (gp), olfaktorische (go) oder taktile Fähigkeiten (gh). Sprachentwicklung Wortschatz Grammatik Fremdsprachen… gf Fluide Intelligenz Stratum III Stratum II Mathematisches Wissen Rechenleistung Induktion Quantitatives Schlussfolgern Allgemeines sequentielles Schlussfolgern… Stratum I Anmerkung: Die aufgelisteten Fähigkeiten auf Stratum I stellen nur eine Auswahl dar. Insgesamt liegen den Faktoren auf Stratum II mehr als 70 basale Teilleistungen zugrunde. Kristalline Intelligenz Buchstabierfähigkeit Lesefähigkeit Lesegeschwindigkeit Schreibfähigkeit und -geschwindigkeit… Mengen- u. Zahlenwissen gq Merkspanne Arbeitsgedächtnis Lernfähigkeit 32 Abbildung 3.5: Struktur der Cattell-Horn-Carroll (CHC) Theorie der kognitiven Fähigkeiten (modifiziert nach Daseking, Petermann & Petermann, 2007) Visuelle Wahrnehmung gv Visualisierung Visuelles Gedächtnis Räumliche Beziehungen… gsm Auditive Wahrnehmung ga Rhythmus Musik Phonologische Bewusstheit Orten von Geräuschen…. grw Langzeitgedächtnis u. Abruf glr Freier Abruf Flüssigkeit von Assoziationen Wortflüssigkeit Originalität/Flexibilität… gc Reaktions-/ Entscheidungszeit gt Verarbeitungsgeschwindigkeit gs Mustererkennung Bearbeitung einfacher Rechenaufgaben Wahrnehmungsgeschwindigkeit Lesen u. Schreiben Geschwindigkeit mentaler Vergleiche Einfache Reaktionsgeschwindigkeit Wahlreaktionen… Kurzzeitgedächtnis Intelligenztheorien und -modelle Allgemeine Intelligenz? Kapitel 3 Kapitel 3 Intelligenztheorien und -modelle 33 3.5.1 Bewertung Im Jahre 2001 wurde mit den Woodcock-Johnson III Tests of Cognitive Abilities (WJ-III, Woodcock, McGrew & Mather, 2001) die erste Testbatterie veröffentlicht, die auf der CHC-Theorie basiert (McGrew & Woodcock, 2001). Im technischen Manual des Tests wurde zum ersten Mal eine formale Definition der CHC-Theorie publiziert. Sie führte die Autoren zu folgender Einschätzung: „CHC taxonomy is the most comprehensive and empirically supported framework available for understanding the structure of human cognitive abilities“ (McGrew & Woodcock, 2001, S. 9). Die CHC-Theorie zählt zu den derzeit aktuellsten Intelligenztheorien (McGrew, 2005; Sattler, 2001). Kaufman und Lichtenberger (2006) postulieren: „CHC theory is a strong psychological theory, as it represents one of the best examples of cumulative science in applied psychology“ (S. 563). Sie gilt heute als verständlichste und empirisch am besten fundierte psychometrische Theorie kognitiver und akademischer Fähigkeiten und hat seit einigen Jahren einen enormen Einfluss auf die Messung kognitiver Fähigkeiten und die Interpretation von Intelligenztestleistungen (Alfonso et al., 2005; McGrew, 2005). Flanagan und Kaufman (2004) schreiben dazu: “With the advent of the 21st century, however, the CHC storm hit and has not changed its course to date” (S. 14). Neben dem WJ III wurden mit der SB5 (Stanford-Binet - Fifth Edition; Roid, 2003) und der KABC-II (Kaufman Assessment Battery for Children; Kaufman & Kaufman, 2004) drei der bekanntesten Testverfahren der letzten Jahre das CHC-Modell zu Grunde gelegt. Niemals zuvor in der Geschichte der Intelligenztestung spielte ein theoretisches Modell eine derart große Rolle im Bereich der Testentwicklung und -interpretation (Flanagan & Kaufman, 2004). Trotz des auf der Basis der CHC-Theorie entwickelten WJ III beinhaltet nach Alfonso, Flanagan und Radwan (2005) keiner der bisher erschienenen Intelligenztests eine ausreichende Anzahl von Untertests, um alle grundlegenden CHC-Fähigkeiten abzubilden. Dennoch zeigen diese nicht berücksichtigten Fähigkeiten (wie gf, ga oder glr) einen signifikanten Zusammenhang mit akademischen Leistungen wie Lesen und Rechnen (McGrew, 2005). Gerade für den Bereich der Untersuchung von Lernstörungen bedarf es demnach der Durchführung mehrerer Tests, die zusammen ein genaueres Bild der Fähigkeiten liefern können. Nach Erkenntnissen aus aktuellen Studien lassen sich durch das Modell und die Einbeziehung basaler kognitiver Funktionen (Stratum I) insbesondere auch schulbezogene Leistungen (wie Rechenfähigkeit, Leseleistung und Fremdsprachenerwerb) zunehmend besser erklären, unabhängig davon, ob ein g-Faktor angenommen wird oder nicht (McGrew, 2005). Weitere Studien der letzten Jahre aus unterschiedlichen Bereichen (wie Leistungen von Grundschulkindern, neurologische Beeinträchtigungen, Rechenleistungen) unterstützen ebenfalls das Kapitel 3 Intelligenztheorien und -modelle 34 CHC-Modell (z. B. Davis, Finch, Dean & Woodcock, 2005; Proctor, Floyd & Shaver, 2005; Tusing & Ford, 2004). So können mit den in der CHC-Theorie betonten Fähigkeiten Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit Vorhersagen für akademischen Erfolg getroffen werden, letztere vor allem bezogen auf frühe schulische Leistungen (Flanagan, Ortiz, Alfonso & Mascolo, 2002; Roid & Pomplun, 2005, siehe auch Kapitel 4.6.1). 3.5.2 Verbindung zu den Wechsler-Skalen In einer Untersuchung mit der WISC-III und dem WJ III erwies sich das CHC-Modell als das am besten geeignete und zu den Ergebnissen passende Modell (Phelps, McGrew, Knopik & Ford, 2005). Während andere, ebenfalls nicht mehr aktuelle Versionen von Verfahren wie die KAB-C oder die Wechsler-Tests für Vorschulkinder und Erwachsene nur zwei oder drei der breiten CHC-Fähigkeiten adäquat messen, wurden der WISC-III vier CHC-Fähigkeiten (gc, gv, gsm und gs) zugeschrieben (Alfonso et al., 2005). Dennoch stellt sie keine ausreichende Messung der Fähigkeiten dar, um die Diskrepanz zwischen aktueller Theorie und Praxis zu verringern. Ergebnisse konfirmatorischer Faktorenanalysen anderer Wechsler-Tests, wie des aktuellen Intelligenztests für Erwachsene (WAIS-III) und der Wechsler Memory Scale-III (WMS-III), unterstützen das CHC-Modell zusätzlich (Tulsky & Price, 2003). Auch wenn die Autoren der WISC-IV nicht explizit sagen, dass die Entwicklung der Testrevision auf den Erkenntnissen der CHC-Theorie basiert, wird sie der WISC-IV schon angesichts der zeitnahen Entwicklung implizit zugrundegelegt (Alfonso et al., 2005; Floyd, Bergeron, McCormack, Anderson & Hargrove-Owens, 2005). Die Autoren der WISC-IV geben praktische Erfahrungen im Umgang mit den Vorgängerversionen als Grundlage für die Modifikationen von WISC-III zu WISC-IV an. Sie erkennen jedoch die Erkenntnisse von Cattell, Horn und Carroll an und fühlen sich durch sie in der Entwicklung neuer Strukturen für die Wechsler-Skalen bestätigt. Neben der zusätzlichen Einführung von Untertests zur Messung des fluiden Denkens wird auch der größere Einfluss des Arbeitsgedächtnisses und der Verarbeitungsgeschwindigkeit von den Testautoren mit den Begründern der CHC-Theorie in Zusammenhang gebracht (Wechsler, 2003b, siehe oben). Insbesondere der Verzicht auf die Zuordnung der Untertests zu Verbalund Handlungsteil und die aktuelle Fokussierung auf die vier Index-Werte (Faktoren) lassen auf einen wesentlichen Einfluss des CHC-Modells auf die Testüberarbeitung schließen (Daseking et al., 2007). Keith, Fine, Taub, Reynolds und Kranzler (2006) untersuchten die Struktur der WISC-IV und wiesen die Erfassung von fünf der zehn Faktoren nach, die sich nach der CHC-Theorie auf der zweiten Ebene der Intelligenz befinden: gf (fluide Intelligenz) durch die Untertests Matrizen-Test, Bildkonzepte und Rechnerisches Denken, Kapitel 3 Intelligenztheorien und -modelle 35 gc (kristalline Intelligenz) durch die Untertests Wortschatz-Test, Allgemeines Wissen, Gemeinsamkeiten finden, Allgemeines Verständnis und Begriffe erkennen, gv (visuelle Verarbeitung) durch die Untertests Mosaik-Test und Bilder ergänzen, gsm (Kurzzeitgedächtnis) durch die Untertests Zahlen nachsprechen und BuchstabenZahlen-Folgen sowie gs (Verarbeitungsgeschwindigkeit) durch die Untertests Symbol-Suche, Zahlen-SymbolTest und Durchstreich-Test. Sie kamen zu dem Ergebnis, die WISC-IV spiegelt mehr als ihre Vorgänger die aktuelle Forschung und Theorie im Bereich der Intelligenzdiagnostik wider und habe sich somit gegenüber früheren Versionen verbessert. Außerdem stelle die WISC-IV weiterhin ein exzellentes Messinstrument für die allgemeine Intelligenz dar (Keith et al., 2006). Um dem Mangel an Verknüpfung zu aktuellen theoretischen Modellen entgegenzuwirken (siehe Kapitel 4.5), stellen Flanagan und Kaufman (2004) im Anhang ihres Buchs Essentials of WISC-IV Assessment Tabellen zur Interpretation der Untertests der WISC-IV auf Basis des CHCModells bereit. So kann beispielsweise ein Wert für den CHC-Faktor fluides Denken (gf) errechnet werden, indem die Wertpunkte der Untertests Mosaik-Test, Bildkonzepte und Rechnerisches Denken zusammengezählt und zu dem sogenannten gf-Cluster-Wert umgerechnet werden, der einem Index-Wert entspricht. Ebenso wie bei den traditionellen Index- und IQ-Werten stehen auch hier Konfidenzintervalle und Prozentränge zur Verfügung (siehe Anhang H, Flanagan & Kaufman, 2004). Auch Keith et al. (2006) empfehlen diese zusätzliche Auswertung, da für sie das CHC-basierte Modell eine bessere Erklärung des intellektuellen Konstrukts bietet, das von der WISC-IV gemessen wird als die vorgegebene Auswertungsstruktur der Testautoren es ermöglicht. Mit dieser zusätzlichen Auswertungsmöglichkeit wird versucht, die Wissenschaft der Interpretation kognitiver Fähigkeiten voranzutreiben (Alfonso et al., 2005). In Bezug auf die vorliegende Arbeit stellt sich die Frage, inwieweit der Einfluss unterschiedlicher Intelligenzstrukturmodelle auf die zu untersuchenden Messinstrumente HAWIK-III und -IV die Vergleichbarkeit beider Testversionen einschränkt. Wie oben beschrieben wird die WISC-III vor allem mit der Gf-Gc-Theorie in Verbindung gebracht, während die WISC-IV neben der Gf-Gcund der Three-Stratum-Theorie mehr Übereinstimmungen mit dem CHC-Modell aufweist als seine Vorgängerversionen. Die Tests wurden schon angesichts ihrer unterschiedlichen Veröffentlichungszeitpunkte von verschiedenen Theorien beeinflusst. Dies gilt nicht nur für die Teststruktur, sondern auch für die kognitiven Fähigkeiten, die von den Untertests gemessen werden. So wurde das Rechnerische Denken von der WISC-III zur WISC-IV dahingehend verändert, weniger die Rechenfähigkeiten als vielmehr das Arbeitsgedächtnis zu erfassen, das nach ak- Kapitel 3 Intelligenztheorien und -modelle 36 tuellen Forschungsbefunden in den aktuellen Theorien einen höheren Stellenwert besitzt (mehr dazu siehe Kapitel 4.6.1). 3.6 Diskussionen zur Existenz eines g-Faktors “To g or not to g – that is the question.” Nathan Brody (2005) 3.6.1 Was ist g? Wohl kaum eine Frage in der Intelligenzforschung wird leidenschaftlicher diskutiert als die nach der Existenz eines g-Faktors als Repräsentant der allgemeinen, übergeordneten Intelligenz eines Menschen. Dies zeigen schon die unzähligen Veröffentlichungen der letzten Jahre, die sich ausschließlich mit diesem Thema beschäftigen (u. a. Brand, 1996; Davidson & Downing, 2000; Jensen, 1998; Nyborg, 2003). Für Davidson und Downing (2000) kann erst ein besseres Verständnis von g zu einem besseren Verständnis der Intelligenzstruktur führen. Doch schon die Frage, was g eigentlich ist, löst Kontroversen aus. Für Jensen (2002) und Carroll (1993) stellt der g-Faktor die Varianzquelle dar, die den Leistungen in allen kognitiven Tests gemein sei, wie unterschiedlich sie auch sein mögen. Er sollte nicht als Aufsummierung oder Durchschnitt individueller Unterschiede in einem kognitiven Test, sondern vielmehr als ein Destillat dieser Unterschiede gesehen werden. Horn (1988) hingegen hält g für ein rein statistisches Artefakt. Für Brody (2005) könne g am besten als latentes Merkmal verstanden werden, das mit unterschiedlichen psychometrischen Maßen, die möglicherweise als Hinweise auf ein latentes Konstrukt entwickelt wurden, zwar in Zusammenhang stehe, konzeptuell und empirisch aber von ihnen verschieden sei. 3.6.2 Pro und Kontra Forscher wie Carroll (1993, 2003) und Jensen (1998, 2002) behaupten, der Generalfaktor repräsentiere in ausreichender Weise das, was den breiten Fähigkeiten zu Grunde liege. Auch Brody (2005) sieht dies als einzig logische Schlussfolgerung an. Außerdem sei der g-Faktor die einzige kognitive Fähigkeit, die von allen kognitiven Messinstrumenten berührt werde. Aktuelle Studien anderer Forscher legen gleichfalls die Existenz eines allgemeinen Intelligenzfaktors nahe (Johnson, te Nijenhuis & Bouchard Jr, 2008; Visser, Ashton & Vernon, 2006). Nach Jensen (2002) wiesen die wichtigsten Studien g als ein äußerst stabiles Konstrukt über Methoden, Tests und Populationen hinweg aus. Die Generalisierbarkeit von g sei bemerkenswert breit, was die signifikanten Ladungen in Tests mit ganz unterschiedlichen Aufgabentypen wie Wortschatz, allgemeine Informationen und Reaktionszeit verdeutlichten. Außerdem weise g nach Jensen eine hohe externe Validität auf. Dies zeigten Studien, in denen der IQ und Tests kognitiver Fähigkeiten hohe gemeinsame g-Ladungen aufweisen. Daraus schließt Jensen, dass die Kapitel 3 Intelligenztheorien und -modelle 37 Generalisierbarkeit von g für ein breites Spektrum an Prädiktorkriterien zulässig sei. Die Vorhersagekraft von IQ-Tests auf Schulleistung und beruflichen Erfolg ist unstrittig. Korrelationsstudien gehen von einem Zusammenhang zwischen IQ-Tests und schulischem Erfolg von ungefähr r = .50 aus (Braaten & Norman, 2006). Dabei gilt g als bedeutsamerer Prädiktor als spezifisches Wissen oder spezifische Fertigkeiten. Nach Jensen (2002) wiesen IQ- und Bildungstests keine praktisch sinnvolle Vorhersagevalidität mehr auf, sobald g statistisch aus diesen Tests entfernt werden würde. Zwar würden einzelne Faktoren der Tests (wie verbale, numerische, räumliche etc.) auch zur Vorhersagevalidität beitragen, doch sei dieser Beitrag im Vergleich zu dem des g-Faktors sehr gering. In seiner aktuellsten Untersuchung bilanziert Carroll (2003): „Researchers who are concerned with the structure in one way or another … can be assured that a general factor exists, along with a series of second-order-factors that measure broad special abilities” (S. 19). Außerdem sprächen für ihn, ebenso wie für andere Forscher, die Ergebnisse der Intelligenzforschung den fluiden Fähigkeiten eine deutlich wichtigere Rolle zu als bisher vermutet. Diese Erkenntnis floss auch in die Entwicklung der WISC-IV mit ein (siehe Kapitel 4.6.1). Manche sehen g als die bedeutendste messbare Fähigkeit an, da sie den Großteil der Varianz in mehreren, sowohl akademischen als auch beruflichen Bereichen vorhersage (z. B. Glutting, Watkins & Youngstrom, 2003). Neisser et al. (1996) argumentieren dagegen, Carrolls hierarchische Anordnung des g-Faktors bestätige lediglich, dass die Leistungsniveaus eines Menschen in verschiedenen Testverfahren miteinander korrelierten; das sei zwar konsistent mit der Hypothese, ein allgemeiner Faktor wie g liege diesen Korrelationen zugrunde, jedoch kein Beweis dafür. Die Korrelationen könnten auch aufgrund anderer Faktoren wie Schulbildung zustande kommen. Studien zufolge laden auch Messverfahren wie der Sternberg Triarchic Abilities Test (STAT), die ein g-Faktor-freies Modell als Basis haben, hoch auf einem gemeinsamen Faktor, der mit g korreliert (Brody, 2003a, 2003b). Auch aktuelle Testverfahren zu praktischer und kreativer Intelligenz weisen einen positiven Zusammenhang mit g auf (Brody, 2005). Außerdem wiesen genetische Studien einen gemeinsamen genetischen Einfluss auf die Beziehung zwischen verschiedenen Faktoren zweiter Ordnung auf (Petrill, 2005). Auf der anderen Seite stehen Forscher wie Horn (1985) und Sternberg (Sternberg, 2002; Sternberg & Grigorenko, 2002), die es befürworten, den Schwerpunkt auf die unabhängigen breiten Fähigkeiten zu legen, da sie g für einen vielgestaltigen und relativ bedeutungslosen Zusammenschluss verschiedener voneinander unabhängiger kognitiver Prozesse halten. Zwar stimmen Horn und Cattell Carroll hinsichtlich der Korrelationen zwischen Fähigkeiten zu, sehen diese jedoch nicht als kausalen Einfluss einer allgemeinen Intelligenz, sondern eher als statisti- Kapitel 3 Intelligenztheorien und -modelle 38 sche Regelmäßigkeit an, da es schwer sei, menschliche Aktivitäten zu definieren, die nur mit einer der Fähigkeiten zweiter Ordnung zusammenhängen (McGrew, 2005). Für Horn und Noll (1994) kann ein einzelnes wissenschaftliches Konzept ein so vielschichtiges Phänomen wie die Intelligenz nicht erklären. Sie sehen Intelligenz als eine Mischung aus vielen unterschiedlichen kognitiven Fähigkeiten an und sprechen sich gegen Carrolls g-Faktor aus, der sich in seinen Studien, je nach Studie und Testbatterie, als unterschiedlich darstelle und somit nicht eine allgemeine Intelligenz, sondern unterschiedliche Maße repräsentiere (Horn & Noll, 1997). Nach Stankov (2005) deuten nur sieben der über 400 Datensätze aus Carrolls Studie auf einen gFaktor hin. Studien aus den Bereichen Entwicklung, Ausbildung, Neurologie und Genetik geben laut Horn und McArdle (2007) Anlass daran zu zweifeln, ein einzelner, für alle intelligenzabbildenden Fähigkeiten gültiger Faktor, könne die Varianz individueller Unterschiede abdecken. Dies zeige sich auch darin, dass die CHC-Fähigkeiten mit nicht-kognitiven Variablen wie Erfolg (z. B. im Bereich akademischer Leistungen siehe Evans, Floyd, McGrew & Leforgee, 2002; Floyd, Evans & McGrew, 2003), genetischen Strukturen und neurologischen Funktionen in Verbindung stehen. Da diese Beziehungen so mannigfaltig seien, spreche dies ebenfalls gegen einen einzelnen, einheitlichen Grundbestandteil (Horn & Blanksen, 2005). Für Carroll (2003) hingegen basierten Faktorenanalysen darauf, die Beschaffenheit eines einzelnen Faktors nicht notwendigerweise zu speziellen Charakteristika der in die Korrelationsmatrix involvierten Variablen in Beziehung zu stellen, sondern nur zu den Charakteristika oder latenten Variablen, die diesen Variablen ähnlich sind. Trotz der Ähnlichkeit zwischen den Stratum-II-Faktoren der Three-Stratum-Theorie und Horns erweiterter Gf-Gc-Theorie widersprach Horn (1991) Carrolls Vorstellungen von Intelligenz, da er einen g-Faktor auf Stratum III nicht akzeptierte. Er stellte die Theorie auf, dass gf und gc zwischen Stratum II und III liegen und somit einen Großteil der Varianz aufklären. Da gf in faktorenanalytischen Studien zur Untersuchung der Ladung auf einen gemeinsamen g-Faktor eine standardisierte Faktorladung von 1.0 aufwies, müsse Intelligenz mehr sein als g. Carroll (1993) erklärte sich die Beziehung zwischen den Faktoren g und gf jedoch damit, dass beide in hohem Maße erblich seien und gf auf Stratum II den höchsten Grad an Erblichkeit aufweise. Für andere repräsentierten g und gf im Wesentlichen die selben Fähigkeiten (Davidson & Downing, 2000). Demgegenüber deuten Studien, die hohe g-Ladungen in den sprachlichen Untertests aufzeigten, auf hohe Korrelationen von gc und g hin (siehe u. a. Keith et al., 2006). Für Gignac (2006) schien daher gc als der beste Prädiktor für die allgemeine Intelligenz. Nach Brody (2000) ergeben sich aus sämtlichen Überlegungen zur Struktur kognitiver Fähigkeiten zwei wichtige Erkenntnisse: Erstens zeigen sich hohe Korrelationen nahezu aller Mess- Kapitel 3 Intelligenztheorien und -modelle 39 instrumente kognitiver Funktionen. Matrizen von Fähigkeitsmessinstrumenten besäßen in der Regel einen Faktor, der ungefähr die Hälfte der Kovarianz aufkläre. Zweitens ergäben sämtliche Studien, dass g nicht die gesamte Kovarianz einer Matrix abdecke. Zur Aufklärung sämtlicher Beziehungen bedürfe es basalerer Fähigkeitsmessinstrumente. Für Stankov (2005) lieferten Faktorenanalysen jedoch keine konsistenten Informationen über das Ausmaß der g-Varianz in der Matrix, g-Ladungen verschiedener Tests oder der Definition von g im Hinblick auf die invarianten Faktorenstrukturen. Demetriou, Mouyi und Spanoudis (2008) untersuchten 140 Kinder mit Aufgaben zu wichtigen kognitiven Prozessen unterschiedlicher Komplexität aus den Bereichen Geschwindigkeit, Arbeitsgedächtnis, Informationsintegration und Schlussfolgern. Sie gingen daraufhin von hierarchisch organisierten Prozessen aus und vermuteten, g könne nicht mit einem dieser Konstrukte oder Dimensionen identifiziert werden, sondern würde von unterschiedlichen Prozessen bestimmt, die auf dynamische Weise miteinander agieren. Auf gleicher Ebene argumentieren Naglieri und Das (2002). Traditionelle Testverfahren, die sich auf den g-Faktor begründen, hätten zwar gute Dienste für die Etablierung von Testungen als einer der wichtigsten Beiträge der Psychologie an die Gesellschaft geleistet, es bedürfe jedoch einer substantiellen Erneuerung der Konzeptualisierung und Messung von Intelligenz. Konventionelle g-basierte Theorien seien ihrer Meinung nach unvollständig und in ihrem Nutzen eingeschränkt. Sie entwickelten die neuropsychologisch fundierte PASS-Theorie (Das, Naglieri & Kirby, 1994), die sie als Alternative zur allgemeinen Intelligenz ansahen, und zogen sie bei der Entwicklung eines eigenen Testverfahrens, des CAS (Cognitive Assessment System; Naglieri, 1999) heran. PASS steht für die vier Elemente Planung (Planning), Aufmerksamkeit (Attention) sowie simultane und sukzessive Kodierung (Simultaneous and Successive Processing) als grundlegende kognitive Prozesse der Intelligenz. Sie bilden ein zusammenhängendes System, das mit den Grundlagen an Wissen und Fertigkeiten eines Individuums interagiert (Naglieri & Das, 2002). Die Diskussion um den g-Faktor geht mit der Kontroverse um den Gebrauch von Profilanalysen einher (siehe Kapitel 4.5). Während die Befürworter des g-Faktors ein klares „just say no“ (McDermott, Fantuzzo & Glutting, 1990) postulieren, sprechen sich dessen Gegner für die Anwendung der Profilanalyse aus. McGrew, Flanagan, Keith und Vanderwood (1997) kommen nach einer großangelegten Analyse zu dem Ergebnis: „Just say maybe“ oder „wait just a minute“ (S. 207). 3.6.3 Verbindung zur Studie Der Streitpunkt um die Existenz eines g-Faktors kommt auch bei der Entwicklung des CHCModells zum Tragen, da bereits die Entwickler dieser Theorie dahingehend unterschiedlicher Kapitel 3 Intelligenztheorien und -modelle 40 Auffassungen sind (siehe Kapitel 3.5) (McGrew, 2005). Für diese Studie stellt sich demnach die Frage, inwieweit der Vergleich der Ergebnisse beider Testversionen nur unter Berücksichtigung des Gesamt-IQ (stellvertretend für den g-Faktor) oder zusätzlich auch der Index-Werte (stellvertretend für die Faktoren der zweiten Ebene im CHC-Modell) vorgenommen werden sollten. Für die Wechsler-Versionen wird kontrovers diskutiert, ob die Interpretation des Gesamt-IQ immer sinnvoll ist, gerade wenn sich große Diskrepanzen im Leistungsprofil des Kindes zeigen. Die Gegner der Gesamt-IQ-Interpretation bei breit gestreuten Index-Werten sehen ihn als wenig valide und damit als unzureichende Beschreibung der Fähigkeiten des Kindes an (Fiorello et al., 2007; Fiorello, Hale, McGrath, Ryan & Quinn, 2001; Hale, Fiorello, Kavanagh, Holdnack & Aloe, 2007). Diese Forscher gehören auch zu denen, die den g-Faktor verneinen. Andere Autoren halten den Gesamt-IQ für ebenso valide wie die Index-Werte – unabhängig von der Höhe der Streuung zwischen den Index-Werten – und befürworten die Interpretation des Gesamt-IQ auch bei den Populationen, die sich durch eine hohe Variabilität im Intelligenzprofil auszeichnen (Daniel, 2007). 3.7 Zusammenfassung Den Wechsler-Skalen wurden im Laufe der letzten Jahre und Jahrzehnte diverse Intelligenzmodelle zu Grunde gelegt. So finden sich in ihnen Aspekte des Primärfaktorenmodells von Thurstone wieder, der Intelligenz aus sieben nebeneinander stehenden Faktoren gebildet sieht, denen Ähnlichkeiten zu den in den Wechsler-Tests enthaltenen Indizes zugeschrieben werden können. Einen mindestens ebenso großen Einfluss auf die Entwicklung der Wechsler-Tests haben hierarchische Intelligenzstrukturmodelle, die einen mehrstufigen Aufbau kognitiver Fähigkeiten beinhalten. Als ältestes und dennoch weiterhin bedeutendes Modell gilt die ZweiFaktoren-Theorie von Spearman, der als erster den Begriff des g-Faktors einbrachte, der bis heute für viel Diskussionsstoff unter den Intelligenzforschern sorgt. Dabei handelt es sich um die allgemeine Intelligenz des Menschen, die den spezifischen Fähigkeiten übergeordnet werden kann. Mit Hilfe von Faktorenanalysen definierte Spearman den g-Faktor als die Fähigkeit, die sämtlichen kognitiven Fähigkeiten des Menschen zugrundeliegt. Da den Wechsler-Tests mit dem Gesamt-IQ ebenfalls ein übergeordneter Wert entnommen werden kann, wird Wechsler, der selbst ein Schüler Spearmans war, eine Anlehnung an dessen Auffassung zugeschrieben. Ein anderes wichtiges Intelligenzmodell wurde von Cattell begründet und später von Cattell und Horn weiterentwickelt. Die Gf-Gc-Theorie geht anders als Spearman von zwei nebeneinanderstehenden Intelligenzfaktoren aus, der fluiden und der kristallinen Intelligenz. Später erweiterte Horn die Theorie auf acht oder mehr Faktoren, von denen die fluide und die kristalline Intelligenz jedoch die Kernfaktoren bleiben. Sie wurden oftmals mit den beiden Skalen Verbalund Handlungsteil der Wechsler-Skalen in Verbindung gebracht. Ebenso wie die Gf-Gc-Theorie Kapitel 3 Intelligenztheorien und -modelle 41 beschreibt Wechsler das Three-Stratum-Modell von Carroll als einflussgebend für die Entwicklung seiner Skalen. Aus einer umfassenden Faktorenanalyse, die zahlreiche Studien beinhaltete, entwickelte Carroll das Three-Stratum-Modell. Es bildet die Intelligenz auf drei Hierarchieebenen ab, der allgemeinen Intelligenz auf der dritten und höchsten Ebene, acht weniger allgemeinen Faktoren auf Stratum II und 69 spezifischen Faktoren auf unterster Ebene. Die derzeit aktuellste Theorie ist eine Verbindung der Theorien von Cattell, Horn und Carroll, das CHCModell. Es stellt das erste Modell dar, dem Intelligenztests explizit zu Grunde gelegt wurden, und auch der WISC-IV wird ein impliziter Zusammenhang mit dem CHC-Modell nachgesagt. Es wird mal mit und mal ohne einen übergeordneten allgemeinen Faktor beschrieben und beinhaltet ein dynamisches Modell, das immer wieder veränderbar ist. Derzeit liegen acht breitere oberhalb von ungefähr siebzig spezifischeren Faktoren. Die Diskussion über einen allgemeinen Faktor an der Spitze des CHC-Modells geht mit dem langjährigen Streit über die Existenz eines g-Faktors einher. Die Forscher, die einen g-Faktor befürworten, sehen ihn als Quelle der gemeinsamen Varianz sämtlicher kognitiven Fähigkeiten. Auf der anderen Seite stehen Forscher, die den Schwerpunkt auf den breiter gefassten Faktoren sehen und einen g-Faktor dementieren. Dieser Streit hält bis zum heutigen Tage an. Kapitel 4 Die Wechsler-Skalen 42 4 Die Wechsler-Skalen Wortschatz-Test, Frage 15: „Was bedeutet anstrengend?“ Miriam, 9 Jahre: „Wenn man Kinder hat, die viele Hobbies haben und man sie dann immer hin- und herfahren muss.“ Die Wechsler-Skalen zählen seit mehr als einem halben Jahrhundert zu den weltweit bekanntesten Intelligenztestverfahren (Belter & Piotrowski, 2001; Flanagan et al., 2000; Kaufman, Flanagan, Alfonso & Mascolo, 2006; Prifitera, 1994; Zhu & Weiss, 2005). Nachgewiesenermaßen sind sie die am häufigsten verwendeten Testverfahren (Camara, Nathan & Puente, 2000; Schorr, 1995; Steck, 1997) und stehen trotz häufiger Kritik bei klinischen und Schulpsychologen bei der Erfassung kognitiver Fähigkeiten von Kindern, Jugendlichen und Erwachsenen weiterhin an erster Stelle (Zhu et al., 2004). Die Methoden, Konzepte und Verfahrensweisen der Skalen haben seit der Mitte des vergangenen Jahrhunderts die Testentwicklung und -erforschung in der Intelligenzdiagnostik richtungsgebend gesteuert (Flanagan et al., 2000). Sie haben im klinischen Bereich und in der Forschung bereits eine langjährige Tradition (Kamphaus, 2005). Flanagan und Kaufman (2004) gehen davon aus, dass die WISC-IV, wie schon ihr Vorgänger, die WISC-III, das am weitesten verbreitete Intelligenztestverfahren der Welt werden wird. 4.1 Die Geschichte der Wechsler-Skalen Der Einfluss David Wechslers auf die Intelligenzmessung begann in den späten 1930er Jahren (Kaufman et al., 2006). Seine klinischen und statistischen Kenntnisse, ebenso wie seine umfangreiche Erfahrung als Diagnostiker im Ersten Weltkrieg, flossen in seine Vorstellungen von Intelligenz mit ein. Während dieses Krieges war in den Vereinigten Staaten eine Intelligenzbeurteilung zur Auswahl von Rekruten entwickelt worden. Der dort verwendete Test (Army Alpha) wies zunächst einen hohen sprachlichen Anteil auf. Die eingeschränkte Lesefähigkeit einiger Rekruten hatte daher die Notwendigkeit einer nonverbalen Beurteilung der Intelligenz (Army Beta) begründet (Wechsler, 2003b). Wechsler hatte während seiner Arbeit mit den Soldaten festgestellt, dass es bei ihnen Diskrepanzen gab zwischen den intellektuellen Kompetenzen, die sie im zivilen Leben zeigten, und den Ergebnissen der Testverfahren, mit denen er sie untersuchte. Daher schienen ihm bisher gängige Intelligenzdefinitionen, auf deren Basis Testverfahren wie die Army Alpha und Beta oder der erste Intelligenztest von Binet und Simon (1905, zitiert nach Wechsler, 2003b) entwickelt wurden, unzureichend zu sein. Somit müsse für ihn eine ganzheitliche Intelligenzdefinition weiter gefasst werden als bisher (siehe Kapitel 2.2). Sein Studium in London bei Charles Spearman und Karl Pearson, und dabei vor allem Spear- Kapitel 4 Die Wechsler-Skalen 43 mans g-Faktor-Theorie (Spearman, 1904, siehe Kapitel 3.1), hatte zusätzlichen Einfluss auf die Entwicklung seiner Vorstellung von Intelligenz (Wechsler, 1939a). Auf der Grundlage seiner langjährigen klinischen Arbeit machte Wechsler es sich dann zum Ziel, Testverfahren zu entwickeln, mit denen auf Basis von verschiedenen Aufgaben dynamische klinische Informationen erlangt werden können (Flanagan & Kaufman, 2004). So entwickelte er Untertests, die diejenigen kognitiven Aspekte der Intelligenz erheben, die er als bedeutsam erachtete: Sprachverständnis, abstraktes logisches Denken, Wahrnehmungsorganisation, mengenbezogenes Denken, Gedächtnis und Bearbeitungsgeschwindigkeit. Diese werden in aktuellen Intelligenztheorien ebenfalls als bedeutende Aspekte der kognitiven Fähigkeit angesehen (Carroll, 1993, 1997b; Horn, 1991, siehe Kapitel 3). Auch wenn Wechsler sich für seine Tests viele Ideen von anderen Messinstrumenten auslieh (Zachary, 1990), stellten sie doch eine bedeutende Innovation dar, mit der ihm ein dauerhafter Beitrag zur Geschichte der Intelligenzdiagnostik gelang. Zur Entwicklung einer Intelligenztestbatterie, die verständlicher und nützlicher für den klinischen Gebrauch sowie ökonomisch sinnvoller war, vereinte er die aus seiner umfangreichen klinischen Erfahrung am besten geeigneten Aspekte aus anderen Arbeiten (Zhu et al., 2004). Um anders als bisherige Testverfahren sowohl verbale als auch nonverbale Intelligenzleistungen beurteilen zu können, führte Wechsler (1939b) in seinem ersten Intelligenztest, der Wechsler-Bellevue Intelligence Scale, zusätzlich zu einem allgemeinen Wert gesonderte Werte für Verbal- und Handlungsskalen ein. Diese Einteilung stellte eine Innovation dar und gilt als das vielleicht bedeutsamste Merkmal der Wechsler-Bellevue (Flanagan & Kaufman, 2004). Wechsler (1944) hielt diese Einteilung selber für einen wertvollen Beitrag seiner Skalen: Its à priori value is that it makes possible a comparison between a subject`s facility in using words and symbols and his ability to manipulate objects, and to perceive visual patterns. In practice this division is substantiated by differences between posited abilities and various occupational aptitudes. ... Apart from their possible relation to vocational aptitudes, differences between verbal and performance test scores, particularly when large, have a special interest for the clinician because such discrepancies are frequently associated with certain types of mental pathology. (S. 146) Die Aufteilung der Untertests in Verbal- und Handlungsaufgaben führte häufig zu der Annahme, Wechsler ginge von einer Zwei-Faktoren-Struktur der Intelligenz aus. Wechsler (1958) verfolgte dabei jedoch praktische Ziele: [The grouping of subtests into Verbal and Performance areas] … does not imply that these are the only abilities involved in tests. Nor does it presume that there are different kinds of intelligence, e.g., verbal, manipulative, etc. It merely implies that these are different ways in which intelligence may manifest itself. … The subtests are different measures of intelligence, not measures of different kinds of intelligence, and the dichotomy of Verbal and Performance areas is only one of several ways in which the tests could be grouped. (S. 64) Kapitel 4 Die Wechsler-Skalen 44 Für Wechsler repräsentierten der Verbal- und der Handlungsteil keine unterschiedlichen Fähigkeiten, sondern sie stellten zwei unterschiedliche Sprachen dar, durch die sich die zugrunde liegende allgemeine Intelligenz ausdrücken kann (Kamphaus, 2005). Eine weitere Innovation Wechslers war die Berechnung der Ergebnisse anhand eines sogenannten Abweichungs-IQ. Vor den Wechsler-Skalen wurde das kognitive Niveau eines Individuums anhand des Intelligenzalters (IA) geteilt durch das Lebensalter (LA) berechnet (IQ = IA/LA * 100), ein Konzept, das ursprünglich 1908 von Binet eingeführt worden war (Zhu et al., 2004). Da sich diese Art der Berechnungen besonders mit steigendem Lebensalter bei Erwachsenen als sehr fehleranfällig erwiesen hatte und dadurch große Probleme bei der Interpretation der Testergebnisse aufgekommen waren, stellte der Abweichungs-IQ eine wichtige Neuerung dar, die den Vergleich mit Gleichaltrigen aussagekräftiger und die Interpretation überschaubarer machte. Mit Hilfe des Abweichungs-IQ wird ein individueller Testwert an dem Mittelwert und der Streuung einer für die Testperson repräsentativen Altersgruppe standardisiert. Dabei legte Wechsler (1939b) den Mittelwert bei 100 und die Standardabweichung bei +/- 15 fest. Diese Form der Berechnung wird mittlerweile in allen gängigen Intelligenztests, die einen IQ angeben, verwendet. Insgesamt stellte die Veröffentlichung der Wechsler-Bellevue Intelligence Scale eine ernst zu nehmende Konkurrenz für die bis dahin heiligen Binet-Skalen dar (Kamphaus, 2005). Sie bot eine Reihe von Besonderheiten, die in den ersten Ausgaben der Binet-Skalen nicht verfügbar waren. Dazu gehörten separate Normen für Kinder und Erwachsene, Standardwerte für die einzelnen Untertests, die Profilanalysen ermöglichen, ein separater Handlungsteil, der die Untersuchung von Menschen mit sprachlichen oder kulturellen Besonderheiten ermöglichte, und der Abweichungs-IQ. Diese Vorteile der Wechsler-Tests gegenüber den Binet-Skalen lassen sich in Wechslers langjähriger klinischer Erfahrung begründen, die Binet als reiner Forscher nicht aufweisen konnte (Kamphaus, 2005). Für seine erste Testbatterie für Kinder, die Wechsler Intelligence Scale for Children (WISC, Wechsler, 1949) – im Deutschen HAWIK (Hardesty & Priester, 1956) – adaptierte er die Untertests, die den HAWIK-Untertests Allgemeines Wissen, Rechnerisches Denken, Gemeinsamkeitenfinden, Wortschatz-Test, Zahlennachsprechen, Allgemeines Verständnis, Bilderergänzen, Bilderordnen, Mosaik-Test, Figurenlegen und Zahlen-Symbol-Test entsprechen, aus der Wechsler-Bellevue. Als zusätzlichen Untertest entwickelte er den Labyrinth-Test. Die Untertests waren in Verbal- und Handlungsskalen aufgeteilt und lieferten Werte für einen Verbal-, einen Handlungs- und einen Gesamt-IQ. Als Intelligenztest für jüngere Kinder folgte 1967 die Wechsler Preschool and Primary Scale of Intelligence (WPPSI, Wechsler, 1967). Ein Überblick über die Wechsler-Intelligenzskalen kann Tabelle 4.1 entnommen werden. Kapitel 4 Die Wechsler-Skalen 45 Tabelle 4.1: Die Wechsler-Intelligenzskalen im Überblick Skalen für Kinder und Jugendliche Wechsler Bellevue-Form II Wechsler Bellevue I (1939) (1946) (Wechsler, 1939b) (Wechsler, 1946) WAIS (1955) WISC (1949) (Wechsler, 1955) (Wechsler, 1949) HAWIE (1956) HAWIK (1956) (Bondy, 1956) (Hardesty & Priester, 1956) WAIS-R (1981) WISC-R (1974) (Wechsler, 1981) (Wechsler, 1974) HAWIE-R (1991) HAWIK-R (1983) (Tewes, 1991) (Tewes, 1983) WAIS-III (1997) WISC-III (1991) (Wechsler, 1997) (Wechsler, 1991) WIE (2006) HAWIK-III (1999) (von Aster, Neubauer & (Tewes, Rossmann & Horn, 2006) Schallberger, 1999) WISC-IV (2003) (Wechsler, 2003a) HAWIK-IV (2007) (Petermann & Petermann, 2008a) Anmerkung: Die deutschen Versionen sind grau unterlegt. Skalen für Erwachsene Skalen für Vor- und Grundschulkinder WPPSI (1967) (Wechsler, 1967) HAWIVA (1975) (Eggert, 1975) WPPSI-R (1989) (Wechsler, 1989) WPPSI-III (2002) (Wechsler, 2002) HAWIVA-III (2007) (Ricken, Fritz, Schuck & Preuß, 2007) Während ein Ziel bei der Entwicklung der Wechsler-Bellevue war, einen Intelligenztest für Erwachsene zu erhalten, der nicht nur eine schwierigere Version eines Intelligenztests für Kinder ist, sondern explizit für die Messung des kognitiven Leistungsstandes Erwachsener entwickelt wurde, stellte die WISC das Gegenteil dar, nämlich die vereinfachte Version eines Intelligenztests für Erwachsene. Aus diesem Grund wurde der WISC oft fehlende Kind-Orientierung vorgeworfen (Anastasi & Urbina, 1997). Die Eignung des Testverfahrens für Kinder zu verbessern war somit eines der Ziele bei der ersten Neuauflage der WISC. Die Wechsler Intelligence Scale for Children – Revised (WISC-R, Wechsler, 1974) – im Deutschen HAWIK-R (Tewes & Titze, 1994) – behielt alle Untertests der WISC bei und erweiterte die Altersspanne von 6 bis 15 auf 6 bis 16 Jahre. Das revidierte Testverfahren lieferte weiterhin Werte für den Verbal-, den Handlungs- und den Gesamt-IQ. Wie sein Vorgänger erfreute sich auch dieser Test großer Popularität. Der Bekanntheitsgrad lag dabei nicht nur im klinischen, sondern auch im empirischen Bereich, was die über 1 100 Veröffentlichungen zu verschiedenen Aspekten der klinischen Anwendbarkeit und Validität der WISC-R zum Ausdruck bringen (Reynolds & Kaufman, 1990). Die Wechsler Intelligence Scale for Children- Third Edition (WISC-III; Wechsler, 1991) – im Deutschen HAWIK-III (Tewes et al., 1999) – behielt alle Untertests der WISC-R bei, ergänzt durch den neuen Untertest Symbol-Suche zur Messung der Bearbeitungsgeschwindigkeit. Zusätzlich Kapitel 4 Die Wechsler-Skalen 46 zum Verbal-, Handlungs- und Gesamt-IQ wurden in der WISC-III vier neue – im HAWIK-III SV, WO, UA und AG genannte – Index-Werte zur genaueren Darstellung enger definierter Bereiche der kognitiven Funktionen eingeführt (ausführlicheres siehe Kapitel 4.2). Die aktuelle Version der Wechsler-Skalen, die WISC-IV (Wechsler, 2003a) – im Deutschen HAWIK-IV (Petermann & Petermann, 2008a) – beinhaltet die bisher größten Veränderungen gegenüber einer vorherigen Version (siehe auch Tabelle 4.2). Sie zeichnet sich nicht nur durch neue Untertests (Bildkonzepte, Buchstaben-Zahlen-Folgen, Matrizen-Test, Durchstreich-Test und Begriffe erkennen), sondern auch durch eine strukturelle Änderung der Skalen aus. Zusätzlich zum Gesamt-IQ stehen anstelle des Verbal- und Handlungs-IQ vier Index-Werte zur Verfügung, die aus 10 der 15 Untertests berechnet werden können (mehr dazu siehe Kapitel 4.3). Tabelle 4.2: Untertestzusammensetzungen der HAWIK-Versionen HAWIK AW RD GF WT ZN AV BE BO MT FL ZST LT HAWIK-R AW RD GF WT ZN AV BE BO MT FL ZST LT HAWIK-III AW RD GF WT ZN AV BE BO MT FL ZST LT SS HAWIK-IV AW RD GF WT ZN AV BE MT ZST SYS BK MZ BZF DT BEN Anmerkung: Abkürzungen siehe Anhang A5 und A6. Die Feststellung kognitiver Stärken und Schwächen erfolgt über spezifische Testverfahren, mit denen die Testleistung reliabel und valide erfasst werden kann. Intelligenztests unterscheiden sich in der Art der Testvorgabe wie folgt (Daseking et al., 2006): Papier- und Bleistift- vs. computergestützte Tests, Antworten in freiem Format vs. Mehrfachwahlantworten (multiple choice) und Schnelligkeit (speed) vs. Richtigkeit (power) der Aufgabenbearbeitung. Die Intelligenztestbatterien HAWIK-III und -IV stellen sich als Papier- und Bleistiftverfahren mit Antworten in freiem Format dar. Sie beinhalten sowohl Aufgaben, die auf Schnelligkeit, als auch Aufgaben, die auf die Richtigkeit der Aufgabenbearbeitung abzielen. Kapitel 4 4.2 Die Wechsler-Skalen 47 Der HAWIK-III Die WISC-III erschien 1991 in den USA (Wechsler, 1991) und kam acht Jahre später als HAWIKIII (Tewes et al., 1999) auf den deutschsprachigen Markt. Die Untertests des HAWIK-III lassen sich zwei übergeordneten Konstrukten zuordnen: dem Verbal- und dem Handlungsteil3. Dabei wird der Verbal-IQ auch als Sprachliche Intelligenz und der Handlungs-IQ als Praktische Intelligenz bezeichnet (Daseking & Petermann, 2004; Tewes, Rossmann & Schallberger, 2002). Zusätzlich können über verschiedene Untertestkombinationen vier Indizes berechnet werden: Sprachverständnis (SV), Wahrnehmungsorganisation (WO), Unablenkbarkeit (UA) und Arbeitsgeschwindigkeit (AG). Die hierarchische Struktur des HAWIK-III zeigt Abbildung 4.1. Gesamt-IQ Verbalteil SV AW GF Handlungsteil UA WT AV RD WO ZN BE BO MT AG FL ZST SS Abbildung 4.1: Hierarchische Struktur des HAWIK-III (modifiziert nach Tewes et al., 2002, S. 86) Anmerkungen: Abkürzungen siehe Anhang A5 und A6. In Anlehnung an die Intelligenzmodelle wird die Teststruktur in runden und eckigen Kästchen dargestellt (siehe Kapitel 3). Der HAWIK-III umfasst 13 Untertests, von denen 10 in die Berechnung des Gesamt-IQ und 12 in die Berechnung der Indizes einfließen. Eine inhaltliche Beschreibung der Untertests kann Tabelle 4.3 entnommen werden. Der Labyrinth-Test wurde in dieser Untersuchung in Anlehnung an andere Studien (siehe u. a. Johnson Grados & Russo-Garcia, 1999; Phelps et al., 2005; Watkins, 2005) nicht berücksichtigt, da er weder in die Gesamt-IQ- noch in die IndexBerechnung einbezogen wird und somit für die Vergleichbarkeit der Testversionen als unbedeutend erscheint. 3 Der Verbal- und Handlungsteil bzw. der Verbal- und Handlungs-IQ werden im Folgenden der Einfachheit halber als Gesamtwerte bezeichnet, da sie sich aus jeweils zwei Indizes zusammensetzen. Kapitel 4 Die Wechsler-Skalen 48 Tabelle 4.3: Die Untertests des HAWIK-III (modifiziert nach Tewes et al., 2002) Test Beschreibung Das Kind sieht eine Reihe von Bildern und zeigt oder benennt das wichtige Teil/Detail, BE das auf dem jeweiligen Bild fehlt. Das Kind beantwortet Fragen über allgemein bekannte Ereignisse, Sachverhalte, Orte AW und Persönlichkeiten. Eine Serie einfacher geometrischer Figuren (ZST-A) oder Ziffern (ZST-B), der das Kind abstrakte Symbole zuordnet. Es zeichnet in einer begrenzten Zeit die Symbole in die ZST dazugehörigen Figuren bzw. Ziffern, indem es einen Entschlüsselungscode verwendet. Das Kind soll das Gemeinsame von mündlich vorgegebenen Begriffspaaren benennen GF oder beschreiben. Die Begriffe beziehen sich auf Konzepte oder Gegenstände des Alltags. Dem Kind werden Bilderserien in falscher Reihenfolge vorgelegt. Das Kind hat die BO Aufgabe, sie in eine logisch richtige Reihenfolge zu sortieren, so dass sie eine kurze Geschichte bzw. einen Handlungsablauf wiedergeben. Das Kind löst eine Serie von zunächst mündlich, dann mündlich und schriftlich vorgeRD gebenen Rechenaufgaben. Mit Hilfe von zweifarbigen Würfeln soll das Kind unterschiedlich komplexe MusterMT vorlagen (Modell oder Bildvorlage) innerhalb einer vorgegebenen Zeitspanne nachbauen. WT Das Kind gibt Definitionen für die vom Testleiter vorgegebenen Worte. Jede Aufgabe besteht aus Teilen eines Puzzles, aus denen das Kind eine sinnvolle FL Figur zusammensetzen muss. Das Kind beantwortet Fragen, die das Verständnis von allgemeinen Prinzipien und AV sozialen Situationen oder Regeln erfordern. Das Kind vergleicht in einer begrenzten Zeit eine Gruppe von abstrakten Symbolen SS mit einem Zielsymbol und gibt an, ob sich das Zielsymbol in der Suchgruppe befindet. Dem Kind wird eine Serie von Zahlen vorgesprochen, die es in derselben Reihenfolge ZN (ZN vorwärts) beziehungsweise in umgekehrter Reihenfolge (ZN rückwärts) nachsprechen soll. Anmerkung: Abkürzungen siehe Anhang A5 und A6. Der HAWIK-III wird, wie sämtliche Wechsler-Intelligenztests, in der diagnostischen Einzelfalluntersuchung eingesetzt und ermöglicht die Darstellung eines intraindividuellen Leistungsprofils. Die von den jeweiligen Untertests erfassten kognitiven Funktionen (Tewes et al., 2002) werden in Tabelle 4.4 beschrieben. Kapitel 4 Die Wechsler-Skalen 49 Tabelle 4.4: Die erfassten Funktionen der HAWIK-III-Untertests (modifiziert nach Tewes et al., 2002) Test Beschreibung der erfassten Funktionen Kerntests (zur Bestimmung der IQ-Werte) Beobachtungsgenauigkeit und Fähigkeit zum Erkennen fehlender Details bei vertrauBE ten Objekten, Fähigkeit zwischen wesentlichen und unwesentlichen Details zu unterscheiden Breite des erworbenen Wissens, Langzeitgedächtnis für Faktenwissen, Interesse und AW Neugier für kulturspezifische Kenntnisse Visuomotorische Koordination, Konzentration und Arbeitsgeschwindigkeit, visuelles ZST Kurzzeitgedächtnis Erkennen von unmittelbaren, funktionalen oder abstrakten Beziehungen zwischen GF Begriffen, Objekten oder Qualitäten auf der Grundlage von Analogiebildungen. Praktisches Urteilsvermögen beim Erkennen von logischen Ereignisfolgen und UrsaBO che-Wirkungszusammenhängen, schlussfolgerndes Denken, Aufmerksamkeit für Details und Hintergrundinformationen Akustische Merkfähigkeit, Arbeitsgedächtnis, Konzentrationsvermögen und Fähigkeit RD zur Lösung einfacher Rechenaufgaben im Kopf und unter Zeitdruck Räumliche Wahrnehmung und visuomotorische Koordination, Unterscheidung zwiMT schen Teilen und Ganzem beim Erkennen abstrakter visueller Muster Wortkenntnis, Umfang des Wortschatzes, Fähigkeit zur Definition von Begriffen, allWT gemeine sprachliche Entwicklung Wiedererkennen von vertrauten Objekten, Erkennen von Beziehungen zwischen TeiFL len und dem Ganzen Praktisches Urteilsvermögen, Kenntnis konventioneller sozialer Regeln und ihrer BeAV deutungen Optionale Untertests (zur Bestimmung der Index-Werte) Beobachtungsgenauigkeit und Konzentration, Geschwindigkeit geistiger VerarbeiSS tungsprozesse Akustische Merkfähigkeit, Arbeitsgedächtnis, Aufmerksamkeit und KonzentrationsZN vermögen Anmerkung: Abkürzungen siehe Anhang A5 und A6. 4.3 Der HAWIK-IV Der HAWIK-IV stellt die deutschsprachige Version der WISC-IV dar, die 2003 in den USA erschien. Wie oben beschrieben weist er eine deutlich andere hierarchische Struktur auf als bisherige HAWIK-Versionen (siehe Abbildung 4.2). Der Gesamt-IQ wird nicht mehr in Verbal- und Handlungsteil unterteilt, sondern in die vier Indizes Sprachverständnis (SV), Wahrnehmungsgebundenes Logisches Denken (WLD), Arbeitsgedächtnis (AGD) und Verarbeitungsgeschwindigkeit (VG). Diese werden wiederum mit Hilfe von zwei oder drei Untertests berechnet. Kapitel 4 Die Wechsler-Skalen 50 Gesamt-IQ SV GF WT WLD AV MT BK AGD MZ ZN BZF VG ZST SYS Abbildung 4.2: Die hierarchische Struktur des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) Anmerkungen: Abkürzungen siehe Anhang A5 und A6. In Anlehnung an die Intelligenzmodelle wird die Teststruktur in runden und eckigen Kästchen dargestellt (siehe Kapitel 3). Der HAWIK-IV umfasst 15 Untertests, von denen 10 in die Berechnung der Indexwerte und des Gesamt-IQ einfließen. Tabelle 4.5 enthält die inhaltliche Beschreibung der Untertests. Tabelle 4.5: Die Untertests des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) Test Beschreibung Mit Hilfe von zweifarbigen Würfeln soll das Kind unterschiedlich komplexe MusterMT vorlagen innerhalb einer vorgegebenen Zeitspanne nachbauen. Das Kind soll das Gemeinsame von mündlich vorgegebenen Begriffspaaren benennen GF oder beschreiben, die sich auf Konzepte oder Gegenstände des Alltags beziehen. Dem Kind wird eine Serie von Zahlen vorgesprochen, die es in derselben Reihenfolge ZN (ZN-V) beziehungsweise in umgekehrter Reihenfolge (ZN-R) nachsprechen soll. Das Kind soll aus zwei bzw. drei Bildreihen (mit je zwei bis vier Bildern) jeweils ein Bild BK auswählen, um daraus eine Gruppe mit einer gemeinsamen Eigenschaft zu bilden. Eine Serie einfacher geometrischer Figuren (ZST-A) oder Ziffern (ZST-B), der das Kind ZST abstrakte Symbole zuordnet. Es zeichnet durch Verwendung eines Entschlüsselungscodes in einer begrenzten Zeit die Symbole in die dazugehörigen Figuren bzw. Ziffern. Bei den Bildaufgaben benennt das Kind die Bilder, die ihm vorgelegt werden. Bei den WT verbalen Aufgaben gibt das Kind Definitionen für verschiedene Worte. Dem Kind werden eine Reihe von Nummern und Buchstaben vorgelesen. Es gibt die BZF Nummern in aufsteigender und die Buchstaben in alphabetischer Reihenfolge wieder. Das Kind betrachtet eine unvollständige Matrize und wählt das fehlende Teil aus fünf MZ Antwortmöglichkeiten. Das Kind beantwortet Fragen, die das Verständnis von allgemeinen Prinzipien und AV sozialen Situationen oder Regeln erfordern. Das Kind vergleicht in einer begrenzten Zeit eine Gruppe von abstrakten Symbolen SYS mit einem Zielsymbol und gibt an, ob sich das Zielsymbol in der Suchgruppe befindet. Das Kind sieht eine Reihe von Bildern und zeigt oder benennt das wichtige Teil/Detail, BE das auf dem jeweiligen Bild fehlt. Das Kind betrachtet eine unstrukturierte beziehungsweise eine strukturierte BilderDT anordnung und markiert in einer begrenzten Zeit die Zielbilder (Tiere). Das Kind beantwortet Fragen über allgemein bekannte Ereignisse, Sachverhalte, Orte AW und Persönlichkeiten. RD Das Kind löst eine Serie von mündlich vorgegebenen Rechenaufgaben. Das Kind entschlüsselt den allgemeinen Begriff, der mit einer Reihe von Sätzen (SatzBEN teilen) umschrieben wird. Anmerkung: Abkürzungen siehe Anhang A5 und A6. Kapitel 4 Die Wechsler-Skalen 51 Wie oben beschrieben, wurden einige Untertests zur Erhebung der HAWIK-IV-Funktionen entwickelt, die in den vergangenen Jahren als wichtige kognitive Fähigkeitsbereiche ermittelt wurden. Die erfassten Funktionen sämtlicher Untertests werden in Tabelle 4.6 beschrieben. Tabelle 4.6: Die erfassten Funktionen der HAWIK-IV-Untertests (modifiziert nach Daseking et al., 2007). Test Beschreibung der erfassten Funktionen Kerntests (zur Bestimmung der IQ-Werte) Analyse und Synthetisierung abstrakter visueller Stimuli, nonverbale Konzeptbildung, MT visuelle Wahrnehmung und Organisation, visuomotorische Koordination, FigurGrund-Unterscheidung bei visuellen Stimuli Verbales Schlussfolgern und Konzeptbildung, auditives Verständnis, Gedächtnis, verGF baler Ausdruck Auditives Kurzzeitgedächtnis; Fertigkeit zur Reihenbildung, Aufmerksamkeit. Zahlen nachsprechen vorwärts: automatisiertes Lernen, Gedächtnis, Aufmerksamkeit. ZN Zahlen nachsprechen rückwärts: Arbeitsgedächtnis, mentale Rotation, visuellräumliches Vorstellungsvermögen. Wechsel: kognitive Flexibilität BK Abstraktes kategoriales Denken Kognitive Verarbeitungsgeschwindigkeit, Kurzzeitgedächtnis, Lernfähigkeit, visuelle ZST Wahrnehmung, visuomotorische Koordination, Fähigkeit zum visuellen Scanning, kognitive Flexibilität, Aufmerksamkeit Wortwissen und Begriffsbildung, Lernfähigkeit, Langzeitgedächtnis, SprachentwickWT lung Reihenfolgenbildung, mentale Rotation, Aufmerksamkeit, auditives KurzzeitgedächtBZF nis, visuell-räumliches Vorstellungsvermögen, Verarbeitungsgeschwindigkeit MZ Fluide Intelligenz Verbales Schlussfolgern und verbale Konzeptualisierung, sprachliches Verständnis, AV sprachlicher Ausdruck, Wissen um konventionelle Verhaltensstandards, soziales Urteil Kognitive Verarbeitungsgeschwindigkeit, visuelles Kurzzeitgedächtnis, visuomotoriSYS sche Koordination, kognitive Flexibilität, visuelle Diskrimination, Konzentration Optionale Untertests (zusätzliche Informationen) BE Visuelle Wahrnehmung und visuelle Organisation DT Verarbeitungsgeschwindigkeit, visuelle selektive Aufmerksamkeit AW Kristalline Intelligenz, allgemeines Faktenwissen, Langzeitgedächtnis Mentale Rotation, Konzentration, Aufmerksamkeit, Kurz- und Langzeitgedächtnis, RD Rechenfähigkeit Verbales Schlussfolgern, sprachliches Verständnis, verbale Abstraktion, BereichswisBEN sen, Integration und Synthetisierung verschiedener Informationsarten, Generierung alternativer Konzepte Anmerkung: Abkürzungen siehe Anhang A5 und A6. 4.4 Testgütekriterien des HAWIK-III und HAWIK-IV Nach Amelang und Schmidt-Atzert (2006) können die Gütekriterien zur Bewertung eines Testverfahrens wie folgt aufgegliedert werden: Kriterien zu den Grundlagen eines Tests (diagnostische Zielsetzung, theoretische Grundlagen und Nachvollziehbarkeit der Testkonstruktion), Kapitel 4 Die Wechsler-Skalen 52 Kriterien zur Durchführung eines Tests (Durchführungsobjektivität, Transparenz, Zumutbarkeit, Verfälschbarkeit und Störanfälligkeit), Kriterien zur Verwertung eines Tests (Auswertungsobjektivität, Zuverlässigkeit, Gültigkeit, Normierung, Bandbreite, Informationsausschöpfung und Änderungssensitivität), Kriterien zur Evaluation eines Tests (Ökonomie, Fairness, Akzeptanz, Vergleichbarkeit und Bewährung) sowie Kriterien zur äußeren Gestaltung eines Tests. Dabei kommen den Hauptgütekriterien Objektivität, Reliabilität und Validität zentrale Bedeutung zu. 4.4.1 Objektivität Die Objektivität eines Intelligenztests ist von großer Bedeutung (Hall, Howerton & Bolin, 2005; Lipsius, Petermann & Daseking, 2008). Ihr Mangel kann zu Einschränkungen der Aussagekraft auch dieser Studie führen. Die Objektivität bestimmt sich dabei nach dem Ausmaß, in dem die Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind (Amelang & Schmidt-Atzert, 2006). Bei umfangreichen Testbatterien wie dem HAWIK-III und -IV führen Fehler des Testleiters in der Durchführung und Auswertung des Tests bisweilen zu gravierenden Abweichungen zwischen Testergebnis und wahrem Wert. Um dem mangelhaften Umgang mit Testverfahren entgegenzuwirken, haben in der Vergangenheit einige Organisationen Testleitlinien und -standards entwickelt (Häcker, Leutner & Amelang, 1998; Moosbrugger & Höfling, 2006). Zu nennen sind vor allem die Standards für pädagogisches und psychologisches Testen, die von der AERA (American Educational Research Association), der APA (American Psychological Association) und der NCME (National Council on Measurement in Education) entwickelt wurden (Standards for educational and psychological testing, AERA, APA & NCME, 1999) sowie die Richtlinien der International Test Commission (International guidelines for test use, ITC, 2000). Letztgenannte liegen in deutscher Fassung vom BDP (Berufsverband Deutscher Psychologinnen und Psychologen) vor (2001). Auch die Interpretationsobjektivität ist bei Intelligenztests nicht immer gegeben. Sie betrifft den Grad der Eindeutigkeit, mit der gleichen Werten (also in diesem Fall Testergebnissen) auch gleiche Merkmalsausprägungen (also hier kognitive Fähigkeiten) zugeordnet werden (Fisseni, 2004). 4.4.1.1 Objektivität im HAWIK-III Die Durchführung des HAWIK-III erfolgt weitestgehend anhand standardisierter Materialien. Im Manual werden keine empirischen Befunde zur Objektivtät berichtet, was auch kritisiert wird (Renner & Fricke, 2001). Studien zur Durchführungs- und Auswertungsobjektivität des HAWIK-III kamen übereinstimmend zu dem Ergebnis, dass Testleiter vor allem in den verbalen Untertests häufig eine große Anzahl sehr unterschiedlicher Fehler machen und somit eine voll- Kapitel 4 Die Wechsler-Skalen 53 ständige Objektivität nicht gewährleistet ist (Alfonso, Johnson, Patinella & Rader, 1998; Hall et al., 2005). Außerdem wurde bemängelt, dass die Antwortbeispiele nicht immer dem aktuellen Sprachgebrauch der Kinder entsprächen und somit eine Bewertungsentscheidung erschwert werde. Bei konsequenter Einhaltung der Richtlinien für die Testdurchführung und -auswertung kann jedoch von einer Durchführungs- und Auswertungsobjektivität ausgegangen werden (Daseking & Petermann, 2004; Jacobs, Heubrock & Petermann, 2002). Die oftmals notwendige parallele Protokollierung und Bewertung sowie der sekundengenaue Umgang mit der Stoppuhr erfordern eine intensive Einarbeitung in den Test. Die Auswertung wird durch Beispiele und Schablonen erleichtert. 4.4.1.2 Objektivität im HAWIK-IV Zur Reduzierung von Durchführungs- und Bewertungsfehlern wurde das Design des WISC-IVProtokollbogens geändert. Eine verkürzte Version der wichtigsten Regeln zu Einstiegsalter, Umkehr, Abbruch und Bewertung befindet sich für jeden Untertest auf dem Protokollbogen. Zur Verbesserung der Anwenderfreundlichkeit des Tests wurden die Durchführungsprozeduren modifiziert. Die Instruktionen an die Testleiter sind kürzer und verständlicher gehalten. Zur objektiveren Gestaltung der Bewertung wurden zusätzliche Beispielantworten einbezogen. Für konsistente und klare Durchführung wird außerdem in den Anweisungen bei allen Untertests ein ähnlicher Wortlaut verwendet. Diese Veränderungen wurden auch für den HAWIK-IV übernommen und werden positiv bewertet (Deimann & Kastner-Koller, 2008; Renner, 2008). Zur Bestimmung angemessener Punktwerte für vielfältige Antworttypen wurden für jene Untertestaufgaben, die elaboriertere Antworten erfordern, eine Reihe von Studien durchgeführt (siehe dazu Wechsler, 2003b). Dem begrenzten Wortschatz jüngerer Kinder wurde durch die stärkere Betonung der Bedeutung der Antworten als deren präziser Inhalt Rechnung getragen. Zur Erleichterung der Bewertung der verbalen Untertests wurden zusätzliche Beispielantworten in das Manual aufgenommen. Mit dem Überblick über die gravierendsten Durchführungsund Auswertungsfehler am Ende des deutschen HAWIK-IV-Manuals wurde ein weiterer sinnvoller Versuch unternommen, die Objektivität des Tests zu verbessern (Lipsius et al., 2008). Insgesamt wurde bei der Entwicklung der WISC-IV dem Problem der Testleiterobjektivität durch anwenderfreundlichere Durchführungsanweisungen begegnet. Dennoch zeigen bisherige Studien, dass der HAWIK-IV, ebenso wie die WISC-IV, weiterhin ein hohes Fehlerpotential hinsichtlich der Durchführung, Auswertung und Interpretation birgt (Linger, Ray, Zachar, Underhill & Lobello, 2007; Platt, Zachar, Ray, Underhill & Lobello, 2007). Beispielsweise führten bei einer Untersuchung zum HAWIK-IV eine fehlerhafte Auswertung der sprachlichen Untertests zu Abweichungen von bis zu 33 IQ-Punkten im SV (Lipsius et al., 2008). In einer Studie zur WISC-IV (Loe, Kadlubek & Marks, 2007) wiesen 98 % der untersuchten Testprotokolle Fehler auf; im Schnitt waren es mehr als 25 Fehler pro Test. Kapitel 4 Die Wechsler-Skalen 54 4.4.2 Reliabilität Die Reliabilität beschreibt, wie genau ein Test misst und gibt Auskunft über die situationsübergreifende Stabilität und Konsistenz der Testwerte (Bortz & Döring, 2002). Tests mit geringer Reliabilität beinhalten mehr Messfehler und demzufolge höhere Standardmessfehler als Testverfahren mit hoher Reliabilität. Daraus resultieren für Tests mit geringeren Reliabilitäten breitere Konfidenzintervalle, die den wahren Wert umgeben. Damit gilt die Reliabilität als das Varianzverhältnis zwischen wahren und beobachteten Werten (Bühner, 2004). Im Allgemeinen gelten erst Reliabilitäten ab .80 als ausreichend. Daher wird davon abgeraten, Tests mit Reliabilitäten unter .80 für wichtige Screening- oder Diagnose-Entscheidungen zu verwenden (Flanagan & Kaufman, 2004). Die Reliabilitäten des HAWIK-III und -IV wurden nach der Testhalbierungsmethode bestimmt und nach Spearman-Brown korrigiert. Die Reliabilitäten des HAWIK-III und HAWIK-IV (siehe Tabelle 4.7) erweisen sich auf Ebene der Index-Werte und des Gesamt-IQ als fast identisch. Auf Ebene der Untertests sind jedoch teilweise größere Abweichungen zu verzeichnen. Tabelle 4.7: Reliabilitäten der Untertests, Indizes und des Gesamt-IQ des HAWIK-III und -IV Untertest/Index HAWIK-III HAWIK-IV MT .88 .85 GF .80 .87 ZN .88 .84 ZST .85 .85 WT .88 .90 AV .81 .81 SS/SYS .79 .79 BE .74 .83 AW .85 .85 RD .84 .89 SV/SV .94 .94 WO/WLD .90 .93 UA/AGD .89 .92 AG/VG .87 .87 V-IQ/SV .95 .94 H-IQ/WLD .91 .93 Gesamt-IQ .96 .97 Anmerkungen: Reliabilitäten mit einer Differenz von ≥ .05 sind grau hervorgehoben. Es werden nur die Reliabilitäten der Untertests dargestellt, die in beiden Testversionen vorhanden sind. Abkürzungen siehe Anhang A5 und A6. Als Untertest mit der am meisten voneinander abweichenden Reliabilität stellt sich das Bilder ergänzen4 dar, gefolgt vom Gemeinsamkeiten finden. 4 Bezieht sich die Untertestbezeichnung nicht eindeutig auf den Untertest einer bestimmten Testversion wird die Schreibweise des HAWIK-IV verwendet. Kapitel 4 Die Wechsler-Skalen 55 Auch wenn sich die Reliabilitäten der Untertests Zahlen-Symbol-Test und Symbol-Suche als identisch erweisen, kann nicht von einer vergleichbaren Reliabilität ausgegangen werden, da sie auf unterschiedliche Arten berechnet wurden. Im HAWIK-III wurden sie getrennt für Form A und B an zwei Altersgruppen von jeweils 75 Kindern geschätzt. Dabei wurde die Anzahl der richtigen Lösungen der ersten 60 Sekunden mit der Anzahl der richtigen Lösungen der zweiten 60 Sekunden korreliert. Auf die Berechnung der Reliabilitäten nach der Testwiederholungsmethode wurde mit dem Hinweis auf die Ergebnisse der WISC-III verzichtet (Tewes et al., 2002). Im HAWIK-IV wurde dagegen für die Untertests des Index VG die Retest-Reliabilität bestimmt. Dabei stellt der Koeffizient die Korrelation zwischen den Werten der ersten und der zweiten Testung von 103 Kindern aus drei Altersstufen dar, korrigiert um die Varianz der Normierungsstichprobe. In den Untertests des Verbalteils im HAWIK-III zeigten sich mit .80 bis .88 höhere Reliabilitäten als in den Untertests des Handlungsteils mit Werten zwischen .68 und .88. Neben dem in dieser Studie nicht berücksichtigten Labyrinth-Test weist Figurenlegen mit .69 die niedrigste Reliabilität auf. Die Indizes beinhalten mit Reliabilitäten von.87 bis .94 und die drei übergeordneten IQ-Werte mit .91 bis .96 höhere Reliabilitäten als die Untertests. Auch im HAWIK-IV fallen die Reliabilitäten der Untertests (.76 bis .91) insgesamt niedriger aus als die Reliabilitäten der Index-Werte (.87 bis .94) und des Gesamt-IQ (.97). Dies kann damit begründet werden, dass die Reliabilitätswerte generell höher ausfallen, je mehr Werte in die Berechnung einfließen. 4.4.3 Validität Die Überprüfung der Validität (oder Validierung) soll Aufschluss darüber erbringen, welche Aspekte des Verhaltens vom jeweiligen Instrument erfasst werden und welche Prognosen mit ihm möglich sind (Lienert & Raatz, 1998). Nur mit einer hohen Validität kann es möglich sein, einen Test gezielt einzusetzen und sinnvoll zu interpretieren (Holling et al., 2004). Im Folgenden wird nur auf die für diese Vergleichsstudie relevanten Validitätsaspekte eingegangen. 4.4.3.1 Nachweis der internen Struktur Die Überprüfung der internen Struktur gibt den Grad an, in dem die Beziehungen unter Testaufgaben und Testkomponenten zu dem Konstrukt passen, auf dem die vorgeschlagenen Testinterpretationen basieren (Standards for educational and psychological testing, AERA, APA & NCME, 1999). Interne Validität ist demnach dann gegeben, wenn das Testergebnis den Annahmen entspricht, die vorher aufgestellt wurden. Kapitel 4 Die Wechsler-Skalen 56 Die interne Struktur wird mit Hilfe von Faktorenanalysen überprüft. Auch in dieser Studie soll untersucht werden, inwieweit sich die Faktoren, die die beiden Testverfahren zu messen vorgeben, in den vorliegenden Daten wiederfinden lassen. Die Werte der mit den Normierungsdaten der WISC-IV durchgeführten exploratorischen Faktorenanalyse können Tabelle 4.8 entnommen werden. Tabelle 4.8: Exploratorische Faktorenanalyse für alle 15 WISC-IV Untertests (gesamte Normierungsstichprobe, n = 1525) (modifiziert nach Wechsler, 2003b). Faktor Untertest SV WLD AGD VG WT .87 -.05 .06 .00 AV .78 -.13 .06 .07 BEN .73 .09 -.07 -.01 GF .71 .13 .02 -.02 AW .71 .08 .11 -.06 MT -.06 .78 .04 -.02 MZ -.03 .64 .19 -.04 BE .32 .60 -.26 .02 BK .16 .40 .06 .02 ZN .00 -.03 .67 -.05 BZF .11 -.04 .62 .00 RD .14 .18 .51 .03 ZST -.02 .01 .05 .70 DT .01 -.09 -.11 .65 SYS .01 .17 .08 .54 Anmerkungen: Sortiert nach Index und nach Höhe der Faktorladungen. Abkürzungen siehe Anhang A5 und A6. Faktorenanalysen des HAWIK-III: Zur Prüfung, inwieweit dem HAWIK-III eine ähnliche Faktorenstruktur zugrunde liegt wie der WISC-III, deren Struktur anhand von Faktorenanalysen bestätigt werden konnte (Näheres dazu siehe Blaha & Wallbrown, 1996; Keith & Witta, 1997; Konold, Kush & Canivez, 1997; Sattler, 2001), wurden Faktorenanalysen auf Basis der Normierungsstichprobe für vier separate Altersgruppen und die Gesamtstichprobe durchgeführt (Tewes et al., 2002). Die Berechnungen erfolgten nach der Maximum-Likelihood-Methode mit Varimax-Rotation. Zur Überprüfung der Aufteilung in Verbal- und Handlungsteil wurde zunächst eine Faktorenanalyse für eine Zweifaktorenlösung berechnet. Auf der Basis der Gesamtstichprobe zeigten sich bei allen Untertests des Verbalteils hohe Ladungen auf dem ersten Faktor, mit Ausnahme des Zahlennachsprechens, das - ebenso wie die Untertests des Handlungsteils - eine etwas höhere Ladung auf dem zweiten Faktor aufwies. Rechnerisches Denken lud ebenso wie das Zahlennachsprechen annähernd gleich hoch auf beiden Faktoren. Die Untersuchung der Vier-Faktoren-Struktur auf Index-Ebene wurde für verschiedene Altersgruppen sowie die Gesamtstichprobe mit unterschiedlichen Abbruchkriterien berechnet, wodurch sich die Faktorenanzahl und die Faktorenstruktur veränderten. Unter Beschränkung der Extraktion auf Faktoren mit Eigenwerten von >1, ergaben sich für die Gesamtstichprobe drei Faktoren Kapitel 4 Die Wechsler-Skalen 57 (SV, WO und AG). Der Index UA zeigte jedoch einen Eigenwert von deutlich unter 1.0. Auch wenn die Autoren des HAWIK-III die Ergebnisse mit Abstrichen als empirische Bestätigung für die vier Faktoren ansahen, wurde die Interpretation der Testergebnisse auf Index-Ebene vielfach kritisiert. So konnte nachgewiesen werden, dass insbesondere der Faktor UA nicht explizit Ablenkbarkeit oder Hyperaktivität erfasst, auch wenn er sehr häufig in dieser Weise und als Hinweis auf ADHS interpretiert wurde (Naglieri & Paolitto, 2005; Zhu et al., 2004). Faktorenanalysen des HAWIK-IV: Die von den Testentwicklern vorgegebene Zuordnung der Untertests zu den vier Indizes konnte auf der Basis der deutschsprachigen Normierungsstichprobe faktorenanalytisch sowohl für die zehn Kerntests als auch für alle 15 Untertests bestätigt werden (Petermann & Petermann, 2008a, siehe Tabelle 4.9). Tabelle 4.9: Exploratorische Faktorenanalyse für alle 15 Untertests des HAWIK-IV (gesamte Normierungsstichprobe, n = 1650) (modifiziert nach Petermann & Petermann, 2008a, S. 133). Faktor Untertest SV WLD AGD VG WT .67 .09 .17 .09 GF .62 .23 .09 .08 AV .61 .13 .11 .17 BEN .60 .10 .15 .14 AW .58 .16 .21 .08 BE .20 .58 .06 .10 MT .09 .55 .10 .20 MZ .03 .53 .26 .12 BK .13 .51 .17 .04 ZN .06 .00 .69 .09 BZF .05 .12 .69 .06 RD .13 .26 .55 .06 SYS .06 -.03 .04 .82 ZST -.01 .08 .05 .76 DT .09 .19 .10 .48 Anmerkungen: Sortiert nach Index und nach Höhe der Faktorladungen. Abkürzungen siehe Anhang A5 und A6. 4.4.3.2 Konstruktvalidität Die Konstruktvalidität spiegelt die Aussagekraft eines Testwerts als Messung des Ausprägungsgrades der interessierenden psychologischen Eigenschaft wider (Häcker et al., 1998). Ein Test ist demnach konstruktvalide, wenn aus dem zu erfassenden Zielkonstrukt Hypothesen ableitbar sind, die anhand der Testwerte bestätigt werden können (Bortz & Döring, 2002). Sie beschreibt ein Gesamtbild der Validität, das sich beispielsweise aus dem Nachweis des dem Test zu Grunde liegenden Modells (z. B. durch Prüfung von Strukturannahmen) oder aus anderen Bestandteilen wie der diskriminanten und der konvergenten Validität eines Tests ergibt. Die konvergente Validität setzt hohe Korrelationen der Messdaten von Testverfahren voraus, die dasselbe Konstrukt abbilden. Eine hohe diskriminante Validität liegt hingegen dann vor, wenn ein Test zu anderen Tests, die andere Konstrukte abbilden, niedrige Zusammenhänge aufweist. Kapitel 4 Die Wechsler-Skalen 58 Zur Untersuchung der diskriminanten und konvergenten Validität der WISC- bzw. HAWIKVersionen werden in einer Multitrait-Multimethod-Matrix die Interkorrelationen der Untertests angegeben. Dabei wird zum einen davon ausgegangen, dass die Untertests untereinander zumindest niedrige bis mittlere Korrelationen aufweisen, da sie dem allgemeinen Intelligenzfaktor g unterliegen. Zweitens werden hohe Interkorrelationen der Untertests erwartet, die zu einem Index gehören, während bei den Untertests unterschiedlicher Indizes niedrige Interkorrelationen erwartet werden. Drittens zeigen in bisherigen Studien einige Untertests höhere Korrelationen mit g als andere Untertests (Keith et al., 2006; Sattler, 2001; Wechsler, 2003b). Aus diesem Grund ist in den Untertests eine relativ hohe Interkorrelation zu erwarten, die hoch auf g laden. Diese Hypothesen konnten für sämtliche Wechsler-Skalen bestätigt werden (für Ausführlicheres soll an dieser Stelle auf die entsprechenden Testmanuale verwiesen werden). 4.4.4 Normen des HAWIK-III und HAWIK-IV Das Manual des HAWIK-III bietet Testnormen und Umrechnungstabellen für die Altersspanne von 6;0 bis 16;11 Jahren in Vier-Monats-Intervallen für 33 Altersgruppen mit insgesamt 1 570 Kindern und Jugendlichen. Die Normierung des HAWIK-III erfolgte von 1995 bis 1998 in Deutschland, Österreich und der deutschsprachigen Schweiz. Auswahl und bildungsspezifische Zuordnung der Kinder erfolgte nach Angaben des deutschen Statistischen Jahrbuchs (Näheres dazu siehe Tewes et al., 2002). Die Normierungsstichprobe des HAWIK-IV, die zwischen März 2005 und Mai 2006 in Deutschland, Österreich und der deutschsprachigen Schweiz erhoben wurde, beinhaltet die Daten von 1 650 Kindern und Jugendlichen im Alter von 6;0 bis 16;11 Jahren, (unter Bezug auf Angaben des Statistischen Bundesamtes der BRD) geschichtet nach Merkmalen wie Region, Schulform und Schulabschluss der Eltern. Wie im HAWIK-III wurden die Normtabellen in Vier-MonatsIntervalle unterteilt. 4.4.5 Boden- und Deckeneffekte Boden- und Deckeneffekte beeinträchtigen die Beurteilung der wahren Fähigkeiten einer Person durch den Test. Sie führen zu einer niedrigeren Reliabilität und somit zu einem größeren Messfehler. Beinhaltet ein Test zu wenige sehr leichte und sehr schwierige Aufgaben, kann an den Randbereichen nicht ausreichend differenziert werden. Da die Skala beispielsweise bei den Wechsler-Skalen auf die Wertpunkte 1 bis 19 festgelegt wurde, kann in einem Untertest nicht mehr als drei Standardabweichungen (9 Punkte) vom Mittelwert abgewichen werden. Aufgrund von Boden- und Deckeneffekten sind einige Testverfahren nicht ausreichend zur Diagnose von Hoch- oder Minderbegabung geeignet, da aufgrund der Normalverteilung nur wenige Personen an den Randbereichen getestet wurden und diese somit durch zu wenige Kapitel 4 Die Wechsler-Skalen 59 leichte und schwierige Aufgaben nicht ausreichend Ergebnisvarianz aufweisen (Preckel, 2003). Die beste Differenzierung findet sich für alle Altersstufen im mittleren Leistungsbereich. Zwar wurde der WISC-III eine recht gute Differenzierung im oberen Bereich zuerkannt (Kaufman, 1992), bei Hochbegabten galt dies allerdings nur im Altersbereich 6 bis 14 Jahre. Auch der HAWIK-III unterscheidet in den extremen Leistungsbereichen nicht in allen Altersgruppen gleichermaßen hochwertig (Daseking & Petermann, 2004). Die Testautoren weisen auf das Problem mangelhafter Differenzierung bei geistig retardierten Kindern am unteren (Bodeneffekt) und hochbegabten Jugendlichen am oberen Altersrand (Deckeneffekt) hin (Tewes et al., 2002). Andere Autoren beschreiben ebenfalls die Problematik des Deckeneffektes bei Hochbegabten im HAWIK-III (Bründler et al., 2007; Preusche & Leiss, 2003; Sparrow & Gurland, 1998). Den Untertests der WISC-IV werden dagegen gute Differenzierungsmöglichkeiten im oberen und unteren Leistungsbereich attestiert (Flanagan & Kaufman, 2004). Um eine adäquate Abdeckung eines weiten Bereiches kognitiver Fähigkeiten sicherzustellen, wurden sowohl leichtere als auch schwierigere Aufgaben hinzugefügt (z. B. vier Bildaufgaben zum Wortschatz-Test und 15 zusätzliche Aufgaben zur Symbol-Suche-B). Damit sollen nun für sämtliche Kerntests über alle Altersstufen hinweg Standardwerte bis zu drei SD über dem Mittelwert vorgesehen sein. Nach den Autoren des HAWIK-IV reicht dessen Differenzierung von sechsjährigen Kindern mit moderater geistiger Entwicklungsverzögerung bis zu 16-jährigen Kindern mit intellektueller Hochbegabung (Petermann & Petermann, 2008a). Dafür wurden sowohl Kinder in die Normierung miteinbezogen, die nach den Kriterien des ICD-10 die Diagnose einer leichten oder mittelgradigen geistigen Behinderung erhielten als auch Kinder mit einer diagnostizierten intellektuellen Hochbegabung. Auch Renner (2008) attestiert dem HAWIK-IV kaum Boden- und Deckeneffekte und sieht somit eine deutliche Verbesserung zum HAWIK-III hinsichtlich der Differenzierung in den Extrembereichen. Innerhalb der fünf optionalen Untertests zeigt in der WISC-IV nur das Word Reasoning (entspricht dem Begriffe erkennen) einen leichten Deckeneffekt ab dem Alter 14. Im HAWIK-IV weist lediglich das Begriffe erkennen und Bilder ergänzen bei Kindern von 16 Jahren einen leichten Deckeneffekt auf. Da es sich dabei jedoch nur um optionale Untertests handelt, kann bei der WISC-IV ebenso wie beim HAWIK-IV von einer guten Differenzierung im oberen Randbereich ausgegangen werden, was ihn zu einem der geeignetsten Intelligenztests für Hochbegabte macht (Sparrow, Pfeiffer & Newman, 2005). 4.5 Die Bewertung der Wechsler-Skalen Die Kritik an den Wechsler-Skalen lässt sich in verschiedene Kategorien einteilen. Kapitel 4 Die Wechsler-Skalen 60 4.5.1 Fehlende theoretische Bindung Obwohl überwältigende Nachweise für die klinische Relevanz der Wechsler-Skalen geliefert werden konnten, wurde immer wieder das Fehlen eines expliziten zu Grunde liegenden theoretischen Konzepts moniert (z. B. Beres, Kaufman & Perlman, 2000; Esters, Ittenbach & Han, 1997). So bezeichnen Esters et al. (1997) die WISC-III als Arbeitstier der IQ-Tests, mit dem zwar viel untersucht werde, jedoch nichts hinsichtlich einer vertretbaren theoretischen Grundlage. Die Tradition der Wechsler-Skalen ebenso wie ihr Marktanteil ständen sogar einem entsprechenden wissenschaftlichen Fortschritt im Wege. „One wonders how much longer it will be before tradition and market share give way to the new and improved science of psychological assessment“ (S. 214). Vor allem den Versionen bis zur WISC-III wurde mangelnde Anpassung an den Stand der Forschung vorgeworfen. Kamphaus (1993) fasste zusammen: „The WechslerIII`s history is also its greatest liability. Much has been learned about children`s cognitive development since the conceptualization of the Wechsler scales, and yet few of these findings have been incorporated into revisions” (S. 156). Nach Sternberg (1993, zitiert nach Prifitera, 1994) sind neuere Intelligenztests, die auf aktuellen Theorien basieren, jedoch entweder nicht verfügbar oder weisen nur eingeschränkte Gütekriterien auf, weshalb die herkömmlichen Intelligenztests so populär blieben. Außerdem würden seiner Meinung nach Teile der WISC-III tatsächlich relativ zuverlässig solche Konstrukte erfassen, die auf aktuellen Intelligenztheorien basieren (siehe Kapitel 3). Trotzdem werden die Wechsler-Skalen immer wieder mit dem Vorwurf konfrontiert, die Interpretation der Testergebnisse bleibe weitgehend der Intuition der Diagnostiker überlassen, da ihnen kein theoretisches, empirisch erprobtes Modell zugrundeliege (Holling et al., 2004). McFie (1975) behauptet sogar, es sei nur ein glücklicher Zufall, dass viele der Wechsler-Untertests neurologische Relevanz zeigten. Carroll (1993) bewertete die Wechsler-Skalen im Zuge seiner faktorenanalytischen Studien wie folgt: „Presently available technology would permit the development of tests and scales that would be much more adequate for their purpose than the Wechsler scales” (S. 702). Nach Zhu und Weiss (2005), die an der Entwicklung der WISC-IV beteiligt waren, schlagen die neuen Versionen der Wechsler-Skalen ebenso wie ihre Vorgänger hingegen eine Brücke zwischen den Ideen verschiedener Intelligenztheorien. So sei behutsam dafür gesorgt worden, Fortschritte in den theoretischen und praktischen Grundlagen aus der kognitiven Diagnostik im Test widerzuspiegeln. Für Zhu und Weiss seien die modernen Wechsler-Skalen anders als ihre Vorgänger klar von aktueller klinischer Forschung und theoretischen Entwicklungen geleitet. So sei zum Beispiel mehr Wert auf die Erfassung fluiden Denkens gelegt worden, nachdem diese Fähigkeit in vielen Theorien als wichtiger kognitiver Funktionsbereich betont wurde (u. a. Carroll, 1993, 2005). Kapitel 4 Die Wechsler-Skalen 61 Auch wenn den Wechsler-Skalen im Nachhinein immer wieder ein theoretisches Konzept zu Grunde gelegt wurde, geben die Autoren der Testmanuale weiterhin eher pragmatische Gründe (wie langjährige klinische Erfahrungen) als Entwicklungsgrundlage an. Durch die indes engere Anbindungen an die Theorie halten Flanagan und Kaufman (2004) die WISC-IV für die bedeutsamste Neuauflage der Wechsler-Skalen. Dennoch scheiterten die Wechsler-Skalen für Flanagan et al. (Flanagan & Kaufman, 2004; Flanagan et al., 2000) trotz allen Lobes darin, mit der aktuellen Intelligenzforschung Schritt zu halten. Für sie sei eine aussagekräftige Interpretation der Wechsler-Skalen nur möglich, wenn aktuelle Theorien, Forschungsergebnisse und Messprinzipien integriert würden. Klinisches Urteil und klinische Erfahrung seien allein nicht ausreichend, um auf sie vertretbare Interpretationen zu gründen. Deshalb bieten Flanagan et al. alternative theoretisch schlüssige und statistisch nachvollziehbare Interpretationsmöglichkeiten für die Wechsler-Tests an, basierend auf aktuellen Intelligenztheorien wie der Gf-GcTheorie (Flanagan et al., 2000) oder dem CHC-Modell (Flanagan & Kaufman, 2004). Für Zhu et al. (2004) sei es jedoch schwer zu glauben, dass Wechsler so viele verschiedene Skalen entwickeln konnte, die ihre klinische Relevanz nachgewiesen haben, ohne ein ihnen zugrunde liegendes tiefes Verständnis für die Natur der Intelligenz und ohne dass Wechsler bei der Entwicklung seiner Skalen von verschiedenen Intelligenztheorien geleitet worden sei. Bei genauerer Betrachtung seiner Publikationen und Testmanuale zeige sich bei der Entwicklung jeder seiner Testversionen eine stillschweigende Basierung auf den zu der jeweiligen Zeit aktuellen Theorien (Zhu & Weiss, 2005). Für eine theoretische Fundierung der Wechsler-Tests spricht die Einbindung gleicher oder ähnlicher Untertests in andere aktuelle Intelligenztests wie dem Woodcock-Johnson III (WJ-III), der ausdrücklich auf der CHC-Theorie basiert (Woodcock et al., 2001). 4.5.2 Profilanalysen Eine Besonderheit der Wechsler-Skalen ergibt sich aus der Möglichkeit der Berechnung von Profilanalysen. Sie ermöglichen eine Interpretation des Tests mit Hilfe der Untertestergebnisse. Für Kritiker ist der Gebrauch solcher Analysen jedoch eingeschränkt, da die Untertests möglicherweise keine Fähigkeiten erfassen, die spezifisch genug seien, um ihre Interpretation zu rechtfertigen (Prifitera, 1994). Studien ergaben zudem eine deutlich höhere Varianzaufklärung durch den allgemeinen Intelligenzfaktor als durch die Indizes und Untertests. Somit könne die Interpretation der Wechsler-Skalen auf Profil-Ebene zu Fehlinterpretationen führen (Glutting, McDermott & Konold, 1997; McDermott et al., 1990; Watkins, 2006; Watkins & Kush, 1994; Watkins et al., 2006). Ein weiterer Kritikpunkt an Profilanalysen gründet sich auf Untersuchungsergebnisse, die subtest-basierte Stärken und Schwächen als zeitlich instabil und somit nicht reliabel aufwiesen. Daher sollten Empfehlungen auf dieser Grundlage ebenfalls nicht als Kapitel 4 Die Wechsler-Skalen 62 reliabel gelten (Watkins & Canivez, 2004). Auch die American Educational Research Association (AERA, 1999) spricht sich gegen den Gebrauch von Profilanalysen aus. Da die Erfassung der allgemeinen Intelligenz eine höhere Vorhersagekraft auf berufliche Leistungen und allgemeines psychisches Wohlbefinden habe als abgegrenzte Teilbereiche der Intelligenz, sei es ökonomisch sinnvoller, die Intelligenz in ihrer Gesamtheit zu erheben. Zwar könne die Erhebung von Teilleistungsbereichen diagnostisch sinnvoll sein, jedoch führten diese Messungen in der Praxis nicht zwangsweise zu klinisch wertvollen Informationen (Zachary, 1990). Flanagan und Kaufman (2004) sehen ebenfalls einen Trend hin zu „anti-profile research and writing“ (S. 1). Andererseits halten viele Kliniker gerade die Unterschiedlichkeit der Untertests für sehr nützlich bei der Diagnosestellung. Gerade Kaufman (1994a) war einer derjenigen, der die Profilanalyse für die WISC-III vorschlug. Da kognitive Teilleistungen eng miteinander verknüpft seien, könnten sie auch nicht isoliert abgerufen werden. Aus diesem Grund sei es sinnvoll, Untertests zu verwenden, die verschiedene kognitive Fähigkeiten erfassten (Zhu et al., 2004). Donders (1996) hingegen schlägt vor, ein Testprofil eher auf Index- als auf Untertestebene zu betrachten, da die Reliabilität der Indizes höher ausfällt als die der Untertests. Einige Forscher sahen durch ihre Studien an klinischen Populationen (u. a. Kindern mit ADHS, Lernstörungen oder traumatischen Gehirnverletzungen) mit den jeweils aktuellen Wechsler-Tests den Vorteil der Interpretation auf Index- statt Gesamt-IQ-Ebene als ausreichend erwiesen an (Fiorello et al., 2007; Fiorello, Hale, McGrath, Ryan & Quinn, 2001; Hale et al., 2001). Gerade im Hinblick auf klinische Störungsbilder gelten Profilanalysen als sinnvoll (GrothMarnat, 1997; Mayes & Calhoun, 2004; Sattler, 2001). In einer Umfrage gaben 89 % der befragten Testanwender an, die Profilanalyse zu verwenden, 70 % der Befragten zählten sie sogar zu den wichtigsten Merkmalen der Wechsler-Skalen (Pfeiffer, Reddy, Kletzel, Schmelzer & Boyer, 2000; Titze & Tewes, 1994). Vor allem bei Diagnosestellungen und schulischen Platzierungsentscheidungen wurden sie als sehr nützlich eingestuft. Im schulpsychologischen Bereich wird die Profilanalyse zudem als geeignetes Mittel angesehen, um unterschiedliche Aspekte in der Lese- und Rechenleistung von Kindern zu verstehen (McGrew et al., 1997). Zur Diagnose geistiger Behinderungen wird die Profilanalyse vom Diagnostischen und Statistischen Manual psychischer Störungen (DSM-IV-TR, Saß, Wittchen, Zaudig & Houben, 2003) überdies sogar explizit empfohlen. Petermann und Petermann (2008b) empfehlen, die Analyse individueller Stärken und Schwächen mit Hilfe des HAWIK-IV im Rahmen der Therapieplanung zu berücksichtigen. Die unterschiedlichen Ansichten zum Gebrauch von Profilanalysen hängen eng mit der Vorstellung vom Vorhandensein eines g-Faktors zusammen (siehe Kapitel 3.6). Die Befürworter von Profilanalysen (z. B. Flanagan & Kaufman, 2004) widersprechen dem g-Faktor (hier in Form des Kapitel 4 Die Wechsler-Skalen 63 Gesamt-IQ), während die Kritiker der Profilanalysen (z. B. Jensen, 1998; Watkins & Canivez, 2004) von der Existenz eines g-Faktors ausgehen. 4.5.3 Weitere Kritikpunkte Nach Prifitera (1994) bemängeln vor allem Schulpsychologen die unzureichende Validität der Wechsler-Skalen hinsichtlich der Hinweise auf Interventionsansätze. Sie seien nicht dafür geeignet Interventionsstrategien zu entwickeln. Dieser Vorwurf entbehrt jedoch jeglicher Grundlage, da Intelligenztests schon im Allgemeinen nicht als geeignet gelten, Diagnosen und somit auch Behandlungsstrategien aus ihnen abzuleiten (Daseking et al., 2007) und auch nicht dafür konzipiert wurden. Darauf verweist auch Wechsler (1997, 2003a, 2003b) in seinen Testmanualen. Für ihn leisten seine Tests einen Beitrag zur Diagnosestellung und damit auch zur Ableitung von Interventionsstrategien, dies sei jedoch nur in Verbindung mit anderen Testverfahren und der Erhebung zusätzlicher Informationen durch Verhaltensbeobachtung oder die Anamnese der medizinischen und psychosozialen Vorgeschichte sinnvoll (siehe auch Donders, 1996). Nach Kamphaus (2005) seien die Wechsler-Tests für junge Kinder wenig interessant gestaltet. Die meisten Untertests (so beispielsweise das Allgemeine Verständnis) seien nur Abwandlungen der Skalen für Erwachsene (WAIS bzw. WIE) und für junge Kinder zu lang. Zu Wechslers Kritikern zählt auch Frank. In seinem Buch The Wechsler Enterprise (1983) spricht er den seinerzeit aktuellen Wechsler-Skalen Verbesserungen gegenüber den Binet-Skalen hinsichtlich der Erhebung differenzierter kognitiver Leistungen verschiedener psychiatrischer Patiententypen ab und stellt somit ihren klinischen Nutzen in Frage. Untertests würde nicht einzelne, sondern mehrere kognitive Funktionen gleichzeitig abbilden und die Wechsler-Tests erfassten insgesamt nur drei der neun kognitiven Faktoren, die nach Thurstone Intelligenz ausmachten (siehe Kapitel 3.2). Frank (1983) vergleicht die Wechsler-Skalen mit Dinosauriern: „Too large, cumbersome and illfitted and awkward in the age in which they developed, unable to remain viable in a psychometric age which has passed it by in conceptualization” (S. 126). Sieht Frank 1983 die Wechsler-Skalen somit als zum Aussterben verurteilt an, muss allerdings bedacht werden, dass die Studien, auf die er sein Urteil stützt, nur auf die älteren Testversionen Bezug nehmen und mittlerweile veraltet sind. So spricht er beispielsweise von Studien, die ergeben hätten, die Wechsler-Skalen seien keine guten Prädiktoren für Schulleistung, was neuere Studien jedoch widerlegen (siehe Freberg, Vandiver, Watkins & Canivez, 2008; Tewes et al., 2002; Watkins, Lei & Canivez, 2007). 4.5.4 Abschließende Betrachtung der Wechsler-Skalen Wie viele andere Autoren sieht auch Kaufman (1993) die Wechsler-Skalen als die am besten standardisierten Intelligenztestverfahren an. Sie seien leicht anzuwenden, besäßen gute psy- Kapitel 4 Die Wechsler-Skalen 64 chometrische Gütekriterien und wiesen Interpretationsansätze auf, die bekannt seien und in den meisten psychologischen Ausbildungsprogrammen gelehrt werden. Die Gültigkeit der Wechsler-Skalen wurde außerdem durch die hohe Korrelation mit anderen Messinstrumenten zur Erfassung kognitiver Fähigkeiten bestätigt (Wechsler, 2003b; Zhu & Weiss, 2005). Matarazzo postuliert im Vorwort des WISC-IV-Manuals (Wechsler, 2003a), dass Revisionen sämtlicher Wechsler-Skalen aktuelle psychometrische Standards charakterisieren. Für ihn übertreffen diese Standards die anderer psychologischer Testverfahren. Ein weiterer positiver Aspekt besteht in der Vielzahl von Veröffentlichungen über die Wechsler-Skalen, die zur praktischen Anwendbarkeit beigetragen haben (Prifitera, 1994). So unterstützen mehr als 60 Jahre Forschung und Anwendung den praktischen und klinischen Nutzen der Wechsler-Skalen bei vielen Fragestellungen, wie der Diagnostik geistiger Behinderung und Lernstörungen sowie bei klinischen Interventionen (Beres et al., 2000; Zhu et al., 2004). Zhu et al. (Zhu & Weiss, 2005; Zhu et al., 2004) bezeichnen die Wechsler-Skalen als die am meisten untersuchten Erhebungsinstrumente. Es steht eine immens große Anzahl an Veröffentlichungen bereit, die sich mit dem klinischen Nutzen und den psychometrischen Eigenschaften der Skalen beschäftigen. Für viele Psychologen ist die Langlebigkeit und die häufige Anwendung der Wechsler-Skalen Zeugnis dafür, dass Wechsler richtige und präzise Vorstellungen der praktischen Bedürfnisse von Klinikern besaß, die Intelligenzdiagnostik betreiben (Kamphaus, 2005; Zachary, 1990). So stehen die Wechsler-Skalen trotz all der Kritik und der Innovationen anderer neuer oder revidierter Intelligenztests nach Flanagan und Kaufman (2004) weiterhin unangefochten an erster Stelle. Auch die Kritiker Wechslers erkennen den großen Einfluss an, den sie auf die Erforschung menschlicher Intelligenz und der Struktur kognitiver Fähigkeiten ausgeübt haben und weiterhin ausüben. So zollen McDermott und seine Kollegen (1990) trotz ihrer Kritik am Umgang mit Profilanalysen dem Großteil vom Erbe Wechslers ihren Respekt. 4.6 Bewertung der WISC-IV Die wichtigsten Ziele bei der Entwicklung der WISC-IV waren die Aktualisierung der theoretischen Grundlagen, die Anpassung an den Entwicklungsstand der Kinder, die Verbesserung der psychometrischen Eigenschaften (siehe Kapitel 4.4) und die Steigerung der Anwenderfreundlichkeit. 4.6.1 Aktualisierung der theoretischen Grundlagen Die WISC-IV gilt als die erste WISC-Version, die grundlegende Verbesserungen gegenüber seinen Vorgängern aufweisen kann (Flanagan & Kaufman, 2004). Dies wird vor allem auf die nä- Kapitel 4 Die Wechsler-Skalen 65 here Anlehnung an theoretische Intelligenzmodelle zurückgeführt (Kaufman et al., 2006). Im Gegensatz zu ihren Vorgängern stellt die WISC-IV ein gutes Messinstrument für die theorieund forschungsbasierten Konstrukte fluides Denken und Arbeitsgedächtnis dar, während die Bereiche Visualisierung und Antwortgeschwindigkeit weniger betont werden. Auch die Autoren der KABC-II kamen anhand von Korrelationsstudien zwischen der KABC-II und der WISC-III bzw. WISC-IV zu dem Ergebnis, dass beide Wechsler-Versionen unterschiedliche Konstrukte erfassen (Kaufman & Kaufman, 2004, mehr zu den Unterschieden beider Versionen siehe Kapitel 4.7). Für sie bilden der Handlungsteil und der WO der WISC-III eher visuelle Prozesse ab, während der WLD der WISC-IV hoch mit den KABC-II-Untertests zur Messung des fluiden Denkens korreliert (siehe Kapitel 5.1). Trotzdem werfen Kaufman et al. (2006) der WISC-IV weiterhin vor, sie basiere als einziges aktuelles Intelligenztestverfahren der letzten Jahre nicht explizit auf einer Intelligenztheorie wie beispielsweise der CHC-Theorie: „This fact alone demonstrates that the inertia of tradition plays a more powerful role in the revisions of the Wechsler scales than does adherence to contemporary theory and research“ (S. 293). Die Aktualisierung aufgrund der Berücksichtigung der kontemporären theoretischen Grundlagen zeigt sich in einer neuen Teststruktur sowie der Betonung der kognitiven Fähigkeitsbereiche fluides Denken, Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit. Teststruktur: Als Verbesserung gegenüber der WISC-III gilt die Aufteilung in eine VierFaktoren-Struktur (siehe Kapitel 4.3), die für Flanagan und Kaufman (2004) eine umfassendere Repräsentation der allgemeinen intellektuellen Fähigkeiten bietet. Nach Zhu und Weiss (2005) repräsentieren die vier Indizes die Funktionsweise eines Menschen genauer als ein Verbal- und Handlungsteil. Somit hätten Kliniker verbesserte Möglichkeiten zur Evaluation spezifischer Aspekte dieser Funktionsweise. Die Auflösung der Unterteilung in Verbal- und Handlungsteil gilt auch als die größte Abweichung von der Wechsler-Tradition, die nach Meinung vieler Kritiker jedoch ohnehin lange überfällig war, da sie die klinische Aussagekraft einer Diskrepanz zwischen beiden Teilen nie als eindeutig nachgewiesen sahen (siehe u. a. Flanagan & Kaufman, 2004; Kaufman et al., 2006; Riccio, Cohen, Hall & Ross, 1997). Fluides Denken: Mehrere Theorien und Studien zur kognitiven Funktionsfähigkeit betonen die Wichtigkeit des fluiden Denkens (Carroll, 2005; Cattell & Horn, 1978; Zhu et al., 2004). Fluide Intelligenz beinhaltet mentale Operationen oder Problemlösemethoden, die ein Mensch anwenden kann, um relativ neue Aufgaben zu lösen (Flanagan & Kaufman, 2004, siehe auch Kapitel 3.3.1). Aufgaben, die fluides Denken erheben, involvieren den Prozess der „manipulativen Abstraktionen, Regeln, Verallgemeinerungen und logischen Beziehungen“ (Carroll, 1993, S. 583, Übers. v. Verf.). Sowohl das induktive als auch das deduktive Schlussfolgern werden als Kapitel 4 Die Wechsler-Skalen 66 basale Aspekte dieses Bereiches angesehen (McGrew & Flanagan, 1998). Aus der Perspektive der CHC-Theorie weist das fluide Denken die engste Beziehung aller Faktoren des Stratum II (Carroll, 1993; McGrew & Flanagan, 1998) zum g-Faktor auf (siehe Kapitel 3.6). An den vorherigen WISC-Versionen wurde die unzureichende Erfassung des fluiden Denkens kritisiert (Carroll, 1997a). Aus diesem Grund wurden für die WISC-IV mit Matrizen-Test, Bildkonzepte und Begriffe erkennen drei neue Untertests zur Messung des fluiden Denkens entwickelt. Bildkonzepte und Begriffe erkennen wurden von der WPPSI-III adaptiert, Matrizen-Test wurde der WAIS-III und der WPPSI-III entnommen. Arbeitsgedächtnis: Eine weitere Neuerung bietet die Einführung des Index AGD. Er geht aus dem Index UA der WISC-III hervor, der Studien zu Folge nicht als valides psychologisches Konstrukt gesehen werden konnte (Carroll, 1993; Riccio et al., 1997, siehe auch Kapitel 4.4.3.1). Das Arbeitsgedächtnis bezeichnet die Fähigkeit, aktiv Informationen zu behalten, mit ihnen Operationen durchzuführen oder sie zu manipulieren und damit ein Ergebnis zu erzielen. Es weist namentlich einen Zusammenhang zu einem viel untersuchten Aspekt exekutiver Funktionen auf (Flanagan & Kaufman, 2004). Aktuelle Forschung ermittelte das Arbeitsgedächtnis als eine basale Komponente des fluiden Denkens und anderer kognitiver Prozesse höherer Rangordnung. Heitz, Unsworth und Engle (2005) sehen die durch Aufmerksamkeitsleistungen vermittelte Kapazität des Arbeitsgedächtnisses als einen wichtigen Einflussfaktor auf die fluide Intelligenz. Zudem ist das Arbeitsgedächtnis eng verwandt mit Lernen und Leistung (Fry & Hale, 1996; Perlow, Jattuso & Moore, 1997; Swanson, 1996). Für Conway, Cowan, Bunting, Therriault und Minkoff (2002) könne die Leistungsfähigkeit des Arbeitsgedächtnisses als Grundlage des g-Faktors angesehen werden. Vor allem die Kurzzeitspeicherung stellte sich als hoch korrelierend mit allgemeiner Intelligenz heraus (Colom, Abad, Quiroga, Shih & Flores-Mendoza, 2008). In der WISC-IV wurden einige Änderungen zur adäquateren Erfassung des Arbeitsgedächtnisses vorgenommen. Buchstaben-Zahlen-Folgen wurde aus der WAIS-III adaptiert, nach Flanagan und Kaufman (2004) ein valider Test zur Messung des Arbeitsgedächtnisses. Basierend auf der Forschung zu unterschiedlichen Anforderungen an das Arbeitsgedächtnis für ZN-V und ZN-R wurden für diese Aufgabenteile separate Prozesswerte eingeführt. Zur Steigerung der Anforderungen an das Arbeitsgedächtnis sowie zur altersangemesseneren Erfassung des für den Untertest erforderlichen mathematischen Wissens wurde das Rechnerische Denken überarbeitet. Außerdem wurde es in den Bereich der optionalen Untertests verlegt, was Flanagan und Kaufman ebenfalls positiv bewerten, da es weiterhin stark mit rechnerischen Fähigkeiten korreliert und somit kein reines Maß des Arbeitsgedächtnisses darstellt. In Studien zur WISC-IV weist das Rechnerische Denken die höchste g-Ladung auf und erfasst damit als Untertest den Kapitel 4 Die Wechsler-Skalen 67 höchsten Grad an allgemeiner Intelligenz (Keith et al., 2006). In der WISC-IV liegt das Rechnerische Denken nach den Sprach-Untertests Wortschatz-Test, Allgemeines Wissen und Gemeinsamkeiten finden an vierter Stelle hinsichtlich der Höhe seiner g-Ladung (Flanagan & Kaufman, 2004). Auch bei altersseparater Betrachtung weist das Rechnerische Denken g-Ladungen auf, die mehr mit denen des Index SV als mit denen des AGD übereinstimmen. Eine aktuelle Studie zum Vergleich des HAWIK-IV mit dem Gedächtnistest BASIC-MLT (Lepach & Petermann, 2007) offenbarte Korrelationen von r = .59 bis .66 zwischen dem Gedächtnis-Quotienten des BASICMLT und dem AGD des HAWIK-IV (Lepach, Petermann & Schmidt, 2008). Verarbeitungsgeschwindigkeit: Die Informationsverarbeitungsgeschwindigkeit weist Zusammenhänge mit verschiedenen mentalen Prozessen, wie dem effizienten Gebrauch des Arbeitsgedächtnisses oder der Leseleistung, auf. Eine angestiegene Verarbeitungsgeschwindigkeit wird mit Veränderungen in der Intelligenz in Verbindung gebracht (Kail, 2000). Nach Fry und Hale (2000) steigt sie über die Kindheit hinweg bedeutend an, während die Unterschiede in der Adoleszenz nur noch graduell ausfallen. Dies wird mit der zunehmenden neuronalen Vernetzung und somit der Hirnreifung in Verbindung gebracht. Die Verarbeitungsgeschwindigkeit wurde in faktorenanalytischen Studien als wichtige kognitive Funktion identifiziert (Carroll, 1993, 2005; Horn & Noll, 1997), die außerdem relativ hoch mit g korreliert (Neisser et al., 1996; Neubauer & Knorr, 1998; Sheppard & Vernon, 2007). Daher sind Messungen dieses Funktionsbereiches in Wechslers Intelligenztests eingebunden. Als neuer optionaler Untertest für den Index VG wurde der Durchstreich-Test für die WISC-IV entwickelt. Ähnliche Untertests haben sich bereits im Rahmen der Diagnostik nach Hirnschädigungen bewährt (Donders & Janke, 2008; Janke & Donders, 2008; Prigatano, Gray & Gale, 2008). Die Beurteilung der Verarbeitungsgeschwindigkeit erweist sich besonders bei Kindern als sinnvoll, da sie mit der Entwicklung anderer kognitiver Fähigkeiten, der neurologischen Entwicklung und dem Lernen zusammenhängt. Klinische Forschungen im Bereich der kognitiven Entwicklungspsychologie lassen ein dynamisches Zusammenspiel zwischen fluidem Denken, Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit vermuten (Calhoun & Mayes, 2005; Carpenter, Just & Shell, 1990; Fry & Hale, 1996, 2000; Kail & Salthouse, 1994; Schatz, Kramer, Ablin & Matthay, 2000). Die Betonung des fluiden Denkens, des Gedächtnisses und der Geschwindigkeit bei der Messung von Intelligenz bezeichnet Matarazzo im Vorwort des WISC-IV-Manuals (Wechsler, 2003a) deshalb als wichtig, da herausgefunden wurde, dass sie kognitive Voraussetzungen für das Lernen darstellen und Intelligenz seiner Meinung nach letztendlich vor allem die Fähigkeit zu lernen widerspiegelt. Kapitel 4 Die Wechsler-Skalen 68 Als Schlussfolgerung für diese Studie muss somit festgestellt werden, dass durch die Aktualisierung der theoretischen Grundlagen der HAWIK-III und der HAWIK-IV unterschiedliche kognitive Fähigkeiten erfassen. Dies kann zu einer Einschränkung der Vergleichbarkeit beider Testversionen führen. Auch die gleichen Untertests beider Versionen erfassen nicht zwangsläufig dieselbe Fähigkeit. So führen die Veränderungen in der Aufgabenvorgabe beim Rechnerischen Denken zu einer Modifikation hinsichtlich der erforderlichen Fähigkeiten (durch die rein mündliche Vorgabe ist die Anforderung des Arbeitsgedächtnisses gestiegen). 4.6.2 Anpassung an den Entwicklungsstand der Kinder Für die WISC-IV wurden in jeden Untertest Lern-, Beispiel- und/oder Übungsaufgaben aufgenommen. In den Untertests Buchstaben-Zahlen-Folgen, Bilder ergänzen und Bildkonzepte wird die Aufgabenstellung durch entsprechende Nachfragen oder Hinweise verdeutlicht. Der verstärkte Einsatz solcher Hilfestellungen soll das Verständnis für die Aufgabenstellung und die Aufmerksamkeit steigern und folglich ein besseres Bild der Fähigkeiten des Kindes liefern. Außerdem wurde durch die Verkürzung verbaler Anweisungen, die Unterstützung des Aufgabenverständnisses mit Hilfe von Lern- und Übungsaufgaben und durch Rückmeldung der richtigen Lösung der Einsatzbereich des Tests erweitert, insbesondere bei Kindern mit einer bereits bekannten oder vermuteten Intelligenzminderung. Diese Neuerungen bieten dem Testleiter mehr Spielraum, Kinder zu weiteren Anstrengungen und Überlegungen zu ermuntern (Renner, 2008). In den Untertests, die nicht in erster Linie zur Messung der Verarbeitungsgeschwindigkeit dienen, wurden einige Änderungen zur Reduzierung der Bedeutung des Zeitfaktors vorgenommen: Die Untertests Bilderordnen, Figurenlegen und Labyrinth-Test wurden entfernt, die Anzahl der Aufgaben des Mosaik-Tests mit Zeitbonuspunkten wurde deutlich reduziert und im Rechnerischen Denken werden keine zusätzlichen Zeitbonuspunkte für sehr schnelle Lösungen mehr vergeben. 4.6.3 Steigerung der Anwenderfreundlichkeit In einigen Situationen kann es sinnvoll sein, einen Kerntest durch einen optionalen Untertest zu ersetzen. So kann sich beispielsweise ein Testleiter, der ein Kind mit feinmotorischen Schwierigkeiten testet, dafür entscheiden, den Zahlen-Symbol-Test durch den DurchstreichTest oder den Mosaik-Test durch das Bilder ergänzen zu ersetzen. Alle Illustrationen wurden aktualisiert und für Kinder attraktiver gestaltet. Weiterhin wurden neue Aufgaben entwickelt, um zeitgemäße Situationen und Fragen zu integrieren, kulturbedingte Verzerrungen zu vermeiden sowie die Testfairness zu erhöhen. Einige veraltete Aufgaben wurden überarbeitet oder entfernt und das Layout des Stimulusbuches modifiziert. Kapitel 4 Die Wechsler-Skalen 69 Da es sich bei dem HAWIK-IV um eine recht aufwändige Testbatterie handelt, wurden außerdem mögliche Kurzformen ermittelt (Waldmann, 2008). Die Anwendung einer Kurzform sollte jedoch nur im Fall einer abgebrochenen Testung zur optimalen Verwertung unvollständiger Informationen und nicht standardmäßig a priori zur ökonomischeren Handhabung des Tests erfolgen. 4.6.4 Zusätzliche Auswertungsmöglichkeiten Der Wegfall des Verbal- und Handlungsteils in der WISC-IV lässt Praktiker Schwierigkeiten bei der Interpretation von inter- und intraindividuellen Leistungsdiskrepanzen vermuten. Die neue Teststruktur bietet jedoch zusätzliche Auswertungsmöglichkeiten. Wie oben beschrieben wurde bei der Entwicklung der WISC-IV mehr Gewicht auf die Beurteilung des Arbeitsgedächtnisses und der Verarbeitungsgeschwindigkeit gelegt. Dabei handelt es sich um basale kognitive Prozesse, denen ein hoher Zusammenhang mit der Intelligenz zugesprochen wird, wodurch auch moderne Konzeptionen Berücksichtigung finden (Petermann & Lepach, 2007). Insbesondere in den Randbereichen der Normverteilung kommt es häufig zu großen Diskrepanzen innerhalb der vier Indizes. Dies lässt die Interpretation des Gesamt-IQ-Wertes in diesen Fällen zumindest fragwürdig erscheinen (Newman, 2008). Gerade bei Hochbegabung erwies sich der Gesamt-IQ in der WISC-IV als deutlich niedriger als in vorherigen WISC-Versionen, da diese Kinder weniger überdurchschnittliche Leistungen in den stärker gewichteten Fähigkeitsbereichen Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit zeigte als im Sprachverständnis und logischen Denken (Falk, Silverman & Moran, 2004). In der Annahme, dass der Gesamt-IQ nicht immer eine gelungene Schätzung der kognitiven Fähigkeiten des Kindes darstellt, wurden schon für die WISC-III verschiedene alternative Auswertungsmodelle vorgestellt (Weiss, Saklofske, Prifitera, Chen & Hildebrand, 1999). So bestand die Möglichkeit, die jeweils vier Untertests der Indizes SV und WO in einem allgemeinen Schätzwert kognitiver Leistungen zusammenzufassen, um den Einfluss der Untertests Rechnerisches Denken und Zahlen-Symbol-Test zu reduzieren. Dieser Schätzwert wurde als General Ability Index (GAI), also Allgemeiner Fähigkeitsindex (AFI), bezeichnet. Damit lässt sich der Einfluss deutlich abweichender Leistungen im Arbeitsgedächtnis und in der Verarbeitungsgeschwindigkeit auf den Gesamt-IQ reduzieren. Für den HAWIK-III fehlt diese Auswertungsoption. Auch für die WISC-IV stehen Normtabellen zur Berechnung des GAI aus den Wertpunktsummen der sechs relevanten Untertests bereit (Raiford, Weiss, Rolfhus & Coalson, 2005). Dabei wird die Wertpunktesumme der drei Kerntests des SV und des WLD gebildet und in einen neuen Wert, den GAI, umgerechnet. Mit dem HAWIK-IV existiert erstmals auch für eine deutsche HAWIK-Version eine Tabelle zur Berechnung des dem GAI entsprechenden AFI (Daseking, Petermann & Waldmann, 2008). Alternativ kann der GAI auch durch Summierung der Index-Werte des SV und WLD berechnet werden (Flanagan & Kaufman, 2004). Als weitere Auswertungsmöglichkeit steht der Dumont-Willis-Index-1 Kapitel 4 Die Wechsler-Skalen 70 (DWI-1) bereit, der von Dumont und Willis (2004) auf der Basis der Interkorrelationen der sechs SV- und WLD-Untertests entwickelt wurde. Zusätzlich entwickelten sie den DumontWillis-Index-2 (DWI-2), der aus den beiden anderen Indizes AGD und VG gebildet wird. Dieser übergeordnete Index wird auch Cognitive Proficiency Index (CPI, Kognitiver Fertigkeitenindex) genannt. Die Herausgeber der WISC-IV unterstützen jedoch ausschließlich die Anwendung des GAI nach Raiford et al. (2005). Ihm wird eine hohe Korrelation mit dem Gesamt-IQ zugesprochen und gilt somit als guter Prädiktor für den Gesamt-IQ des HAWIK-IV (Scott, 2006). 4.6.5 Schwächen der WISC-IV Flanagan und Kaufman (2004) sehen bei der WISC-IV trotz aller Vorteile gegenüber seinen Vorgängern weiterhin einige Einschränkungen in der Validität. Sie halten diese jedoch nicht für gravierend und weisen darauf hin, dass sie sich auch in anderen Intelligenztestbatterien finden lassen. Braden und Niebling (2005) bemängeln, Aufgaben, die sich als verzerrend und unfair herausgestellt haben, seien zwar entfernt worden, jedoch wurde im Manual keine Zusammenfassung der Untersuchungsergebnisse zur Höhe von Aufgabenverzerrungen aufgenommen. Einige Kliniker kritisieren die Nicht-Berücksichtigung des Untertests Bilderordnen in der WISCIV, den sie als klinisch bedeutsam ansahen, da er als einziger Untertest interpersonale Situationen beinhaltete. Nach Flanagan und Kaufman (2004) hätte der klinisch geprägte David Wechsler niemals zugestimmt, seine Testbatterie ohne die Möglichkeit der Erfassung interpersonaler Situationen zu veröffentlichen. Ein weiterer Kritikpunkt besteht in der Kulturabhängigkeit der WISC-IV. Nach Flanagan und Kaufman (2004) scheinen die Autoren zwar alle wichtigen Schritte unternommen zu haben, eine Verzerrung der Ergebnisse durch kulturelle Unterschiede auszuschließen. Dennoch werden in der WISC-IV keine Angaben zu Wertdifferenzen zwischen ethnischen Gruppen (ebenso wenig wie zu Geschlechtsunterschieden oder Unterschieden hinsichtlich des sozioökonomischen Status) erwähnt (Braden & Niebling, 2005). Dies scheint für Braden und Niebling (2005) vor allem im Hinblick auf die umfassende Diskussion über die Kulturabhängigkeit bisheriger Wechsler-Tests merkwürdig. Für den HAWIK-IV wurden auf Basis der Normierungsstichprobe die Leistungen deutscher Kinder und der Kinder mit Migrationshintergrund miteinander verglichen (Daseking, Lipsius, Petermann & Waldmann, 2008). Dabei zeigten sich einzig im MatrizenTest keine signifikanten Unterschiede zwischen beiden Gruppen, während vor allem in den sprachlichen Untertests die Kinder mit Migrationshintergrund signifikant schlechtere Ergebnisse erzielten als die deutsche Stichprobe. Schon in Studien zu anderen WISC-Versionen erwies sich besonders der Untertest Allgemeines Verständnis als stark kulturabhängig (Kaufman, 1993). Im Allgemeinen gilt jedoch kein Test als uneingeschränkt kulturfrei (Sattler, 2001). Letz- Kapitel 4 Die Wechsler-Skalen 71 ten Endes bleibt es dem Testanwender überlassen zu beurteilen, inwieweit der HAWIK-IV ein für ihn geeignetes Instrument darstellt. Auch die neue Teststruktur wird nicht durchweg positiv bewertet. Zwar bietet eine Aufteilung der kognitiven Funktionsfähigkeit in enger definierte Teilfunktionen, wie in Kapitel 4.6.1 beschrieben, deutliche Vorteile. Da aber diese kognitiven Teilleistungen eng miteinander verknüpft und voneinander abhängig sind, können sie nur schwer getrennt voneinander erfasst werden (Zhu et al., 2004). Selbst eine spezifische Funktion wie die Bearbeitungsgeschwindigkeit beinhaltet die Fähigkeit, zwischen visuellen Stimuli zu unterscheiden, diese Information zu verarbeiten und die Reaktion mittels motorischer Fähigkeiten auszuführen. Obwohl faktorenanalytische Studien das Vorhandensein spezifischer, eng definierter Funktionsbereiche nahe legen, wird dadurch möglicherweise nicht die Vielfalt der kognitiven Teilleistungen erfasst, die zur Bearbeitung einer Aufgabe notwendig sind. Für Zhu und Weiss (2005) sei es jedoch sowohl unmöglich als auch bedeutungslos, reine kognitive Funktionen zu erfassen, auch wenn die Intelligenzforschung dafür plädiert. Es mag zwar diagnostisch sinnvoll sein, für sich allein stehende Funktionen abzubilden, dies münde jedoch nicht automatisch in klinisch bedeutsame und praktisch sinnvolle Informationen. Zhu und Weiss halten die Wechsler-Skalen deshalb für klinisch bedeutsamer als explizit theoriebasierte Intelligenztests. 4.7 Unterschiede zwischen HAWIK-III und -IV und deren Auswirkung auf die Vergleichbarkeit beider Testversionen Wie bereits dargestellt, können viele Faktoren die Vergleichbarkeit zweier Testversionen beeinträchtigen. Bei dem Vergleich der WAIS-III mit der WAIS-R wurden folgende Abweichungen als wichtig für die Vergleichbarkeit beider Testversionen festgestellt: Veränderungen auf Untertestebene, der Faktorenstruktur und der Art, in der die Konstrukte erfasst werden (Strauss, Spreen & Hunter, 2000). Da die Veränderungen, die bei der Entwicklung der WISC-IV ebenso wie bei dem adaptierten HAWIK-IV vorgenommen wurden, für diese Vergleichsstudie von entscheidender Bedeutung sind, soll auf sie im Folgenden ausführlich eingegangen werden. 4.7.1 Allgemeine und strukturelle Veränderungen zwischen beiden Testversionen Die allgemeinen Veränderungen der WISC-IV bzw. des HAWIK-IV sind (Petermann & Petermann, 2008a; Wechsler, 2003b): die Aktualisierung der strukturellen Grundlage zur Messung von gf und zur zusätzlichen Messung von gsm (durch das Buchstaben-Zahlen-Folgen) und gs (durch den DurchstreichTest), Kapitel 4 Die Wechsler-Skalen 72 die Modifizierung der Bewertungskriterien zur Verbesserung der Übersichtlichkeit, die Einführung zusätzlicher Aufgaben zur Reduzierung des Boden- und Deckeneffekts, verständlichere Anweisungen für die Testleiter, die Aktualisierung der Grafiken zur Steigerung der Attraktivität für Kinder, gesteigerte Entwicklungsangemessenheit (modifizierte Instruktionen, Lern- und/oder Übungsaufgaben für jeden Untertest), die Aktualisierung der Normen, die Entfernung veralteter Aufgaben, die Erweiterung des Manuals um Interpretationshinweise und ausführlichere Informationen zur Validität, die Gewichtreduzierung des Testkoffers durch Entfernung der materialreichen Tests und die Umbenennung des Index Wahrnehmungsorganisation in Wahrnehmungsgebundenes Logisches Denken. Vor allem die strukturellen Neuerungen sind für diese Studie von großer Wichtigkeit. Dabei handelt es sich um folgende Veränderungen (Flanagan & Kaufman, 2004): Verbal- und Handlungsteil wurden entfernt, zur Berechnung der vier Indizes werden nicht mehr 12, sondern nur noch zehn Untertests benötigt, der Index UA wurde durch den Index AGD ersetzt, das SV setzt sich im HAWIK-IV aus drei anstatt aus vier Untertests zusammen. Der Untertest Allgemeines Wissen wird ein optionaler Untertest, so dass der Index weniger von Allgemeinbildung und Schulwissen abhängig ist, das WLD setzt sich zusätzlich zum Mosaik-Test aus zwei neuen Untertests zusammen: Bildkonzepte und Matrizen-Test. Bilder ergänzen ist nur noch ein optionaler Untertest, der Index AGD setzt sich aus dem Zahlen nachsprechen und dem neuen Untertest Buchstaben-Zahlen-Folgen zusammen. Rechnerisches Denken ist nur noch ein optionaler Untertest, Bilderordnen, Figurenlegen und Labyrinth-Test wurden (u. a. zur Reduzierung der Zeitabhängigkeit) entfernt sowie Bildkonzepte, Buchstaben-Zahlen-Folgen, Matrizen-Test, Durchstreich-Test und Begriffe erkennen wurden eingeführt. 4.7.2 Veränderungen in den einzelnen Untertests Tabelle 4.10 gibt einen Überblick über Veränderungen hinsichtlich der Anzahl der Items, der Punktevergabe pro Item sowie der Einstiegs-, Umkehr- und Abbruchkriterien. Im Anschluss werden diese Unterschiede für jeden Untertest getrennt nach Index gesondert aufgeführt. Kapitel 4 Die Wechsler-Skalen 73 Tabelle 4.10: Unterschiede und Gemeinsamkeiten von HAWIK-III und -IV (geordnet nach Zugehörigkeit zu den HAWIK-Indizes, modifiziert nach Petermann & Petermann, 2008a) SV GF WT AV AW Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium WLD MT BE Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium AGD ZN RD Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium VG Gesamtzahl der Items Maximale Punktzahl pro Item ZST-A/B Einstiegsstufen/ Umkehrregel Abbruchkriterium (Zeit in Sekunden) Gesamtzahl der Items Maximale Punktzahl pro Item SS/SYS-A/B Einstiegsstufen/ Umkehrregel Abbruchkriterium (Zeit in Sekunden) HAWIK-III HAWIK-IV 19 2 1 nein 4 30 2 4 ja 4 18 2 1 nein 3 30 1 4 ja 5 23 2 3 ja 5 36 2 3 ja 5 21 2 3 ja 4 33 1 3 ja 5 HAWIK-III HAWIK-IV 12 7 2 ja 2 29 1 4 ja 5 14 7 2 ja 3 38 1 3 ja 6 HAWIK-III HAWIK-IV 15 2 1 nein 1 24 2 4 ja 3 16 2 1 nein 1 34 1 3 ja 4 HAWIK-III HAWIK-IV 59/119 1 120`` 45/45 1 120`` 59/119 1 120`` 45/60 1 120`` Anmerkungen: Es wurden nur die Untertests berücksichtigt, die in beiden HAWIK-Versionen enthalten sind. Abkürzungen siehe Anhang A5 und A6. Kapitel 4 Die Wechsler-Skalen 74 Es können demnach nicht nur Änderungen der Teststruktur zu Einschränkungen der Vergleichbarkeit beider Testversionen führen. Auch Unterschiede innerhalb einzelner Untertests, die in beiden Testversionen enthalten sind, können sich auf die Vergleichbarkeit auswirken. Dazu zählen Änderungen der Aufgaben, Aufgabenanzahl und der Aufgabenformulierung, der Bewertung, der Durchführung, der Aufgabenreihenfolge, der Startpunkte, der Umkehrregel, des Abbruchkriteriums sowie der Untertestposition. Auf diese Änderungen und den damit verbundenen Einfluss auf die Vergleichbarkeit beider Testversionen wird nun für jeden Untertest, sortiert nach den vier Indizes, getrennt eingegangen. 4.7.2.1 Index Sprachverständnis Gemeinsamkeiten finden: a) Aufgaben: Der Untertest Gemeinsamkeiten finden des HAWIK-IV umfasst 23 Aufgaben, von denen 12 neu und zwei leicht verändert sind. Die Beispielaufgabe wurde überarbeitet, um vor dem eigentlichen Beginn des Untertests eine bewertbare Antwort des Kindes zu erhalten. Dies ersetzt das korrigierende Feedback, das im HAWIK-III bei nicht-korrekter Antwort der ersten 2-PunkteAufgabe vorgegeben wird. Die Anzahl der 1-Punkt-Aufgaben wurde von fünf auf zwei reduziert. Zur Reduzierung des Deckeneffekts des HAWIK-III wurden zusätzliche Aufgaben mit hohem Schwierigkeitsgrad eingefügt. b) Bewertung: Die Bewertungskriterien wurden für alle Aufgaben überarbeitet. So gibt es im HAWIK-IV beispielsweise deutlich mehr Antworten, die einer Nachfrage seitens des Testleiters bedürfen. Dadurch ist es bei einigen Aufgaben, die in beiden Testversionen enthalten sind, im HAWIK-IV leichter, die volle Punktzahl zu erhalten. Ein Beispiel stellt die Frage: „Was ist das Gemeinsame an Apfel und Banane?“ dar. Die Antwort „beides kann man essen“ wird im HAWIK-III mit einem Punkt ohne Nachfrage, im HAWIK-IV jedoch mit einem Punkt mit Nachfrage bewertet. Das Kind kann sich demnach im HAWIK-IV mit der zweiten Antwort „beides ist Obst“ noch auf zwei Punkte verbessern. Dies führt zur Reduzierung des Bodeneffekts. c) Durchführung: Kapitel 4 Die Wechsler-Skalen 75 Während dem Testleiter im HAWIK-III nur erlaubt ist, die Aufgaben einmal vorzulesen, darf er sie im HAWIK-IV so oft wie notwendig wiederholen. Dies kann zu einer Herabstufung des Schwierigkeitsgrades führen. Andererseits ist es im HAWIK-III erlaubt, gegebenenfalls Synonyme für ein dem Kind unbekanntes Wort vorzugeben, was wiederum eine Erleichterung darstellen kann. d) Aufgabenreihenfolge: Im Gemeinsamkeiten finden zeigen sich Änderungen in der Reihenfolge der Aufgaben. Dadurch werden Kindern möglicherweise Fragen, die sie in einem Test nicht beantworten können, im anderen Test gar nicht vorgegeben. Außerdem sorgt in diesem Untertest die veränderte Reihenfolge für eine deutliche Änderung des Schwierigkeitsgrades bestimmter Aufgaben. Beispielsweise wird im HAWIK-III die Frage: „Was ist das Gemeinsame bei Katze und Maus?“ nach den Fragen nach der Gemeinsamkeit von Hemd und Schuh und Schrank und Stuhl vorgegeben und stellt die erste Aufgabe dar, für die es zwei Punkte gibt. Hier wird von fast allen Kindern die Antwort „beides sind Tiere“ gegeben. Im HAWIK-IV hingegen wurde in der Normierungsversion des Testverfahrens die Gemeinsamkeit von Katze und Maus nach der Gemeinsamkeit von Schmetterling und Biene erfragt. Hier wird die Antwort „beides sind Tiere“ nur mit einem Punkt bewertet und erst, wenn das Kind auf Nachfrage die differenziertere Antwort „beides sind Insekten“ anbietet, bekommt es die volle Punktzahl. Wenn dann die Frage nach der Gemeinsamkeit von Katze und Maus gestellt wird, denken einige Kinder, die Antwort „beides sind Tiere“ sei nicht ausreichend und sie geben Antworten wie „beides sind Haustiere“ oder „beide haben Fell“, die ihnen nur einen Punkt einbringen. Demnach weist die Frage nach der Gemeinsamkeit von Katze und Maus im HAWIK-IV einen höheren Schwierigkeitsgrad auf als im HAWIKIII. e) Startpunkte: Eine weitere Änderung liegt in der Einführung altersspezifischer Startpunkte. So erhalten einige Kinder im HAWIK-IV zwei Punkte für Aufgaben, die sie im HAWIK-III nicht korrekt beantworten können, da die Aufgaben im HAWIK-IV vor dem altersspezifischen Startpunkt liegen und somit so bewertet werden, als seien sie korrekt beantwortet worden. Außerdem könnte dies bei Kindern ab neun Jahren zu einer Erhöhung der Schwierigkeit des Untertests führen, da sie weniger Möglichkeiten haben über einfachere Antworten mit dem Lösungsprinzip vertraut zu werden. Andererseits kann es für diese Kinder von Vorteil sein, durch das Überspringen der sehr leichten Aufgaben im HAWIK-IV weniger Motivations- und Konzentrationsprobleme zu bekommen als im Gemeinsamkeitenfinden des HAWIK-III. f) Umkehrregel: Kapitel 4 Die Wechsler-Skalen 76 Mit der Einführung altersspezifischer Startpunkte geht die Einführung der Umkehrregel einher. Dies führt allerdings keine wesentlichen Änderungen hinsichtlich der Schwierigkeit mit sich. g) Abbruchkriterium: Das Abbruchkriterium wurde für die WISC-IV bzw. den HAWIK-IV von vier auf fünf falsche Aufgaben in Folge erhöht. Dies kann das Ergebnis insofern beeinflussen, als ein Kind im HAWIK-IV durch die richtige Beantwortung von Fragen Punkte erhält, die ihm im HAWIK-III nicht vorgegeben werden, da der Untertest vorher abgebrochen werden musste. h) Untertestposition: Die Verschiebung des Untertests von der vierten auf die zweite Position dürfte keine großen Auswirkungen auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben. Wortschatz-Test: a) Aufgaben: Der Wortschatz-Test des HAWIK-IV beinhaltet 36 Aufgaben, vier Bild- und 32 Wortaufgaben. 17 Wortaufgaben sind neu, und 15 wurden aus dem HAWIK-III übernommen. Ebenso wie dem Gemeinsamkeiten finden wurden auch dem Wortschatz-Test Aufgaben hinzugefügt, um sowohl im unteren als auch im oberen Bereich besser differenzieren zu können. Die Bildaufgaben wurden neu entwickelt, um jungen und leistungsschwachen Kindern die Möglichkeit zu geben, über einfache Aufgaben das Lösungsprinzip des Untertests zu verstehen. Sie werden allerdings nur vorgegeben, wenn die Umkehrregel in Kraft tritt. Da dies bei der vorliegenden Stichprobe nur in wenigen Ausnahmefällen vorkam, kann ein bedeutsamer Einfluss durch diese Veränderung ausgeschlossen werden. b) Bewertung: Wie für alle sprachlichen Untertests wurden auch für den Wortschatz-Test die Bewertungsregeln erheblich modifiziert. So wurden im HAWIK-IV deutlich mehr Nachfragen eingefügt. Außerdem wurde die Bewertung vieler Aufgaben verändert (beispielsweise gibt die Antwort „genau“ bei der Beschreibung des Wortes „präzise“ im HAWIK-III die volle Punktzahl, im HAWIK-IV jedoch nur einen Punkt mit Nachfrage). c) Durchführung: Eine weitere Änderung gegenüber seinem Vorgänger besteht im HAWIK-IV in der Möglichkeit für Kinder ab neun Jahren, die Wörter mitzulesen, die sie beschreiben sollen. d) und e) Aufgabenreihenfolge und Startpunkte: Auch der mögliche Einfluss auf die Bearbeitungsleistung durch Veränderungen in der Aufgabenreihenfolge und der Alterseinstiege (Reduzierung von vier auf drei unterschiedliche altersspezifische Startpunkte) kommt im Wortschatz-Test zum Tragen. Kapitel 4 Die Wechsler-Skalen 77 g) Abbruchkriterium: Das Abbruchkriterium wurde von vier auf fünf falsche Aufgaben in Folge erhöht (zum Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens). h) Untertestposition: Die Verschiebung vom achten auf den sechsten Untertest dürfte keine großen Auswirkungen auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben. Allgemeines Verständnis: a) Aufgaben: Der Untertest Allgemeines Verständnis des HAWIK-IV beinhaltet 21 Aufgaben. 13 wurden hinzugefügt, acht Aufgaben ohne oder mit kleinen Veränderungen aus dem HAWIK-III übernommen. Auch in diesem Untertest wurden einige Aufgaben weggelassen und zur Reduzierung des Boden- und Deckeneffektes, vor allem besonders leichte und besonders schwierige Aufgaben hinzugefügt. Die Frageformulierungen bei den Aufgaben, die in beiden Testversionen enthalten sind, blieben nahezu unverändert. Die einzige Änderung in der Formulierung, die zu einer Änderung des Schwierigkeitsgrads führen könnte, stellt die Frage „Warum müssen wir Briefmarken auf Briefe kleben?“ des HAWIK-III gegenüber der offeneren Formulierung „Warum kleben wir Briefmarken auf Briefe?“ im HAWIK-IV dar. b) Bewertung: Die Bewertungskriterien für alle Aufgaben wurden überarbeitet. So müssen beispielsweise bei der Frage: „Warum ist die Redefreiheit in einer Demokratie so wichtig?“ im HAWIK-IV zwei richtige Antworten aus zwei unterschiedlichen Konzepten gegeben werden, während im HAWIK-III eine Antwort zwei oder nur einen Punkt wert ist, je nachdem, wie hochwertig sie war. Auch die Einführung zusätzlicher Nachfrageaufforderungen bei vielen Antworten führt zu Abweichungen in der Bewertung. c) Durchführung: Eine Änderung in der Durchführung, die zu einer Herabstufung der Schwierigkeit führen kann, wurde für die Aufgaben eingeführt, die für das Erhalten der vollen Punktzahl zwei Antworten aus zwei unterschiedlichen allgemeinen Konzepten erfordern (den *-Fragen). Während im HAWIK-III nur einmal nachgefragt werden darf, nachdem das Kind eine Antwort aus einem allgemeinen Konzept gegeben hat, muss im HAWIK-IV mehrmals nachgefragt werden, wenn das Kind auf die erste Nachfrage eine weitere Antwort aus demselben allgemeinen Konzept gibt. Dadurch erhöht sich die Chance die volle Punktzahl zu erhalten, indem zwei Antworten aus zwei unterschiedlichen allgemeinen Konzepten gegeben werden. d) Aufgabenreihenfolge: Kapitel 4 Die Wechsler-Skalen 78 Wie in allen sprachlichen Untertests bestehen auch im Allgemeinen Verständnis Änderungen in der Reihenfolge der Aufgaben. Dadurch werden Kindern möglicherweise Fragen, die sie in einem Test nicht beantworten können, im anderen Test gar nicht vorgegeben. e) Startpunkte: Eine weitere Änderung liegt in der Einführung altersspezifischer Startpunkte. Dadurch ist es möglich, dass einige Kinder im HAWIK-IV zwei Punkte für Aufgaben bekommen, die sie im HAWIK-III nicht korrekt beantworten können, da die Aufgaben im HAWIK-IV vor dem altersspezifischen Startpunkt liegen und somit so bewertet werden, als seien sie korrekt beantwortet worden (für weitere Auswirkungen dieser Veränderung siehe Gemeinsamkeiten finden). f) Umkehrregel: Mit der Einführung altersspezifischer Startpunkte geht die Einführung der Umkehrregel einher. Dies führt allerdings zu keinen wesentlichen Änderungen hinsichtlich der Schwierigkeit. g) Abbruchkriterium: Das Abbruchkriterium wurde von drei auf vier falsche Antworten in Folge erhöht (zum Einfluss auf Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens). h) Untertestposition: Die Verschiebung von der zehnten auf die neunte Position dürfte keine großen Auswirkungen auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben. Allgemeines Wissen: a) Aufgaben: Der Untertest Allgemeines Wissen des HAWIK-IV setzt sich aus 33 Fragen zusammen. 13 wurden hinzugefügt und 20 Fragen ohne oder mit kleinen Veränderungen aus dem HAWIK-III übernommen. Wie in allen Untertests wurde auch im Allgemeinen Wissen auf eine Verbesserung der Leistungsdifferenzierung in den intellektuellen Randbereichen Wert gelegt. Dem wurde durch Einführung besonders schwieriger und besonders leichter Aufgaben Rechnung getragen. Außerdem führen Unterschiede in der Frageformulierung zu Veränderung des Schwierigkeitsgrades der Aufgaben. So besitzt beispielsweise die Frage: „Aus welchem Grund rostet Eisen?“ des HAWIK-III einen anderen Schwierigkeitsgrad als die Frage: „Was lässt Eisen rosten?“ des HAWIK-IV (ein anderes Beispiel stellt die Frage: „Warum haben Pflanzen meistens grüne Blätter?“ (HAWIK-III) gegenüber der Frage: „Was macht Blätter grün?“ (HAWIK-IV) dar). b) Bewertung: Die Bewertungskriterien für einige Aufgaben wurden modifiziert. Dies kann zu Abweichungen zwischen den Testversionen hinsichtlich der Bewertung des Untertests führen. c) Durchführung: Kapitel 4 Die Wechsler-Skalen 79 Hinsichtlich der Durchführung zeigen sich keine gravierenden Unterschiede zwischen den Testversionen. d) und e) Aufgabenreihenfolge und Startpunkte: Auch der mögliche Einfluss auf die Bearbeitungsleistung durch Veränderungen in der Reihenfolge und der Alterseinstiege (Reduzierung von vier auf drei unterschiedliche altersspezifische Startpunkte) kommt beim Allgemeinen Wissen zum Tragen. g) Abbruchkriterium: Das Abbruchkriterium liegt in beiden Versionen bei fünf falschen Antworten in Folge. h) Untertestposition: Die Verlegung vom zweiten auf den drittletzten (13.) Untertest könnte Einfluss auf die Vergleichbarkeit der Ergebnisse in beiden Testversionen haben. Einerseits ist es möglich, dass die Leistung eines Kindes im Laufe der Testung angesichts mangelnder Konzentrationsfähigkeit oder Ermüdungserscheinungen abnimmt, was schlechtere Leistungen im HAWIK-IV zur Folge haben könnte. Bei Kindern, die zu Beginn der Testung sehr nervös oder ängstlich sind, könnte dies zu einer besseren Leistung im Allgemeinen Wissen des HAWIK-IV führen. 4.7.2.2 Index Wahrnehmungsgebundenes Logisches Denken Mosaik-Test: a) Aufgaben: Der Mosaik-Test des HAWIK-IV umfasst 14 Aufgaben. Zehn wurden aus dem HAWIK-III übernommen; vier Aufgaben wurden zur Reduzierung des Deckeneffekts hinzugefügt (davon zwei Aufgaben mit neun Würfeln, die einen hohen Schwierigkeitsgrad aufweisen). b) Bewertung: Der Gebrauch von Zeitbonuspunkten im HAWIK-IV wurde beibehalten, jedoch auf die letzten sechs Aufgaben beschränkt. Daher wird der Gesamtrohwert dieses Untertests für viele jüngere Kinder keine Zeitbonuspunkte beinhalten. Ergänzend wurde der Gesamtrohwert Mosaik-Testohne Zeitbonus (MT-OZ) eingeführt. Seine Berechnung kann sinnvoll sein bei Kindern mit körperlichen Einschränkungen, Schwierigkeiten mit Problemlösestrategien sowie persönlichen Eigenschaften (wie beispielsweise Perfektionismus), die die Bearbeitung unter Zeitdruck beeinflussen (Flanagan & Kaufman, 2004). Da die gesteigerte Schwierigkeit und die Bewertungsmodifikationen durch den Vergleich mit der Normstichprobe berücksichtigt werden, dürfte dies keinen Einfluss auf die Vergleichbarkeit der Wertpunkte beider Testversionen haben. c) Durchführung: Zur Reduktion der Testdauer und dementsprechend zur Steigerung der Anwenderfreundlichkeit wurden die Instruktionen verkürzt. Kapitel 4 Die Wechsler-Skalen 80 d) Aufgabenreihenfolge: Die Änderungen in der Aufgabenreihenfolge können im Mosaik-Test zu deutlichen Unterschieden führen. So wurde das letzte Muster im HAWIK-III zum ersten Muster mit neun Würfeln im HAWIK-IV. Dies führt zu einem höheren Schwierigkeitsgrad dieser Aufgabe im HAWIK-IV, da das Kind noch keine Strategien für die Lösung von Aufgaben mit neun Würfeln entwickeln kann, während es im HAWIK-III vorher schon ähnliche Aufgaben lösen muss, bei denen es bereits Lösungsstrategien entwickeln konnte. f) Umkehrregel: Auch wenn sich die Umkehrregeln in beiden Testversionen voneinander unterscheiden (im HAWIK-III wird in aufsteigender Reihenfolge, also erst mit Aufgabe 1 und dann mit Aufgabe 2 vorgegangen und im HAWIK-IV in absteigender Reihenfolge, also erst mit Aufgabe 2 und dann mit Aufgabe 1), dürfte dies keinen Einfluss auf die Vergleichbarkeit der Ergebnisse beider Testversionen haben, zumal in der vorliegenden Studie nur in Ausnahmefällen umgekehrt wurde. g) Abbruchkriterium: Das Abbruchkriterium wurde von zwei auf drei nicht gelöste Aufgaben in Folge erhöht (zum Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens). h) Untertestposition: Die Verschiebung des Mosaik-Tests von der siebten auf die erste Position kann einen Einfluss auf die Ergebnisse in diesem Untertest haben. Einerseits ist es möglich, dass die Leistung eines Kindes im Laufe der Testung angesichts von mangelnder Konzentration oder Ermüdungserscheinungen abnimmt, was bessere Leistungen im HAWIK-IV zur Folge haben kann. Bei Kindern, die zu Beginn der Testung sehr nervös oder ängstlich sind, könnte dies zu einer schlechteren Leistung im Mosaik-Test des HAWIK-IV führen. Bilder ergänzen: a) Aufgaben: Der Untertest Bilder ergänzen des HAWIK-IV beinhaltet 38 Aufgaben, 12 neue und 26 Aufgaben, die aus dem HAWIK-III beibehalten wurden. Der Schwierigkeitsgrad einzelner Aufgaben hat sich durch eindeutigere grafische Aufbereitung reduziert. So ist im HAWIK-IV der fehlende Abfluss der Badewanne (Aufgabe 26) besser ersichtlich als im HAWIK-III (Aufgabe 16), da die Wanne aus einer anderen Perspektive gezeigt wird. b) und c) Bewertung und Durchführung: Hinsichtlich der Bewertung und Durchführung zeigen sich keine gravierenden Veränderungen zwischen beiden Testversionen. d) und e) Aufgabenreihenfolge und Startpunkte: Kapitel 4 Die Wechsler-Skalen 81 Auch im Bilder ergänzen kann die Bearbeitungsleistung durch Veränderungen in der Reihenfolge und den Alterseinstiegen (Reduzierung von vier auf drei altersspezifische Startpunkte) beeinflusst sein. g) Abbruchkriterium: Das Abbruchkriterium wurde von fünf auf sechs nicht gelöste Aufgaben in Folge erhöht (zum Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens). h) Untertestposition: Die Verlegung vom ersten auf den 11. Untertest könnte Einfluss auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben (zur Art des Einflusses siehe Allgemeines Wissen). 4.7.2.3 Index Arbeitsgedächtnis Zahlen nachsprechen: a) Aufgaben: Für das Zahlen nachsprechen vorwärts (ZN-V) des HAWIK-IV wurden 15 Versuche übernommen und ein neuer Versuch entwickelt. Für das Zahlen nachsprechen rückwärts (ZN-R) wurden sechs neue Versuche entwickelt und zehn Versuche aus dem HAWIK-III übernommen. Die Veränderungen in den Zahlenreihen sind jedoch zu gering (beim ZN-V wurde beispielsweise nur einmal eine 6 durch eine 8 ersetzt), um einen Einfluss auf die Vergleichbarkeit beider Testversionen zu haben. Im ZN-R wurden zur Erhöhung des Verständnisses für diese Teilaufgabe bei leistungsschwachen Kindern zwei zusätzliche Aufgaben mit zwei Zahlen eingefügt. Zur Besserung Differenzierung der Leistung des Kindes wurden die ZN-V- und ZN-R-Prozesswerte sowie die längste Zahlenspanne vorwärts (LZ-V) und die längste Zahlenspanne rückwärts (LZ-R) eingeführt. So ermöglicht die Prozessanalyse von ZN-V und ZN-R den Vergleich von Merkspanne (ZN-V) und Arbeitsgedächtnis (ZN-R) (Flanagan & Kaufman, 2004). b) bis g) Bewertung, Durchführung, Aufgabenreihenfolge, Startpunkte, Abbruchkriterium: In diesen Bereichen gibt es keine Unterschiede zwischen HAWIK-III und -IV. h) Untertestposition: Durch die Verschiebung des Untertests Zahlen nachsprechen von der 12. auf die 3. Position kann ein Kind unterschiedliche Leistungen in beiden Testversionen zeigen (zur Art des Einflusses siehe Mosaik-Test). Gerade für Leistungen des Arbeitsgedächtnisses, die mit diesem Untertest erfasst werden, sind Konzentration und Aufmerksamkeit von zentraler Bedeutung. Rechnerisches Denken: a) Aufgaben: Der Untertest Rechnerisches Denken des HAWIK-IV umfasst 34 Aufgaben. Dabei beinhalten 11 zwar die gleichen mathematischen Rechenaufgaben wie der HAWIK-III, die textliche Einbet- Kapitel 4 Die Wechsler-Skalen 82 tung der Rechenaufgaben wurde jedoch überarbeitet. Zur Verbesserung der Boden- und Deckendifferenzierung wurden außerdem 20 neue Aufgaben entwickelt. Die Aufgaben wurden so gestaltet, dass die Anforderungen an das Arbeitsgedächtnis erhöht wurden, indem auch die schwierigen Aufgaben nicht mehr vom Kind gelesen werden können, während gleichzeitig das mathematische Wissen, das zum Erfüllen der Untertestaufgabe erforderlich ist, altersangemessener gestaltet wurde. b) Bewertung: Die Zeitbonuspunkte für besonders schnelle Bearbeitung der letzten Aufgaben wurden abgeschafft. c) Durchführung: Während im HAWIK-III für die schwierigeren Aufgaben mehr Lösungszeit zur Verfügung steht, liegt die Zeitgrenze beim HAWIK-IV durchweg bei 30 Sekunden. Die Karten zum Vorlesen der Aufgaben durch das Kind wurden abgeschafft. Die Vorgabe der Aufgaben erfolgt ausschließlich durch Vorlesen des Testleiters. Während die ersten Aufgaben im HAWIK-IV bei falscher Durchführung eine korrigierende Rückmeldung vorsehen, ist dies im HAWIK-III nicht vorgesehen. d) und e) Aufgabenreihenfolge und Startpunkte: Veränderungen in der Reihenfolge und den Alterseinstiegen (Reduzierung von vier auf drei unterschiedliche altersspezifische Startpunkte) können die Bearbeitungsleistung im Rechnerischen Denken beeinflussen. g) Abbruchkriterium: Das Abbruchkriterium wurde von drei auf vier falsche Antworten in Folge erhöht (zum Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens). h) Untertestposition: Durch die Verschiebung des Untertests Rechnerisches Denken von der sechsten auf die vorletzte Position können sich deutliche Unterschiede in den Leistungen eines Kindes zwischen beiden Testversionen ergeben (zur Art des Einflusses siehe Allgemeines Wissen). Gerade für Leistungen des Arbeitsgedächtnisses, die mit diesem Untertest erhoben werden, sind Konzentration und Aufmerksamkeit von zentraler Bedeutung. 4.7.2.4 Index Verarbeitungsgeschwindigkeit Zahlen-Symbol-Test: In diesem Untertest gibt es keine wesentlichen Unterschiede zwischen HAWIK-III und -IV. Zwar wurde der Zahlen-Symbol-Test des HAWIK-III farbig und der Zahlen-Symbol-Test des HAWIK-IV schwarz-weiß gehalten, dies dürfte jedoch keinen Einfluss auf die Vergleichbarkeit der Ergebnisse in beiden Testversionen haben. Kapitel 4 Die Wechsler-Skalen 83 Symbol-Suche: Bei der Version für die sechs- und siebenjährigen Kinder (Version A) gibt es keine Unterschiede zwischen beiden Tests. Für die älteren Kinder (Version B) wurden für die WISC-IV bzw. den HAWIK-IV zur Vermeidung eines Deckeneffekts 15 zusätzliche Aufgaben entwickelt. 4.8 Zusammenfassung Die Wechsler-Skalen zählen zu den bedeutendsten und empirisch meist untersuchten Testverfahren. Sie weisen eine jahrzehntelange Tradition in der Forschung und der klinischen Diagnostik auf. Wechslers Einfluss auf die Intelligenzforschung begann in den 1930er Jahren und hat aufgrund seiner zahlreichen Tests weiterhin ungebrochen Bestand. Es besteht Kritik an unterschiedlichen Aspekten seiner Testbatterien, dennoch bleibt die Bedeutsamkeit der WechslerSkalen weitgehend unstrittig. Die hier gegenständlichen Intelligenztests HAWIK-III und HAWIKIV sind aus dem HAWIK hervorgegangen, einer für das Kindesalter abgewandelten Version der Wechsler-Bellevue Intelligence Scale. Sie weisen insgesamt überdurchschnittliche psychometrische Eigenschaften auf. Dennoch gibt es Einschränkungen, beispielsweise im Hinblick auf die Objektivität. Unterschiede in den Gütekriterien, wie unterschiedliche Reliabilitätskennwerte, müssen beim Vergleich beider Testversionen Berücksichtigung finden. Dem HAWIK-IV liegen die bisher größten Veränderungen gegenüber einer Vorgängerversion zugrunde. So zeigen sich im HAWIK-III und -IV in vielerlei Hinsicht deutliche Unterschiede, beispielsweise durch die Einführung neuer Untertests, Änderungen der Teststruktur (u. a. Wegfall des Verbal- und Handlungsteils) sowie die Erfassung unterschiedlicher kognitiver Fähigkeiten. Auch innerhalb der Untertests, die in beiden Testversionen enthalten sind, haben sich diverse Veränderungen ergeben. Dazu gehören die Einführung zusätzlicher Aufgaben ebenso wie Modifizierungen der Bewertungskriterien und Durchführungsanweisungen. Diese Änderungen können die Vergleichbarkeit beider Testversionen beeinträchtigen. Kapitel 5 Methodische Aspekte bei Vergleichsstudien 84 5 Methodische Aspekte bei Vergleichsstudien Allgemeines Wissen, Frage 13: „Was tut der Magen?“ Marie, 7 Jahre: „Er passt auf, dass das Essen nicht rausfällt.“ Obwohl stets neue Testverfahren entwickelt werden, gibt es eine Vielzahl von Studien zu Revisionen bereits bestehender Testverfahren und zu neu aufgelegten Testversionen. Ein Messinstrument zu überarbeiten hat diverse Gründe. Dazu gehören nach Strauss, Spreen und Hunter (2000) die Aktualisierung der Normen (siehe Kapitel 4.6), die Erweiterung der Altersbereiche, die Bereitstellung zusätzlicher Minderheitenstichproben, das Entfernen veralteter Items, die Verbesserung der Güte des Items sowie die Erhöhung der Testvalidität. Testrevisionen können auf komplexe Weise die Art der erhaltenen Informationen verändern und Merkmale, Fähigkeiten und Bedingungen anders als die vorherigen Versionen erheben. 5.1 Korrelationsstudien Die Untersuchung der Korrelationen zwischen den Testwerten und externen Variablen gibt Hinweise auf die Kriteriumsvalidität des Tests (siehe Kapitel 4.4.3). Die Kriteriumsvalidität ist hoch, wenn der Test hoch mit anderen Instrumenten korreliert, die dasselbe Konstrukt zu messen vorgeben. Auch für die Wechsler-Skalen wurden entsprechende Korrelationsstudien durchgeführt. Um abschätzen zu können, welche Korrelationen zwischen dem HAWIK-III und -IV in dieser Studie zu erwarten sind, wird im Folgenden auf vergleichbare Studien eingegangen. Die Studien wurden größtenteils während der Normierung der jeweils aktuelleren Testversion in Form von CoNormierungsstudien durchgeführt. Korrelationsstudien wurden in den vergangenen drei Jahrzehnten im Bereich der Testentwicklung weit verbreitet eingesetzt (Zhu & Tulsky, 2000). Sie erlauben die gemeinsame Interpretation zweier Tests und verstärken damit deren klinischen Nutzen. 5.1.1 Korrelationsstudien zur WISC-III Für die Untersuchung der Korrelation zwischen der WISC-III und der WISC-R wurden die beiden Tests in ausbalancierter Reihenfolge 206 Kindern im Alter von 6 bis 16 Jahren (Mit- Kapitel 5 Methodische Aspekte bei Vergleichsstudien 85 tel = 11 Jahre) vorgegeben (Wechsler, 1991). Zwischen den beiden Testzeitpunkten lagen durchschnittlich 21 Tage. Es wurden nur die Korrelationen zwischen den Untertests, die in beiden Testversionen vorkommen, und den drei IQ-Gesamtwerten (Verbal-, Handlungs- und Gesamt-IQ5) untersucht. Vor allem Verbal- und Gesamt-IQ beider Testversionen korrelierten hoch miteinander (r = .90 und .89). Die Korrelation zwischen den Handlungs-IQ-Werten lag, wenn auch etwas niedriger, mit r = .81 ebenfalls sehr hoch. Daraus wurde geschlossen, dass die WISC-R und die WISC-III ausreichend die selben Konstrukte erfassen. In Großbritannien wurde die Korrelation zwischen der englischen WISC-III und der WISC-R untersucht, indem die Testergebnisse von 151 der 206 Kindern der amerikanischen Stichprobe auf die englischen Normen transferiert wurden (Wechsler, 1992). Der Zusammenhang zwischen den Gesamt- und Verbal-IQ erwies sich ebenfalls als deutlich höher als im Handlungs-IQ (jeweils r = .88 gegenüber .79). Eine Studie mit 51 hochbegabten Kindern und Jugendlichen zeigte dagegen auf Untertestebene nur Korrelationen zwischen r = .08 (Figurenlegen) und .59 (Mosaik-Test). Die beiden Verbal-, Handlungs- und Gesamt-IQ wiesen mit Werten zwischen r = .33 und .37 ebenfalls niedrige Zusammenhänge auf (Sabatino, Spangler & Vance, 1995). 5.1.2 Korrelationsstudien zum HAWIK-III Im Manual des HAWIK-III wird eine Validitätsstudie mit dem HAWIK-R beschrieben (Tewes et al., 2002). Zum Vergleich beider Testversionen wurden sie in einer ausbalancierten Reihenfolge einer Stichprobe von 87 Schweizer Kindern zur Bearbeitung vorgelegt (der Abstand betrug durchschnittlich 30 Tage). Im Durchschnitt waren die Kinder 10;4 Jahre alt (s = .90 Jahre). Dabei wurden ebenfalls nur jene Untertests einbezogen, die in beiden Testversionen enthalten sind. Im Gesamt-IQ zeigte sich eine Korrelation von r = .88 (nach Anwendung einer Korrektur hinsichtlich der Varianzeinschränkung des HAWIK-III von r = .92, siehe Kapitel 7.5.3). Dies spreche nach Ansicht der Autoren dafür, dass die beiden Tests dasselbe Konstrukt abbilden. Im Verbal-IQ (r = .80; korrigierter Wert: r = .88) und im Handlungs-IQ (r = .81; korrigierter Wert: r = .87) lagen die Koeffizienten etwas niedriger. Doch auch diese Werte sprechen noch für eine diagnostische Äquivalenz beider Tests. Insgesamt stimmen die Befunde mit denen der amerikanischen und englischen Studien überein. Das gilt auch im Wesentlichen für die Zusammenhangsuntersuchung der gemeinsamen Untertests. So ergaben sich sowohl im Vergleich der WISC-III mit der WISC-R als auch im Vergleich des HAWIK-III mit dem HAWIK-R die niedrigsten Korrelationen im Bilderordnen (r = .42 gegenüber .47; korrigiert: r = .47) und Bilderergänzen (r = .57 gegenüber .41; korrigiert: r = .65). 5 Wie bereits an anderer Stelle, werden auch hier zum besseren Verständnis die deutschen Bezeichnungen der Gesamtwerte, Indizes und Untertests angegeben, auch wenn es sich um amerikanische Studien handelt. Kapitel 5 Methodische Aspekte bei Vergleichsstudien 86 Im Gegensatz zu der amerikanischen Untersuchungsstichprobe zeigten sich allerdings bei den Schweizer Kindern höhere IQ-Mittelwerte im HAWIK-III als im HAWIK-R (nur bei drei Untertests des Handlungsteils waren die Mittelwerte des HAWIK-R höher). Die Autoren des HAWIK-III stellten die Überlegung an, die höheren Mittelwerte im HAWIK-III könnten mit einer größeren geografischen Streuung der Normierungspopulation des HAWIK-III zusammenhängen (Tewes et al., 2002). 5.1.3 Korrelationsstudien zur WISC-IV In der Studie, die für die vorliegende Untersuchung als Vergleichsbasis herangezogen wird, wurde die Höhe der Korrelationen zwischen WISC-III und WISC-IV an 244 Kindern zwischen 6 und 16 Jahren untersucht (Wechsler, 2003b). Das Re-Testintervall lag durchschnittlich bei 28 Tagen. Zwischen den Gesamt-IQ beider Testversionen ergab sich eine korrigierte Korrelation von r = .89. Außerdem wurden der VCI (Verbal Comprehension Index, entspricht dem Index SV des HAWIK-IV) und der PRI (Perceptual Reasoning Index, entspricht dem Index WLD des HAWIK-IV) der WISC-IV mit dem Verbal- und dem Handlungs-IQ der WISC-III (n = 244, Alter 6-16) verglichen. Dabei weist SV mit dem Verbal-IQ Korrelationen von r = .87 und WLD mit dem Handlungs-IQ Korrelationen von r = .74 auf. Die Indizes korrelieren zwischen r = .72 und .88. Die Zusammenhänge der Index-Kombinationen POI (entspricht dem Index WO des HAWIK-III) und PRI sowie FDI (entspricht dem Index UA des HAWIK-III) und WMI (entspricht dem Index AGD des HAWIK-IV) erweisen sich als niedriger als die Korrelationen der Index-Kombinationen VCI und VCI sowie PSI (entspricht dem Index AG des HAWIK-III) und PSI (entspricht dem Index VG des HAWIK-IV). Die Untertests zeigen nur geringfügig niedrigere Zusammenhänge auf. Allgemeines Verständnis erweist sich als Untertest mit den niedrigsten Korrelationen (r = .62), während das Allgemeine Wissen mit r = .83 am höchsten korreliert. Insgesamt erweisen sich die Indexwerte der WISC-III als höher als die entsprechenden Indexwerte der WISC-IV. 5.1.4 Korrelationsstudien zum HAWIK-IV Für die Vergleichsstudie zwischen HAWIK-IV und seinem Vorgänger, dem HAWIK-III, wurden 100 Kinder und Jugendliche in ausbalancierter Reihenfolge mit beiden Testverfahren untersucht (Petermann & Petermann, 2008a). Der Abstand zwischen beiden Testungen betrug im Mittel 35 Tage. Die Korrelationen wurden getrennt, in Abhängigkeit von der Reihenfolge der Testvorgabe, angegeben. Bei den 54 Kindern und Jugendlichen, die den HAWIK-IV zuerst durchführten zeigte sich eine Korrelation in den Gesamt-IQ beider Testversionen von r = .73. Im Vergleich der zusammengesetzten IQ-Werte mit den entsprechenden Indizes sowie der Indizes untereinander ergaben sich Korrelationen zwischen r = .50 und .97. und auf Untertestebene zwischen r = .34 und .79. Die 46 Kinder und Jugendlichen, die zuerst den HAWIK-III vorgelegt bekamen, wiesen in den Gesamt-IQ einen Zusammenhang von r = .63 und in den zu- Kapitel 5 Methodische Aspekte bei Vergleichsstudien 87 sammengesetzten IQ-Werten und den Indizes von r = .35 bis .80 auf. Auf Ebene der Untertests zeigten sich Korrelationen zwischen r = .43 und .72. Tabelle 5.1 stellt eine Übersicht über die bisherigen Korrelationsstudien zu HAWIK- bzw. WISCVersionen dar. Tabelle 5.1: Ergebnisse der Korrelationsstudien zu HAWIK- bzw. WISC-Versionen Untertest oder Index WISC-R vs. WISC-III HAWIK-R vs. HAWIK-III WISC-III vs. WISC-IV US/UK unkorr. (korr.) unkorr. (korr.) r .76 .74 .71 .70 .77 .67 r .81 (.84) .48 (.58) .78 (.81) .77 (.77) .77 (.88) .44 (.78) r .77 (.77) .75 (.76) .79 (.77) .77 (.76) .78 (.82) .60 (.62) .68 (.67) .62 (.64) .82 (.83) .74 (.74) MT GF ZN ZST WT AV SS/SYS BE .57 .41 (.65) AW .80 .64 (.83) RD .67 .63 (.69) BO .42 .47 (.47) FL .58 .52 (.73) V-IQ/V-IQ o. SV .90/.88 .80 (.88) H-IQ/H-IQ o. WLD .61/.79 .81 (.87) SV/SV WO/WLD UA/AGD AG/VG Gesamt .89/.88 .88 (.92) Anmerkung: Abkürzungen siehe Anhang A5 und A6. .83 (.87) .73 (.74) .85 (.88) .70 (.72) .74 (.72) .81 (.81) .87 (.89) HAWIK-III vs. HAWIK-IV HAWIK-IV HAWIK-III zuerst zuerst r r .61 .54 .60 .43 .72 .59 .72 .72 .60 .65 .61 .58 .34 .57 .63 .65 .79 .67 .72 .52 .97 .50 .75 .53 .72 .68 .73 .79 .35 .80 .37 .52 .73 .63 5.1.5 Korrelationsstudien mit anderen Testverfahren Die Korrelationen zwischen WISC-IV und der Vorschulversion WPPSI-III wurden an 182 sechsund siebenjährigen Kindern berechnet (Wechsler, 2003b). Der Gesamt-IQ korrelierte mit r = .89 (korrigiert). Auf Index-Ebene zeigten sich mit r = .83 die höchsten korrigierten Korrelationen im Vergleich Verbalteil und SV und mit r = .65 die niedrigsten im Vergleich der VGIndizes. In den Indizes und dem Gesamt-IQ lagen die Standarddifferenzen (siehe Kapitel 7.5.3.1) zwischen .02 und .10. Auf Untertestebene ergaben sich korrigierte Korrelationen zwischen r = .44 (Bildkonzepte) und .74 (Allgemeines Wissen). Die Standarddifferenzen lagen zwischen .00 (Allgemeines Verständnis) und .29 (Zahlen-Symbol-Test). Zur Berechnung der Korrelationen zwischen WISC-IV und der Erwachsenenversion WAIS-III wurden 198 Kinder im Alter von 16 Jahren untersucht (Wechsler, 2003b). Während der Korrelationskoeffizient des Gesamt-IQ bei r = .89 lag, erreichten die Indizes Korrelationen von r = .73 Kapitel 5 Methodische Aspekte bei Vergleichsstudien 88 (WLD und WO) bis .86 (SV und Verbalteil). Im Hinblick auf die Untertests ergaben sich für die Symbol-Suche mit r = .56 die niedrigsten und für den Wortschatz-Test mit r = .83 die höchsten Korrelationen. Die Korrelationsstudie zwischen WISC-IV und KABC-II wurde an 56 Kindern im Alter von 7 bis 16 Jahren durchgeführt (Kaufman & Kaufman, 2004). Der Gesamt-IQ der WISC-IV korrelierte dabei hoch mit beiden Gesamtwerten der KABC-II (r = .88 mit dem Mental Processing Index (MPI) und r = .89 mit dem Fluid-Crystallized Index (FCI) sowie r = .79 mit dem Nonverbal Index (NVI)). Auf Index-Ebene wies SV mit dem entsprechenden Index Knowledge/Gc mit r = .85 den höchsten Zusammenhang auf. WLD korrelierte am höchsten mit den entsprechenden Indizes Planning/Gf und Simultaneous/Gv der KABC-II (r = .69 und .66), AGD mit r = .71 mit dem Index Sequential/Gsm, der ebenfalls die Leistung des Kurzzeitgedächtnisses erheben soll. VG korrelierte mit keinem der KABC-II-Indizes sehr hoch und auch die Korrelationen zu den Gesamtwerten der KABC-II waren mit r = .59 bis .64 die niedrigsten aller vier Indizes. In einer größer angelegten Studie wurden KABC-II und WISC-III anhand von 119 Kindern im Alter von 8 bis 13 Jahren verglichen (Kaufman & Kaufman, 2004). Es ergaben sich auf Ebene der Gesamtwerte niedrigere Zusammenhänge als zwischen K-ABC-II und WISC-IV (zwischen r = .71 und .77). Verbal-IQ und SV korrelierten hoch mit dem entsprechenden Index Knowledge/Gc (r = .82), Handlungs-IQ und WO dagegen relativ niedrig mit dem entsprechenden Index Simultaneous/Gv (r = .61 und .62). Anders als bei der WISC-IV korrelierten Handlungs-IQ und WO nur recht niedrig mit dem Index Planning/Gf (r = .54 und .56), was dafür spricht, dass der Handlungsteil des HAWIK-III eher visuelle Verarbeitung als fluides Denken misst (siehe Kapitel 3.3.1 sowie Flanagan et al., 2000). UA und AG wiesen niedrige bis moderate Korrelationen zu den KABC-II-Indizes auf (zwischen r = .13 und .58). 5.2 Störeinflüsse Viele Aspekte können ursächlich dafür sein, dass ein Individuum bei demselben oder einem ähnlichen Test an zwei Messzeitpunkten deutlich voneinander abweichende Ergebnisse erzielt. Dies können sowohl intraindividuelle und interpersonale als auch im umweltbezogene und psychometrische Gründe sein (Bracken, 1992). Während vor allem umweltbezogene und interpersonale Störeinflüsse relativ gut ausgeschlossen werden können, indem beispielsweise beide Testungen im selben Raum stattfinden und vom selben Testleiter durchgeführt werden, ist es kaum möglich, sämtliche psychometrischen Einschränkungen zu vermeiden. Diese Faktoren haben Einfluss auf den Validitätskoeffizienten und können zu unterschiedlichen Ergebnissen in zwei eigentlich ähnlichen Instrumenten führen. Teilweise interagieren sie zusätzlich miteinander. Einige dieser Faktoren sind nach Wechsler (2003b) Kapitel 5 Methodische Aspekte bei Vergleichsstudien 89 das Zeitintervall zwischen den Testungen, entwicklungsbedingte Veränderungen und Lernzuwächse während des Zeitintervalls, strukturelle Unterschiede zwischen den Tests, Regression zur Mitte von der ersten zur zweiten Testung, die Reliabilitäten beider Tests, Erinnerung an die erste Testdurchführung, unterschiedliches prozedurales Lernen und Übung, das Motivationslevel des Kindes sowie der Flynn-Effekt. Zhu und Weiss (2000) bezeichnen Faktoren wie Übung, Erlernen der Prozeduren und Bekanntheit mit der Testsituation als „carry-over“-Effekte. Im Folgenden werden diese Faktoren sowie die Erinnerung an die erste Testdurchführung zusammenfassend als Lerneffekt bezeichnet und ausführlich behandelt. Ergänzend zu den oben genannten Störeinflüssen ging Bracken (1988) auch bei folgenden Faktoren davon aus, dass sie bei ähnlichen Tests zu unterschiedlichen Ergebnissen beitragen können: Boden- und Deckeneffekte (siehe Kapitel 4.4.5), Itemgefälle, Unterschiede in den Normtabellen, Untersuchung unterschiedlicher Fähigkeiten durch die Untertests (siehe Kapitel 4.2 und 4.3), inhaltliche Unterschiede der Tests (siehe Kapitel 4.2 und 4.3) sowie Repräsentativität der Normstichprobe (siehe Kapitel 4.4.4). Diese Einflüsse und ihre Interaktionen miteinander müssen bei der Interpretation der Ergebnisse berücksichtigt werden. Viele dieser Faktoren sind in dieser Studie nicht kontrollierbar. Dazu gehört das Motivationslevel des Kindes ebenso wie entwicklungsbedingte Veränderungen und Lernzuwächse. Letztere können jedoch zumindest für das kurze Intervall ausgeschlossen werden. Der Einfluss unterschiedlicher Normtabellen (dies wäre beispielsweise der Fall, wenn bei den Testversionen unterschiedliche Altersspannen in den Normtabellen zusammengefasst wären) auf die Vergleichbarkeit beider Testversionen kann ebenfalls ausgeschlossen werden, da sich die Struktur der Normtabellen von HAWIK-III und -IV nicht unterscheidet. Die Normstichprobe kann für beide Testversionen als gleich repräsentativ angenommen werden. Das Itemgefälle eines Tests gibt an, wie steil die Items hinsichtlich des Schwierigkeitsniveaus und der Distanz zwischen den Standardwerten festgelegt wurden (Bracken, 1992). Bei zu stei- Kapitel 5 Methodische Aspekte bei Vergleichsstudien 90 lem Verlauf würde beispielsweise ein erzielter Rohwertpunkt mehr oder weniger entscheiden, ob ein Kind als minder- oder hochbegabt diagnostiziert wird. In diesem Fall wäre eine Interpretation des Testergebnissen ausgesprochen fragwürdig. In dieser Studie wird von einem ähnlichen Itemgefälle beider Testversionen ausgegangen, so dass sich darauf keine Unterschiede zwischen den Ergebnissen im HAWIK-III und -IV begründen lassen. Auf das Zeitintervall wird aufgrund des in zwei Abstände unterteilten Untersuchungsdesigns an diversen Stellen eingegangen. Ausführliche Angaben zu strukturellen und inhaltlichen Unterschieden zwischen beiden Testversionen sowie Boden- und Deckeneffekten wurden bereits in Kapitel 4 aufgeführt. Auch die unterschiedlichen Fähigkeiten, die von den Untertests und Indizes des HAWIK-III und -IV erfasst werden sollen sowie unterschiedliche Reliabilitäten beeinflussen die Vergleichbarkeit beider Testversionen. Sie wurden deshalb im Kapitel 4 gesondert betrachtet. In diesem Kapitel soll daher auf folgende der oben aufgeführten Störeinflüsse eingegangen werden: den Lerneffekt und den Flynn-Effekt. 5.2.1 Lerneffekt Einen möglichen Störeinfluss auf den Vergleich zwischen HAWIK-III und -IV stellt der Lerneffekt dar. Besonders bei den Kindern und Jugendlichen, die mit einem Abstand von einem Monat mit beiden Testverfahren getestet wurden, kann es aufgrund von Lernerfahrungen und Erinnerung zu höheren Werten in der zweiten Testung kommen. Der Lerneffekt entsteht nach Kaufman (1994b) durch die Erfahrung, die eine Person durch die erste Testdurchführung gemacht hat, und geht nicht auf das Feedback des Testleiters oder Weiterentwicklungen der Fähigkeiten des Kindes zurück. Er ist vielmehr ein Aspekt des Messinstruments an sich, eine Art systematischer, eingebauter Fehler, der mit den spezifischen Fähigkeiten, die vom Test gemessen werden, assoziiert ist. Es gibt einige Faktoren, die zum Lerneffekt beitragen. Dazu gehören die Vertrautheit mit Aufgaben, wie sie in Intelligenztestverfahren vorkommen, die Erfahrung mit der Lösung solcher Aufgaben und die Entwicklung von Strategien zur Lösung dieser Art von Problemen (Kaufman, 1994b). Der Lerneffekt gehört zu den psychometrischen Eigenschaften eines Testverfahrens und sollte als spezifischer Aspekt der Reliabilität verstanden werden. Obwohl er ausgiebig untersucht und nachgewiesen werden konnte, wird er nach Kaufman und Lichtenberger (2006) von vielen Untersuchern bei der Interpretation von Testprofilen unberücksichtigt gelassen. Je länger der Abstand zwischen beiden Messzeitpunkten ist, desto geringer zeigt sich der Einfluss des Lerneffekts. Nach langen Intervallen fließen eher andere Störvariablen wie die Zu- oder Abnahme der erfassten Fähigkeiten in das Ergebnis ein (Kaufman, 1994b). Aus diesem Grund wurde der Lerneffekt zumeist an kurzen Intervallen untersucht. Kapitel 5 Methodische Aspekte bei Vergleichsstudien 91 Für die WISC-IV wurde an 243 Kindern und Jugendlichen ein möglicher Lerneffekt untersucht. Das Re-Testintervall lag dabei zwischen 13 und 63 Tagen mit einem durchschnittlichen Abstand von 32 Tagen (Wechsler, 2003b). Die folgende Tabelle 5.2 zeigt den Lerneffekt in den Index- und IQ-Werten, sowohl für alle Kinder als auch unterteilt in drei Altersgruppen. Tabelle 5.2: Ein-Monats-Lerneffekt für die WISC-IV-Index- und IQ-Werte (n = 243) (modifiziert nach Wechsler, 2003b, S. 40ff) Index Alter 6-7 Alter 8-11 Alter 12-16 Gesamt SV +3.4 (.31 SD) +2.2 (.20 SD) +1.7 (.14 SD) +2.1 (.18 SD) WLD +6.4 (.46 SD) +4.2 (.34 SD) +5.4 (.38 SD) +5.2 (.39 SD) AGD +4.7 (.33 SD) +2.8 (.22 SD) +1.6 (.12 SD) +2.6 (.20 SD) VG +10.9 (.72 SD) +8.2 (.60 SD) +4.7 (.35 SD) +7.1 (.51 SD) Gesamt-IQ +8.3 (.62 SD) +5.8 (.53 SD) +3.4 (.34 SD) +5.6 (.46 SD) Anmerkungen: SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6. Wie die Tabelle 5.2 zeigt, wiesen die Kinder im Alter von sechs bis sieben Jahren die größten Lerneffekte auf und diese nahmen im Altersverlauf ab. Dies zeigte sich vor allem im GesamtIQ, aber auch in den Indizes mit Ausnahme des WLD. Obwohl der Lerneffekt bei der VG in der Gruppe der sechs- bis siebenjährigen Kinder mit 10.9 Punkten Zuwachs am höchsten ausfiel, zeigten sich keinerlei Lerneffekte im optionalen Untertest Durchstreich-Test. Rechnerisches Denken und Buchstaben-Zahlen-Folgen, beides Untertests des Index AGD, wiesen in der jüngsten Altersgruppe deutliche, in den anderen Altersgruppen jedoch kaum Lerneffekte auf. Auf Untertestebene wies Bilder ergänzen den größten Lerneffekt auf, gefolgt von den zwei anderen Untertests des WLD, Bildkonzepte und Mosaik-Test. Tabelle 5.3 zeigt die Untertests mit relativ großem Ein-Monats-Lerneffekt separat für die drei Altersgruppen. Tabelle 5.3: Untertests mit relativ großem Ein-Monats-Lerneffekt getrennt in drei Altersgruppen (modifiziert nach Wechsler, 2003b, S. 40ff) Alter 6-7 Alter 8-11 Alter 12-16 ZST (+0.65 SD) BE (+0.68 SD) BE (+0.58 SD) SYS (+0.62 SD) SYS (+0.52 SD) DT (+0.44 SD) BE (+0.58 SD) BK (+0.52 SD) ZST (+0.40 SD) RD (+0.57 SD) DT (+0.47 SD) MT (+0.40 SD) BK (+0.50 SD) MT (+0.40 SD) BK (+0.35 SD) MT (+0.45 SD) GF (+0.45 SD) BEN (+0.42 SD) BZF (+0.39 SD) Anmerkungen: Abkürzungen siehe Anhang A5 und A6. Relativ große Lerneffekte sind hier die Untertests mit einer Standardabweichung von mindestens 0.33 (dies entspricht ungefähr einer Steigerung um einen Wertpunkt, abhängig von der genauen Standardabweichung in jedem Alter). Eine Studie zur WISC-III an 51 Kindern und Jugendlichen im Alter von 11 bis 14 Jahren brachte bei einem Test-Retest-Intervall zwischen 11 und 19 Tagen mit einem Mittelwert von 13 Tagen Kapitel 5 Methodische Aspekte bei Vergleichsstudien 92 im Handlungsteil Zuwächse von durchschnittlich 13.78 IQ-Punkten hervor (Siders, Kaufman & Reynolds, 2006). Dies ähnelt den Ergebnissen, die im Testmanual der WISC-III angegeben sind (Wechsler, 1991, Tabellen 5.3 bis 5.5). Dort erzielten 353 Kinder der Altersgruppen 6 bis 7, 10 bis 11 und 14 bis 15 nach einem Abstand von 12 bis 63 Tagen (Mittelwert 23 Tage) bei der zweiten Testung zwischen 11.5 und 13.0 Handlungs-IQ-Punkte mehr. Für den Verbal-IQ lag der Anstieg nur zwischen 1.7 und 3.3 Punkten, im Gesamt-IQ schwankte die Differenz zwischen beiden Testzeitpunkten zwischen sieben und acht IQ-Punkten. Für Kamphaus (2005) scheint demnach ein Zugewinn von zwei oder drei Punkten im Verbalteil ein typischer Lerneffekt nach einer kurzen Zeitspanne zu sein, während im Handlungsteil die Vertrautheit mit den Untertests durchschnittlich eine weitaus höhere Ergebnissteigerung zur Folge hat. Dies liegt nach Kaufman und Lichtenberger (2006) auch an den niedrigeren Reliabilitäten der Untertests des Handlungsteils, da mit geringerer Stabilität und größerem Messfehler deutlichere Änderungen zwischen Test und Re-Test einhergehen. Für den hohen Lerneffekt im Handlungsteil waren in der Studie zur WISC-III vor allem die Untertests Zahlen-Symbol-Test und Bilderordnen ursächlich (Wechsler, 1991). Hier steigerte sich der erreichte Wert um bis zu einer Standardabweichung. Ein hoher Lerneffekt im ZahlenSymbol-Test zeigte sich auch in der Studie zur WISC-IV, zumindest in der jüngsten und ältesten Altersgruppe (siehe Tabelle 5.3). Einen ähnlich hohen Anstieg wie im Handlungsteil verzeichneten auf Index-Ebene nur die beiden Indizes WO und AG (Zuwächse von 9 bis 11 Punkten), was darauf zurückgeführt werden kann, dass der Handlungsteil größtenteils aus den Untertests dieser beiden Indizes besteht. Auch in älteren Studien konnten große Lerneffekte nachgewiesen werden, vor allem nach kurzen Re-Testintervallen. Im Gegensatz zu bisher genannten Studien zeigten sich bei einer Untersuchung mit der WAIS deutlich größere Lerneffekte im Verbal- als im Handlungsteil (11.4 gegenüber 4.7) (Catron & Thompson, 1979). Matarazzo, R. G., Wiens, Matarazzo, J. D. und Manaugh (1973) fanden bei 29 Personen nach einem Intervall von 14 bis 22 Wochen einen durchschnittlichen Leistungszugewinn von 5.5 Gesamt-IQ-Punkten (Verbal-IQ 5.6 und Handlungs-IQ 4.9). Eine der ersten Studien zu Lerneffekten bei der WISC zeigte nach einem Drei-MonatsIntervall einen Gesamt-IQ-Zuwachs zwischen 4.3 und 8.1 Punkten, je nach Alter des Kindes (Quereshi, 1968). Außerdem ergaben sich deutlich größere Lerneffekte im Handlungs- als im Verbalteil. Im Allgemeinen Verständnis ließ sich, außer bei den jüngsten Kindern, sogar keinerlei Unterschied feststellen. In einer Studie zur WAIS-R wurde an 52 16-Jährigen der Unterschied im IQ-Anstieg zwischen einer Re-Testung nach drei Monaten und einer Re-Testung nach 18 Monaten untersucht (Thompson & Molly, 1993). Es zeigten sich deutlich höhere Anstiege bei den Jugendlichen, die Kapitel 5 Methodische Aspekte bei Vergleichsstudien 93 erst nach 18 Monaten zum zweiten Mal getestet wurden (Gesamt-IQ: 10.4, Verbal-IQ: 7.3, Handlungs-IQ: 12.2 gegenüber 7.0, 3.6 und 10.7 im kurzen Intervall). Da nach Thompson und Molly der Lerneffekt mit größerem Abstand immer geringer wird, führen sie den größeren Anstieg nicht auf Lerneffekte, sondern auf Reifungsprozesse und Bildungszuwachs der 16Jährigen zurück. Das wurde insbesondere im Allgemeinen Verständnis deutlich, in dem die Jugendlichen, die nach dem längeren Abstand noch einmal getestet wurden, einen größeren Zuwachs verzeichneten als die Jugendlichen mit dem kürzeren Intervall. Da sich das Allgemeine Verständnis (ähnlich wie die anderen verbalen Untertests) als relativ unberührt von Lerneffekten erweist (siehe Quereshi, 1968), muss dieser Anstieg auf diese anderen Effekte zurückzuführen sein. In Studien zur Untersuchung der Stabilität von WISC-III-Profilen ergaben sich bei einem ReTestintervall von im Durchschnitt drei Jahren keinerlei nennenswerte Wertpunkt- und IQWertanstiege (Borsuk, Watkins & Canivez, 2006; Canivez & Watkins, 1999). Unter Berücksichtigung mehrerer Studien zum Lerneffekt bei den Wechsler-Skalen zeigte sich im Gesamt-IQ ein Zuwachs von ungefähr sieben Punkten, dabei fiel dieser bei jüngeren etwas geringer aus als bei älteren Kindern (Kaufman, 1994b). Im Handlungsteil ergaben sich durchschnittlich neun Punkte Zuwachs, im Verbalteil nur drei Punkte. Genau wie der Gesamt-IQ hatte auch der Handlungsteil einen geringeren Lerneffekt bei den jüngeren Kindern zu verzeichnen, im Verbalteil war dies jedoch nicht der Fall. Auf Basis der oben beschriebenen Studien mit den Wechsler-Skalen kann mithin bei den Handlungsskalen erst nach einem Intervall von ein bis zwei Jahren von keinerlei Lerneffekt ausgegangen werden. Für die sprachlichen Untertests gilt dies ab ungefähr einem Jahr (Canivez & Watkins, 1999; McCaffrey, Duff & Westervelt, 2000; Wechsler, 2003b). Nach Kaufman und Lichtenberger (2006) lassen sich Lerneffekte besonders in den Untertests nachweisen, die unabhängig von den schulischen Aufgaben des Kindes sind und demnach neue, bisher unbekannte Aufgaben darstellen. So ergaben sich im Verbalteil der WechslerVersionen mit dichotomer Unterteilung in Verbal- und Handlungsteil die höchsten Zuwächse in den Untertests Gemeinsamkeiten finden und Zahlen nachsprechen, da diese Art von Aufgaben im schulischen Setting weniger gefragt sind. Die Untertests Wortschatz-Test, Rechnerisches Denken und Allgemeines Verständnis - alles Untertests, die im schulischen Alltag der Kinder eine große Rolle spielen - wiesen währenddessen durchweg den geringsten Lerneffekt auf. Dies erklärt auch die deutlich höheren Lerneffekte im Handlungsteil, der Aufgaben beinhaltet, die dem Kind aus dem schulischen Setting nicht vertraut sind. Durch die erste Vorgabe der Aufgaben wurden sie dem Kind bekannt und es erinnert sich an die Lösungsstrategien, die beim ersten Test am besten funktioniert haben. Auch wenn zum zweiten Testzeitpunkt nicht Kapitel 5 Methodische Aspekte bei Vergleichsstudien 94 unbedingt mehr Aufgaben zu lösen sind, so wird für die gelösten Aufgaben oftmals weniger Zeit benötigt, was angesichts der Vergabe von Zeitbonuspunkten gerade in den Untertests des Handlungsteils schon zu einem besseren Ergebnis führt. Zur Berücksichtigung des Lerneffekts in der vorliegenden Studie wurde den Kindern der HAWIK-III und der HAWIK-IV in ausbalancierter Reihenfolge vorgegeben (siehe Kapitel 7.2). Dennoch soll überprüft werden, als wie hoch sich der Lerneffekt in dieser Studie erweist. Anders als in den oben genannten Studien handelt es sich dabei jedoch um unterschiedliche Testversionen. Somit können neben einem Lerneffekt auch die Veränderungen in den Untertests und Indizes Einfluss auf die Zuwächse oder Abnahmen haben. 5.2.2 Flynn-Effekt Der nach dem neuseeländischen Politologen James R. Flynn benannte Flynn-Effekt besagt, dass Testleistungen in Form einer säkularen Akzeleration über die Jahre hinweg zunehmen (Flynn, 2007; Lynn & Harvey, 2008; Teasdale & Owen, 2008). Das kann bei der Verwendung veralteter Testnormen bei Intelligenzmessungen zu überhöhten Werten führen (Flynn, 1984, 1999, 2007) und somit können Entwicklungsbeeinträchtigungen deutlich unterschätzt werden (Wolke & Söhne, 1997). Dieser Effekt ist insbesondere bei jüngeren Kindern zu beobachten (Kanaya, Ceci & Scullin, 2005). Aus diesem Grund haben Normen von Intelligenztests spätestens nach 15 Jahren ihre Gültigkeit verloren und sollten durch neue Vergleichswerte ersetzt werden. Der Flynn-Effekt betrifft eher Tests, die die fluide Intelligenz erfassen (Flynn, 1999, 2007). So zeigt sich bei Testverfahren wie den Raven-Matrizen ein Leistungsanstieg von bis zu sieben IQPunkten pro Dekade, während der verbale IQ eines Menschen innerhalb von zehn Jahren durchschnittlich nur um etwa einen halben Punkt ansteigt (Flynn, 2007). Der durchschnittliche Zugewinn liegt bei circa drei IQ-Punkten pro Jahrzehnt, was seit 1950 mehr als 15 Punkten (und damit einer Standardabweichung) entspricht. In Deutschland und anderen westlichen Nationen konnte sogar ein Flynn-Effekt von durchschnittlich fünf IQ-Punkten pro Jahrzehnt aufgezeigt werden (Kaufman & Lichtenberger, 2006). Gründe dafür können nach Neisser et al. (1996) Umgebungseinflüsse wie verbesserte Ernährung, kulturelle Änderungen, Erfahrung mit Tests sowie Veränderungen des Lernverhaltens der Kinder und Erziehungsverhaltens der Eltern sein. Neueste Studien sehen die Ursache der Leistungssteigerung einzig in der verbesserten prä- und frühen postnatalen Ernährung (Lynn, 2009). Andere gehen eher von einer verbesserten Förderung sozial benachteiligter Gruppen als Ursache für den Flynn-Effekt aus (Strauss et al., 2000). Auch anhand der Wechsler-Skalen wurde der Flynn-Effekt in der Vergangenheit wiederholt untersucht (Wechsler, 1991). Dabei zeigten sich auf Untertestebene unterschiedlich steile Wachstumskurven. Für die Untertests Rechnerisches Denken, Wortschatz-Test und Allgemeines Kapitel 5 Methodische Aspekte bei Vergleichsstudien 95 Wissen konnten dabei die geringsten Anstiege verzeichnet werden. Laut Flynn (2007) stiegen die Werte von der WISC aus dem Jahre 1947 bis zur 2002 erschienenen WISC-IV im Gemeinsamkeiten finden um 24 Punkte, im Allgemeinen Verständnis nur noch um 11 Punkte, im Wortschatz-Test um vier Punkte und im Rechnerischen Denken und Allgemeinen Wissen nur um zwei Punkte. Der Anstieg des Gesamt-IQ liegt nach Flynn in dieser Zeitspanne bei ungefähr 18 Punkten. Somit würden Kinder, die heutzutage mit der WISC und der WISC-IV getestet werden, in der WISC durchschnittlich 18 IQ-Punkte mehr erhalten als in der WISC-IV. Zwischen den verschiedenen Versionen der Wechsler-Skalen wurden insgesamt Leistungszuwächse von drei bis acht Punkten berichtet, was einem Anstieg von ungefähr 0.3 IQ-Punkten pro Jahr entspricht (Strauss et al., 2000). Bei einem Vergleich der Mittelwerte von WISC-R und -III zeigten sich etwa fünf IQ-Punkte weniger im Gesamt-IQ der WISC-III, der Verbal-IQ der WISC-III lag etwa zwei Punkte und der Handlungs-IQ ungefähr sieben Punkte unter denen der WISC-R. Danach dürfte beispielsweise ein Kind, das in der WISC-R einen IQ-Wert von 100 erreicht hat, in der WISC-III nur noch einen IQ-Wert von 94 bis 96 erreichen. Diese Diskrepanz nimmt noch zu, je weiter der Wert vom Mittelwert (IQ-Wert 100) entfernt ist. Dabei zeigen sich im unteren Leistungsbereich deutlich höhere Leistungszuwächse als im oberen (Teasdale & Owen, 1989). Die Untersuchung des Leistungsanstiegs bei Hochbegabten mit einem neu entwickelten Testinstrument weist jedoch auch im oberen Leistungsbereich auf einen Flynn-Effekt hin (Wechsler, 1991, 2003b). Die als hochbegabt Identifizierten wiesen im neuen Verfahren einen Gesamt-IQ-Mittelwert auf, der deutlich unter der zur Diagnose von Hochbegabung festgelegten Grenze von 130 IQ-Punkten liegt. So lag der mittlere Gesamt-IQ bei Hochbegabten in der Validierungsstudie zur WISC-III zunächst nur bei 128.7 (Wechsler, 1991) und in der Studie zur WISC-IV sogar nur bei 123.5 IQ-Punkten (Wechsler, 2003b). So unstrittig wie dargestellt, ist der Flynn-Effekt jedoch nicht. Einige Forscher widersprechen seiner Existenz (Rodgers, 1998). Zumindest sind sich viele Forscher einig, dass der Flynn-Effekt nachgelassen oder sich sogar umgekehrt hat. Flynns Studien basieren auf Studien bis Ende der 1980er Jahre. Neuere Studien in Skandinavien zeigen eine Stagnation der Intelligenzleistung in den Industrienationen in den 1990er Jahren und seitdem sogar eine Abnahme, besonders hinsichtlich der fluiden Intelligenz (Sundet, Barlaug & Torjussen, 2004; Teasdale & Owen, 2008). Teasdale, der die Ursache für den Flynn-Effekt in Dänemark in Schulreformen in den 1950er und 1960er Jahren sieht, führt die Stagnation auf fehlende Verbesserungen im Schulsystem seit den 1970er Jahren zurück. Flynn selbst erklärt sich den Rückgang mit dem Wohlstand in den Industrienationen, der zu einer Dekadenz geführt habe (Channel Wissenschaft, 2006). Der deutsche Intelligenzforscher Lehrl sieht den Rückgang durch die schlechteren Ergebnisse im PISA-Test 2003 gegenüber denen des PISA-Tests von 2000 bestätigt (Prenzel et al., 2004), führt Kapitel 5 Methodische Aspekte bei Vergleichsstudien 96 ihn jedoch eher auf die Überforderung der modernen Gesellschaft an den Konsumenten zurück, der sich in weniger anspruchsvolle Alternativangebote flüchte und somit sein Gehirn weniger fordere. Außerdem hält er die Menschen heute für passiver, sie würden Informationen nicht mehr überdenken, sondern sich nur noch von ihnen berieseln lassen (Donner, 2006). Die vorliegende Studie kann dazu dienen, Hinweise darauf zu geben, inwiefern sich der FlynnEffekt auch noch innerhalb der vergangenen Dekade zeigt oder ob tatsächlich von einer Stagnation oder sogar einer Umkehr ausgegangen werden kann. Eine Möglichkeit, die Testleistung aus zwei Versionen gleichzusetzen, wäre, die mittleren Differenzen beider Tests voneinander abzuziehen (Russell, 1992). Dieses Verfahren ist jedoch durchaus problematisch, da die Höhe der Abweichungen stark variieren kann. So zeigte sich in einer Studie an Kindern mit Lernbehinderung ein IQ-Abfall zwischen WISC-R und WISC-III von 1.35 Punkten, während er bei hochbegabten Kindern bei 18.09 IQ-Punkten lag (Strauss et al., 2000). Aus diesem Grund soll in dieser Studie der Flynn-Effekt gesondert für die Kinder und Jugendlichen betrachtet werden, die Leistungen in den IQ-Randbereichen zeigten. 5.3 Grenzen der Intelligenzdiagnostik Wie in Kapitel 2.1 ausgeführt handelt es sich bei der Intelligenz um ein schwer greifbares und sensibles Konstrukt. Im Hinblick auf die Diagnostik von Intelligenz können demnach neben den mangelhaften Gütekriterien weitere Aspekte die Aussagekraft von Intelligenztests einschränken. So lassen Intelligenztests lediglich Aussagen über den aktuellen Leistungs- und Entwicklungsstand in Form einer Statusdiagnostik zu (Holling et al., 2004). Das Ergebnis hängt demnach teilweise stark von der Tagesform der Person ab und kann zu unterschiedlichen Zeitpunkten zu stark abweichenden Ergebnissen führen. Außerdem wird die Intelligenz besonders im frühen Lebensalter als relativ instabil angesehen (Braaten & Norman, 2006). Daher gelten Intelligenzbefunde von Kindergartenkindern allgemein als schwache Prädiktoren für die Vorhersage zukünftiger Schulleistungen (O`Shea, Harel & Fein, 2002). Gerade bei jungen Kindern beeinflussen Störvariablen wie die Person des Untersuchers, die Tagesform oder Änderungen in der Persönlichkeit des Kindes (z. B. Ablegung kindlicher Schüchternheit oder Unsicherheit) die Testleistung. Somit sollten Testergebnisse aufgrund der hohen Variabilität im Rahmen der normalen Entwicklung in den Jahren vor der Einschulung nur mit großer Vorsicht interpretiert werden (Daseking et al., 2006). Störvariablen und andere Einflüsse (siehe Kapitel 5.2) können bei jedem Testergebnis zu Messfehlern führen. Daher kann das Ergebnis nur als Annäherung an den wahren Wert gesehen Kapitel 5 Methodische Aspekte bei Vergleichsstudien 97 werden. Um dem entgegenzuwirken, werden Testergebnissen zusätzlich Konfidenz- bzw. Vertrauensintervalle zugeordnet. Intelligenztests bilden nur den Ausschnitt der Intelligenz ab, der der Intelligenzdefinition entspricht, auf dessen Grundlage der Test entwickelt wurde. Daher korrelieren unterschiedliche Intelligenztests nicht perfekt miteinander. Somit kann ein Mensch in verschiedenen Tests und gleichbenannten Aufgabenbereichen unterschiedliche Ergebnisse erzielen (Daniel, 1997). Außerdem gelten bisherige Intelligenztests im Allgemeinen als nicht in der Lage, einzelne kognitive Prozesse genau abzubilden, die zum Teil in Sekundenbruchteilen ablaufen, aber für höhere kognitive Prozesse relevant sind (Vock & Holling, 2006). Besonders wenn der Intelligenztest über sprachliches Aufgabenmaterial verfügt, können Personen aus bildungsfernen Familien, Menschen mit Migrationshintergrund oder Sprachstörungen benachteiligt sein (Daseking, Lipsius et al., 2008; Gienger, Petermann & Petermann, 2008). Zusammenfassend muss demnach festgestellt werden, dass psychometrische Testverfahren diversen Einschränkungen unterliegen, die auch Einfluss auf die Ergebnisse dieser Studie haben können. Dennoch ermöglichen Intelligenztests bei Erfüllung der psychometrischen Gütekriterien objektive, reliable, valide und zeitökonomische Messungen sowie die Erfassung von Fähigkeiten, die nicht durch entsprechende Leistungen im Alltag gezeigt werden (Holling et al., 2004). Sie bieten eine genauere Differenzierung intellektueller Dimensionen als andere Vorgehensweisen, wie beispielsweise Selbst- oder Fremdeinschätzungen, Beobachtungen oder schulische Leistungsdaten. Außerdem machen die durch eine Normierung errechneten Zahlenwerte einen intra- und interindividuellen Vergleich der Ausprägung kognitiver Fähigkeiten möglich. 5.4 Zusammenfassung Einige Aspekte müssen bei dem Vergleich zweier Versionen eines Testverfahrens berücksichtigt werden. Korrelationsstudien zwischen Wechsler-Versionen oder zwischen Wechsler-Tests und anderen Intelligenztestverfahren geben Hinweise auf die zu erwartende Höhe der Korrelationen zwischen den Ergebnissen der beiden hier gegenständlichen Testversionen HAWIK-III und -IV. Innerhalb der Wechsler-Versionen ergaben sich auf Index- und Gesamt-IQ-Ebene Korrelationen zwischen r = .61 und .92. Der Untertestvergleich wies Korrelationen zwischen r = .42 und .88 auf. Demnach können für den Vergleich zwischen den Ergebnissen des HAWIK-III und IV ähnlich hohe Korrelationen erwartet werden. In einer Validierungsstudie müssen verschiedene Störvariablen berücksichtigt werden. Dazu gehören Lerneffekte, also die Erinnerung an die erste Testdurchführung. Außerdem besagt der Kapitel 5 Methodische Aspekte bei Vergleichsstudien 98 Flynn-Effekt, dass das Erhalten eines bestimmten IQ in aktuellen Testversionen mehr Leistung erfordert als in älteren Versionen, da davon ausgegangen wird, dass der IQ in den vergangenen Jahrzehnten kontinuierlich gestiegen ist. Die Intelligenzdiagnostik unterliegt bestimmten Einschränkungen und Grenzen, die sich durch Störeinflüsse, kulturelle Verzerrungen oder Instabilität der Ergebnisse ergeben können und auch in dieser Studie zum Tragen kommen. Kapitel 6 Ableitung der Fragestellung und Hypothesen 99 6 Ableitung der Fragestellung und Hypothesen Allgemeines Verständnis, Frage 4: „Was sollst du machen, wenn du siehst, dass dicke Rauchwolken aus dem Fenster des Nachbarhauses kommen?“ Marian, 6 Jahre: „Husten.“ In den vorherigen Kapiteln wurden die zu untersuchenden Messinstrumente HAWIK-III und -IV vorgestellt, ihr theoretischer Hintergrund beleuchtet und Überlegungen dazu angestellt, welche Störeinflüsse auf die Vergleichbarkeit von Testwerten aus beiden Testverfahren wirken können. Dabei stellten sich diverse Aspekte heraus, die Anlass bieten, an einer uneingeschränkten Vergleichbarkeit beider Testversionen zu zweifeln. Zu den wichtigsten zählen die unterschiedlichen Forschungsstände zum Zeitpunkt der Testentwicklung, ein unterschiedliches zu Grunde gelegtes Testmodell, Veränderungen in der Teststruktur, Veränderungen innerhalb der Untertests, der Wegfall alter und die Einführung neuer Untertests sowie die unterschiedlichen Erscheinungsdaten beider Testversionen (siehe Flynn-Effekt). Aus diesen Erkenntnissen lassen sich diverse Fragestellungen und Hypothesen zur Vergleichbarkeit beider Testversionen ableiten. Dafür sollen zunächst mögliche Mittelwertunterschiede untersucht werden. Außerdem soll versucht werden, die vorgegebene Faktorenstruktur beider Testversionen zu replizieren. Zur Untersuchung der Höhe des Zusammenhangs werden anschließend Korrelationsanalysen durchgeführt. Schließlich soll die Teststruktur mit Hilfe von Regressionsanalysen weitergehend untersucht werden. Ein Überblick über die Hypothesen dieser Studie wird in Tabelle 6.1 dargestellt. Kapitel 6 Ableitung der Fragestellung und Hypothesen 100 Tabelle 6.1: Überblick über die Hypothesen und Fragestellungen der Studie. Hypothesen Hypothesen 6.1.1-6.1.7 6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV Indizes des HAWIK-III vs. Indizes des HAWIK-IV 6.2 Überprüfung der Hypothesenstruktur beider Testversionen Struktur des HAWIK-III Struktur des HAWIK-IV Struktur beider Testversionen 6.3 Zusammenhangshypothesen zur Untersuchung der Korrelation Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV Indizes des HAWIK-III vs. Indizes des HAWIK-IV Unterschiedshypothesen zur Untersuchung des Einflusses der Testreihenfolge Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV Indizes des HAWIK-III vs. Indizes des HAWIK-IV Unterschiedshypothesen zur Untersuchung des Einflusses des Zeitintervalls Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV Indizes des HAWIK-III vs. Indizes des HAWIK-IV Zusammenhangshypothesen zur Untersuchung der Varianzauf6.4 klärung der Indizes des HAWIK-III durch die Untertests des HAWIK-III der Indizes des HAWIK-III durch die Untertests des HAWIK-IV der Gesamt-IQ durch die Indizes der anderen Testversion 6.1.1 6.1.2-6.1.3 6.1.4-6.1.7 6.2.1-6.2.3 6.2.1 6.2.2 6.2.3 6.3.1-6.3.7 6.3.1 6.3.2-6.3.3 6.3.4-6.3.7 6.3.8-6.3.14 Fragen 1&2 1 2 3&4 3 4 5-8 5 6&7 8 9 6.3.8 6.3.9-6.3.10 6.3.11-6.3.14 6.3.15-6.3.21 10 6.3.15 6.3.16-6.3.17 6.3.18-6.3.21 6.4.1-6.4.16 11 - 13 6.4.1-6.4.4 6.4.5-6.4.14 6.4.15-6.4.16 11 12 13 6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte von HAWIK-III und -IV Auf die Formulierung von Hypothesen für die Untertests beider Testversionen wird verzichtet, da die Interpretation auf Untertestebene äußerst umstritten ist (siehe Kapitel 4.5.2). Dennoch werden die Ergebnisse der Untertestvergleiche in Kapitel 8 mit angeführt und in die Diskussion im Kapitel 9 eingebunden, da sie möglicherweise Hinweise über die Ursachen möglicher Differenzen liefern können (siehe dazu Kapitel 4.7.2). Bei einem Vergleich eines neuen Testverfahrens mit seinem Vorgänger muss davon ausgegangen werden können, dass die mit beiden Testversionen erzielten Werte (hier der IQ) sich nicht signifikant voneinander unterscheiden. Die erste inhaltliche Fragestellung dieser Studie lautet demnach: Fragestellung 1: Gibt es signifikante Unterschiede zwischen dem Gesamt-IQ des HAWIK-III und dem Gesamt-IQ des HAWIK-IV? Kapitel 6 Ableitung der Fragestellung und Hypothesen 101 Dies führt zu folgender statistischer Hypothese: Hypothese 6.1.1: H0: Der Mittelwert des Gesamt-IQ des HAWIK-IV unterscheidet sich nicht signifikant vom Mittelwert des Gesamt-IQ des HAWIK-III. H1: Der Mittelwert des Gesamt-IQ des HAWIK-IV unterscheidet sich signifikant vom Mittelwert des Gesamt-IQ des HAWIK-III. Durch den Wegfall des Verbal-und Handlungsteils haben sich neue Strukturen ergeben, die die Frage aufwerfen, mit welchen Werten des HAWIK-IV diese Gesamtwerte verglichen werden können. Die Autoren des WISC-IV empfehlen für den Vergleich zwischen HAWIK-III und -IV dem Verbalteil des HAWIK-III den SV-Index des HAWIK-IV und in ähnlicher Weise dem Handlungsteil des HAWIK-III den WLD-Index des HAWIK-IV gegenüberzustellen, da ihnen ähnliche Untertests zu Grunde liegen (Wechsler, 2003a). Deshalb wird der Unterschied zwischen diesen Werten in die vorliegende Untersuchung miteinbezogen. Da es sich trotz teilweise drastischen Änderungen auf Index-Ebene um den gleichen Test – nur in unterschiedlichen Versionen – handelt, soll davon ausgegangen werden, dass es in den entsprechenden Indizes beider Versionen keine signifikanten Unterschiede gibt. Dies führt zu folgender Fragestellung: Fragestellung 2: Gibt es signifikante Unterschiede zwischen den Index- und Gesamtwerten des HAWIK-III und denen des HAWIK-IV? Daraus lassen sich folgende statistische Hypothesen ableiten: Hypothese 6.1.2: H0: Die Mittelwerte des Verbalteils des HAWIK-III und des SV-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander. H1: Die Mittelwerte des Verbalteils des HAWIK-III und des SV-Index des HAWIK-IV unterscheiden sich signifikant voneinander. Hypothese 6.1.3: H0: Die Mittelwerte des Handlungsteils des HAWIK-III und des WLD-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander. H1: Die Mittelwerte des Handlungsteils des HAWIK-III und des WLD-Index des HAWIK-IV unterscheiden sich signifikant voneinander. Hypothese 6.1.4: H0: Die Mittelwerte des SV-Index von HAWIK-III und HAWIK-IV unterscheiden sich nicht signifikant voneinander. H1: Die Mittelwerte des SV-Index von HAWIK-III und HAWIK-IV unterscheiden sich signifikant voneinander. Kapitel 6 Ableitung der Fragestellung und Hypothesen 102 Hypothese 6.1.5: H0: Die Mittelwerte des WO-Index des HAWIK-III und des WLD-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander. H1: Die Mittelwerte des WO-Index des HAWIK-III und des WLD-Index des HAWIK-IV unterscheiden sich signifikant voneinander. Hypothese 6.1.6: H0: Die Mittelwerte des UA-Index des HAWIK-III und des AGD-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander. H1: Die Mittelwerte des UA-Index des HAWIK-III und des AGD-Index des HAWIK-IV unterscheiden sich signifikant voneinander. Hypothese 6.1.7: H0: Die Mittelwerte des AG-Index des HAWIK-III und des VG-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander. H1: Die Mittelwerte des AG-Index des HAWIK-III und des VG-Index des HAWIK-IV unterscheiden sich signifikant voneinander. 6.2 Hypothesen zur Faktorenstruktur des HAWIK-III und -IV Damit die vorliegende Stichprobe als repräsentativ angesehen werden kann, sollte sich die vorgegebene Faktorenstruktur beider Testversionen auch in dieser Untersuchungsstichprobe wiederfinden lassen. Dies soll mit Hilfe von Faktorenanalysen (ohne und mit Vorgabe der Faktorenanzahl) untersucht werden. Dafür lassen sich folgende Fragestellungen ableiten und Hypothesen aufstellen: Fragestellung 3: Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-III in der vorliegenden Studie replizierbar? Hypothese 6.2.1: Aus der exploratorischen Faktorenanalyse des HAWIK-III resultieren die vier vorgegebenen Indizes SV, WO, UA und AG. Fragestellung 4: Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-IV in der vorliegenden Studie replizierbar? Hypothese 6.2.2: Aus der exploratorischen Faktorenanalyse des HAWIK-IV resultieren die vier vorgegebenen Indizes SV, WLD, AGD und VG. Ein Hinweis darauf, ob beide Testversionen dasselbe messen, könnte eine Faktorenanalyse geben, in die alle Untertests des HAWIK-III und -IV einschließen. Resultieren daraus die vier Faktoren, die der vorgegebenen Struktur beider Testversionen entsprechen, könnte dies dafür sprechen, dass beide Tests dieselben kognitiven Konstrukte erfassen. Dies spiegelt sich in folgender Hypothese wider: Kapitel 6 Ableitung der Fragestellung und Hypothesen 103 Hypothese 6.2.3: Eine Faktorenanalyse unter Einschluss sämtlicher Untertests weist eine Vierfaktorenstruktur auf, mit einem Faktor, der sich aus den Untertests beider SV-Indizes zusammensetzt, einem Faktor, der sich aus den Untertests der Indizes WO und WLD zusammensetzt, einem Faktor, der sich aus den Untertests der Indizes UA und AGD zusammensetzt und einem Faktor, der sich aus den Untertests der Indizes AG und VG zusammensetzt. 6.3 Hypothesen zum Zusammenhang zwischen HAWIK-III und HAWIK-IV Bisherige Studien zum Vergleich zwischen zwei Testverfahren bzw. -versionen eines Verfahrens ergaben hohe Zusammenhänge zwischen den entsprechenden Werten beider Verfahren bzw. Versionen. Die Korrelationen auf Gesamt-IQ-Ebene lagen dabei zwischen r = .88 und .92. Zwar wird in der Literatur allgemein schon eine Korrelation von r = .50 als hoher Zusammenhang angesehen (Bortz & Döring, 2006), da es sich bei den vorliegenden Vergleichen jedoch um die Erfassung des selben Konstrukts handelt und bisherige Studien höhere Korrelationskoeffizienten aufwiesen, soll in dieser Studie auf Gesamt-IQ-Ebene von einer Korrelation von mindestens r = .80 ausgegangen werden. Fragestellung 5: Weisen die Gesamt-IQ beider Testversionen einen ebenso hohen Zusammenhang auf wie die Gesamt-IQ in vergleichbaren Studien? Hypothese 6.3.1: H0: Der Gesamt-IQ des HAWIK-IV korreliert mit r < .80 mit dem Gesamt-IQ des HAWIK-III. H1: Der Gesamt-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem Gesamt-IQ des HAWIK-III. Der Vergleich der amerikanischen HAWIK-Versionen ergab zwischen Verbalteil und SV eine Korrelation von r > .80 und zwischen dem Handlungsteil und dem WLD von r > .60. Daraus ergeben sich folgende Fragestellungen und Hypothesen: Fragestellung 6: Weist der Index SV des HAWIK-IV einen ebenso hohen Zusammenhang zum Verbalteil des HAWIK-III auf wie in vergleichbaren Studien? Hypothese 6.3.2: H0: Der SV-IQ des HAWIK-IV korreliert mit r < .80 mit dem Verbalteil des HAWIK-III. H1: Der SV-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem Verbalteil des HAWIK-III. Fragestellung 7: Weist der Index WLD des HAWIK-IV einen ebenso hohen Zusammenhang zum Handlungsteil des HAWIK-III auf wie in vergleichbaren Studien? Hypothese 6.3.3: H0: Der WLD-IQ des HAWIK-IV korreliert mit r < .60 mit dem Handlungsteil des HAWIK-III. H1: Der WLD-IQ des HAWIK-IV korreliert mit r ≥ .60 mit dem Handlungsteil des HAWIK-III. Kapitel 6 Ableitung der Fragestellung und Hypothesen 104 Der Vergleich der Indizes orientiert sich ebenfalls an den Ergebnissen der Korrelationsstudie zwischen WISC-III und -IV. Dabei lagen die Zusammenhänge der vergleichbaren Indizes zwischen r = .72 und .88, auf Untertest-Ebene schwankten sie zwischen r = .62 und .83. Da sich die Indizes SV und SV sowie AG und VG gar nicht oder nur unwesentlich voneinander unterscheiden, wird bei ihnen von höheren Korrelationen ausgegangen als beim Indexvergleich WO mit WLD sowie UA mit AGD, da diese Indizes sich inhaltlich deutlich voneinander unterscheiden. Fragestellung 8: Weisen die einander theoretisch entsprechenden Indizes einen ebenso hohen Zusammenhang auf wie in vergleichbaren Studien? Es werden folgende Hypothesen aufgestellt: Hypothese 6.3.4: H0: Der SV-IQ des HAWIK-IV korreliert mit r < .80 mit dem SV-IQ des HAWIK-III. H1: Der SV-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem SV-IQ des HAWIK-III. Hypothese 6.3.5: H0: Der WLD-IQ des HAWIK-IV korreliert mit r < .60 mit dem WO-IQ des HAWIK-III. H1: Der WLD-IQ des HAWIK-IV korreliert mit r ≥ .60 mit dem WO-IQ des HAWIK-III. Hypothese 6.3.6: H0: Der AGD-IQ des HAWIK-IV korreliert mit r < .70 mit dem UA-IQ des HAWIK-III. H1: Der AGD-IQ des HAWIK-IV korreliert mit r ≥ .70 mit dem UA-IQ des HAWIK-III. Hypothese 6.3.7: H0: Der VG-IQ des HAWIK-IV korreliert mit r < .80 mit dem AG-IQ des HAWIK-III. H1: Der VG-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem AG-IQ des HAWIK-III. 6.3.1 Einfluss der Testvorgabe Es stellt sich die Frage, ob die Korrelationen davon beeinflusst werden, welche Testversion dem Kind zuerst vorgelegt wurde. Daraus ergibt sich folgende Fragestellung: Fragestellung 9: Hat die Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die Höhe der Korrelationen? Daher sollen die Korrelationen zunächst getrennt berechnet und dann die Differenz beider Korrelationen auf Signifikanz überprüft werden. Aus der Fragestellung lassen sich folgende Hypothesen ableiten: Hypothese 6.3.8: H0: Die Differenz der Korrelationen des Gesamt-IQ je nach Testvorgabe ist nicht signifikant. H1: Die Differenz der Korrelationen des Gesamt-IQ je nach Testvorgabe ist signifikant. Kapitel 6 Ableitung der Fragestellung und Hypothesen 105 Hypothese 6.3.9: H0: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Testvorgabe ist nicht signifikant. H1: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Testvorgabe ist signifikant. Hypothese 6.3.10: H0: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Testvorgabe ist nicht signifikant. H1: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Testvorgabe ist signifikant. Hypothese 6.3.11: H0: Die Differenz der Korrelationen beider SV-Indizes je nach Testvorgabe ist nicht signifikant. H1: Die Differenz der Korrelationen beider SV-Indizes je nach Testvorgabe ist signifikant. Hypothese 6.3.12: H0: Die Differenz der Korrelationen des WO und WLD je nach Testvorgabe ist nicht signifikant. H1: Die Differenz der Korrelationen des WO und WLD je nach Testvorgabe ist signifikant. Hypothese 6.3.13: H0: Die Differenz der Korrelationen des UA und AGD je nach Testvorgabe ist nicht signifikant. H1: Die Differenz der Korrelationen des UA und AGD je nach Testvorgabe ist signifikant. Hypothese 6.3.14: H0: Die Differenz der Korrelationen des AG und VG je nach Testvorgabe ist nicht signifikant. H1: Die Differenz der Korrelationen des AG und VG je nach Testvorgabe ist signifikant. 6.3.2 Einfluss des Zeitintervalls Zudem soll untersucht werden, ob ein Unterschied hinsichtlich der Höhe der Korrelationen aufgezeigt werden kann, je nachdem, wie groß der Zeitraum zwischen beiden Testungen war. Die darauf bezogene Fragestellung lautet wie folgt: Fragestellung 10: Unterscheidet sich die Höhe der Korrelationen - getrennt nach der Länge des Intervalls zwischen beiden Testungen - signifikant voneinander? Dies soll anhand der gematchten Stichprobe untersucht werden, da diese Teilstichprobe die gleiche Anzahl an Kindern in beiden Gruppen aufweist. Für die gematchte Stichprobe stellt sich demnach die Frage, ob sich die Korrelationen zwischen langem und kurzem Intervall signifikant unterscheiden. Dies wird anhand folgender Hypothesen untersucht: Hypothese 6.3.15: H0: Die Differenz der Korrelationen des Gesamt-IQ je nach Zeitintervall ist nicht signifikant. H1: Die Differenz der Korrelationen des Gesamt-IQ je nach Zeitintervall ist signifikant. Kapitel 6 Ableitung der Fragestellung und Hypothesen 106 Hypothese 6.3.16: H0: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Zeitintervall ist nicht signifikant. H1: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Zeitintervall ist signifikant. Hypothese 6.3.17: H0: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Zeitintervall ist nicht signifikant. H1: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Zeitintervall ist signifikant. Hypothese 6.3.18: H0: Die Differenz der Korrelationen beider SV-Indizes je nach Zeitintervall ist nicht signifikant. H1: Die Differenz der Korrelationen beider SV-Indizes je nach Zeitintervall ist signifikant. Hypothese 6.3.19: H0: Die Differenz der Korrelationen des WO und WLD je nach Zeitintervall ist nicht signifikant. H1: Die Differenz der Korrelationen des WO und WLD je nach Zeitintervall ist signifikant. Hypothese 6.3.20: H0: Die Differenz der Korrelationen des UA und AGD je nach Zeitintervall ist nicht signifikant. H1: Die Differenz der Korrelationen des UA und AGD je nach Zeitintervall ist signifikant. Hypothese 6.3.21: H0: Die Differenz der Korrelationen des AG und VG je nach Zeitintervall ist nicht signifikant. H1: Die Differenz der Korrelationen des AG und VG je nach Zeitintervall ist signifikant. 6.4 Hypothesen zur Regressionsanalyse Wie in Kapitel 4.3 aufgeführt, wurde die Untertestzusammensetzung des HAWIK-IV gegenüber der des HAWIK-III modifiziert. Untertests wie Allgemeines Wissen oder Bilder ergänzen wurden aus dem obligatorischen Teil entfernt und sind nur noch optionale Untertests, die nicht für die Berechnung der Indizes und des Gesamt-IQ benötigt werden. Andere Untertests wie Bilderordnen oder Figurenlegen wurden gänzlich aus dem Test entfernt. Es stellt sich nun die Frage, ob diese teilweise aus theoretischen Überlegungen heraus durchgeführten Veränderungen mit Hilfe dieser Studie auch statistisch untermauert werden können und zwar im Sinne folgender Fragestellung: Fragestellung 11: Haben die entfernten oder nur noch optionalen Untertests weniger zur Varianzaufklärung des Index beigetragen als die Untertests, die zur Berechnung des GesamtIQ des HAWIK-IV vorgegeben sind? Daraus lassen sich folgende Hypothesen formulieren: Kapitel 6 Ableitung der Fragestellung und Hypothesen 107 Hypothese 6.4.1 zum Index Sprachverständnis: H0: Der Untertest AW6 des HAWIK-III trägt gleich viel oder mehr zur Varianzaufklärung des Index SV des HAWIK-III bei als die Untertests GF, WT und AV. H1: Der Untertest AW des HAWIK-III trägt weniger zur Varianzaufklärung des Index SV des HAWIK-III bei als die Untertests GF, WT und AV. Hypothesen 6.4.2 und 6.4.3 zum Index Wahrnehmungsorganisation: H0: Der Untertest MT des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BE, BO und FL. H1: Der Untertest MT des HAWIK-III trägt mehr zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BE, BO und FL. H0: Der Untertest BE des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BO und FL. H1: Der Untertest BE des HAWIK-III trägt mehr zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BO und FL. Hypothese 6.4.4 zum Index Unablenkbarkeit: H0: Der Untertest ZN des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des Index UA des HAWIK-III bei als der Untertest RD. H1: Der Untertest ZN des HAWIK-III trägt mehr zur Varianzaufklärung des Index UA des HAWIKIII bei als der Untertest RD. Sollen die Ergebnisse des HAWIK-III mit denen des HAWIK-IV verglichen werden, wird davon ausgegangen, dass den sich entsprechenden Indizes dasselbe Konstrukt zu Grunde liegt. Demnach müssten die Untertests des HAWIK-IV eines Index signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-III beitragen. Sollte dies nicht der Fall sein, kann geschlussfolgert werden, dass beide Indizes unterschiedliche Konstrukte bzw. kognitive Fähigkeiten erfassen und demnach nicht unbedenklich miteinander vergleichbar sind. Die dazugehörige Fragestellung lautet: Fragestellung 12: Tragen die Untertests des HAWIK-IV eines Index signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-III bei? Dabei werden die Hypothesen nur für die Untertests formuliert, die im HAWIK-IV in die Berechnung der Indizes einfließen. Hypothesen 6.4.5 bis 6.4.7 zum Index Sprachliches Verständnis des HAWIK-III H0: Der Untertest GF des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei. H1: Der Untertest GF des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei. 6 Aufgrund der häufigen Erwähnung der Untertestnamen in den Hypothesen werden sie an dieser Stelle abgekürzt. Die Erklärungen zu den Abkürzungen befinden sich in Anhang A5 und A6. Kapitel 6 Ableitung der Fragestellung und Hypothesen 108 H0: Der Untertest WT des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei. H1: Der Untertest WT des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei. H0: Der Untertest AV des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei. H1: Der Untertest AV des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei. Hypothesen 6.4.8 bis 6.4.10 zum Index Wahrnehmungsorganisation des HAWIK-III H0: Der Untertest MT des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei. H1: Der Untertest MT des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei. H0: Der Untertest BK des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei. H1: Der Untertest BK des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei. H0: Der Untertest MZ des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei. H1: Der Untertest MZ des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei. Hypothesen 6.4.11 und 6.4.12 zum Index Unablenkbarkeit des HAWIK-III H0: Der Untertest ZN des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei. H1: Der Untertest ZN des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei. H0: Der Untertest BZF des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei. H1: Der Untertest BZF des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei. Hypothese 6.4.13 und 6.4.14 zum Index Arbeitsgeschwindigkeit des HAWIK-III H0: Der Untertest ZST des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei. H1: Der Untertest ZST des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei. H0: Der Untertest SYS des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei. H1: Der Untertest SYS des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei. Mit Hilfe der Korrelation (siehe Hypothese 6.3.1) kann die Höhe des Zusammenhangs der Gesamt-IQ beider Testversionen festgestellt werden. Im Folgenden soll untersucht werden, mit Kapitel 6 Ableitung der Fragestellung und Hypothesen 109 welchen Anteilen die Indizes der einen Testversion zur Varianzaufklärung des Gesamt-IQ der anderen Testversion beitragen. Fragestellung 13: Wie viel Varianz des Gesamt-IQ der einen Testversion klären die Indizes der anderen Testversion auf? Dies soll Aufschluss darüber geben, welche kognitiven Fähigkeiten der einen Testversion in der anderen wiederzufinden sind und welche in der anderen Testversion keine signifikante Rolle spielen. Hypothese 6.4.15 H0: Die Indizes des HAWIK-IV tragen nicht signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-III bei. H1: Die Indizes des HAWIK-IV tragen signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-III bei. Hypothese 6.4.16 H0: Die Indizes des HAWIK-III tragen nicht signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV bei. H1: Die Indizes des HAWIK-III tragen signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV bei. II Empirischer Teil Kapitel 7 Methoden und Datenanalyse 111 7 Methoden und Datenanalyse Allgemeines Wissen, Frage 18: „Wer war Christoph Kolumbus?“ David, 11 Jahre: „Der Bruder von dem, der Amerika entdeckt hat.“ Felix, 10 Jahre: „ Der Mann, der Amerika erfunden hat.“ 7.1 Studienablauf Die Erhebungen erfolgten von Juni 2006 bis Dezember 2007 in Schulen Bremens und Niedersachsens. Nach der Kontaktaufnahme zu den Schulleitern oder zuständigen Lehrern wurden die Einverständniserklärungen und Informationsblätter an die von den Lehrern per Zufallsprinzip ausgewählten Kinder verteilt. Eine Testung dauerte in der Regel zwei Schulstunden (circa 90 Minuten) und fand ausnahmslos am Vormittag statt, in den Grundschulen nur zwischen der ersten und der vierten Stunde, in den weiterführenden Schulen innerhalb der ersten sechs Schulstunden. Als Belohnung und zur Aufrechterhaltung der Motivation der Kinder und Jugendlichen wurde ihnen nach der Testung ein kleines Geschenk überreicht. Die zweiten Testungen erfolgten nach gleicher Prozedur. Die Testungen wurden größtenteils von der Verfasserin selbst durchgeführt. In Einzelfällen kamen Studierende zum Einsatz, die vorher von der Verfasserin im Rahmen der Normierung des HAWIK-IV intensiv geschult und supervidiert wurden und bereits eine große Anzahl an Testdurchführungen absolviert hatten. Die Auswertung der Testbögen erfolgte ausschließlich durch die Verfasserin. Da für den HAWIK-IV zum Zeitpunkt der Studie noch kein elektronisches Auswerteprogramm zur Verfügung stand, wurden die Tests mit Hilfe der Normierungstabellen des HAWIK-IV-Manuals (Petermann & Petermann, 2008a) per Hand ausgewertet. Die Wertpunkte und IQ-Werte wurden in eine Microsoft Access Datenbank eingegeben und danach in SPSS überführt. 7.2 Studiendesign Aufgrund des Lerneffektes, der die Ergebnisse einer Retest-Studie beeinflussen kann, wurden zwei unterschiedliche Intervalle zwischen erster und zweiter Testung festgelegt. So wurden zum ersten Testzeitpunkt (t1) zunächst alle Kinder untersucht. Während der zweite Erhebungszeitpunkt (t2a) für die eine Hälfte der Kinder und Jugendlichen bereits nach etwa einem Monat erfolgte, wurde für die andere Hälfte der zweite Messzeitpunkt (t2b) nach einem Intervall von mindestens einem halben Jahr veranschlagt (siehe Abbildung 7.1). Somit sollten zusätzlich zum in vergleichbaren Studien üblichen Re-Testintervall von etwa einem Monat (siehe Kapitel 5.1) Daten erhoben werden, in der von weniger Erinnerungseffekt ausgegangen werden kann. Au- Kapitel 7 Methoden und Datenanalyse 112 ßerdem wurde ein ausbalanciertes Design festgelegt. Somit sollte einer Hälfte der Kinder und Jugendlichen zunächst der HAWIK-III und der anderen Hälfte zunächst der HAWIK-IV vorgelegt werden. Zur besseren Lesbarkeit sollen im Folgenden die unterschiedlichen Stichproben so bezeichnet werden, wie es der Tabelle 7.1 zu entnehmen ist. Tabelle 7.1: Abkürzungen der Stichproben. Stichprobe Gesamtstichprobe Gesamtstichprobe nach kurzem Intervall Gesamtstichprobe nach langem Intervall Gesamtstichprobe mit Erstvorgabe HAWIK-III Gesamtstichprobe mit Erstvorgabe HAWIK-IV Gesamtstichprobe nach kurzem Intervall mit Erstvorgabe des HAWIK-III Gesamtstichprobe nach kurzem Intervall mit Erstvorgabe des HAWIK-IV Gesamtstichprobe nach langem Intervall mit Erstvorgabe des HAWIK-III Gesamtstichprobe nach langem Intervall mit Erstvorgabe des HAWIK-IV Abkürzungen G GK GL G-III G-IV GK-III GK-IV GL-III GL-IV Zur Vermeidung eines Einflusses des Geschlechts sollte zudem eine gleich große Anzahl Jungen und Mädchen getestet werden. Abbildung 7.1 veranschaulicht das Design der Studie. GL-III* HAWIK-III HAWIK-IV ca. 6 Monate GL-IV* HAWIK-IV GK-III* HAWIK-III HAWIK-III HAWIK-IV ca. 1 Monat GK-IV* HAWIK-IV t1 Gesamtstichprobe HAWIK-III t2a GK* t2b GL* Abbildung 7.1: Design der Studie. Anmerkung: * = Abkürzungen siehe Tabelle 7.1. Um eine Gleichverteilung hinsichtlich der Testreihenfolge und des Geschlechts der Kinder und Jugendlichen zu erreichen, wurde eine Stichprobe angestrebt wie sie Tabelle 7.2 zu entnehmen ist. Kapitel 7 Methoden und Datenanalyse 113 Tabelle 7.2: Geplante Stichprobenverteilung (n=176). Alter 6 7 8 9 10 11 12 13 14 15 16 Gesamt 7.3 kurzes Intervall männlich weiblich 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 44 44 langes Intervall männlich weiblich 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 44 44 Stichprobenbeschreibung Insgesamt wurden 236 Kinder mit beiden Testverfahren untersucht. Davon wurden 223 Kinder und Jugendliche in die Untersuchung miteinbezogen, 13 Datensätze konnten auf Grund fehlender Werte nicht berücksichtigt werden. 7.3.1 Gesamtstichprobe Zur weitestgehenden Vermeidung von Verzerrungen wurde auf eine möglichst repräsentative Gestaltung der Stichprobe Wert gelegt. Tabelle 7.3 gibt die alters- und geschlechtsspezifische Aufteilung der Stichprobe getrennt nach kurzem und langem Intervall wieder. Die Gesamtstichprobe bilden 108 Jungen und 115 Mädchen. Tabelle 7.3: Zusammensetzung der Untersuchungsstichprobe (n= 223). Alter 6 7 8 9 10 11 12 13 14 15 16 Gesamt kurzes Intervall männlich weiblich 4 5 7 5 5 6 6 4 3 5 4 4 4 6 5 5 6 12 11 7 4 10 59 69 langes Intervall männlich weiblich 4 4 4 5 5 4 7 2 4 5 5 4 4 4 4 7 4 4 4 3 4 4 49 46 Kapitel 7 Methoden und Datenanalyse 114 Abbildung 7.2 stellt die Stichprobenverteilung unterteilt in das Geschlecht der Kinder und Jugendlichen und Abbildung 7.3 die Stichprobenverteilung unterteilt in die Länge des Intervalls über die 11 Altersstufen hinweg graphisch dar. Abbildung 7.2 verdeutlicht die annähernde Gleichverteilung hinsichtlich Alter und Geschlecht. Einzig in den Altersstufen 9 und 15 überwiegt der Anteil der Jungen, während in den Altersstufen 10, 12, 13, 14 und 16 die Mädchen den größeren Stichprobenanteil ausmachen. 16 16 14 12 10 8 6 4 2 0 9 11 10 10 10 8 10 10 9 8 8 6 7 10 10 9 14 15 12 13 8 männlich weiblich 6 7 8 9 10 11 12 13 14 15 16 Abbildung 7.2: Geschlechtsverteilung der Gesamtstichprobe über die 11 Altersgruppen. Der Abstand zwischen beiden Testungen wies bei 128 Kindern und Jugendlichen durchschnittlich 39 Tage auf (SD = 16 Tage, Minimum 5, Maximum 104 Tage), bei 95 Kindern und Jugendlichen lagen durchschnittlich 8 Monate und 18 Tage (SD = 5 Monate und 12 Tage, Minimum 4, Maximum 24 Monate) zwischen beiden Testungen. Wie aus Abbildung 7.3 ersichtlich wird, überwiegen bei den älteren Kindern diejenigen, die nach einem kurzen Intervall erneut getestet wurden. In den anderen Altersbereichen konnte eine annähernde Gleichverteilung erreicht werden. 18 18 16 14 12 10 8 6 4 2 0 12 9 8 18 14 11 9 11 9 10 9 9 8 9 8 10 8 10 8 8 7 kurz lang 6 7 8 9 10 11 12 13 14 15 16 Abbildung 7.3: Aufteilung der Länge des Re-Testintervalls über die 11 Altersgruppen. Kapitel 7 Methoden und Datenanalyse 115 Die Vorgabe der Testversionen erfolgte in ausbalancierter Reihenfolge. So wurde 111 Kindern zunächst der HAWIK-III und 112 Kindern zunächst der HAWIK-IV vorgelegt. Abbildung 7.4 lässt sich entnehmen, wie sich die Erstvorgabe in der Gesamtstichprobe über die verschiedenen Altersstufen hinweg verteilt. 16 14 16 14 12 10 8 6 4 2 0 14 13 10 7 6 10 11 9 11 8 7 7 7 7 8 9 10 12 11 9 10 11 11 11 4 11 HAWIK-III zuerst HAWIK-IV zuerst 12 13 14 15 16 Abbildung 7.4: Verteilung der Reihenfolge der Testvorgabe über die 11 Altersgruppen. Die Daten wurden in mehreren Schulen erhoben, in denen unterschiedliche Schulformen integriert sind. Tabelle 7.4 zeigt die Verteilung der 223 Kinder und Jugendlichen auf die von ihnen besuchten Schulformen. Tabelle 7.4: Verteilung der Untersuchungsstichprobe nach besuchtem Schultyp. Schultyp Grundschule Hauptschule Realschule Gymnasium Gesamtschule Gesamt Häufigkeit 76 3 42 77 25 223 Prozent (%) 34,1 1,3 18,8 34,5 11,2 100 Die Kinder, die zum Testzeitpunkt die Hauptschule besuchten, machen nur einen geringen Anteil der Stichprobe aus. Allerdings gehörte ein Großteil der Kinder und Jugendlichen der Gesamtschule dem Hauptschulzweig an. Die Verteilung auf die anderen Schulformen entspricht annähernd der derzeitigen Verteilung der Kinder in der Bevölkerung auf die jeweiligen Schulformen (2007 besuchten 33,7 % der Schüler die Grundschule, 10,2 % die Hauptschule, 14 % die Realschule, 26,2 % das Gymnasium und 5,4 % eine integrierten Gesamtschule, siehe Statistisches Bundesamt, 2007). 7.3.2 Gematchte Stichprobe Da im langen Intervall die Abstände zwischen beiden Testungen sehr stark variieren, wurde diese Stichprobe noch einmal in zwei Untergruppen unterteilt: die Gruppe mit einem ReTestintervall von vier bis neun Monaten und die Kinder, bei denen 12 bis 24 Monate zwischen Kapitel 7 Methoden und Datenanalyse 116 beiden Testungen liegen. Daraus ergibt sich folgende Verteilung: 72 Kinder weisen ein Intervall von vier bis neun Monaten auf (Mittelwert = 5.78 Monate, SD = 1.27), bei 23 Kindern lagen 12 bis 24 Monate zwischen beiden Testungen (Mittelwert = 17.3; SD = 3.87). Um für die Vergleiche zwischen kurzem und langem Intervall (genauer gesagt den 72 Kindern, die ein Intervall von vier bis neun Monaten aufweisen) eine homogene Stichprobe zu erhalten, wurde aus der Gruppe des kurzen Intervalls eine zur Gruppe mit dem 4- bis 9-Monats-Intervall gematchte Stichprobe ermittelt. Die 23 Kinder mit einem Re-Testintervall von mehr als einem Jahr wurden für diese Teilstichprobe unberücksichtigt gelassen. Somit befinden sich in beiden Gruppen jeweils 72 Kinder mit gleicher Geschlechts- und Schulformverteilung und annähernd gleicher Altersverteilung. Außerdem haben in beiden Stichproben die gleiche Anzahl an Kindern erst den HAWIK-III bzw. erst den HAWIK-IV durchgeführt (siehe Abbildung 7.5 und Tabelle 7.5 bis Tabelle 7.7). Wie die Abbildung 7.5 verdeutlicht, weisen nur in den Altersstufen ab 12 Jahren eine unterschiedliche Anzahl an Kindern ein kurzes bzw. langes Test-Retest-Intervall auf. 9 10 7 8 9 8 7 9 8 6 6 4 4 4 3 6 6 3 9 8 9 8 7 6 5 3 kurz lang 2 0 6 7 8 9 10 11 12 13 14 15 16 Abbildung 7.5: Altersverteilung der gematchten Stichprobe. Die Verteilung auf die unterschiedlichen Schultypen zeigt in beiden Unterstichproben ein identisches Bild (siehe Tabelle 7.5). Tabelle 7.5: Schultypverteilung der gematchten Stichprobe (n= 144). Schultyp Grundschule Hauptschule Realschule Gymnasium Gesamtschule Gesamt kurzes Intervall 28 1 15 26 2 72 langes Intervall 28 1 15 26 2 72 Kapitel 7 Methoden und Datenanalyse 117 Während jeweils nur ein Kind die Hauptschule und jeweils zwei Kinder eine Gesamtschule besuchten, besuchte der Großteil der Kinder bezogen auf die weiterführenden Schulen das Gymnasium. Die Realschule wurde zum Zeitpunkt der Testungen von etwa einem Drittel der älteren Kinder besucht. Die folgende Tabelle 7.6 gibt die Geschlechtsverteilung der gematchten Teilstichprobe wieder. Tabelle 7.6: Geschlechtsverteilung der gematchten Stichprobe (n= 144). Geschlecht männlich weiblich Gesamt kurzes Intervall 32 40 72 langes Intervall 32 40 72 Die prozentuale Verteilung von 44,4 % Jungen gegenüber 55,6 % Mädchen kann als ungefähre Gleichverteilung hinsichtlich des Geschlechts angesehen werden. Schließlich gibt Tabelle 7.7 die Unterteilung der Teilstichprobe auf die Reihenfolge der Testvorgabe an. Tabelle 7.7: Reihenfolge der Testvorgabe der gematchten Stichprobe (n= 144). Testvorgabe HAWIK-III zuerst HAWIK-IV zuerst Gesamt kurzes Intervall 26 46 72 langes Intervall 26 46 72 Anders als in der Gesamtstichprobe liegt demnach in der Teilstichprobe mit 36,1 % (HAWIK-III zuerst) gegenüber 63,9 % (HAWIK-IV zuerst) keine vollständig ausbalancierte Reihenfolge vor. Die Abkürzungen für die gematchte Stichprobe sowie die beiden Unterstichproben kann Tabelle 7.8 entnommen werden. Tabelle 7.8: Abkürzungen der gematchten Stichproben. Stichprobe Gematchte Stichprobe Gematchte Stichprobe nach kurzem Intervall Gematchte Stichprobe nach langem Intervall Abkürzungen GemS GemSK GemSL 7.4 Untersuchungsinstrumente Da die Untersuchungsinstrumente HAWIK-III und -IV in Kapitel 4 bereits ausführlich vorgestellt wurden, werden in Tabelle 7.9 lediglich die wichtigsten Eckdaten beider Verfahren zusammengefasst. Kapitel 7 Methoden und Datenanalyse 118 Tabelle 7.9: Eckdaten des HAWIK-III und -IV. Kategorien zu Eckdaten Erscheinungsjahr Normierungsstichprobe Normierungszeitraum Reliabilität des Gesamt-IQ Reliabilitäten der Index-Werte Reliabilitäten der Untertests Objektivität Faktorenanalysen Validierungsstudien im Manual Anzahl der Untertests Anzahl notwendiger Untertests zur Berechnung des Gesamt-IQ Anzahl notwendiger Untertests zur Berechnung der Indizes HAWIK-III 1999 1 570 1995 - 1998 .96 .87 - .94 .68 - .88 weitestgehend gegeben Index-Struktur nicht eindeutig bestätigt HAWIK-R vs. -III Lernbehinderung Schulformen Noten/Lehrerurteil ADHS 13 HAWIK-IV 2007 1 650 2005 - 2006 .97 .87 - .94 .76 - .91 weitestgehend gegeben Indexstruktur bestätigt HAWIK-III vs. -IV Hochbegabung Intelligenzminderung LRS ADHS 15 10 10 12 10 Der Aufbau der Tests sowie die inhaltliche Beschreibung der Untertests können dem vierten Kapitel entnommen werden. 7.5 Statistische Methoden zur Analyse der Daten Die Analyse der Daten erfolgte mit dem Statistikprogramm SPSS 15.0 für Windows. Das Signifikanz-Niveau wurde auf α = 5 % festgelegt. Da die zu untersuchenden Variablen intervallskaliert sind und durch die hinreichend große Stichprobe die Voraussetzung der Normalverteilung vorliegt, gelten die Bedingungen für die Anwendung parametrischer Testverfahren als erfüllt. 7.5.1 t-Tests für abhängige Stichproben Zur Überprüfung der Differenz beider Stichproben auf Signifikanz werden t-Tests für abhängige Stichproben durchgeführt. Es werden Messwertpaare gebildet, in dem die Werte der Untertests, Indizes und des Gesamt-IQ des HAWIK-III mit den Werten der entsprechenden Untertests, Indizes und dem Gesamt-IQ des HAWIK-IV verglichen werden. Dabei wird der ermittelte t-Wert mit dem für ein Signifikanzniveau von α = 0.05 kritischen t-Wert verglichen. Da es sich auf Untertest- und Index-Ebene bei den t-Tests um multiple Vergleiche handelt, wird eine Alpha-Korrektur nach Bonferroni-Holm vorgenommen, die zu einer Anpassung des AlphaNiveaus führt (Schlittgen, 2004). Zunächst werden dabei die Signifikanzen der einzelnen Mittelwertvergleiche nach ihrer Höhe sortiert. Für den Test, der die deutlichste Signifikanz aufweist, wird das Alpha-Niveau α= .05 durch die Anzahl der vorgenommenen Vergleiche dividiert Kapitel 7 Methoden und Datenanalyse 119 (bezeichnet mit k). Der Test mit der nächst höheren Signifikanz wird wiederum durch die Anzahl der verbleibenden Vergleiche, also k-1, dividiert. Erst die Variable mit der geringsten Signifikanz wird somit mit dem ursprünglichen Alpha-Niveau von α= .05 verglichen. 7.5.2 Faktorenanalysen Das Hauptziel der Faktorenanalyse ist es, einem größeren Variablensatz eine ordnende Struktur zu unterlegen und somit eine Datenreduktion zu erreichen. Dies geschieht, indem Variablen gemäß ihrer korrelativen Beziehungen in voneinander unabhängige Gruppen klassifiziert werden. Somit lassen sich Entscheidungen darüber treffen, welche Variablen gemeinsame und welche unterschiedliche Informationen erfassen. Man erhält also mit einer Faktorenanalyse wechselseitig voneinander unabhängige Faktoren, die die Zusammenhänge zwischen den Variablen erklären, die auf einem Faktor liegen (Bortz, 2005). In dieser Studie soll mit Hilfe der Faktorenanalyse die interne Struktur der Testbatterien HAWIK-III und HAWIK-IV untersucht werden. Dabei wird überprüft, inwieweit die erhaltenen Ladungsmuster zur hypothetischen Struktur beider Testverfahren passen. Dafür wird zunächst eine Hauptkomponentenanalyse ohne Vorgabe der zu extrahierenden Faktoren durchgeführt. Zusätzlich wird eine Faktorenanalyse mit Vorgabe der vier testtheoretisch vorhandenen Faktoren durchgeführt. Die Faktorenrotation erfolgt nach dem Varimax-Kriterium (Diehl & Staufenbiehl, 2007). Aufgrund der nur geringfügigen Unterschiede hinsichtlich der Stichprobengröße (bei wenigen Untertests weicht sie um ein oder zwei Kinder ab) wird ein paarweiser Fallausschluss vorgenommen. 7.5.3 Korrelationen Die Berechnung der Höhe des Zusammenhangs in Form von Korrelationen beinhaltet die größte Aussagekraft über die Vergleichbarkeit beider Testversionen. Die Korrelation misst die Stärke des Zusammenhangs zweier Merkmale. Der Grad und die Richtung der linearen statistischen Abhängigkeit zweier intervallskalierter und normalverteilter Merkmale lassen sich mit Hilfe des Produktmoment-Korrelationskoeffizienten r nach Pearson (Kähler, 2008) berechnen. Um den Vergleich mit bisherigen Korrelationsstudien zu ermöglichen, wird nicht mit den Wertpunktsummen sondern den IQ-Werten der Indizes und Gesamtwerte gerechnet, so dass jedoch nicht von einer linearen Abhängigkeit ausgegangen werden kann (Näheres dazu siehe Kapitel 7.5.4). In Anlehnung an die Korrelationstabellen der amerikanischen und deutschen Testmanuale wird zusätzlich die Standarddifferenz angegeben. Sie stellt die Differenz beider Testmittelwerte geteilt durch die Quadratwurzel der gepoolten Varianz dar, die mit Hilfe von Cohens (1996) Formel 10.4 berechnet wird. Die Formel lautet: Kapitel 7 Methoden und Datenanalyse wobei 120 . Die gepoolte Varianz bezeichnet den Durchschnittswert der Stichprobenvarianzen. Die Standarddifferenz gibt demnach an, inwieweit es einen Unterschied macht, ob der HAWIK-III oder der HAWIK-IV verwendet wird, also sozusagen die Höhe des Effektes der Testauswahl. Bei der Untersuchung des Lerneffektes in der vorliegenden Arbeit werden die Standarddifferenzen auf anderem Weg berechnet. Da vorher die Differenzen zwischen den Mittelwerten des ersten und zweiten Tests über die Definition neuer Variablen gebildet werden, liegen nur ein Mittelwert und eine Standardabweichung vor. Daher wird die Standarddifferenz für den Lerneffekt berechnet, indem der Mittelwert der Differenzen durch die Standardabweichung geteilt wird. 7.5.3.1 Zusammengefasste Werte Die oben beschriebenen Berechnungen gelten nur für die Korrelationsberechnungen getrennt nach der Erstvorgabe der beiden Testversionen. Die Werte der Korrelationstabellen, in denen diese beiden Unterstichproben zusammengefasst sind, werden wie folgt berechnet: Mittelwert: Der zusammengefasste Mittelwert wird aus den Mittelwerten der IQ- und Wertpunkte der Untertests, Indizes und Gesamtwerte bei Erstvorgabe des HAWIK-III und Erstvorgabe des HAWIK-IV berechnet. Standardabweichung: Die zusammengefasste Standardabweichung entspricht der Wurzel der gepoolten Varianz (siehe oben) der Standardabweichung beider Werte (Erstvorgabe des HAWIK-III und des HAWIK-IV). Korrelationen: Da bei einer Korrelation ein Wert von r = .80 gegenüber einem Wert von r = .40 nicht gleichbedeutend ist mit einem doppelt so hohen Zusammenhang, muss bei einer Mittelung mehrerer Korrelationen eine Standardisierung der Werte mittels einer z-Transformation erfolgen. Somit werden hohe Korrelationen stärker berücksichtigt als niedrige Korrelationen. Der zusammengefasste Korrelationskoeffizient errechnet sich aus den Fisher-z-transformierten Werten beider Korrelationen (Korrelation bei Erstvorgabe HAWIK-III und Korrelation bei Erstvorgabe HAWIK-IV), gewichtet an den Freiheitsgeraden. Der daraus resultierende Wert wird mit Hilfe einer inversen z-Transformation in einen Korrelationswert zurückgeführt. Aus also und aus wird wird . Die Gewichtung an den Freiheitsgeraden erfolgt über die Formel: . Der Wert wird daraufhin per inverser Fisher-z-Transformation zu . Korrigierte Korrelationen: rkorr stellt die hinsichtlich der Varianzeinschränkung im HAWIK-IV korrigierten Korrelationswerte dar (Guilford & Fruchter, 1978). Gemäß Cascio (1991) schätzen Kapitel 7 Methoden und Datenanalyse 121 korrigierte Koeffizienten den wahren Zusammenhang besser als Koeffizienten ohne Korrektur. Wenn eine Validierungsstudie eine eingeschränkte Stichprobe aufweist, die nicht den gesamten Umfang möglicher Leistungsbereiche abdeckt, führt eine Korrektur dazu, dass die Werte eher der Gesamtstichprobe entsprechen. Die Korrekturformel, wie sie für die WISC-IV verwendet wurde, lautet: , wobei rc dem Korrelationswert der vorliegenden Validierungsstichprobe mit eingeschränkter Varianz, Sc der Standardabweichung der vorliegenden und Su der SD der Gesamtstichprobe der HAWIK-IV-Normierung entspricht (Epstein, Mooney, Ryser & Pierce, 2004). Für den Vergleich HAWIK-R und HAWIK-III wurde die Formel verwendet (Lienert & Raatz, 1998). Im Folgenden werden die Ergebnisse beider Korrekturvarianten angegeben, auf Grund der moderateren Berechnungsweise jedoch nur die nach der amerikanischen Version korrigierten Werte interpretiert. Da aufgrund diverser Störeinflüsse wie dem Flynn-Effekt (siehe Kapitel 5.2.2) die HAWIK-III-Werte ein weniger valides Abbild der wahren Werte liefern als die Werte des HAWIK-IV, ihnen also ein größerer Messfehler innewohnt, wird die Korrektur der Korrelationen nur für die Werte des HAWIK-IV vorgenommen. Signifikanz: Der Signifikanzwert p bezeichnet den Wert, der angibt, ob sich die Differenz zwischen den Korrelationen als signifikant erweist. 7.5.4 Regressionsanalysen Auch wenn auf die Berechnung in Form einer linearen Regression zurückgegriffen wurde, handelt es sich hierbei nicht um eine lineare Regression, da durch die Umrechnung der (linearen) Wertpunktsummen in IQ-Werte die Linearität zu Gunsten der Standardisierung in einen festgelegten Wertebereich mit einer Standardabweichung von +/- 15 Wertpunkten nicht gegeben ist. Somit werden in den Randbereichen die Werte künstlich verändert, um den vorgegebenen Wertebereich (beim Gesamt-IQ stehen beispielsweise Werte von 40-160 zur Verfügung) abzudecken. Im relevanten mittleren Bereich (im Bereich Mittelwert +/- 1 SD liegen 68,27 % der Gesamtpopulation) kann jedoch von Linearität ausgegangen werden. Auch andere Studien dieser Art beruhen auf Analysen mit den IQ-Werten, da sie ebenso wie diese Studie das Ziel verfolgen, dem Praktiker Hilfestellung im Umgang mit dem neuen Testverfahren zu geben und in der Praxis nicht die Wertpunktsummen, sondern die IQ-Werte herangezogen werden. Bei der linearen Regression wird im Gegensatz zur Korrelation nicht nur die Höhe des Zusammen- Kapitel 7 Methoden und Datenanalyse 122 hangs zwischen zwei Merkmalen, sondern auch die Abhängigkeit eines Merkmals vom anderen Merkmal untersucht und als linearer Zusammenhang in Form einer Gleichung ausgedrückt (Bortz, 2005). Hängen zwei Variablen zusammen, kann so die eine Variable auf Basis der anderen vorhergesagt werden. Die Vorhersage wird über folgende lineare Beziehung (Regressionsgerade) vorgenommen: , wobei punkt der Geraden mit der -Achse und dem vorhergesagten Wert, dem Schnitt- der Steigung der Geraden entspricht. Ziel einer li- nearen Regression ist es, eine Gerade zu bestimmen, die den Gesamttrend aller Punkte am besten wiedergibt. Sie soll demnach so gewählt werden, dass die Abstände zwischen der Geraden und den empirisch beobachteten Werten minimiert werden. Die Gerade, die von der Gesamtheit aller Punkte den geringsten Abstand aufweist, wird Regressionsgerade genannt. Sie wird durch folgenden Regressionskoeffizienten charakterisiert: . Der Determinationskoeffizient gibt den Varianzanteil der abhängigen Variablen wieder, der mit der unabhängigen Variablen vorhergesagt bzw. erklärt werden kann: . 7.5.4.1 Multiple lineare Regression Wird eine Kriteriumsvariable mit Hilfe mehrerer Prädiktorvariablen vorhergesagt, spricht man von einer multiplen Regression. Die Aufgabe der multiplen Regressionsrechnung ist es, βKoeffizienten zu ermitteln, sogenannte Beta-Gewichte. Zur Überprüfung, welche Prädiktorvariable die meiste Varianz einer abhängigen Variablen aufklärt, wird die Einschluss-Methode gewählt, in der alle Variablen simultan in einem Schritt in die Regressionsgleichung aufgenommen werden (Diehl & Staufenbiehl, 2007). Somit wird der Anteil der gemeinsamen Varianz der Variablen heraus gerechnet. Das Beta-Gewicht spiegelt also den Beitrag eines Prädiktors zur Vorhersage der unabhängigen Variablen wider. 7.5.4.2 Vorhergesagte Werte und Konfidenzintervalle In dieser Studie wird mit Hilfe der linearen Regression zusätzlich die Abhängigkeit einer IQSkala des HAWIK-IV (abhängige Variable) von der entsprechenden IQ-Skala des HAWIK-III (unabhängige Variable) untersucht. Damit soll vorhergesagt werden, welchen HAWIK-IV-Wert ein Kind voraussichtlich erhält, wenn der entsprechende HAWIK-III-Wert bekannt ist. Dabei wird der vorhergesagte Wert unter Ausschluss der Konstante in die Gleichung berechnet. Der Term a wird also immer auf 0 gesetzt (siehe oben) und somit mit Hilfe von SPSS eine Kurvenanpassung vorgenommen. Der vorhergesagte Wert für jeden empirisch ermittelten IQWert des HAWIK-III ergibt sich aus der Multiplikation des HAWIK-III-Wertes und der Steigung der Regressionsgerade, also b (siehe oben). Da nicht sämtliche IQ-Werte des HAWIK-III in der Kapitel 7 Methoden und Datenanalyse 123 Stichprobe zu finden sind, werden die empirischen Werte nach Errechnung der Regressionsgerade per Hand berechnet. Zusätzlich soll das 95 %-Konfidenzintervall des zu erwartenden Wertes berechnet werden. Die Konfidenzintervalle (KI) werden ebenfalls für jeden Wert einzeln per Hand berechnet, in dem der für jeden vorhergesagten Wert entsprechende Standardfehler ermittelt wird. Dieser wird in die Gleichung zur Berechnung eines Konfidenzintervalls aufgenommen. Das Konfidenzintervall für einen Wert wird wie folgt berechnet: , wobei dem erwarteten Wert (also dem HAWIK-IV-IQ-Wert) und dem z-Wert entsprechend des gewählten Signifikanzniveaus entspricht. Bei einem 95 %Konfidenzintervall ergibt sich ein -Wert von 1.96. steht für den Standardfehler, auch Standardmessfehler genannt, der sich wie folgt berechnet: , wobei der Standardabweichung der verwendeten Normskala und dem Reliabilitätskoeffizienten des verwendeten Tests entspricht. Vereinfacht ausgedrückt kann das 95 %-Konfidenzintervall per Hand berechnet werden, indem vom erwarteten Wert die Summe aus 1.96 multipliziert mit dem jeweiligen Standardfehler abgezogen bzw. hinzugerechnet wird. Kapitel 8 Ergebnisse 124 8 Ergebnisse Begriffe erkennen, Frage 13: „Man findet es in der Natur und es fließt Wasser heraus. Was ist das?“ Alina, 10 Jahre: „Ein Elefant.“ Die Ergebnisse beziehen sich auf die gemäß der theoretischen Erwartungen postulierten Hypothesen (siehe Kapitel 6). 8.1 Explorative Datenanalyse Die explorative Datenanalyse soll zunächst einen Eindruck von der Verteilung der Testwerte dieser Stichprobe vermitteln und somit Hinweise auf die zu erwartenden Ergebnisse liefern. 8.1.1 Deskriptive Statistiken des HAWIK-III Die deskriptive Beschreibung der Daten erfolgt auf der Basis der Datensätze von 223 Kindern und Jugendlichen. Tabelle 8.1 beinhaltet die Extremwerte (Minimum und Maximum) sowie die Mittelwerte und Standardabweichungen für jeden Untertest und jeden Index- und GesamtWert des HAWIK-III. Tabelle 8.1: Deskriptive Angaben des HAWIK-III. Untertest/Index Minimum Maximum M SD BE 3 18 11.1 3.0 AW 3 19 11.0 2.8 ZST 4 19 11.6 3.1 GF 3 19 11.8 2.8 BO 1 19 10.8 3.3 RD 4 19 11.1 2.8 MT 3 19 11.1 3.2 WT 4 19 11.6 2.8 FL 1 18 9.8 3.0 AV 7 19 11.2 2.0 SS 3 19 11.6 2.8 ZN 3 18 9.9 2.6 SV 78 147 110.1 13.7 WO 72 148 105.5 14.4 UA 76 144 103.6 13.2 AG 74 148 109.3 14.6 Verbal-IQ 78 148 108.9 12.9 Handlungs-IQ 71 141 106.9 14.2 Gesamt-IQ 76 141 108.9 13.3 Anmerkungen: M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6. Kapitel 8 Ergebnisse 125 Wie aus der Tabelle 8.1 ersichtlich, liegen die Untertestmittelwerte des HAWIK-III bis auf ZN7 und FL über dem teststandardisierten Mittelwert 10. GF, WT, ZST und SS zeigen mit einem Mittelwert von 11.6 die größten Abweichungen vom Wertpunkt 10 auf. Auch die Index- und Gesamtwerte befinden sich weit oberhalb des festgelegten Altersdurchschnitts von 100. Als höchster Index erweist sich SV mit einem Mittelwert von 110.1, als niedrigster Index UA mit 103.6 IQ-Punkten im Mittel. Der IQ des Verbalteils liegt leicht über dem des Handlungsteils, der Gesamtwert weist im Mittel 108.9 IQ-Punkte auf. Zur Veranschaulichung werden in Abbildung 8.1 die Mittelwerte, Standardabweichungen und Ausreißer des Gesamt-, Verbal- und Handlungs-IQ des HAWIK-III in Form eines Box-Plots graphisch dargestellt. Abbildung 8.1: Box-Plot des Gesamt-, Verbal- und Handlungs-IQ des HAWIK-III. Anmerkungen: Sternchen (*) stellen statistische Ausreißer dar. Der Verbal-IQ weist die geringste Streuung innerhalb der drei Gesamtwerte auf. Außerdem wird durch die Abbildung 8.1 ersichtlich, dass im Verbal-IQ die Personen, die Werte im Extrembereich erzielten, als statistische Ausreißer gewertet werden können. Abbildung 8.2 illustriert die statistischen Kennwerte der HAWIK-III-Indizes SV, WO, UA und AG. Die Box-Plots veranschaulichen die überdurchschnittlich hohen Testergebnisse in den Indizes SV und AG sowie die große Streuung in den Indizes WO und AG. 7 Aufgrund der häufigen Erwähnung der Untertests werden in diesem Kapitel ihre Abkürzungen verwendet. Erklärungen zu den Abkürzungen können Anhang A5 und A6 entnommen werden. Kapitel 8 Ergebnisse 126 Abbildung 8.2: Box-Plot der Indizes SV, WO, UA und AG des HAWIK-III. Anmerkungen: Sternchen (*) stellen statistische Ausreißer dar. Abkürzungen siehe Anhang A5 und A6. Insgesamt können, bis auf zwei Ausnahmen (FL und ZN), höhere Mittelwerte in den Untertests und Indizes gegenüber denen der Normierungsstichprobe festgehalten werden. Die Standardabweichung der HAWIK-III-Untertests liegt relativ nah an den in der Normierungsstichprobe festgelegten drei Wertpunkten, einzig AV weist mit 2.0 eine deutlich niedrigere Standardabweichung auf. Die Gesamt- und Indexwerte besitzen deutlich niedrigere Standardabweichungen als die Normierungsstichprobe (dort liegt die SD bei circa 15 Wertpunkten). 8.1.2 Deskriptive Statistiken des HAWIK-IV Die Leistungen der 223 Kinder und Jugendlichen in den Untertests des HAWIK-IV ergeben Mittelwerte zwischen 10.4 im ZN und 11.2 im MT (siehe Tabelle 8.2). Von den Prozesswerten weist einzig ZN-V einen Mittelwert unterhalb von 10 auf, alle anderen Prozesswerte liegen im Mittel zwischen 10.5 und 11.2 Wertpunkten. Kapitel 8 Ergebnisse 127 Tabelle 8.2: Deskriptive Angaben des HAWIK-IV. Untertest/Index Minimum Maximum M SD MT 3 19 11.2 3.0 GF 5 18 11.0 2.4 ZN 4 19 10.4 2.5 BK 4 17 10.9 2.4 ZST 4 18 11.0 2.8 WT 5 19 11.0 2.7 BZF 1 18 10.9 2.3 MZ 4 16 10.6 2.4 AV 5 19 11.1 2.4 SYS 2 19 11.0 2.6 BE 1 19 11.1 2.8 DT 4 19 10.9 2.9 AW 4 18 10.7 2.5 RD 2 18 11.1 2.4 BEN 4 18 10.7 2.6 MT-OZ 3 19 11.2 2.9 ZN-V 4 18 9.9 2.7 ZN-R 5 18 10.5 2.5 DT-S 4 18 10.9 2.8 DT-U 2 19 10.8 3.0 SV 77 144 105.7 12.3 WLD 69 133 105.4 12.1 AGD 56 146 102.8 12.3 VG 62 141 105.8 13.7 Gesamt-IQ 64 131 106.3 11.4 Anmerkungen: M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6. Auf Index-Ebene fällt AGD mit einem Mittelwert von 102.8 IQ-Punkten am schlechtesten aus, alle anderen Indizes weisen Mittelwerte zwischen 105.4 und 105.8 auf. Der höchste Wert wurde mit einem Mittelwert von 106.3 im Gesamt-IQ erzielt (zur graphischen Ansicht der Indizes und des Gesamt-IQ des HAWIK-IV siehe Abbildung 8.3). Kapitel 8 Ergebnisse 128 Abbildung 8.3: Box-Plot des Gesamt-IQ, SV, WLD, AGD und VG des HAWIK-IV. Anmerkungen: Die Sternchen (*) stellen statistische Ausreißer dar. Aufgrund einiger statistischer Ausreißer im unteren Leistungsbereich wurde die Skalierung gegenüber den HAWIK-IIIBox-Plots nach unten erweitert. Abkürzungen siehe Anhang A5 und A6. Insgesamt liegen die Mittelwerte der HAWIK-IV-Untertests durchschnittlich circa einen Wertpunkt oberhalb der Mittelwerte der Normierungsstichprobe. Auch in den Indizes und dem Gesamt-IQ fallen die Mittelwerte höher aus als in der Normierungsstichprobe, jedoch weniger deutlich als die entsprechenden Werte des HAWIK-III. Die Standardabweichungen der Untertests sind, außer im MT, durchweg kleiner als die der Normierungsstichprobe. Auch der Gesamt-IQ und die Indizes verfügen über deutlich geringere Standardabweichungen, sowohl im Vergleich zur Normierungsstichprobe als auch in Bezug auf die Gesamt- und Indexwerte des HAWIK-III. Bei der Betrachtung der Gesamt-IQ-Punkte beider Testversionen kann mit 25 von 223 Kindern bei 11,2 % der Untersuchungspopulation eine Differenz von einer Standardabweichung (also 15 IQ-Punkten) oder mehr zwischen beiden Gesamt-IQ aufgezeigt werden. In der gematchten Stichprobe zeigten 15 von 144 Kindern diese Differenz, was 10,4 % der Stichprobe entspricht. Auf Ebene der Indizes weisen mit 28 bis 52 Personen (dies entspricht 12,5 % bis 23,3 % der Stichprobe) noch mehr Kinder einen Unterschied von mindestens einer Standardabweichung zwischen den entsprechenden Indizes beider Testversionen auf. Dies deutet darauf hin, dass die Neunormierung zu Veränderungen dessen geführt haben könnte, was der Gesamt-IQ und Kapitel 8 Ergebnisse 129 die Indizes beinhalten und welche Fähigkeiten mit ihnen abgebildet werden. Dies soll im Folgenden genauer untersucht werden. 8.2 Überprüfung der Mittelwertdifferenzen Zur Überprüfung der deskriptiv ersichtlichen Unterschiede werden die Mittelwertdifferenzen der Index- und Gesamtwerte beider Testversionen mit t-Tests für gepaarte (bzw. abhängige) Stichproben auf Signifikanz geprüft. Damit sollen die Fragestellung 1: „Gibt es signifikante Unterschiede zwischen dem Gesamt-Wert des HAWIK-III und dem Gesamt-Wert des HAWIKIV?“ und die Fragestellung 2: „Gibt es signifikante Unterschiede zwischen den Index- und Gesamtwerten des HAWIK-III und denen des HAWIK-IV?“ sowie die dazugehörigen Hypothesen 6.1.1 bis 6.1.7 überprüft werden. Dies wird zunächst auf Grundlage der Gesamtstichprobe (n = 223) durchgeführt. Tabelle 8.3 zeigt die Mittelwerte und gepaarten Differenzen der Indexund Gesamtwerte. Wie in Kapitel 6.1 beschrieben, wird empfohlen, den Verbalteil mit dem SV und den Handlungsteil mit dem WLD des HAWIK-IV zu vergleichen. Tabelle 8.3: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ (n = 223). HAWIK-III HAWIK-IV Gepaarte Differenzen a Testpaare M SD M SD M SD p α G-IQ-III – G-IQ-IV 108.9 13.3 106.3 11.4 2.6 9.2 .000* Verbal-IQ – SV-IV 108.9 12.9 105.7 12.3 3.2 8.5 .000** .025 Handlungs-IQ – WLD 106.9 14.2 105.4 12.1 1.5 12.6 .083 .050 SV – SV 110.1 13.7 105.7 12.3 4.4 8.4 .000** .013 WO – WLD 105.5 14.4 105.4 12.1 0.0 12.8 .967 .050 UA – AGD 103.6 13.2 102.8 12.3 0.8 11.0 .277 .025 AG – VG 109.3 14.6 105.8 13.7 3.4 11.3 .000** .017 Anmerkungen: * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. G-IQ steht für den Gesamt-IQ, M für den Mittelwert, SD für die Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6. Bezogen auf die Indizes zeigen sich signifikante Mittelwertdifferenzen bei SV und bei AG bzw. VG. Im Mittelwertvergleich ergaben sich zudem signifikante Differenzen zwischen den Werten des Verbal-IQ und des SV des HAWIK-IV; zwischen den Werten des Handlungs-IQ und WLD sind die Unterschiede jedoch nicht signifikant. Die Gesamtwerte beider Verfahren weichen ebenfalls signifikant voneinander ab. Somit muss die H0 der Hypothesen 6.1.1, 6.1.2, 6.1.4 und 6.1.7 abgelehnt und die Alternativhypothese (H1) angenommen werden. Für die Hypothesen 6.1.3, 6.1.5 und 6.1.6 kann jedoch die H0 angenommen werden. Die Tabelle 8.4 stellt die Ergebnisse der t-Tests für gepaarte Stichproben für die Untertests dar. Auch wenn keine Hypothesen zum Mittelwertvergleich auf der Ebene der Untertests formu- Kapitel 8 Ergebnisse 130 liert wurden (siehe Kapitel 6), werden sie mit angegeben, um zusätzlichen Aufschluss über die Ursachen der Differenzen zu erhalten. Tabelle 8.4: t-Test zur Prüfung der Mittelwertdifferenzen auf Untertestebene (n = 223). HAWIK-III HAWIK-IV Gepaarte Differenzen a Testpaare M SD M SD M SD p α BE – BE 11.1 3.0 11.1 2.8 0.0 2.9 .926 .025 AW – AW 11.0 2.8 10.7 2.5 0.3 1.9 .019* .010 ZST – ZST 11.6 3.1 11.0 2.8 0.6 2.4 .001** .006 GF – GF 11.8 2.8 11.0 2.4 0.8 2.3 .000** .005 RD – RD 11.1 2.8 11.1 2.4 0.0 2.3 1.00 .050 MT – MT 11.1 3.2 11.2 3.0 -0.1 2.6 .638 .017 WT – WT 11.6 2.8 11.0 2.7 0.5 2.2 .001** .006 AV – AV 11.2 2.0 11.1 2.4 0.1 2.1 .515 .013 SS – SYS 11.6 2.8 11.0 2.8 0.6 2.7 .001** .008 ZN – ZN 9.9 2.6 10.4 2.5 -0.5 2.2 .001** .007 Anmerkungen: * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6. Im Untertestvergleich weisen sechs der zehn gemeinsamen Untertests signifikante Mittelwertdifferenzen auf. Nach der α-Korrektur erweist sich AW jedoch als nicht mehr signifikant. Die signifikanten Untertests gehören bis auf ZN den in Tabelle 8.3 dargestellten signifikanten Indizes an. Die t-Tests für abhängige Stichproben wurden zusätzlich mit der gematchten Stichprobe (GemS, n = 144) durchgeführt. Tabelle 8.5 beinhaltet die Ergebnisse der Prüfung der Mittelwertdifferenzen für die Indizes und Gesamtwerte und Tabelle 8.6 für die Untertests beider Testversionen. Tabelle 8.5: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ der GemS. HAWIK-III Testpaare M SD G-IQ III – G-IQ IV 108.8 13.8 Verbal-IQ – SV IV 108.4 12.9 Handlungs-IQ – WLD 107.5 15.0 SV – SV 109.9 13.9 WO – WLD 105.7 15.1 UA – AGD 102.8 12.9 AG – VG 110.4 14.6 Anmerkungen: siehe Tabelle 8.3. HAWIK-IV M SD 105.6 12.2 105.3 12.8 104.8 12.6 105.3 12.8 104.8 12.6 102.3 12.5 105.4 13.9 M 3.2 3.1 2.7 4.6 0.9 0.5 5.0 Differenzen SD p 9.2 .000* 8.2 .000** 12.4 .009** 8.2 .000** 12.7 .384 10.8 .586 10.7 .000** a α .025 .050 .013 .025 .050 .017 Die α-Adjustierung führt keinerlei Veränderungen hinsichtlich der Signifikanzen herbei. Anders als in der Gesamtstichprobe weist in dieser Teilstichprobe neben den beiden SV- und Geschwindigkeitsindizes AG bzw. VG sowie dem Gesamt-IQ und dem Vergleich des Verbalteils mit dem SV des HAWIK-IV zusätzlich der Vergleich zwischen dem Handlungsteil und dem WLD signifikante Wertunterschiede auf. Kapitel 8 Ergebnisse 131 Auch für die gematchte Stichprobe wurde der Vergleich zusätzlich auf Untertestebene durchgeführt (siehe Tabelle 8.6). Tabelle 8.6: t-Test zur Prüfung der Mittelwertedifferenzen der GemS auf Untertestebene. HAWIK-III HAWIK-IV Testpaare M SD M SD BE – BE 11.1 3.0 10.8 2.7 AW – AW 11.0 2.9 10.6 2.5 ZST – ZST 11.8 3.2 10.9 3.0 GF – GF 11.7 2.8 10.9 2.6 RD – RD 10.8 2.7 10.8 2.4 MT – MT 11.2 3.3 11.1 3.1 WT – WT 11.4 3.0 10.9 2.7 AV – AV 11.2 1.9 11.2 2.4 SS – SYS 11.8 2.7 11.0 2.6 ZN – ZN 9.9 2.6 10.3 2.4 Anmerkungen: siehe Tabelle 8.4. Gepaarte Differenzen a M SD p α 0.3 2.9 .223 .013 0.4 2.0 .019* .010 0.9 2.4 .000** .005 0.8 2.3 .000** .006 0.1 2.2 .765 .025 0.1 2.7 .600 .017 0.5 2.4 .009* .007 0.0 2.0 .933 .050 0.8 2.6 .001** .006 -0.4 2.2 .017* .008 In der GemS weisen ähnliche Untertestpaarungen signifikante Unterschiede auf wie in der Gesamtstichprobe. Nach der α-Korrektur gelten die Differenzen der Paarungen von AW, WT und ZN jedoch als nicht mehr signifikant. Somit weichen nur die Mittelwerte der Untertests ZST, GF und SS bzw. SYS signifikant voneinander ab. Dies entspricht den Ergebnissen der Tabelle 8.5, da die auffälligen Untertests den Indizes angehören, die sich als voneinander signifikant unterschiedlich erwiesen haben. Für die gematchte Stichprobe kann festgehalten werden, dass die H0 der Hypothesen 6.1.1, 6.1.2, 6.1.3, 6.1.4 und 6.1.7 abgelehnt und die Alternativhypothese (H1) angenommen werden muss, während für die Hypothesen 6.1.5 und 6.1.6 die H0 beibehalten werden kann. Die Ergebnisse der t-Tests zur Überprüfung von Mittelwertdifferenzen zeigen also signifikante Unterschiede zwischen den Werten beider Testversionen. Damit konnte die Vermutung bestätigt werden, die sich durch die hohe Prozentzahl (mehr als jeder zehnte Vergleich wies eine Differenz von mehr als 1 SD auf) an Personen, die deutliche Differenzen im Gesamt-IQ beider Testversionen aufweisen, ergeben hat. Mögliche Ursachen für diese Differenzen können in den Störvariablen liegen, die in Kapitel 5.2 ausführlich dargestellt wurden. Im Folgenden werden deskriptive Analysen vorgenommen, die Aufschluss darüber geben sollen, als wie hoch ein möglicher Einfluss dieser Störvariablen auf die Ergebnisse beider Testversionen anzunehmen ist. 8.3 Mittelwertvergleich Mit den folgenden Analysen soll festgestellt werden, wie die Werte der Untertests und Indizes ausgefallen sind, je nachdem, welche Testversion zuerst durchgeführt wurde. Es wird also der Kapitel 8 Ergebnisse 132 Einfluss der Testreihenfolge auf die Ergebnisse beider Testversionen untersucht, indem die Mittelwerte einer Testversion verglichen werden, in Abhängigkeit davon, welcher Test als erstes durchgeführt wurde. Dabei wird auf Grund eines vermuteten Lerneffekts (siehe Kapitel 5.2.1) davon ausgegangen, dass die Werte derjenigen Testversion höher ausfallen, die als zweites durchgeführt wurde. Kann dies nicht bestätigt werden, könnten die signifikanten Differenzen auf eine nicht repräsentative Stichprobe zurückzuführen sein, in der beispielsweise die Kinder, die den HAWIK-IV zuerst absolvierten, ein deutlich höheres Leistungsniveau aufweisen als die Kinder, die den HAWIK-III als ersten Test vorgelegt bekamen. Dies würde die Interpretierbarkeit des vorliegenden Vergleichs einschränken. Der Mittelwertevergleich erfolgt getrennt nach kurzem und langem Intervall. 8.3.1 Kurzes Intervall Abbildung 8.4 veranschaulicht die Mittelwerte der HAWIK-III-Untertests nach kurzem Intervall (GK) getrennt nach dem Testverfahren, das in der ersten Testung verwendet wurde. 13 12 HAWIK-III zuerst 11 HAWIK-IV zuerst 10 9 BE AW ZST GF BO RD MT WT FL AV SS ZN Abbildung 8.4: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (kurzes Intervall). Anmerkungen: Legende: HAWIK-III zuerst = die HAWIK-III-Werte der Kinder, die den HAWIK-III zuerst durchführten, HAWIK-IV zuerst = die HAWIK-III-Werte der Kinder, die den HAWIK-IV zuerst durchführten. Abkürzungen siehe Anhang A5 und A6. Bis auf die Untertests RD, WT und FL zeigen alle Untertests dann höhere HAWIK-III-Mittelwerte auf, wenn der HAWIK-IV zuerst vorgelegt wurde. Kapitel 8 Ergebnisse 133 113 111 109 HAWIK-III zuerst 107 105 HAWIK-IV zuerst 103 101 Abbildung 8.5: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). Anmerkungen: siehe Abbildung 8.4. Bezogen auf die HAWIK-III-Index- und -Gesamt-IQ-Werte zeichnen sich in allen Bereichen höhere Mittelwerte bei den Kindern ab, die den HAWIK-IV als ersten Test absolvierten (siehe Abbildung 8.5). 13 12 HAWIK-III zuerst 11 HAWIK-IV zuerst 10 9 MT GF ZN BK ZST WT BZF MZ AV SYS BE DT AW RD BEN Abbildung 8.6: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (kurzes Intervall). Anmerkungen: Legende: HAWIK-III zuerst = die HAWIK-IV-Werte der Kinder, die den HAWIK-III zuerst durchführten, HAWIK-IV zuerst = die HAWIK-IV-Werte der Kinder, die den HAWIK-IV zuerst durchführten. Abkürzungen siehe Anhang A5 und A6. Für die Untertests des HAWIK-IV besitzt im kurzen Intervall nur AV einen geringfügig niedrigeren Wert in der Gruppe, die den HAWIK-III zuerst durchgeführt hat (11.0 gegenüber 11.05). In allen anderen Untertests weist der HAWIK-IV dann höhere Werte auf, wenn vorher der HAWIK-III vorgegeben wurde (siehe Abbildung 8.6). Wie in Abbildung 8.7 ersichtlich, erzielten die Kinder und Jugendlichen, die den HAWIK-III zuerst durchführten, auf der Ebene der Indizes und des Gesamt-IQ im HAWIK-IV durchgängig höhere Mittelwerte. Besonders der Index VG birgt dabei deutlich höhere Werte. Kapitel 8 Ergebnisse 134 113 111 109 HAWIK-III zuerst 107 HAWIK-IV zuerst 105 103 101 Gesamt-IQ SV-IQ WLD-IQ AGD-IQ VG-IQ Abbildung 8.7: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). Anmerkungen: siehe Abbildung 8.6. 8.3.2 Langes Intervall Für das lange Intervall (GL) wurde ebenfalls überprüft, wie sich die Mittelwerte danach unterscheiden, welches Testverfahren zuerst durchgeführt wurde. 13 HAWIK-III zuerst 12 11 HAWIK-IV zuerst 10 9 BE AW ZST GF BO RD MT WT FL AV SS ZN Abbildung 8.8: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (langes Intervall). Anmerkungen: siehe Abbildung 8.4. Im Mittelwertevergleich der Untertests des HAWIK-III (siehe Abbildung 8.8) weisen die Kinder, die den HAWIK-III zuerst absolvierten, im WT und FL deutlich höhere und im BO und AV leicht höhere Werte auf. Alle anderen Untertests sind in der Gruppe besser ausgefallen, die mit dem HAWIK-IV begonnen hat. Kapitel 8 Ergebnisse 135 115 113 111 109 107 105 103 101 99 HAWIK-III zuerst HAWIK-IV zuerst Abbildung 8.9: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). Anmerkungen: siehe Abbildung 8.4. Für die Index-Werte, den Verbal-, und Handlungsteil und den Gesamt-IQ des HAWIK-III gilt, dass die Kinder, denen der HAWIK-IV zum ersten Testzeitpunkt vorgelegt wurde, höhere Mittelwerte erzielten (siehe Abbildung 8.9). In der AG offenbart sich der Unterschied besonders deutlich. 13 12 HAWIK-III zuerst 11 HAWIK-IV zuerst 10 9 MT GF ZN BK ZST WT BZF MZ AV SYS BE DT AW RD BEN Abbildung 8.10: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (langes Intervall). Anmerkungen: siehe Abbildung 8.6. Für die Untertests des HAWIK-IV zeigen sich nur im ZN, MZ und RD höhere Mittelwerte bei den Kindern, die den HAWIK-IV zuerst vorgelegt bekamen. Wie in Abbildung 8.10 veranschaulicht, besitzt in allen anderen Untertests die Gruppe höhere Mittelwerte, die den HAWIK-III zuerst bearbeitete. Abbildung 8.11 illustriert, dass auch auf der Index-und IQ-Ebene des HAWIK-IV ebenso wie nach kurzem Intervall auch nach langem Intervall die Gruppe höhere Mittelwerte erlangt, die den HAWIK-III zuerst durchgeführt hat. Kapitel 8 Ergebnisse 136 113 111 HAWIK-III zuerst 109 107 HAWIK-IV zuerst 105 103 101 Gesamt-IQ SV-IQ WLD-IQ AGD-IQ VG-IQ Abbildung 8.11: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). Anmerkungen: siehe Abbildung 8.6. Bis auf wenige Ausnahmen auf Untertest-Ebene kann demnach zusammenfassend festgestellt werden, dass immer der Test höhere Werte aufzeigt, der an zweiter Stelle durchgeführt wurde. Es kann also von eine repräsentativen Stichprobe ausgegangen werden. Die Mittelwertvergleiche deuten jedoch auf einen Lerneffekt sowohl nach kurzem als auch nach langem Intervall hin. 8.4 Lerneffekt Zur genaueren Überprüfung eines möglichen Lerneffekts zwischen erster und zweiter Testung wurden zusätzliche Mittelwertvergleiche vorgenommen. Der Lerneffekt dürfte sich im kurzen Intervall deutlicher zeigen als im langen Intervall, da sich ein Kind generell besser an die erste Testung erinnern kann, wenn der Abstand zur zweiten Testung geringer ist. Dafür wurden zunächst die Mittelwerte der Untertests und Indizes der Teilstichprobe mit einem kurzen Intervall zwischen beiden Testungen und mit Erstvorgabe des HAWIK-III (GK-III) verglichen. Tabelle 8.7 enthält die Mittelwerte beider Tests und den Zuwachs bzw. die Abnahme der Wert- und IQ-Punkte für das kurze Intervall zwischen erster und zweiter Testung. Kapitel 8 Ergebnisse 137 Tabelle 8.7: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GK-III (n = 63). Mittelwert Mittelwert Zuwachs HAWIK-III HAWIK-IV BE 10.3 11.7 +1.3 AW 10.9 10.8 -0.1 ZST 11.6 12.4 +0.9 GF 11.1 11.1 -0.1 RD 11.4 12.0 +0.6 MT 10.9 12.2 +1.3 WT 11.6 10.8 -0.8 AV 11.1 11.0 -0.1 SS/SYS 11.4 11.8 +0.4 ZN 9.7 10.6 +0.9 SV/SV 108.7 105.1 -3.6 WO/WLD 104.6 107.6 +3.1 UA/AGD 103.8 104.5 +0.7 AG/VG 108.5 111.9 +3.3 Gesamt-IQ 108.0 108.9 +0.8 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Untertest/Index Innerhalb der Untertests zeigen BE und MT den höchsten Anstieg, gefolgt von ZST und ZN. Die Index-Kombinationen WO und WLD sowie AG und VG weisen den höchsten Zuwachs auf, während die Kinder im SV des HAWIK-IV durchschnittlich weniger Punkte erreichten als im SV des HAWIK-III, obwohl sie mit dem HAWIK-III zuerst getestet wurden. Die Ergebnisse der Kinder aus der Teilstichprobe mit einem langen Re-Testintervall und dem HAWIK-III als erstem Test (GL-III) können Tabelle 8.8 entnommen werden. Tabelle 8.8: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-III (n = 48). Mittelwert Mittelwert Zuwachs HAWIK-III HAWIK-IV BE 10.9 12.2 +1.3 AW 10.7 11.2 +0.4 ZST 10.2 10.8 +0.6 GF 11.9 12.0 +0.1 RD 10.6 10.4 -0.2 MT 10.6 11.5 +0.9 WT 11.8 11.9 +0.1 AV 11.3 11.4 +0.1 SS/SYS 10.2 11.1 +0.9 ZN 9.2 10.1 +0.9 SV/SV 110.2 109.6 -0.6 WO/WLD 104.2 107.4 +3.2 UA/AGD 100.3 101.8 +1.5 AG/VG 101.0 105.3 +4.3 Gesamt-IQ 106.9 108.1 +1.3 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Untertest/Index Kapitel 8 Ergebnisse 138 Auch im langen Intervall weist BE den höchsten Wertpunktanstieg auf, gefolgt von MT, SYS und ZN. Auf Index-Ebene zeigt sich ebenso wie im kurzen Intervall der höchste Anstieg vom AG zum VG sowie vom WO zum WLD. Die Mittelwertzuwächse der Stichprobe mit einem kurzen Intervall und der Erstvorgabe des HAWIK-IV (GK-IV) lassen ebenfalls Leistungssteigerungen vom ersten zum zweiten Test erkennen (siehe Tabelle 8.9). Tabelle 8.9: Mittelwerte und Mittelwertzuwächse zwischen HAWIK-III und -IV bei der Stichprobe GK-IV (n = 65). Mittelwert Mittelwert Zuwachs HAWIK-IV HAWIK-III BE 10.2 11.9 +1.7 AW 10.3 11.3 +1.0 ZST 10.1 12.1 +2.0 GF 10.8 12.1 +1.3 RD 10.8 11.0 +0.2 MT 10.8 11.6 +0.8 WT 10.7 11.5 +0.8 AV 11.0 11.3 +0.2 SYS/SS 10.4 12.3 +1.9 ZN 10.6 10.6 +0.1 SV/SV 104.2 111.0 +6.9 WLD/WO 103.6 108.1 +4.5 AGD/UA 103.0 105.6 +2.6 VG/AG 101.5 112.7 +11.2 Gesamt-IQ 103.9 111.0 +7.0 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Untertest/Index Insgesamt können größere Unterschiede festgestellt werden als bei Erstvorgabe des HAWIK-III. Es zeigen sich keinerlei Wertpunktabnahmen von der ersten zur zweiten Testung; wurde der HAWIK-IV als erster Test durchgeführt, sind die Werte im HAWIK-III also deutlich höher. Die größte Zunahme erreichten die Werte der Geschwindigkeitsuntertests SS bzw. SYS und ZST, gefolgt vom BE. Vor allem auf Index-Ebene sind die Werte der zweiten Testung deutlich höher als die der ersten Testung. AG und VG haben mit einem Unterschied von 11.2 Wertpunkten den größten Zuwachs zu verzeichnen. Schließlich werden in Tabelle 8.10 die Zuwächse und Abnahmen in der Teilstichprobe mit einem langen Re-Testintervall und dem HAWIK-IV als erstem Test (GL-IV) aufgezeigt. Kapitel 8 Ergebnisse 139 Tabelle 8.10: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-IV (n= 47). Mittelwert Mittelwert Zuwachs HAWIK-IV HAWIK-III BE 10.3 11.1 +0.8 AW 10.6 11.1 +0.4 ZST 10.6 12.2 +1.7 GF 10.4 12.2 +1.8 RD 10.8 11.2 +0.4 MT 10.1 11.2 +1.1 WT 11.0 11.3 +0.3 AV 11.2 11.2 +0.0 SYS/SS 10.8 12.4 +1.6 ZN 10.2 9.9 -0.3 SV/SV 104.8 110.9 +6.1 WLD/WO 103.0 104.3 +1.3 AGD/UA 101.6 104.1 +2.6 VG/AG 104.0 113.6 +9.6 Gesamt-IQ 104.2 109.1 +4.9 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Untertest/Index Auch im langen Intervall zeigen sich deutlichere Unterschiede als bei Erstvorgabe des HAWIKIII, alles in allem jedoch niedrigere als im kurzen Intervall. Hier existiert die größte Zunahme im GF, gefolgt von den Untertests der Geschwindigkeitsindizes: ZST und SYS. Wie in den anderen Stichproben zeigt sich auch bei den Kindern der Stichprobe GL-IV mit fast zehn Wertpunkten der größte Anstieg von VG zu AG. Für einen Überblick über die Höhe des Lerneffekts im kurzen und langen Intervall insgesamt wurden für jeden Untertest und jeden Index neue Variablen berechnet. Dafür wurden bei den Kindern, die den HAWIK-III zuerst durchführten (G-III), die Werte des HAWIK-III von denen des HAWIK-IV, und bei denen, die erst den HAWIK-IV durchführten (G-IV), die Werte des HAWIK-IV von denen des HAWIK-III abgezogen wurden. Es wurde also immer die Werte der ersten von der zweiten Testung abgezogen. So ergibt sich für jeden Untertest und Index ein Differenzbetrag für jedes Kind. Die mittleren Differenzen stellen den durchschnittlichen Wertpunkt- bzw. IQ-Zuwachs von der ersten zur zweiten Testung dar und werden in Tabelle 8.11 aufgezeigt. Kapitel 8 Ergebnisse 140 Tabelle 8.11: Mittelwertzuwächse bzw. -abnahmen der Untertests und Indizes getrennt nach kurzem und langem Intervall. Zuwachs kurzes Zuwachs langes Std.-diff. Std.-diff. Intervall (n=127) Intervall (n=95) BE +1.6 +0.7 +1.1 +0.4 AW +0.4 +0.2 +0.4 +0.2 ZST +1.4 +0.7 +1.1 +0.5 GF +0.6 +0.3 +0.9 +0.4 RD +0.4 +0.2 +0.1 +0.0 MT +1.1 +0.5 +1.0 +0.4 WT +0.1 +0.0 +0.2 +0.1 AV 0.0 +0.0 +0.1 +0.0 SS/SYS +1.2 +0.5 +1.3 +0.5 ZN +0.5 +0.2 +0.3 +0.1 SV/SV +1.7 +0.2 +2.7 +0.3 WO/WLD +3.8 +0.3 +2.3 +0.2 UA/AGD +1.7 +0.2 +2.0 +0.2 AG/VG +7.4 +0.8 +7.1 +0.8 Gesamt-IQ +4.0 +0.4 +3.1 +0.4 Anmerkungen: Std.-diff. = Standarddifferenz. Berechnung siehe Kapitel 7.5.3. Abkürzungen siehe Anhang A5 und A6. Untertest/Index Die Wertzuwächse fallen im kurzen Intervall zwar etwas höher aus als im langen Intervall, insgesamt haben jedoch unabhängig von der Länge des Intervalls die gleichen Untertests und Indizes hohe oder niedrige Zunahmen zu verzeichnen. In beiden Intervallen weisen die Werte den höchsten Anstieg im Index VG auf. Hinsichtlich der Untertests zeigen in beiden Intervallen die Werte des AV und RD die geringsten und die Werte des BE, ZST und SS bzw. SYS die höchsten Zuwächse. Studien besagen, dass sich der Lerneffekt bei jüngeren Kindern deutlicher zeigt als bei älteren Kindern (siehe Kapitel 5.2.1). Dies soll im Folgenden untersucht werden. Tabelle 8.12 präsentiert die durchschnittlichen Mittelwertdifferenzen nach kurzem Re-Testintervall, aufgeteilt in die drei Altersgruppen 6 bis 7, 8 bis 11 und 12 bis 16 Jahre. Kapitel 8 Ergebnisse 141 Tabelle 8.12: Mittelwertzuwächse bzw. -abnahmen nach kurzem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen. Alter 6-7 Alter 8-11 Alter 12-16 Std.-diff. Std.-diff. Std.-diff. (n=20) (n=37) (n=70) BE +0.1 0.0 +1.9 +0.8 +1.8 +0.8 AW +0.6 +0.3 +0.6 +0.3 +0.3 +0.2 ZST +1.5 +0.6 +1.2 +0.6 +1.5 +0.7 GF +0.6 +0.2 +0.9 +0.3 +0.5 +0.3 RD +0.3 +0.1 -0.1 0.0 +0.6 +0.3 MT +0.5 +0.2 +1.0 +0.4 +1.3 +0.6 WT -0.1 0.0 -0.1 0.0 +0.2 +0.1 AV -0.2 -0.1 -0.2 -0.1 +0.2 +0.1 SS/SYS +1.7 +0.6 +1.5 +0.6 +0.9 +0.4 ZN +0.6 +0.3 +0.8 +0.4 +0.3 +0.1 SV/SV +1.1 +0.1 +1.1 +0.1 +2.3 +0.3 WO/WLD +0.4 0.0 +3.4 +0.2 +5.0 +0.4 UA/AGD +4.1 +0.4 +1.5 +0.1 +1.2 +0.1 AG/VG +8.6 +0.8 +7.7 +0.8 +6.9 +0.7 Gesamt-IQ +3.5 +0.4 +3.1 +0.3 +4.6 +0.5 Anmerkungen: siehe Tabelle 8.11. Untertest/Index Wie der Tabelle 8.12 entnommen werden kann, offenbaren nur in den Index-Kombinationen UA und AGD sowie AG und VG die jüngsten Kinder den höchsten Zuwachs. In den anderen Indizes und im Gesamt-IQ haben die Jugendlichen zwischen 12 und 16 Jahren am deutlichsten von der ersten Testung profitiert. Abschließend sind aus der Tabelle 8.13 die Mittelwertzuwächse bzw. -abnahmen nach langem Intervall ersichtlich, wiederum unterteilt in die drei Altersgruppen. Tabelle 8.13: Mittelwertzuwächse bzw. -abnahmen nach langem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen. Alter 6-7 Alter 8-11 Alter 12-16 Std.-diff. Std.-diff. Std.-diff. (n=17) (n=36) (n=42) BE 0.0 0.0 +1.4 +0.5 +1.2 +0.5 AW +1.0 +0.4 +0.3 +0.1 +0.3 +0.2 ZST +0.9 +0.4 +0.4 +0.2 +1.8 +0.9 GF +1.5 +0.6 +0.5 +0.2 +1.1 +0.5 RD +0.2 +0.1 -0.2 -0.1 +0.3 +0.1 MT +0.1 +0.1 +0.4 +0.2 +1.8 +0.7 WT -0.2 -0.1 +0.3 +0.1 +0.2 +0.1 AV -0.1 0.0 -0.2 -0.1 +0.4 +0.2 SS/SYS +2.0 +0.7 +1.2 +0.5 +1.1 +0.5 ZN +0.1 0.0 +0.1 0.0 +0.5 +0.2 SV/SV +4.7 +0.5 +0.6 +0.1 +3.8 +0.6 WO/WLD -0.5 0.0 +1.8 +0.1 +3.8 +0.3 UA/AGD +4.5 +0.4 -1.4 -0.1 +4.0 +0.4 AG/VG +8.7 +0.8 +5.0 +0.6 +8.3 +1.0 Gesamt-IQ +3.8 +0.4 +0.6 +0.1 +5.0 +0.6 Anmerkungen: siehe Tabelle 8.11. Untertest/Index Kapitel 8 Ergebnisse 142 Im langen Intervall birgt die Gruppe der 12- bis 16-Jährigen im Gesamt-IQ und der Indexkombination WO und WLD den höchsten Zuwachs. In den anderen Indizes kann bei den jüngsten Kindern der höchste Anstieg aufgezeigt werden. Zusammenfassend lässt sich somit ein Lerneffekt feststellen. Vor allem in den Geschwindigkeitsindizes AG bzw. VG profitieren die Kinder und Jugendlichen deutlich von der ersten Testung. Nach kurzem Intervall wird ein etwas deutlicherer Zuwachs ersichtlich als nach langem Intervall. Während nach kurzem Intervall die jüngste Altersstufe in den Gedächtnis- und Geschwindigkeitsindizes den höchsten Zuwachs aufweist und in den anderen Indexkombinationen die ältesten Kinder am meisten von der ersten Testung profitierten, haben im langen Intervall, bis auf in den Indexkombination WO und WLD, immer die 6- bis 7-Jährigen den höchsten Anstieg zu verzeichnen. 8.5 Flynn-Effekt Ein weiterer möglicher Störeinfluss auf die Ergebnisse des Mittelwertvergleichs stellt der Flynn-Effekt dar (siehe Kapitel 5.2.2). Zur Untersuchung des Flynn-Effekts werden nur die Kinder der Stichprobe mit langem Re-Testintervall ausgewählt, da bei ihnen der Lerneffekt weniger zum Tragen kommt (siehe Kapitel 8.4). Da der Lerneffekt, wie oben gezeigt, jedoch auch im langen Intervall nachgewiesen werden konnte, kann mit Hilfe dieser Studie kein eindeutiger Nachweis oder Gegenbeweis für die Existenz des Flynn-Effekts geboten werden. Tabelle 8.14: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall (n= 93-95). HAWIK-III HAWIK-IV Untertest/Index M SD M SD Differenz Std.-diff. BE 11.0 2.9 11.3 3.0 +0.3 0.09 AW 10.9 3.0 10.9 2.6 +0.0 -0.01 ZST 11.2 3.0 10.7 2.8 -0.5 -0.17 GF 12.0 3.2 11.2 2.6 -0.8 -0.29 RD 10.9 2.7 10.6 2.3 -0.3 -0.12 MT 10.9 3.3 10.8 3.2 -0.1 -0.04 WT 11.6 3.2 11.5 2.8 -0.1 -0.04 AV 11.2 2.2 11.3 2.5 0.0 0.01 SS/SYS 11.3 3.1 11.0 2.6 -0.4 -0.13 ZN 9.6 2.4 10.2 2.3 +0.6 0.25 SV/SV 110.5 15.6 107.2 13.2 -3.3 -0.23 WO/WLD 104.2 14.6 105.2 12.8 +1.0 0.07 UA/AGD 102.2 12.5 101.7 11.2 -0.5 -0.04 AG/VG 107.3 15.7 104.8 13.7 -2.5 -0.17 Gesamt-IQ 108.0 14.2 106.2 11.6 -1.8 -0.14 Anmerkungen: M = Mittelwert, SD = Standardabweichung, Std.-diff. = Standarddifferenz. Berechnung der Standarddifferenz siehe Kapitel 7.5.3. Weitere Abkürzungen siehe Anhang A5 und A6. Kapitel 8 Ergebnisse 143 Tabelle 8.14 stellt die Mittelwerte und Wertpunkt- und IQ-Zuwächse bzw. -Abnahmen der GL dar. Dabei scheint nur in einigen Bereichen ein Flynn-Effekt erkennbar zu sein. Die deutlichste IQ-Abnahme zeigt sich im Vergleich der SV-Indizes und der Geschwindigkeitsindizes AG und VG. Wie in Kapitel 5.2.2 beschrieben zeigt sich der Flynn-Effekt vor allem in den Randbereichen des kognitiven Leistungsspektrums. Auf einen Vergleich zu Kindern aus dem extrem niedrigen Leistungsbereich muss an dieser Stelle aufgrund der geringen Anzahl an Kindern mit einem Gesamt-IQ unter 85 in dieser Stichprobe verzichtet werden. Somit werden an dieser Stelle die Ergebnisse der Kinder und Jugendlichen noch einmal gesondert betrachtet, die im HAWIK-III einen Gesamt-IQ von ≥ 115 erzielten (siehe Tabelle 8.15). Wie die Tabelle 8.15 verdeutlicht lassen sich Anzeichen für eine Normverschiebung zwischen HAWIK-III und -IV erkennen. Tabelle 8.15: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall bei Kindern und Jugendlichen mit einem HAWIK-III-Gesamt-IQ von ≥ 115 (n = 28). HAWIK-III Untertest/Index M SD BE 13.2 2.3 AW 13.8 2.1 ZST 12.1 3.2 GF 14.9 2.5 RD 13.3 2.0 MT 13.5 2.7 WT 14.0 2.4 AV 13.0 2.4 SS/SYS 12.4 2.9 ZN 10.6 2.3 SV/SV 127.3 11.4 WO/WLD 120.1 10.2 UA/AGD 112.4 10.9 AG/VG 112.7 16.7 Gesamt-IQ 125.9 6.9 Anmerkungen: siehe Tabelle 8.14. HAWIK-IV M SD 12.9 2.4 13.2 2.3 11.4 2.7 12.9 2.0 11.8 2.0 12.8 2.8 13.6 2.2 12.8 2.3 12.0 2.1 11.1 2.0 118.0 10.4 114.8 9.8 107.7 9.7 109.3 12.0 116.9 7.8 Differenz Std.-diff. -0.3 -0.11 -0.6 -0.28 -0.7 -0.24 -2.0 -0.87 -1.5 -0.75 -0.8 -0.27 -0.4 -0.19 -0.2 -0.08 -0.4 -0.15 0.5 0.23 -9.2 -0.85 -5.3 -0.53 -4.7 -0.45 -3.4 -0.23 -9.0 -1.23 Auf Untertestebene sind die Wertpunkte bei den leistungsstarken Kindern und Jugendlichen vor allem im GF und RD gesunken. Der Gesamt-IQ und das SV liegen im HAWIK-III circa 9 Punkte höher als im HAWIK-IV. Insgesamt können die Störeinflüsse Lern- und Flynn-Effekt zur Erklärung der signifikanten Differenzen zwischen den meisten Index- und Untertestwerten beider Testversionen beitragen (mehr dazu siehe Kapitel 9.2). Kapitel 8 Ergebnisse 144 8.6 Untersuchung der Teststruktur mit Hilfe von Faktorenanalysen Im Folgenden werden Faktorenanalysen berechnet, die Hinweise auf die Struktur der zu untersuchenden Testverfahren und die Höhe der Ladungen auf den von den Testautoren benannten Faktoren liefern sollen. Damit wird der Frage 3: „Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-III in der vorliegenden Studie replizierbar?“ und der Frage 4: „Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-IV in der vorliegenden Studie replizierbar?“ nachgegangen. Gleichzeitig werden die dazugehörigen Hypothesen 6.2.1 bis 6.2.3 untersucht. 8.6.1 Faktorenanalysen ohne Vorgabe der Faktorenanzahl Zur Untersuchung der Struktur beider Testversionen wird die Faktorenanalyse zunächst ohne Vorgabe der Faktorenanzahl durchgeführt. Tabelle 8.16: Exploratorische Faktorenanalyse des HAWIK-III ohne Vorgabe der Faktorenanzahl. Faktor Untertest 1 2 3 AW .78 .20 .13 WT .77 .19 .01 GF .77 .23 -.02 AV .63 .32 .01 RD .56 .09 .40 FL .08 .79 .06 MT .21 .64 .38 BE .32 .58 -.03 BO .32 .57 .13 ZST .00 .15 .75 SS -.07 .20 .74 ZN .38 -.15 .60 Anmerkungen: Die Untertests sind sortiert nach Höhe der Faktorladungen. Details zur Berechnung siehe Kapitel 7.5.2. Abkürzungen siehe Anhang A5 und A6. Die Tabelle 8.16 zeigt eine Drei-Faktoren-Struktur des HAWIK-III. Somit muss an dieser Stelle die Hypothese 6.2.1 abgelehnt werden. Den ersten Faktor bilden die Untertests des Index SV und der Untertest RD. Auf dem zweiten Faktor laden die Untertests des Index WO und auf dem dritten Faktor die Untertests des Index AG und der Untertest ZN. RD weist ebenfalls relativ hohe Ladungen auf dem dritten Faktor auf. Für die 15 Untertests des HAWIK-IV wurde ebenfalls eine explorative Faktorenanalyse berechnet. Tabelle 8.17 stellt die erhaltene Faktorenstruktur des HAWIK-IV ohne Faktorenvorgabe dar. Kapitel 8 Ergebnisse 145 Tabelle 8.17: Exploratorische Faktorenanalyse des HAWIK-IV ohne Vorgabe der Faktorenanzahl. Faktor Untertest 1 2 3 BEN .79 -.05 .14 WT .78 -.08 .22 GF .77 .09 .20 AW .68 .00 .40 AV .67 -.02 .15 BE .62 .43 -.12 BK .57 .24 -.14 MT .50 .40 .18 MZ .40 .37 .31 SYS .12 .77 .21 DT -.01 .74 -.11 ZST -.03 .71 .27 ZN .10 .06 .83 BZF .09 .10 .78 RD .36 .24 .58 Anmerkungen: siehe Tabelle 8.16. Wie schon im HAWIK-III zeigen sich auch für den HAWIK-IV nur drei Faktoren. Die Hypothese 6.2.2 muss somit ebenfalls abgelehnt werden. Die Untertests des SV und des WLD können dem ersten Faktor zugeordnet werden. Der zweite Faktor setzt sich aus Untertests des Index VG zusammen und auf dem dritten Faktor laden die Untertests des Index AGD. Aufgrund des bereits festgestellten großen Einflusses des Re-Testintervalls und der Testreihenfolge (siehe Lern- und Flynn-Effekt) werden die Faktorenanalysen zusätzlich getrennt nach Höhe des Intervalls sowie getrennt nach Reihenfolge der Testvorgabe durchgeführt. Unterteilung in Intervall: Im HAWIK-IV zeigen sich im kurzen Intervall genau die vier Faktoren, wie sie theoretisch vorgegeben werden (siehe Anhang A7). Im langen Intervall ergeben sich jedoch nur drei Faktoren, die auch nur teilweise mit der Struktur des HAWIK-IV übereinstimmen (siehe Anhang A8). Die Faktorenanalyse der HAWIK-III-Untertests weist im langen Intervall nahezu theoriekonforme Ergebnisse auf, einzig BO ist eher den Untertests des UA, RD und ZN, zuzuordnen als den anderen Untertests des WO (siehe Anhang A10). Im kurzen Intervall kann MT dem Faktor, auf dem die Untertests des UQ laden, eher zugeordnet werden als dem Faktor, auf dem sich die Untertests des WO befinden (siehe Anhang A9). Unterteilung in Testreihenfolge: Die Faktorenanalyse der HAWIK-III-Untertests mit der Stichprobe, die den HAWIK-III zuerst bearbeitet hat (siehe Anhang A11) weist vier Faktoren auf, allerdings insofern abweichend von Kapitel 8 Ergebnisse 146 der vorgegebenen Teststruktur, als dass MT etwas mehr auf dem UA-Faktor lädt als auf dem WO-Faktor (das selbe Ergebnis zeigte sich schon für die Stichprobe, die ein kurzes Intervall zwischen den Testungen aufwies, siehe oben). In der Stichprobe, die den HAWIK-IV zuerst absolvierte, bilden die Untertests des HAWIK-III lediglich drei Faktoren, in denen die theoriegeleiteten Faktoren nur bedingt wiederzufinden sind (siehe Anhang A12). So lädt BO mehr auf dem SV-Faktor als auf dem Faktor der WO-Untertests. Außerdem bilden die Untertests des Index AG einen gemeinsamen Faktor mit dem ZN. Die Ergebnisse der Untertests des HAWIK-IV der Kinder, die zuerst den HAWIK-III vorgelegt bekamen, bilden exakt die vier Faktoren, die dem Test theoretisch zu Grunde liegen (siehe Anhang A13). Wurde jedoch zuerst der HAWIK-IV durchgeführt, laden die Untertests des HAWIK-IV auf drei Faktoren, von denen einzig der Faktor AGD erkennbar ist (siehe Anhang A14). Zusammenfassend kann somit festgestellt werden, dass sich bei den Untertests des HAWIK-IV im kurzen Intervall und bei Erstvorgabe des HAWIK-III die vier von den Testautoren vorgegebenen Faktoren wiederfinden lassen, ohne dass eine Faktorenanzahl vorgegeben wurde. In diesen Teilstichproben könnte demnach die Hypothese angenommen werden. 8.6.2 Faktorenanalysen mit Vorgabe der Faktorenanzahl Im Folgenden wird vor der Berechnung der Faktorenanalysen festgelegt, dass sich vier Faktoren ergeben sollen. Dies entspricht der vorgegebenen Teststruktur beider HAWIK-Versionen. Indem zunächst eine Faktorenanalyse mit Vorgabe von vier Faktoren berechnet wird, in die sämtliche Untertests beider Testversionen einbezogen werden, soll ein Eindruck davon vermittelt werden, wie hoch die Untertests beider Testversionen gemeinsam auf die ihnen zu Grunde liegenden Faktoren laden. In Tabelle 8.18 werden die Ergebnisse dieser Faktorenanalyse dargestellt. Kapitel 8 Ergebnisse 147 Tabelle 8.18: Faktorenanalyse des HAWIK-III und -IV mit Vorgabe von vier Faktoren. Faktor Untertest 1 2 3 WT-IV .80 .15 .15 WT-III .78 .06 .20 BEN-IV .73 .23 .12 GF-III .73 .20 .15 AV-III .72 .10 .00 GF-IV .71 .30 .17 AV-IV .70 .20 .01 AW-III .66 .25 .35 AW-IV .63 .27 .38 MT-IV .14 .78 .26 MT-III .14 .71 .24 BE-IV .31 .66 -.09 FL-III .13 .64 .05 BE-III .36 .44 -.06 MZ-IV .19 .44 .35 BK-IV .28 .43 .02 BO-III .39 .39 .03 ZN-IV .10 .01 .81 ZN-III .02 .01 .78 BZF-IV .16 .00 .69 RD-IV .28 .24 .61 RD-III .27 .34 .60 ZST-III .04 .03 .20 ZST-IV .06 .01 .16 SYS-IV .10 .24 .14 SS-III .03 .04 .12 DT-IV -.04 .23 -.10 Anmerkungen: siehe Tabelle 8.16. 4 .00 .07 -.03 -.01 .19 .01 .07 -.05 -.05 .07 .16 .14 .05 .07 .19 .06 .18 .07 .14 .14 .17 .01 .81 .80 .77 .65 .58 Die vier Faktoren entsprechen der von den WISC-Entwicklern vorgegebenen Teststruktur. Der erste Faktor beinhaltet die Untertests der beiden als SV bezeichneten Indizes, der zweite Faktor besteht aus den Untertest des WO und des WLD, der dritte Faktor beinhaltet die Untertests der Indizes UA und AGD und der vierte Faktor bildet sich aus den Untertests der Indizes AG und VG. Die Hypothese 6.2.3 kann somit angenommen werden. Allerdings kann BO sowohl dem ersten als auch dem zweiten Faktor zugeordnet werden. Auch die beiden Versionen des BE laden zusätzlich mit mehr als .30 auf dem ersten Faktor, der die Untertests des SV beinhaltet. Im Folgenden soll für jede Testversion getrennt die von den Testautoren vorgegebene Teststruktur untersucht werden. Dafür werden jeweils vier Faktoren vorgegeben, da dies der theoretisch festgelegten Anzahl entspricht. Kapitel 8 Ergebnisse 148 Tabelle 8.19: Faktorenanalyse des HAWIK-III mit Vorgabe von vier Faktoren. Faktor Untertest 1 2 3 4 WT .79 .09 .19 .02 AV .78 .16 -.04 .17 GF .77 .16 .21 -.04 AW .66 .20 .45 -.03 FL .08 .85 .08 -.02 MT .13 .71 .33 .23 BO .37 .53 .06 .14 BE .45 .49 -.11 .08 RD .24 .25 .78 .00 ZN .08 -.02 .75 .27 ZST .08 .07 .13 .83 SS .02 .13 .09 .82 Anmerkungen: siehe Tabelle 8.16. Werden die vier Faktoren vorgeben, lässt sich die Teststruktur des HAWIK-III (siehe Tabelle 8.19) im vorliegenden Datensatz wiederfinden. Mit Vorgabe von vier Faktoren kann die Hypothese 6.2.1 somit angenommen werden. Der erste Faktor setzt sich aus den Untertests des SV zusammen, der zweite aus den Untertests des WO, der dritte aus den Untertests des UA-Index und der vierte Faktor aus den Untertests des AG. BE kann jedoch wie schon bei der Analyse unter Berücksichtigung aller Untertests beider Versionen (siehe Tabelle 8.18) fast gleich gut dem ersten als auch dem zweiten Faktor zugeordnet werden. AW zeigt neben dem Sprachfaktor ebenfalls hohe Ladungen auf dem Faktor, der die Untertests des UA-Index beinhaltet. Die Ergebnisse der Faktorenanalyse für die HAWIK-IV-Untertests werden in der folgenden Tabelle 8.20 dargestellt. Tabelle 8.20: Faktorenanalyse des HAWIK-IV mit Vorgabe von vier Faktoren. Faktor Untertest 1 2 3 WT .84 .16 .12 BEN .79 .09 .22 AV .74 .09 .09 GF .73 .16 .30 AW .61 .39 .31 ZN .08 .85 .10 BZF .18 .76 -.07 RD .24 .60 .34 BK .27 -.08 .68 MT .21 .23 .67 MZ .12 .37 .62 BE .43 -.11 .55 ZST .10 .21 -.08 SYS .11 .18 .18 DT -.14 -.09 .31 Anmerkungen: siehe Tabelle 8.16. 4 .00 -.01 .07 .09 -.04 .02 .16 .14 .00 .17 .14 .30 .84 .79 .66 Kapitel 8 Ergebnisse 149 Wie aus der Tabelle 8.20 ersichtlich, lässt sich auch für den HAWIK-IV bei Vorgabe der vier Faktoren die testtheoretische Faktorenstruktur replizieren. Den ersten Faktor bilden die Untertests des SV, den zweiten die Untertests des AGD, dem dritten lassen sich die Untertests des WLD und dem vierten Faktor die Untertests des VG zuordnen. Mit Vorgabe von vier Faktoren kann die Hypothese 6.2.2 somit angenommen werden. Wie bei der Faktorenanalyse der HAWIK-III-Untertests laden auch bei der Analyse der HAWIKIV-Untertests AW relativ hoch auf dem Faktor, der die AGD-Untertests beinhaltet und BE auf dem Faktor, der sich aus den Untertests des Index SV zusammensetzt. 8.6.3 Zusammenfassung Faktorenanalysen Faktorenanalysen ohne Vorgabe der Faktorenanzahl konnten die vier Faktoren des HAWIK-III und HAWIK-IV nur teilweise nachweisen. Anhand von Faktorenanalysen mit Vorgabe der Faktorenanzahl können die Hypothesen zur Faktorenstruktur beider Versionen jedoch bestätigt werden. Sowohl die Untersuchung sämtlicher Untertests beider Testversionen als auch die separaten Analysen der Tests weisen die Vier-Faktoren-Struktur auf, wie sie von den Entwicklern vorgegeben wurde. Dabei stellt sich heraus, dass die Untertests BE und BO ebenfalls hoch auf dem Sprachverständnis-Faktor laden und AW zusätzlich auf dem Gedächtnis-Faktor hohe Ladungen aufweist. Während die bezüglich der Faktorenstruktur beider Testversionen aufgestellten Hypothesen also nach der Berechnung ohne Faktorenvorgabe abgelehnt werden müssen, können sie anhand einer Faktorenanalyse mit Vorgabe der vier testeigenen Faktoren angenommen werden. Insgesamt konnte demnach die Struktur des HAWIK-III und des HAWIK-IV repliziert werden. 8.7 Untersuchung des Zusammenhangs mit Hilfe von Korrelationen Die Untersuchung der Korrelationen gibt Aufschluss über die Höhe und Richtung des Zusammenhangs der Untertests und Indizes beider Testversionen. Die Fragestellungen 5 bis 8 beschäftigen sich mit der Höhe der Korrelationen der sich entsprechenden Werte. Im Folgenden soll also geklärt werden, ob sich die Korrelationen zwischen den sich entsprechenden Werten als ebenso hoch erweisen, wie es sich in vergleichbaren Studien darstellte. 8.7.1 Korrelationen der Gesamtstichprobe Wie im Manual des HAWIK-IV werden die Korrelationen zwischen beiden Testversionen zunächst getrennt in Abhängigkeit von der Reihenfolge der Testvorgabe angegeben. Tabelle 8.21 zeigt die Korrelationen zwischen HAWIK-III und -IV der G-III und Tabelle 8.22 die Korrelationen der G-IV. Kapitel 8 Ergebnisse 150 Tabelle 8.21: Korrelationen zwischen HAWIK-III und -IV (G-III, n = 109 bis 111). HAWIK-IV N M SD HAWIK-III N M SD Std.-diff. r MT 111 11.9 2.9 MT 111 10.8 2.9 .38 .68 GF 111 11.5 2.3 GF 111 11.4 2.6 .00 .57 ZN 111 10.4 2.3 ZN 111 9.5 2.4 .37 .59 ZST 111 11.7 2.7 ZST 111 11.0 2.8 .28 .77 WT 111 11.3 2.6 WT 111 11.7 2.6 -.16 .64 AV 111 11.2 2.1 AV 111 11.2 2.0 -.01 .40 SYS 109 11.5 2.6 SS 109 10.9 2.7 .22 .57 BE 111 11.9 2.7 BE 111 10.6 2.7 .50 .55 AW 110 11.0 2.4 AW 110 10.8 2.8 .06 .74 RD 110 11.3 2.1 RD 110 11.0 2.9 .10 .53 SV 111 107.0 11.5 Verbal-IQ 111 108.2 12.3 -.10 .75 WLD 111 107.5 11.7 Handlungs-IQ 111 105.1 13.0 .19 .50 SV 111 107.0 11.5 SV 111 109.3 12.9 -.19 .79 WLD 111 107.5 11.7 WO 111 104.4 13.5 .25 .48 AGD 111 103.3 11.3 UA 111 102.3 13.0 .08 .61 VG 109 109.0 13.7 AG 109 105.3 13.7 .27 .81 Gesamt-IQ 111 108.5 9.8 Gesamt-IQ 111 107.5 12.5 .09 .73 Anmerkungen: N = Anzahl der Personen, M = Mittelwert, SD = Standardabweichung, Std.diff. = Standarddifferenz, r = Höhe der Korrelation. Zur Berechnung der Standarddifferenz siehe Kapitel 7.5.3. Weitere Abkürzungen siehe Anhang A5 und A6. Die Gesamt-IQ beider Testversionen korrelieren mit r = .73. Auf Index-Ebene weisen die Vergleiche zwischen WLD und Handlungs-IQ sowie zwischen WLD und WO in der G-III die niedrigsten Korrelationen auf. Die höchsten Korrelationen zeigen sich dagegen zwischen den Indizes VG und AG. Der Untertest AV weist mit r = .40 mit Abstand die niedrigste, der nicht veränderte ZST bei erneuter Testung mit r = .77 die höchste Korrelation auf. Die beiden Versionen des AW korrelieren mit r = .74 ebenfalls hoch miteinander. Tabelle 8.22: Korrelationen zwischen HAWIK-IV und -III (G-IV, n = 111 bis 112). HAWIK-IV N M SD HAWIK-III N M MT 112 10.5 2.9 MT 112 11.4 GF 112 10.6 2.4 GF 112 12.1 ZN 112 10.4 2.7 ZN 112 10.3 ZST 112 10.3 2.8 ZST 112 12.2 WT 112 10.8 2.7 WT 112 11.4 AV 112 11.1 2.6 AV 112 11.3 SYS 112 10.6 2.5 SS 112 12.4 BE 111 10.2 2.6 BE 111 11.5 AW 111 10.5 2.6 AW 111 11.2 RD 112 10.8 2.6 RD 112 11.1 SV 112 104.4 13.0 Verbal-IQ 112 109.6 WLD 112 103.3 12.3 Handlungs-IQ 112 108.6 SV 112 104.4 13.0 SV 112 111.0 WLD 112 103.3 12.3 WO 112 106.5 AGD 112 102.4 13.2 UA 112 105.0 VG 112 102.6 12.9 AG 112 113.1 Gesamt-IQ 112 104.0 12.3 Gesamt-IQ 112 110.2 Anmerkungen: siehe Tabelle 8.21. SD Std.-diff. r 3.4 -.30 .72 2.9 -.57 .68 2.7 .03 .68 3.3 -.61 .75 3.1 -.21 .69 2.0 -.06 .70 2.6 -.68 .56 3.2 -.46 .61 2.7 -.28 .75 2.6 -.10 .68 13.5 -.39 .81 15.2 -.38 .66 14.5 -.48 .83 15.3 -.23 .64 13.3 -.20 .66 14.5 -.76 .79 14.1 -.47 .81 Kapitel 8 Ergebnisse 151 In der G-IV erweist sich die Korrelation im Gesamt-IQ mit r = .81 als etwas höher als in der G-III. Ebenso hoch korreliert der SV des HAWIK-IV mit dem Verbal-IQ, die beiden SV-Indizes weisen mit r = .83 die höchsten Korrelationen auf. Insgesamt liegen die Korrelationen in der G-IV höher als in der G-III. Auch auf Untertestebene zeigen sich ähnlich hohe oder höhere Korrelationen. Die niedrigste Korrelation weisen die beiden Symbol-Suche-Untertests mit r = .56 und die höchsten die AW-Untertests mit r = .75 auf. Die folgende Tabelle 8.23 beinhaltet die Verteilungskennwerte der Testergebnisse sowie der Korrelationen zwischen HAWIK-III und -IV. Erläuterungen zur Berechnung der gemittelten Werte aus G-III und G-IV befinden sich in Kapitel 7.5.3.1. Tabelle 8.23: Korrelationen zwischen HAWIK-III und -IV gesamt (n = 221 bis 223). a HAWIK-IV N M SD HAWIK-III N M SD St.-diff. r rcorr1 rcorr2 p α MT 223 11.2 2.9 MT 223 11.1 3.1 .03 .70 .74 .77 .512 .013 GF 223 11.0 2.4 GF 223 11.8 2.8 -.29 .63 .73 .81 .182 .006 ZN 223 10.4 2.5 ZN 223 9.9 2.6 .19 .64 .70 .76 .280 .007 ZST 223 11.0 2.7 ZST 223 11.6 3.0 -.19 .76 .79 .80 .759 .017 WT 223 11.0 2.7 WT 223 11.6 2.8 -.19 .67 .75 .81 .462 .008 AV 223 11.1 2.4 AV 223 11.2 2.0 -.04 .57 .67 .77 .001** .005 SYS 221 11.0 2.6 SS 221 11.6 2.7 -.22 .57 .63 .71 .944 .050 BE 222 11.1 2.6 BE 222 11.1 2.9 -.01 .58 .63 .69 .485 .010 AW 221 10.7 2.5 AW 221 11.0 2.8 -.12 .75 .81 .84 .922 .025 RD 222 11.1 2.4 RD 223 11.1 2.8 .00 .61 .71 .79 .070 .006 SV 223 105.7 12.3 V-IQ 223 108.9 12.9 -.25 .78 .87 .89 .260 .050 WLD 223 105.4 12.0 H-IQ 223 106.9 14.2 -.11 .58 .68 .78 .076 .025 SV 223 105.7 12.3 SV 223 110.1 13.7 -.34 .81 .88 .90 .326 .017 WLD 223 105.4 12.0 WO 223 105.4 14.4 .00 .57 .67 .78 .077 .013 AGD 223 102.8 12.3 UA 223 103.6 13.2 -.06 .64 .72 .79 .569 .025 VG 221 105.8 13.3 AG 221 109.2 14.1 -.24 .80 .84 .85 .639 .050 Gesamt-IQ 223 106.3 11.2 Gesamt-IQ 223 108.9 13.3 -.21 .77 .87 .90 .155 Anmerkungen: N = Anzahl der Personen, M = Mittelwert, SD = Standardabweichung, St.diff. = Standarddifferenz, r = Höhe der Korrelation, rcorr1 und rcorr2 = korrigierte Korrelationen (Formeln siehe 7.5.3.1), p = Signifikanz der Differenzen * = signifikantes Ergebnis auf dem .05Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. Ausführliche Angaben zur Berech- nung der Werte siehe Kapitel 7.5.3.1. Weitere Abkürzungen siehe Anhang A5 und A6. Der Gesamt-IQ beider Testversionen korreliert - nach der Korrektur, wie sie für den amerikanischen Vergleich WISC-III und WISC-IV vorgenommen wurde (rcorr1, siehe Kapitel 7.5.3.1) - mit r = .87. Der SV und der Verbalteil korrelieren ebenso hoch, während der WLD mit dem Handlungs-IQ mit r = .68 nach Korrektur einen niedrigeren Zusammenhang aufweist. Die korrigierten Korrelationen der Indexvergleiche liegen zwischen r = .67 und .88. Innerhalb der Untertests zeigen sich korrigierte Korrelationen von r = .63 bis .81. Die Fragestellungen 5 bis 8 können somit bejaht und die H1 der zugehörigen Hypothesen 6.3.1 bis 6.3.7 angenommen werden. Kapitel 8 Ergebnisse 152 Zusätzlich lässt sich anhand der Ergebnisse, die in Tabelle 8.23 dargestellt sind, die Fragestellung 9: „Hat die Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die Höhe der Korrelationen?“ beantworten. Die einzige Korrelation, die sich je nach dem zuerst vorgelegten Testverfahren signifikant unterscheidet, weist der Untertest AV auf. In der G-III korrelieren die beiden AV-Untertests nur mit r = .40, in der G-IV jedoch mit r = .70. Dies führt zu einem signifikanten Unterschied hinsichtlich der Höhe der Korrelation, je nachdem, welcher Test den Kindern und Jugendlichen der Gesamtstichprobe zuerst vorgelegt wurde. Innerhalb der Indizes und Gesamtwerte sind keine signifikanten Unterschiede dieser Art festzustellen. Die Fragestellung 9 kann somit verneint und die H1 der Hypothesen 6.3.8 bis 6.3.14 angenommen werden. Auch wenn die Frage nach dem Einfluss des Zeitintervalls zwischen beiden Testungen an der gematchten Teilstichprobe untersucht werden soll (siehe Kapitel 7.3.2), werden im Folgenden auch für die Gesamtstichprobe die Korrelationen getrennt nach der Länge des Re-Testintervalls geprüft. In Tabelle 8.24 bis Tabelle 8.26 befinden sich die Angaben für die GK zunächst getrennt nach Testvorgabe und dann gemeinsam. Tabelle 8.24: Korrelationen zwischen HAWIK-III und -IV für die GK-III (n = 63). HAWIK-IV M SD HAWIK-III M MT 12.2 2.8 MT 10.9 GF 11.1 2.2 GF 11.1 ZN 10.6 2.5 ZN 9.7 ZST 12.4 2.5 ZST 11.6 WT 10.8 2.5 WT 11.6 AV 11.0 2.2 AV 11.1 SYS 11.8 2.8 SS 11.4 BE 11.7 2.4 BE 10.3 AW 10.8 2.5 AW 10.9 RD 12.0 2.1 RD 11.4 SV 105.1 11.5 Verbal-IQ 108.0 WLD 107.6 11.1 Handlungs-IQ 106.2 SV 105.1 11.5 SV 108.7 WLD 107.6 11.1 WO 104.6 AGD 104.5 12.7 UA 103.8 VG 111.9 13.7 AG 108.5 Gesamt-IQ 108.9 10.3 Gesamt-IQ 108.0 Anmerkungen: siehe Tabelle 8.21. SD Std.-diff. r 2.9 .78 .71 2.4 -.04 .55 2.6 .56 .68 3.0 .52 .77 2.5 -.49 .64 1.9 -.09 .48 2.5 .25 .63 2.8 .83 .64 2.7 -.05 .73 3.1 .38 .60 11.9 -.86 .78 14.1 .39 .51 12.2 -1.05 .82 14.4 .86 .48 14.0 .18 .67 13.6 .90 .82 12.9 .24 .75 Der Gesamt-IQ beider Testversionen korreliert in dieser Teilstichprobe mit r = .75. Wie schon in der Gesamtstichprobe (G-III, siehe Tabelle 8.21) weisen die Kombinationen WLD und Handlungs-IQ sowie WLD und WO auch dann die niedrigsten Zusammenhänge auf, wenn der HAWIK-III zuerst durchgeführt wurde. Die höchsten Korrelationen zeigen sich zwischen den Indizes VG und AG und den SV-Indizes. Der AV-Vergleich weist mit r = .48 ebenso wie in der G-III Kapitel 8 Ergebnisse 153 die niedrigste Korrelation auf. Der Untertest ZST des HAWIK-III und des HAWIK-IV zeigt mit r = .77 identische Korrelationen zur G-III. Tabelle 8.25: Korrelationen zwischen HAWIK-IV und -III für die GK-IV (n = 64 bis 65). HAWIK-IV N M SD HAWIK-III MT 65 10.8 2.6 MT GF 65 10.8 2.3 GF ZN 65 10.6 2.8 ZN ZST 65 10.1 2.7 ZST WT 65 10.7 2.6 WT AV 65 11.0 2.3 AV SYS 65 10.4 2.2 SS BE 64 10.2 2.5 BE AW 64 10.3 2.4 AW RD 65 10.8 2.6 RD SV 65 104.2 11.7 Verbal-IQ WLD 65 103.6 12.0 Handlungs-IQ SV 65 104.2 11.7 SV WLD 65 103.6 12.0 WO AGD 65 103.0 13.3 UA VG 65 101.5 11.7 AG Gesamt-IQ 65 103.9 11.6 Gesamt-IQ Anmerkungen: siehe Tabelle 8.21. N 65 65 65 65 65 65 65 64 64 65 65 65 65 65 65 65 65 M 11.6 12.1 10.6 12.1 11.5 11.3 12.3 11.9 11.3 11.0 109.5 109.8 111.0 108.1 105.6 112.7 111.0 SD Std.-diff. r 3.1 -.48 .69 2.4 -.86 .61 2.7 -.05 .77 3.3 -1.16 .75 2.6 -.53 .68 1.9 -.16 .67 2.5 -1.21 .39 3.1 -1.07 .64 2.7 -.59 .75 2.6 -.10 .66 11.9 -1.56 .74 14.0 -1.74 .55 12.2 -1.99 .77 14.1 -1.25 .55 13.5 -.72 .71 13.5 -3.15 .73 12.4 -2.03 .75 Die GK-IV weist ebenso wie die G-IV (siehe Tabelle 8.22) im Gesamt-IQ sowie in den sprachlichen Index- und Gesamtwerten die höchsten Zusammenhänge auf. Auf Untertestebene zeigen sich auch hier ähnlich hohe oder höhere Korrelationen wie bei den Kindern der GK-III (siehe Tabelle 8.24). Als auffallend niedrig offenbart sich mit r = .39 der Zusammenhang zwischen den Versionen der Symbol-Suche. Tabelle 8.26: Korrelationen zwischen HAWIK-III und -IV (GK gesamt, n = 127 bis 128). HAWIK-IV N M SD HAWIK-III MT 128 11.5 2.7 MT GF 128 10.9 2.2 GF ZN 128 10.6 2.6 ZN ZST 128 11.3 2.6 ZST WT 128 10.7 2.5 WT AV 128 11.0 2.3 AV SYS 128 11.1 2.5 SS BE 127 10.9 2.4 BE AW 127 10.6 2.4 AW RD 128 11.4 2.3 RD SV 128 104.6 11.6 V-IQ WLD 128 105.6 11.5 H-IQ SV 128 104.6 11.6 SV WLD 128 105.6 11.5 WO AGD 128 103.7 13.0 UA VG 128 106.7 12.7 AG Gesamt-IQ 128 106.4 11.0 Gesamt-IQ Anmerkungen: siehe Tabelle 8.23. N M SD St.-diff. 128 11.2 3.0 .09 128 11.6 2.4 -.30 128 10.2 2.7 .15 128 11.8 3.1 -.20 128 11.6 2.6 -.32 128 11.2 1.9 -.09 128 11.8 2.5 -.29 128 11.1 2.9 -.08 128 11.1 2.7 -.20 128 11.2 2.9 .08 128 108.8 11.9 -.35 128 108.0 14.1 -.19 128 109.8 12.2 -.44 128 106.3 14.2 -.06 128 104.7 13.7 -.07 128 110.6 13.5 -.30 128 109.5 12.7 -.26 r rcorr1 .70 .76 .58 .71 .73 .77 .76 .81 .66 .76 .59 .70 .52 .59 .64 .71 .74 .81 .63 .73 .76 .86 .53 .65 .80 .89 .51 .63 .69 .75 .78 .82 .75 .86 rcorr2 .80 .81 .80 .83 .83 .80 .70 .78 .84 .80 .89 .78 .91 .77 .80 .85 .89 p .871 .584 .276 .827 .666 .101 .073 .968 .745 .605 .595 .738 .447 .589 .622 .220 .970 a α .025 .007 .006 .017 .010 .006 .005 .050 .013 .008 .025 .050 .017 .025 .050 .013 Kapitel 8 Ergebnisse 154 In der Stichprobe, die ein kurzes Intervall zwischen beiden Testungen aufweist (GK), ergibt sich zwischen den beiden Gesamt-IQ eine korrigierte Korrelation von r = .86. Auch hier zeigen sich die niedrigsten Zusammenhänge bezogen auf die Indizes zwischen WLD und Handlungsteil sowie WLD und WO. Insgesamt unterscheiden sich die Korrelationen der Gesamtstichprobe (siehe Tabelle 8.23) und der GK (siehe Tabelle 8.26) nur unwesentlich voneinander. Einzig die Untertests ZN und BE weisen in der GK etwas höhere Korrelationen zwischen HAWIK-III und -IV auf als in der Gesamtstichprobe (r = .70 gegenüber .77 im ZN und r = .63 gegenüber .71 im BE). Die niedrigsten Zusammenhänge offenbaren die Untertests SYS und SS mit r = .59 nach Korrektur. Tabelle 8.27 und Tabelle 8.28 beinhalten die Angaben der Korrelationsberechnungen für die Stichprobe, bei der ein langes Intervall zwischen beiden Testungen lag (GL), getrennt nach der Reihenfolge der Testvorgabe. Die Ergebnisse die zusammengefassten Berechnungen beider Teilstichproben lassen sich Tabelle 8.29 entnehmen. Tabelle 8.27: Korrelationen zwischen HAWIK-III und -IV für die GL-III (n = 46 bis 48). HAWIK-IV N M SD HAWIK-III MT 48 11.5 2.9 MT GF 48 12.0 2.3 GF ZN 48 10.1 2.0 ZN ZST 48 10.8 2.7 ZST WT 48 11.9 2.6 WT AV 48 11.4 1.9 AV SYS 46 11.1 2.3 SS BE 48 12.2 3.0 BE AW 47 11.2 2.2 AW RD 47 10.4 1.8 RD SV 48 109.6 11.2 Verbal-IQ WLD 48 107.4 12.6 Handlungs-IQ SV 48 109.6 11.2 SV WLD 48 107.4 12.6 WO AGD 48 101.8 9.1 UA VG 48 105.3 12.9 AG Gesamt-IQ 48 108.1 9.2 Gesamt-IQ Anmerkungen: siehe Tabelle 8.21. N 48 48 48 48 48 48 46 48 47 47 48 48 48 48 48 46 48 M 10.6 11.9 9.2 10.2 11.8 11.3 10.2 10.9 10.7 10.6 108.4 103.7 110.2 104.2 100.3 101.0 106.9 SD Std.-diff. r 2.9 .50 .64 2.8 .06 .58 2.1 .59 .40 2.3 .40 .74 2.7 .04 .66 2.2 .07 .31 2.9 .57 .48 2.5 .79 .44 3.1 .24 .79 2.7 -.13 .38 12.9 .35 .75 11.4 1.06 .50 13.9 -.17 .76 12.3 .91 .50 11.5 .47 .48 12.7 1.29 .78 12.1 .40 .69 Die GL-III offenbart auf Untertestebene zum Teil niedrige Korrelationen. So weisen die Hälfte der Untertestvergleiche Korrelationen unter r = .50 auf. Der Vergleich Handlungsteil und WLD zeigt mit r = .50 identische Korrelationen wie der Vergleich zwischen WO und WLD. Nur der Vergleich zwischen UA und AGD ergab mit r = .48 noch niedrigere Zusammenhänge zwischen beiden den Geschwindigkeits-Indizes beider Testversionen. Kapitel 8 Ergebnisse 155 Tabelle 8.28: Korrelationen zwischen HAWIK-IV und -III für die GL-IV (n = 47). HAWIK-IV M SD HAWIK-III M MT 10.1 3.4 MT 11.2 GF 10.4 2.7 GF 12.2 ZN 10.2 2.5 ZN 9.9 ZST 10.6 2.9 ZST 12.2 WT 11.0 3.0 WT 11.3 AV 11.2 2.9 AV 11.2 SYS 10.8 2.9 SS 12.4 BE 10.3 2.8 BE 11.1 AW 10.6 2.9 AW 11.1 RD 10.8 2.6 RD 11.2 SV 104.8 14.7 Verbal-IQ 109.7 WLD 103.0 12.8 Handlungs-IQ 106.9 SV 104.8 14.7 SV 110.9 WLD 103.0 12.8 WO 104.3 AGD 101.6 13.2 UA 104.1 VG 104.0 14.4 AG 113.6 Gesamt-IQ 104.2 13.4 Gesamt-IQ 109.1 Anmerkungen: siehe Tabelle 8.21. SD Std.-diff. r 3.7 -.60 .75 3.5 -1.02 .75 2.7 .19 .53 3.3 -.94 .75 3.7 -.16 .72 2.3 -.03 .73 2.8 -.97 .72 3.3 -.46 .59 2.9 -.26 .76 2.7 -.24 .72 15.5 -1.26 .87 16.7 -1.03 .57 17.4 -1.53 .88 16.8 -.34 .76 13.3 -.71 .58 16.0 -2.45 .85 16.1 -1.28 .86 Die GL-IV weist deutlich höhere Korrelationen auf als die GL-III. So liegen alle Untertestvergleiche über r = .50. Innerhalb der Indizes und Gesamtwerte offenbaren nur die Vergleiche zwischen Handlungsteil und WLD sowie zwischen UA und AGD Korrelationen unter r = .70. Die Gesamt-IQ korrelieren mit r = .86 ebenfalls deutlich höher als in der GL-III. Tabelle 8.29: Korrelationen zwischen HAWIK-IV und -III (GL gesamt, n = 93 bis 95). HAWIK-IV N M SD HAWIK-III MT 95 10.8 3.1 MT GF 95 11.2 2.5 GF ZN 95 10.2 2.3 ZN ZST 95 10.7 2.8 ZST WT 95 11.4 2.8 WT AV 95 11.3 2.5 AV SYS 93 11.0 2.6 SS BE 95 11.2 2.9 BE AW 94 10.9 2.6 AW RD 94 10.6 2.3 RD SV 95 107.2 13.0 V-IQ WLD 95 105.2 12.7 H-IQ SV 95 107.2 13.0 SV WLD 95 105.2 12.7 WO AGD 95 101.7 11.3 UA VG 93 104.8 13.8 AG Gesamt-IQ 95 106.2 11.5 Gesamt-IQ Anmerkungen: siehe Tabelle 8.23. N 95 95 95 95 95 95 93 95 94 94 95 95 95 95 95 93 95 M SD St.-diff. 10.9 3.3 -.04 12.0 3.2 -.29 9.6 2.4 .24 11.2 2.8 -.18 11.6 3.2 -.04 11.2 2.2 .01 11.3 2.9 -.13 11.0 2.9 .09 10.9 3.0 -.01 10.9 2.7 -.12 109.0 14.3 -.13 105.3 14.3 -.01 110.5 15.7 -.23 104.2 14.7 .07 102.2 12.4 -.05 107.3 14.5 -.17 108.0 14.2 -.14 r rcorr1 .70 .71 .68 .75 .47 .57 .75 .77 .69 .76 .55 .63 .62 .67 .52 .53 .77 .82 .57 .68 .82 .88 .66 .73 .83 .89 .64 .72 .53 .66 .82 .84 .79 .88 rcorr2 .72 .81 .73 .78 .81 .73 .72 .57 .84 .79 .89 .79 .90 .78 .79 .85 .90 p .306 .133 .457 .976 .567 .005** .065 .332 .709 .017* .074 .023** .066 .040* .497 .303 .031 a α .008 .007 .013 .050 .017 .005 .006 .010 .025 .006 .050 .025 .017 .013 .050 .025 Da sich in der GL-IV deutlich höhere Zusammenhänge zeigen als in der GL-III, erweisen sich einige Korrelationen in ihrer Höhe als voneinander signifikant verschieden. Innerhalb der Untertests ist dies für AV und RD zu vermerken, allerdings zeigt sich nach einer α-Adjustierung lediglich AV als weiterhin signifikant. Auf Indexebene stellt sich einzig der Vergleich WLD und Kapitel 8 Ergebnisse 156 WO ohne α-Adjustierung je nach Testvorgabe als signifikant voneinander abweichend dar. Die Korrelationen des Vergleichs Handlungsteil und WLD sowie der Gesamt-IQ erweisen sich ebenso als voneinander signifikant divergent. Verglichen mit der Stichprobe, die nach einem kurzen Intervall erneut getestet wurde (GK, siehe Tabelle 8.26), ergeben sich insgesamt in der GL ähnlich hohe Korrelationen. Der Gesamt-IQ-Vergleich erweist sich mit .88 nach Korrektur als etwas höher als in der GK. Innerhalb der Indizes und der Gesamtwerte unterscheiden sich die Korrelationen unter Berücksichtigung der Testreihenfolge im langen Intervall maximal um r = .09 (der Vergleich zwischen WO und WLD weist in der GL, der Vergleich zwischen AGD und UA in der GK etwas höhere Korrelationen auf). Die Korrelationen der Untertests unterscheiden sich um maximal r = .20. Die mit Abstand größte Differenz zwischen den Werten der Kinder mit kurzem und denen mit langem Intervall hinsichtlich der Höhe der Korrelationen weisen ZN (.20) und BE (.18) auf. Die Korrelationen dieser beiden Untertests liegen sowohl deutlich unterhalb derer der GK als auch (wenn auch weniger deutlich) derer der Gesamtstichprobe. 8.7.2 Korrelationen der Teilstichprobe Mit Hilfe der gematchten Teilstichprobe soll die Fragestellung 10: „Unterscheidet sich die Höhe der Korrelationen, getrennt nach der Länge des Intervalls zwischen beiden Testungen, signifikant voneinander?“ untersucht werden. Tabelle 8.30 stellt die Korrelationen zwischen beiden Testversionen für die gematchte Stichprobe mit einem kurzen Re-Testintervall (GemSK) und Tabelle 8.31 für die gematchte Stichprobe mit einem langen Re-Testintervall (GemSL) dar. Tabelle 8.30: Korrelationen zwischen HAWIK-III und -IV für die GemSK (n = 72). HAWIK-IV M SD HAWIK-III M MT 11.8 3.0 MT 11.6 GF 10.9 2.5 GF 11.7 ZN 10.5 2.5 ZN 10.0 ZST 11.0 3.0 ZST 12.1 WT 10.7 2.7 WT 11.5 AV 11.2 2.1 AV 11.3 SYS 11.2 2.6 SS 11.9 BE 10.9 2.7 BE 11.3 AW 10.8 2.4 AW 11.5 RD 11.1 2.4 RD 10.9 SV 104.7 11.9 Verbal-IQ 109.1 WLD 106.3 12.1 Handlungs-IQ 109.7 SV 104.7 11.9 SV 110.6 WLD 106.3 12.1 WO 107.8 AGD 103.2 13.2 UA 103.4 VG 106.1 14.0 AG 111.7 Gesamt-IQ 106.4 12.2 Gesamt-IQ 110.5 Anmerkungen: siehe Tabelle 8.21. SD Std.-diff. r 3.0 .10 .62 2.4 -.48 .60 2.7 .28 .73 3.3 -.62 .72 2.5 -.50 .65 1.7 -.09 .54 2.4 -.47 .38 3.0 -.22 .53 2.7 -.46 .72 2.7 .10 .59 11.4 -1.27 .76 14.4 -.94 .53 11.8 -1.70 .80 14.5 -.41 .50 13.6 -.06 .72 13.2 -1.52 .69 12.6 -1.18 .73 Kapitel 8 Ergebnisse 157 Ebenso wie in der GK (siehe Tabelle 8.26) zeigen sich auch in der gematchten Stichprobe mit kurzem Intervall (GemSK) die niedrigsten Index-Korrelationen zwischen WLD und Handlungsteil sowie WLD und WO. Auch die niedrigsten Zusammenhänge in den Untertests SYS und SS sind in beiden Stichproben zu finden, in der gematchten Stichprobe kommen sie sogar noch deutlicher zum Vorschein (r = .38 in der GemSK gegenüber .52 in der GK vor Korrektur). Tabelle 8.31: Korrelationen zwischen HAWIK-IV und -III für die GemSL (n = 72). HAWIK-IV M SD HAWIK-III M MT 10.4 3.2 MT 10.8 GF 10.9 2.7 GF 11.8 ZN 10.1 2.4 ZN 9.7 ZST 10.8 2.9 ZST 11.5 WT 11.1 2.7 WT 11.3 AV 11.3 2.7 AV 11.2 SYS 10.9 2.6 SS 11.6 BE 10.7 2.7 BE 10.9 AW 10.5 2.6 AW 10.6 RD 10.5 2.3 RD 10.7 SV 105.8 13.6 Verbal-IQ 107.6 WLD 103.2 13.0 Handlungs-IQ 105.2 SV 105.8 13.6 SV 109.2 WLD 103.2 13.0 WO 103.5 AGD 101.4 11.7 UA 102.2 VG 104.8 13.9 AG 109.2 Gesamt-IQ 104.8 12.2 Gesamt-IQ 107.1 Anmerkungen: siehe Tabelle 8.21. SD Std.-diff. r 3.6 -.22 .67 3.1 -.52 .64 2.4 .28 .48 3.1 -.44 .68 3.4 -.13 .69 2.0 .06 .62 3.0 -.46 .62 3.0 -.12 .47 3.0 -.05 .72 2.7 -.17 .65 14.2 -.48 .83 15.3 -.54 .67 15.8 -.86 .83 15.4 -.09 .66 12.3 -.22 .53 15.9 -1.14 .75 14.8 -.62 .78 Die GemSL und die GL (siehe Tabelle 8.29) offenbaren ähnliche Korrelationen. Auch in der gematchten Stichprobe mit langem Intervall (GemSL) weisen die Vergleiche zwischen den Versionen des ZN und BE einen niedrigen Zusammenhang auf. Auch die niedrigen Korrelationen im Vergleich zwischen AGD und UA ebenso wie die hohen Korrelationen im Vergleich der SVIndizes sowie des Verbalteils mit dem SV des HAWIK-IV decken sich mit den Ergebnissen aus der GL. Die beiden Gesamt-IQ korrelieren mit r = .78 nahezu identisch zu den beiden GesamtIQ in der GL vor Korrektur. Mit derselben Rechenprozedur wie in der Gesamtstichprobe ergaben sich für die gesamte gematchte Stichprobe (GemS) folgende zusammengefasste Korrelationen, Standarddifferenzen und deren Signifikanzen (siehe Tabelle 8.32). Kapitel 8 Ergebnisse 158 Tabelle 8.32: Korrelationen zwischen HAWIK-IV und -III (GemS gesamt, n = 144). HAWIK-IV M SD HAWIK-III MT 11.1 3.1 MT GF 10.9 2.6 GF ZN 10.3 2.4 ZN ZST 10.9 3.0 ZST WT 10.9 2.7 WT AV 11.2 2.4 AV SYS 11.0 2.6 SS BE 10.8 2.7 BE AW 10.6 2.5 AW RD 10.8 2.3 RD SV 105.3 12.8 V-IQ WLD 104.8 12.6 H-IQ SV 105.3 12.8 SV WLD 104.8 12.6 WO AGD 102.3 12.5 UA VG 105.4 13.9 AG Gesamt-IQ 105.6 12.2 Gesamt-IQ Anmerkungen: siehe Tabelle 8.23. M 11.2 11.7 9.9 11.8 11.4 11.2 11.8 11.1 11.0 10.8 108.4 107.5 109.9 105.7 102.8 110.4 108.8 SD St.-diff. r rcorr1 3.3 -.04 .65 .67 2.8 -.30 .62 .69 2.6 .18 .62 .70 3.2 -.30 .70 .71 3.0 -.18 .67 .75 1.9 -.01 .58 .67 2.7 -.28 .51 .56 3.0 -.10 .50 .54 2.8 -.15 .72 .78 2.7 -.02 .62 .72 12.9 -.24 .80 .86 14.9 -.20 .60 .69 13.9 -.34 .82 .88 15.0 -.07 .59 .67 13.0 -.04 .63 .72 14.6 -.35 .72 .75 13.7 -.25 .76 .84 rcorr2 .69 .76 .77 .71 .80 .77 .66 .62 .81 .80 .89 .77 .90 .76 .79 .77 .87 p .585 .681 .014* .649 .683 .497 .066 .655 .954 .591 .294 .174 .603 .171 .077 .472 .526 a α .007 .017 .005 .010 .025 .006 .006 .013 .050 .008 .050 .025 .050 .017 .013 .025 Die Korrelationen der Gesamt-IQ erweisen sich auch in der gematchten Stichprobe mit r = .84 nach Korrektur (rcorr1) als hoch. Ebenso ergeben sich hohe Zusammenhänge zwischen dem SV des HAWIK-IV und dem Verbalteil sowie beiden SV-Indizes. Mit dem ZN erweist es sich die Differenz der Korrelationen nur bei einem Test als signifikant voneinander unterschiedlich, je nach dem Abstand zwischen beiden Testungen, allerdings lediglich vor einer α-Adjustierung. Nach einem kurzen Re-Testintervall korrelieren die Untertests ZN des HAWIK-III und -IV deutlich niedriger miteinander als nach langem Intervall. Da sich innerhalb der Indizes und der Gesamtwerte keine signifikanten Differenzen hinsichtlich der Korrelationen feststellen lassen, können die Fragestellung 10 verneinend beantwortet und die Hypothesen 6.3.15 bis 6.3.21 somit angenommen werden. 8.7.3 Zusammenfassung Korrelationsanalysen Insgesamt lässt sich festhalten, dass die beiden Testversionen durchweg hoch miteinander korrelieren. Es zeigen sich dabei höhere Zusammenhänge auf Ebene der Indizes und Gesamtwerte als auf Untertestebene. In der Gesamtstichprobe weisen die Indexpaare WLD und WO, AGD und UA sowie der Vergleich zwischen dem Handlungsteil und dem WLD deutlich geringere Korrelationen auf als die Indexpaare SV und SV, VG und AG sowie der Vergleich zwischen Verbalteil und SV des HAWIK-IV. Dieses Ergebnis zeigt sich sowohl unter Berücksichtigung der Gesamtstichprobe als auch in den Berechnungen, die in ein kurzes und ein langes ReTestintervall unterteilt wurden. Außerdem erwies es sich in der Gesamtstichprobe einzig im Untertest AV als bedeutsam, welcher Test zuerst vorgegeben wurde. Somit kann für die Gesamtstichprobe die Frage verneint werden, ob innerhalb der Indizes und Gesamtwerte die Kapitel 8 Ergebnisse 159 Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die Höhe der Korrelationen hat. Während sich jedoch in der Stichprobe, die ein kurzes Intervall zwischen beiden Testungen aufweist, keinerlei signifikante Differenzen je nach Testvorgabe zeigten, stellt es sich bei den Kindern und Jugendlichen mit langem Re-Testintervall sowohl im AV als auch im Gesamt-IQ und im Vergleich zwischen Handlungsteil und WLD (auch nach Alpha-Korrektur) als signifikant unterschiedlich dar, welcher Test zuerst vorgegeben wurde. Verglichen mit den Werten der Gesamtstichprobe weisen die Kinder und Jugendlichen der gematchten Stichprobe in den meisten Untertests gleichhohe oder etwas geringere Korrelationen auf. Die Höhe der Korrelation beider Gesamt-IQ-Vergleiche ist mit r = .87 gegenüber .84 nahezu identisch. Die Korrelationen der Indexvergleiche erweisen sich in beiden Stichproben außer im Vergleich AG versus VG - ebenfalls als identisch (dort weist die gematchte Stichprobe mit r = .75 eine geringere Korrelation auf als die Gesamtstichprobe mit r = .84). Es ergeben sich aus den Korrelationsberechnungen demnach insgesamt höhere Zusammenhänge zwischen den sprachlichen Index- und Gesamtwerten und den Geschwindigkeitsindizes als zwischen den handlungsbezogenen Index-und Gesamtwerten und denen, die Gedächtnisleistungen beinhalten. Die Untersuchung des Einflusses des Testintervalls auf die Korrelationen zeigte in der gematchten Stichprobe keine signifikanten Differenzen innerhalb der Indizes und der Gesamtwerte des HAWIK-III und -IV. Die entsprechende Fragestellung kann somit verneint werden. 8.8 Regressionsanalysen Die lineare Regression gibt Aufschluss über die Höhe der Varianzaufklärung der Untertests in Bezug auf die Indizes sowie der Indizes auf den Gesamt-IQ. Zusätzlich soll mit Hilfe der Regressionsanalyse berechnet werden, welche Index- und Gesamtwerte vor der Durchführung des HAWIK-IV zu erwarten sind, je nachdem, welche Werte bei der Testung mit dem HAWIK-III erzielt wurden. 8.8.1 Untersuchung der Varianzaufklärung der HAWIK-III-Untertests Zunächst soll versucht werden, die Fragestellung 11: „Haben die entfernten oder nur noch optionalen Untertests weniger zur Varianzaufklärung des Index beigetragen als die Untertests, die zur Berechnung des Gesamt-IQ des HAWIK-IV vorgegeben sind?“ zu beantworten. Dafür wird untersucht, wie viel Varianz des jeweiligen Index die Untertests aufklären, wie gut sie also als Prädiktoren für den Index dienen. Damit können möglicherweise Rückschlüsse darauf gezogen werden, aus welchen Gründen einige Untertests nicht in den HAWIK-IV übernommen wurden oder nur noch optionale Untertests darstellen. Es wird davon ausgegangen, Kapitel 8 Ergebnisse 160 dass die Untertests, die weiterhin oder im HAWIK-IV erstmals zum Kernteil der Testbatterie gehören, mehr zur Varianzaufklärung des Index beitragen als die Untertests, die im HAWIK-IV nicht mehr enthalten oder nur noch optional durchzuführen sind. Für den SV-Index des HAWIK-III wurde die Hypothese 6.4.1 formuliert. Die Ergebnisse der Hypothesenprüfung sind Tabelle 8.33 zu entnehmen. Tabelle 8.33: Lineare Regression der Untertests des SV-Index des HAWIK-III. Untertests b Std.-Fehler Beta T p GF 1.668 .035 .338 48.209 .000 AW 1.649 .034 .335 48.693 .000 WT 1.554 .034 .322 45.146 .000 AV 1.656 .044 .244 37.418 .000 Anmerkungen: Abhängige Variable: SV des HAWIK-III, b = unstandardisierter Regressionskoeffizient, Std.-Fehler = Standardfehler von b, Beta = standardisierter Regressionskoeffizient, entspricht dem β-Gewicht, T = Wert zur Signifikanzprüfung, p = zweiseitiger Signifikanzwert (5 %-Niveau). Sortiert nach Höhe von Beta. Weitere Abkürzungen siehe Anhang A5 und A6. In der linearen Regression erweist sich GF als der Untertest, der die meiste Varianz des SVIndex des HAWIK-III aufklärt, gefolgt vom AW und WT. Am wenigsten trägt AV zur Varianzaufklärung bei. Da die Untertests GF, WT und AV des HAWIK-IV jedoch in den SV des HAWIK-IV einfließen und der AW nur als optionaler Untertest dient, muss die H1 der Hypothese 6.4.1 abgelehnt und die Alternativhypothese (H0) angenommen werden. In Tabelle 8.34 werden die Ergebnisse der linearen Regression mit dem Index WO als abhängige Variable und den Untertests des WO als Prädiktoren angegeben. Dies dient der Überprüfung der Hypothesen 6.4.2 und 6.4.3. Tabelle 8.34: Lineare Regression der Untertests des WO-Index des HAWIK-III. Untertests b Std.-Fehler Beta BO 1.597 .026 .369 MT 1.560 .028 .363 FL 1.611 .030 .338 BE 1.659 .029 .321 Anmerkungen: Abhängige Variable: WO 8.33. T p 62.227 .000 56.553 .000 53.252 .000 54.898 .000 des HAWIK-III. Weitere Erklärungen siehe Tabelle Insgesamt weisen alle Untertests ein ähnlich hohes β-Gewicht auf. Sie sind demnach alle ungefähr gleich hoch an der Varianzaufklärung des WO beteiligt. Dennoch zeigen nicht die ebenfalls im HAWIK-IV vorhandenen Untertests MT und BE, sondern der im HAWIK-IV nicht berücksichtigte Untertest BO den höchsten Varianzaufklärungsanteil. Am wenigsten trägt BE zur Varianzaufklärung des Index bei. Folglich müssen die H1 der Hypothesen 6.4.2 und 6.4.3 abgelehnt werden. Weiterhin wird die UA hinsichtlich der Vorhersagekraft der Prädiktoren, also der Untertests des Index, untersucht. Damit soll die Hypothese 6.4.4 überprüft werden. Kapitel 8 Ergebnisse 161 Tabelle 8.35: Lineare Regression der Untertests des UA-Index des HAWIK-III. Untertests b Std.-Fehler Beta T p RD 2.964 .024 .621 122.057 .000 ZN 2.940 .026 .581 114.108 .000 Anmerkungen: Abhängige Variable: UA des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33. Anders als sich durch die Verlegung des RD in den optionalen und des ZN in den obligatorischen Teil des HAWIK-IV vermuten lässt, trägt RD mehr zur Varianzaufklärung des Index UA bei als ZN. Folglich muss auch die H1 der Hypothese 6.4.4 abgelehnt werden. 8.8.2 Untersuchung der Varianzaufklärung der HAWIK-IV-Untertests Zur Beantwortung der Frage 12: „Tragen die Untertests des HAWIK-IV eines Index signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-III bei?“ werden zusätzliche Regressionsanalysen durchgeführt. Hiermit soll untersucht werden, inwieweit die Untertests des HAWIK-IV signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-III beitragen. Erweist sich die Varianzaufklärung sämtlicher Kernuntertests des HAWIK-IV als signifikant für die dazugehörigen Indizes des HAWIK-III, kann davon ausgegangen werden, dass die Indizes beider Testversionen dieselben Konstrukte bzw. kognitiven Fähigkeiten erfassen und somit bedenkenlos miteinander verglichen werden können. Mit der H1 der Hypothesen 6.4.5 bis 6.4.14 wird demnach die Vermutung aufgestellt, dass die Kernuntertests des HAWIK-IV signifikant zur Varianzaufklärung des Index des HAWIK-III beitragen. Dabei werden zunächst die Hypothesen 6.4.5 bis 6.4.7 untersucht, indem der Index SV des HAWIK-III als abhängige Variable dient und die SV-Untertests des HAWIK-IV die unabhängigen Variablen bilden. Es soll demnach die Höhe ihrer Varianzaufklärung auf die abhängige Variable geprüft werden. Die Ergebnisse dieser linearen Regression sind Tabelle 8.36 zu entnehmen. Tabelle 8.36: Varianzaufklärung der SV-Untertests des HAWIK-IV auf den SV des HAWIK-III. Untertests des b Std.-Fehler Beta T p HAWIK-IV AW 1.555 .278 .279 5.582 .000 WT 1.383 .300 .267 4.616 .000 GF 1.254 .313 .219 4.002 .000 AV 0.921 .283 .155 3.248 .001 BEN 0.566 .273 .109 2.071 .040 Anmerkungen: Abhängige Variable: SV des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33. Da die drei SV-Kernuntertests des HAWIK-IV, namentlich GF, WT und AV, signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-IV beitragen, kann die H1 der Hypothesen 6.4.5, 6.4.6 und 6.4.7 angenommen werden. Insgesamt werden mit den fünf Untertests des Index SV des HAWIK-IV fast 70 % der Varianz des Index SV des HAWIK-III aufgeklärt (r2 = .695). Kapitel 8 Ergebnisse 162 Zur Entscheidung, ob für die Hypothesen 6.4.8 bis 6.4.10 die H1 oder die H0 angenommen werden muss, dienen die Ergebnisse, die Tabelle 8.37 zu entnehmen sind. Sie zeigt die lineare Regression mit dem Index WO als abhängiger und den Untertests des WLD als unabhängige Variablen. Tabelle 8.37: Varianzaufklärung der WLD-Untertests des HAWIK-IV auf den WO des HAWIKIII. Untertests des b Std.-Fehler Beta T p HAWIK-IV MT 1.970 .304 .407 6.486 .000 BE 1.403 .328 .268 4.274 .000 MZ 0.640 .353 .106 1.811 .072 BK -0.021 .346 -.004 -0.061 .952 Anmerkungen: Abhängige Variable: WO des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33. Lediglich MT und BE zeigen signifikante Beiträge zur Varianzaufklärung des WO. Folglich kann mit dem MT nur einer der drei Kerntests des WLD signifikant zur Varianzaufklärung des WO beitragen. Somit kann nur für die Hypothese 6.4.8 die H1 angenommen werden, während sie bezogen auf die Hypothesen 6.4.9 und 6.4.10 abgelehnt werden muss. Die vier Untertests des WLD klären zusammen nicht einmal die Hälfte der Varianz des WO auf (r2 = .404). Die Ergebnisse der Analyse der gemeinsamen Varianz der Untertests des Index AGD des HAWIK-IV und des Index UA des HAWIK-III werden in Tabelle 8.38 dargestellt. Die Hypothesen 6.4.11 und 6.4.12 beziehen sich auf die Frage, inwieweit die Untertests des AGD signifikant zur Varianzaufklärung des Index UA beitragen können. Tabelle 8.38: Varianzaufklärung der AGD-Untertests des HAWIK-IV auf den UA des HAWIK-III. Untertests des b Std.-Fehler Beta T p HAWIK-IV RD 2.024 .302 .363 6.713 .000 ZN 1.812 .311 .340 5.819 .000 BZF 1.089 .331 .186 3.293 .001 Anmerkungen: Abhängige Variable: UA des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33. Alle drei Untertests des AGD leisten einen signifikanten Beitrag zur Varianzaufklärung des UA. Insgesamt klären sie über 50 % der Varianz des Index auf (r2 = .507). Die H1 der entsprechenden Hypothesen 6.4.11 und 6.4.12 kann somit angenommen werden. Es zeigt sich jedoch für den optionalen Untertest RD ein deutlich höheres ß-Gewicht als für den Kerntest BZF. Schließlich wird der HAWIK-III Index AG untersucht. Die dazugehörigen Hypothesen 6.4.13 und 6.4.14 können überprüft werden, indem die Höhe der Varianzaufklärung der Untertests des entsprechenden HAWIK-IV-Index VG auf die AG berechnet wird. Kapitel 8 Ergebnisse 163 Tabelle 8.39: Varianzaufklärung der VG-Untertests des HAWIK-IV auf den AG des HAWIK-III. Untertests des b Std.-Fehler Beta T p HAWIK-IV ZST 1.912 .321 .371 5.952 .000 SYS 2.063 .354 .370 5.834 .000 DT .294 .270 .059 1.090 .277 Anmerkungen: Abhängige Variable: AG des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33. Tabelle 8.39 stellt die Ergebnisse der linearen Regression dar. Die beiden schon im AG vorhandenen Untertests ZST und SYS des HAWIK-IV tragen signifikant zur Varianzaufklärung des HAWIK-III-Index bei. Damit kann die H1 der Hypothesen 6.4.13 und 6.4.14 angenommen werden. Die zusätzliche Aufklärung durch den optionalen Untertest DT ist dagegen minimal. Alle drei Untertests zusammen klären etwas weniger als die Hälfte der Varianz des Index AG auf (r2 = .473). 8.8.3 Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ Nachdem in den bisherigen Regressionsrechnungen die Untertests als Prädiktoren eingesetzt wurden, soll im Folgenden die Vorhersagekraft der Indizes auf die Gesamt-IQ betrachtet werden. Damit soll folgende Fragestellung 13 beantwortet werden: „Wie viel Varianz des GesamtIQ der einen Testversion klären die Indizes der anderen Testversion auf?“ Dies soll Rückschlüsse darüber zulassen, inwiefern die Indizes beider Testversionen die gleichen kognitiven Fähigkeiten erfassen. Daraus resultieren zwei Hypothesen, die mit Hilfe der linearen Regression untersucht werden. Hypothese 6.4.15 bezieht sich auf die Höhe der Varianzaufklärung der Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III. Das Ergebnis wird in Tabelle 8.40 dargestellt. Tabelle 8.40: Varianzaufklärung der Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III. Indizes des b Std.-Fehler Beta T p HAWIK-IV SV .570 .054 .525 10.560 .000 WLD .306 .056 .278 5.439 .000 VG .136 .045 .139 3.029 .003 AGD .070 .050 .065 1.398 .164 Anmerkungen: Abhängige Variable: Gesamt-IQ des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33. Es wird ersichtlich, dass der Index SV des HAWIK-IV mit mehr als der Hälfte den höchsten Teil der Varianz des Gesamt-IQ des HAWIK-III aufklärt, gefolgt vom WLD und VG. Der Index AGD leistet keinen signifikanten Beitrag zur Varianzaufklärung des Gesamt-IQ des HAWIK-III. Damit muss Hypothese 6.4.15 abgelehnt werden. Alle Indizes gemeinsam klären etwa 60 % der Varianz des HAWIK-III-Gesamt-IQ auf (r2 = .602). Kapitel 8 Ergebnisse 164 Hypothese 6.4.16, die aus der Fragestellung 13 resultiert, bezieht sich auf die Indizes des HAWIK-III und deren Anteil an der Varianzaufklärung des Gesamt-IQ des HAWIK-IV. Die Werte der vier Indizes lassen sich der Tabelle 8.41 entnehmen. Tabelle 8.41: Varianzaufklärung der Indizes des HAWIK-III auf den Gesamt-IQ des HAWIK-IV. Indizes des b Std.-Fehler Beta T p HAWIK-III SV .343 .045 .414 7.679 .000 UA .198 .044 .230 4.545 .000 AG .177 .036 .227 4.871 .000 WO .148 .042 .188 3.518 .001 Anmerkungen: Abhängige Variable: Gesamt-IQ des HAWIK-IV. Weitere Erklärungen siehe Tabelle 8.33. Die vier Indizes des HAWIK-III tragen durchweg signifikant zur Varianzaufklärung des GesamtIQ des HAWIK-IV bei. Hypothese 6.4.16 kann demzufolge angenommen werden. Auch in dieser Regression stellt sich das SV als wichtigster Index zur Varianzaufklärung des Gesamt-IQ dar. Allerdings klären die vier Indizes gemeinsam etwas weniger Varianz des HAWIK-IV auf als die vier Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III (r2 = .581). Der Index WO trägt am wenigsten zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV bei. 8.8.4 Erwartete Werte und Konfidenzintervalle Für den Praktiker ist es wichtig zu wissen, welcher HAWIK-IV-Wert zu erwarten ist, wenn ein bestimmter Wert im HAWIK-III erreicht wurde. Dabei kann auf Grund veralteter Normen im HAWIK-III und dem damit einhergehenden Flynn-Effekt (siehe Kapitel 5.2.2) vermutet werden, dass die zu erwartenden Werte des HAWIK-IV etwas unterhalb der Werte des HAWIK-III liegen. Ein Kind, mit dem beide Verfahren durchgeführt werden, dürfte demnach im HAWIK-III etwas höhere Werte erzielen als im HAWIK-IV. Zur Bestimmung der zu erwartenden Werte und deren Konfidenzintervalle wurde eine Regressionsanalyse durchgeführt (Näheres dazu siehe Kapitel 7.5.4.2). Aufgrund der eingeschränkten Streuung in der vorliegenden Stichprobe wurden die Werte nur für den Bereich zwischen 85 (d. h. eine Standardabweichung unterhalb des Mittelwertes) und 130 (d. h. zwei Standardabweichungen oberhalb des Mittelwertes) berechnet. Die folgenden Tabellen bieten für ausgewählte Werte des HAWIK-III die zu erwartenden Werte der entsprechenden Indizes des HAWIK-IV und dem dazugehörigen Konfidenzintervall. Zunächst erfolgt dies, wie in Tabelle 8.42 dargestellt, auf Ebene des Gesamt-IQ. Bei einem BetaGewicht von .971 ergibt sich für die Berechnung der zu erwartenden Werte folgende Gleichung: Gesamt-IQ des HAWIK-IV = 0 + .971 Gesamt-IQ des HAWIK-III. Kapitel 8 Ergebnisse 165 Tabelle 8.42: Erwartete Werte und Wertebereiche des Gesamt-IQ des HAWIK-IV für ausgewählte Gesamt-IQ des HAWIK-III. Gesamt-IQ Gesamt-IQ 95 %des HAWIK-III des HAWIK-IV Konfidenzintervall 85 83 80-85 90 87 85-90 95 92 90-94 100 97 96-99 105 102 101-103 110 107 106-108 115 112 110-113 120 117 115-118 125 121 119-123 130 126 124-129 Die im HAWIK-IV zu erwartenden Gesamtwerte liegen zwei bis vier IQ-Punkte unter denen des HAWIK-III-Gesamt-IQ. Der Wertebereich des Konfidenzintervalls unterscheidet sich in Abhängigkeit zur Nähe zum empirischen Mittelwert (108.9, siehe Tabelle 8.1). Während sich also für die HAWIK-III-Gesamt-IQ 105 und 110 ein Konfidenzintervall von zwei IQ-Punkten berechnen lässt, vergrößert sich das Intervall, je mehr sich der Ausgangswert vom empirischen Mittelwert der Stichprobe entfernt. An den Randbereichen des IQ umfassen die Intervalle für den erwarteten Gesamt-IQ des HAWIK-IV fünf IQ-Punkte. Dies hängt damit zusammen, dass der Standardfehler (Messfehler) größer wird, je niedriger die Reliabilitäten sind. Da die Kinder und Jugendlichen in den Randbereichen in der Regel weniger Ergebnisvarianz aufweisen (die leistungsstarken Kinder beantworten alles richtig, die leistungsschwachen Kinder alles falsch), zeigen sich dort niedrigere Reliabilitäten. Dasselbe zeigt sich in den Tabellen 9.43 bis 9.48, die die erwarteten Werte für die Indexwerte des HAWIK-IV darstellen, basierend auf den Gesamt- und Indexwerten des HAWIK-III. Tabelle 8.43: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte Verbal-IQ des HAWIK-III. Verbal-IQ 85 90 95 100 105 110 115 120 125 130 SV des 95 %HAWIK-IV Konfidenzintervall 82 80-85 87 85-89 92 90-94 97 95-98 102 101-103 106 105-107 111 110-112 116 115-118 121 119-123 126 123-128 Auch der Vergleich zwischen dem Verbal-IQ des HAWIK-III und dem SV-IQ des HAWIK-IV (Tabelle 8.43) weist unterschiedlich breite Konfidenzintervalle auf. Es ergibt sich ein ß-Gewicht Kapitel 8 Ergebnisse 166 von .968. Somit wurden die erwarteten Werte auf Grundlage der Gleichung SV-IQ des HAWIKIV = 0 + .968 Verbal-IQ des HAWIK-III berechnet. Mit zwei IQ-Punkten liegen die kleinsten Intervalle im Verbal-IQ zwischen 105 und 115 und in den dazugehörigen erwarteten SV-IQWerten zwischen 102 und 111. Insgesamt liegen die zu erwartenden SV-Werte drei bis vier Punkte unterhalb der im Verbalteil erzielten Werte. Tabelle 8.44: Erwartete Werte und Wertebereiche des WLD des HAWIK-IV für ausgewählte Handlungs-IQ des HAWIK-III. Handlungs-IQ WLD 85 90 95 100 105 110 115 120 125 130 83 88 93 98 103 107 112 117 122 127 95 %Konfidenzintervall 79-88 84-91 90-96 96-100 101-104 106-109 110-114 115-120 119-126 122-132 Die Konfidenzintervalle des vorhergesagten WLD bei Kenntnis des Handlungs-IQ-Wertes (Tabelle 8.44) sind insgesamt breiter als im Gesamt- und SV-IQ. Das kleinste Intervall umfasst drei IQ-Punkte (Handlungs-IQ von 105 und 110). Die vorhergesagten Werte des WLD sind zwei bis drei IQ-Punkte unterhalb des im Handlungsteil erzielten Ergebnisses anzusiedeln. Aus einem ß-Gewicht von .977 resultiert folgende Gleichung: WLD des HAWIK-IV = 0 + .977 Handlungs-IQ des HAWIK-III. Tabelle 8.45: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte SVWerte des HAWIK-III. SV des SV des 95 %HAWIK-III HAWIK-IV Konfidenzintervall 85 81 79-84 90 86 84-88 95 91 89-93 100 96 94-97 105 100 99-101 110 105 104-106 115 110 109-111 120 115 113-116 125 120 118-121 130 124 122-126 Wie Tabelle 8.45 zeigt, liegen die zu erwartenden SV-Werte des HAWIK-IV vier bis fünf IQPunkte unterhalb der Werte des SV des HAWIK-III. Auf Grundlage eines ß-Gewichts von .956 ergibt sich zur Berechnung der erwarteten Werte die Gleichung SV-IQ des HAWIK-IV = 0 + .956 SV-IQ des HAWIK-III. Das mit zwei IQ-Punkten kleinste Intervall zeigt sich bei einem SV im HAWIK-IV von 100. Kapitel 8 Ergebnisse 167 Tabelle 8.46: Erwartete Werte und Wertebereiche des WLD-IQ des HAWIK-IV für ausgewählte WO-IQ-Werte des HAWIK-III WO WLD 85 90 95 100 105 110 115 120 125 130 84 89 94 99 104 109 114 119 124 129 95 %Konfidenzintervall 79-89 86-93 91-97 97-101 103-105 107-110 112-116 116-122 120-128 124-134 Die vorhergesagten Werte des WLD liegen durchweg einen IQ-Punkt unterhalb der Werte des WO. Die geringe Abweichung hängt mit dem hohen ß-Gewicht von .99 zusammen. Somit wurden die erwarteten Werte auf Grundlage der Gleichung WLD-IQ des HAWIK-IV = 0 + .99 WOIQ des HAWIK-III berechnet. Wie in Tabelle 8.46 ersichtlich, zeigen sich außerdem in den Randbereichen mit zehn IQ-Punkten sehr breite Konfidenzintervalle. Dies deckt sich mit den Ergebnissen der erwarteten WLD-Werte bei Kenntnis des Handlungs-IQ-Wertes (siehe Tabelle 8.44). Tabelle 8.47: Erwartete Werte und Wertebereiche des AGD-IQ des HAWIK-IV für ausgewählte UA-IQ-Werte des HAWIK-III UA AGD 85 90 95 100 105 110 115 120 125 130 84 89 94 99 104 108 113 118 123 128 95 %Konfidenzintervall 81-87 86-91 92-96 97-100 102-105 107-110 111-115 116-121 120-127 124-132 Gilt der Index UA als Prädiktor für den Index AGD, können ein bis zwei IQ-Punkte weniger erwartet werden (siehe Tabelle 8.47). Die Vertrauensbereiche umfassen im mittleren IQ-Bereich drei und in den Randbereichen sechs bis acht IQ-Punkte. Bei einem ß-Gewicht von .986 wurden die erwarteten Werte auf Grundlage der Gleichung AGD-IQ des HAWIK-IV = 0 + .986 UAIQ des HAWIK-III berechnet. Abschließend werden in Tabelle 8.48 die zu erwartenden Werte für die VG des HAWIK-IV dargestellt, sofern der AG-Wert des HAWIK-III bekannt ist. Kapitel 8 Ergebnisse 168 Tabelle 8.48: Erwartete Werte und Wertebereiche des VG-IQ des HAWIK-IV für ausgewählte AG-IQ-Werte des HAWIK-III AG VG 85 90 95 100 105 110 115 120 125 130 82 87 91 96 101 106 111 116 120 125 95 %Konfidenzintervall 78-85 84-90 89-94 94-98 100-103 105-107 109-112 114-118 118-123 122-128 Soll die Leistung eines Kindes in der Arbeitsgeschwindigkeit erneut erfasst werden, kann mit einem Wert gerechnet werden, das im Durchschnitt drei bis fünf IQ-Punkte unter dem der ersten Testung liegt. Wie aus der Tabelle 8.48 ersichtlich wird, umfasst das Konfidenzintervall des VG-Index zwischen zwei und sieben IQ-Punkte. Durch ein ß-Gewicht von .963 stellt sich die Gleichung wie folgt dar: VG-IQ des HAWIK-IV = 0 + .963 AG-IQ des HAWIK-III. Insgesamt kann somit die Hypothese bestätigt werden, dass die zu erwartenden Werte im HAWIK-IV durchweg leicht unterhalb der Werte des HAWIK-III liegen. 8.8.5 Zusammenfassung der Regressionsanalysen In der Analyse der Teststruktur des HAWIK-III erweist sich AV in Bezug auf den SV-Index als wenig zur Varianzaufklärung beitragend. Somit muss in der dazugehörigen Hypothese 6.4.1 die H1 abgelehnt werden. Auch in den Indizes WO und UA zeigen sich andere Ergebnisse als erwartet. So trägt im Index WO wider Erwarten nicht MT am meisten zur Varianzaufklärung des Index bei und BE weist sogar den geringsten Beitrag zur Varianzaufklärung auf. In der UA lässt RD ein höheres Beta-Gewicht erkennen als ZN. Für den SV-Index kann die Frage, ob die Untertests des HAWIK-IV signifikant zur Varianzaufklärung des SV des HAWIK-III beitragen, positiv beantwortet werden. Mit dem MT steuert nur ein Kerntest des WLD signifikant zur Varianzaufklärung des WO bei. Bezüglich des Index UA können die Hypothesen jedoch angenommen werden, da sich alle Kernuntertests des Index AGD signifikant an der Varianzaufklärung des Index UA beteiligen. Dies gilt auch für den Index AG, für den die HAWIK-IV-Untertests ZST und SYS signifikante Varianzaufklärung leisten. Die Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ offenbarte signifikante Beiträge zur Varianzaufklärung der HAWIK-III-Indizes auf den HAWIK-IV-Gesamt-IQ. Zum HAWIK-III-Gesamt-IQ tragen jedoch nicht alle Indizes des HAWIK-IV signifikant zur Varianzaufklärung bei. Kapitel 8 8.9 Ergebnisse 169 Zusammenfassung der Ergebnisse Die Ergebnisse der Mittelwertvergleiche erwiesen sich als weitestgehend hypothesenkonform. Bis auf wenige Ausnahmen erbrachte immer der Test höhere Werte, der als zweiter Test durchgeführt wurde. Die Untersuchung des Einflusses der Störvariablen ergab einen schwachen Lerneffekt, der sich nach kurzem Intervall etwas deutlicher zeigte als nach langem Intervall. Einzig in den Geschwindigkeitsuntertests und -indizes konnte ein deutlicherer Wertzuwachs von der ersten zur zweiten Testung gefunden werden. In gewissem Rahmen kann der Flynn-Effekt von HAWIK-III zu HAWIK-IV ebenfalls nachgewiesen werden. Die Faktorenanalysen mit Vorgabe der vier testtheoretischen Faktoren replizieren die Vier-Faktorenstruktur beider Testversionen. Über sämtliche Korrelationsanalysen hinweg können die Korrelationen in den zusammengefassten Stichproben mit höheren Korrelationen auf Ebene der Indizes und Gesamtwerte als auf Ebene der Untertests durchweg als hoch bezeichnet werden. Außerdem zeigen sich höhere Zusammenhänge zwischen den sprachlichen Index- und Gesamtwerten ebenso wie den Geschwindigkeitsindizes als zwischen den handlungsbezogenen Index-und Gesamtwerten und dem Vergleich UA und AGD. Anhand der Regressionsanalysen können die hinsichtlich der Untersuchung der HAWIK-III-Teststruktur getroffenen Annahmen nicht bestätigt werden. Mit dem MT steuert nur ein Kerntest des WLD signifikant zur Varianzaufklärung des WO bei. Die Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ zeigt, dass sämtliche Indizes des HAWIK-III zur Aufklärung des HAWIK-IV-Gesamt-IQ, jedoch nicht alle Indizes des HAWIK-IV signifikant zur Varianzaufklärung des HAWIK-III-Gesamt-IQ beitragen. Wie zu erwarten war, offenbaren sich die erwarteten Werte im HAWIK-IV bei Kenntnis des HAWIK-III durchweg als etwas niedriger als die entsprechenden IQ-Werte des HAWIK-III. Kapitel 9 Diskussion der Ergebnisse 170 9 Diskussion der Ergebnisse Begriffe erkennen, Frage 12: „Es kann den Geschmack von Essen verbessern und man findet es im Meer. Was ist das?“ Carlotta, 8 Jahre: „Ein Bratfisch.“ Wie in den bisherigen Kapiteln aufgezeigt wurde, stellt der Vergleich zweier Versionen eines Testverfahrens einen wichtigen Beitrag zum Validitätsnachweis des aktuellen Testverfahrens dar. Durch die inhaltlichen und strukturellen Unterschiede der hier untersuchten Intelligenztests HAWIK-III und -IV ist es von hoher praktischer Relevanz, inwieweit beide Testversionen dasselbe erfassen und dementsprechend die Ergebnisse beider Versionen uneingeschränkt nebeneinandergestellt werden dürfen. Im Folgenden sollen die in Kapitel 8 vorgestellten Ergebnisse separat betrachtet werden. 9.1 Ergebnisbetrachtung des Mittelwertvergleichs Die Überprüfung der Mittelwertdifferenzen von HAWIK-III und -IV ergab signifikante Abweichungen im Gesamt-IQ, im Vergleich zwischen Verbalteil des HAWIK-III und dem Sprachverständnis (SV) des HAWIK-IV sowie im Vergleich der SV-Indizes und der beiden Geschwindigkeitsindizes Arbeitsgeschwindigkeit (AG) und Verarbeitungsgeschwindigkeit (VG). Auch einige Untertests unterscheiden sich signifikant voneinander. Diverse Phänomene und Einflüsse können ursächlich für diese statistisch auffälligen Unterschiede sein. So lässt die signifikante Differenz zwischen den Indizes AG und VG vermuten, dass sich die Kinder und Jugendlichen in der zweiten Testung an die Aufgabenstellung erinnerten und aus diesem Grund mehr Aufgaben bearbeiten konnten. Da sich die Untertests dieser Indizes in beiden Testversionen nicht oder nur unwesentlich voneinander unterscheiden, können die unterschiedlichen Leistungen vermutlich eher auf veränderte Bedingungen wie Vorerfahrungen aus der ersten Testung oder unterschiedliche Normen zurückgeführt werden. Aus diesem Grund wurden die Differenzen im Hinblick auf mögliche Störeinflüsse genauer untersucht. Da die Tests in ausbalancierter Reihenfolge vorgegeben wurden, wird ein Lerneffekt in beiden Tests gleichermaßen vermutet und kann somit nicht ursächlich für die signifikanten Mittelwertunterschiede sein. Dennoch wurde der Einfluss der Testreihenfolge genauer untersucht, um sicherzustellen, dass keine Verzerrungen der Ergebnisse durch eine nicht repräsentative Stichprobe vorliegt, also beispielsweise die Kinder ein deutlich höheres Leistungsniveau aufweisen, die den HAWIK-IV zuerst vorgelegt bekamen, als die Kinder, die zuerst den HAWIK-III durchführten oder umgekehrt. Kapitel 9 Diskussion der Ergebnisse 171 In diesem Mittelwertevergleich (siehe Kapitel 8.3) weist, bis auf Ausnahmen in wenigen Untertests, immer der Test höhere Werte auf, der als zweites durchgeführt wurde. Somit scheinen trotz der nicht gänzlich normalverteilten Stichprobe (siehe Kapitel 7.3) keine bedeutsamen Stichprobenverzerrungen vorzuliegen, die die Interpretierbarkeit der Ergebnisse einschränken. Sie deuten vielmehr auf einen Lerneffekt hin, der sowohl nach kurzem als auch nach langem Intervall besteht. 9.2 Ergebnisbetrachtung der Störeinflüsse 9.2.1 Lerneffekt Dieser Lerneffekt wurde daraufhin genauer untersucht. Dabei wurde von einem deutlicheren Lerneffekt nach kurzem Intervall als nach langem ausgegangen. Die in Tabelle 8.7 und Tabelle 8.8 dargestellten Mittelwertvergleiche zwischen HAWIK-III und -IV bei Erstvorgabe des HAWIK-III weisen im kurzen und langen Intervall hohe Zunahmen in den Index-Kombinationen Wahrnehmungsorganisation (WO) und Wahrnehmungsgebundenes Logisches Denken (WLD) sowie AG und VG auf. Dies deckt sich mit den Ergebnissen der Studie zur WISC-IV (siehe Tabelle 5.3). Während in der amerikanischen Studie jedoch die WISC-IV zweimal vorgegeben wurde, und es sich somit in beiden Testungen um dieselben Indizes handelt (WLD und WLD bzw. VG und VG), wird der Lerneffekt in dieser Studie an unterschiedlichen Indizes untersucht. Daher müssen die Mittelwertzuwächse in den Indizes WO und WLD in dieser Studie nicht zwangsläufig auf einen Lerneffekt hindeuten, sondern lassen vielmehr vermuten, dass sie durch die unterschiedliche Untertestzusammensetzung entstanden sind. Da es sich bei den Indizes AG und VG jedoch um identische Untertestkombinationen handelt, kann für diesen Vergleich ein Lerneffekt festgehalten werden. Dies kann eine Erklärung für die signifikanten Mittelwertdifferenzen in den t-Tests (Tabelle 8.3 und Tabelle 8.5) darstellen. Die Abnahme der erzielten IQ-Punkte im Index SV zwischen erster und zweiter Testung lässt sich möglicherweise ebenfalls auf die unterschiedliche Untertestzusammensetzung zurückführen (Näheres siehe Kapitel 9.7). Außerdem kann die unterschiedliche Normierung beider Testversionen zu abweichenden Testergebnissen führen, die nicht auf den Lerneffekt zurückzuführen sind (siehe auch Kapitel 9.6 und 9.7.3). Auch der ebenfalls untersuchte Flynn-Effekt kann dabei von Bedeutung sein, der dem Lerneffekt entgegenwirkt. Schließlich muss berücksichtigt werden, dass es sich durch die Unterteilung in ein kurzes und ein langes Intervall sowie in eine Stichprobe, die zuerst den HAWIK-III und eine andere, die zuerst den HAWIK-IV durchführte, um deutlich kleinere Stichproben handelt als bei der Untersuchung des Lerneffekts in der WISC-IV (die Teilstichproben dieser Stichprobe liegen zwischen n = 47 und 127, für die WISC-IV wurde der Lerneffekt an 243 Kindern untersucht). Kapitel 9 Diskussion der Ergebnisse 172 In Bezug auf die Untertests, die in beiden Versionen enthalten sind, zeigen sich im Bilder ergänzen und Mosaik-Test die größten Zuwächse, gefolgt vom Zahlen-Symbol-Test und Zahlen nachsprechen. Bis auf Zahlen nachsprechen gehören diese Untertests auch in der WISC-IVStudie zu den Untertests mit der größten Wertpunktzunahme. Vor allem Bilder ergänzen scheint einen hohen Wiedererkennungswert zu besitzen, der zu besseren Ergebnissen in der zweiten Testdurchführung führt. Dem Zahlen nachsprechen kommt eine besondere Position zu. Für diesen Untertest ergeben sich auch dann höhere Werte im HAWIK-IV, wenn diese Testversion zuerst durchgeführt wurde. Hier scheint nicht der Lerneffekt für den großen Zuwachs verantwortlich zu sein. Vielmehr kann dies möglicherweise auf die unterschiedlichen Positionen des Untertests innerhalb der beiden Testbatterien zurückgeführt werden (siehe Kapitel 9.7.5). Die Kinder scheinen von der Verschiebung des Untertests von der elften auf die dritte Testposition zu profitieren. Kaufman und Lichtenberger (2006) sehen jedoch auch das Zahlen nachsprechen als stark vom Lerneffekt beeinflusst an, da der Untertest schulunabhängige Leistungen erfordert, die generell einem größeren Lerneffekt unterliegen (siehe Kapitel 5.2.1). Nach kurzem Intervall zeigen sich bei den meisten Untertests und Indizes etwas höhere Mittelwertzunahmen als nach langem Intervall. In einigen Indizes und Untertests lässt sich jedoch auch nach dem längeren Re-Testintervall ein größerer Anstieg feststellen. Dies deckt sich mit der Studie von Thompson und Molly (1993) und kann eventuell auf Reifungsprozesse und allgemeine Lernzuwächse zurückgeführt werden. So ist beispielsweise das Sprachverständnis, das nach langem Intervall eine größere Zunahme aufweist, sehr bildungsabhängig und kann aus diesem Grund stark schwanken, je nach derzeitigem schulischen Themenschwerpunkt der Kinder und Jugendlichen. Wird der HAWIK-IV zuerst vorgegeben, zeigen sich insgesamt deutlich höhere Zuwächse von der ersten zur zweiten Testung. Vor allem die Geschwindigkeitsindizes verzeichnen mit einem Anstieg um mehr als zehn IQ-Punkte nach kurzem Intervall (siehe Tabelle 8.9) und knapp 10 IQPunkten nach langem Intervall (siehe Tabelle 8.10) eine deutliche Zunahme. Hier scheint eine Aufsummierung von Flynn- und Lerneffekt die Ursache zu sein. Anders als bei Erstvorgabe des HAWIK-III erweisen sich die Werte des SV auch bei Erstvorgabe des HAWIK-IV als deutlich höher im HAWIK-III als im HAWIK-IV. Allerdings stellt diese Reihenfolge nicht die gängige Praxis dar, da es im diagnostischen Prozess lediglich vorkommen kann, dass der HAWIK-IV durchgeführt wird, nachdem bereits ein HAWIK-III erfolgte und nicht umgekehrt. Am deutlichsten wird die Höhe des Lerneffekts anhand der Berechnung ersichtlich, deren Ergebnisse in Tabelle 8.11 dargestellt sind. Hier wurden für jeden Untertest und jeden Index neue Variablen berechnet, in dem bei den Kindern, die den HAWIK-III zuerst durchführen, die Werte des HAWIK-III von denen des HAWIK-IV, und bei denen, die erst den HAWIK-IV durch- Kapitel 9 Diskussion der Ergebnisse 173 führten, die Werte des HAWIK-IV von denen des HAWIK-III abgezogen wurden. Daraus resultierte ein Differenzbetrag für jedes Kind aus dem die mittleren Differenzen berechnet wurden, die den durchschnittlichen Wertpunkt- bzw. IQ-Zuwachs von der ersten zur zweiten Testung widerspiegeln. Es zeigen sich fast identisch hohe Wertzuwächse unabhängig von der Höhe des Re-Testintervalls. Der Abstand scheint also keinen Einfluss auf die Höhe des Lerneffekts zu haben. Wie schon in den bisherigen Berechnungen zeigt sich die größte Leistungssteigerung in den Untertests zur Erfassung der Verarbeitungsgeschwindigkeit. Hier scheinen die Vertrautheit mit dem Lösungsprinzip der Aufgabe und der Übungseffekt einen besonders hohen Einfluss auf die Testleistung zu haben. Dagegen scheinen Kinder bei Aufgaben, die das Arbeitsgedächtnis erfordern, nicht von der ersten Testung zu profitieren. Auch wenn die Kinder bei erneuter Testvorgabe das Lösungsprinzip erinnern, erleichtert es ihnen nicht die Bearbeitung der Aufgaben, da sie sich nicht an die konkreten Fragen (z. B. die Textaufgaben beim Rechnerischen Denken) beziehungsweise Aufgaben (z. B. die konkreten Buchstaben und Zahlen beim BuchstabenZahlen-Folgen) erinnern können. Während die Zunahmen im einzigen, beiden Indizes WO und WLD gemeinsamen Untertest Mosaik-Test in beiden Re-Testintervallen nahezu identisch sind, zeigen sich im kurzen und langen Intervall unterschiedliche Zuwächse im Vergleich dieser Indizes. Hierfür scheinen demnach die anderen Untertests beider Indizes ursächlich zu sein. Somit kann dieser Vergleich keinen Aufschluss über einen Lerneffekt und den Einfluss des ReTestintervalls auf einen Leistungszuwachs im Bereich der Wahrnehmung und des logischen Denkens geben. In sämtlichen Studien zum Lerneffekt zeigt sich keinerlei Wertpunktzuwachs im Allgemeinen Verständnis. Dies deckt sich mit bisherigen Studien zum Lerneffekt (Quereshi, 1968). Die Ergebnisse hinsichtlich der Höhe des Lerneffektes in unterschiedlichen Altersstufen decken sich nur teilweise mit denen der Studie zur WISC-IV (siehe Kapitel 5.2.1 sowie Tabelle 8.12 und Tabelle 8.13). Während in der WISC-IV-Studie die jüngste Altersgruppe zumeist die höchste Leistungssteigerung aufweist, kann das in der vorliegenden Studie im kurzen Intervall nur für die Indexkombinationen Unablenkbarkeit (UA) und Arbeitsgedächtnis (AGD) sowie AG und VG bestätigt werden. Diese unterschiedlichen Ergebnisse lassen sich jedoch zum einen mit den sehr unterschiedlichen Gruppengrößen und zum anderen mit der insgesamt geringeren Stichprobengröße in der vorliegenden Studie erklären. Außerdem kann beispielsweise der Anstieg der Zunahme im Altersverlauf in den Indizes WO und WLD mit Entwicklungsschüben zwischen beiden Testungen erklärt werden, die zu einer Leistungssteigerung im Bereich der Wahrnehmung, des räumlichen Vorstellungsvermögens und des logischen Denkens führen können. Gerade während der Pubertät kann es zu sprunghaften Leistungsanstiegen im logischen Denken kommen, da nach Piaget (1984) in diesem Alter die Frontallappen ausgereift sind, die mit logi- Kapitel 9 Diskussion der Ergebnisse 174 schem Denken zusammenhängen und sich die kognitiven Leistungen im Alter von 12 bis 14 Jahren von konkret-operationalem zu abstrakt-logischem Denken entwickeln. Somit hat auch die unterschiedliche Untertestzusammensetzung beider Indizes einen Einfluss auf das Ergebnis. Im HAWIK-III ist das logische Denken weniger repräsentiert als im HAWIK-IV. Aus diesem Grund soll abschließend noch einmal darauf hingewiesen werden, dass es sich anders als in den im fünften Kapitel beschriebenen Studien um einen Vergleich unterschiedlicher Testversionen handelt. Demnach kann für die meisten Vergleiche an dieser Stelle kein eindeutiger Beweis oder Gegenbeweis für einen Lerneffekt gegeben werden. 9.2.2 Flynn-Effekt Die Mittelwerte beider Tests (siehe Tabelle 8.1 und Tabelle 8.2) deuten auf einen Flynn-Effekt hin. Auf Basis der gesamten Stichprobe kommt es auf Ebene des Gesamt-IQ zu einem Absinken um ca. 2.5 IQ-Punkte von HAWIK-III (108.9) auf HAWIK-IV (106.3). Auf Index-Ebene zeigt sich die größte Differenz im Sprachverständnis (105.7 im SV des HAWIK-IV gegenüber 110.1 im SV des HAWIK-III). Der Vergleich der Indizes WO und WLD, die fluides Denken erfassen, offenbart fast gleich hohe Werte und kann demnach keine besseren Leistungen der Kinder im HAWIK-III aufweisen. Dies kann jedoch auch mit der unterschiedlichen Untertestzusammensetzung dieser Indizes erklärt werden. Die Werte des neuen Index VG, der kaum verändert wurde, liegen wiederum ca. 3.5 IQ-Punkte unter denen des AG-Index (105.8 gegenüber 109.3). Zur genaueren Untersuchung des Flynn-Effekts wurden nur die Werte des langen Intervalls betrachtet, in dem sich der Einfluss des Lerneffekts weniger zeigte als im kurzen Intervall. Da sich jedoch auch im langen Intervall ein Lerneffekt nachweisen ließ, sollten die Ergebnisse mit Vorsicht interpretiert werden. Jedoch basieren die Studien zum Flynn-Effekt auf der Stichprobe, die ein ausbalanciertes Design hinsichtlich der Reihenfolge der Testvorgabe aufweist. Daher kann der Lerneffekt in dieser Studie vernachlässigt werden. Zwar wurde die Erfassung des fluiden Denkens erst im HAWIK-IV durch die Einführung der Untertests Matrizen-Test, Bildkonzepte und Begriffe erkennen adäquat ermöglicht, dennoch kann die These, diese Tests seien vom Flynn-Effekt betroffen, an dieser Stelle bestätigt werden. So zeigt sich innerhalb der Untertests die größte Differenz im Gemeinsamkeiten finden, hier sinkt der Mittelwert um .75 von HAWIK-III zu HAWIK-IV. Gemeinsamkeiten finden gilt als der Untertest, der innerhalb der SV-Untertests den höchsten Anteil an fluidem Denken erfordert (Flanagan & Kaufman, 2004). Neben den Indizes WLD und WO erfordert auch die Bearbeitung der Geschwindigkeitsindizes VG und AG, fluides Denken. Zwischen dem AG-Index des HAWIK-III und dem VG-Index des HAWIK-IV zeigt sich in dieser Teilstudie (Kinder mit langem Re-Testintervall) ein Absinken um 2.5 IQ-Punkte von HAWIK-III zu HAWIK-IV, der auf Grund der Kapitel 9 Diskussion der Ergebnisse 175 ausbalancierten Reihenfolge der Testvorgabe nicht auf einen Lerneffekt zurückgeführt werden kann. Das Absinken des IQ im SV um etwas mehr als drei Wertpunkte stimmt mit der Annahme überein, dass der Flynn-Effekt im Bereich der kristallinen Intelligenz zu einem Rückgang von drei Punkten pro Dekade führt. Das Arbeitsgedächtnis scheint dagegen nicht vom Flynn-Effekt betroffen zu sein. Der Anstieg vom WO des HAWIK-III zum WLD des HAWIK-IV lässt sich wie oben schon angedeutet auf die unterschiedliche Untertestzusammensetzung beider Indizes zurückführen. Da die Indizes mit dem Mosaik-Test nur einen gemeinsamen Untertest aufweisen, kann ein Vergleich dieser Werte nicht zur Untersuchung des Flynn-Effekts herangezogen werden. Durch die höheren Werte im WLD als im WO ist auch das Absinken im Gesamt-IQ nicht sehr deutlich ausgefallen. Somit hätte sich bei einer größeren inhaltlichen Übereinstimmung beider Testverfahren voraussichtlich ein deutlicherer Unterschied im Gesamt-IQ gezeigt. Neben dem WLD-Index zeigen auch einige Untertests im Mittel höhere Werte im HAWIK-IV. Diese Untertests scheinen von anderen Störvariablen bzw. Veränderungen beeinflusst zu sein, so beispielsweise die Mittelwerte des Untertests Zahlen nachsprechen, die im HAWIK-III einen halben Wertpunkt niedriger ausfallen als im HAWIK-IV. Dies kann mit der unterschiedlichen Position des Untertests in der Testbatterie erklärt werden (siehe Kapitel 4 und 9.7.5). Mit der Untersuchung des Flynn-Effekts an Kindern aus dem oberen Leistungsbereich lässt sich die Annahme bestätigen, dass das Absinken des IQ besonders in den Randbereichen intellektueller Fähigkeiten auftritt (auf Indexebene sinken die Werte um 3.4 bis 9.2 IQ-Punkte ab, der Gesamt-IQ des HAWIK-IV weist durchschnittlich neun IQ-Punkte weniger auf als der Gesamt-IQ des HAWIK-III, siehe Tabelle 8.15). Außerdem spiegeln die Ergebnisse dieses Vergleichs die typischen Leistungsprofile überdurchschnittlich bzw. hoch begabter Kinder wider. Gemäß Studien mit Hochbegabten weisen Kinder am oberen Leistungsbereich besonders hohe Werte in den Bereichen der Sprache und des logischen Denkens auf, während sie im Gedächtnis und in der Geschwindigkeit eher durchschnittlich abschneiden (siehe Kapitel 4.6.4 und Daseking, Petermann et al., 2008). Das deutliche Absinken des Gesamt-IQ wurde auch in Studien zu Hochbegabung berichtet und mit der im HAWIK-IV erhöhten Berücksichtigung der Erfassung von Gedächtnis- und Geschwindigkeitsleistungen begründet (siehe Kapitel 4.6.4 und Birke & Lehn, in Druck; Falk et al., 2004). Insgesamt können demnach die Ergebnisse einiger Forscher nicht bestätigt werden, der IQZuwachs habe in den vergangenen Jahren stagniert oder es sei sogar ein Absinken des IQ zu erkennen. Nach den Ergebnissen dieser Studie kann auch für das vergangene Jahrzehnt ein Anstieg der kognitiven Leistungen deutscher Kinder und Jugendlichen verzeichnet werden. Kapitel 9 Diskussion der Ergebnisse 176 Somit bestätigen diese Ergebnisse die Notwendigkeit, Intelligenztestverfahren nach einem gewissen Abstand neu zu normieren. Die Steigerung der kognitiven Fähigkeiten von Kindern und Jugendlichen, die sich auch in dieser Studie gezeigt hat, spricht dafür, das jeweils aktuelle Testverfahren zu präferieren. 9.3 Ergebnisbetrachtung der Faktorenanalysen Während die Faktorenanalysen ohne Vorgabe von Faktoren uneinheitliche Ergebnisse zeigen, replizieren die im achten Kapitel angeführten Faktorenanalysen mit Vorgabe der Faktoren die vorgegebene Faktorenstruktur beider Testversionen. Sowohl für die Faktorenanalyse mit sämtlichen in der Studie durchgeführten Untertests (siehe Tabelle 8.18) als auch für die Faktorenanalysen getrennt für die Untertests des HAWIK-III und -IV (siehe Tabelle 8.19 und Tabelle 8.20) können demnach die aufgestellten Hypothesen angenommen werden. Auffällig dabei ist, dass der Untertest Bilder ergänzen ebenfalls hoch auf dem Faktor lädt, der die Untertests des SV beinhaltet. Außerdem weist das Allgemeine Wissen zusätzlich zum SprachverständnisFaktor auch auf dem Gedächtnisfaktor hohe Ladungen auf. Die hohe Ladung des Untertests Bilder ergänzen auf dem Sprachfaktor deckt sich mit der in Kapitel 4.4.3.1 vorgestellten Faktorenanalyse der WISC-IV (Wechsler, 2003b). Interkorrelationsstudien der WISC-IV (Wechsler, 2003b) und des HAWIK-IV (Petermann & Petermann, 2008a) weisen ebensolche Ergebnisse auf. Die Testautoren führen dies auf den Gebrauch verbaler Vermittlungsformen beim Lösen von Problemen und der Antwortformulierung bei dieser Art von Aufgaben zurück (dies gilt in gleicher Hinsicht für den Untertest Bildkonzepte, der sowohl für die WISC-IV als auch für den HAWIK-IV mittlere bis hohe Korrelationen mit den Sprachuntertests aufweist). Auch die Interkorrelationen der vorliegenden Studie offenbaren einen hohen Zusammenhang (bis zu r = .50) zwischen Bilder ergänzen und den Untertests des SV, sowohl für den HAWIK-III als auch für den HAWIK-IV (siehe Anhang A1 und A3). Die hohen Ladungen des Allgemeinen Wissens auf dem Faktor, der die Untertests beinhaltet, die Gedächtnisleistungen abbilden, entsprechen ebenso den Angaben der Testentwickler des HAWIK-III und -IV, beim Allgemeinen Wissen werde zusätzlich zu anderen kognitiven Fähigkeiten auch auf Leistungen des Langzeitgedächtnisses zurückgegriffen (siehe auch Flanagan & Kaufman, 2004). Genauso beinhaltet das Rechnerische Denken Fähigkeiten des Langzeitgedächtnisses, was die hohen Interkorrelationen beider Untertests (zwischen r = .42 und .52, siehe Anhang A3 und A4) erklärt. Die Ergebnisse der Faktorenanalyse, in die alle Untertests beider Testversionen einbezogen wurden, lassen vermuten, dass der Vergleich der Indizes WO und WLD genauso wie der Vergleich der Indizes UA und AGD legitim ist, da die dazugehörigen Untertests auf einen gemeinsamen Faktor laden (siehe Tabelle 8.18). Zwar laden Bilderordnen und Bilder ergänzen eben- Kapitel 9 Diskussion der Ergebnisse 177 falls hoch auf dem sprachlichen Faktor, dennoch wurden sie dem wahrnehmungsbezogenen Faktor zugeordnet. Die anderen Untertests, die nur in einer Testversion enthalten sind, also Figurenlegen, Bildkonzepte und Matrizen-Test, können diesem Faktor jedoch eindeutiger zugeordnet werden. Insgesamt zeigen sich in dieser Studie zum Teil deutlich höhere Faktorladungen als in bisherigen Studien zur WISC-IV und WISC-III bzw. zum HAWIK-III und HAWIK-IV. Bezogen auf die WISC-IV wird dies besonders in den Untertests Bildkonzepte und Symbol-Suche deutlich. Im Vergleich zur HAWIK-IV-Normierungsstichprobe zeigt die vorliegende Stichprobe - außer im Allgemeinen Wissen - in allen sprachlichen Untertests sowie in den Untertests DurchstreichTest und Zahlen nachsprechen höhere Ladungen auf dem entsprechenden Faktor. Die Faktorenstruktur des HAWIK-III lässt sich auf Basis der vorliegenden Stichprobe eindeutiger replizieren als in der Untersuchung, die im HAWIK-III-Manual beschrieben wird (Tewes et al., 2002). Wie schon bei der HAWIK-III-Studie kann das Zahlennachsprechen des HAWIK-III auch in der vorliegenden Untersuchung nicht eindeutig einem Faktor zugeordnet werden. Die relativ geringe Ladung (.38) des Zahlennachsprechens auf dem Faktor, auf dem die Untertests des Verbalteils liegen (siehe Tabelle 8.16), spricht gegen eine Aufteilung in Verbal- und Handlungsteil, wie sie im HAWIK-III vorgesehen ist. 9.4 Ergebnisbetrachtung der Korrelationsanalysen Folgende Erkenntnisse lassen sich aus der Untersuchung der Korrelationen von HAWIK-III und HAWIK-IV festhalten: die Testreihenfolge hat keinen Einfluss auf die Höhe der Korrelationen der Indizes und Gesamtwerte, beide Tests korrelieren insgesamt hoch miteinander, die beiden Gesamt-IQ korrelieren in den zusammengefassten Korrelationsanalysen (Mittelung der Korrelationen bei HAWIK-III als erstem und HAWIK-IV als erstem Test) durchweg mit r > .80, der Verbalteil des HAWIK-III korreliert höher mit dem SV des HAWIK-IV als der Handlungsteil des HAWIK-III mit dem WLD des HAWIK-IV, die Indexpaare des Sprachverständnisses und der Verarbeitungsgeschwindigkeit korrelieren höher als die Indexpaare WO und WLD sowie AGD und UA, die Indizes korrelieren insgesamt höher miteinander als die Untertests, die gematchte Stichprobe weist ähnliche Korrelationen auf wie die Gesamtstichprobe sowie die Länge des Re-Testintervalls hat keinen Einfluss auf die Höhe der Korrelationen in der gematchten Stichprobe. Kapitel 9 Diskussion der Ergebnisse 178 Diese Ergebnisse sollen im Folgenden diskutiert werden. 9.4.1 Einfluss der Testreihenfolge Bevor die Korrelationen zwischen beiden Testversionen anhand der Gesamttabellen interpretiert wird, soll zunächst darauf eingegangen werden, ob die Differenz der Korrelationen signifikant ist, je nachdem, welche Testversion zuerst vorgelegt wurde (Fragestellung 9, Hypothesen 6.3.8 bis 6.3.14). In der Stichprobe mit langem Re-Testintervall zeigt sich teilweise ein signifikanter Einfluss der Testreihenfolge auf die Höhe der Korrelation. Grund dafür sind die in einigen Untertests und Indizes auffällig niedrigeren Korrelationen in der Stichprobe, der zuerst der HAWIK-III vorgelegt wurde (siehe Tabelle 8.27). Möglicherweise liegt in dieser Teilstichprobe ein Stichprobeneffekt vor, dessen Ursache nicht weiter nachvollzogen werden kann. Bei der Betrachtung der Gesamtstichprobe zeigt sich jedoch einzig im Allgemeinen Verständnis ein signifikanter Unterschied bezüglich der Testvorgabe (siehe Tabelle 8.23). Dies ist auf die mit r = .40 relativ niedrigen Korrelationen zwischen beiden Versionen des Untertests bei Erstvorgabe des HAWIK-III zurückzuführen (siehe Tabelle 8.21). Auch im Vergleich zwischen HAWIK-R und HAWIK-III zeigt das Allgemeine Verständnis mit r = .41 vor Korrektur die niedrigste Korrelation innerhalb der Untertests (Tewes et al., 2002). Die Indizes und Gesamtwerte weisen jedoch hinsichtlich des Einflusses der Testreihenfolge keine signifikanten Unterschiede auf. Die Korrelationen werden somit nicht signifikant von der Testreihenfolge beeinflusst. Dank des ausbalancierten Versuchsdesign können demzufolge die zusammengefassten Korrelationswerte interpretiert werden und müssen nicht separat danach betrachtet werden, welche Testversion dem Kind zuerst vorgegeben wurde. Damit ist es legitim, bei der Interpretation der Korrelationen zwischen HAWIK-III und HAWIK-IV auf die Gesamttabellen zurückzugreifen. 9.4.2 Höhe der Korrelationen der Gesamtstichprobe Angesichts der in Kapitel 8.7 vorgestellten Korrelationsanalysen kann durchweg die Hypothese (H1) angenommen werden. Die Korrelationen erweisen sich als ebenso hoch wie in bisherigen Studien, die sich mit einem Vergleich der entsprechenden amerikanischen Testversionen WISC-III und WISC-IV bzw. ähnlicher Vergleiche beschäftigten. Dabei richtet sich die Interpretation der Ergebnisse nach den korrigierten Korrelationen. Diese Korrekturen vorzunehmen ist mit der nicht vollständig normalverteilten Stichprobenverteilung (siehe Kapitel 7.3) und damit zu begründen, dass auch in vergleichbaren Studien diese Korrekturen vorgenommen wurden. Allerdings konnten die Korrekturen in dieser Studie nur für die SD der HAWIK-IV-Normierungsstichprobe vorgenommen werden, da die genauen Standardabweichungen der HAWIK-IIIWerte aus dem HAWIK-III-Manual nicht ersichtlich sind. Dies gibt Anlass zu der Vermutung, Kapitel 9 Diskussion der Ergebnisse 179 dass die Korrelationen noch höher ausgefallen wären, wenn sich die Standardabweichungen der Mittelwerte im HAWIK-III als niedriger darstellen als im HAWIK-IV. Die Ergebnisse der Gesamtstichprobe dieser Studie (siehe Tabelle 8.23) ähneln denen aus dem Vergleich zwischen WISC-III und WISC-IV (Wechsler, 2003b). So unterscheiden sich die GesamtIQ-Korrelationen nur geringfügig (r = .87 gegenüber .89). Der Vergleich zwischen den übergeordneten Gesamtwerten des HAWIK-III und den entsprechenden Indizes des HAWIK-IV weist im Indexpaar Handlungs-IQ und WLD in der amerikanischen Studie etwas höhere Korrelationen auf (r = .74 in der WISC-Studie gegenüber r = .68 in dieser Studie). In der Paarung Verbal-IQ und SV erweist sich der Zusammenhang jedoch als identisch (jeweils r = .87). Innerhalb der Indizes zeigen der Vergleich der SV-Indizes mit r = .88 sowie der Vergleich zwischen UA und AGD mit r = .72 identische Korrelationen in beiden Studien. Für die Indexpaarung WO und WLD zeigen sich in der amerikanischen Studie (r = .72 gegenüber .67), für den Vergleich zwischen AG und VG dagegen in der vorliegenden Studie (r = .84 gegenüber .81) etwas höhere Korrelationen. Auf Untertestebene weisen in beiden Studien die gleichen drei Untertestpaarungen lediglich Korrelationen unter r = .70 auf, namentlich Allgemeines Verständnis, Symbol-Suche und Bilder ergänzen. Außerdem erweist sich das Allgemeine Wissen jeweils als der Untertest mit den höchsten Korrelationen (r = .83 und .81). Insgesamt kann die vorliegende Untersuchung somit die Ergebnisse bisheriger Studien bestätigen. Anhand der Stichprobe G-III (dies stellt die üblicherweise vorgenommene Reihenfolge dar, erst den HAWIK-III und dann den HAWIK-IV durchzuführen) soll veranschaulicht werden, wie sich die unterschiedlichen Zusammensetzungen der Untertests zu einem Index auf die Höhe der Korrelationen auswirken (siehe Tabelle 8.21): In dieser Stichprobe weisen die Vergleiche zwischen WO und WLD sowie zwischen Handlungsteil und WLD die niedrigsten Zusammenhänge (r = .48 und .50) auf. Diese Indizes bzw. Gesamtwerte resultieren aus einer stark voneinander abweichenden Untertestzusammensetzung. So besitzen WLD und WO beziehungsweise WLD und Handlungsteil mit dem Mosaik-Test nur einen gemeinsamen Untertest. Auf der anderen Seite lassen sich die hohen Korrelationen zwischen VG und AG (r = .81) mit der identischen Untertestzusammensetzung (Symbol-Suche und Zahlen-Symbol-Test) erklären. Es zeigt sich also beispielhaft an dieser Stichprobe, dass dort hohe Korrelationen festzustellen sind, wo wenige Veränderungen vorgenommen wurden und demgegenüber niedrigere Zusammenhänge dort zu finden sind, wo große Veränderungen zwischen beiden Testversionen erfolgten. Bei Betrachtung der Stichprobe mit kurzem Re-Testintervall (siehe Tabelle 8.26) offenbart der Vergleich zwischen der Symbol-Suche des HAWIK-III und der des HAWIK-IV mit r = .59 nach Korrektur die niedrigsten Korrelationen. Dies ist auf eine Korrelation von nur r = .39 bei den Kindern zurückzuführen, die den HAWIK-IV zuerst bearbeiteten. Hier kann die niedrige Korrela- Kapitel 9 Diskussion der Ergebnisse 180 tion eventuell auf Motivationsprobleme zurückgeführt werden. Die Symbol-Suche stellt einen Untertest mit monotonen Aufgaben dar, da sie die Verarbeitungsgeschwindigkeit ohne Reizanregungen erheben soll. Bei den Kindern, die den Test zweimal innerhalb kurzer Zeit durchführten, stellt die Motivation bei der Leistungsfähigkeit in diesem Untertest einen wichtigen Aspekt dar. Demnach scheint die Stichprobe GK-IV mehr als andere Stichproben aus Kindern zusammengesetzt zu sein, die Probleme haben, sich bei der Wiederholung reizarmer Aufgaben erneut zu motivieren. Auch eine Veränderung der Rohwerteverteilung (siehe Kapitel 9.6) kann die niedrige Korrelation verursacht haben. Dennoch korrelieren die Indizes AG und VG insgesamt hoch miteinander (r = .82). Dies lässt sich auf die mit r = .81 hohe Korrelation im anderen Geschwindigkeitsuntertest, Zahlen-Symbol-Test zurückführen. Auch in der Gesamtstichprobe und der Stichprobe mit langem Re-Testintervall zeigen sich sehr hohe Zusammenhänge zwischen den beiden Geschwindigkeits-Indizes. 9.4.3 Vergleich zwischen der gematchten und der Gesamtstichprobe Beim Vergleich zwischen den Ergebnissen der gematchten Stichprobe und der Gesamtstichprobe (Tabelle 8.23 und Tabelle 8.32) wird deutlich, dass die Korrelationen der gematchten Stichprobe entweder gleich hoch oder etwas niedriger sind als die der Gesamtstichprobe. Die niedrigeren Werte können zum einen mit dem geringeren Stichprobenumfang erklärt werden, zum anderen ist eine mögliche Ursache die unterschiedliche Aufteilung der Stichprobe hinsichtlich der Reihenfolge der Testvorgabe (26 Kinder haben den HAWIK-III und 46 den HAWIKIV zuerst durchgeführt). Die insgesamt ähnlichen und zum Teil sogar identischen Korrelationen sprechen jedoch dafür, dass sich die Größe der Stichprobe nicht entscheidend die Höhe der Korrelationen beeinflusst. Demnach können die ähnlich hohen Korrelationen zwischen dieser und bisheriger Studien nicht allein auf der ähnlich hohen Stichprobengröße beruhen. Folgendes Gesamtergebnis kann somit als aussagekräftig gelten: Aufgrund der hohen Zusammenhänge sind die beiden Testversionen HAWIK-III und -IV miteinander vergleichbar. 9.4.4 Einfluss der Länge des Re-Testintervalls Mit der Fragestellung 10 wurde der Einfluss des Intervalls zwischen beiden Testungen untersucht. Dies erfolgte anhand der gematchten Stichprobe, in der gleich viele Kinder ein langes und ein kurzes Intervall aufweisen (jeweils 72 Kinder). Dabei zeigt sich nur zwischen den Korrelationen des Untertests Zahlen nachsprechen (und dies auch nur vor der α-Adjustierung) ein signifikanter Unterschied je nach Länge des Re-Testintervalls (siehe Tabelle 8.30 und Tabelle 8.32). Dies ist auf eine mit r = .48 relativ niedrige Korrelation in der Stichprobe mit langem ReTestintervall (GemSL) zurückzuführen. Möglicherweise liegt die Ursache für diese niedrige Korrelation in einem Stichprobeneffekt, der an dieser Stelle nicht inhaltlich interpretiert werden kann. Kapitel 9 Diskussion der Ergebnisse 181 9.4.5 Abschließende Ergebnisbetrachtung der Korrelationsanalysen Die Untersuchung des Zusammenhangs beider Testversionen weist sehr hohe Korrelationen zwischen den Gesamt-IQ auf. Dies lässt den Schluss zu, dass beide Testversionen das gleiche Konstrukt (allgemeine Intelligenz im Sinne eines g-Faktors) erfassen und demnach miteinander verglichen werden können. Die Interpretation dieses Ergebnisses für die Praxis wird in Kapitel 9.8.1 diskutiert. Auch der Vergleich der Indizes, innerhalb derer geringe oder keine inhaltlichen Veränderungen vorgenommen wurden, scheint dank hoher Korrelationen zulässig. Die niedrigeren Korrelationen zwischen WLD und WO sowie AGD und UA bestätigen die Angaben der Testautoren der WISC-IV, dass der Schwerpunkt der von den Indizes erfassten kognitiven Fähigkeiten auf Grund modifizierter Modellvorstellungen von Intelligenz verändert wurde (Wechsler, 2003b). Der Vergleich dieser Indizes kann demnach nicht generell vorgenommen werden (siehe auch Kapitel 9.7). Aufgrund der niedrigeren und uneinheitlichen Korrelationen auf Ebene der Untertests stellt sich ein Vergleich auf Untertestebene als zumindest fragwürdig dar. Untertests weisen allgemein aufgrund der geringeren Informationsmenge, die in den Untertest-Wert einfließt, einen höheren Messfehler und somit niedrigere Reliabilitäten auf (siehe Kapitel 4.4.2). Je mehr Informationen jedoch in einen Wert einfließen, desto höher sind die Reliabilitäten. Daraus kann gefolgert werden, dass nur der Gesamt-IQ und eingeschränkt noch die Indizes ein wirklich aussagekräftiges Abbild der kognitiven Leistungen geben. Die höheren Reliabilitäten sprechen dafür, den Schwerpunkt bei der Interpretation auf den Gesamt-IQ zu legen und erst im zweiten Schritt die Interpretation der Indizes vorzunehmen. Die Ergebnisse in den Untertests sollten demnach nur für die Analyse der Stärken und Schwächen eines Kindes herangezogen werden (siehe auch Daseking, Petermann & Petermann, in Druck). Zudem besitzen die Untertests des HAWIK-III und des HAWIK-IV teilweise unterschiedliche Reliabilitäten (siehe Tabelle 4.7, Kapitel 4.4.2). Dies kann ein Grund dafür sein, weshalb Kinder auch beim Vergleich identischer Untertests unterschiedliche Werte erzielen, die nicht auf einen Lern- oder Flynn-Effekt zurückgeführt werden können. Daraus sollte ebenfalls resultieren, von einem Vergleich auf Untertestebene abzusehen. 9.5 Ergebnisbetrachtung der Regressionsanalysen 9.5.1 Varianzaufklärung der Untertests des HAWIK-III Regressionsanalytisch wurde geprüft, inwieweit sich die Veränderungen auf Untertestebene zwischen HAWIK-III und -IV (die Entfernung einiger Untertests aus dem Gesamttest oder die Verschiebung einiger Untertests in den optionalen Teil) mit der Höhe der Varianzaufklärung der Untertests des HAWIK-III auf den entsprechenden HAWIK-III-Index erklären lassen. Kapitel 9 Diskussion der Ergebnisse 182 In der Regressionsanalyse der SV-Untertests des HAWIK-III trägt das Allgemeine Verständnis deutlich weniger zur Varianzaufklärung des Index bei als es die Teststruktur des HAWIK-IV vermuten lassen würde. Das Allgemeine Wissen hat als nur noch optionaler Untertest mehr Anteil an der Varianzaufklärung als die Kerntests Allgemeines Verständnis und Wortschatz-Test (siehe Tabelle 8.33). Schon in anderen Analysen dieser Studie erwies sich das Allgemeine Verständnis als auffällig. So zeigt es beispielsweise als einziger Untertest signifikant unterschiedliche Korrelationen, je nachdem, welcher Test zuerst durchgeführt wurde (siehe Tabelle 8.23). Auch im Mittelwertvergleich zeigt die Stichprobe des kurzen Intervalls, die den HAWIK-III zuerst durchführte (GK-III), einen geringfügig niedrigeren Wert im Allgemeinen Verständnis des HAWIK-IV, obwohl sie aufgrund der Erinnerung an die erste Durchführung einen höheren Wert hätte erreichen müssen (siehe Abbildung 8.6). Dies könnte mit dem auffälligen Ergebnis in der Regressionsanalyse zusammenhängen. Das Allgemeine Wissen erweist sich hingegen als Untertest mit den höchsten Korrelationswerten sowohl in dieser Studie als auch im Vergleich der amerikanischen WISC-IV mit ihrem Vorgängerverfahren, der WISC-III (Wechsler, 2003b). Die Verlegung des Allgemeinen Wissens in den optionalen Teil des HAWIK-IV scheint demnach nicht aus statistischen Gründen vorgenommen worden zu sein. Vielmehr können inhaltliche Überlegungen als mögliche Ursachen für die Verlegung des Untertests in den optionalen Teil herangezogen werden. So weist das Allgemeine Wissen eine hohe Bildungsabhängigkeit auf (siehe dazu Daseking, Lipsius et al., 2008). Zwar ist auch das Allgemeine Verständnis als bildungsabhängig einzustufen, jedoch wird mit diesem Untertest vor allem das Wissen über soziale Situationen erfragt, welches schulformübergreifend vorhanden sein sollte. Aus diesem Grund erscheint es wichtiger, das Allgemeine Verständnis und nicht das Allgemeine Wissen in den Kernteil des Index SV aufzunehmen. Da jedoch die Regressionsanalyse eine hohe Varianzaufklärung des Allgemeinen Wissens des Index SV zeigt und sowohl ein gutes Messinstrument für kristalline Intelligenz darstellt als auch hoch mit dem g-Faktor korreliert, sollte es als zusätzliche Informationsquelle zur Feststellung der kognitiven Leistungsfähigkeit weiterhin mit erhoben werden. Die Regressionsanalyse der WO-Untertests (siehe Tabelle 8.34) weist für alle vier Untertests ähnlich hohe β-Gewichte auf. Da jedoch der Mosaik-Test etwas niedrigere Werte zeigt als Figurenlegen und Bilderergänzen am wenigsten zur Varianzaufklärung des WO beiträgt, muss die Hypothese (H1) abgelehnt werden. Die geringste Varianzaufklärung des Untertests Bilderergänzen auf den WO unterstützt die Entscheidung, den Untertest im HAWIK-IV vom Kernteil in den Zusatzteil zu verlegen. Wie schon im Allgemeinen Wissen haben jedoch auch hinsichtlich des Bilderordnens andere Ursachen den Wegfall des Untertests veranlasst. Zum einen erwies sich das Bilderordnen als sehr fehlerlastig hinsichtlich der Durchführung, die sehr komplex und demnach viel Übung seitens des Testleiters erfordert. Desweiteren wird die relativ niedrige Kapitel 9 Diskussion der Ergebnisse 183 Reliabilität für die Entfernung des Bilderordnens verantwortlich gemacht, die nach den ebenfalls nicht berücksichtigten Untertests Labyrinth-Test (.70) und Figurenlegen (.69) mit .76 am niedrigsten ausfiel (Wechsler, 1992). In dieser Studie zeigt Bilderordnen mit keinem Untertest Interkorrelationen von mehr als r = .40 (siehe Anhang A1 und A2). Wie schon erwähnt, wird der Wegfall des Bilderordnens jedoch auch kritisiert und vermutet, dass ihn Wechsler niemals befürwortet hätte, da ihm das Erfassen sozialer Fertigkeiten, wie es mit diesem Untertest möglich ist, wichtig war (Flanagan & Kaufman, 2004). Als Hauptargument für den Verzicht auf die Untertests Bilderordnen und Figurenlegen sowie der Verlegung des Untertests Bilderergänzen in den optionalen Teil des HAWIK-IV gilt jedoch der reduzierte Einfluss der Zeitkomponente (siehe Kapitel 4.7.1 und Flanagan & Kaufman, 2004). Im dritten Schritt wurden die Untertests des Index UA mit Hilfe der Regressionsanalyse untersucht. Auch für diesen Index muss die Hypothese (H1) abgelehnt werden, da sich das Rechnerische Denken als wichtiger für die Varianzaufklärung des Index erweist als das Zahlennachsprechen (siehe Tabelle 8.35). Somit wird die Unablenkbarkeit vermutlich besser durch den Untertest Rechnerisches Denken erfasst als durch das Zahlennachsprechen, das scheinbar eher eine reine Messung des Arbeitsgedächtnisses als der Unablenkbarkeit darstellt. Wie in Kapitel 4.4.3.1 erwähnt, wird die Index-Bezeichnung Unablenkbarkeit im HAWIK-III als irreführend angesehen, da der Index nicht explizit Ablenkbarkeit oder Hyperaktivität erfasst (siehe Naglieri & Paolitto, 2005; Zhu et al., 2004). Bei der exploratorischen Faktorenanalyse des HAWIK-III (siehe Tabelle 8.16) laden beide Untertests ebenfalls nicht auf einem gemeinsamen Faktor (Rechnerisches Denken lädt auf dem SV-Faktor und Zahlennachsprechen bildet mit den Geschwindigkeitsuntertests Zahlen-Symbol-Test und Symbol-Suche einen eigenen Faktor). Die Untertests Rechnerisches Denken und Zahlennachsprechen scheinen im HAWIK-III demnach unterschiedliche Fähigkeiten abzubilden. Auch die Interkorrelationen von nur .38 (Gesamtstichprobe, siehe Anhang A1) beziehungsweise .39 (gematchte Stichprobe, siehe Anhang A2) deuten darauf hin. Da sich das Zahlen nachsprechen inhaltlich nicht verändert hat, muss es auf das Rechnerische Denken sowie den neuen Untertest Buchstaben-Zahlen-Folgen zurückzuführen sein, dass die Indizes UA und AGD unterschiedliche Fähigkeiten erfassen. Wie in Kapitel 4 beschrieben, haben neue Erkenntnisse im Bereich der Intelligenzforschung zu einer Modifizierung der Untertests dahingehend geführt, welche kognitiven Funktionen mit ihnen erhoben werden. Auch das Rechnerische Denken erfasst in beiden Versionen unterschiedliche kognitive Fähigkeiten (siehe Kapitel 4.2 und 4.3 sowie Tabelle 4.4 und Tabelle 4.6). Durch das Fehlen der optischen Vorgabe der Rechenaufgaben in Form von Aufgabenkarten zielt das Rechnerische Denken im HAWIK-IV mehr auf die Erfassung des Kurz- und Langzeitgedächtnisses ab als im HAWIK-III. Dies zeigt sich auch durch die Ladung der beiden Versionen des Rechnerischen Denkens auf Kapitel 9 Diskussion der Ergebnisse 184 unterschiedlichen Faktoren in den Faktorenanalysen ohne Vorgabe der Faktorenanzahl (weitere Analysen zur inhaltlichen Veränderung der Untertests siehe Kapitel 9.7.4). Mit der Regressionsanalyse konnte demnach die eingeschränkte Vergleichbarkeit beider Testversionen durch diese inhaltlichen Veränderungen verdeutlicht werden. 9.5.2 Varianzaufklärung der Untertests des HAWIK-IV Desweiteren wurde mit Hilfe der Regressionsanalyse untersucht, inwieweit die Untertests des HAWIK-IV zur Varianzaufklärung des entsprechenden HAWIK-III-Index beitragen. Sollten sich sämtliche Kernuntertests des HAWIK-IV als relevant für die Varianzaufklärung der HAWIK-IIIIndizes erweisen, würde dies die Vergleichbarkeit beider Testversionen unterstützen. Für den Index Sprachverständis kann anhand der in Tabelle 8.36 vorgestellten Regressionsanalyse davon ausgegangen werden, dass die Untertests des HAWIK-III mit einer Varianzaufklärung von insgesamt fast 70 % annähernd dieselben Fähigkeiten abbilden wie der Index SV des HAWIK-III. Die drei Kernuntertests des HAWIK-IV tragen signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei. Bei einem Vergleich der beiden SV-Indizes muss demnach nur mit einer geringen Abweichung der Testergebnisse auf Grund inhaltlicher Veränderungen beider Testversionen ausgegangen werden. Anders verhält es sich im Index WO des HAWIK-III. Hier zeigen sich anhand der Regressionsanalyse der Untertests des WLD (siehe Tabelle 8.37), dass die Kerntests des WLD nicht durchweg bedeutsam zur Varianzaufklärung des WO beitragen. Die beiden neuen Untertests Bildkonzepte und Matrizen-Test leisten keinen signifikanten Beitrag zur Varianzaufklärung des WO. Insgesamt zeigt sich mit etwas mehr als 40 % der geringste Varianzaufklärungsanteil innerhalb der vier Indizes. Nach den Ergebnissen der Korrelationsanalysen kann nunmehr auch anhand der Regressionsanalysen verdeutlicht werden, dass WO und WLD nicht dieselben kognitiven Fähigkeiten erheben und daher nicht uneingeschränkt miteinander verglichen werden sollten. Wie in Kapitel 4.6.1 dargestellt, kamen auch die Autoren der KABC-II anhand von Korrelationsstudien zwischen der KABC-II und der WISC-III bzw. WISC-IV zu dem Ergebnis, dass beide Wechsler-Versionen unterschiedliche Konstrukte erfassen (Kaufman & Kaufman, 2004). Ihrer Meinung nach bilden der Handlungsteil und der WO eher visuelle Prozesse ab, während der Index WLD der WISC-IV hoch mit den KABC-II-Untertests zur Messung des fluiden Denkens korreliert. Die Untertests des AGD klären nur die Hälfte der Varianz des entsprechenden HAWIK-III-Index UA auf (siehe Tabelle 8.38). Auch zwischen den Indizes AGD und UA muss demnach von einer eingeschränkten Vergleichbarkeit ausgegangen werden. Aufgrund der geringen Varianzaufklärung des Untertests Buchstaben-Zahlen-Folgen scheint der Index UA nicht so explizit das Ar- Kapitel 9 Diskussion der Ergebnisse 185 beitsgedächtnis zu erfassen, wie dies durch die Buchstaben-Zahlen-Folgen und den entsprechenden Index AGD gewährleistet zu sein scheint. Trotz der (bis auf den Durchstreich-Test) identischen Untertests klären die Untertests des Index VG weniger als die Hälfte der Varianz des Index AG auf (siehe Tabelle 8.39). Hier scheinen, wie oben schon beschrieben, andere Einflüsse wie der Lerneffekt oder die Wertverschiebung (siehe Kapitel 9.2.1 und 9.6) ursächlich zu sein. Der Durchstreich-Test trägt nicht signifikant zur Varianzaufklärung bei. Auch die niedrigen Interkorrelationen mit den anderen VG-Untertests, also dem Zahlen-Symbol-Test und der Symbol-Suche des HAWIK-IV (.34 und .39, siehe Anhang A3), deuten auf die Erfassung anderer Fähigkeiten des Durchstreich-Tests hin als es von den anderen Untertests des Verarbeitungsgeschwindigkeits-Index erfolgt. 9.5.3 Vorhersagekraft der Indizes auf den Gesamt-IQ Zusätzlich wurde regressionsanalytisch untersucht, wie viel Varianz des Gesamt-IQ der einen Testversion von den Indizes der anderen Testversion aufgeklärt wird (siehe Tabelle 8.40 und Tabelle 8.41). Dieses Vorgehen soll Rückschlüsse darüber liefern, inwieweit die beiden Testversionen durch Aufklärung gemeinsamer Varianz die gleichen kognitiven Leistungen abbilden. Bei der Untersuchung des Gesamt-IQ des HAWIK-III erweist sich das SV des HAWIK-III als wichtigster Faktor zur Aufklärung der Varianz des Gesamt-IQ. Dies lässt sich darauf zurückführen, dass mit dem Gemeinsamkeiten finden, dem Wortschatz-Test und dem Allgemeinen Verständnis sämtliche Untertests des SV des HAWIK-IV in den Gesamt-IQ des HAWIK-III einfließen. Der ebenfalls hohe Varianzaufklärungsanteil des WLD auf den HAWIK-III-Gesamt-IQ kann mit dem hohen Beitrag der Untertests Mosaik-Test und Bilder ergänzen des HAWIK-IV zur Varianzaufklärung des WO (siehe Tabelle 8.37) erklärt werden. Beide Untertests fließen in den Gesamt-IQ des HAWIK-III ein. Die Untertests Bildkonzepte und Matrizen-Test tragen jedoch nicht signifikant zur Varianzaufklärung des WO (siehe Tabelle 8.37) bei. Daher kann trotz der Ergebnisse der Regressionsanalyse zum Gesamt-IQ des HAWIK-III geschlussfolgert werden, dass WO und WLD nicht dieselben kognitiven Fähigkeiten erfassen. Der Index AGD trägt nicht signifikant zur Varianzaufklärung des HAWIK-III-Gesamt-IQ bei. Dies deckt sich mit den Ergebnissen der Korrelationsanalysen. Damit wird ein weiteres Argument dafür geliefert, UA und AGD nicht miteinander zu vergleichen, da sie unterschiedliche Fähigkeiten erfassen. Hier zeigt sich erneut, dass das Überarbeitungsziel der Entwickler der WISC-IV erreicht wurde, der Erfassung des Arbeitsgedächtnisses einen größeren Stellenwert einzuräumen als dies in der WISC-III bzw. dem HAWIK-III der Fall war. Zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV leisten sämtliche HAWIK-III-Indizes einen signifikanten Beitrag. Auch hier erweist sich das SV als wichtigster Faktor. Dennoch kann von Kapitel 9 Diskussion der Ergebnisse 186 allen vier Indizes insgesamt nur 58 % der Varianz des Gesamt-IQ aufgeklärt werden. Ein Grund dafür, dass in beiden Studien die Geschwindigkeitsindizes nur relativ wenig Varianz aufklären, obwohl sie inhaltlich beinahe identisch sind, könnte in der Verschiebung hinsichtlich der Rohwertverteilung auf die Wertpunkte liegen (siehe Kapitel 9.6). Sowohl die Varianzaufklärung des HAWIK-III-Gesamt-IQ durch die Indizes des HAWIK-IV als auch die Varianzaufklärung des HAWIK-IV-Gesamt-IQ durch die Indizes des HAWIK-III liegt somit lediglich bei etwa 60 %. Demnach kann circa 40 % der Varianz nicht erklärt werden. Dies spricht dafür, beide Testversionen nur begrenzt miteinander zu vergleichen. Bei der Interpretation der Einflüsse der Indizes auf den Gesamt-IQ muss jedoch folgende, als scheinbar abweichender IQ (seemingly anomalous IQ, Reddon, Whippler & Reddon, 2007) bezeichnete testspezifische Besonderheit berücksichtigt werden: In einigen Fällen liegt der Gesamt-IQ im oberen Leistungsbereich oberhalb und im unteren Leistungsbereich unterhalb der Werte der Indizes (siehe dazu Reddon, Vander Veen & Reddon, 2004; Reddon et al., 2007). Der Wertebereich des Gesamt-IQ ist größer (die Werte reichen von 40 bis 160) als der Wertebereich der Indizes (bei den Indizes SV und WLD liegen die Werte zwischen 45 und 155 und in der AGD und der VG zwischen 50 und 150). Daher zeigt sich das Phänomen häufiger an den Randbereichen der IQ-Normalverteilung. In einer Untersuchung mit der WISC-IV wurde dieser abweichende IQ bei 1 % der Fälle festgestellt (Reddon et al., 2007). Dies hängt mit der Regression zur Mitte zusammen. Die Regression zur Mitte zählt zu den Störeinflüssen, die die Vergleichbarkeit zweier Tests beeinträchtigen können (siehe Kapitel 5.2). Sie kann dazu führen, dass die Abhängigkeit zwischen Indizes und Gesamt-IQ kaum interpretiert werden kann. Da die Regression zur Mitte jedoch nur extrem selten vorkommt, kann ein großer Einfluss auf die Ergebnisse dieser Untersuchung ausgeschlossen werden. 9.5.4 Abschließende Ergebnisbetrachtung der Regressionsanalysen Insgesamt lassen die Ergebnisse der Regressionsanalysen darauf schließen, dass die unterschiedlichen Vorstellungen von Intelligenz, die in die Entwicklung beider Testversionen eingeflossen sind, deren Vergleichbarkeit beeinträchtigen. Es soll an dieser Stelle jedoch erneut darauf hingewiesen werden, dass die Berechnung der Varianzaufklärung der Indizes durch die Untertests verzerrt ist. Bei den Indizes handelt es sich um IQ-Werte, die künstlich erzeugt worden sind und keinen linearen Zusammenhang zu den Wertpunkten der Untertests aufweisen (siehe Kapitel 7.5.4). 9.5.5 Erwartete Werte und Konfidenzintervalle Die Ergebnisse der Vorhersage des HAWIK-IV-Konfidenzintervalls unter Kenntnis des entsprechenden HAWIK-III-Wertes unterstützen die Existenz eines Flynn-Effekts, der zu einer Über- Kapitel 9 Diskussion der Ergebnisse 187 schätzung der Leistung eines Kindes führt, wenn es aktuell noch mit dem HAWIK-III getestet wird. Dies hängt damit zusammen, dass bei der Berechnung der Konfidenzintervalle die Konstante auf 0 festgelegt wurde (siehe Kapitel 7.5.4.2). So ergeben sich durchweg niedrigere vorhergesagte Werte im HAWIK-IV, was sich mit den von den WISC-IV-Autoren angegebenen erwarteten WISC-IV-Werten deckt (Wechsler, 2003b) und dem Flynn-Effekt (siehe Kapitel 5.2.2) zuzusprechen ist. Diese erwarteten Werte und Konfidenzintervalle sollen dem Testanwender verdeutlichen, von welchen Werten sie bei einer Testung mit dem HAWIK-IV ausgehen können, wenn bereits der HAWIK-III durchgeführt wurde. Liegen die Werte außerhalb der Konfidenzintervalle weist dies auf ein zur HAWIK-III-Testung abweichendes Leistungsprofil hin. Die Veränderungen können jedoch auch durch die spezifischen Stärken und Schwächen des Kindes entstanden sein, die durch die Verschiebung der erfassten Fähigkeiten mehr oder weniger betont werden (siehe Kapitel 9.7.1). Zudem sollten die anderen Ergebnisse dieser Studie, wie Lerneffekte - vor allem im Bereich der Erfassung von Verarbeitungsgeschwindigkeit - berücksichtigt werden. 9.6 Unterschiede in der Rohwerte- und Wertpunktverteilung An den Untertests Zahlen-Symbol-Test und Symbol-Suche, die sich von HAWIK-III zu HAWIK-IV inhaltlich nicht verändert haben (mit der Ausnahme, dass die Symbol-Suche für die Kinder zwischen 9 und 16 Jahren zur Reduzierung des Deckeneffekts im HAWIK-IV 15 zusätzliche Aufgaben aufweist), soll im Folgenden exemplarisch dargestellt werden, dass unterschiedliche Ergebnisse in beiden Testversionen nicht zwangsläufig mit einer veränderten Leistung des Kindes einhergehen. Vielmehr basieren unterschiedliche Rohwertverteilungen auf der Wertpunktberechnung. Tabelle 9.1 stellt einen Auszug aus den Umrechnungstabellen des HAWIK-III und -IV dar, der die unterschiedliche Einstufung der erzielten Rohwerte in Wertpunkte verdeutlicht. Wie aus Tabelle 9.1 ersichtlich wird, zeigen sich im mittleren Leistungsbereich (10 Wertpunkte) keine deutlichen Unterschiede hinsichtlich der für einen Wertpunkt von 10 notwendigen Rohwerte. Einzig die 16;8- bis 16;11-Jährigen müssen in der Symbol-Suche für 10 Wertpunkte im HAWIK-IV drei Rohwertpunkte mehr erzielen als im HAWIK-III (35-36 im HAWIK-IV gegenüber 32-33 im HAWIK-III). Besonders deutlich wird die Rohwertverschiebung jedoch an den Randbereichen. So erhalten die Kinder der jüngsten Altersgruppe im HAWIK-III für 10 Rohwerte im Zahlen-Symbol-Test nur 1 Wertpunkt, während gleichaltrige Kinder im HAWIK-IV schon für 3 Rohwerte 2 Wertpunkte erhalten (für 10 Rohwerte würden sie 4 Wertpunkte bekommen). Den ältesten Kindern werden im Zahlen-Symbol-Test des HAWIK-IV für 33 Rohwerte schon 2 Wertpunkte vergeben, während die Kinder desselben Alters im HAWIK-III 37 Rohwerte erreichen müssen, um 2 Wertpunkte zu erhalten. Hier haben demnach die Kinder der Normierungsstichprobe des HAWIK-IV schlechter abgeschnitten als die der Normierungsstichprobe des HAWIK- Kapitel 9 Diskussion der Ergebnisse 188 III. Der entgegengesetzte Trend zeigt sich am oberen Leistungsrand der Symbol-Suche. So benötigen die 6;0- bis 6;3-Jährigen beispielsweise 40 Rohwerte in der Symbol-Suche des HAWIKIV, um die maximalen 19 Wertpunkte zu erhalten, während die gleichaltrigen Kinder im HAWIK-III nur 29 Rohwerte für 19 Wertpunkte benötigen. Tabelle 9.1: Normtabellenauszug der Untertests Zahlen-Symbol-Test und Symbol-Suche aus den Manualen des HAWIK-III und -IV (Petermann & Petermann, 2008a; Tewes et al., 2002). HAWIK- HAWIKIII IV Wertpunkte 19 WP 19 WP 6;0-6;3 61-65 61-65 9;0-9;3 60-119 65-119 ZST 12;0-12;3 81-119 86-119 16;8-16;11 100-119 110-119 6;0-6;3 29-45 40-45 9;0-9;3 34-45 37-60 SS/SYS 12;0-12;3 44-45 46-60 45 (ab 16;8-16;11 0-14 0-15 32-33 35-36 55-60 18 WP) Anmerkungen: Abkürzungen siehe Anhang A5 und A6. Die grau unterlegten Wertpunkbereiche repräsentieren deutliche Verschiebungen zwischen beiden Testversionen. Altersstufe HAWIKIII 1 WP 0-10 0-14 0-22 0-36 0 0-5 0-8 HAWIKIV 1 WP 0-2 0-10 0-18 0-32 0 0-4 0-8 HAWIKIII 10 WP 27-30 37-39 48-52 66-70 15 20-21 25-26 HAWIKIV 10 WP 28-31 36-38 49-52 69-72 13-14 20 26-27 Die Rohwerteverteilung hat sich demzufolge trotz inhaltlich identischer Untertests zum Teil deutlich verändert. Dies hängt mit der Standardisierung der erzielten Rohwerte in Wertpunkte mit einem Wertpunktmittel von 10 und einer Standardabweichung von +/- 3 zusammen. Werden für den HAWIK-IV mehr Rohwerte für dieselben Wertpunkte benötigt als für den HAWIKIII, kann jedoch auch der Flynn-Effekt ursächlich sein. Schlussfolgernd daraus ist also ein Anstieg oder Abfall in den Wertpunkten zwischen dem HAWIK-III und dem HAWIK-IV nicht zwangsläufig mit einer Verbesserung bzw. Verschlechterung der Leistung in der dem Untertest zugrunde liegenden Fähigkeit zu begründen. Dies ist vom Anwender bei der Interpretation der Testergebnisse unbedingt zu beachten. 9.7 Einzelfallbetrachtungen Im Folgenden soll anhand der Ergebnisse einzelner Testpersonen aufgezeigt werden, welche Schwierigkeiten bei der Vergleichbarkeit zweier unterschiedlicher Versionen eines Tests bestehen und wie Störvariablen (siehe Kapitel 5.2) die Testergebnisse beeinflussen können. 9.7.1 Veränderungen in der Untertestzusammensetzung der Indizes Wie in Kapitel 4 dargestellt, können Differenzen im HAWIK-III und -IV auf strukturelle Veränderungen, wie unterschiedliche Untertestzusammensetzungen der Indizes beider Tests, zurückgeführt werden. Ein 16-jähriges Mädchen erhält weit überdurchschnittliche IQ-Werte im Handlungsteil und im Index WO (141 und 142) des HAWIK-III, jedoch nur einen durchschnittlichen Kapitel 9 Diskussion der Ergebnisse 189 IQ-Wert im entsprechenden HAWIK-IV-Index WLD (106). Dies kann auf die unterschiedliche Untertestzusammensetzung beider Test zurückgeführt werden. So erzielt sie im HAWIK-III 19 Punkte im Bilderordnen, in den WLD-Untertests Bildkonzepte und Matrizen-Test jedoch nur 10 beziehungsweise 11 Punkte. Dies deutet auf Stärken des Mädchens eher im sozialen Bereich als im logischen Denken und räumlichen Vorstellungsvermögen hin. Ein achtjähriges Mädchen erhält im HAWIK-III einen Gesamt-IQ von 115 und im HAWIK-IV einen Gesamt-IQ von 93. Der Unterschied beträgt demnach 22 IQ-Punkte (also fast 1.5 SD) und kann nicht auf den Lerneffekt zurückgeführt werden, da das Kind zuerst den HAWIK-III durchführte. Die Ursache für diese hohe Differenz liegt vor allem an den Untertests des WO bzw. des WLD: Der WO-IQ des Mädchens beträgt 118, der WLD-IQ jedoch nur 98. Dies lässt sich ebenfalls auf die unterschiedliche Untertestzusammensetzung zurückführen. Während das Mädchen überdurchschnittliche Werte im Bilderordnen und Figurenlegen erzielt (jeweils 16 Wertpunkte), schneidet es in den neuen Untertests Bildkonzepte und Matrizen-Test mit jeweils 9 Punkten nur durchschnittlich ab. Bei einem zehnjährigen Jungen führen durchschnittliche Werte in den Untertests Bildkonzepte und Matrizen-Test und weit überdurchschnittliche Werte im Bilderordnen und Figurenlegen zu einer Differenz von 23 Wertpunkten (112 gegenüber 135), was ihm auf handlungsbezogener Ebene im HAWIK-III die Diagnose einer Hochbegabung, im HAWIK-IV jedoch nur einer normalen Begabung einbringen würde. Ein achtjähriges Mädchen erzielt im WLD nur 69 IQ-Punkte gegenüber 100 IQ-Punkten im WO. Es würde somit im HAWIK-IV hinsichtlich der Fähigkeit zum wahrnehmungsgebundenen logischen Denken an der Grenze zur Intelligenzminderung liegen, die Fähigkeit zur Wahrnehmungsorganisation im HAWIK-III würde jedoch als absolut durchschnittlich gelten. Auch in anderen Indizes führt die unterschiedliche Untertestzusammensetzung zu stark abweichenden Ergebnissen. So erhält ein zehnjähriges Mädchen beim UA-Index des HAWIK-III 88 IQPunkte, beim entsprechenden HAWIK-IV-Index AGD jedoch einen IQ-Wert von 120. Dies ist zum Teil darauf zurückzuführen, dass sich das Rechnerische Denken als schwächster Untertest des Mädchens erweist, das im HAWIK-III in den Index einfließt und im HAWIK-IV nur noch optional eingesetzt wird. Bei einem 13-jährigen Mädchen macht die Auslagerung des Rechnerischen Denkens zu einem optionalen Untertest einen Unterschied zwischen den entsprechenden Indizes von 22 Wertpunkten aus (98 im UA gegenüber 120 im AGD). Dies zeigt sich auch in umgekehrter Hinsicht bei Kindern, deren Stärke das rechnerische Denken darstellt. Sie schneiden im Index UA besser ab als im AGD. Bei anderen Kindern ist der große Unterschied zwischen diesen beiden Indizes dadurch zu erklären, dass sie Schwierigkeiten mit dem Untertest Buchstaben-Zahlen-Folgen hatten und daher im HAWIK-IV schlechter abschnitten als im HA- Kapitel 9 Diskussion der Ergebnisse 190 WIK-III, obwohl sie im Zahlen nachsprechen und Rechnerischen Denken der beiden Testversionen die gleichen Wertpunkte erreichten. Auch im SV sind solche Abweichungen zu beobachten. Ein achtjähriger Junge erzielt im HAWIKIII einen SV-IQ von 147 und im HAWIK-IV von 126. Der Grund für die Abweichung liegt im Untertest Allgemeines Wissen, der mit jeweils 18 Wertpunkten seinen besten Untertest darstellt, im HAWIK-IV jedoch nur noch ein optionaler Untertest ist. Wie diese Beispiele verdeutlichen, sollte beim Vergleich beider Tests die unterschiedliche Untertestzusammensetzung berücksichtigt werden, die teilweise gänzlich unterschiedliche Fähigkeiten erfassen. 9.7.2 Klinische Relevanz Die Folgen, die daraus resultieren, welche der beiden Testversionen HAWIK-III und HAWIK-IV zur Intelligenzdiagnostik herangezogen werden, verdeutlicht folgendes Beispiel: Ein siebenjähriger Junge erzielt im HAWIK-III einen Gesamt-IQ von 77, im HAWIK-IV erhält er jedoch nur 64 IQ-Punkte. Wäre das Kind im Zuge einer diagnostischen Abklärung mit dem HAWIK-III getestet worden, wäre eine Lernbehinderung diagnostiziert worden, während die Leistung im HAWIK-IV im Bereich einer leichten geistigen Behinderung liegt. Allerdings wurde bei diesem Kind der HAWIK-IV zuerst durchgeführt, so dass der Unterschied vermutlich auch durch den Lerneffekt erklärt werden kann. 9.7.3 Unterschiedliche Normierung Manche Differenzen können mit der unterschiedlichen Normierung beider Testversionen begründet werden. So erhält ein Kind, das im Wortschatz-Test des HAWIK-III nur zwei Rohwerte mehr erreicht als im HAWIK-IV, dafür im HAWIK-III neun Wertpunkte mehr. Ein achtjähriges Kind erhält im Wortschatz-Test des HAWIK-III für die Hälfte der möglichen Rohwerte (30 von 60) schon die maximale Punktzahl (19 Wertpunkte). Hier liegen die Ursachen für die Differenz also nicht im Lerneffekt oder anderen Störvariablen, sondern in der Normierung des HAWIK-III. Dieses Phänomen zeigt sich teilweise auch im Gemeinsamkeiten finden. 9.7.4 Inhaltliche Veränderungen der Untertests Unter Bezugnahme auf die Aktualisierung der theoretischen Grundlagen wurden im HAWIK-IV einige Änderungen vorgenommen (siehe Kapitel 4.5.1). Welchen Einfluss diese Änderungen auf die Vergleichbarkeit beider Testversionen haben können, soll an einigen Beispielen aufgezeigt werden. So weisen die Ergebnisse eines zwölfjährigen Jungen im Mosaik-Test eine Differenz von fünf Wertpunkten zwischen HAWIK-III und -IV (6 und 11 Wertpunkte) auf. Da der HAWIK-IV zuerst vorgelegt wurde, kann die Differenz nicht im Lerneffekt begründet sein. Die Untertestprofile beider Tests, die unterdurchschnittliche Ergebnisse bei zeitabhängigen Unter- Kapitel 9 Diskussion der Ergebnisse 191 tests wie Figurenlegen oder Zahlen-Symbol-Test aufweisen, deuten darauf hin, dass das Ergebnis aus der Verringerung der Zeitkomponente im Mosaik-Test des HAWIK-IV resultiert. Das Kind scheint Schwierigkeiten mit Zeitbegrenzungen zu haben und kam deshalb beim MosaikTest trotz gleich viel gelöster Aufgaben zu mehr Wertpunkten im HAWIK-IV, da es im HAWIK-III keine Zeitbonuspunkte erhielt und somit schlechter abschnitt als andere Kinder seines Alters, die Zeitbonuspunkte erhielten. 9.7.5 Veränderungen der Untertestreihenfolge Ein Untertest, bei dem die unterschiedliche Position im Test zu deutlich voneinander abweichenden Testergebnissen führen kann, stellt das Zahlen nachsprechen dar, das von der letzten auf die dritte Position vorverlegt wurde. Insgesamt weisen 11 Kinder und Jugendliche dieser Stichprobe (das entspricht knapp 5 % der Gesamtstichprobe) mehr als drei Wertpunkte (also mehr als eine Standardabweichung) Differenz zwischen beiden Zahlen nachsprechenUntertests auf und zeigen dabei die bessere Leistung in dem Test, den sie zuerst durchführten, was bei ihnen den Lerneffekt als Ursache ausschließt. Der Großteil dieser Kinder (acht von elf) zeigt schlechtere Leistungen im HAWIK-III, obwohl sie den HAWIK-IV zuerst durchführten und demnach im HAWIK-III angesichts des Lerneffekts besser hätten sein müssen. Dies deutet darauf hin, dass hier die ungünstigere Untertestposition des Zahlennachsprechens im HAWIK-III (Ermüdung, mangelnde Konzentration, Motivation etc. zum Ende der Testung) den Ausschlag für die deutlich geringere Wertpunktzahl gegeben hat. Ein weiterer Untertest, der eine deutlich andere Position eingenommen hat, ist der MosaikTest, der von der siebten auf die erste Stelle verschoben wurde. Diese Veränderung erweist sich vor allem bei ängstlichen Kindern als bedeutsam, da sie zu Beginn der Testung oftmals noch unsicher sind und dementsprechend schwächere Leistungen zeigen. So erreicht ein sechsjähriges Mädchen bei Erstvorgabe des HAWIK-IV im Mosaik-Test dieser Testversion 6 Punkte und im HAWIK-III 11 Punkte. Insgesamt weist das Profil zum einen steigende Werte zur Mitte der HAWIK-IV-Testung und zum anderen schlechtere zu Beginn des HAWIK-III auf (5 Punkte im Allgemeinen Wissen und 7 Punkte im Bilderergänzen). Es scheinen demzufolge persönlichkeitsspezifische Charaktereigenschaften des Mädchens zu stark voneinander abweichende Leistungen im gleichen Untertest in beiden Testversionen zu führen. Gleiches ergibt sich bei einem elfjährigen Mädchen, dessen Ergebnisse im Bilder ergänzen acht Wertpunkte Differenz aufweisen (9 Wertpunkte im HAWIK-III, in dem der Test an erster Position vorgegeben wird gegenüber 17 Wertpunkte im HAWIK-IV, in dem der Test die 11. Position belegt). Da der HAWIK-IV vor dem HAWIK-III durchgeführt wurde, kann die Differenz nicht auf Lerneffekte zurückgeführt werden. Vielmehr scheinen Startschwierigkeiten, beispielsweise auf Testangst begründet, ursächlich zu sein. Kapitel 9 Diskussion der Ergebnisse 192 9.7.6 Zusammenfassung der Einzelfallbetrachtungen An den Analysen einzelner Testergebnisse konnten die Auswirkungen der Veränderungen zwischen HAWIK-III und -IV auf die Vergleichbarkeit beider Testergebnisse demonstriert werden. Im Einzelfall können demnach durch die unterschiedlichen Testversionen erhebliche Ergebnisdifferenzen auftreten. Dabei erweisen sich in den Einzelfalldarstellungen folgende Unterschiede als ursächlich für die stark voneinander abweichenden Ergebnisse: Veränderungen in der Untertestzusammensetzung der Indizes, die unterschiedliche Normierung beider Testversionen, inhaltliche Veränderungen der Untertests sowie Veränderungen der Untertestreihenfolge. Wie die Analysen aufgezeigt haben, kann die Entscheidung für eine Testversion vereinzelnd sogar die Diagnosestellung beeinflussen. Insgesamt sollten die Analysen den Anwender dazu veranlassen – auch wenn sich insgesamt hohe Korrelationen zwischen beiden Testversionen ergeben haben –im Einzelfall die Ergebnisse vorsichtig zu interpretieren. Schließlich können sich im Einzelfall auch dann Effekte zeigen, wenn sie sich in der Gruppe nicht nachweisen lassen. Zhu und Tulsky (2000) empfehlen, sich sensibel für Effekte wie Testreihenfolge und unterschiedliche situative Bedingungen zu zeigen. Die abweichenden Ergebnisse einzelner Befunde deuten außerdem auf die Bedeutsamkeit von Störeinflüssen wie der Tagesform oder der Motivation der Testperson hin. Damit unterstützt diese Studie die Kritik an der Intelligenzdiagnostik, sie sei nur als Statusdiagnostik zu bewerten, die lediglich Aussagen über den jeweils aktuellen Leistungs- und Entwicklungsstand zulasse (siehe Kapitel 5.3). 9.8 Ausblick und Einschränkungen Obwohl sich zunächst die Testentwickler verantwortlich für Validitätsnachweise zeigen, liegt es letztendlich in der Hand des Testanwenders, für sich herauszufinden, inwieweit diese Nachweise die Anwendung des Tests für den ihm angedachten Zweck ausreichend unterstützen (Wechsler, 2003b). 9.8.1 Perspektiven für die Praxis Aufgrund der Interpretationsprobleme und dem Mangel an ausreichender Forschung zum Thema der Vergleichbarkeit zweier Testversionen empfehlen Strauss et al. (2000) den Testanwendern – je nach Zweck ihrer Untersuchung – eine Kombination von Richtlinien. Im Folgenden werden nur die Richtlinien angegeben, die für die hier gegenständliche Art von Testrevision gültig sind: Kapitel 9 Diskussion der Ergebnisse 193 Konnte eine Normverschiebung (z. B. durch einen großen Flynn-Effekt) nachgewiesen werden, sollte die überarbeitete Version verwendet werden. Erfasst die aktuellere Version erfolgreich neue und bedeutsame Konstrukte, ist sie der älteren Version klar vorzuziehen. Sind neue Normen vorhanden, sollten nur diese verwendet werden. Bei Vorher-Nachher-Testungen sollte immer die gleiche Version verwendet werden. Entscheidungsregeln, die auf unterschiedlichen Testversionen beruhen, sollten vermieden werden. Wenn die Faktorenstrukturen voneinander abweichen, sollte beim Vergleich beider Versionen die Interpretation der Gesamtwerte vermieden werden. Es sollte sich nur auf die Komponenten beschränkt werden, die in beiden Versionen äquivalent erscheinen. Es sollten generell stets mehrere Messinstrumente zur Messung eines Konstrukts verwendet werden. Unter Bezugnahme auf diese Kriterien sollte im Hinblick auf den HAWIK im Regelfall immer der HAWIK-IV zum Einsatz kommen. So zeigt sich ein Flynn-Effekt im Vergleich des HAWIK-IV mit seinem Vorgängerverfahren, dem HAWIK-III. Wie in Kapitel 5.2.2 ausführlich geschildert, kann die Verwendung älterer Testversionen angesichts des Flynn-Effekts in eine geringere Anzahl an Diagnosen von Entwicklungsbeeinträchtigungen münden, so dass vorhandene Beeinträchtigungen nicht ernst genommen werden (Strauss et al., 2000). Testergebnisse sollten auf normativen Informationen basieren, die sowohl aktuell als auch repräsentativ für die jeweilige Population sind. Es wird davon ausgegangen, dass Normen von Intelligenztests spätestens nach 15 Jahren als ungültig gelten und durch neue Vergleichswerte zu ersetzen sind (Kanaya et al., 2005). Die Normen des HAWIK-III wurden zwischen 1995 und 1998 erhoben. Demnach sind die erhobenen HAWIK-III-Werte mittlerweile bis zu 14 Jahre alt. Außerdem konnte nachgewiesen werden, dass für die WISC-IV und damit auch den HAWIK-IV erfolgreich Änderungen in der Erfassung kognitiver Fähigkeiten vorgenommen wurden, die als wichtige Konstrukte im Bereich der Intelligenzdiagnostik gelten. Einzig im Bereich der Verlaufsdiagnostik, beispielsweise bei Testungen vor und nach einer Therapie, ist es angebracht, erneut auf den HAWIK-III zurückzugreifen, wenn er bereits vor der Maßnahme durchgeführt wurde. Nur so können Veränderungen im Leistungsprofil des Kindes auf tatsächliche Leistungsveränderungen zurückgeführt werden, ohne dass Verzerrungen wie Unterschiede in den Tests oder veraltete Normen berücksichtigt werden müssen. Allerdings müssen in diesem Fall mögliche Lerneffekte unbedingt berücksichtigt werden. Liegt die erste Testung mehrere Jahre zurück, kann zwar ein Lerneffekt ausgeschlossen werden, jedoch kann dann bereits der FlynnEffekt zum Tragen kommen. Auch die Einzelfallbetrachtungen zeigen gravierende Auswirkun- Kapitel 9 Diskussion der Ergebnisse 194 gen auf die Ergebnisse durch Veränderungen in den Untertests und der Teststruktur. In Einzelfällen kann dies Folgen für Schulformentscheidungen, Diagnosestellungen oder Therapieplanungen haben. Daher sollte bei einer Wiederholungstestung für die Katamnese unbedingt auf das ursprünglich eingesetzte Verfahren zurückgegriffen werden. Analysen zum Zusammenhang beider Versionen ergaben jedoch hohe Korrelationen. Somit scheinen der HAWIK-III und -IV trotz inhaltlicher und struktureller Unterschiede dasselbe Konstrukt zu erfassen. Unter Berücksichtigung der Erkenntnisse, die aus der vorliegenden Studie gezogen werden können, scheint es demnach zulässig, die Ergebnisse beider Testversionen miteinander zu vergleichen. Als Richtlinie sollten dabei die erwarteten Werte und ihre Konfidenzintervalle (siehe Kapitel 8.8.4) herangezogen werden. Sie bieten eine praktische Hilfestellung bei der Einschätzung der Ergebnisse hinsichtlich potentieller Veränderungen der Leistungen eines Kindes nach einer psychologischen und/oder medizinischen Behandlung oder pädagogischen Maßnahme. Auch wenn in den Faktorenanalysen, in die sämtliche Untertests beider Testversionen einbezogen wurden, sowohl die Untertests des WO und WLD als auch die Untertests der Indizes UA und AGD auf einem gemeinsamen Faktor laden, scheint auf Grund der anderen Ergebnissen dieser Studie (z. B. Regressionsanalysen und Korrelationen) ein Vergleich dieser Indizes zumindest nur eingeschränkt möglich zu sein. Dabei liegen die Veränderungen nicht nur in den unterschiedlichen Untertests, sondern auch in den damit verbundenen unterschiedlichen kognitiven Fähigkeiten, die in den Indizes erfasst werden (siehe Tabelle 4.4 und Tabelle 4.6). Außerdem scheinen identische Wertpunkte, beispielsweise in den Indizes WO und WLD, nicht gleichbedeutend damit zu sein, dass das Kind in beiden Indizes identische Leistungen gezeigt hat oder dass die Tests dasselbe messen. Genauso bedeutet eine IQ-Steigerung von WO zu WLD nicht zwangsläufig eine Verbesserung der Leistung des Kindes. Durch die Standardisierung auf ein Mittel von 10 Wert- bzw. 100 IQ-Punkten bedeuten jeweils 10 Wertpunkte bzw. ein IQ von 100 in beiden Testversionen lediglich, dass das Kind verglichen mit Kindern des gleichen Alters ein durchschnittliches kognitives Niveau aufweist. Für die Praxis kann aus den Regressions- und Korrelationsanalysen dieser Studie zudem die Schlussfolgerung abgeleitet werden, dass es sinnvoll ist, einige optionale Untertests weiterhin durchzuführen, im Besonderen das Allgemeine Wissen. Dieser Untertest erweist sich sowohl in der vorliegenden als auch in anderen Studien als aussagekräftiger Untertest zur Erfassung kristalliner und allgemeiner Intelligenz. Ein zusätzlicher Informationsgewinn durch die Durchführung der optionalen Untertests Durchstreich-Test und Begriffe erkennen konnte dahingegen anhand der Ergebnisse dieser Studie nicht nachgewiesen werden. Kapitel 9 Diskussion der Ergebnisse 195 In den Analysen dieser Studie stellen sich die Ergebnisse der Untertests als deutlich heterogener dar als die der Indizes und des Gesamt-IQ. Demnach stellt sich die Interpretation der übergeordneten Werte als aussagekräftiger dar als die Interpretation der Untertests. Wie in der Diskussion über einen g-Faktor (siehe Kapitel 3.6) dargestellt, sprechen sich diverse Forscher gegen eine Interpretation des Gesamt-IQ im Sinne eines g-Faktors aus. Fällt die Entscheidung bei der Testwahl zur Erfassung der kognitiven Leistungen eines Kindes jedoch auf einen Wechsler-Test, stellt die Interpretation des Gesamt-IQ zwangsläufig einen wichtigen Aspekt dar. Da sich der g-Faktor jedoch als Konstrukt aus vielen Teilfunktionen zusammensetzt, wird bei einer großen Abweichung innerhalb der Indizes (mehr als 1.5 SD Differenz zwischen zwei Indizes) davon abgeraten, den Gesamt-IQ zu interpretieren (mehr dazu siehe Daseking et al., in Druck; Flanagan & Kaufman, 2004) 9.8.2 Einschränkungen der Studie Intelligenztests unterliegen diversen Einschränkungen (siehe Kapitel 5.3), die auch für die Ergebnisse dieser Studie berücksichtigt werden müssen. Mit Hilfe der Einzelfallbetrachtungen konnte verdeutlicht werden, wie stark ein Testergebnis von Störvariablen beeinflusst werden kann. So können vor allem die Daten der jüngeren Kinder nicht als frei von Störeinflüssen - wie einer unterschiedlichen Tagesform, dem Motivationslevel oder Persönlichkeitsveränderungen des Kindes - gesehen werden. Dies gilt vor allem für die Kinder, die erst nach einem längeren Zeitraum erneut getestet wurden. Für diese Stichprobe können auch Lernzuwächse zu verzerrten Ergebnissen geführt haben. Jedoch können die Gütekriterien beider Testversionen als ausreichend erfüllt betrachtet werden und dürften somit generell nicht zu einer Verzerrung der Ergebnisse beitragen. Lediglich die Objektivität der Wechsler-Skalen sollte kritisch gesehen werden (siehe Kapitel 4.4.1). So kann die Durchführungsobjektivität nicht vollständig gewährleistet werden. Da die Testungen dieser Studie jedoch größtenteils von der Verfasserin sowie von wenigen erfahrenen, intensiv geschulten und supervidierten Testleitern durchgeführt wurden, konnten Fehler in der Testdurchführung minimiert werden. Einschränkungen in der Auswertungsobjektivität können weitestgehend ausgeschlossen werden, da die Testprotokolle nur von der Verfasserin ausgewertet wurden, die an der Entstehung des Manuals beteiligt war und im Zuge der Normierung ausgiebig mit dem Test und den Auswertungsrichtlinien vertraut wurde. Neben den allgemeinen Einschränkungen hinsichtlich der Interpretation von Intelligenztests führt auch das Design dieser Studie zu einigen Einschränkungen, die bei der Interpretation der Ergebnisse beachtet werden sollten. So erweist sich die Stichprobe durch die Unterteilung in Untergruppen teilweise als relativ klein. Vor allem die Analysen in der gematchten Stichprobe können aus diesem Grund nur als Kapitel 9 Diskussion der Ergebnisse 196 eingeschränkt aussagefähig gelten. Bei der Berechnung der erwarteten Werte (siehe Kapitel 8.8.4) musste aufgrund fehlender Daten für einige Werte auf eine künstliche Umrechnung per Hand zurückgegriffen werden (siehe auch 7.5.4.2). Da die Gesamtstichprobe jedoch einen ähnlichen Umfang wie vergleichbare Studien aufweist und diese den wichtigsten Ergebnissen und Interpretationen zu Grunde liegt, kann ihr Umfang insgesamt als ausreichend betrachtet werden. Allerdings ergeben sich Einschränkungen in der Interpretierbarkeit, da die Intelligenztestergebnisse der vorliegenden Stichprobe insgesamt zu gut ausgefallen sind. Mit einem mittleren IQ von 108.9 (HAWIK-III) beziehungsweise 106.3 (HAWIK-IV) liegen die Werte der Stichprobe deutlich über dem Mittelwert von 100 der Normierungsstichprobe. Eine weitere Einschränkung ergibt sich durch die große Varianz der Länge des Re-Testintervalls in der Stichprobe mit langem Intervall. So variiert der Abstand zwischen erster und der zweiter Testung im langen Intervall deutlich (die SD der Varianz liegt bei etwas mehr als fünf Monaten). Diese große Varianz kann dazu führen, dass die Kinder dieser Teilstichprobe deutlich unterschiedliche Lernzuwächse oder allgemeine Reifungsprozesse zwischen beiden Testungen aufweisen. Möglicherweise kann dies die Ergebnisse des Vergleichs zwischen erster und zweiter Testung im langen Intervall verzerren. Hier wäre es zudem wichtig gewesen, Informationen über mögliche therapeutische oder medizinische Behandlungen, die Tagesform des Kindes zu beiden Testzeitpunkten sowie eventuelle Medikation zu erheben. Somit hätte ausgeschlossen werden können, dass die Unterschiede zwischen den Ergebnissen beider Testungen auf diese Variablen zurückzuführen sind. Eine Erfassung des Motivationslevels des Kindes während der beiden Testungen hätte zudem den Einfluss unterschiedlich hoher Motivation des Kindes bei der Bearbeitung der Aufgaben ausschließen können. In dieser Studie wurde zum Vergleich der Testversionen auf statistische und methodische Standardverfahren zurückgegriffen, die auch in vergleichbaren Studien mit Intelligenzskalen zum Einsatz kamen. Die Durchführung eines komplexeren statistischen Verfahrens wie eines Strukturgleichungs- bzw. Pfadmodells wäre sinnvoll gewesen, um komplexere Vergleiche zu ermöglichen, in denen Messfehler und Störvariablen stärkere Berücksichtigung finden. Dies wurde jedoch zu Gunsten einer Betonung der Vergleiche zwischen einzelnen Testkomponenten verworfen. Es stand demnach weniger die Strukturüberprüfung als vielmehr der inhaltliche Vergleich der verschiedenen Testkomponenten sowie die Untersuchung der Störeinflüsse im Vordergrund. Durch die Einzelfalldarstellungen wurde zusätzlich verdeutlicht, welche Bereiche des Testverfahrens besonders von den inhaltlichen Änderungen zwischen den Testversionen betroffen sind. Kapitel 9 Diskussion der Ergebnisse 197 9.8.3 Forschungsperspektiven In zukünftigen Studien sollte die Stichprobe hinsichtlich des kognitiven Niveaus der Kinder ausgeglichener gestaltet werden. So sollte versucht werden, Kinder und Jugendliche aus sämtlichen Schulformen zu untersuchen, um einen Querschnitt zu erhalten, der die Normierungsstichprobe besser repräsentiert. Außerdem wäre es wünschenswert, weniger Varianz in den Abständen zwischen den Testungen zu erreichen, damit von identischen Lern- und Reifungsprozessen von der ersten zur zweiten Testung ausgegangen werden kann. Zudem kann es sinnvoll sein, den Vergleich beider Testversionen auf Grundlage eines Strukturgleichungsmodells vorzunehmen, um Störeinflüsse besser berücksichtigen und simultane aufeinander bezogene Berechnungen vornehmen zu können, die ein übersichtlicheres Bild über die strukturellen Veränderungen zwischen beiden Testversionen geben. Sollen die Ergebnisse eher der Forschung als der praktischen Anwendung dienen, könnte es zusätzlich sinnvoll sein, die Berechnungen hinsichtlich der Indizes und Gesamtwerte nicht unter Bezugnahme auf die IQ-Werte, sondern die Wertpunktsummen vorzunehmen. Dies würde eine lineare Abhängigkeit zwischen den Untertests und den Indizes gewährleisten. Bei der Untersuchung des Lerneffekts zeigten sich Mittelwertveränderungen, die auf allgemeine Reifungsprozesse und Lernzuwächse zurückgeführt werden können. Diese machten eine hohe Bildungsabhängigkeit, vor allem in den sprachlichen Untertests wie dem Allgemeinen Verständnis, deutlich. Demzufolge können die Ergebnisse in diesen Untertests womöglich stark von der besuchten Klassenstufe des Kindes abhängen. Daher wäre zu überlegen, die Normen nicht auf Grundlage von Alters- sondern von Klassenstufen zu erheben. So stellt es sich als bedeutsam dar, ob ein sechsjähriges Kind zum Zeitpunkt der Testung bereits die Schule oder noch den Kindergarten besucht. Die Veränderungen vom HAWIK-III zum HAWIK-IV spiegeln die Trends in der Intelligenzforschung wider, auf bestimmte kognitive Bereiche wie der fluiden Intelligenz, dem Arbeitsgedächtnis und der Verarbeitungsgeschwindigkeit gesteigerten Wert zu legen. Die Erfassung dieser Fähigkeiten hat an Bedeutung zugenommen und wurde aus diesem Grund im HAWIK-IV stärker berücksichtigt, als dies im HAWIK-III der Fall war. Es wird jedoch weiterhin kritisiert, dass der HAWIK-IV nur wenige der kognitiven Fähigkeiten adäquat erfasst, die in aktuellen Intelligenztheorien als wichtige Faktoren der Intelligenz erachtet werden. Dies sollte bei der Entwicklung zukünftiger Testversionen berücksichtigt werden, darf jedoch nicht dazu führen, den Wechsler-Skalen ihr „Gesicht“ zu nehmen und die Untertests nicht zu berücksichtigen, die sich als praktisch und klinisch bedeutsam herausgestellt haben. Zusammenfassung 198 Zusammenfassung Die Erfassung der Intelligenz zählt zu den wichtigsten Aspekten der psychologischen Leistungsdiagnostik. Auch wenn weiterhin umstritten ist, wie Intelligenz definiert werden kann, beschäftigen sich unzählige Forschungsarbeiten mit der Struktur der kognitiven Fähigkeiten des Menschen. Diese Modelle haben großen Einfluss auf die Entwicklung von Intelligenztestverfahren. Aufgrund veralteter Normen und neuer Erkenntnisse im Bereich der Intelligenzstrukturforschung stellt es sich als notwendig dar, Intelligenztestverfahren in regelmäßigen Abständen zu modifizieren und neu zu normieren. Dies gilt auch für die Wechsler-Skalen, die zu den weltweit wichtigsten Intelligenztests zählen. Für den Testanwender ist es dabei von großer Bedeutung, inwieweit das modifizierte Verfahren mit seinem Vorgänger vergleichbar ist. Die vorliegende Studie befasst sich mit dem Vergleich zwischen HAWIK-III (im Jahr 1999 erschienen) und HAWIK-IV (im Jahr 2007 erschienen), beides Versionen des WechslerIntelligenztests für Kinder und Jugendliche zwischen 6 und 16 Jahren. Dabei wurden Störeinflüsse wie der Lern- und Flynn-Effekt untersucht. Beide Störeffekte konnten für die Kinder und Jugendlichen dieser Studie nachgewiesen werden und müssen demnach bei der Interpretation der Ergebnisse berücksichtigt werden. In dieser Studie zeigen sich sehr hohe Korrelationen zwischen den Gesamt-IQ beider Testversionen. Es kann also davon ausgegangen werden, dass beide Versionen dasselbe Konstrukt erfassen. Auch auf Ebene der Indizes konnten sehr hohe Zusammenhänge nachgewiesen werden. Dabei ergaben sich bei den Indizes höhere Korrelationen, die weniger Veränderungen von HAWIK-III zu HAWIK-IV aufweisen. Dagegen zeigten diejenigen Indizes niedrigere Zusammenhänge, bei denen einschneidende Veränderungen vorgenommen wurden. So lässt die zusätzliche Untersuchung der Höhe der Varianzaufklärung der Untertests auf die Indizes die Schlussfolgerung zu, dass die stark veränderten Indizes nur eingeschränkt miteinander vergleichbar sind. Die Faktorenstruktur beider Testversionen konnte jedoch repliziert werden. Um dem Testanwender eine Richtlinie zu bieten, welche HAWIK-IV-Werte zu erwarten sind, wenn die mit dem HAWIK-III erhobenen Ergebnisse vorliegen, wurden die erwarteten Werte und ihre Konfidenzintervalle berechnet und für ausgewählte IQ-Werte tabellarisch dargestellt. An den Zusammenhangsanalysen und Einzelfallbetrachtungen wird deutlich, wie sich die Entscheidung für eines der beiden Testversionen auf die Ergebnisse und damit einhergehenden Diagnosen auswirken kann. Aufgrund der Ergebnisse der vorliegenden Studie kann die Richtlinie aufgestellt werden, im Regelfall den aktuelleren HAWIK-IV dem Vorgängerverfahren HAWIK-III vorzuziehen. Einzig im Rahmen der Verlaufsdiagnostik sollte der HAWIK-III weiterhin Anwendung finden, sofern er bereits in der Eingangsdiagnostik eingesetzt wurde. Literaturverzeichnis 199 Literaturverzeichnis Aiken, L. R. (Ed.). (2003). Psychological testing and assessment (11th ed.). Boston: Pearson. Alfonso, V. C., Flanagan, D. P. & Radwan, S. (2005). The impact of the Cattell-HornCarroll theory on test development and interpretation of cognitive and academic abilities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd ed., pp. 185-202). New York: Guilford. Alfonso, V. C., Johnson, A., Patinella, L. & Rader, D. E. (1998). Common WISC-III examiner errors: Evidence from graduate students in training. Psychology in the Schools, 35, 119-125. Amelang, M. & Schmidt-Atzert, L. (2006). Psychologische Diagnostik und Intervention. Heidelberg: Springer Medizin. American Educational Research Association, American Psychological Association & National Council on Measurement in Education (1999). Standards for educational and psychological testing. Washington: Author. Anastasi, A. & Urbina, S. (Eds.). (1997). Psychological testing (7th ed.). Upper Saddle River: Prentice Hall. Angoff, W. H. (1988). Validity: An evolving concept. In H. Wainer & H. I. Braun (Eds.), Test validity. Hillsdale: Erlbaum. Baltes, P. B. (1983). Life-span developmental psychology: Observations on history and theory revisited. In R. M. Lerner (Ed.), Developmental psychology: Historical and philosophical perspectives (pp. 79-111). Hillsdale: Erlbaum. Belter, R. W. & Piotrowski, C. (2001). Current status of doctoral-level training in psychological testing. Journal of Clinical Psychology, 57, 717-726. Beres, K. A., Kaufman, A. S. & Perlman, M. D. (2000). Assessment of child intelligence. In G. Goldstein & M. Hersen (Eds.), Handbook of psychological assessment (3rd ed., pp. 65-96). Kindlington, Oxford, United Kingdom: Elsevier Science. Bickley, P. G., Keith, T. Z. & Wolfle, L. M. (1995). The Three-Stratum Theory of Cognitive Abilities: Test of the structure of intelligence across the life span. Intelligence, 20, 309-328. Binet, A. & Simon, T. (1916). The development of intelligence in children (Originally published in 1905). Baltimore: Williams & Wilkins. Birke, M. & Lehn, B. (in Druck). Intellektuelle Hochbegabung. In F. Petermann & M. Daseking (Hrsg.), Fallbuch zum HAWIK-IV. Göttingen: Hogrefe. Bjorklund, D. F. & Schneider, W. (2006). Ursprung, Veränderung und Stabilität der Intelligenz im Kindesalter: Entwicklungspsychologische Perspektiven. In W. Schneider & B. Sodian (Hrsg.), Enzyklopädie der Psychologie (Serie V Entwicklungspsychologie, Bd. 2, S. 770-821). Göttingen: Hogrefe. Blaha, J. & Wallbrown, F. H. (1996). Hierarchical factor structure of the Wechsler Intelligence Scale for Children-III. Psychological Assessment, 8, 214-218. Literaturverzeichnis 200 Bölte, S., Adam-Schwebe, S., Englert, E., Schmeck, K. & Poustka, F. (2000). Zur Praxis der psychologischen Testdiagnostik in der deutschen Kinder- und Jugendpsychiatrie: Ergebnisse einer Umfrage. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 28, 151-161. Bondy, C. (1956). Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE). Bern: Huber. Borsuk, E. R., Watkins, M. W. & Canivez, G. L. (2006). Long-term stability of membership in a Wechsler Intelligence Scale for Children-Third Edition (WISC-III) subtest core profile taxonomy. Journal of Psychoeducational Assessment, 24, 5268. Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6., vollst. überarbeitete und aktual. Aufl.). Heidelberg: Springer Medizin. Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation: für Human- und Sozialwissenschaftler (4., überarbeitete Aufl.). Heidelberg: Springer Medizin. Bortz, J. & Döring, N. (Hrsg.). (2002). Forschungsmethoden und Evaluation. Für Humanund Sozialwissenschaftler (3. Aufl.). Berlin: Springer. Braaten, E. B. & Norman, D. (2006). Intelligence (IQ) testing. Pediatrics in Review, 27, 403-408. Bracken, B. A. (1988). Ten psychometric reasons why similar tests produce dissimilar results. Journal of School Psychology, 26, 155-166. Bracken, B. A. (1992). The interpretation of tests. In M. Zeidner & R. Most (Eds.), Psychological testing. An inside view (pp. 119-156). Palo Alto: Consulting Psychologists. Braden, J. P. & Niebling, B. C. (2005). Evaluating the validity evidence for intelligence tests using the joint test standards. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary Intellectual Assessment (2nd ed., pp. 615-630). New York: Guilford. Brody, N. (2000). History of theories and measurements of intelligence. In R. J. Sternberg (Ed.), Handbook of intelligence (pp. 16-33). Cambridge: Cambridge University. Brody, N. (2003a). Construct validation of the Sternberg Triarchic Abilities Test: Comment and reanalysis. Intelligence, 31, 319-329. Brody, N. (2003b). What Sternberg should have concluded. Intelligence, 31, 339-342. Brody, N. (2005). To g or not to g - that is the question. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 489-502). Thousand Oaks: Sage. Bründler, M., Bürkli, M., Christen, S., Müller, W., Sonderegger, P. & Wolf, K. (2007). Schulpsychologie und Begabungsförderung. Ein Beitrag zur Qualitätsentwicklung und Qualitätssicherung für Schulpsychologische Dienste. Luzern: VippPraxisforschung. Bühner, M. (2004). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium. Literaturverzeichnis 201 Burt, C. (1949). The structure of the mind; a review of the results of factor analysis. British Journal of Educational Psychology, 19, 176-199. Calhoun, S. L. & Mayes, S. D. (2005). Processing speed in children with clinical disorders. Psychology in the Schools, 42, 333-343. Camara, W. J., Nathan, J. S. & Puente, A. E. (2000). Psychological test usage: Implications in professional psychology. Professional Psychology: Research and Practice, 31, 141-154. Canivez, G. L. & Watkins, M. W. (1999). Long-term stability of the Wechsler Intelligence Scale for Children-Third Edition among demographic subgroups: Gender, race/ethnicity, and age. Journal of Psychoeducational Assessment, 17, 300-313. Carpenter, P. A., Just, M. A. & Shell, P. (1990). What one intelligence test measures: A theoretical account of the processing in the Raven Progressive Matrices Test. Psychological Review, 97, 404-431. Carroll, J. B. (1992). Cognitive abilities: The state of the art. Psychological Science, 3, 266-270. Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. New York: Cambridge University. Carroll, J. B. (1994). Primary mental abilities theory. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (2nd ed., pp. 833-836). New York: Macmillan. Carroll, J. B. (1997a). Commentary on the Keith and Witta`s hierarchical and cross-age confirmatory factor analysis of the WISC-III. School Psychology Quarterly, 12, 108-109. Carroll, J. B. (1997b). The Three-Stratum Theory of Cognitive Abilities. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and Issues (pp. 122-130). New York: Guilford. Carroll, J. B. (2003). The higher-stratum structure of cognitive abilities: Current evidence supports g and about ten broad factors. In H. Nyborg (Ed.), The scientific structure of general intelligence. Tribute to Arthur R. Jensen. Kidlington, Oxford: Elsevier Science. Carroll, J. B. (2005). The Three-Stratum Theory of Cognitive Abilities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment- theories, tests, and issues (2nd ed., pp. 69-76). New York: Guilford. Cascio, W. F. (Ed.). (1991). Applied psychology in personnel management (4th ed.). Upper Saddle River: Prentice Hall. Catron, D. W. & Thompson, C. C. (1979). Test-retest gains in WAIS scores after four retest intervals. Journal of Clinical Psychology, 35, 352-357. Cattell, R. B. (1971). Abilities: Their structure, growth and action. Boston: Houghton Mifflin. Cattell, R. B. (1987). Intelligence: Its structure, growth and action. Amsterdam: Elsevier. Cattell, R. B. & Horn, J. L. (1978). A check on the theory of fluid and crystallized intelligence with description of new subtest designs. Journal of Educational Measurement, 15, 139-164. Literaturverzeichnis 202 Ceci, S. J. (1991). How much does schooling influence general intelligence and its cognitive components? A reassessment of the evidence. Developmental Psychology, 27, 703-722. Ceci, S. J. & Williams, W. M. (1997). Schooling, intelligence, and income. American Psychologist, 52, 1051-1058. Channel Wissenschaft. (2006). Menschen werden wieder dümmer. Med-dent-magazin [On-line]. Verfügbar unter: http://www.med-dent-magazin.de/archiv/2006/med-dent-magazin-07-06.pdf [19.12. 2008]. Cohen, J. (1996). Explaining psychological statistics. Pacific Grove: Brooks. Cole, J. C. & Randall, M. K. (2003). Comparing the cognitive ability models of Spearman, Horn and Cattell, and Carroll. Journal of Psychoeducational Assessment, 21, 160-179. Colom, R., Abad, F. J., Quiroga, M. Á., Shih, P. C. & Flores-Mendoza, C. (2008). Working memory and intelligence are highly related constructs, but why? Intelligence, 36, 584-606. Colvin, S. S. (1921). Intelligence and its measurement: A symposium-IV. Journal of Educational Psychology, 12, 136-139. Conway, A. R. A., Cowan, N., Bunting, M. F., Therriault, D. J. & Minkoff, S. R. B. (2002). A latent variable analysis of working memory capacity, short-term memory capacity, processing speed, and general fluid intelligence. Intelligence, 30, 163183. Daniel, M. H. (1997). Intelligence testing: Status and trends. American Psychologist, 52, 1038-1045. Daniel, M. H. (2007). ‘Scatter’ and the construct validity of FSIQ: Comment on Fiorello et al. (2007). Applied Neuropsychology, 14, 291-295. Das, J. P., Naglieri, J. A. & Kirby, J. R. (1994). Assessment of cognitive processes: the PASS theory of intelligence. Needham Heights: Allyn & Bacon. Daseking, M., Janke, N. & Petermann, F. (2006). Intelligenzdiagnostik. Monatsschrift Kinderheilkunde, 154, 314-139. Daseking, M., Lipsius, M., Petermann, F. & Waldmann, H.-C. (2008). Differenzen im Intelligenzprofil bei Kindern mit Migrationshintergrund: Befunde zum HAWIKIV. Kindheit und Entwicklung, 17, 76-89. Daseking, M. & Petermann, F. (2004). Testbesprechung Hamburg-WechslerIntelligenztest für Kinder III (HAWIK-III). Kindheit und Entwicklung, 13, 190-194. Daseking, M., Petermann, F. & Petermann, U. (in Druck). HAWIK-IV: Grundlagen und Auswertungsstrategien. In F. Petermann & M. Daseking (Hrsg.), Fallbuch zum HAWIK-IV. Göttingen: Hogrefe. Daseking, M., Petermann, F. & Waldmann, H.-C. (2008). Der allgemeine Fähigkeitsindex (AFI) – eine Alternative zum Gesamt-Intelligenzquotienten (G-IQ) des HAWIK-IV? Diagnostica, 54, 211-220. Daseking, M., Petermann, U. & Petermann, F. (2007). Intelligenzdiagnostik mit dem HAWIK-IV. Kindheit und Entwicklung, 16, 250-259. Literaturverzeichnis 203 Davidson, J. E. & Downing, C. L. (2000). Contemporary models of intelligence. In R. J. Sternberg (Ed.), Handbook of intelligence (pp. 33-49). Cambridge: Cambridge University. Dearborn, W. F. (1921). Intelligence and its measurement: A symposium-XII. Journal of Educational Psychology, 12, 210-212. Deary, I. J. & Smith, P. (2004). Intelligence research and assessment in the United Kingdom. In R. J. Sternberg (Ed.), International handbook of intelligence (pp. 1-48). New York: Cambridge University. Deimann, P. & Kastner-Koller, U. (2008). Testbesprechung HAWIK-IV. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 40, 161-165. Demetriou, A., Mouyi, A. & Spanoudis, G. (2008). Modelling the structure and development of g. Intelligence, 36, 437-454. Diehl, J. M. & Staufenbiehl, T. (2007). Statistik mit SPSS für Windows. Version 15. Frankfurt/Main: Klotz. Donders, J. (1996). Cluster subtypes in the WISC-III standardization sample: Analysis of factor index scores. Psychological Assessment, 8, 312-318. Donders, J. & Janke, K. (2008). Criterion validity of the Wechsler Intelligence Scale for Children-Fourth Edition after pediatric traumatic brain injury. Journal of the International Neuropsychological Society, 14, 651-655. Donner, S. (2006). Forscher schlagen Alarm: In den Industrieländern ist der IQ auf Talfahrt. Bild der Wissenschaft [On-line]. Verfügbar unter: http://www.wissenschaft.de/wissenschaft/hintergrund/253016.html [19.12. 2008]. Dumont, R. & Willis, J. O. (2004). Use of the Tellegen and Briggs formula to determine the Dumont-Willis Indexes (DWI-1 & DWI-2) for the WISC-IV [On-line]. Verfügbar unter: http://alpha.fdu.edu/psychology/WISCIV_DWI.htm [19.12. 2008]. Edwards, A. J. (1994). David Wechsler (1896-1981). In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 1134-1143). New York: Macmillan. Eggert, D. (1975). Hannover Wechsler Intelligenztest für das Vorschulalter. Deutsche Bearbeitung der Wechsler Preschool and Promary Scale of Intelligence. Bern: Huber. Eid, M. & Petermann, F. (2006). Aufgaben, Zielsetzungen und Strategien der Psychologischen Diagnostik. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik (S. 15-25). Göttingen: Hogrefe. Epstein, M. H., Mooney, P., Ryser, G. & Pierce, C. D. (2004). Validity and reliability of the Behavioral and Emotional Rating Scale (2nd ed.): Youth Rating Scale. Research on Social Work Practice, 14, 358-367. Esters, I. G., Ittenbach, R. F. & Han, K. (1997). Today's IQ tests: Are they really better than their historical predecessors. School Psychology Review, 26, 211-223. Evans, J. J., Floyd, R. G., McGrew, K. S. & Leforgee, M. H. (2002). The relations between measures of Cattell-Horn-Carroll (CHC) cognitive abilities and reading achievement during childhood and adolescence. School Psychology Review, 31, 246262. Literaturverzeichnis 204 Eysenck, H. J. (1939). Review of Thurstone`s Primary Mental Abilities. British Journal of Educational Psychology, 9, 270-275. Falk, R. F., Silverman, L. K. & Moran, D. M. (2004). Using two WISC-IV Indices to identify the gifted [On-line]. Verfügbar unter: http://www.gifteddevelopment.com/PDF_files/WISC-IVIndices.pdf [19.12. 2008]. Fiorello, C. A., Hale, J. B., Holdnack, J. A., Kavanagh, J. A., Terrell, J. & Long, L. (2007). Interpreting intelligence test results for children with disabilities: Is global intelligence relevant? Applied Neuropsychology, 14, 2-12. Fiorello, C. A., Hale, J. B., McGrath, M., Ryan, K. & Quinn, S. (2001). IQ interpretation for children with flat and variable test profiles. Learning and Individual Differences, 13, 115-125. Fisseni, H.-J. (2004). Lehrbuch der psychologischen Diagnostik (3., überarbeitete u. erweiterte Aufl.). Göttingen: Hogrefe. Flanagan, D. P. & Kaufman, A. S. (2004). Essentials of WISC-IV Assessment. Hoboken: Wiley & Sons. Flanagan, D. P. & McGrew, K. S. (1998). Interpreting intelligence tests from contemporary Gf-Gc theory: Joint confirmatory factor analysis of the WJ-R and KAIT in a non-white sample. Journal of School Psychology, 36, 151-182. Flanagan, D. P., McGrew, K. S. & Ortiz, S. O. (2000). The Wechsler Intelligence Scales and Gf-Gc theory: A contemporary approach to interpretation. Boston: Allyn & Bacon. Flanagan, D. P., Ortiz, S. O., Alfonso, V. C. & Mascolo, J. T. (2002). The achievement test desk reference (ADTR): Comprehensive assessment and learning disabilities. Boston: Allyn & Bacon. Floyd, R. G., Evans, J. J. & McGrew, K. S. (2003). Relations between measures of CattellHorn-Carroll (CHC) cognitive abilities and mathematics achievement across the school age years. Psychology in the Schools, 40, 155-171. Flynn, J. R. (1984). The mean IQ of Americans: Massive gains 1932 to 1978. Psychological Bulletin, 95, 29-51. Flynn, J. R. (1999). Searching for justice: The discovery of IQ gains over time. American Psychologist, 54, 5-20. Flynn, J. R. (2007). What is intelligence? Beyond the Flynn effect. Cambridge: Cambridge University. Frank, G. (1983). The Wechsler enterprise. An assessment of the development, structure, and use of the Wechsler Tests of Intelligence. Oxford: Pergamon. Freberg, M. E., Vandiver, B. J., Watkins, M. W. & Canivez, G. L. (2008). Significant factor score variability and the validity of the WISC-III Full Scale IQ in predicting later academic achievement. Applied Neuropsychology, 15, 131-139. Freeman, F. N. (1921). Intelligence and its measurement: A symposium-III. Journal of Educational Psychology, 12, 133-136. Fritz, A., Preuß, U., Ricken, G. & Schuck, K. D. (2001). Hannover-WechslerIntelligenztest im Vorschulalter- Revision (HAWIVA-R). Bern: Huber. Literaturverzeichnis 205 Fry, A. F. & Hale, S. (1996). Processing speed, working memory, and fluid intelligence: Evidence for a developmental cascade. Psychological Science, 7, 237-241. Fry, A. F. & Hale, S. (2000). Relationships among processing speed, working memory, and fluid intelligence in children. Biological Psychology, 54, 1-34. Funke, J. & Vaterrodt-Plünnecke, B. (2004). Was ist Intelligenz? (2. Aufl.). München: Beck. Gienger, C., Petermann, F. & Petermann, U. (2008). Wie stark hängen die HAWIK-IVBefunde vom Bildungsstand der Eltern ab? Kindheit und Entwicklung, 17, 90-98. Gignac, G. E. (2006). Evaluating subtest 'g' saturation levels via the single traitcorrelated uniqueness (STCU) SEM approach: Evidence in favor of crystallized subtests as the best indicators of 'g'. Intelligence, 34, 29-46. Glutting, J. J., McDermott, P. A. & Konold, T. R. (1997). Ontology, structure, and diagnostic benefits of a normative subtest taxonomy from the WISC-III standardization sample. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (pp. 349-372). New York: Guilford. Glutting, J. J., Watkins, M. W. & Youngstrom, E. A. (2003). Multifactored and crossbattery ability assessments: Are they worth the effort? In C. R. Reynolds & R. W. Kamphaus (Eds.), Handbook of psychological and educational assessment of children: Intelligence, aptitude, and achievement (2nd ed., pp. 343-377). New York: Guilford. Goleman, D. (1995). Emotional intelligence. New York: Bantam. Grob, A., Petermann, F., Lipsius, M., Costan-Dorigon, J., Petermann, U. & Daseking, M. (2008). Differences in Swiss and German children`s intelligence as measured by the HAWIK-IV. Swiss Journal of Psychology, 67, 113-118. Groth-Marnat, G. (Ed.). (1997). Handbook of psychological assessment (3rd ed.). New York: Wiley. Guilford, J. P. & Fruchter, B. (1978). Fundamental statistics in psychology and education (6th ed.). New York: McGraw-Hill. Guthke, J. (1999). Intelligenzdaten. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (Bd. 4, S. 396-412). München: Beltz. Häcker, H., Leutner, D. & Amelang, M. (Hrsg.). (1998). Standards für pädagogisches und psychologisches Testen. Bern: Huber. Haggerty, M. E. (1921). Intelligence and its Measurement: A symposium-XIII. Journal of Educational Psychology, 12, 212-216. Hagmann-von Arx, P., Meyer, C. S. & Grob, A. (2008). Assessing intellectual giftedness with the WISC-IV and the IDS. Zeitschrift für Psychologie, 216, 172-179. Hale, J. B., Fiorello, C. A., Kayanagh, J. A., Hoeppner, J. B. & Gaither, R. A. (2001). WISCIII predictors of academic achievement for children with learning disabilities: Are global and factor scores comparable? School Psychology Quarterly, 16, 3155. Hall, J. D., Howerton, D. L. & Bolin, A. U. (2005). The use of testing technicians: Critical issues for professional psychology. International Journal of Testing, 5, 357-375. Literaturverzeichnis 206 Hardesty, F. P. & Priester, H. J. (1956). Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK). Bern: Huber. Heitz, R. P., Unsworth, N. & Engle, R. W. (2005). Working memory capacity, attention control, and fluid intelligence. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 61-77). Thousand Oaks: Sage. Henmon, V. A. C. (1921). Intelligence and its measurement: A symposium-VIII. Journal of Educational Psychology, 12, 195-198. Holling, H., Preckel, F. & Vock, M. (2004). Intelligenzdiagnostik. Göttingen: Hogrefe. Holocher-Ertl, S., Kubinger, K. D. & Hohensinn, C. (2008). Hochbegabungsdiagnostik: HAWIK-IV und AID 2. Kindheit und Entwicklung, 17, 99-106. Horn, J. L. (1985). Remodeling old models of intelligence. In B. B. Wolman (Ed.), Handbook of intelligence: Theories, measurement, and applications (pp. 267-300). New York: Wiley. Horn, J. L. (1988). Thinking about human abilities. In J. R. Nesselroade (Ed.), Handbook of mulitivariate psychology (pp. 267-300). New York: Academic. Horn, J. L. (1991). Measurement of intellectual capabilities: a review of theory. In K. S. McGrew, J. K. Werder & R. W. Woodcock (Eds.), Woodcock-Johnson Technical Manual. Allen: DLM Teaching. Horn, J. L. (1994). Theory of fluid and crystallized intelligence. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 443-451). New York: Macmillan. Horn, J. L. & Blanksen, N. (2005). Foundations for better understanding of cognitive ablities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd ed., pp. 41-68). New York: Guilford. Horn, J. L. & Cattell, R. B. (1966). Refinement and test of the theory of fluid and crystallized general intelligences. Journal of Educational Psychology, 57, 253-270. Horn, J. L. & Cattell, R. B. (1967). Age differences in fluid and crystallized intelligence. Acta Psychologica, 26, 107-129. Horn, J. L. & McArdle, J. J. (2007). Understanding human intelligence since Spearman. In R. Cudeck & R. MacCallum (Eds.), Factor analysis at 100 (pp. 205-248). Mahwah: Erlbaum. Horn, J. L. & Noll, J. (1994). A system for understanding cognitive capabilities: A theory and the evidence on which it is based. In D. K. Detterman (Ed.), Current topics in human intelligence (Vol. 4, pp. 151-203). Norwood: Ablex. Horn, J. L. & Noll, J. (1997). Human cognitive capabilities: Gf-gc theory. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (pp. 53-91). New York: Guilford. Humphreys, L. G. (1962). The organization of human abilities. American Psychologist, 17, 475-483. International Test Comission. (2000). International guidelines for test use [On-line]. Verfügbar unter: http:// www.intestcom.org/test_use_full.htm [19.12.2008]. International Test Commission, Commission Internationale des Tests & Berufsverband Deutscher Psychologinnen und Psychologen. (2001). Internationale Richtlinien Literaturverzeichnis 207 für die Testanwendung. Version 2000. Deutsche Fassung [On-line]. Verfügbar unter: http://ftp.zpid.de/pub/tests/itc_richtlinien.pdf [19.12.2008]. Jacobs, C., Heubrock, D. & Petermann, F. (2002). Testinformation: Hamburg-WechslerIntelligenztest für Kinder (HAWIK-III). Diagnostica, 48, 159-162. Jäger, A. O. (1986). Validität von Intelligenztests. Diagnostica, 32, 272-289. Jäger, R. S. & Petermann, F. (1999). Einleitung. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (4. Aufl., S. 11-13). Weinheim: Beltz. Janke, K. M. & Donders, J. (2008). Sensitivity of the WISC-IV to pediatric traumatic brain injury. Clinical Neuropsychologist, 22, 446. Jensen, A. R. (1972). Genetics and education. London: Methuen. Jensen, A. R. (1998). The g factor: The science of mental ability. Westport: Praeger. Jensen, A. R. (2002). Psychometric g: Definition and substantiation. In R. J. Sternberg & E. L. Grigorenko (Eds.), The general factor of intelligence. How general is it? (pp. 39-53). Mahwah: Erlbaum. Jensen, A. R. (2004). Obituary. Intelligence, 32, 1-5. Johnson Grados, J. & Russo-Garcia, K. A. (1999). Comparison of the Kaufman Brief Intelligence Test and the Wechsler Intelligence Scale for Children—Third Edition in economically disadvantaged African American youth. Journal of Clinical Psychology, 55, 1063-1071. Kähler, W. M. (2008). Statistische Datenanalyse: Verfahren verstehen und mit SPSS gekonnt einsetzen (5. Aufl.). Wiesbaden: Vieweg. Kail, R. (2000). Speed of Information Processing: Developmental change and links to intelligence. Journal of School Psychology, 38, 51-61. Kail, R. & Salthouse, T. A. (1994). Processing speed as a mental capacity. Acta Psychologica, 86, 199-225. Kamphaus, R. W. (1993). Clinical assessment of children`s intelligence. Boston: Allyn & Bacon. Kamphaus, R. W. (Ed.). (2005). Clinical assessment of child and adolescent intelligence (2nd ed.). New York: Springer. Kamphaus, R. W., Winsor, A. P., Rowe, E. W. & Kim, F. (2005). A history of intelligence test interpretation. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment (2nd ed., pp. 23-38). New York: Guilford. Kanaya, T., Ceci, S. J. & Scullin, M. H. (2005). Age differences within secular IQ trends: An individual growth modeling approach. Intelligence, 33, 613-621. Kaufman, A. S. (1992). Evaluation of the WISC-III and WPPSI-R for gifted children. Roeper Review, 14, 154-158. Kaufman, A. S. (1993). King WISC the Third assumes the throne. Journal of School Psychology, 31, 345-354. Kaufman, A. S. (1994a). Intelligent testing with the WISC-III. New York: Wiley. Kaufman, A. S. (1994b). Practice effects. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (Vol. 2, pp. 828-833). New York: Macmillan. Literaturverzeichnis 208 Kaufman, A. S., Flanagan, D. P., Alfonso, V. C. & Mascolo, J. T. (2006). Test Review: Wechsler Intelligence Scale for Children, Fourth Edition (WISC-IV). Journal of Psychoeducational Assessment, 24, 278-295. Kaufman, A. S. & Kaufman, N. L. (2004). Kaufman Assessment Battery for Children, Second Edition (KABC-II). Circle Pines: AGS. Kaufman, A. S. & Lichtenberger, E. O. (2006). Assessing adolescent and adult intelligence (3rd ed.). Hoboken: Wiley. Keith, T. Z., Fine, J. G., Taub, G. E., Reynolds, M. R. & Kranzler, J. H. (2006). Higher order, multisample, confirmatory factor analysis of the Wechsler Intelligence Scale for Children - Fourth Edition: What does it measure? School Psychology Review, 35, 108-127. Keith, T. Z. & Witta, E. L. (1997). Hierarchical and cross-age confirmatory factor analysis of the WISC-III: What does it measure? School Psychology Quarterly, 12, 89107. Konold, T. R., Kush, J. C. & Canivez, G. L. (1997). Factor replication of the WISC-III in three independent samples of children receiving special education. Journal of Psychoeducational Assessment, 15, 123-137. Kubinger, K. D. (2006). Psychologische Leistungstests. In F. Petermann & M. Eid (Hrsg.), Handbuch der Psychologischen Diagnostik (S. 118-126). Göttingen: Hogrefe. Lehrl, S. (2005). Mehrfachwahl-Wortschatz-Intelligenztest MWT-B (5. Aufl.). Balingen: Spitta. Lepach, A. & Petermann, F. (2007). Battery of Assessment in Children - Merk- und Lernfähigkeitstest (BASIC-MLT). Bern: Huber. Lepach, A., Petermann, F. & Schmidt, S. (2008). Comparison of the BASIC-Memory and Learning Test and the WISC-IV under developmental aspects. Zeitschrift für Psychologie, 216, 180-186. Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz. Linger, M. L., Ray, G. E., Zachar, P., Underhill, A. T. & Lobello, S. G. (2007). Decreasing scoring errors on Wechsler scale vocabulary, comprehension, and similarities subtests: A preliminary study. Psychological Reports, 101, 661-669. Lipsius, M., Petermann, F. & Daseking, M. (2008). Wie beeinflussen Testleiter die HAWIK-IV-Befunde? Kindheit und Entwicklung, 17, 107-117. Loe, S. A., Kadlubek, R. M. & Marks, W. J. (2007). Administration and scoring errors on the WISC-IV among graduate student examiners. Journal of Psychoeducational Assessment, 25, 237-247. Lynn, R. (2009). What has caused the Flynn effect? Secular increases in the Development Quotients of infants. Intelligence, 37, 16-24. Lynn, R. & Harvey, J. (2008). The decline of the world`s IQ. Intelligence, 36, 112-120. Matarazzo, J. D. (1990). Psychological assessment versus psychological testing: Validation from Binet to the school, clinic, and courtroom. American Psychologist, 45, 999-1017. Literaturverzeichnis 209 Matarazzo, R. G., Wiens, A. N., Matarazzo, J. D. & Manaugh, T. S. (1973). Test-retest reliability of the WAIS in a normal population. Journal of Clinical Psychology, 29, 194-197. Mayer, J. D. & Salovey, P. (1993). The intelligence of emotional intelligence. Intelligence, 17, 433-442. Mayes, S. D. & Calhoun, S. L. (2004). Similarities and differences in Wechsler Intelligence Scale for Children – Third Edition (WISC-III) profiles: Support for subtest analysis in clinical referrals. The Clinical Neuropsychologist, 18, 559-572. McCaffrey, R. J., Duff, K. & Westervelt, H. J. (2000). Practitioner’s guide to evaluation change with intellectual assessment instruments. New York: Kluwer. McDermott, P. A., Fantuzzo, J. W. & Glutting, J. J. (1990). Just say no to subtest analysis: A critique on Wechsler theory and practice. Journal of Psychoeducational Assessment, 8, 290-302. McFie, J. (1975). Assessment of organic intellectual impairment. Oxford: Academic. McGrew, K. S. (1997). Analysis of the major intelligence batteries according to a proposed comprehensive Gf-Gc framework. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary Intellectual Assessment. Theories, tests, and issues (pp. 151-174). New York: Guilford McGrew, K. S. (2005). The Cattell-Horn-Carroll Theory of Cognitive Abilities: Past, present, and future. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd ed., pp. 136-182). New York: Guilford. McGrew, K. S. & Flanagan, D. P. (1998). The Intelligence Test Desk Reference (ITDR): GfGc cross-battery assessment. Boston: Allyn & Bacon. McGrew, K. S., Flanagan, D. P., Keith, T. Z. & Vanderwood, M. (1997). Beyond g: The impact of Gf-Gc specific cognitive abilities research on the future use and intepretation of intelligence test batteries in the schools. School Psychology Review, 26, 189-210. McGrew, K. S. & Woodcock, R. W. (2001). Technical Manual. Woodcock-Johnson III. Itasca: Riverside. Moosbrugger, H. & Höfling, V. (2006). Testdurchführung und -auswertung. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik (S. 449-456). Göttingen: Hogrefe. Naglieri, J. A. (1999). Essentials of CAS assessment. New York: Wiley. Naglieri, J. A. & Das, J. P. (2002). Practical implications of general intelligence and PASS cognitive processes. In R. J. Sternberg & E. L. Grigorenko (Eds.), The general factor of intelligence. How general is it? (pp. 55-84). Mahwah: Erlbaum. Naglieri, J. A. & Paolitto, A. W. (2005). Ipsative comparisons of WISC-IV index scores. Applied Neuropsychology, 12, 208-211. Neisser, U. (1979). The concept of intelligence. In R. J. Sternberg & D. K. Detterman (Eds.), Human intelligence: Perspectives on its theory and measurement. Norwood: Ablex. Literaturverzeichnis 210 Neisser, U., Boodoo, G., Bouchard Jr, T. J., Boykin, A. W., Brody, N., Ceci, S. J.et al. (1996). Intelligence: Knowns and unknowns. American Psychologist, 51, 77-101. Neubauer, A. C. & Knorr, E. (1998). Three paper-and-pencil tests for speed of information processing: Psychometric properties and correlations with intelligence. Intelligence, 26, 123-151. Newman, T. M. (2008). Assessment of giftedness in school-age children using measures of intelligence or cognitive abilities. In S. I. Pfeiffer (Ed.), Handbook of giftedness in children (pp. 161-176). New York: Springer. O`Shea, A. G., Harel, B. & Fein, D. (2002). Neuropsychological assessment of the preschool child. In S. J. Segalowitz & I. Rapin (Eds.), Handbook of Neuropsychology (2 ed., Vol. 8, pp. 249-280). Amsterdam: Elsevier. Perlow, R., Jattuso, M. & Moore, D. D. (1997). Role of verbal working memory in complex skill acquisition. Human Performance, 10, 283-302. Petermann, F. (2006). Intelligenzdiagnostik. Kindheit und Entwicklung, 15, 71-75. Petermann, F. & Lepach, A. C. (2007). Klinische Kinderneuropsychologie. Kindheit und Entwicklung, 16, 1-6. Petermann, F. & Petermann, U. (2008a). Hamburg-Wechsler-Intelligenztest für KinderIV (HAWIK-IV) (2. ergänzte Aufl.). Bern: Huber. Petermann, F. & Petermann, U. (2008b). HAWIK-IV. Kindheit und Entwicklung, 17, 7175. Peterson, J. (1921). Intelligence and its measurement: A symposium-IX. Journal of Educational Psychology, 12, 198-201. Petrill, A. (2005). Behavioral genetics and intelligence. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 165-176). Thousand Oaks: Sage. Pfeiffer, S. I., Reddy, L. A., Kletzel, J. E., Schmelzer, E. R. & Boyer, L. M. (2000). The practitioner's view of IQ testing and profile analysis. School Psychology Quarterly, 15, 376-385. Phelps, L., McGrew, K. S., Knopik, S. N. & Ford, L. (2005). The general (g), broad, and narrow CHC stratum characteristics of the WJ III and WISC-III tests: A confirmatory cross-battery investigation. School Psychology Quarterly, 20, 66-88. Piaget, J. (1984). Psychologie der Intelligenz (8. Aufl. in der vollst. überarbeitete Übers. der 2. Aufl.). Stuttgart: Klett-Cotta. Pintner, R. (1921). Intelligence and its measurement: A symposium-V. Journal of Educational Psychology, 12, 139-143. Platt, T. L., Zachar, P., Ray, G. E., Underhill, A. T. & Lobello, S. G. (2007). Does Wechsler Intelligence Scale administration and scoring proficiency improve during assessment training? Psychological Reports, 100, 547-555. Preckel, F. (2003). Diagnostik intellektueller Hochbegabung. Bern: Hogrefe. Prenzel, M., Baumert, J., Blum, W., Lehmann, R., Leutner, D., Neubrand, M.et al. (Hrsg.). (2004). PISA 2003. Der Bildungsstand der Jugendlichen in Deutschland Ergebnisse des zweiten internationalen Vergleichs. Münster: Waxmann. Literaturverzeichnis 211 Preusche, I. & Leiss, U. (2003). Intelligenztests für Kinder. HAWIK-III, AID-2 und K-ABC im Vergleich. Report Psychologie, 28, 12-26. Prifitera, A. (1994). Wechsler scales of intelligence. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 1136-1143). New York: Macmillan. Prigatano, G. P., Gray, J. A. & Gale, S. D. (2008). Individual case analysis of processing speed difficulties in children with and without traumatic brain injury. Clinical Neuropsychologist, 22, 603-619. Quereshi, M. Y. (1968). Practice effects on the WISC subtest scores and IQ estimates. Journal of Clinical Psychology, 24, 79-85. Raiford, S. E., Weiss, L. G., Rolfhus, E. L. & Coalson, D. (2005). Technical Report # 4 General Ability Index. San Antonio: Psychological Corporation. Raven, J., Raven, J. C. & Court, J. H. (1998). Manual for Raven`s progressive matrices and vocabulary scales. Oxford: Oxford Psychologists. Reddon, J. R., Vander Veen, S. & Reddon, J. E. (2004). Seemingly anomalous Full Scale IQ scores on the WAIS-III and the WISC-III. Current Psychology, 23, 86-94. Reddon, J. R., Whippler, S. M. & Reddon, J. E. (2007). Seemingly anomalous WISC-IV Full Scale IQ scores in the American and Canadian standardization samples. Current Psychology, 26, 60-69. Renner, G. (2008). Neuere Testverfahren. Praxis der Kinderpsychologie und Kinderpsychiatrie, 57, 154-162. Renner, G. & Fricke, T. (2001). Der Hamburg-Wechsler-Intelligenztest für Kinder - dritte Auflage (HAWIK-III). Report Psychologie, 26, 460-477. Reynolds, C. R. & Kaufman, A. S. (1990). Assessment of childrens intelligence with the Wechsler Intelligence Scale for Children - Revised (WISC-R). In C. R. Reynolds & R. W. Kamphaus (Eds.), Handbook of psychological and educational assessment of children: Intelligence and achievement (pp. 127-165). New York: Guilford. Riccio, C. A., Cohen, M. J., Hall, J. & Ross, C. M. (1997). The third and fourth factors of the WISC-III: What they don't measure. Journal of Psychoeducational Assessment, 15, 27-39. Ricken, G., Fritz, A., Schuck, K. D. & Preuß, U. (2007). Hannover-WechslerIntelligenztest für Kinder im Vorschulalter III (HAWIVA-III). Bern: Huber. Rodgers, J. L. (1998). A critique of the Flynn Effect: Massive IQ gains, methodological artifacts, or both? Intelligence, 26, 337-356. Roid, G. H. (2003). Stanford-Binet Intelligence Scales, Fifth Edition. Itasca: Riverside. Roid, G. H. & Pomplun, M. (2005). Interpreting the Stanford-Binet Intelligence Scales, Fifth Edition. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary Intellectual Assessment (2nd ed., pp. 325-343). New York: Guilford. Russell, E. W. (1992). Comparison of two methods for converting the WAIS to the WAIS-R. Journal of Clinical Psychology, 48, 355-359. Sabatino, D. A., Spangler, R. S. & Vance, H. B. (1995). The relationship between the Wechsler Intelligence Scale for Children-Revised and the Wechsler Intelligence Scale for Children-III scales and subtests with gifted children. Psychology in the Schools, 32, 18-23. Literaturverzeichnis 212 Saß, H., Wittchen, H.-U., Zaudig, M. & Houben, I. (2003). Diagnostisches und Statistisches Manual psychischer Störungen – Textrevision (DSM-IV-TR). Göttingen: Hogrefe. Sattler, J. M. (2001). Assessment of children: Cognitive applications (4th ed.). San Diego: Author. Schaarschmidt, U., Ricken, G., Kieschke, U. & Preuß, U. (2004). Bildbasierter Intelligenztest für das Vorschulalter (BIVA). Göttingen: Hogrefe. Schatz, J., Kramer, J. H., Ablin, A. & Matthay, K. K. (2000). Processing speed, working memory, and IQ: A developmental model of cognitive deficits following cranial radiation therapy. Neuropsychology, 14, 189-200. Schlittgen, R. (2004). Statistische Auswertungen: Standardmethoden und Alternativen mit ihrer Durchführung in R. München: Oldenbourg. Schorr, A. (1995). Stand und Perspektiven diagnostischer Verfahren in der Praxis. Ergebnisse einer repräsentativen Befragung westdeutscher Psychologen. Diagnostica, 41, 3-20. Scott, K. A. (2006). Is the GAI a good short form of the WISC-IV?. Marshall University Libraries. Sheppard, L. D. & Vernon, P. A. (2007). Intelligence and speed of informationprocessing: A review of 50 years of research. Personality and Individual Differences, 44, 535-551. Siders, A., Kaufman, A. S. & Reynolds, C. R. (2006). Do practice effects on Wechsler's Performance subtests relate to children's general ability, memory, learning ability, or attention? Applied Neuropsychology, 13, 242-250. Sparrow, S. S. & Gurland, S. T. (1998). Assessment of gifted children with the WISC-III. In A. Prifitera & D. H. Saklofske (Eds.), WISC-III clinical use and interpretation (pp. 59-72). San Antonio: Harcourt. Sparrow, S. S., Pfeiffer, S. I. & Newman, T. M. (2005). Assessment of children who are gifted with the WISC-IV. In A. Prifitera, D. H. Saklofske & L. G. Weiss (Eds.), WISCV-IV clinical use and interpretation - scientist-practitioner perspectives (1st ed., pp. 281-299). San Diego: Elsevier. Spearman, C. (1904). ‘General Intelligence’, objectively determined and measured. American Journal of Psychology, 15, 201-293. Spearman, C. (1927). The abilities of man: Their nature and measurement. New York: Macmillan. Spearman, C. (1939). Thurstone`s work reworked. Journal of Educational Psychology, 30, 1-16. Stankov, L. (2005). g Factor. Issues of design and interpretation. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 279293). Thousand Oaks: Sage. Statistisches Bundesamt. (2007). Allgemeinbildende Schulen. Schüler/innen nach Schularten [On-line]. Verfügbar unter: http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Conte nt/Statistiken/BildungForschungKultur/Schulen/Tabellen/Content75/Allgemein bildendeSchulenSchulartenSchueler,templateId=renderPrint.psml [19.12.2008]. Literaturverzeichnis 213 Steck, P. (1997). Psychologische Testverfahren in der Praxis. Ergebnisse einer Umfrage unter Testanwendern. Diagnostica, 43, 267-284. Stern, W. (1911). Differentielle Psychologie in ihren methodischen Grundlagen. Leipzig: Barth. Sternberg, R. J. (1985a). Human intelligence: The model is the message. Science, 230, 1111-1118. Sternberg, R. J. (1985b). Implicit theories of intelligence, creativity, and wisdom. Journal of Personality & Social Psychology, 49, 607-627. Sternberg, R. J. (1997a). The concept of intelligence and its role in lifelong learning and success. American Psychologist, 52, 1030-1037. Sternberg, R. J. (1997b). Successful intelligence. New York: Plume. Sternberg, R. J. (2000a). The ability is not general, and neither are the conclusions. Behavioral and Brain Sciences, 23, 697-698. Sternberg, R. J. (2000b). The concept of intelligence. In R. J. Sternberg (Ed.), Handbook of intelligence. New York: Cambridge University. Sternberg, R. J. (2002). Beyond g: The theory of successful intelligence. In R. J. Sternberg & E. L. Grigorenko (Eds.), The general factor of intelligence: How general is it? (pp. 447-479). Mahwah: Erlbaum. Sternberg, R. J. (2004). North american approaches to intelligence. In R. J. Sternberg (Ed.), International handbook of intelligence (pp. 411-444). Cambridge: Cambridge University. Sternberg, R. J., Conway, B. E., Ketron, J. L. & Bernstein, M. (1981). People's conceptions of intelligence. Journal of Personality & Social Psychology, 41, 37-55. Sternberg, R. J. & Detterman, D. K. (Eds.). (1986). What is intelligence? Contemporary viewpoints on its nature and definition. Norwood: Ablex. Sternberg, R. J. & Grigorenko, E. L. (Eds.). (2002). General factor of intelligence: How general is it? Mahwah: Erlbaum. Strauss, E., Spreen, O. & Hunter, M. (2000). Implications of test revisions for research. Psychological Assessment, 12, 237-244. Sundet, J. M., Barlaug, D. G. & Torjussen, T. M. (2004). The end of the Flynn effect? A study of secular trends in mean intelligence test scores of Norwegian conscripts during half a century. Intelligence, 32, 349-362. Swanson, H. L. (1996). Individual and age-related differences in children’s working memory. Memory & Cognition, 24, 70-82. Teasdale, T. W. & Owen, D. R. (1989). Continuing secular increases in intellgence and a stable prevalence of high intelligence levels. Intelligence, 13, 255-262. Teasdale, T. W. & Owen, D. R. (2008). Secular declines in cognitive test scores: A reversal of the Flynn Effect. Intelligence, 36, 121-126. Tellegen, P. J., Laros, J. A. & Petermann, F. (2007). SON-R 2½-7 Non-verbaler Intelligenztest. Testmanual mit deutscher Normierung und Validierung. Göttingen: Hogrefe. Literaturverzeichnis 214 Terman, L. M. (1921). Intelligence and its measurement: A symposium-II. Journal of Educational Psychology, 12, 127-133. Tewes, U. (1983). Hamburg-Wechsler-Intelligenztest für Kinder, Revision 1983 (HAWIKR). Bern: Huber. Tewes, U. (1991). Hamburg-Wechsler-Intelligenztest für Erwachsene - Revision (HAWIER). Bern: Huber. Tewes, U., Rossmann, P. & Schallberger, U. (1999). Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK-III). Bern: Huber. Tewes, U., Rossmann, P. & Schallberger, U. (2002). Hamburg-Wechsler-Intelligenztest für Kinder - dritte Auflage : HAWIK-III. Bern: Huber. Tewes, U. & Titze, I. (1994). Hamburg-Wechsler Intelligenztest für Kinder, Revision 1983. HAWIK-R. Handbuch und Testanweisung. Bern: Huber. Thompson, A. P. & Molly, K. (1993). The stability of WAIS-R IQ for 16-year old students retested after 3 and 8 months. Journal of Clinical Psychology, 49, 891-898. Thorndike, E. L. (1921). Intelligence and its measurement: A symposium-I. Journal of Educational Psychology, 12, 124-127. Thurstone, L. L. (1921). Intelligence and its measurement: A symposium-X. Journal of Educational Psychology, 12, 201-207. Thurstone, L. L. (1938). Primary mental abilities. Chicago: University of Chicago. Thurstone, L. L. & Thurstone, T. G. (1941). Factorial studies of intelligence. Chicago: University of Chicago. Titze, I. & Tewes, U. (1994). Messung der Intelligenz bei Kindern mit dem HAWIK-R. Bern: Huber. Tulsky, D. S. & Price, L. R. (2003). The joint WAIS-III and WMS-III factor structure: Development and cross-validation of a six-factor model of cognitive functioning. Psychological Assessment, 15, 149-162. Vernon, P. A. (1969). Intelligence and cultural environment. London: Methuen. Vock, M. & Holling, H. (2006). Intelligenzdiagnostik. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik (S. 494-502). Göttingen: Hogrefe. von Aster, M., Neubauer, A. & Horn, R. (2006). Wechsler Intelligenztest für Erwachsene (WIE). Frankfurt: Harcourt. Waldmann, H.-C. (2008). Kurzformen des HAWIK-IV: Statistische Bewertung in verschiedenen Anwendungsszenarien. Diagnostica, 54, 202-210. Watkins, M. W. (2005). Diagnostic validity of Wechsler subtest scatter. Learning Disabilities: A Contemporary Journal, 3, 18-27. Watkins, M. W. (2006). Orthogonal higher order structure of the Wechsler Intelligence Scale for Children - Fourth Edition. Psychological Assessment, 18, 123-125. Watkins, M. W. & Canivez, G. L. (2004). Temporal stability of WISC-III subtest composite: Strengths and weaknesses. Psychological Assessment, 16, 133-138. Watkins, M. W. & Kush, J. C. (1994). Wechsler subtest analysis: The right way, the wrong way, or no way? School Psychology Review, 23, 640-651. Literaturverzeichnis 215 Watkins, M. W., Lei, P.-W. & Canivez, G. L. (2007). Psychometric intelligence and achievement: A cross-lagged panel analysis. Intelligence, 35, 59-68. Watkins, M. W., Wilson, S. M., Kotz, K. M., Carbone, M. C. & Babula, T. (2006). Factor structure of the Wechsler Intelligence Scale for Children-Fourth Edition among referred students. Educational and Psychological Measurement, 66, 975-983. Wechsler, D. (1939a). The measurement of adult intelligence. Baltimore: Williams & Wilkins. Wechsler, D. (1939b). Wechsler-Bellevue Intelligence Scale. San Antonio: Psychological Corporation. Wechsler, D. (1940). Non-intellective factors in general intelligence. Psychological Bulletin, 37, 444-445. Wechsler, D. (1943). Non-intellective factors in general intelligence. Journal of Abnormal and Social Psychology, 38, 101-103. Wechsler, D. (1944). The measurement of adult intelligence (3rd ed.). Baltimore: Williams & Wilkins. Wechsler, D. (1946). The Wechsler-Bellevue Intelligence Scale Form II: Manual for administering and scoring the test. San Antonio: Psychological Corporation. Wechsler, D. (1949). Wechsler Intelligence Scale for Children. San Antonio: Psychological Corporation. Wechsler, D. (1950). Cognitive, conative, and non-intellective intelligence. American Psychologist, 5, 78-83. Wechsler, D. (1955). Manual for the Wechsler Adult Intelligence Scale. San Antonio: Psychological Corporation. Wechsler, D. (1958). The measurement and appraisal of adult intelligence (4th ed.). Baltimore: Williams & Wilkins. Wechsler, D. (1967). Manual for the Wechsler Preschool and Primary Scale of Intelligence. San Antonio: Psychological Corporation. Wechsler, D. (1974). Wechsler Intelligence Scale for Children - Revised. San Antonio: Psychological Corporation. Wechsler, D. (1975). Intelligence defined and undefined: A relativistic appraisal. American Psychologist, 30, 135-139. Wechsler, D. (1981). Manual for the Wechsler Adult Intelligence Scale - Revised. San Antonio: Psychological Corporation. Wechsler, D. (1989). Manual for the Wechsler Preschool and Primary Scale of Intelligence-revised. San Antonio: Psychological Corporation. Wechsler, D. (1991). Wechsler Intelligence Scale for Children - Third Edition. San Antonio: Psychological Corporation. Wechsler, D. (1992). Wechsler Intelligence Scale for Children - WISC-III UK Manual. London: Psychological Corporation. Wechsler, D. (1997). Wechsler Adult Intelligence Scale - Third Edition. San Antonio: Psychological Corporation. Literaturverzeichnis 216 Wechsler, D. (2002). Wechsler Preschool and Primary Scale of Intelligence - Third Edition. San Antonio: Psychological Corporation. Wechsler, D. (2003a). Wechsler Intelligence Scale for Children - Fourth Edition (WISCIV). Administration and scoring manual. San Antonio: Psychological Corporation. Wechsler, D. (2003b). Wechsler Intelligence Scale for Children - Fourth Edition. Technical and interpretative manual. San Antonio: Psychological Corporation. Weiss, L. G., Saklofske, D. H., Prifitera, A., Chen, H.-Y. & Hildebrand, D. K. (1999). The calculation of the WISC-Ill General Ability Index using Canadian norms. Canadian Journal of School Psychology, 14, 1-10. Weiß, R. H. (2006). Grundintelligenztest Skala 2 - Revision - (CFT 20-R). Göttingen: Hogrefe. Wolke, D. & Söhne, B. (1997). Wenn der Schein trügt: Zur kritischen Interpretation von Entwicklungsstudien. Monatsschrift Kinderheilkunde, 145, 444-456. Woodcock, R. W. (1990). Theoretical foundations of the WJ-R measures of cognitive abilities. Journal of Psychoeducational Assessment, 8, 231-258. Woodcock, R. W. (1994). Measures of fluid and crystallized theory of intelligence. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 452-456). New York: Macmillan. Woodcock, R. W., McGrew, K. S. & Mather, N. (2001). The Woodcock-Johnson III. Itasca: Riverside. Woodrow, H. (1921). Intelligence and its measurement: A symposium-XI. Journal of Educational Psychology, 12, 207-210. Zachary, R. A. (1990). Wechsler`s intelligence scales: Theoretical and practical considerations. Journal of Psychoeducational Assessment, 8, 276-289. Zhu, J. & Tulsky, D. S. (2000). Co-norming the WAIS-III and WMS-III: Is there a testorder effect on IQ and memory scores? The Clinical Neuropsychologist, 14, 461467. Zhu, J. & Weiss, L. G. (2005). The Wechsler Scales. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd ed., pp. 297-324). New York: Guilford. Zhu, J., Weiss, L. G., Prifitera, A. & Coalson, D. (2004). The Wechsler Intelligence Scales for children and adults. In G. Goldstein & S. R. Beers (Eds.), Comprehensive handbook of psychological assessment (Vol. 1, S. 51-75). Hoboken: Wiley. Anhang 217 Anhang Abbildungsverzeichnis Abbildung 3.1: Das Zwei-Faktoren-Modell (modifiziert nach Spearman, 1927) .........................................19 Abbildung 3.2: Cattell-Horn Gf-Gc-Modell (modifiziert nach McGrew, 2005) ............................................24 Abbildung 3.3: Three-Stratum-Theorie der kognitiven Fähigkeiten (modifiziert nach Carroll, 1992; 1993) .............................................................................................................................................................27 Abbildung 3.4: Cattell-Horn-Carroll-Modell (modifiziert nach McGrew, 2005) ..........................................30 Abbildung 3.5: Struktur der Cattell-Horn-Carroll (CHC) Theorie der kognitiven Fähigkeiten (modifiziert nach Daseking, Petermann & Petermann, 2007) ................................................................................32 Abbildung 4.1: Hierarchische Struktur des HAWIK-III (modifiziert nach Tewes et al., 2002, S. 86) ............47 Abbildung 4.2: Die hierarchische Struktur des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) ..................................................................................................................................................50 Abbildung 7.1: Design der Studie. .............................................................................................................112 Abbildung 7.2: Geschlechtsverteilung der Gesamtstichprobe über die 11 Altersgruppen. .....................114 Abbildung 7.3: Aufteilung der Länge des Re-Testintervalls über die 11 Altersgruppen. ..........................114 Abbildung 7.4: Verteilung der Reihenfolge der Testvorgabe über die 11 Altersgruppen. .......................115 Abbildung 7.5: Altersverteilung der gematchten Stichprobe. ..................................................................116 Abbildung 8.1: Box-Plot des Gesamt-, Verbal- und Handlungs-IQ des HAWIK-III. ....................................125 Abbildung 8.2: Box-Plot der Indizes SV, WO, UA und AG des HAWIK-III. .................................................126 Abbildung 8.3: Box-Plot des Gesamt-IQ, SV, WLD, AGD und VG des HAWIK-IV. ......................................128 Abbildung 8.4: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (kurzes Intervall). ....132 Abbildung 8.5: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). ...........................................................................................................................................133 Abbildung 8.6: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (kurzes Intervall). ....133 Abbildung 8.7: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). ...........................................................................................................................................134 Abbildung 8.8: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (langes Intervall). ....134 Abbildung 8.9: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). ...........................................................................................................................................135 Abbildung 8.10: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (langes Intervall). ..135 Abbildung 8.11: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). ...........................................................................................................................................136 Anhang 218 Tabellenverzeichnis Tabelle 2.1: Übersicht über die wichtigsten Intelligenzvorstellungen (modifiziert nach Sternberg, 1985a) .............................................................................................................................................................11 Tabelle 4.1: Die Wechsler-Intelligenzskalen im Überblick ..........................................................................45 Tabelle 4.2: Untertestzusammensetzungen der HAWIK-Versionen ...........................................................46 Tabelle 4.3: Die Untertests des HAWIK-III (modifiziert nach Tewes et al., 2002) .......................................48 Tabelle 4.4: Die erfassten Funktionen der HAWIK-III-Untertests (modifiziert nach Tewes et al., 2002) ....49 Tabelle 4.5: Die Untertests des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) ................50 Tabelle 4.6: Die erfassten Funktionen der HAWIK-IV-Untertests (modifiziert nach Daseking et al., 2007). .............................................................................................................................................................51 Tabelle 4.7: Reliabilitäten der Untertests, Indizes und des Gesamt-IQ des HAWIK-III und -IV ...................54 Tabelle 4.8: Exploratorische Faktorenanalyse für alle 15 WISC-IV Untertests (gesamte Normierungsstichprobe, n = 1525) (modifiziert nach Wechsler, 2003b). ...........................................56 Tabelle 4.9: Exploratorische Faktorenanalyse für alle 15 Untertests des HAWIK-IV (gesamte Normierungsstichprobe, n = 1650) (modifiziert nach Petermann & Petermann, 2008a, S. 133). ......57 Tabelle 4.10: Unterschiede und Gemeinsamkeiten von HAWIK-III und -IV (geordnet nach Zugehörigkeit zu den HAWIK-Indizes, modifiziert nach Petermann & Petermann, 2008a) .......................................73 Tabelle 5.1: Ergebnisse der Korrelationsstudien zu HAWIK- bzw. WISC-Versionen ...................................87 Tabelle 5.2: Ein-Monats-Lerneffekt für die WISC-IV-Index- und IQ-Werte (n = 243) (modifiziert nach Wechsler, 2003b, S. 40ff) ....................................................................................................................91 Tabelle 5.3: Untertests mit relativ großem Ein-Monats-Lerneffekt getrennt in drei Altersgruppen (modifiziert nach Wechsler, 2003b, S. 40ff) ........................................................................................91 Tabelle 6.1: Überblick über die Hypothesen und Fragestellungen der Studie. .........................................100 Tabelle 7.1: Abkürzungen der Stichproben. ..............................................................................................112 Tabelle 7.2: Geplante Stichprobenverteilung (n=176). .............................................................................113 Tabelle 7.3: Zusammensetzung der Untersuchungsstichprobe (n= 223). ................................................113 Tabelle 7.4: Verteilung der Untersuchungsstichprobe nach besuchtem Schultyp. ..................................115 Tabelle 7.5: Schultypverteilung der gematchten Stichprobe (n= 144). ....................................................116 Tabelle 7.6: Geschlechtsverteilung der gematchten Stichprobe (n= 144). ...............................................117 Tabelle 7.7: Reihenfolge der Testvorgabe der gematchten Stichprobe (n= 144). ....................................117 Tabelle 7.8: Abkürzungen der gematchten Stichproben. .........................................................................117 Tabelle 7.9: Eckdaten des HAWIK-III und -IV. ...........................................................................................118 Tabelle 8.1: Deskriptive Angaben des HAWIK-III. .....................................................................................124 Tabelle 8.2: Deskriptive Angaben des HAWIK-IV. .....................................................................................127 Tabelle 8.3: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ (n = 223). ............129 Tabelle 8.4: t-Test zur Prüfung der Mittelwertdifferenzen auf Untertestebene (n = 223). ......................130 Tabelle 8.5: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ der GemS. ..........130 Tabelle 8.6: t-Test zur Prüfung der Mittelwertedifferenzen der GemS auf Untertestebene....................131 Tabelle 8.7: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GK-III (n = 63)...................................................................................................................137 Anhang 219 Tabelle 8.8: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-III (n = 48). ..................................................................................................................137 Tabelle 8.9: Mittelwerte und Mittelwertzuwächse zwischen HAWIK-III und -IV bei der Stichprobe GK-IV (n = 65)...............................................................................................................................................138 Tabelle 8.10: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-IV (n= 47)....................................................................................................................139 Tabelle 8.11: Mittelwertzuwächse bzw. -abnahmen der Untertests und Indizes getrennt nach kurzem und langem Intervall. .........................................................................................................................140 Tabelle 8.12: Mittelwertzuwächse bzw. -abnahmen nach kurzem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen. .......................................................................................................141 Tabelle 8.13: Mittelwertzuwächse bzw. -abnahmen nach langem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen. .......................................................................................................141 Tabelle 8.14: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall (n= 93-95). .........................................................................................................................................142 Tabelle 8.15: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall bei Kindern und Jugendlichen mit einem HAWIK-III-Gesamt-IQ von ≥ 115 (n = 28). ........................143 Tabelle 8.16: Exploratorische Faktorenanalyse des HAWIK-III ohne Vorgabe der Faktorenanzahl. .........144 Tabelle 8.17: Exploratorische Faktorenanalyse des HAWIK-IV ohne Vorgabe der Faktorenanzahl. ........145 Tabelle 8.18: Faktorenanalyse des HAWIK-III und -IV mit Vorgabe von vier Faktoren. ............................147 Tabelle 8.19: Faktorenanalyse des HAWIK-III mit Vorgabe von vier Faktoren. ........................................148 Tabelle 8.20: Faktorenanalyse des HAWIK-IV mit Vorgabe von vier Faktoren. ........................................148 Tabelle 8.21: Korrelationen zwischen HAWIK-III und -IV (G-III, n = 109 bis 111). .....................................150 Tabelle 8.22: Korrelationen zwischen HAWIK-IV und -III (G-IV, n = 111 bis 112). .....................................150 Tabelle 8.23: Korrelationen zwischen HAWIK-III und -IV gesamt (n = 221 bis 223). .................................151 Tabelle 8.24: Korrelationen zwischen HAWIK-III und -IV für die GK-III (n = 63). .......................................152 Tabelle 8.25: Korrelationen zwischen HAWIK-IV und -III für die GK-IV (n = 64 bis 65). ............................153 Tabelle 8.26: Korrelationen zwischen HAWIK-III und -IV (GK gesamt, n = 127 bis 128). ..........................153 Tabelle 8.27: Korrelationen zwischen HAWIK-III und -IV für die GL-III (n = 46 bis 48). .............................154 Tabelle 8.28: Korrelationen zwischen HAWIK-IV und -III für die GL-IV (n = 47). .......................................155 Tabelle 8.29: Korrelationen zwischen HAWIK-IV und -III (GL gesamt, n = 93 bis 95). ...............................155 Tabelle 8.30: Korrelationen zwischen HAWIK-III und -IV für die GemSK (n = 72). ....................................156 Tabelle 8.31: Korrelationen zwischen HAWIK-IV und -III für die GemSL (n = 72). ....................................157 Tabelle 8.32: Korrelationen zwischen HAWIK-IV und -III (GemS gesamt, n = 144). ..................................158 Tabelle 8.33: Lineare Regression der Untertests des SV-Index des HAWIK-III..........................................160 Tabelle 8.34: Lineare Regression der Untertests des WO-Index des HAWIK-III........................................160 Tabelle 8.35: Lineare Regression der Untertests des UA-Index des HAWIK-III. ........................................161 Tabelle 8.36: Varianzaufklärung der SV-Untertests des HAWIK-IV auf den SV des HAWIK-III..................161 Tabelle 8.37: Varianzaufklärung der WLD-Untertests des HAWIK-IV auf den WO des HAWIK-III. ...........162 Tabelle 8.38: Varianzaufklärung der AGD-Untertests des HAWIK-IV auf den UA des HAWIK-III. .............162 Tabelle 8.39: Varianzaufklärung der VG-Untertests des HAWIK-IV auf den AG des HAWIK-III. ...............163 Tabelle 8.40: Varianzaufklärung der Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III................163 Anhang 220 Tabelle 8.41: Varianzaufklärung der Indizes des HAWIK-III auf den Gesamt-IQ des HAWIK-IV................164 Tabelle 8.42: Erwartete Werte und Wertebereiche des Gesamt-IQ des HAWIK-IV für ausgewählte Gesamt-IQ des HAWIK-III...................................................................................................................165 Tabelle 8.43: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte Verbal-IQ des HAWIK-III. ..........................................................................................................................................165 Tabelle 8.44: Erwartete Werte und Wertebereiche des WLD des HAWIK-IV für ausgewählte Handlungs-IQ des HAWIK-III. ....................................................................................................................................166 Tabelle 8.45: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte SV-Werte des HAWIK-III. ..........................................................................................................................................166 Tabelle 8.46: Erwartete Werte und Wertebereiche des WLD-IQ des HAWIK-IV für ausgewählte WO-IQWerte des HAWIK-III ..........................................................................................................................167 Tabelle 8.47: Erwartete Werte und Wertebereiche des AGD-IQ des HAWIK-IV für ausgewählte UA-IQWerte des HAWIK-III ..........................................................................................................................167 Tabelle 8.48: Erwartete Werte und Wertebereiche des VG-IQ des HAWIK-IV für ausgewählte AG-IQWerte des HAWIK-III ..........................................................................................................................168 Tabelle 9.1: Normtabellenauszug der Untertests Zahlen-Symbol-Test und Symbol-Suche aus den Manualen des HAWIK-III und -IV (Petermann & Petermann, 2008a; Tewes et al., 2002). ...............188 Tabelle A1: Interkorrelationen der Untertests des HAWIK-III (Gesamtstichprobe). .................................221 Tabelle A2: Interkorrelationen der Untertests des HAWIK-III (gematchte Stichprobe)............................221 Tabelle A3: Interkorrelationen der Untertests des HAWIK-IV (Gesamtstichprobe). ................................222 Tabelle A4: Interkorrelationen der Untertests des HAWIK-IV (gematchte Stichprobe). ..........................223 Tabelle A5: Abkürzungen des HAWIK-IV. ..................................................................................................224 Tabelle A6: Abkürzungen des HAWIK-III. ..................................................................................................224 Tabelle A7: Exploratorische Faktorenanalyse des HAWIK-IV (kurzes Intervall). .......................................225 Tabelle A8: Exploratorische Faktorenanalyse des HAWIK-IV (langes Intervall). .......................................225 Tabelle A9: Exploratorische Faktorenanalyse des HAWIK-III (kurzes Intervall). .......................................225 Tabelle A10: Exploratorische Faktorenanalyse des HAWIK-III (langes Intervall). .....................................225 Tabelle A11: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-III). .................................226 Tabelle A12: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-IV). .................................226 Tabelle A13: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-III). .................................226 Tabelle A14: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-IV). ................................226 Anhang 221 Zusatztabellen Tabelle A1: Interkorrelationen der Untertests des HAWIK-III (Gesamtstichprobe). Untertest BE AW ZST GF BO RD MT WT FL AV SS ZN BE AW .33 ZST .11 .12 GF .41 .58 .10 BO .29 .35 .11 .28 RD .15 .52 .15 .37 .31 MT .34 .35 .27 .31 .35 .40 WT .29 .55 .11 .56 .34 .30 .26 FL .31 .26 .13 .22 .35 .24 .48 .24 AV .35 .44 .18 .48 .38 .23 .28 .54 .22 SS .09 .12 .46 .05 .23 .16 .27 .07 .08 .10 ZN .12 .24 .27 .17 .12 .38 .26 .22 .09 .13 .19 Mittelwert 11.1 11.0 11.6 11.8 10.8 11.1 11.1 11.6 9.8 11.2 11.6 9.9 SD 3.0 2.8 3.1 2.8 3.3 2.8 3.2 2.8 3.0 2.0 2.8 2.6 Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6. Tabelle A2: Interkorrelationen der Untertests des HAWIK-III (gematchte Stichprobe). Untertest BE AW ZST GF BO RD MT WT FL AV SS ZN BE AW .39 ZST .17 .11 GF .49 .58 .12 BO .24 .40 .12 .33 RD .17 .51 .17 .38 .35 MT .39 .43 .30 .34 .37 .44 WT .31 .52 .11 .53 .38 .26 .27 FL .32 .34 .16 .29 .37 .26 .51 .31 AV .37 .49 .21 .54 .30 .23 .26 .58 .26 SS .08 .18 .41 .15 .19 .28 .28 .11 .06 .02 ZN .19 .23 .30 .11 .13 .39 .26 .21 .14 .07 .26 Mittelwert 11.1 11.0 11.8 11.7 10.8 10.9 11.2 11.4 9.8 11.2 11.8 9.9 SD 3.0 2.9 3.2 2.8 3.4 2.7 3.3 3.0 3.2 1.9 2.7 2.6 Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6. Untertest MT GF ZN BK ZST WT BZF MZ AV SYS BE DT AW RD BEN MT GF .41 ZN .28 .21 BK .31 .40 .06 ZST .19 .14 .20 .10 WT .30 .65 .20 .33 .08 BZF .14 .27 .51 .00 .24 .26 MZ .38 .34 .31 .29 .13 .26 .25 AV .33 .49 .19 .22 .11 .56 .14 .30 SYS .35 .20 .18 .18 .60 .14 .21 .31 .14 BE .49 .43 .04 .40 .21 .35 .14 .32 .35 .28 DT .19 .07 -.01 .14 .34 -.01 .04 .26 .00 .39 .24 AW .46 .57 .36 .32 .11 .56 .33 .39 .47 .18 .32 .03 RD .36 .36 .44 .26 .24 .33 .37 .36 .28 .32 .23 .10 .45 BEN .26 .60 .18 .35 .05 .63 .18 .31 .47 .16 .45 -.05 .53 .35 Mittelwert 11.2 11.1 10.4 10.9 11.0 11.0 10.9 10.6 11.1 11.0 11.1 10.9 10.7 11.0 10.7 SD 3.0 2.4 2.5 2.4 2.8 2.6 2.3 2.4 2.3 2.6 2.8 2.9 2.5 2.4 2.7 Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6. Tabelle A3: Interkorrelationen der Untertests des HAWIK-IV (Gesamtstichprobe). Anhang 222 Untertest MT GF ZN BK ZST WT BZF MZ AV SYS BE DT AW RD BEN MT GF 0.47 ZN 0.28 0.24 BK 0.34 0.37 0.12 ZST 0.21 0.19 0.23 0.15 WT 0.36 0.65 0.19 0.34 0.14 BZF 0.27 0.37 0.56 0.06 0.28 0.34 MZ 0.37 0.39 0.30 0.36 0.22 0.29 0.33 AV 0.37 0.50 0.21 0.28 0.11 0.61 0.24 0.34 SYS 0.41 0.24 0.26 0.25 0.55 0.18 0.33 0.43 0.13 BE 0.56 0.50 0.19 0.40 0.26 0.45 0.28 0.41 0.48 0.37 DT 0.18 0.11 0.02 0.16 0.37 0.01 0.14 0.30 -0.03 0.46 0.29 AW 0.51 0.56 0.35 0.33 0.11 0.55 0.41 0.41 0.49 0.21 0.39 0.00 RD 0.40 0.42 0.40 0.34 0.16 0.38 0.43 0.43 0.30 0.39 0.26 0.08 0.42 BEN 0.29 0.57 0.20 0.31 0.09 0.61 0.25 0.36 0.51 0.16 0.49 -0.01 0.51 0.39 Mittelwert 11.2 10.9 10.2 10.8 10.9 10.8 10.8 10.5 11.1 11.0 10.8 10.6 10.6 10.8 10.5 SD 3.1 2.6 2.4 2.3 3.0 2.7 2.3 2.5 2.3 2.7 2.7 2.9 2.5 2.4 2.6 Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6. Tabelle A4: Interkorrelationen der Untertests des HAWIK-IV (gematchte Stichprobe). Anhang 223 Untertest Prozesswert Index Untertest/Index Abkürzung Mosaik-Test MT Gemeinsamkeiten finden GF Zahlen nachsprechen ZN Bildkonzepte BK Zahlen-Symbol-Test ZST Wortschatz-Test WT Buchstaben-Zahlen-Folgen BZF Matrizen-Test MZ Allgemeines Verständnis AV Symbol-Suche SYS Bilder ergänzen BE Durchstreich-Test DT Allgemeines Wissen AW Rechnerisches Denken RD Begriffe erkennen BEN Mosaik-Test ohne Zeitbonus MT-OZ Zahlen nachsprechen vorwärts ZN-V Zahlen nachsprechen rückwärts ZN-R Durchstreich-Test strukturiert DT-S Durchstreich-Test unstrukturiert DT-U Sprachverständnis SV Wahrnehmungsgebundenes LogiWLD sches Denken Arbeitsgedächtnis AGD Verarbeitungsgeschwindigkeit VG Untertest/Index Bilderergänzen Allgemeines Wissen Zahlen-Symbol-Test Gemeinsamkeitenfinden Bilderordnen Rechnerisches Denken Mosaik-Test Wortschatz-Test Figurenlegen Allgemeines Verständnis Symbol-Suche Zahlennachsprechen (Labyrinth-Test) Sprachliches Verständnis Wahrnehmungsorganisation Unablenkbarkeit Arbeitsgeschwindigkeit Verbal-IQ Handlungs-IQ Abkürzung BE AW ZST GF BO RD MT WT FL AV SS ZN LT SV WO UA AG V-IQ H-IQ Tabelle A6: Abkürzungen des HAWIK-III. Untertest Index- und Gesamtwert Tabelle A5: Abkürzungen des HAWIK-IV. Anhang 224 Anhang 225 Tabelle A7: Exploratorische Faktorenanalyse des HAWIK-IV (kurzes Intervall). Tabelle A8: Exploratorische Faktorenanalyse des HAWIK-IV (langes Intervall). Faktor Faktor Untertest 1 2 BEN .83 .03 GF .82 .14 WT .82 -.03 AW .75 .00 AV .68 -.05 BE .67 .39 MT .57 .36 BK .55 .34 SYS .16 .80 DT .01 .79 ZST -.01 .76 MZ .41 .47 ZN .07 .02 BZF .15 .05 RD .36 .25 Anmerkung: Abkürzungen siehe und A6. Untertest 1 2 3 4 WT .83 .21 .02 .03 BEN .77 .05 -.04 .16 GF .72 .25 .09 .19 AV .67 .11 .06 .19 AW .56 .51 .01 .25 ZN .11 .84 .07 .08 RD .30 .62 .17 .28 BZF .24 .61 .33 -.25 ZST .12 .15 .84 -.12 SYS .07 .17 .77 .16 DT -.23 .02 .55 .35 MT .20 .31 .21 .63 BK .32 .00 -.06 .60 BE .36 -.28 .36 .56 MZ .10 .49 .05 .56 Anmerkung: Abkürzungen siehe Anhang A5 und A6. 3 .19 .09 .13 .26 .11 .12 .10 -.11 .18 -.16 .16 .32 .86 .85 .54 Anhang A5 . Tabelle A9: Exploratorische Faktorenanalyse des HAWIK-III (kurzes Intervall). Faktor Untertest 1 2 3 4 AV .76 -.06 .29 .24 WT .73 .26 .10 .06 GF .69 .36 .17 -.16 AW .57 .54 .18 .06 RD .20 .81 .09 .02 MT -.01 .63 .52 .22 ZN .34 .60 -.17 .24 FL .00 .35 .71 .08 BO .26 -.05 .70 .17 BE .24 -.02 .67 -.05 SS -.08 .09 .14 .79 ZST .20 .12 .03 .78 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Tabelle A10: Exploratorische Faktorenanalyse des HAWIK-III (langes Intervall). Faktor Untertest 1 2 3 4 WT .84 -.01 .02 .17 GF .83 .09 .16 .05 AV .76 .06 .17 .01 AW .74 -.09 .09 .33 BE .55 .16 .45 .01 ZST .02 .90 .09 .03 SS .06 .83 .02 .24 FL .09 -.11 .89 .11 MT .25 .30 .71 .19 RD .30 .06 .13 .75 ZN -.10 .27 .02 .72 BO .41 .00 .26 .56 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Anhang 226 Tabelle A11: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-III). Faktor Tabelle A12: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-IV). Untertest 1 2 3 4 AW .78 .11 .32 .08 GF .77 .07 .20 -.17 WT .74 .16 .12 .06 AV .64 .25 .04 .18 FL -.02 .78 .31 -.04 BO .28 .70 .01 .21 BE .39 .56 -.10 -.09 ZN .09 -.03 .78 .01 RD .29 .14 .72 .13 MT .20 .47 .57 .16 SS -.01 .01 .05 .86 ZST .07 .07 .11 .82 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Faktor Untertest 1 2 3 WT .82 .10 .08 GF .81 .23 .01 AW .76 .15 .14 AV .72 .27 -.04 RD .57 .00 .46 BO .45 .39 .18 FL .17 .81 .07 MT .17 .74 .35 BE .40 .56 -.05 ZN .28 -.20 .75 ZST -.03 .22 .70 SS -.03 .35 .64 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Tabelle A13: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-III). Tabelle A14: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-IV). Faktor Untertest 1 2 3 4 WT .87 .04 .12 -.03 BEN .81 .14 .19 -.09 GF .79 -.05 .24 .08 AV .68 .03 .08 .02 AW .59 .41 .35 .04 ZN -.06 .87 .06 .05 BZF .09 .70 -.18 .07 RD .16 .64 .35 .09 MT .07 .25 .75 .18 BK .23 -.17 .62 .01 MZ .26 .30 .61 .05 BE .35 -.19 .57 .21 ZST -.05 .20 -.06 .86 SYS .07 .14 .12 .86 DT -.02 -.14 .31 .64 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Faktor Untertest 1 2 3 BEN .73 .26 -.04 BE .72 -.06 .33 AV .67 .29 .02 GF .65 .50 .04 BK .65 -.05 .15 WT .63 .50 -.10 MT .62 .15 .24 AW .62 .50 -.11 BZF .07 .81 .22 ZN .17 .76 .13 RD .36 .53 .29 DT -.04 -.14 .78 SYS .21 .20 .71 ZST -.02 .33 .64 MZ .36 .28 .54 Anmerkung: Abkürzungen siehe Anhang A5 und A6. Hiermit erkläre ich, dass ich die vorliegende Arbeit ohne unerlaubte Hilfe angefertigt, keine anderen als die angegebenen Quellen und Hilfsmittel verwendet und die den benutzten Werken wörtlich oder inhaltlich entnommenen Stellen als solche kenntlich gemacht habe. Bremen, den 19.12.2008 Maike Lipsius Diese Veröffentlichung lag dem Promotionsausschuss Dr. phil der Universität Bremen als Dissertation vor. Gutachter: Prof. Dr. Franz Petermann Gutachter Prof. Dr. Uwe Tewes Das Kolloquium fand am 16. Juni 2009 statt.