Validitätsstudie zum HAWIK-IV im Vergleich zum HAWIK-III - E-LIB

Transcrição

Validitätsstudie zum
HAWIK-IV im Vergleich zum HAWIK-III
Dissertation zur Erlangung der Doktorwürde
durch den Promotionsausschuss
Dr. phil. der Universität Bremen
vorgelegt von Maike Lipsius
Bremen, im Dezember 2008
1. Gutachter: Prof. Dr. Franz Petermann
2. Gutachter: Prof. Dr. Uwe Tewes
Promotionskolloquium am 16.06.2009
Danksagung
Ohne die Hilfe vieler Menschen wäre diese Arbeit niemals fertig geworden. Es ist mir ein großes Anliegen, mich auf diesem Wege bei all denen zu bedanken, die mir tatkräftig zur Seite
standen.
Zunächst möchte ich mich herzlich bei Herrn Prof. Dr. Franz Petermann bedanken, der mir die
Möglichkeit gab, an der Normierung des HAWIK-IV mitzuwirken und im Rahmen dieses Projektes zu promovieren und mich in den letzten vier Jahren dabei stets unterstützt hat.
Mein besonderer Dank gilt Dr. Monika Daseking, die auch bei größter Arbeitsbelastung jederzeit ein offenes Ohr für große und kleine Probleme hatte, stets Interesse zeigte und eine fachliche und persönliche Bereicherung für mich war und hoffentlich weiterhin sein wird.
Desweiteren bin ich meinen Kollegen und Kolleginnen des ZKPR sehr dankbar, die mich mit
anregenden Gesprächen, aufbauenden Worten und fachlich kompetenten Tipps täglich begleitet und für eine entspannte und humorvolle Arbeitsatmosphäre gesorgt haben: Julia, Anne,
Julia K., Julia D., Marijke, Sören, Dennis und viele mehr. PD Dr. Hans-Christian Waldmann danke ich für die methodische Betreuung und die konstruktive kritische Betrachtung des empirischen Teils.
Ein großer Dank geht an die Schulen, Lehrer, Eltern, Kinder und Studenten (hier sei insbesondere der engagierte und kompetente Einsatz von Bea zu erwähnen), die mir mit ihrer Hilfe die
Erstellung dieser Arbeit ermöglicht haben.
Ich danke meinen Freundinnen Helena, Steffi und Andrea, die trotz eigener Belastungen immer
für mich da waren und mich bei der Datenerhebung und der Erstellung der Dissertation unterstützt haben. Ebenso danke ich Jan, Jost, Susi, Anne und Julia für die konstruktiven Verbesserungsvorschläge.
Antje danke ich für die kompetente Hilfe, dafür, dass sie an den Nutzen dieser Arbeit für die
klinische Anwendung glaubt, für wertvolle Ablenkung und dafür, dass sie sich in meiner
schwersten Zeit als wahre Freundin erwiesen hat.
Schließlich danke ich meiner Familie, die ich von ganzem Herzen liebe! Insbesondere meinen
Eltern, die mir immer das Gefühl gaben, dass sie stolz auf mich sind. Ohne euch wäre nichts
von dem, was ich in meinen Leben bisher erreicht habe, möglich gewesen. Ich hoffe ich konnte
euch in diesem so ereignisreichen Jahr etwas von dem zurückgeben, was ihr mir so viele Jahre
gegeben habt.
Inhaltsverzeichnis
I
1
Einleitung .............................................................................................................................. 2
2
Theoretische Grundlagen: Was ist Intelligenz? ..................................................................... 7
3
2.1
Intelligenzdefinitionen ................................................................................................. 7
2.2
Das Intelligenzkonzept David Wechslers .................................................................. 14
2.3
Zusammenfassung ..................................................................................................... 16
Intelligenztheorien und -modelle......................................................................................... 18
3.1
Die General-Faktoren-Theorie von Spearman ........................................................... 18
3.1.1
Bewertung ........................................................................................................... 20
3.1.2
Verbindung zu den Wechsler-Skalen .................................................................. 20
3.2
Das Primärfaktorenmodell von Thurstone ................................................................. 20
3.2.1
Bewertung ........................................................................................................... 21
3.2.2
3.3
Die Gf-Gc-Theorie von Cattell und Horn ................................................................... 22
3.3.1
Fluide Intelligenz (gf) .......................................................................................... 23
3.3.2
Kristalline Intelligenz (gc) ................................................................................... 23
3.3.3
Weiterentwicklung der Gf-Gc-Theorie ................................................................ 24
3.3.4
Bewertung ........................................................................................................... 25
3.3.5
3.4
Die Three-Stratum-Theorie von Carroll .................................................................... 26
3.4.1
Bewertung ........................................................................................................... 27
3.4.2
Unterschiede zur Gf-Gc-Theorie .......................................................................... 28
3.4.3
3.5
Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten .................................. 29
3.5.1
Bewertung ........................................................................................................... 33
3.5.2
3.6
Diskussionen zur Existenz eines g-Faktors................................................................ 36
3.6.1
Was ist g? ............................................................................................................ 36
3.6.2
Pro und Kontra .................................................................................................... 36
3.6.3
Verbindung zur Studie ........................................................................................ 39
Inhaltsverzeichnis
3.7
4
II
Die Wechsler-Skalen ........................................................................................................... 42
4.1
Die Geschichte der Wechsler-Skalen......................................................................... 42
4.2
Der HAWIK-III ......................................................................................................... 47
4.3
Der HAWIK-IV ......................................................................................................... 49
4.4
Testgütekriterien des HAWIK-III und HAWIK-IV................................................... 51
4.4.1
Objektivität .......................................................................................................... 52
4.4.1.1
Objektivität im HAWIK-III............................................................................. 52
4.4.1.2
Objektivität im HAWIK-IV ............................................................................ 53
4.4.2
Reliabilität ........................................................................................................... 54
4.4.3
Validität ............................................................................................................... 55
4.4.3.1
Nachweis der internen Struktur ....................................................................... 55
4.4.3.2
Konstruktvalidität ............................................................................................ 57
4.4.4
Normen des HAWIK-III und HAWIK-IV .......................................................... 58
4.4.5
Boden- und Deckeneffekte .................................................................................. 58
4.5
Die Bewertung der Wechsler-Skalen ......................................................................... 59
4.5.1
Fehlende theoretische Bindung ........................................................................... 60
4.5.2
Profilanalysen ...................................................................................................... 61
4.5.3
Weitere Kritikpunkte ........................................................................................... 63
4.5.4
Abschließende Betrachtung der Wechsler-Skalen .............................................. 63
4.6
Bewertung der WISC-IV ........................................................................................... 64
4.6.1
Aktualisierung der theoretischen Grundlagen ..................................................... 64
4.6.2
Anpassung an den Entwicklungsstand der Kinder .............................................. 68
4.6.3
Steigerung der Anwenderfreundlichkeit ............................................................. 68
4.6.4
Zusätzliche Auswertungsmöglichkeiten.............................................................. 69
4.6.5
Schwächen der WISC-IV .................................................................................... 70
4.7
Unterschiede zwischen HAWIK-III und -IV und deren Auswirkung auf die
Vergleichbarkeit beider Testversionen.................................................................................... 71
4.7.1
Allgemeine und strukturelle Veränderungen zwischen beiden Testversionen .... 71
Inhaltsverzeichnis
4.7.2
5
Index Sprachverständnis ................................................................................. 74
4.7.2.2
Index Wahrnehmungsgebundenes Logisches Denken .................................... 79
4.7.2.3
Index Arbeitsgedächtnis .................................................................................. 81
4.7.2.4
Index Verarbeitungsgeschwindigkeit .............................................................. 82
Korrelationsstudien .................................................................................................... 84
5.1.1
Korrelationsstudien zur WISC-III ....................................................................... 84
5.1.2
Korrelationsstudien zum HAWIK-III ................................................................. 85
5.1.3
Korrelationsstudien zur WISC-IV ....................................................................... 86
5.1.4
Korrelationsstudien zum HAWIK-IV ................................................................. 86
5.1.5
Korrelationsstudien mit anderen Testverfahren .................................................. 87
5.2
Störeinflüsse .............................................................................................................. 88
5.2.1
Lerneffekt ............................................................................................................ 90
5.2.2
Flynn-Effekt ........................................................................................................ 94
5.3
Grenzen der Intelligenzdiagnostik ............................................................................. 96
5.4
Ableitung der Fragestellung und Hypothesen ..................................................................... 99
6.1
Unterschiedshypothesen zum Vergleich der Mittelwerte von HAWIK-III und -IV 100
6.2
Hypothesen zur Faktorenstruktur des HAWIK-III und -IV ..................................... 102
6.3
Hypothesen zum Zusammenhang zwischen HAWIK-III und HAWIK-IV ............. 103
6.3.1
Einfluss der Testvorgabe ................................................................................... 104
6.3.2
Einfluss des Zeitintervalls ................................................................................. 105
6.4
7
Methodische Aspekte bei Vergleichsstudien ...................................................................... 84
5.1
6
Veränderungen in den einzelnen Untertests ........................................................ 72
4.7.2.1
4.8
III
Hypothesen zur Regressionsanalyse ........................................................................ 106
Methoden und Datenanalyse ............................................................................................. 111
7.1
Studienablauf ........................................................................................................... 111
7.2
Studiendesign ........................................................................................................... 111
7.3
Stichprobenbeschreibung ......................................................................................... 113
Inhaltsverzeichnis
7.3.1
Gesamtstichprobe .............................................................................................. 113
7.3.2
Gematchte Stichprobe ....................................................................................... 115
7.4
Untersuchungsinstrumente....................................................................................... 117
7.5
Statistische Methoden zur Analyse der Daten ......................................................... 118
7.5.1
t-Tests für abhängige Stichproben ..................................................................... 118
7.5.2
Faktorenanalysen ............................................................................................... 119
7.5.3
Korrelationen ..................................................................................................... 119
7.5.3.1
7.5.4
8
IV
Zusammengefasste Werte.............................................................................. 120
Regressionsanalysen.......................................................................................... 121
7.5.4.1
Multiple lineare Regression........................................................................... 122
7.5.4.2
Vorhergesagte Werte und Konfidenzintervalle ............................................. 122
Ergebnisse ......................................................................................................................... 124
8.1
Explorative Datenanalyse ........................................................................................ 124
8.1.1
Deskriptive Statistiken des HAWIK-III ............................................................ 124
8.1.2
Deskriptive Statistiken des HAWIK-IV ............................................................ 126
8.2
Überprüfung der Mittelwertdifferenzen ................................................................... 129
8.3
Mittelwertvergleich .................................................................................................. 131
8.3.1
Kurzes Intervall ................................................................................................. 132
8.3.2
Langes Intervall ................................................................................................. 134
8.4
Lerneffekt ................................................................................................................ 136
8.5
Flynn-Effekt ............................................................................................................. 142
8.6
Untersuchung der Teststruktur mit Hilfe von Faktorenanalysen ............................. 144
8.6.1
Faktorenanalysen ohne Vorgabe der Faktorenanzahl........................................ 144
8.6.2
Faktorenanalysen mit Vorgabe der Faktorenanzahl .......................................... 146
8.6.3
Zusammenfassung Faktorenanalysen ................................................................ 149
8.7
Untersuchung des Zusammenhangs mit Hilfe von Korrelationen ........................... 149
8.7.1
Korrelationen der Gesamtstichprobe ................................................................. 149
8.7.2
Korrelationen der Teilstichprobe....................................................................... 156
8.7.3
Zusammenfassung Korrelationsanalysen .......................................................... 158
Inhaltsverzeichnis
8.8
9
Regressionsanalysen ................................................................................................ 159
8.8.1
Untersuchung der Varianzaufklärung der HAWIK-III-Untertests .................... 159
8.8.2
Untersuchung der Varianzaufklärung der HAWIK-IV-Untertests.................... 161
8.8.3
Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ ................. 163
8.8.4
Erwartete Werte und Konfidenzintervalle ......................................................... 164
8.8.5
Zusammenfassung der Regressionsanalysen..................................................... 168
8.9
V
Zusammenfassung der Ergebnisse ........................................................................... 169
Diskussion der Ergebnisse ................................................................................................ 170
9.1 Ergebnisbetrachtung des Mittelwertvergleichs ............................................................... 170
9.2 Ergebnisbetrachtung der Störeinflüsse ............................................................................ 171
9.2.1 Lerneffekt ................................................................................................................. 171
9.2.2 Flynn-Effekt ............................................................................................................. 174
9.3 Ergebnisbetrachtung der Faktorenanalysen..................................................................... 176
9.4 Ergebnisbetrachtung der Korrelationsanalysen ............................................................... 177
9.4.1 Einfluss der Testreihenfolge..................................................................................... 178
9.4.2 Höhe der Korrelationen der Gesamtstichprobe ........................................................ 178
9.4.3 Vergleich zwischen der gematchten und der Gesamtstichprobe .............................. 180
9.4.4 Einfluss der Länge des Re-Testintervalls ................................................................. 180
9.4.5 Abschließende Ergebnisbetrachtung der Korrelationsanalysen ............................... 181
9.5 Ergebnisbetrachtung der Regressionsanalysen ............................................................... 181
9.5.1 Varianzaufklärung der Untertests des HAWIK-III .................................................. 181
9.5.2 Varianzaufklärung der Untertests des HAWIK-IV .................................................. 184
9.5.3 Vorhersagekraft der Indizes auf den Gesamt-IQ ...................................................... 185
9.5.4 Abschließende Ergebnisbetrachtung der Regressionsanalysen ................................ 186
9.5.5 Erwartete Werte und Konfidenzintervalle ................................................................ 186
9.6 Unterschiede in der Rohwerte- und Wertpunktverteilung............................................... 187
9.7 Einzelfallbetrachtungen ................................................................................................... 188
9.7.1 Veränderungen in der Untertestzusammensetzung der Indizes ................................ 188
9.7.2 Klinische Relevanz ................................................................................................... 190
Inhaltsverzeichnis
VI
9.7.3 Unterschiedliche Normierung .................................................................................. 190
9.7.4 Inhaltliche Veränderungen der Untertests ................................................................ 190
9.7.5 Veränderungen der Untertestreihenfolge ................................................................. 191
9.7.6 Zusammenfassung der Einzelfallbetrachtungen ....................................................... 192
9.8 Ausblick und Einschränkungen ....................................................................................... 192
9.8.1 Perspektiven für die Praxis ....................................................................................... 192
9.8.2 Einschränkungen der Studie ..................................................................................... 195
9.8.3 Forschungsperspektiven ........................................................................................... 197
Zusammenfassung ..................................................................................................................... 198
Literaturverzeichnis................................................................................................................... 199
Anhang ...................................................................................................................................... 217
Abbildungsverzeichnis .......................................................................................................... 217
Tabellenverzeichnis............................................................................................................... 218
Zusatztabellen ....................................................................................................................... 221
I Theoretischer Teil
Kapitel 1
Einleitung
2
1 Einleitung
Allgemeines Wissen, Frage 18: „Wie viel Tage hat das Jahr?“
Thilo, 8 Jahre: „Das ist mir doch egal, Hauptsache irgendwann ist Weihnachten!“
Die Intelligenz fasziniert die Menschen seit vielen Jahrhunderten. Bereits 300 v. Chr. fand der
Begriff seine Erwähnung durch den chinesischen Philosophen Lao-Tse, der konstatierte: „Dinge
wahrzunehmen ist der Keim der Intelligenz“. Bis heute wird darüber gerätselt und philosophiert, was Intelligenz eigentlich ist und was einen intelligenten Menschen ausmacht. Sie
nimmt damit eine große Bedeutung in unserem Leben ein, auch wenn dies nicht von allen so
gesehen wird: „Intelligenz ist nur eine zufällige Begleiterscheinung des Lebens, und vielleicht
nicht einmal eine sehr nützliche“, findet der Biochemiker und Sciencefiction-Autor Isaac Asimov.
Unzählige Forschungsarbeiten haben sich der Intelligenz angenommen. Allerdings gibt es bis
heute keine einheitliche Ansicht darüber, was unter Intelligenz zu verstehen ist. Schon Anfang
des vergangenen Jahrhunderts erklärten die Entwickler des ersten Intelligenztests, Binet und
Simon (1916): “Life is so much a conflict of intelligences as a combat of characters” (S. 256). Es
scheinen ebenso viele Intelligenzdefinitionen wie Intelligenzforscher1 zu existieren. In dieser
Arbeit sollen die verschiedenen Definitionen beleuchtet und ihre Gemeinsamkeiten und Unterschiede aufgezeigt werden.
Die Erfassung von Intelligenz hat mittlerweile auch Einzug in den Alltag gehalten. Ein Blick in
die Fernsehlandschaft macht deutlich, dass sie in den letzten Jahren geradezu zu einem Modethema avancierte. „Der große IQ-Test“, „Deutschlands klügste Kinder“, „Wie schlau ist
Deutschland?“ – das Rätselraten um das Wissen und die kognitiven Fähigkeiten hat Hochkonjunktur. Das Internet überhäuft seine Nutzer mit Gratis-IQ-Tests, die vorgeben, innerhalb kürzester Zeit anhand weniger Aufgaben einen aussagekräftigen Intelligenzquotienten ermitteln
zu können. Diese Form von IQ-Testung ist jedoch oftmals fragwürdig und so sollte einem über
eine TV-Sendung oder das Internet ermittelten Wert kritisch begegnet werden. Die Entwicklung eines wissenschaftlich fundierten Intelligenztests unterliegt strengen Anforderungen, die
in der vorliegenden Arbeit ebenso thematisiert werden wie die Einschränkungen und Grenzen,
die beim Einsatz von Intelligenztests zu beachten sind. Die Intelligenzdiagnostik zählt heute zu
den wichtigsten Bereichen der klinischen Psychologie und bildet den Schwerpunkt psychologischer Leistungsdiagnostik (Petermann, 2006). Der Intelligenzdiagnostik kommt in vielen Berei1
Im Folgenden wird zur besseren Lesbarkeit ausschließlich die männliche Form verwendet, gemeint sind
jedoch beide Geschlechter.
Kapitel 1
Einleitung
3
chen der Psychologie eine wesentliche Bedeutung zu. Sie bildet den Schwerpunkt einer psychologischen Leistungsdiagnostik, die über die Darstellung eines normbasierten und ressourcenorientierten Leistungsprofils die Diagnose der kognitiven Leistungsfähigkeit einer Person
ermöglicht (Daseking, Janke & Petermann, 2006). Diesen Stellenwert besitzt sie jedoch noch
nicht so lange wie ihre mehr als hundertjährige Tradition vermuten lässt. Lange Zeit waren
Intelligenztests umstritten. Erst in den letzten Jahrzehnten setzten sie sich als bedeutsames
Diagnoseinstrument durch.
Intelligenztests wie die Wechsler-Skalen kommen in vielen Bereichen zum Einsatz. Dazu gehören nach Aiken (2003)
die Diagnose von Hoch- und Minderbegabung und die Auswahl intelligenzgeminderter
oder hochbegabter Kinder für spezifische Fördermaßnahmen oder Schullaufbahnplanungen,
die Prognose beruflicher Leistungen im Bereich der Personalauswahl und -entwicklung
in der Arbeits- und Organisationspsychologie,
die Diagnose im klinischen und psychiatrischen Setting,
die Evaluation der Effektivität psychologischer Behandlungen und Interventionen sowie
die Erforschung der kognitiven Fähigkeiten und der Persönlichkeit.
Der Begriff Diagnostik entstammt dem griechischen Wort diagignostikein, das eine kognitive
Funktion mit den Bedeutungen gründlich kennenlernen, Unterscheiden von Merkmalen und
Beurteilungen vornehmen bezeichnet.
Nach Kubinger (2006) erhebt ein psychologischer Leistungstest „unter standardisierten Bedingungen eine Informationsstichprobe über die Testperson, indem … mit systematisch erstellten
Aufgaben interessierende Verhaltensweisen oder psychische Vorgänge ausgelöst und geprüft
werden“ (S. 118). Er stellt ein Verfahren dar, das nach den Regeln der Testtheorie konstruiert
wurde und eine Stichprobe jener Verhaltensweisen erhebt, die zum Zielmerkmal gehören und
es operational definieren (Fisseni, 2004). Intelligenztests gehören dabei in den Bereich der
Fähigkeitsmessung, wobei Fähigkeiten die psychischen und somatischen Bedingungen angeben, die eine Leistung ermöglichen. Intelligenz als Fähigkeit kann selbst nicht beobachtet werden, sie muss aus der Leistung in der Testsituation erschlossen werden.
Nach Jäger und Petermann (1999) verfolgt psychologische Diagnostik das Ziel, Entscheidungen
und sich daraus ergebende Handlungen zu begründen, zu kontrollieren und zu optimieren. In
Anlehnung daran bezeichnen Eid und Petermann (2006) Diagnostik als „die regelgeleitete
Sammlung und Verarbeitung von gezielt erhobenen Informationen, die für das Verständnis
menschlichen Verhaltens bedeutsam sind“ (S. 16). Dies beinhaltet eine möglichst umfassende
Erhebung relevanter Personendaten sowie die transparente Integration dieser Daten zu einer
Kapitel 1
Einleitung
4
wissenschaftlich begründeten Diagnose, die möglichst direkt mit einer adäquaten Intervention
einhergeht (Bölte, Adam-Schwebe, Englert, Schmeck & Poustka, 2000). Um veränderungorientierte Ansätze mehr in den Vordergrund zu stellen, definieren Amelang und Schmidt-Atzert
(2006) als Aufgabe der Psychodiagnostik die Erfassung interindividueller Unterschiede im Verhalten und Erleben sowie intraindividueller Merkmale und Veränderungen einschließlich ihrer
jeweils relevanten Bedingungen. Somit werden hinlänglich präzise Vorhersagen künftigen Verhaltens und Erlebens sowie deren eventuelle Veränderungen in definierten Situationen möglich.
Ende 2004 bekam das Zentrum für Klinische Psychologie und Rehabilitation der Universität
Bremen den Auftrag, die US-amerikanische Intelligenztestbatterie WISC-IV für den deutschsprachigen Raum zu adaptieren und zu normieren. In den folgenden drei Jahren wurde der
HAWIK-IV in Deutschland, Österreich und der deutschsprachigen Schweiz an über 2 600 Kindern und Jugendlichen im Alter von 6 bis 16 Jahren normiert. 2007 wurde der Test im HuberVerlag veröffentlicht.
Parallel zur Normierung wurden diverse Validierungsstudien durchgeführt. Die Validierung
dient einer Spezifikation und Präzisierung der diagnostischen Schlussfolgerungen, die aus seinen Ergebnissen korrekt gezogen werden können. Die Validität eines Testverfahrens gilt als das
wichtigste Gütekriterium (Bortz & Döring, 2002) und demnach als wichtigster Aspekt bei der
Testentwicklung und -evaluation (AERA, 1999; Angoff, 1988). Andere technische und konstruktionstheoretische Gütekriterien wie die Objektivität oder die Reliabilität gelten nur als Voraussetzungen zur Steigerung der Validität eines Instruments (Jäger, A. O., 1986).
Zur Validierung des HAWIK-IV wurden beispielsweise regionale Unterschiede zwischen den
Kindern aus Deutschland und der Schweiz untersucht (Grob et al., 2008). Einen ebenso wichtigen Beitrag zur Validität des Verfahrens leisten klinische Studien zu Kindern mit Hochbegabung, leichter oder mittelgradiger Intelligenzminderung, Lese-Rechtschreibstörung (LRS) und
Aufmerksamkeitsdefizit-/Hyperaktivitätsstörung (ADHS) (Petermann & Petermann, 2008a).
Weitere Studien wurden bereits veröffentlicht oder befinden sich zurzeit in Bearbeitung (Hagmann-von Arx, Meyer & Grob, 2008; Holocher-Ertl, Kubinger & Hohensinn, 2008).
Neben der Mitarbeit an der Entwicklung und Normierung des HAWIK-IV bestand die Aufgabe
der Verfasserin der vorliegenden Studie darin, die Gültigkeit des neuen Verfahrens nachzuweisen. Konkret sollte dies mit Hilfe eines Vergleichs zwischen dem Test und seinem Vorgängerverfahren, dem HAWIK-III, erfolgen. Bei der Entwicklung neuer Versionen von Testverfahren
stellt die Interpretation einen wichtigen Aspekt dar. Testanwender sollten von einer Vergleichbarkeit des neuen Testverfahrens mit der vorherigen Version ausgehen können, wenn bei-
Kapitel 1
Einleitung
5
spielsweise mit Hilfe des Testverfahrens für eine Verlaufsdiagnostik die Entwicklung eines Patienten anhand der alten Version (hier HAWIK-III) vor Beginn der Maßnahme und der neuen
Version (hier HAWIK-IV) nach Beendigung der Maßnahme abgebildet werden soll. Abweichungen in der Struktur der Tests und der Intelligenz der Menschen (Flynn-Effekt) führen jedoch zu
einer zu deutlichen Abweichung der neuen von der alten Version eines Testverfahrens, um
eine ausreichende Übereinstimmung garantieren zu können. In dieser Studie soll nun untersucht werden, ob die veränderte Teststruktur, die aktualisierten Normen und die inhaltlichen
Veränderungen in den Untertests die Vergleichbarkeit des aktuellen HAWIK-IV mit dem HAWIK-III beeinträchtigen.
Verschiedene Studien legen nahe, dass der HAWIK-III aufgrund sogenannter „Normverschiebungen“ überhöhte Werte liefert (Sparrow & Gurland, 1998). Somit kann die kognitive Leistungsfähigkeit eines Kindes fehleingeschätzt (überschätzt) werden. Dies sollte durch die Revision und Neunormierung behoben werden. Den HAWIK-IV als neuen Maßstab für die Beurteilung individueller Testergebnisse anzulegen, setzt jedoch ein möglichst präzises Wissen über
die möglichen Differenzen zwischen den Testergebnissen beider Versionen voraus. Als Methode zur Untersuchung dieser Differenzen bietet es sich an, beide Testversionen von denselben
Kindern durchführen zu lassen und die Testergebnisse miteinander zu vergleichen. Damit wird
versucht, dem Praktiker eine Richtlinie dafür zu geben, was er zu beachten hat, wenn er bisher
den HAWIK-III angewandt hat und zukünftig mit dem HAWIK-IV arbeiten will.
In den vergangenen Jahrzehnten spielte die dem Testverfahren zugrunde liegende Intelligenztheorie bei der Testentwicklung und -interpretation eine immer größere Rolle (Kamphaus,
Winsor, Rowe & Kim, 2005). Aus diesem Grund wird im Folgenden auf die Intelligenztheorien
und -modelle eingegangen, die bei der Entwicklung der Wechsler-Skalen von Bedeutung waren. Zwar legte Wechsler seinen Tests explizit keine Theorie zu Grunde, diesen wurden im
Nachhinein aber diverse Intelligenztheorien und -modelle zugeordnet. Dabei sind vor allem
Strukturmodelle zu nennen, die einen hierarchischen Aufbau aufweisen.
Zur Einordnung der Ergebnisse dieser Studie werden bisherige Korrelationsstudien beschrieben, die Hinweise darauf geben können, welche Resultate in der vorliegenden Untersuchung
zu erwarten sind. Außerdem wird ausführlich möglichen Störeinflüssen auf den Vergleich zwischen den Testversionen HAWIK-III und -IV nachgegangen.
Die Wechsler-Skalen zählen zu den meist untersuchten und angewandten Intelligenztestverfahren der Welt (Zhu & Weiss, 2005). Sie prägen wie kein anderer Intelligenztest seit nunmehr
siebzig Jahren die Diagnostik von Kleinkindern, Kindern, Jugendlichen und Erwachsenen. Vor
allem dank seiner Skalen gilt David Wechsler als Hauptfigur im Bereich der Testentwicklung in
der zweiten Hälfte des zwanzigsten Jahrhunderts (Edwards, 1994). Da es sich bei dem HAWIK-
Kapitel 1
Einleitung
6
IV um den Test handelt, dessen Validität nachgewiesen werden soll, wird auf seine Vor- und
Nachteile besonders eingegangen. So besteht neben vielen positiven Reaktionen auf das aktuelle Verfahren weiterhin diverse Kritik an den Wechsler-Skalen, die nicht unbeachtet gelassen werden kann. Dem HAWIK-IV liegen die bisher größten Änderungen gegenüber einer Vorgängerversion zu Grunde. Aus diesem Grund wird ein Vergleich der gegenständlichen Testversionen HAWIK-III und -IV im Hinblick darauf vorgenommen, inwieweit diese inhaltlichen und
strukturellen Veränderungen zu Einschränkungen der Vergleichbarkeit beider Versionen führen können.
Der Schwerpunkt dieser Arbeit liegt im methodischen Bereich, da weniger ein bestimmtes
psychologisches Konstrukt oder klinisch-psychologisches Krankheitsbild anhand spezifischer
Methoden untersucht wird, als vielmehr die Methode in Form eines Testverfahrens selbst. Im
empirischen Teil werden zunächst neben der Vorstellung des Aufbaus und Designs dieser Validierungsstudie die Stichprobe und die angewandten statistischen Verfahren beschrieben. Weiterhin werden die gemäß den theoretischen Erwartungen aufgestellten Hypothesen untersucht und die Ergebnisse detailliert aufgezeigt.
Abgeschlossen wird die vorliegende Arbeit mit der Diskussion der Ergebnisse, ihrer Einordnung
in den theoretischen Rahmen, der kritischen Bewertung der Studie sowie der Erörterung der
Implikationen der erhaltenen Ergebnisse für die Praxis und den daraus resultierenden Anregungen für zukünftige Forschungsarbeiten.
Kapitel 2
Theoretische Grundlagen: Was ist Intelligenz?
7
2 Theoretische Grundlagen: Was ist Intelligenz?
Allgemeines Verständnis, Frage 5: „Was solltest du tun, wenn du in einem Geschäft eine
Brieftasche oder ein Portemonnaie findest?“
Yannik, 7 Jahre: „Es behalten - ich steh auf Geld!“
Obwohl Intelligenz als das am meisten untersuchte Persönlichkeitsmerkmal in der Psychologie
gilt, gibt es bis heute keine allgemeingültige Definition der Intelligenz (Holling, Preckel & Vock,
2004). Schon vor mehr als 20 Jahren hatte eine Umfrage unter den derzeit bekanntesten Intelligenztheoretikern schon ebenso viele Definitionen ergeben, wie Personen befragt worden
waren (Sternberg & Detterman, 1986).
Nach wie vor besitzt der Begriff Intelligenz keinen allgemein anerkannten, objektiven Inhalt
(Funke & Vaterrodt-Plünnecke, 2004). Der Grund dafür dürfte sein, dass Intelligenz nicht direkt
zu beobachten ist, sie muss vielmehr aus dem Verhalten eines Menschen, wie beispielsweise
beim Lösen von Problemen, abgeleitet werden. Schon durch die verschiedenen Forschungsrichtungen in Bezug auf die Intelligenzleistungen haben sich unterschiedliche Intelligenzdefinitionen entwickelt. Diese spiegeln richtungsbedingt die unterschiedlichen Auffassungen und
Perspektiven der jeweiligen Forscher wider.
Im Folgenden sollen die am weitesten verbreiteten Definitionen von Intelligenz vorgestellt
werden.
2.1
Intelligenzdefinitionen
Die Franzosen Binet und Simon (1916), die Anfang des zwanzigsten Jahrhunderts den ersten
Intelligenztest entwickelten, verstanden unter Intelligenz die Fähigkeit, gut urteilen und sich
gut der Umwelt anpassen zu können sowie die Richtung des Bestrebens einer Person und ihre
Fähigkeit zur Selbstkritik. Parallel dazu definierte der deutsche Psychologe und Begründer der
differentiellen Psychologie, William Stern (1911), Intelligenz als die Fähigkeit einer Person, ihr
Denken bewusst auf neue Situationen einstellen und sich deren Anforderungen erfolgreich
anpassen zu können.
Die wohl bekannteste Intelligenzdefinition geht nach Sternberg (2000b) auf Boring zurück, der
1923 vorschlug, Intelligenz als das anzusehen, was Intelligenztests messen. Boring sah dies
jedoch nicht als endgültige Definition an, sondern verstand seinen Vorschlag eher als eine Art
Startpunkt für eine Diskussion, in der diese Definition so lange Bestand habe, bis die wissenschaftliche Diskussion es erlaube, sie zu erweitern. Noch heute unterstützen Holling et al.
(2004) Borings Definition, indem sie die Intelligenz als einen theoretischen Begriff beziehung-
Kapitel 2
8
sweise ein Konstrukt ansehen, das nicht direkt beobachtbar sei, und die Intelligenz einer Person somit aus ihrem Verhalten in unterschiedlichen Leistungssituationen (also Intelligenztests)
erschlossen werden müsse. Auch nach Jensen ist Intelligenz per Definition das, was Intelligenztests messen (1972).
Diese Definition wurde vielfach kritisiert (Sternberg, 2000b). Da bis zum heutigen Tage noch
nicht vollständig geklärt ist, was genau Intelligenztests messen, wurde sie als wenig hilfreich
eingestuft. Außerdem korrelieren verschiedene Intelligenztests nicht vollständig miteinander
und bilden somit keine Einheit, wie es diese Definition impliziert. Weiterhin wurde diese Definition als konservativ kritisiert, da sie es niemals möglich machen werde, Intelligenz in einer
Weise zu verstehen, die über die traditionellen Testverfahren hinausgehe. Nach Flynn (2007)
könnte nie ein besserer IQ-Test entwickelt werden, wenn Intelligenz das ist, was aktuelle Intelligenztests messen, da der neue IQ-Test nach dieser Definition eine Abweichung von dem wäre, was man bis dahin als Intelligenz zu messen glaubte. Brody (2000) kam zu folgendem
Schluss: „We know how to measure something called intelligence, but we do not know what
has been measured” (S. 30).
Es gehen auch nur wenige Wissenschaftler davon aus, dass IQ-Tests ein reines Maß der Intelligenz widerspiegeln. Intelligenz stellt nach Bjorklund und Schneider (2006) vielmehr ein Phänomen dar, das mit Hilfe eines einzelnen Messverfahrens nicht adäquat erfasst werden kann.
1921 fand ein Symposium zur Frage der Definition von Intelligenz statt, an dem 14 Experten
teilnahmen, die folgende Definitionen von Intelligenz einbrachten:
die Stärke guter Antworten aus dem Blickwinkel von Wahrheiten oder Fakten (Thorndike, 1921),
die Fähigkeit, abstrakt zu denken (Terman, 1921),
sensorisches Vermögen, Wiedererkennungsvermögen, Schnelligkeit und Bandbreite an
Flexibilität beim Assoziieren, Leichtigkeit und Einbildungskraft, Aufmerksamkeitsspanne, Schnelligkeit oder Wachheit beim Antworten (Freeman, 1921),
die Fähigkeit, zu lernen oder schon gelernt zu haben sich selbst mit der Umwelt zu arrangieren (Colvin, 1921),
die Fähigkeit, sich adäquat an relativ neue Lebenssituationen anzupassen (Pintner,
1921),
die Aufnahmefähigkeit für Wissen und verfügbares Wissen (Henmon, 1921),
ein biologischer Mechanismus, der die Auswirkungen der Komplexität von Stimuli zusammenführt und einheitliche Wirkungen im Verhalten bereitstellt (Peterson, 1921),
das Vermögen, instinktive Anpassung zu unterdrücken, diese instinktive Anpassung
angesichts des vornehmlich angewendeten Prinzips von Versuch und Irrtum neu zu definieren und das Vermögen, die modifizierte instinktive Anpassung in offenem Verhalten zum Vorteil des Individuums als sozialem Wesen zu realisieren (Thurstone, 1921),
das Vermögen, sich Vermögen anzueignen (Woodrow, 1921),
Kapitel 2
9
das Vermögen, zu lernen oder von Erfahrungen zu profitieren (Dearborn, 1921) sowie
Empfindung, Wahrnehmung, Assoziation, Gedächtnis, Einbildungskraft, Diskriminationsfähigkeit, Urteilsvermögen und logisches Denken (Haggerty, 1921).
Als gemeinsame Nenner finden sich nach Sternberg (1997a, 2004) in diesen Definitionen
Fähigkeiten höherer Ordnung (wie abstraktes Denken, Problemlösen und Entscheidungsfähigkeit),
die Fähigkeit, sich den Anforderungen der Umwelt anzupassen und
die Fähigkeit zu lernen.
Über 60 Jahre später fand ein weiteres Symposium statt, das die Definitionen von 1921 ablösen sollte. Zwei dutzend Forscher auf dem Gebiet der Intelligenz versuchten, eine Definition zu
finden (Sternberg & Detterman, 1986). Wie oben erwähnt, kamen dabei ebenso viele Definitionen wie Teilnehmer des Symposiums heraus. Für Sternberg (1997a) waren bei diesem Treffen die am häufigsten genannten Elemente:
Fähigkeiten höherer Ordnung,
das, was durch die Bildung geschätzt werden kann und
exekutive Prozesse.
Es gab einige Gemeinsamkeiten zwischen beiden Symposien (Sternberg, 2000b). Attribute wie
Anpassung an die Umwelt, basale mentale Prozesse und Denkprozesse höherer Ordnung wie
logisches Denken, Problemlösungsverhalten und Entscheidungsfindung waren in beiden Treffen stark vertreten. Außerdem gab es einige Themen, die in beiden Symposien behandelt wurden. Dazu gehörte die Frage, ob Intelligenz eine oder mehrere Facetten hat, die jedoch in beiden Treffen nicht einvernehmlich beantwortet werden konnte (siehe dazu Kapitel 3.6), ebenso
wie die Frage, wie weit die Definition von Intelligenz gefasst werden muss. Während einige
Forscher Intelligenz relativ eng im Sinne von biologischen und kognitiven Elementen definierten, sahen andere in ihr auch weiter gefasste Bereiche wie Motivation oder Persönlichkeit.
Auch hinsichtlich dieses Problems konnte keine Lösung gefunden werden.
Es bestanden aber auch deutliche Unterschiede zwischen den Definitionen von 1921 und 1986.
So kam der Metakognition, verstanden als die Fähigkeit sich selbst zu verstehen und zu kontrollieren (Sternberg, 2004), 1986 eine Bedeutung zu, die sie 1921 noch nicht eingenommen
hatte. Außerdem wurden beim späteren Treffen die Rolle von Wissen und die Interaktion zwischen Wissen und kognitiven Prozessen stärker in den Vordergrund gestellt. Ebenso lag 1986
der Schwerpunkt bei der Definition von Intelligenz auf der Rolle des Kontextes und im Speziellen der Kultur. Auch Baltes (1983) hatte das Aneignen von Wissen als wichtigen Aspekt eines
intelligenten Menschen betrachtet. Für ihn bedeutet Intelligenz nicht nur die Fähigkeit der
Informationsverarbeitung und des logischen Denkens, sondern auch eine Fähigkeit des Aneignens, Organisierens und Gebrauchens von Kulturwissen.
Kapitel 2
10
Im Laufe der Jahre kam in vielen Definitionen, wie in der von Wechsler (siehe Kapitel 2.2), dem
Thema der Anpassung eine zunehmende Bedeutung zu. Für Sternberg (1997b) passten sich
Menschen nicht nur der Umgebung an, sondern formten sie auch und suchten sich von Zeit zu
Zeit sogar eine neue Umwelt. Intelligenz reagiere nach ihm nicht nur auf die Umwelt, sondern
forme sie auch aktiv. Sternberg beschrieb Intelligenz als diejenigen kognitiven Fähigkeiten, die
sowohl für die Anpassung an äußere Gegebenheiten als auch für deren Formung und Auswahl
notwendig seien. Da sich die Landschaft des umgebungsbedingten Kontextes im Laufe der Zeit
ändere, setze die angemessene Anpassung, Formung und Auswahl einen lebenslangen Lernprozess voraus (Sternberg, 1997a). Ein erfolgreich intelligenter Mensch halte das Gleichgewicht zwischen Anpassung, Formung und Auswahl aufrecht, indem er von allem so viel wie
notwendig einbringe (Sternberg, 2004). Für Sternberg stand also das Lernen im Vordergrund,
da er davon ausging, ein Mensch muss erst lernen, wie man sich der Umwelt anpasst, bevor er
sie formen oder sich am Ende eine neue aussuchen kann.
Neisser (1979) vermutete zunächst, Intelligenz könne eher nach Prototypen definiert werden,
es gebe also keine eindeutigen Eigenschaften von intelligenten Menschen, sondern charakteristische Eigenschaften, die typisch für intelligente Menschen seien. Ein intelligenter Mensch
sei demnach jemand, der bestimmte Eigenschaften aufweist. Es gebe für ihn jedoch keine speziellen Eigenschaften, die als wichtig und ausreichend identifiziert werden könnten, um einen
Menschen als intelligent zu bezeichnen. Später einigten sich Neisser und andere Intelligenzforscher (Neisser et al., 1996) darauf, dass Individuen sich in ihren Fähigkeiten voneinander unterschieden, komplexe Ideen zu verstehen, sich effektiv an ihre Umwelt anpassen zu können,
von Erfahrungen zu lernen, verschiedene Formen des Schlussfolgerns anzuwenden und Hindernisse zu bewältigen, in dem sie sich Gedanken machten.
Bei einer Befragung von Professoren verschiedener akademischer Fachbereiche zu ihrer Theorie von Intelligenz hoben sie jeweils die Fähigkeiten hervor, die für ihr Fach besonders wichtig
waren (Sternberg, 1985b). Sternberg zog daraus den Schluss, dass den Intelligenz-Konzepten
von Experten verschiedene Metaphern zu Grunde liegen (1985a, siehe Tabelle 2.1).
systemisch
soziologisch
anthropologisch
biologisch, genetischerkenntnistheoretisch
rechenbetont
geografisch
Metapher
Sternberg
Berry
Cole
Charlesworth
Vygotsky
Feuerstein
Piaget
Spearman
Thurstone
Guilford
Cattell
Vernon
Carroll
Jensen
Hunt
Sternberg
Vertreter
Wie steuern sich Individuen?
Interkultureller
Vergleich
Kognitive
Trainingsstudie
Komponentenanalyse
Prototypanalyse
Vermittelte Lernerfahrung
Internale Informationskomponente
Klinische Beobachtung
Kultureller Kontext
Schema
Reaktionszeitanalyse
Protokollanalyse
Computersimulation
elementarer Informationsprozess
Welche Informationsprozesse
unterliegen Intelligenz?
Wie entwickelt sich Intelligenz
als phylogenetisches und ontogenetisches System?
Welche Form nimmt Intelligenz als kulturelle
Entdeckung an?
Wie sind soziale Prozesse in
die Entwicklung verinnerlicht?
Faktorenanalyse
Typische Methode
Faktor
Zu Grunde
liegende Einheit
Welche Form besitzt das Abbild des Geistes (mind-map)?
Hauptfrage
Tabelle 2.1: Übersicht über die wichtigsten Intelligenzvorstellungen (modifiziert nach Sternberg, 1985a)
Kapitel 2
11
Kapitel 2
12
Der Sinn des Gebrauchs solcher Metaphern weist für Sternberg (2000b) einen Zusammenhang
mit dem Verwendungszweck auf. Welche Metapher man am besten übernehmen sollte, hängt
von dem Ziel ab, für das man sie benötigt.
Funke und Vaterrodt-Plünecke (2004) unterscheiden drei verschiedene Ansätze in der Betrachtung von Intelligenz: den Ansatz der Informationsverarbeitung sowie den psychometrischen
und den entwicklungspsychologischen Ansatz. Der informations-verarbeitende Ansatz entwickelte sich aus der experimentellen Psychologie. Anhänger dieser Richtung befassen sich mit
der Erforschung von Prozessen, die für die geistigen Leistungen grundlegende Bedeutung haben, indem beispielsweise Reaktionszeiten und Gedächtnisleistungen gemessen werden oder
untersucht wird, in welcher Weise der Mensch Gelerntes verarbeitet. Im psychometrischen
Ansatz werden auf der Basis von Tests psychische Merkmale gemessen. Es werden spezielle
statistische Verfahren wie Faktorenanalysen angewendet, um die Testergebnisse zu analysieren. So wird dann eine Schlussfolgerung über die Struktur der Intelligenz abgeleitet. Der entwicklungspsychologische Ansatz geht auf Piaget zurück. Dieser Ansatz beschäftigt sich mit der
kognitiven Entwicklung im Verlauf des Lebens.
Bei einer Studie sowohl unter Experten als auch unter der normalen Bevölkerung der USA zu
ihrer Vorstellung von Intelligenz ergaben sich in beiden Gruppen dieselben drei Faktoren: praktisches Problemlösen, verbale Fähigkeiten und soziale Kompetenz (Sternberg, Conway, Ketron
& Bernstein, 1981). Die Autoren sahen hier bei den ersten beiden Faktoren eine Nähe zur G fGc-Theorie von Cattell und Horn (siehe Kapitel 3.3) wobei gf für das praktische Problemlösen
und gc für die verbalen Fähigkeiten stehen.
Flynn (2007) war der Ansicht, Intelligenz zu verstehen sei dasselbe, wie das Atom zu verstehen:
man müsse nicht nur verstehen, was die Komponenten zusammenhalte, sondern auch, was sie
voneinander trenne. Für ihn war der g-Faktor, die allgemeine Intelligenz, was die Komponenten von Intelligenz zusammenhalte; was sie trenne, der von ihm untersuchte Flynn-Effekt. Die
allgemeine Intelligenz zeige sich, indem Menschen, die eine überdurchschnittliche kognitive
Fähigkeit haben, zumeist auch in anderen Bereichen besser seien als andere. Sie sei also die
Grundlage, auf der die überdurchschnittlichen Leistungen einer Person in vielen Bereichen
beruhten. Dies gelte beispielsweise auch für den Bereich der Musik. Wir nennen einen Menschen musikalisch, wenn er mehrere Instrumente spielen kann, er hat also ein „musical g“
(Flynn, 2007, S. 6). Diese g-Ladungen zeigten das Ausmaß, in dem ein Mensch mit hohem IQ in
einem Untertest die Leistung einer durchschnittlich begabten Person übertreffe. Je höher also
die g-Ladung, desto deutlicher spiegelt der Untertest die höheren Fähigkeiten der begabteren
Person wider.
Kapitel 2
13
Flynn (2007) nahm an, um Intelligenz zu verstehen, müsse man zunächst einmal feststellen,
welche Eigenschaften unsere Fähigkeit beeinflussen, ein Problem mit Hilfe des kognitiven Inhalts zu lösen. Für ihn sind das die Folgenden:
Geistige Scharfsinnigkeit: Die Fähigkeit, sofort Lösungsvorschläge für Probleme anbieten zu können, mit denen sich niemals zuvor auseinandergesetzt wurde, Probleme, die
nicht durch mechanischen Einsatz einer gelernten Methode gelöst werden können und
die häufig mehrere kreative alternative Lösungen abverlangen, aus denen gewählt
werden muss.
Denkgewohnheiten: Die Weiterentwicklung der Wissenschaft brachte neue Denkgewohnheiten von enormem Potential mit sich. Sie lösten das Logische und das Hypothetische von dem Konkreten ab und werden heutzutage genutzt, um eine ganze Reihe
von neuen Problemen anzugehen.
Einstellungen: Sie legen die Basis für das Aneignen von Denkgewohnheiten. Es musste
erst gelernt werden, die wissenschaftliche Systematik ernst zu nehmen, bevor der wissenschaftliche Blickwinkel angenommen werden konnte, durch den heute auf die Welt
geschaut wird.
Wissen und Information: Je mehr davon vorhanden ist, desto mehr Probleme können
angegangen werden.
Verarbeitungsgeschwindigkeit, mit der man neue Daten aufnehmen kann. Müssen die
Probleme innerhalb eines Zeitraums gelöst werden gilt: je schneller desto besser.
Gedächtnis, mit dem Wissen und Informationen abgerufen werden können.
Für Flynn trifft diese Definition die richtige Balance und ist weit genug, um kulturspezifische
Abweichungen und alle gegenwärtigen Intelligenztheorien zuzulassen. Seiner Meinung nach
konzipierten die Entwickler der bedeutendsten Intelligenztests ihre Tests, bewusst oder unbewusst, nach dieser Definition.
Intelligenz steht demnach als Oberbegriff für die hierarchisch strukturierte Gesamtheit verschiedener allgemeiner geistiger Fähigkeiten, die das Niveau und die Qualität der Denkprozesse einer Person bestimmen und mit deren Hilfe die für das Handeln wesentlichen Eigenschaften einer Problemsituation in ihren Zusammenhängen erkannt und die Situation gemäß dieser
Einsicht verändert werden kann (Guthke, 1999). Bei Intelligenz scheint es sich also im Wesentlichen um die Fähigkeiten zu handeln, die benötigt werden, um erworbenes Wissen anzuwenden, neuartige Probleme effektiv zu lösen und sich somit den Anforderungen der Umwelt anzupassen. Demnach gelingt es intelligenten Menschen besser, erfolgreiche Problemlösestrategien zu entwickeln, verschiedene Strategien auf ihre Effektivität hin zu vergleichen und die
ausgewählten Strategien im Alltag erfolgreich umzusetzen (Petermann, 2006).
Da es auch zukünftig keine einheitliche Definition von Intelligenz geben wird, wird die zum
jeweiligen Zeitpunkt anerkannteste Definition von den jeweils aktuellen Intelligenztests geprägt. Schon Spearman (1927), der Entwickler der General-Faktoren-Theorie (siehe Kapitel
3.1), hielt Intelligenz in Wahrheit zu einem Wort mit so vielen Bedeutungen, dass es letzten
Kapitel 2
14
Endes gar keine mehr habe. Viele Forscher sehen den fehlenden Konsens auch nicht als negativ an, da sie der Meinung sind, wissenschaftliche Forschungen beginnen selten mit einer
Übereinstimmung, auch wenn sie manchmal zu einer solchen führen (Neisser et al., 1996).
Zusammenfassend lässt sich immerhin festhalten, dass auch ohne eine einheitliche Definition
im Wesentlichen folgende Fähigkeiten Intelligenz ausmachen:
Schlussfolgerungen ziehen,
planen,
Probleme lösen,
abstrakt denken,
komplexe Ideen verstehen,
schnell verstehen und lernen sowie
aus Erfahrung lernen.
2.2
Das Intelligenzkonzept David Wechslers
Da die Wechsler-Skalen Gegenstand dieser Untersuchung sind, soll an dieser Stelle ausführlicher auf die Intelligenzdefinition von David Wechsler eingegangen werden, welche die Basis
für die Entwicklung seiner Intelligenztestbatterien darstellt.
David Wechsler war in erster Linie Kliniker, der seine Tests mehr aus dem praktischen Bedürfnis heraus entwickelte, seine Patienten zu verstehen, als theoretischen Überlegungen nachzugehen (Prifitera, 1994).
Er entwickelte seine Vorstellung von Intelligenz während seiner Arbeit als Chefpsychologe in
New Yorks Bellevue Psychiatric Hospital. Dabei definierte Wechsler (1944) Intelligenz wie folgt:
“Intelligence is the aggregate or global capacity of the individual to act purposefully, to think
rationally and to deal effectively with his environment“ (S. 3). Damit versuchte er zu vermeiden, eine Fähigkeit, wie angesehen sie auch immer sei (z. B. abstraktes Schlussfolgern), als
entscheidend oder übermäßig wichtig hervorzuheben und implizierte, dass jeder Untertest
eines Intelligenztests austauschbar sei (Flanagan & Kaufman, 2004). Diese Definition von Intelligenz, von der er bis zuletzt nicht abwich, stellte die Basis dar, auf der er seine Intelligenztestverfahren entwickelte (Edwards, 1994).
Nach Wechsler (1939a) stellt die Intelligenz also ein globales Konstrukt dar, da sie das Verhalten eines Individuums als Ganzes bestimmt. Für ihn konnte allgemeine Intelligenz nicht gleichgesetzt werden mit intellektueller Fähigkeit, wie weit diese auch immer definiert sei, sondern
musste als eine Manifestation der Persönlichkeit als Ganzes angesehen werden (Wechsler,
1950).
Kapitel 2
15
Andererseits war er der Ansicht, die Intelligenz könne als spezifisch dargestellt werden, da sie
aus Elementen oder Fähigkeiten zusammengesetzt sei, die, obwohl nicht völlig unabhängig
voneinander, qualitativ unterscheidbar seien (Wechsler, 1939a). Für Wechsler (1975) ist Intelligenz kein einzelnes und einzigartiges Merkmal, sondern eine vielfältige Einheit, ein Komplex
diverser und vielfacher Komponenten. Testleistungen reflektierten seiner Meinung nach nur
einen Teil dessen, was Intelligenz beinhaltete. Der Versuch, Intelligenztestergebnisse als Gesamtfähigkeit zu würdigen, das heißt als die Fähigkeit, alle möglichen Situationen wirkungsvoll
zu bewältigen, war für Wechsler (1943) zum Scheitern verurteilt. Für ihn ermöglichen selbst
die seinerzeit besten Intelligenztests nur eine unvollständige Messung des intelligenten Verhaltens als Fähigkeit des Einzelnen. Dies zeigte sich seiner Meinung nach darin, dass sich Menschen mit gleichen Testergebnissen in Bezug auf ihr Gesamtfunktionieren hinsichtlich praktischer Kriterien stark voneinander unterschieden.
Damalige Intelligenztests konnten nur einen Teil und nicht alle Fähigkeiten, die bei intelligentem Verhalten eine Rolle spielen, effektiv messen. So vermied es Wechsler, Intelligenz in rein
kognitiven Begriffen zu definieren. Für ihn war der IQ-Wert nicht mit der Intelligenz gleichzusetzen (Wechsler, 1950). Seines Erachtens tragen weitere Eigenschaften zu intelligentem Verhalten bei, wie die Fähigkeit zu planen, Zielbewusstsein, Begeisterungsfähigkeit, Feldabhängigkeit und -unabhängigkeit, Impulsivität, Ängstlichkeit und Ausdauer (Wechsler, 1939a). Diese
Eigenschaften könnten die Leistung bei einer Testung, aber auch die Leistungsfähigkeit im täglichen Leben beeinflussen. Wechsler (1975) sah die Intelligenz demnach nicht nur als kognitive
Funktionsfähigkeit, sondern auch als die allgemeine Fähigkeit des Individuums, die Welt, in der
es lebt, zu verstehen und sich in ihr zurechtzufinden:
What we measure with tests is not what tests measure – not information, not spatial perception, not reasoning ability. These are only a means to an end. What intelligence tests measure,
what we hope they measure, is something much more important: the capacity of an individual
to understand the world about him and his resourcefulness to cope with its challenges. (S. 139)
In der Praxis sollten daher bei der Testinterpretation außer der Intelligenzleistung selbst auch
einige dieser Eigenschaften berücksichtigt werden. Das Messen von Intelligenz gehe über das
Erheben eines Testwertes hinaus und es bedürfe des klinischen Fachwissens und Urteils, um
die vielen Faktoren zu berücksichtigen, die intelligentes Verhalten beeinflussen. Umgekehrt
könnten Menschen mit unterschiedlichen Leistungsniveaus ähnliche Testergebnisse erzielen.
Zu der Aufgabe, die Intelligenz eines Menschen zu beurteilen, gehörte für Wechsler notwendigerweise mehr, als nur Werte eines Intelligenztestes zu erheben (Matarazzo, J. D., 1990). So
könnten zwei Menschen mit den gleichen Testwerten völlig unterschiedlich mit denselben
Umweltanforderungen zu Recht kommen, und zwar aus Gründen, die unabhängig von kognitiven Fähigkeiten seien. Da Faktoren, die nicht von der Intelligenz abhängig seien, die Testleistung beeinflussten, könne es nach Wechsler außerdem sein, dass Menschen mit unterschiedli-
Kapitel 2
16
chen kognitiven Fähigkeitsniveaus gleiche oder ähnliche Testergebnisse erzielten (Zhu, Weiss,
Prifitera & Coalson, 2004). Daher gehörte zum Messen von Intelligenz mehr als nur die Betrachtung der Intelligenztestergebnisse. Dieser Aspekt wurde von Wechsler (u. a. 1991, 2003b)
stets hervorgehoben.
Schon früh erkannte Wechsler (1940, 1944), dass sich andere nicht-kognitive und nichtintellektuelle Faktoren deutlich in den seinerzeit zur Verfügung stehenden Intelligenztests widerspiegelten. Doch den Einfluss solcher Faktoren zu erkennen, war für ihn nur der erste
Schritt. Erforderlich war eine Methode sie zuverlässig zu bewerten. Während seiner Zeit bei
der Armee stellte er fest, dass Intelligenz nicht von der übrigen Persönlichkeit getrennt werden
kann. Für ihn standen Faktoren wie motorische Fertigkeiten, schulische Leistungen und Exekutivfunktionen eng mit Intelligenztestleistungen in Beziehung, diese sollten jedoch idealerweise
mit Testverfahren erfasst werden, die speziell zur Beurteilung dieser Fragestellungen entwickelt wurden (Zhu et al., 2004).
Oftmals wird intelligentes Verhalten als die Kapazität des Menschen angesehen, zu verstehen
und daraus Konsequenzen abzuleiten. So interpretierte Spearman die allgemeine Intelligenz
(den g-Faktor) als die Fähigkeit, zu urteilen, zu verstehen und handeln zu können. Wechsler
(1975), selbst ein Schüler Spearmans, sah dies jedoch als unvollständig an. Um ein Verhalten
als intelligent bezeichnen zu können, muss es für ihn nicht nur rational und zweckmäßig sein,
nicht nur begründet, sondern auch wertvoll und angesehen sein.
Kein Intelligenztest bietet die Möglichkeit, alle kognitiven Funktionsbereiche gleichzeitig auf
praktisch umsetzbare und bedeutsame Weise zu erfassen (Carroll, 1997b). Wechsler entwickelte daher ein Verfahren, das diejenigen Bereiche abdecken sollte, die sich für ihn als
wichtige kognitive Funktionen erwiesen hatten. Für ihn kann Intelligenz am besten mit einer
großen Anzahl von Tests abgebildet werden (1974): „Intelligence can manifest itself in many
forms, and an intelligence scale, to be effective as well as fair, must utilize as many different
languages (tests) as possible“ (S. 5). Für seine Tests wählte er somit eine seiner Ansicht nach
ausreichende Anzahl von Untertests aus, um mit möglichst wenig Zeitaufwand klinisch relevante Informationen über das kognitive Niveau der Person zu erhalten (Zhu et al., 2004).
2.3
Zusammenfassung
Das Konstrukt Intelligenz gilt sowohl als meist diskutiertes als auch als meist umstrittenes
Merkmal im Bereich der Persönlichkeitspsychologie. Seit mehr als einem Jahrhundert versuchen diverse Intelligenzforscher erfolglos, eine allgemein gültige Intelligenzdefinition zu entwickeln. Dabei spielen sowohl die Fähigkeit zu lernen, die Anpassung an die Umwelt, logisches
Denken, Problemlösung und exekutive Prozesse eine große Rolle. Die jeweils anerkannteste
Kapitel 2
17
Intelligenzdefinition hat Einfluss auf die Entwicklung der Intelligenztests dieser Zeit. Zu den
Koryphäen auf dem Bereich der Intelligenzforschung zählen Sternberg und Flynn ebenso wie
David Wechsler, der in diesem Kapitel gesondert betrachtet wurde. Dabei wird auf seine Ansicht von Intelligenz eingegangen, die er als globale oder spezifische Fähigkeit definiert, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinander
zu setzen. Zur Erfassung aller Aspekte menschlicher Intelligenz bedarf es für Wechsler möglichst vieler verschiedener Untertests.
Kapitel 3
Intelligenztheorien und -modelle
18
3 Intelligenztheorien und -modelle
Gemeinsamkeiten finden, Frage 9: „Was haben Ellenbogen und Knie gemeinsam?“
Friederike, 11 Jahre: „Das ist da, wo man am meisten drauf fällt.“
Jedem Intelligenzmessinstrument liegt eine Theorie zu Grunde. Diese Theorie kann sowohl
offensichtlich als auch versteckt, sowohl formell und explizit als auch informell und implizit
sein (Sternberg, 2004). Auch die Wechsler-Skalen wurden mit unterschiedlichen Intelligenzmodellen in Verbindung gebracht. Im Folgenden werden die hierarchischen Modelle vorgestellt, die einen expliziten oder impliziten Zusammenhang mit den Intelligenztests von Wechsler aufweisen. Es wird jedoch auch auf das nicht-hierarchische Modell von Thurstone eingegangen, das ebenfalls einen bedeutsamen Anteil an der Entwicklung der Wechsler-Skalen hat.
Für ausführlichere Betrachtungen sämtlicher Intelligenzmodelle wird auf weiterführende Literatur verwiesen (u. a. Carroll, 1993; Flanagan, Genshaft & Harrison, 1997, 2005; Holling et al.,
2004). Auf die Darstellung weiterer Modelle, die nicht mit psychometrischen Testverfahren
messbar gemacht werden können wie beispielsweise der Theorie der emotionalen Intelligenz,
die von Mayer und Salovey (1993) eingeführt und von Goleman (1995) populär gemacht wurde, wird an dieser Stelle ebenfalls mit dem Verweis auf Überblicksliteratur verzichtet (Goldstein & Beers, 2004; Sternberg, 2004; Wilhelm & Engle, 2005).
Seit der ersten Hälfte des vergangenen Jahrhunderts werden Faktorenanalysen zur Erforschung der Struktur menschlicher Verhaltensweisen eingesetzt und kommen vor allem in der
Intelligenzforschung zum Einsatz, in der sie ihren Ursprung haben (Anastasi & Urbina, 1997;
Spearman, 1927). Mit der Entwicklung hierarchischer Intelligenztheorien geht die Entwicklung
der Wechsler-Skalen einher, denen aufgrund ihrer Struktur im Nachhinein stets das zu der
jeweiligen Zeit aktuelle hierarchische Modell zugeordnet wurde. Im Folgenden werden die
hierarchischen Intelligenztheorien vorgestellt, die mit den Wechsler-Tests in Verbindung gebracht wurden.
3.1
Die General-Faktoren-Theorie von Spearman
Der britische Forscher Spearman (1904) formulierte mit seiner Zwei-Generalfaktoren-Theorie
die erste explizite Modellvorstellung von Intelligenz. Sie gilt bis heute als die wohl einflussreichste Theorie in der Geschichte der Intelligenzforschung (Sternberg, 2004). Für Spearman
muss das Verständnis für die Unterschiede menschlicher Fähigkeiten auf validen Variablen
basieren. Das Verständnis für kognitive Prinzipien sei Voraussetzung für die Untersuchung von
Intelligenzunterschieden (Deary & Smith, 2004). Er stellte mit Hilfe der von ihm entwickelten
Kapitel 3
19
Faktorenanalyse fest, dass verschiedene kognitive Leistungen, die sich bei unterschiedlichen
Erhebungsverfahren zeigen, eng miteinander korrelieren, sie also auf eine gemeinsame Quelle
zurückgeführt werden können (Spearman, 1927). Darauf begründete er die Annahme einer
allgemeinen Intelligenz, der ein allgemeiner, von ihm als general factor (kurz: g) bezeichneter
Faktor, zugrunde liege. Die nicht durch g aufgeklärte Restvarianz bezeichnete Spearman als
spezifische Faktoren (kurz: s). Somit geht die Testleistung nach Spearman immer auf zwei Faktoren zurück: die allgemeine Intelligenz (g) und die spezifische Fähigkeit (s), die für die Lösung
der einzelnen Aufgaben erforderlich ist (siehe Abbildung 3.1).
Abbildung 3.1: Das Zwei-Faktoren-Modell (modifiziert nach Spearman, 1927)
Anmerkung: Quadrate repräsentieren manifeste Messinstrumente (Tests).
Später modifizierte Spearman die Zwei-Faktoren-Theorie, da er eine Gruppe von Faktoren
vermutete, die zwischen dem universalen g-Faktor und den strikt spezifischen s-Faktoren liege
(Anastasi & Urbina, 1997). Diese als Gruppenfaktoren oder spezielle Gruppenfaktoren bezeichneten Fähigkeiten beinhalteten beispielsweise rechnerische, mechanische und sprachliche Fähigkeiten.
In seinem viel zitierten Buch The abilities of man: Their nature and measurement vereinte
Spearman die empirischen Ergebnisse seiner bisherigen Studien, legte die Konditionen dar,
unter denen jede Fähigkeit in die zwei oben genannten Faktoren g und s unterteilt werden
kann, und beschrieb Art, Herkunft, Entwicklung und Beziehungen der allgemeinen und der
spezifischen Faktoren (Spearman, 1927). Nach Horn und McArdle (2007) hatte dieses Buch,
mehr noch als seine bisherigen Studien, großen Einfluss auf die Untersuchung menschlicher
Intelligenz.
Betrachtet man die Ideen Spearmans aus dem heutigen Blickwinkel, scheinen seine Vorstellungen von Intelligenz in die heutigen Intelligenzstrukturmodelle eingebettet zu sein. Seine
Vorstellung vom g-Faktor wird oftmals mit der heutigen Vorstellung von gf (siehe Kapitel 3.3.1)
in Verbindung gebracht. Für Horn und McArdle (2007) entspricht Spearmans Vorstellung davon, was nicht durch g aufgeklärt wird, dem gc-Faktor (siehe Kapitel 3.3.2) moderner Theorien.
Kapitel 3
20
3.1.1 Bewertung
Auch wenn der große Einfluss der Zwei-Faktoren-Theorie auf aktuelle Modelle unbestritten ist,
bietet sie auch Anlass zur Kritik (Ausführliches dazu siehe Kapitel 3.6). So vermuten einige Forscher wie Gardner oder Sternberg, der g-Faktor in den Intelligenztests sei nur deshalb zu finden, weil diese Tests einzig akademische und relativ künstliche Aufgaben beinhalteten (Sternberg, 2004). Für sie werde der g-Faktor geschwächt oder verschwinde sogar gänzlich, wenn
Intelligenztests eine größere Anzahl von Aufgabenfeldern abdecken würden. Betrachte man
die Studien, die einen g-Faktor nachzuweisen scheinen, in Relation zu der Gesamtanzahl der
Studien zur Untersuchung der Intelligenzstruktur, unterstützten sie die Zwei-Faktoren-Theorie
nicht zwangsläufig (Horn & McArdle, 2007; Sternberg, 2000a). Die meisten dieser Studien verwendeten nur eine eingeschränkte Auswahl an Aufgabentypen, Testsituationen und sogar
Testteilnehmern (Sternberg, 2004).
3.1.2 Verbindung zu den Wechsler-Skalen
Ein Intelligenztest, der auf Spearmans Modell begründet wird, muss das übergeordnete Ziel
haben, die allgemeine Intelligenz eines Individuums zu erfassen. Aufgrund der Möglichkeit zur
Ermittlung eines Gesamt-IQ können die Wechsler-Skalen als Beispiel für Testverfahren angeführt werden, die einen g-Faktor im Sinne Spearmans abbilden. Auch Wechsler bestätigte den
Einfluss seines Lehrers Spearman auf die Entwicklung seiner Skalen. So wurden die WISCVersionen, zumindest bis zur aktuellen WISC-IV, im Allgemeinen dessen Theorie zugeordnet
(siehe z. B. Daseking et al., 2006).
3.2
Das Primärfaktorenmodell von Thurstone
Den ersten systematischen Versuch, den Fokus auf Varianzquellen in einer Korrelationsmatrix
kognitiver Fähigkeiten zu legen, die unabhängig von g sind, machte Louis L. Thurstone (1938).
Er entwickelte die Methode der multiplen Faktorenanalyse, um unabhängige Faktoren zu bestimmen, die in einer Korrelationsmatrix präsentiert sind. Die Auswahl der Faktoren wurde
durch das Kriterium der einfachen Struktur geleitet, das eine Faktorenstruktur anordnet, bei
der Tests auf einem einzigen Faktor sehr hoch laden und auf den anderen Faktoren eine Ladung gegen Null aufweisen. Daraus entstanden Zerlegungen der Varianzen eines Tests in verschiedene unabhängige Faktoren. Auf diese Weise kann die Testleistung mit Hilfe eines Profils
von Stärken und Schwächen für jede der Fähigkeiten beschrieben werden. Für Thurstones Studien wurden 56 verschiedene Tests kognitiver Fähigkeiten 240 Personen vorgegeben. Die erhaltenen Testwerte wurden mit Hilfe der von Spearman entwickelten Faktorenanalyse untersucht. Es ergaben sich 13 Faktoren, denen Thurstone nach Untersuchung der Faktorladungen
sieben Faktoren mit psychologisch relevanten Interpretationen zuordnete. Diese nebeneinan-
Kapitel 3
21
der stehenden Primärfaktoren, die seine Theorie (Theory of primary mental abilities, Thurstone, 1938) begründeten, sind
verbales Verständnis oder verbale Fähigkeiten,
Wortflüssigkeit,
schlussfolgerndes Denken, Erkennen von Regelhaftigkeiten,
räumliches Vorstellungsvermögen,
Merkfähigkeit, Kurzzeitgedächtnis,
Rechenfähigkeit und
Wahrnehmungsgeschwindigkeit.
Thurstone und seine Frau (1941) führten drei Jahre nach dieser ersten Studie eine weitere
Untersuchung an 710 Kindern durch, in der sie nach zunächst zehn Faktoren schließlich wiederum die selben sieben Faktoren der ersten Untersuchung herausfilterten. Es gab jedoch
einen wichtigen Unterschied zwischen beiden Studien: In der zweiten Studie zeigten sich signifikante Interkorrelationen zwischen den Primärfaktoren, beispielsweise zwischen dem Faktor
Rechenfähigkeit und den beiden verbalen Faktoren verbales Verständnis und Wortflüssigkeit.
Daraufhin untersuchten sie per Faktorenanalyse die Korrelationen zwischen den Primärfaktoren und stellten fest, dass die Korrelationen als einzelner allgemeiner Faktor ausgewiesen
werden können, den sie den allgemeinen Faktor zweiter Ordnung nannten. Jedoch sei dieser
Faktor nur für Kinder und nicht zwangsläufig auch für Erwachsene charakteristisch (Carroll,
1994).
Die Theorie der Primärfaktoren stellte zunächst einen Widerspruch zu Spearmans g-FaktorModell dar. Dennoch funktionieren nach Brody (2000) Thurstones Methoden nur, wenn kein gFaktor in der Korrelationsmatrix zu finden ist. Sind die meisten Kovarianzen einer FähigkeitenMatrix dem g-Faktor zuzuschreiben, wäre es unmöglich, einfache Strukturen für die voneinander unabhängigen Faktoren zu erhalten. Spearmans Methode, die g-Ladungen verschiedener
Tests zu bestimmen, wäre nicht erfolgreich, wenn große Teile der Kovarianz einer Matrix
Gruppenfaktoren zuzuordnen wären, die unabhängig von g sind.
3.2.1 Bewertung
Thurstone galt als einer der einflussreichsten Kritiker Spearmans. Er gab an, den allgemeinen
Faktor in seinen Daten nicht eindeutig gefunden zu haben, ohne vorher ausgeschlossen zu
haben, ihn zu finden. Für Carroll (1994) waren Spearmans Methoden darauf ausgelegt, keinen
g-Faktor zu finden. Dies sei zum einen einer stark selektiven Stichprobe und zum anderen seinen eingeschränkten faktoriellen Methoden zu verdanken, die keine obliquen, sondern nur
orthogonale Rotationen beinhalteten, die nicht-korrelierende Faktoren voraussetzen. Sowohl
Kapitel 3
22
Spearman (1939) als auch Eysenck (1939) analysierten Thurstones Daten mit unterschiedlichen
Methoden und entdeckten einen g-Faktor und andere Faktoren, die annähernd mit den Primärfaktoren von Thurstone übereinstimmten. In den Jahrzehnten nach ihrer Entwicklung gewann die Primärfaktoren-Theorie an Einfluss, vor allem aufgrund der zahlreichen Tests, die
Thurstone und seine Frau auf Basis der Theorie entwickelten. Obwohl auch in diesen Testbatterien ein allgemeiner Intelligenzfaktor als Summe aller erzielten Werte geschätzt werden
konnte, lag ihr Schwerpunkt auf der Untersuchung folgender grundlegender Fähigkeiten (Carroll, 1994):
Verbale Fähigkeiten,
Wahrnehmungsgeschwindigkeit,
Rechenfähigkeit,
räumliches Vorstellungsvermögen und
schlussfolgerndes Denken.
Bis zu seinem Tod im Jahre 1955 untersuchte Thurstone fortwährend die grundlegenden Fähigkeiten des Menschen und stieß dabei stetig auf zusätzliche Faktoren bzw. Variationen seiner sieben Faktoren.
Obwohl das Primärfaktorenmodell heutzutage keine häufige Verwendung findet, begründet es
die Basis für viele aktuelle Modelle wie der Theorie der multiplen Intelligenzen von Gardner,
dem Three-Stratum-Modell von Carroll sowie der Gf-Gc-Theorie von Cattell und Horn und somit
auch dem CHC-Modell, das als theoretischer Hintergrund in die Entwicklung der WISC-IV einfloss. Damit hatte es großen Einfluss auf Forschung und Theorie hinsichtlich kognitiver Fähigkeiten (Horn & McArdle, 2007). Als weiterer wichtiger Beitrag Thurstones gilt die Etablierung
der Faktorenanalyse zur Untersuchung intellektueller Fähigkeiten (Sternberg, 2004).
3.3
Die Gf-Gc-Theorie von Cattell und Horn
Die Gf-Gc-Theorie nach Cattell (1971, 1987), einem Schüler Spearmans, gilt neben den Theorien
von Spearman und Thurstone als einflussreichste Intelligenztheorie (Sternberg, 2004). Die Weiterentwicklung der durch Cattell in den 1940er Jahren ins Leben gerufenen Theorie erfolgte in
den 1960er Jahren durch Cattell und Horn (1966, 1967). Sie gehen anders als Spearman nicht
von einem übergeordneten Intelligenzfaktor (der allgemeinen Intelligenz oder dem g-Faktor)
aus, sondern sehen die Intelligenz aufgeteilt in zwei voneinander unabhängige Faktoren: die
fluide und die kristalline Intelligenz.
Kapitel 3
23
3.3.1 Fluide Intelligenz (gf)
Unter fluider Intelligenz (gf) wird die Fähigkeit verstanden, sich neuen Situationen anzupassen
und neuartige Probleme zu lösen, ohne dabei auf erlerntes Wissen zurückgreifen zu müssen
(Daseking et al., 2006). Darunter werden Fähigkeiten wie schlussfolgerndes, problemlösendes
Denken, räumliches Vorstellungsvermögen, Informationsverarbeitungsgeschwindigkeit, die
Verarbeitung komplexer visueller Reize, abstraktes Denken oder mentale Rotation zusammengefasst.
Jensen (2002) beschreibt gf als die Fähigkeit, auf die zurückgegriffen werde, „wenn man nicht
weiß, was zu tun ist“ (S. 47, Übers. v. Verf.). Sie fließe in neues Lernen und das Lösen neuer
Probleme ein, für die bisher keine spezifischen Algorithmen, Strategien oder Fertigkeiten vorhanden seien. Fluide Intelligenz wurde dabei als weitgehend von Geburt an vorhanden und
von gesellschaftlichen und kulturellen Einflüssen unabhängig angesehen (Holling et al., 2004).
Dieser Annahme widerspricht jedoch Sternberg (2004). Studien hätten zum einen gezeigt, dass
Tests, die fluide Fähigkeiten messen, häufiger größere Unterschiede zwischen kulturellen
Gruppen zeigten als Tests zur Messung der kristallinen Intelligenz; zum anderen seien diese
Tests auch anfälliger für den Flynn-Effekt (siehe Kapitel 5.2.2). Wenn aber die fluide Intelligenz
im Laufe der Zeit mehr ansteige als die kristalline Intelligenz, kann gf laut Sternberg nicht als
von kulturellen und schulischen Einflüssen unabhängig gesehen werden. Auch Studien von Ceci
(1991; Ceci & Williams, 1997) wiesen einen großen Einfluss der Schule auf jegliche Art von
Testwerten auf.
Die fluide Intelligenz wird mit Hilfe von Tests wie Zahlenfolgen, Analogien und Matrizen erhoben (Sternberg, 2004). Außerdem geben sprachfreie Testverfahren wie der SON 2½ - 7 (Tellegen, Laros & Petermann, 2007) und der BIVA (Schaarschmidt, Ricken, Kieschke & Preuß, 2004)
oder kulturfreie Testverfahren wie der CFT von Cattell (neueste deutsche Revision CFT 20-R,
Weiß, 2006) und die Raven-Matrizen CPM, SPM und APM (Raven, Raven & Court, 1998) an, die
fluide Intelligenz zu erfassen.
3.3.2 Kristalline Intelligenz (gc)
Die kristalline, allgemeine Intelligenz (gc) repräsentiert kognitive Fertigkeiten, die auf Lernerfahrungen und Faktenwissen beruhen und somit bei der Verarbeitung vertrauter Informationen und der Anwendung von Wissen relevant sind. Sie ist von hoher praktischer Bedeutung für
den Erfolg eines Menschen in Schule, Ausbildung und Beruf (Jensen, 2002).
In einer homogenen Population unter Berücksichtigung des Bildungs- und kulturellen Hintergrundes korrelieren gf und gc durchweg hoch miteinander (Jensen, 2002). Nach Cattell (1987)
stellt die fluide Intelligenz die Voraussetzung für die kristalline Intelligenz dar. Eine empirische
Kapitel 3
24
Absicherung dafür konnte allerdings nicht gefunden werden. So widerspricht Sternberg (2004)
dieser Annahme, da diese nur Gültigkeit hätte, wenn gf gänzlich unabhängig von äußeren Einflüssen sei, was seinen oben genannten Studien widerspreche.
Testaufgaben, die gc abbilden, sind Wortschatz-Tests sowie Tests zum Leseverständnis und
Allgemeinen Wissen (Sternberg, 2004). Sie wird mit sprachlichen Tests wie dem MWT (Lehrl,
2005) oder den Zusatzmodulen Zahlenfolgen und Wortschatztest des CFT 20 (Weiß, 2006) erfasst.
3.3.3 Weiterentwicklung der Gf-Gc-Theorie
Horn erweiterte Cattells ursprüngliche Gf-Gc-Theorie um die Faktoren visuelle Wahrnehmung
(gv), Kurzzeitgedächtnis (gsm), Langzeitabruf (glr), Bearbeitungsgeschwindigkeit (gs), auditive
Verarbeitungsprozesse (ga), mengenbezogene Fähigkeiten (gq) sowie Schnelligkeit bei der
Reaktion und Entscheidungsfindung (gt) (Horn, 1985, 1994). Als relativ neu entdeckte Fähigkeit
identifizierte Horn schließlich den Faktor Lese- und Rechtschreibfähigkeiten (grw).
Unterhalb der obengenannten Faktoren liegen auf der niedrigsten Hierarchieebene circa 40
Faktoren erster Ordnung (siehe Abbildung 3.2). Diese Faktoren entsprechen häufig einzelnen
Untertests (Horn, 1994).
g1
g2
F1
T1
T2
g3
F2
T3
T4
T5
…etc.
F3
T6
T7
T8
T9
T10
F4
…etc.
T11
T12 …etc.
Abbildung 3.2: Cattell-Horn Gf-Gc-Modell (modifiziert nach McGrew, 2005)
Anmerkungen: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste
Messinstrumente (Tests). F steht für die spezifischen kognitiven Fähigkeiten. Zweiseitige Pfeile
geben latente Faktorkorrelationen an.
So wurde aus der Gf-Gc-Theorie, bei der Cattell in den Anfängen von zwei Faktoren und in der
Weiterentwicklung mit Horn in den 1960er Jahren von fünf Faktoren ausging, am Ende ein
Modell, das acht oder mehr Faktoren beinhaltet (Bickley, Keith & Wolfle, 1995). Horn und Noll
(1994) bezeichnen sie aus diesem Grund nicht mehr als Theorie der zwei, sondern der vielen
Intelligenzen. Dennoch bleiben fluide und kristalline Intelligenz weiterhin die Kernfaktoren, die
die kognitiven Fähigkeiten auf Grundlage genetischer Faktoren auf der einen und bildungskultureller Möglichkeiten auf der anderen Seite repräsentieren (Horn, 1991).
Kapitel 3
25
Die erstmalige Einbettung einer Intelligenztheorie in die Entwicklung von Intelligenztests begann 1985 mit einem Treffen von Horn, Carroll und Woodcock (McGrew, 2005). Auf der
Grundlage von Horns Erkenntnissen aus der Gf-Gc-Theorie und Carrolls Faktorenanalyse der
Woodcock-Johnson Psycho-Educational Battery (WJ) entschied Woodcock, das Gf-Gc-Modell
als Basis für die Revision des Woodcock-Johnson (WJ-R) zu verwenden (Woodcock, 1990). Die
WJ-R wurde so die erste Testbatterie, die einige Faktoren der Gf-Gc-Theorie abbildet. Horn
beschrieb seine Erweiterung der Gf-Gc-Theorie erstmals 1991 im Technischen Manual des WJR. Es war die erste aktuelle und verständliche Beschreibung der Theorie in einer für den Diagnostiker zugänglichen Publikation. Damit begann die Umsetzung psychometrischer Intelligenztheorien in die Praxis (McGrew, 2005).
3.3.4 Bewertung
In den 1980er und frühen 1990er Jahren hielten viele Forscher das Gf-Gc-Modell für die am
besten empirisch-fundierte psychometrische Intelligenztheorie (McGrew, 2005). So stellte
Carroll (1993) nach seiner umfassenden Faktorenanalyse (siehe 3.4) fest: „[The model] appears
to offer the most well-founded and reasonable approach to an acceptable theory of the structure of cognitive abilities“ (S. 62).
Auch Cole und Randall (2003) kamen bei einer Untersuchung der Modelle von Spearman, Carroll, Horn und Cattell an Daten aus der KAIT und dem WJ-R zu dem Schluss, das Modell von
Horn und Cattell weise nicht nur die signifikant beste Passung zur Struktur der Testverfahren
auf, sondern sei als einziges der drei Modelle geeignet, die Struktur der Tests ausreichend zu
erklären.
Bis zur Mitte der 1980er Jahre spielte die Theorie kaum eine Rolle bei der Entwicklung von
Intelligenztests (Alfonso, Flanagan & Radwan, 2005). Bis dato wurden Intelligenztestbatterien
erst im Nachhinein den jeweils aktuellen Theorien zugeordnet. So entdeckte Matarazzo (1972,
zitiert nach Holling et al., 2004) Überlappungen des Verbalteils2 der Wechsler-Skalen mit der
kristallinen und des Handlungsteils mit der fluiden Intelligenz. Manche sprechen bei Wechslers
Skalen sogar von der Theorie der verbalen und handlungsbezogenen Komponenten der Intelligenz (Carroll, 2005, S. 71). Damit wurde die WISC-III als erste Wechsler-Version der Gf-Gc Theorie zugeordnet (z. B. Hale, Fiorello, Kayanagh, Hoeppner & Gaither, 2001). Woodcock (1994)
verbindet den Index Sprachverständnis des HAWIK-III mit dem Gf-Gc-Faktor kristalline Intelligenz (gc) und den Index Wahrnehmungsorganisation mit dem Gf-Gc-Faktor Verarbeitung visuel-
2
Auch wenn es sich um die amerikanischen Original-Gesamtwerte, -Indizes und -Untertests handelt,
werden in Folgenden zum besseren Verständnis die deutschen Bezeichnungen verwendet.
Kapitel 3
26
ler Informationen (gv). Außerdem versteht er den Zahlen-Symbol-Test als Untertest zur Messung des Faktors Informationsverarbeitungsgeschwindigkeit (gs) und verbindet das Rechnerische Denken mit dem Faktor mengenbezogene Fähigkeiten (gq), den Wortschatz-Test mit dem
Faktor Verständnis-Wissen (gc) und das Zahlennachsprechen mit dem Faktor Kurzzeitgedächtnis (gsm). Insgesamt bildet der HAWIK-III jedoch ebenso wie andere Intelligenztestbatterien nur
wenige der über 40 Fähigkeiten erster Ordnung ab (Horn, 1994). Mit der so genannten „Gf Gc
crossbattery assessment“ untersuchten McGrew und Flanagan die Wechsler-Tests auf ihre
theoretische Passung an die Gf-Gc-Theorie und schrieben ihnen dennoch eine valide theoretische Grundlage zu (Flanagan, McGrew & Ortiz, 2000; McGrew & Flanagan, 1998).
3.4
Die Three-Stratum-Theorie von Carroll
Den umfassendsten Überblick im Bezug auf die Struktur kognitiver Fähigkeiten bietet die faktorenanalytische Studie von Carroll (1993). Er analysierte 461 Datensätze aus Originalstudien
und bot damit einen Überblick über siebzig Jahre Forschung. Seine Studie wurde von der Frage
beeinflusst, wie man die Theorien von Spearman (es gibt einen g-Faktor) und Cattell und Horn
(es gibt keinen g-Faktor, sondern – mit der fluiden und kristallinen Intelligenz – zwei gleichwertige Faktoren) kombinieren kann. Dabei kam er zu dem Schluss, dass die Intelligenzstruktur am
besten in Form eines Three-Stratum-Modells beschrieben werden könne (Carroll, 1992, siehe
Abbildung 3.3), einem Modell mit drei Hierarchieebenen, die sich in Breite und Allgemeingültigkeit unterscheiden. Damit schließt er sich einer Reihe amerikanischer Wissenschaftler an,
die bereits Mitte des vergangenen Jahrhunderts von einer ähnlichen Struktur der Intelligenz
ausgingen (Burt, 1949; Humphreys, 1962; Vernon, 1969, mehr dazu siehe Anastasi & Urbina,
1997). Die allgemeine Intelligenz wird, vergleichbar mit Spearmans g-Faktor, durch das Stratum III repräsentiert. Sie wird durch komplexe kognitive Prozesse höherer Ordnung bestimmt,
die eine hohe Generalität für den gesamten Bereich kognitiver Fähigkeiten aufweisen (Holling
et al., 2004). Dem darunterliegenden Stratum II werden acht Intelligenzfähigkeiten mittlerer
Generalität (z. B. fluide und kristalline Intelligenz oder visuelle und auditive Wahrnehmung)
zugeordnet, die stark signifikante Ladungen auf dem g-Faktor aufweisen (Carroll, 1993). Diese
acht Fähigkeiten des Stratum II ähneln den Faktoren aus Horns expandiertem Gf-Gc-Modell
(Horn, 1985, siehe Kapitel 3.3). Carroll (1994) wiederum vergleicht sie mit den Fähigkeiten, die
Thurstone in seiner Theorie mehrerer gemeinsamer Fähigkeiten (siehe Kapitel 3.2) als grundlegende Fähigkeiten betrachtet. Sie repräsentierten für Carroll (1993) „basic constitutional and
long-standing characteristics of individuals that can govern or influence a great variety of behaviors in a given domain“ (S. 634). Die Fähigkeiten des Stratum II beeinflussen wiederum 69
spezifische Fähigkeiten (Stratum I), wobei eine Fähigkeit durchaus von mehreren Stratum-II-
Kapitel 3
27
Faktoren beeinflusst sein könne. Die Zuordnung erfolgt danach, welche Fähigkeit der mittleren
Ebene die spezifische Fähigkeit am stärksten bestimmt (Holling et al., 2004).
g
gf
gv
gs
Stratum III
glr
gc
ga
gs
gq
69 spezifische Fähigkeiten
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
Stratum II
Stratum I
T11
T12
…etc.
Abbildung 3.3: Three-Stratum-Theorie der kognitiven Fähigkeiten (modifiziert nach Carroll,
1992; 1993)
Anmerkung: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Messinstrumente (Tests).
Bickley, Keith und Wolfle (1995) weisen darauf hin, dass das Stratum, zu dem ein Faktor gehört, nur eine Reflektion seines Generalisierungsgrades und nicht eine Indikation für die Dominanz über einen niedrigeren Stratum-Faktor ist. Auf der Basis konfirmatorischer Faktorenanalysen unterstützten sie die Three-Stratum-Theorie und kamen zusätzlich zu dem Schluss, dass
zwischen Stratum II und III möglicherweise weitere Faktoren liegen. Auch Carroll (1993) vermutete weitere Faktoren zwischen den drei Ebenen.
3.4.1 Bewertung
Viele Forscher sprechen bei Carrolls Arbeit von einem Durchbruch im Bereich der Intelligenzforschung und fordern, seine Studie als Grundlage bei der Entwicklung von Intelligenztests zu
berücksichtigen (McGrew, 1997, 2005). McGrew (1997) bewertet Carrolls Arbeit als wichtige
Brücke zwischen theoretischer und empirischer Forschung bei der Entdeckung von Intelligenzfaktoren sowie der Entwicklung und Interpretation psychoedukativer Testbatterien. Carroll
präsentiere erstmalig eine empirisch basierte Klassifikation der Elemente kognitiver Fähigkeiten in einem einzelnen, verständlichen, organisierten und systematischen Rahmen, der es
leichter möglich mache, unterschiedliche Tests innerhalb einer und zwischen mehreren Testbatterien zu vergleichen (McGrew, 2005).
Kapitel 3
28
Carrolls Ansichten wurden jedoch auch vielfach kritisiert (u. a. Kranzler & Jensen, 1991, 1993;
Sternberg, 2004). Für Sternberg (2004) wird Carrolls Arbeit angesichts ihrer Komplexität weniger Einfluss auf die Messung von Intelligenz haben als einfachere Theorien wie die Gf-GcTheorie. Kognitive Theoretiker wie Sternberg oder Systemtheoretiker wie Gardner bestreiten,
dass die konventionellen psychometrischen Testverfahren, die Carroll für seine Metaanalyse
herangezogen hat, sämtliche Intelligenzbereiche abdecken, die von einer Intelligenztheorie
abzudecken sind (Sternberg, 2004). So beinhalte seine Analyse kaum Studien, die sein Modell
im Hinblick auf psychoneurologische Grundlagen kognitiver Fähigkeiten (Carroll, 1993, S. 660),
den Einfluss von Schule (Carroll, 1993, S. 668) und Trainings- und Interventionseffekten (Carroll, 1993, S. 669) unterstützten. Carroll selbst (1993) gibt zu, bei der Auswahl seiner Studien
wenig Aufmerksamkeit auf die Bedeutung, Validität und Nützlichkeit der von ihm identifizierten Fähigkeitsfaktoren gelegt zu haben. Für ihn waren Validitätsstudien eine überdimensionale
und unsichere Literaturansammlung, die vom Hauptziel der Untersuchung nur unnötig ablenkte. Anders als Cole und Randall (2003, siehe oben) kamen Flanagan und McGrew (1998) bei
einer Untersuchung zweier gängiger Intelligenztests (WJ-R und KAIT) zu dem Schluss, eine dem
Three-Stratum-Modell ähnliche Grundlage erkläre die Struktur der Tests am besten.
3.4.2 Unterschiede zur Gf-Gc-Theorie
Es bestehen vier wesentliche Unterschiede zwischen der Three-Stratum- und der Gf-Gc-Theorie
(Alfonso et al., 2005):
Die Three-Stratum-Theorie beinhaltet einen g-Faktor,
die Gf-Gc-Theorie beinhaltet quantitatives Wissen und quantitatives Schlussfolgern als separate breite Fähigkeiten, während Carroll quantitatives Schlussfolgern als engere Fähigkeiten
unterhalb von gf sieht,
die Gf-Gc-Theorie weist einen breiten Lese- und Rechtschreib-Faktor (grw) auf, während Carroll diesen Faktor als engen Faktor unterhalb von gc sieht und
Carroll sieht das Kurzzeitgedächtnis zusammen mit anderen Facetten der Merkfähigkeit
unter dem Faktor gy, während Cattell und Horn das Kurzzeitgedächtnis (gsm) von anderen
Merkfähigkeiten trennen, die sie im Faktor Langzeitabruf (glr) zusammenfassen.
Die Gf-Gc-Theorie und die Three-Stratum-Theorie nehmen einen wichtigen Platz unter den
Intelligenzmodellen ein. Zur Erklärung der Intelligenzstruktur verbinden sie die Positionen von
Spearman und Thurstone und enthalten vielerlei empirische Hinweise zur Unterstützung einer
hierarchischen Intelligenzstruktur (Davidson & Downing, 2000). Außerdem beschreiben und
erklären sie die Testleistung über Zeit und verschiedene Probleme hinweg, sagen diese vorher
und leisten somit einen großen Beitrag zur Erforschung menschlicher Intelligenz.
Kapitel 3
29
Auch die Three-Stratum-Theorie wurde mit den Wechsler-Skalen in Verbindung gebracht
(Watkins, Wilson, Kotz, Carbone & Babula, 2006). Nach den Autoren des WISC-IV-Manuals sei
die Einführung zusätzlicher Untertests zur Erfassung des fluiden Denkens dem Einfluss der GfGc- und der Three-Stratum-Theorie geschuldet (Wechsler, 2003b). Carroll (1993) fand in seinen
faktorenanalytischen Studien heraus, dass der Verbal-IQ der Wechsler-Skalen als ein ungefähres Maß für die kristalline Intelligenz angesehen werden kann. Den Handlungs-IQ verstand er
als ein Maß mit eingeschränkter Validität für die fluide Intelligenz bzw. als ein ungefähres Maß
für den ebenfalls auf Stratum II liegenden Faktor visuelle Wahrnehmung.
3.5
Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten
Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten (kurz: CHC-Theorie) integriert die
Gf-Gc-Theorie von Cattell und Horn (Horn & Blanksen, 2005; Horn & Noll, 1997) und die ThreeStatum-Theorie von Carroll (1993, 2005).
Der Anstoß für die Entwicklung der CHC-Theorie begründete sich in dem Problem, dass die GfGc-Theorie angesichts ihres Namens oftmals fälschlicherweise für ein Zwei-Faktoren-Modell
gehalten wurde. Dieses Kommunikationsproblem, das seit der Publikation des WJ-R im Jahre
1989 bestand, sollte ausgeräumt werden. So entstand 1999 nach einem Treffen der wichtigsten Forscher auf dem Gebiet der Intelligenztheorien (u.a. Horn, Carroll und Woodcock) der
Konsens, einer neuen Theorie den Namen Cattell-Horn-Carroll Theory of Cognitive Abilities zu
geben (McGrew, 2005).
Die Struktur des CHC-Modells unterscheidet sich nicht substantiell von der Three-StratumTheorie (Cole & Randall, 2003, siehe Abbildung 3.3). Anders als bei bisherigen Modellentwicklungen stellten für das CHC-Modell nicht nur Faktorenanalysen die Grundlage dar, sondern
auch Studien aus dem Bereich der Entwicklung, Erfolgsprädiktoren, Genetik und Neurokognition (McGrew, 2005).
Entscheidend für die Weiterentwicklung der Gf-Gc-Theorie und des Three-Stratum-Modells zur
CHC-Theorie war das 1997 erschienene Buch Contemporary Intellectual Assessment von Flanagan, Genshaft und Harrison. Es war die erste Veröffentlichung über Intelligenzdiagnostik, in der
die Brücke zwischen der Gf-Gc-Theorie, Carrolls Modell sowie praktischen Untersuchungen und
Interpretationen geschlagen wurde. Außerdem beschrieben Flanagan und McGrew (1997)
darin erstmals die formellen Voraussetzungen und Prinzipien einer Gf-Gc cross-battery assessment. Dabei handelt es sich um die Zusammenstellung von Untertests aus verschiedenen Testbatterien, durch die die Erfassung sämtlicher nach der Gf-Gc-Theorie vorhandener Intelligenzfaktoren möglich gemacht werden soll. Damit sollte die systematische und empirische Basis für
Kapitel 3
30
die Zusammenstellung einer neuen Testbatterie aus den verschiedenen Intelligenztests gewährleistet werden. Daniel (1997) bezeichnete die cross-battery assessment als faszinierende
und kreative Arbeit, die dazu beitrage, kognitive Testverfahren in einen multifaktoriellen Modellrahmen zu integrieren und in diesem Rahmen zu interpretieren. Die erste Beschreibung
und formelle Operationalisierung einer Untersuchung mit Hilfe der „cross-battery assessment“, die für alle großen Intelligenztestbatterien angewendet werden kann, erschien 1998 in
der Veröffentlichung Intelligence Test Desk Reference (ITDR): Gf-Gc Cross-Battery Assessment
(McGrew & Flanagan). Damit wurde die Verbindung zwischen Intelligenztheorie und -praxis
fortgeführt, die mit der Entwicklung des WJ-Tests auf Basis der Gf-Gc-Theorie begann, und somit der Weg für die CHC-Theorie geebnet (McGrew, 2005).
Größter Streitpunkt zwischen den Entwicklern des CHC-Modells stellt die Existenz der auf dem
Stratum III liegenden allgemeinen Intelligenz dar. Während Carroll sie vehement verteidigt,
wird sie von Horn dementiert (siehe Kapitel 3.6). So wird das Modell mal mit und mal ohne
Stratum III (siehe Alfonso et al., 2005) dargestellt (in Abbildung 3.4 und Abbildung 3.5 durch
ein Fragezeichen gekennzeichnet). Weitere Unterschiede finden sich in der Zuordnung einzelner enger Faktoren zu den breiteren Faktoren. Außerdem nimmt Carroll nur einen Gedächtnisfaktor an, während Horn einen Kurz- und einen Langzeitgedächtnisfaktor unterscheidet.
Die in Abbildung 3.4 aufgezeigte Struktur des CHC-Modells stellt nur ein Beispiel für die CHCDefinitionen der Fähigkeiten dar. Jensen (2004) sieht die CHC-Struktur als eine erweiterbare
empirische Theorie an, der durch Ermittlung von bisher ungemessenen oder unbekannten
Fähigkeiten weitere Faktoren auf einer der Ebenen hinzugefügt werden könnten.
g?
g1
g2
F1
T1
T2
g3
F3
F2
T3
T4
T5
…etc.
T6
T7
T8
…etc.
F4
T9
T10
T11
T12
…etc.
Abbildung 3.4: Cattell-Horn-Carroll-Modell (modifiziert nach McGrew, 2005)
Anmerkung: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Messinstrumente (Tests).
Kapitel 3
31
Derzeit besteht sie aus zehn breiten kognitiven Faktoren (siehe Abbildung 3.5) und mehr als 70
engeren Fähigkeiten (Alfonso et al., 2005). Doch die Theorie bleibt dynamisch und wird kontinuierlich verändert. So hat McGrew (2005) dem Faktor Lesen und Schreiben (grw) noch die
Schreibgeschwindigkeit als Einflussfaktor hinzugefügt, der zusätzlich zur Varianzaufklärung des
Faktors beiträgt. Außerdem erweiterte er die Theorie um zusätzliche Stratum-II-Faktoren wie
psychomotorische (gp), olfaktorische (go) oder taktile Fähigkeiten (gh).
Sprachentwicklung
Wortschatz
Grammatik
Fremdsprachen…
gf
Fluide
Intelligenz
Stratum III
Stratum II
Mathematisches Wissen
Rechenleistung
Induktion
Quantitatives Schlussfolgern
Allgemeines sequentielles Schlussfolgern…
Stratum I
Anmerkung: Die aufgelisteten Fähigkeiten auf Stratum I stellen nur eine Auswahl dar. Insgesamt liegen den Faktoren auf Stratum II mehr als 70 basale Teilleistungen zugrunde.
Kristalline
Intelligenz
Buchstabierfähigkeit
Lesefähigkeit
Lesegeschwindigkeit
Schreibfähigkeit und -geschwindigkeit…
Mengen- u.
Zahlenwissen
gq
Merkspanne
Arbeitsgedächtnis
Lernfähigkeit
32
Abbildung 3.5: Struktur der Cattell-Horn-Carroll (CHC) Theorie der kognitiven Fähigkeiten (modifiziert nach Daseking, Petermann & Petermann, 2007)
Visuelle
Wahrnehmung
gv
Visualisierung
Visuelles Gedächtnis
Räumliche Beziehungen…
gsm
Auditive
Wahrnehmung
ga
Rhythmus
Musik
Phonologische Bewusstheit
Orten von Geräuschen….
grw
Langzeitgedächtnis u.
Abruf
glr
Freier Abruf
Flüssigkeit von Assoziationen
Wortflüssigkeit
Originalität/Flexibilität…
gc
Reaktions-/
Entscheidungszeit
gt
Verarbeitungsgeschwindigkeit
gs
Mustererkennung
Bearbeitung einfacher Rechenaufgaben
Wahrnehmungsgeschwindigkeit
Lesen u.
Schreiben
Geschwindigkeit mentaler Vergleiche
Einfache Reaktionsgeschwindigkeit
Wahlreaktionen…
Kurzzeitgedächtnis
Allgemeine Intelligenz?
Kapitel 3
Kapitel 3
33
3.5.1 Bewertung
Im Jahre 2001 wurde mit den Woodcock-Johnson III Tests of Cognitive Abilities (WJ-III, Woodcock, McGrew & Mather, 2001) die erste Testbatterie veröffentlicht, die auf der CHC-Theorie
basiert (McGrew & Woodcock, 2001). Im technischen Manual des Tests wurde zum ersten Mal
eine formale Definition der CHC-Theorie publiziert. Sie führte die Autoren zu folgender
Einschätzung: „CHC taxonomy is the most comprehensive and empirically supported framework available for understanding the structure of human cognitive abilities“ (McGrew &
Woodcock, 2001, S. 9).
Die CHC-Theorie zählt zu den derzeit aktuellsten Intelligenztheorien (McGrew, 2005; Sattler,
2001). Kaufman und Lichtenberger (2006) postulieren: „CHC theory is a strong psychological
theory, as it represents one of the best examples of cumulative science in applied psychology“
(S. 563). Sie gilt heute als verständlichste und empirisch am besten fundierte psychometrische
Theorie kognitiver und akademischer Fähigkeiten und hat seit einigen Jahren einen enormen
Einfluss auf die Messung kognitiver Fähigkeiten und die Interpretation von Intelligenztestleistungen (Alfonso et al., 2005; McGrew, 2005). Flanagan und Kaufman (2004) schreiben dazu:
“With the advent of the 21st century, however, the CHC storm hit and has not changed its
course to date” (S. 14). Neben dem WJ III wurden mit der SB5 (Stanford-Binet - Fifth Edition;
Roid, 2003) und der KABC-II (Kaufman Assessment Battery for Children; Kaufman & Kaufman,
2004) drei der bekanntesten Testverfahren der letzten Jahre das CHC-Modell zu Grunde gelegt.
Niemals zuvor in der Geschichte der Intelligenztestung spielte ein theoretisches Modell eine
derart große Rolle im Bereich der Testentwicklung und -interpretation (Flanagan & Kaufman,
2004).
Trotz des auf der Basis der CHC-Theorie entwickelten WJ III beinhaltet nach Alfonso, Flanagan
und Radwan (2005) keiner der bisher erschienenen Intelligenztests eine ausreichende Anzahl
von Untertests, um alle grundlegenden CHC-Fähigkeiten abzubilden. Dennoch zeigen diese
nicht berücksichtigten Fähigkeiten (wie gf, ga oder glr) einen signifikanten Zusammenhang mit
akademischen Leistungen wie Lesen und Rechnen (McGrew, 2005). Gerade für den Bereich der
Untersuchung von Lernstörungen bedarf es demnach der Durchführung mehrerer Tests, die
zusammen ein genaueres Bild der Fähigkeiten liefern können. Nach Erkenntnissen aus aktuellen Studien lassen sich durch das Modell und die Einbeziehung basaler kognitiver Funktionen
(Stratum I) insbesondere auch schulbezogene Leistungen (wie Rechenfähigkeit, Leseleistung
und Fremdsprachenerwerb) zunehmend besser erklären, unabhängig davon, ob ein g-Faktor
angenommen wird oder nicht (McGrew, 2005).
Weitere Studien der letzten Jahre aus unterschiedlichen Bereichen (wie Leistungen von Grundschulkindern, neurologische Beeinträchtigungen, Rechenleistungen) unterstützen ebenfalls das
Kapitel 3
34
CHC-Modell (z. B. Davis, Finch, Dean & Woodcock, 2005; Proctor, Floyd & Shaver, 2005; Tusing
& Ford, 2004). So können mit den in der CHC-Theorie betonten Fähigkeiten Arbeitsgedächtnis
und Verarbeitungsgeschwindigkeit Vorhersagen für akademischen Erfolg getroffen werden,
letztere vor allem bezogen auf frühe schulische Leistungen (Flanagan, Ortiz, Alfonso & Mascolo, 2002; Roid & Pomplun, 2005, siehe auch Kapitel 4.6.1).
In einer Untersuchung mit der WISC-III und dem WJ III erwies sich das CHC-Modell als das am
besten geeignete und zu den Ergebnissen passende Modell (Phelps, McGrew, Knopik & Ford,
2005). Während andere, ebenfalls nicht mehr aktuelle Versionen von Verfahren wie die KAB-C
oder die Wechsler-Tests für Vorschulkinder und Erwachsene nur zwei oder drei der breiten
CHC-Fähigkeiten adäquat messen, wurden der WISC-III vier CHC-Fähigkeiten (gc, gv, gsm und gs)
zugeschrieben (Alfonso et al., 2005). Dennoch stellt sie keine ausreichende Messung der Fähigkeiten dar, um die Diskrepanz zwischen aktueller Theorie und Praxis zu verringern.
Ergebnisse konfirmatorischer Faktorenanalysen anderer Wechsler-Tests, wie des aktuellen
Intelligenztests für Erwachsene (WAIS-III) und der Wechsler Memory Scale-III (WMS-III), unterstützen das CHC-Modell zusätzlich (Tulsky & Price, 2003).
Auch wenn die Autoren der WISC-IV nicht explizit sagen, dass die Entwicklung der Testrevision
auf den Erkenntnissen der CHC-Theorie basiert, wird sie der WISC-IV schon angesichts der zeitnahen Entwicklung implizit zugrundegelegt (Alfonso et al., 2005; Floyd, Bergeron, McCormack,
Anderson & Hargrove-Owens, 2005). Die Autoren der WISC-IV geben praktische Erfahrungen
im Umgang mit den Vorgängerversionen als Grundlage für die Modifikationen von WISC-III zu
WISC-IV an. Sie erkennen jedoch die Erkenntnisse von Cattell, Horn und Carroll an und fühlen
sich durch sie in der Entwicklung neuer Strukturen für die Wechsler-Skalen bestätigt. Neben
der zusätzlichen Einführung von Untertests zur Messung des fluiden Denkens wird auch der
größere Einfluss des Arbeitsgedächtnisses und der Verarbeitungsgeschwindigkeit von den
Testautoren mit den Begründern der CHC-Theorie in Zusammenhang gebracht (Wechsler,
2003b, siehe oben). Insbesondere der Verzicht auf die Zuordnung der Untertests zu Verbalund Handlungsteil und die aktuelle Fokussierung auf die vier Index-Werte (Faktoren) lassen auf
einen wesentlichen Einfluss des CHC-Modells auf die Testüberarbeitung schließen (Daseking et
al., 2007).
Keith, Fine, Taub, Reynolds und Kranzler (2006) untersuchten die Struktur der WISC-IV und
wiesen die Erfassung von fünf der zehn Faktoren nach, die sich nach der CHC-Theorie auf der
zweiten Ebene der Intelligenz befinden:
gf (fluide Intelligenz) durch die Untertests Matrizen-Test, Bildkonzepte und Rechnerisches Denken,
Kapitel 3
35
gc (kristalline Intelligenz) durch die Untertests Wortschatz-Test, Allgemeines Wissen,
Gemeinsamkeiten finden, Allgemeines Verständnis und Begriffe erkennen,
gv (visuelle Verarbeitung) durch die Untertests Mosaik-Test und Bilder ergänzen,
gsm (Kurzzeitgedächtnis) durch die Untertests Zahlen nachsprechen und BuchstabenZahlen-Folgen sowie
gs (Verarbeitungsgeschwindigkeit) durch die Untertests Symbol-Suche, Zahlen-SymbolTest und Durchstreich-Test.
Sie kamen zu dem Ergebnis, die WISC-IV spiegelt mehr als ihre Vorgänger die aktuelle Forschung und Theorie im Bereich der Intelligenzdiagnostik wider und habe sich somit gegenüber
früheren Versionen verbessert. Außerdem stelle die WISC-IV weiterhin ein exzellentes Messinstrument für die allgemeine Intelligenz dar (Keith et al., 2006).
Um dem Mangel an Verknüpfung zu aktuellen theoretischen Modellen entgegenzuwirken (siehe Kapitel 4.5), stellen Flanagan und Kaufman (2004) im Anhang ihres Buchs Essentials of
WISC-IV Assessment Tabellen zur Interpretation der Untertests der WISC-IV auf Basis des CHCModells bereit. So kann beispielsweise ein Wert für den CHC-Faktor fluides Denken (gf) errechnet werden, indem die Wertpunkte der Untertests Mosaik-Test, Bildkonzepte und Rechnerisches Denken zusammengezählt und zu dem sogenannten gf-Cluster-Wert umgerechnet werden, der einem Index-Wert entspricht. Ebenso wie bei den traditionellen Index- und IQ-Werten
stehen auch hier Konfidenzintervalle und Prozentränge zur Verfügung (siehe Anhang H, Flanagan & Kaufman, 2004). Auch Keith et al. (2006) empfehlen diese zusätzliche Auswertung, da
für sie das CHC-basierte Modell eine bessere Erklärung des intellektuellen Konstrukts bietet,
das von der WISC-IV gemessen wird als die vorgegebene Auswertungsstruktur der Testautoren
es ermöglicht. Mit dieser zusätzlichen Auswertungsmöglichkeit wird versucht, die Wissenschaft
der Interpretation kognitiver Fähigkeiten voranzutreiben (Alfonso et al., 2005).
In Bezug auf die vorliegende Arbeit stellt sich die Frage, inwieweit der Einfluss unterschiedlicher Intelligenzstrukturmodelle auf die zu untersuchenden Messinstrumente HAWIK-III und -IV
die Vergleichbarkeit beider Testversionen einschränkt. Wie oben beschrieben wird die WISC-III
vor allem mit der Gf-Gc-Theorie in Verbindung gebracht, während die WISC-IV neben der Gf-Gcund der Three-Stratum-Theorie mehr Übereinstimmungen mit dem CHC-Modell aufweist als
seine Vorgängerversionen. Die Tests wurden schon angesichts ihrer unterschiedlichen Veröffentlichungszeitpunkte von verschiedenen Theorien beeinflusst. Dies gilt nicht nur für die Teststruktur, sondern auch für die kognitiven Fähigkeiten, die von den Untertests gemessen werden. So wurde das Rechnerische Denken von der WISC-III zur WISC-IV dahingehend verändert,
weniger die Rechenfähigkeiten als vielmehr das Arbeitsgedächtnis zu erfassen, das nach ak-
Kapitel 3
36
tuellen Forschungsbefunden in den aktuellen Theorien einen höheren Stellenwert besitzt
(mehr dazu siehe Kapitel 4.6.1).
3.6
Diskussionen zur Existenz eines g-Faktors
“To g or not to g – that is the question.” Nathan Brody (2005)
3.6.1 Was ist g?
Wohl kaum eine Frage in der Intelligenzforschung wird leidenschaftlicher diskutiert als die
nach der Existenz eines g-Faktors als Repräsentant der allgemeinen, übergeordneten Intelligenz eines Menschen. Dies zeigen schon die unzähligen Veröffentlichungen der letzten Jahre,
die sich ausschließlich mit diesem Thema beschäftigen (u. a. Brand, 1996; Davidson & Downing, 2000; Jensen, 1998; Nyborg, 2003). Für Davidson und Downing (2000) kann erst ein besseres Verständnis von g zu einem besseren Verständnis der Intelligenzstruktur führen. Doch
schon die Frage, was g eigentlich ist, löst Kontroversen aus. Für Jensen (2002) und Carroll
(1993) stellt der g-Faktor die Varianzquelle dar, die den Leistungen in allen kognitiven Tests
gemein sei, wie unterschiedlich sie auch sein mögen. Er sollte nicht als Aufsummierung oder
Durchschnitt individueller Unterschiede in einem kognitiven Test, sondern vielmehr als ein
Destillat dieser Unterschiede gesehen werden. Horn (1988) hingegen hält g für ein rein statistisches Artefakt. Für Brody (2005) könne g am besten als latentes Merkmal verstanden werden,
das mit unterschiedlichen psychometrischen Maßen, die möglicherweise als Hinweise auf ein
latentes Konstrukt entwickelt wurden, zwar in Zusammenhang stehe, konzeptuell und empirisch aber von ihnen verschieden sei.
3.6.2 Pro und Kontra
Forscher wie Carroll (1993, 2003) und Jensen (1998, 2002) behaupten, der Generalfaktor repräsentiere in ausreichender Weise das, was den breiten Fähigkeiten zu Grunde liege. Auch
Brody (2005) sieht dies als einzig logische Schlussfolgerung an. Außerdem sei der g-Faktor die
einzige kognitive Fähigkeit, die von allen kognitiven Messinstrumenten berührt werde. Aktuelle Studien anderer Forscher legen gleichfalls die Existenz eines allgemeinen Intelligenzfaktors
nahe (Johnson, te Nijenhuis & Bouchard Jr, 2008; Visser, Ashton & Vernon, 2006). Nach Jensen
(2002) wiesen die wichtigsten Studien g als ein äußerst stabiles Konstrukt über Methoden,
Tests und Populationen hinweg aus. Die Generalisierbarkeit von g sei bemerkenswert breit,
was die signifikanten Ladungen in Tests mit ganz unterschiedlichen Aufgabentypen wie Wortschatz, allgemeine Informationen und Reaktionszeit verdeutlichten. Außerdem weise g nach
Jensen eine hohe externe Validität auf. Dies zeigten Studien, in denen der IQ und Tests kognitiver Fähigkeiten hohe gemeinsame g-Ladungen aufweisen. Daraus schließt Jensen, dass die
Kapitel 3
37
Generalisierbarkeit von g für ein breites Spektrum an Prädiktorkriterien zulässig sei. Die Vorhersagekraft von IQ-Tests auf Schulleistung und beruflichen Erfolg ist unstrittig. Korrelationsstudien gehen von einem Zusammenhang zwischen IQ-Tests und schulischem Erfolg von ungefähr r = .50 aus (Braaten & Norman, 2006). Dabei gilt g als bedeutsamerer Prädiktor als spezifisches Wissen oder spezifische Fertigkeiten. Nach Jensen (2002) wiesen IQ- und Bildungstests
keine praktisch sinnvolle Vorhersagevalidität mehr auf, sobald g statistisch aus diesen Tests
entfernt werden würde. Zwar würden einzelne Faktoren der Tests (wie verbale, numerische,
räumliche etc.) auch zur Vorhersagevalidität beitragen, doch sei dieser Beitrag im Vergleich zu
dem des g-Faktors sehr gering.
In seiner aktuellsten Untersuchung bilanziert Carroll (2003): „Researchers who are concerned
with the structure in one way or another … can be assured that a general factor exists, along
with a series of second-order-factors that measure broad special abilities” (S. 19). Außerdem
sprächen für ihn, ebenso wie für andere Forscher, die Ergebnisse der Intelligenzforschung den
fluiden Fähigkeiten eine deutlich wichtigere Rolle zu als bisher vermutet. Diese Erkenntnis floss
auch in die Entwicklung der WISC-IV mit ein (siehe Kapitel 4.6.1).
Manche sehen g als die bedeutendste messbare Fähigkeit an, da sie den Großteil der Varianz in
mehreren, sowohl akademischen als auch beruflichen Bereichen vorhersage (z. B. Glutting,
Watkins & Youngstrom, 2003). Neisser et al. (1996) argumentieren dagegen, Carrolls hierarchische Anordnung des g-Faktors bestätige lediglich, dass die Leistungsniveaus eines Menschen in
verschiedenen Testverfahren miteinander korrelierten; das sei zwar konsistent mit der Hypothese, ein allgemeiner Faktor wie g liege diesen Korrelationen zugrunde, jedoch kein Beweis
dafür. Die Korrelationen könnten auch aufgrund anderer Faktoren wie Schulbildung zustande
kommen.
Studien zufolge laden auch Messverfahren wie der Sternberg Triarchic Abilities Test (STAT), die
ein g-Faktor-freies Modell als Basis haben, hoch auf einem gemeinsamen Faktor, der mit g
korreliert (Brody, 2003a, 2003b). Auch aktuelle Testverfahren zu praktischer und kreativer
Intelligenz weisen einen positiven Zusammenhang mit g auf (Brody, 2005). Außerdem wiesen
genetische Studien einen gemeinsamen genetischen Einfluss auf die Beziehung zwischen verschiedenen Faktoren zweiter Ordnung auf (Petrill, 2005).
Auf der anderen Seite stehen Forscher wie Horn (1985) und Sternberg (Sternberg, 2002;
Sternberg & Grigorenko, 2002), die es befürworten, den Schwerpunkt auf die unabhängigen
breiten Fähigkeiten zu legen, da sie g für einen vielgestaltigen und relativ bedeutungslosen
Zusammenschluss verschiedener voneinander unabhängiger kognitiver Prozesse halten. Zwar
stimmen Horn und Cattell Carroll hinsichtlich der Korrelationen zwischen Fähigkeiten zu, sehen
diese jedoch nicht als kausalen Einfluss einer allgemeinen Intelligenz, sondern eher als statisti-
Kapitel 3
38
sche Regelmäßigkeit an, da es schwer sei, menschliche Aktivitäten zu definieren, die nur mit
einer der Fähigkeiten zweiter Ordnung zusammenhängen (McGrew, 2005). Für Horn und Noll
(1994) kann ein einzelnes wissenschaftliches Konzept ein so vielschichtiges Phänomen wie die
Intelligenz nicht erklären. Sie sehen Intelligenz als eine Mischung aus vielen unterschiedlichen
kognitiven Fähigkeiten an und sprechen sich gegen Carrolls g-Faktor aus, der sich in seinen
Studien, je nach Studie und Testbatterie, als unterschiedlich darstelle und somit nicht eine
allgemeine Intelligenz, sondern unterschiedliche Maße repräsentiere (Horn & Noll, 1997). Nach
Stankov (2005) deuten nur sieben der über 400 Datensätze aus Carrolls Studie auf einen gFaktor hin.
Studien aus den Bereichen Entwicklung, Ausbildung, Neurologie und Genetik geben laut Horn
und McArdle (2007) Anlass daran zu zweifeln, ein einzelner, für alle intelligenzabbildenden
Fähigkeiten gültiger Faktor, könne die Varianz individueller Unterschiede abdecken. Dies zeige
sich auch darin, dass die CHC-Fähigkeiten mit nicht-kognitiven Variablen wie Erfolg (z. B. im
Bereich akademischer Leistungen siehe Evans, Floyd, McGrew & Leforgee, 2002; Floyd, Evans
& McGrew, 2003), genetischen Strukturen und neurologischen Funktionen in Verbindung stehen. Da diese Beziehungen so mannigfaltig seien, spreche dies ebenfalls gegen einen einzelnen, einheitlichen Grundbestandteil (Horn & Blanksen, 2005). Für Carroll (2003) hingegen basierten Faktorenanalysen darauf, die Beschaffenheit eines einzelnen Faktors nicht notwendigerweise zu speziellen Charakteristika der in die Korrelationsmatrix involvierten Variablen in
Beziehung zu stellen, sondern nur zu den Charakteristika oder latenten Variablen, die diesen
Variablen ähnlich sind.
Trotz der Ähnlichkeit zwischen den Stratum-II-Faktoren der Three-Stratum-Theorie und Horns
erweiterter Gf-Gc-Theorie widersprach Horn (1991) Carrolls Vorstellungen von Intelligenz, da er
einen g-Faktor auf Stratum III nicht akzeptierte. Er stellte die Theorie auf, dass gf und gc zwischen Stratum II und III liegen und somit einen Großteil der Varianz aufklären. Da gf in faktorenanalytischen Studien zur Untersuchung der Ladung auf einen gemeinsamen g-Faktor eine
standardisierte Faktorladung von 1.0 aufwies, müsse Intelligenz mehr sein als g. Carroll (1993)
erklärte sich die Beziehung zwischen den Faktoren g und gf jedoch damit, dass beide in hohem
Maße erblich seien und gf auf Stratum II den höchsten Grad an Erblichkeit aufweise. Für andere repräsentierten g und gf im Wesentlichen die selben Fähigkeiten (Davidson & Downing,
2000). Demgegenüber deuten Studien, die hohe g-Ladungen in den sprachlichen Untertests
aufzeigten, auf hohe Korrelationen von gc und g hin (siehe u. a. Keith et al., 2006). Für Gignac
(2006) schien daher gc als der beste Prädiktor für die allgemeine Intelligenz.
Nach Brody (2000) ergeben sich aus sämtlichen Überlegungen zur Struktur kognitiver Fähigkeiten zwei wichtige Erkenntnisse: Erstens zeigen sich hohe Korrelationen nahezu aller Mess-
Kapitel 3
39
instrumente kognitiver Funktionen. Matrizen von Fähigkeitsmessinstrumenten besäßen in der
Regel einen Faktor, der ungefähr die Hälfte der Kovarianz aufkläre. Zweitens ergäben sämtliche Studien, dass g nicht die gesamte Kovarianz einer Matrix abdecke. Zur Aufklärung sämtlicher Beziehungen bedürfe es basalerer Fähigkeitsmessinstrumente. Für Stankov (2005) lieferten Faktorenanalysen jedoch keine konsistenten Informationen über das Ausmaß der g-Varianz
in der Matrix, g-Ladungen verschiedener Tests oder der Definition von g im Hinblick auf die
invarianten Faktorenstrukturen.
Demetriou, Mouyi und Spanoudis (2008) untersuchten 140 Kinder mit Aufgaben zu wichtigen
kognitiven Prozessen unterschiedlicher Komplexität aus den Bereichen Geschwindigkeit, Arbeitsgedächtnis, Informationsintegration und Schlussfolgern. Sie gingen daraufhin von hierarchisch organisierten Prozessen aus und vermuteten, g könne nicht mit einem dieser Konstrukte oder Dimensionen identifiziert werden, sondern würde von unterschiedlichen Prozessen
bestimmt, die auf dynamische Weise miteinander agieren.
Auf gleicher Ebene argumentieren Naglieri und Das (2002). Traditionelle Testverfahren, die
sich auf den g-Faktor begründen, hätten zwar gute Dienste für die Etablierung von Testungen
als einer der wichtigsten Beiträge der Psychologie an die Gesellschaft geleistet, es bedürfe
jedoch einer substantiellen Erneuerung der Konzeptualisierung und Messung von Intelligenz.
Konventionelle g-basierte Theorien seien ihrer Meinung nach unvollständig und in ihrem Nutzen eingeschränkt. Sie entwickelten die neuropsychologisch fundierte PASS-Theorie (Das, Naglieri & Kirby, 1994), die sie als Alternative zur allgemeinen Intelligenz ansahen, und zogen sie
bei der Entwicklung eines eigenen Testverfahrens, des CAS (Cognitive Assessment System;
Naglieri, 1999) heran. PASS steht für die vier Elemente Planung (Planning), Aufmerksamkeit
(Attention) sowie simultane und sukzessive Kodierung (Simultaneous and Successive Processing) als grundlegende kognitive Prozesse der Intelligenz. Sie bilden ein zusammenhängendes
System, das mit den Grundlagen an Wissen und Fertigkeiten eines Individuums interagiert
(Naglieri & Das, 2002).
Die Diskussion um den g-Faktor geht mit der Kontroverse um den Gebrauch von Profilanalysen
einher (siehe Kapitel 4.5). Während die Befürworter des g-Faktors ein klares „just say no“
(McDermott, Fantuzzo & Glutting, 1990) postulieren, sprechen sich dessen Gegner für die Anwendung der Profilanalyse aus. McGrew, Flanagan, Keith und Vanderwood (1997) kommen
nach einer großangelegten Analyse zu dem Ergebnis: „Just say maybe“ oder „wait just a minute“ (S. 207).
3.6.3 Verbindung zur Studie
Der Streitpunkt um die Existenz eines g-Faktors kommt auch bei der Entwicklung des CHCModells zum Tragen, da bereits die Entwickler dieser Theorie dahingehend unterschiedlicher
Kapitel 3
40
Auffassungen sind (siehe Kapitel 3.5) (McGrew, 2005). Für diese Studie stellt sich demnach die
Frage, inwieweit der Vergleich der Ergebnisse beider Testversionen nur unter Berücksichtigung
des Gesamt-IQ (stellvertretend für den g-Faktor) oder zusätzlich auch der Index-Werte (stellvertretend für die Faktoren der zweiten Ebene im CHC-Modell) vorgenommen werden sollten.
Für die Wechsler-Versionen wird kontrovers diskutiert, ob die Interpretation des Gesamt-IQ
immer sinnvoll ist, gerade wenn sich große Diskrepanzen im Leistungsprofil des Kindes zeigen.
Die Gegner der Gesamt-IQ-Interpretation bei breit gestreuten Index-Werten sehen ihn als wenig valide und damit als unzureichende Beschreibung der Fähigkeiten des Kindes an (Fiorello et
al., 2007; Fiorello, Hale, McGrath, Ryan & Quinn, 2001; Hale, Fiorello, Kavanagh, Holdnack &
Aloe, 2007). Diese Forscher gehören auch zu denen, die den g-Faktor verneinen. Andere Autoren halten den Gesamt-IQ für ebenso valide wie die Index-Werte – unabhängig von der Höhe
der Streuung zwischen den Index-Werten – und befürworten die Interpretation des Gesamt-IQ
auch bei den Populationen, die sich durch eine hohe Variabilität im Intelligenzprofil auszeichnen (Daniel, 2007).
3.7
Zusammenfassung
Den Wechsler-Skalen wurden im Laufe der letzten Jahre und Jahrzehnte diverse Intelligenzmodelle zu Grunde gelegt. So finden sich in ihnen Aspekte des Primärfaktorenmodells von Thurstone wieder, der Intelligenz aus sieben nebeneinander stehenden Faktoren gebildet sieht,
denen Ähnlichkeiten zu den in den Wechsler-Tests enthaltenen Indizes zugeschrieben werden
können. Einen mindestens ebenso großen Einfluss auf die Entwicklung der Wechsler-Tests
haben hierarchische Intelligenzstrukturmodelle, die einen mehrstufigen Aufbau kognitiver
Fähigkeiten beinhalten. Als ältestes und dennoch weiterhin bedeutendes Modell gilt die ZweiFaktoren-Theorie von Spearman, der als erster den Begriff des g-Faktors einbrachte, der bis
heute für viel Diskussionsstoff unter den Intelligenzforschern sorgt. Dabei handelt es sich um
die allgemeine Intelligenz des Menschen, die den spezifischen Fähigkeiten übergeordnet werden kann. Mit Hilfe von Faktorenanalysen definierte Spearman den g-Faktor als die Fähigkeit,
die sämtlichen kognitiven Fähigkeiten des Menschen zugrundeliegt. Da den Wechsler-Tests mit
dem Gesamt-IQ ebenfalls ein übergeordneter Wert entnommen werden kann, wird Wechsler,
der selbst ein Schüler Spearmans war, eine Anlehnung an dessen Auffassung zugeschrieben.
Ein anderes wichtiges Intelligenzmodell wurde von Cattell begründet und später von Cattell
und Horn weiterentwickelt. Die Gf-Gc-Theorie geht anders als Spearman von zwei nebeneinanderstehenden Intelligenzfaktoren aus, der fluiden und der kristallinen Intelligenz. Später erweiterte Horn die Theorie auf acht oder mehr Faktoren, von denen die fluide und die kristalline
Intelligenz jedoch die Kernfaktoren bleiben. Sie wurden oftmals mit den beiden Skalen Verbalund Handlungsteil der Wechsler-Skalen in Verbindung gebracht. Ebenso wie die Gf-Gc-Theorie
Kapitel 3
41
beschreibt Wechsler das Three-Stratum-Modell von Carroll als einflussgebend für die Entwicklung seiner Skalen. Aus einer umfassenden Faktorenanalyse, die zahlreiche Studien beinhaltete, entwickelte Carroll das Three-Stratum-Modell. Es bildet die Intelligenz auf drei Hierarchieebenen ab, der allgemeinen Intelligenz auf der dritten und höchsten Ebene, acht weniger allgemeinen Faktoren auf Stratum II und 69 spezifischen Faktoren auf unterster Ebene. Die derzeit aktuellste Theorie ist eine Verbindung der Theorien von Cattell, Horn und Carroll, das CHCModell. Es stellt das erste Modell dar, dem Intelligenztests explizit zu Grunde gelegt wurden,
und auch der WISC-IV wird ein impliziter Zusammenhang mit dem CHC-Modell nachgesagt. Es
wird mal mit und mal ohne einen übergeordneten allgemeinen Faktor beschrieben und beinhaltet ein dynamisches Modell, das immer wieder veränderbar ist. Derzeit liegen acht breitere
oberhalb von ungefähr siebzig spezifischeren Faktoren. Die Diskussion über einen allgemeinen
Faktor an der Spitze des CHC-Modells geht mit dem langjährigen Streit über die Existenz eines
g-Faktors einher. Die Forscher, die einen g-Faktor befürworten, sehen ihn als Quelle der gemeinsamen Varianz sämtlicher kognitiven Fähigkeiten. Auf der anderen Seite stehen Forscher,
die den Schwerpunkt auf den breiter gefassten Faktoren sehen und einen g-Faktor dementieren. Dieser Streit hält bis zum heutigen Tage an.
Kapitel 4
Die Wechsler-Skalen
42
4 Die Wechsler-Skalen
Wortschatz-Test, Frage 15: „Was bedeutet anstrengend?“
Miriam, 9 Jahre: „Wenn man Kinder hat, die viele Hobbies haben und man sie dann immer
hin- und herfahren muss.“
Die Wechsler-Skalen zählen seit mehr als einem halben Jahrhundert zu den weltweit bekanntesten Intelligenztestverfahren (Belter & Piotrowski, 2001; Flanagan et al., 2000; Kaufman,
Flanagan, Alfonso & Mascolo, 2006; Prifitera, 1994; Zhu & Weiss, 2005). Nachgewiesenermaßen sind sie die am häufigsten verwendeten Testverfahren (Camara, Nathan & Puente, 2000;
Schorr, 1995; Steck, 1997) und stehen trotz häufiger Kritik bei klinischen und Schulpsychologen
bei der Erfassung kognitiver Fähigkeiten von Kindern, Jugendlichen und Erwachsenen weiterhin an erster Stelle (Zhu et al., 2004). Die Methoden, Konzepte und Verfahrensweisen der Skalen haben seit der Mitte des vergangenen Jahrhunderts die Testentwicklung und -erforschung
in der Intelligenzdiagnostik richtungsgebend gesteuert (Flanagan et al., 2000). Sie haben im
klinischen Bereich und in der Forschung bereits eine langjährige Tradition (Kamphaus, 2005).
Flanagan und Kaufman (2004) gehen davon aus, dass die WISC-IV, wie schon ihr Vorgänger, die
WISC-III, das am weitesten verbreitete Intelligenztestverfahren der Welt werden wird.
4.1
Die Geschichte der Wechsler-Skalen
Der Einfluss David Wechslers auf die Intelligenzmessung begann in den späten 1930er Jahren
(Kaufman et al., 2006). Seine klinischen und statistischen Kenntnisse, ebenso wie seine umfangreiche Erfahrung als Diagnostiker im Ersten Weltkrieg, flossen in seine Vorstellungen von
Intelligenz mit ein. Während dieses Krieges war in den Vereinigten Staaten eine Intelligenzbeurteilung zur Auswahl von Rekruten entwickelt worden. Der dort verwendete Test (Army
Alpha) wies zunächst einen hohen sprachlichen Anteil auf. Die eingeschränkte Lesefähigkeit
einiger Rekruten hatte daher die Notwendigkeit einer nonverbalen Beurteilung der Intelligenz
(Army Beta) begründet (Wechsler, 2003b). Wechsler hatte während seiner Arbeit mit den Soldaten festgestellt, dass es bei ihnen Diskrepanzen gab zwischen den intellektuellen Kompetenzen, die sie im zivilen Leben zeigten, und den Ergebnissen der Testverfahren, mit denen er sie
untersuchte. Daher schienen ihm bisher gängige Intelligenzdefinitionen, auf deren Basis Testverfahren wie die Army Alpha und Beta oder der erste Intelligenztest von Binet und Simon
(1905, zitiert nach Wechsler, 2003b) entwickelt wurden, unzureichend zu sein. Somit müsse für
ihn eine ganzheitliche Intelligenzdefinition weiter gefasst werden als bisher (siehe Kapitel 2.2).
Sein Studium in London bei Charles Spearman und Karl Pearson, und dabei vor allem Spear-
Kapitel 4
Die Wechsler-Skalen
43
mans g-Faktor-Theorie (Spearman, 1904, siehe Kapitel 3.1), hatte zusätzlichen Einfluss auf die
Entwicklung seiner Vorstellung von Intelligenz (Wechsler, 1939a). Auf der Grundlage seiner
langjährigen klinischen Arbeit machte Wechsler es sich dann zum Ziel, Testverfahren zu entwickeln, mit denen auf Basis von verschiedenen Aufgaben dynamische klinische Informationen
erlangt werden können (Flanagan & Kaufman, 2004). So entwickelte er Untertests, die diejenigen kognitiven Aspekte der Intelligenz erheben, die er als bedeutsam erachtete: Sprachverständnis, abstraktes logisches Denken, Wahrnehmungsorganisation, mengenbezogenes Denken, Gedächtnis und Bearbeitungsgeschwindigkeit. Diese werden in aktuellen Intelligenztheorien ebenfalls als bedeutende Aspekte der kognitiven Fähigkeit angesehen (Carroll, 1993,
1997b; Horn, 1991, siehe Kapitel 3).
Auch wenn Wechsler sich für seine Tests viele Ideen von anderen Messinstrumenten auslieh
(Zachary, 1990), stellten sie doch eine bedeutende Innovation dar, mit der ihm ein dauerhafter
Beitrag zur Geschichte der Intelligenzdiagnostik gelang. Zur Entwicklung einer Intelligenztestbatterie, die verständlicher und nützlicher für den klinischen Gebrauch sowie ökonomisch
sinnvoller war, vereinte er die aus seiner umfangreichen klinischen Erfahrung am besten geeigneten Aspekte aus anderen Arbeiten (Zhu et al., 2004).
Um anders als bisherige Testverfahren sowohl verbale als auch nonverbale Intelligenzleistungen beurteilen zu können, führte Wechsler (1939b) in seinem ersten Intelligenztest, der
Wechsler-Bellevue Intelligence Scale, zusätzlich zu einem allgemeinen Wert gesonderte Werte
für Verbal- und Handlungsskalen ein.
Diese Einteilung stellte eine Innovation dar und gilt als das vielleicht bedeutsamste Merkmal
der Wechsler-Bellevue (Flanagan & Kaufman, 2004). Wechsler (1944) hielt diese Einteilung
selber für einen wertvollen Beitrag seiner Skalen:
Its à priori value is that it makes possible a comparison between a subject`s facility in using
words and symbols and his ability to manipulate objects, and to perceive visual patterns. In
practice this division is substantiated by differences between posited abilities and various occupational aptitudes. ... Apart from their possible relation to vocational aptitudes, differences between verbal and performance test scores, particularly when large, have a special interest for
the clinician because such discrepancies are frequently associated with certain types of mental
pathology. (S. 146)
Die Aufteilung der Untertests in Verbal- und Handlungsaufgaben führte häufig zu der Annahme, Wechsler ginge von einer Zwei-Faktoren-Struktur der Intelligenz aus. Wechsler (1958)
verfolgte dabei jedoch praktische Ziele:
[The grouping of subtests into Verbal and Performance areas] … does not imply that these are
the only abilities involved in tests. Nor does it presume that there are different kinds of intelligence, e.g., verbal, manipulative, etc. It merely implies that these are different ways in which
intelligence may manifest itself. … The subtests are different measures of intelligence, not
measures of different kinds of intelligence, and the dichotomy of Verbal and Performance areas
is only one of several ways in which the tests could be grouped. (S. 64)
Kapitel 4
Die Wechsler-Skalen
44
Für Wechsler repräsentierten der Verbal- und der Handlungsteil keine unterschiedlichen Fähigkeiten, sondern sie stellten zwei unterschiedliche Sprachen dar, durch die sich die zugrunde
liegende allgemeine Intelligenz ausdrücken kann (Kamphaus, 2005).
Eine weitere Innovation Wechslers war die Berechnung der Ergebnisse anhand eines sogenannten Abweichungs-IQ. Vor den Wechsler-Skalen wurde das kognitive Niveau eines Individuums anhand des Intelligenzalters (IA) geteilt durch das Lebensalter (LA) berechnet
(IQ = IA/LA * 100), ein Konzept, das ursprünglich 1908 von Binet eingeführt worden war (Zhu
et al., 2004). Da sich diese Art der Berechnungen besonders mit steigendem Lebensalter bei
Erwachsenen als sehr fehleranfällig erwiesen hatte und dadurch große Probleme bei der Interpretation der Testergebnisse aufgekommen waren, stellte der Abweichungs-IQ eine wichtige
Neuerung dar, die den Vergleich mit Gleichaltrigen aussagekräftiger und die Interpretation
überschaubarer machte. Mit Hilfe des Abweichungs-IQ wird ein individueller Testwert an dem
Mittelwert und der Streuung einer für die Testperson repräsentativen Altersgruppe standardisiert. Dabei legte Wechsler (1939b) den Mittelwert bei 100 und die Standardabweichung bei
+/- 15 fest. Diese Form der Berechnung wird mittlerweile in allen gängigen Intelligenztests, die
einen IQ angeben, verwendet.
Insgesamt stellte die Veröffentlichung der Wechsler-Bellevue Intelligence Scale eine ernst zu
nehmende Konkurrenz für die bis dahin heiligen Binet-Skalen dar (Kamphaus, 2005). Sie bot
eine Reihe von Besonderheiten, die in den ersten Ausgaben der Binet-Skalen nicht verfügbar
waren. Dazu gehörten separate Normen für Kinder und Erwachsene, Standardwerte für die
einzelnen Untertests, die Profilanalysen ermöglichen, ein separater Handlungsteil, der die Untersuchung von Menschen mit sprachlichen oder kulturellen Besonderheiten ermöglichte, und
der Abweichungs-IQ. Diese Vorteile der Wechsler-Tests gegenüber den Binet-Skalen lassen sich
in Wechslers langjähriger klinischer Erfahrung begründen, die Binet als reiner Forscher nicht
aufweisen konnte (Kamphaus, 2005).
Für seine erste Testbatterie für Kinder, die Wechsler Intelligence Scale for Children (WISC,
Wechsler, 1949) – im Deutschen HAWIK (Hardesty & Priester, 1956) – adaptierte er die Untertests, die den HAWIK-Untertests Allgemeines Wissen, Rechnerisches Denken, Gemeinsamkeitenfinden, Wortschatz-Test, Zahlennachsprechen, Allgemeines Verständnis, Bilderergänzen,
Bilderordnen, Mosaik-Test, Figurenlegen und Zahlen-Symbol-Test entsprechen, aus der Wechsler-Bellevue. Als zusätzlichen Untertest entwickelte er den Labyrinth-Test. Die Untertests waren in Verbal- und Handlungsskalen aufgeteilt und lieferten Werte für einen Verbal-, einen
Handlungs- und einen Gesamt-IQ. Als Intelligenztest für jüngere Kinder folgte 1967 die Wechsler Preschool and Primary Scale of Intelligence (WPPSI, Wechsler, 1967). Ein Überblick über die
Wechsler-Intelligenzskalen kann Tabelle 4.1 entnommen werden.
Kapitel 4
Die Wechsler-Skalen
45
Tabelle 4.1: Die Wechsler-Intelligenzskalen im Überblick
Skalen für Kinder und
Jugendliche
Wechsler Bellevue-Form II
Wechsler Bellevue I (1939)
(1946)
(Wechsler, 1939b)
(Wechsler, 1946)
WAIS (1955)
WISC (1949)
(Wechsler, 1955)
(Wechsler, 1949)
HAWIE (1956)
HAWIK (1956)
(Bondy, 1956)
(Hardesty & Priester, 1956)
WAIS-R (1981)
WISC-R (1974)
(Wechsler, 1981)
(Wechsler, 1974)
HAWIE-R (1991)
HAWIK-R (1983)
(Tewes, 1991)
(Tewes, 1983)
WAIS-III (1997)
WISC-III (1991)
(Wechsler, 1997)
(Wechsler, 1991)
WIE (2006)
HAWIK-III (1999)
(von Aster, Neubauer &
(Tewes, Rossmann &
Horn, 2006)
Schallberger, 1999)
WISC-IV (2003)
(Wechsler, 2003a)
HAWIK-IV (2007)
(Petermann & Petermann,
2008a)
Anmerkung: Die deutschen Versionen sind grau unterlegt.
Skalen für Erwachsene
Skalen für Vor- und
Grundschulkinder
WPPSI (1967)
(Wechsler, 1967)
HAWIVA (1975)
(Eggert, 1975)
WPPSI-R (1989)
(Wechsler, 1989)
WPPSI-III (2002)
(Wechsler, 2002)
HAWIVA-III (2007)
(Ricken, Fritz, Schuck
& Preuß, 2007)
Während ein Ziel bei der Entwicklung der Wechsler-Bellevue war, einen Intelligenztest für Erwachsene zu erhalten, der nicht nur eine schwierigere Version eines Intelligenztests für Kinder
ist, sondern explizit für die Messung des kognitiven Leistungsstandes Erwachsener entwickelt
wurde, stellte die WISC das Gegenteil dar, nämlich die vereinfachte Version eines Intelligenztests für Erwachsene. Aus diesem Grund wurde der WISC oft fehlende Kind-Orientierung vorgeworfen (Anastasi & Urbina, 1997).
Die Eignung des Testverfahrens für Kinder zu verbessern war somit eines der Ziele bei der ersten Neuauflage der WISC. Die Wechsler Intelligence Scale for Children – Revised (WISC-R,
Wechsler, 1974) – im Deutschen HAWIK-R (Tewes & Titze, 1994) – behielt alle Untertests der
WISC bei und erweiterte die Altersspanne von 6 bis 15 auf 6 bis 16 Jahre. Das revidierte Testverfahren lieferte weiterhin Werte für den Verbal-, den Handlungs- und den Gesamt-IQ. Wie
sein Vorgänger erfreute sich auch dieser Test großer Popularität. Der Bekanntheitsgrad lag
dabei nicht nur im klinischen, sondern auch im empirischen Bereich, was die über 1 100 Veröffentlichungen zu verschiedenen Aspekten der klinischen Anwendbarkeit und Validität der
WISC-R zum Ausdruck bringen (Reynolds & Kaufman, 1990).
Die Wechsler Intelligence Scale for Children- Third Edition (WISC-III; Wechsler, 1991) – im Deutschen HAWIK-III (Tewes et al., 1999) – behielt alle Untertests der WISC-R bei, ergänzt durch
den neuen Untertest Symbol-Suche zur Messung der Bearbeitungsgeschwindigkeit. Zusätzlich
Kapitel 4
Die Wechsler-Skalen
46
zum Verbal-, Handlungs- und Gesamt-IQ wurden in der WISC-III vier neue – im HAWIK-III SV,
WO, UA und AG genannte – Index-Werte zur genaueren Darstellung enger definierter Bereiche
der kognitiven Funktionen eingeführt (ausführlicheres siehe Kapitel 4.2).
Die aktuelle Version der Wechsler-Skalen, die WISC-IV (Wechsler, 2003a) – im Deutschen HAWIK-IV (Petermann & Petermann, 2008a) – beinhaltet die bisher größten Veränderungen gegenüber einer vorherigen Version (siehe auch Tabelle 4.2). Sie zeichnet sich nicht nur durch
neue Untertests (Bildkonzepte, Buchstaben-Zahlen-Folgen, Matrizen-Test, Durchstreich-Test
und Begriffe erkennen), sondern auch durch eine strukturelle Änderung der Skalen aus. Zusätzlich zum Gesamt-IQ stehen anstelle des Verbal- und Handlungs-IQ vier Index-Werte zur Verfügung, die aus 10 der 15 Untertests berechnet werden können (mehr dazu siehe Kapitel 4.3).
Tabelle 4.2: Untertestzusammensetzungen der HAWIK-Versionen
HAWIK
AW
RD
GF
WT
ZN
AV
BE
BO
MT
FL
ZST
LT
HAWIK-R
AW
RD
GF
WT
ZN
AV
BE
BO
MT
FL
ZST
LT
HAWIK-III
AW
RD
GF
WT
ZN
AV
BE
BO
MT
FL
ZST
LT
SS
HAWIK-IV
AW
RD
GF
WT
ZN
AV
BE
MT
ZST
SYS
BK
MZ
BZF
DT
BEN
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Die Feststellung kognitiver Stärken und Schwächen erfolgt über spezifische Testverfahren, mit
denen die Testleistung reliabel und valide erfasst werden kann. Intelligenztests unterscheiden
sich in der Art der Testvorgabe wie folgt (Daseking et al., 2006):
Papier- und Bleistift- vs. computergestützte Tests,
Antworten in freiem Format vs. Mehrfachwahlantworten (multiple choice) und
Schnelligkeit (speed) vs. Richtigkeit (power) der Aufgabenbearbeitung.
Die Intelligenztestbatterien HAWIK-III und -IV stellen sich als Papier- und Bleistiftverfahren mit
Antworten in freiem Format dar. Sie beinhalten sowohl Aufgaben, die auf Schnelligkeit, als
auch Aufgaben, die auf die Richtigkeit der Aufgabenbearbeitung abzielen.
Kapitel 4
4.2
Die Wechsler-Skalen
47
Der HAWIK-III
Die WISC-III erschien 1991 in den USA (Wechsler, 1991) und kam acht Jahre später als HAWIKIII (Tewes et al., 1999) auf den deutschsprachigen Markt. Die Untertests des HAWIK-III lassen
sich zwei übergeordneten Konstrukten zuordnen: dem Verbal- und dem Handlungsteil3. Dabei
wird der Verbal-IQ auch als Sprachliche Intelligenz und der Handlungs-IQ als Praktische Intelligenz bezeichnet (Daseking & Petermann, 2004; Tewes, Rossmann & Schallberger, 2002). Zusätzlich können über verschiedene Untertestkombinationen vier Indizes berechnet werden:
Sprachverständnis (SV), Wahrnehmungsorganisation (WO), Unablenkbarkeit (UA) und Arbeitsgeschwindigkeit (AG). Die hierarchische Struktur des HAWIK-III zeigt Abbildung 4.1.
Gesamt-IQ
Verbalteil
SV
AW GF
Handlungsteil
UA
WT AV
RD
WO
ZN
BE
BO MT
AG
FL
ZST
SS
Abbildung 4.1: Hierarchische Struktur des HAWIK-III (modifiziert nach Tewes et al., 2002, S.
86)
Anmerkungen: Abkürzungen siehe Anhang A5 und A6. In Anlehnung an die Intelligenzmodelle
wird die Teststruktur in runden und eckigen Kästchen dargestellt (siehe Kapitel 3).
Der HAWIK-III umfasst 13 Untertests, von denen 10 in die Berechnung des Gesamt-IQ und 12
in die Berechnung der Indizes einfließen. Eine inhaltliche Beschreibung der Untertests kann
Tabelle 4.3 entnommen werden. Der Labyrinth-Test wurde in dieser Untersuchung in Anlehnung an andere Studien (siehe u. a. Johnson Grados & Russo-Garcia, 1999; Phelps et al., 2005;
Watkins, 2005) nicht berücksichtigt, da er weder in die Gesamt-IQ- noch in die IndexBerechnung einbezogen wird und somit für die Vergleichbarkeit der Testversionen als unbedeutend erscheint.
3
Der Verbal- und Handlungsteil bzw. der Verbal- und Handlungs-IQ werden im Folgenden der Einfachheit halber als Gesamtwerte bezeichnet, da sie sich aus jeweils zwei Indizes zusammensetzen.
Kapitel 4
Die Wechsler-Skalen
48
Tabelle 4.3: Die Untertests des HAWIK-III (modifiziert nach Tewes et al., 2002)
Test
Beschreibung
Das Kind sieht eine Reihe von Bildern und zeigt oder benennt das wichtige Teil/Detail,
BE
das auf dem jeweiligen Bild fehlt.
Das Kind beantwortet Fragen über allgemein bekannte Ereignisse, Sachverhalte, Orte
AW
und Persönlichkeiten.
Eine Serie einfacher geometrischer Figuren (ZST-A) oder Ziffern (ZST-B), der das Kind
abstrakte Symbole zuordnet. Es zeichnet in einer begrenzten Zeit die Symbole in die
ZST
dazugehörigen Figuren bzw. Ziffern, indem es einen Entschlüsselungscode verwendet.
Das Kind soll das Gemeinsame von mündlich vorgegebenen Begriffspaaren benennen
GF oder beschreiben. Die Begriffe beziehen sich auf Konzepte oder Gegenstände des
Alltags.
Dem Kind werden Bilderserien in falscher Reihenfolge vorgelegt. Das Kind hat die
BO Aufgabe, sie in eine logisch richtige Reihenfolge zu sortieren, so dass sie eine kurze
Geschichte bzw. einen Handlungsablauf wiedergeben.
Das Kind löst eine Serie von zunächst mündlich, dann mündlich und schriftlich vorgeRD
gebenen Rechenaufgaben.
Mit Hilfe von zweifarbigen Würfeln soll das Kind unterschiedlich komplexe MusterMT vorlagen (Modell oder Bildvorlage) innerhalb einer vorgegebenen Zeitspanne nachbauen.
WT Das Kind gibt Definitionen für die vom Testleiter vorgegebenen Worte.
Jede Aufgabe besteht aus Teilen eines Puzzles, aus denen das Kind eine sinnvolle
FL
Figur zusammensetzen muss.
Das Kind beantwortet Fragen, die das Verständnis von allgemeinen Prinzipien und
AV
sozialen Situationen oder Regeln erfordern.
Das Kind vergleicht in einer begrenzten Zeit eine Gruppe von abstrakten Symbolen
SS
mit einem Zielsymbol und gibt an, ob sich das Zielsymbol in der Suchgruppe befindet.
Dem Kind wird eine Serie von Zahlen vorgesprochen, die es in derselben Reihenfolge
ZN (ZN vorwärts) beziehungsweise in umgekehrter Reihenfolge (ZN rückwärts) nachsprechen soll.
Der HAWIK-III wird, wie sämtliche Wechsler-Intelligenztests, in der diagnostischen Einzelfalluntersuchung eingesetzt und ermöglicht die Darstellung eines intraindividuellen Leistungsprofils.
Die von den jeweiligen Untertests erfassten kognitiven Funktionen (Tewes et al., 2002) werden
in Tabelle 4.4 beschrieben.
Kapitel 4
Die Wechsler-Skalen
49
Tabelle 4.4: Die erfassten Funktionen der HAWIK-III-Untertests (modifiziert nach Tewes et al.,
2002)
Test Beschreibung der erfassten Funktionen
Kerntests (zur Bestimmung der IQ-Werte)
Beobachtungsgenauigkeit und Fähigkeit zum Erkennen fehlender Details bei vertrauBE ten Objekten, Fähigkeit zwischen wesentlichen und unwesentlichen Details zu unterscheiden
Breite des erworbenen Wissens, Langzeitgedächtnis für Faktenwissen, Interesse und
AW
Neugier für kulturspezifische Kenntnisse
Visuomotorische Koordination, Konzentration und Arbeitsgeschwindigkeit, visuelles
ZST
Kurzzeitgedächtnis
Erkennen von unmittelbaren, funktionalen oder abstrakten Beziehungen zwischen
GF
Begriffen, Objekten oder Qualitäten auf der Grundlage von Analogiebildungen.
Praktisches Urteilsvermögen beim Erkennen von logischen Ereignisfolgen und UrsaBO che-Wirkungszusammenhängen, schlussfolgerndes Denken, Aufmerksamkeit für Details und Hintergrundinformationen
Akustische Merkfähigkeit, Arbeitsgedächtnis, Konzentrationsvermögen und Fähigkeit
RD
zur Lösung einfacher Rechenaufgaben im Kopf und unter Zeitdruck
Räumliche Wahrnehmung und visuomotorische Koordination, Unterscheidung zwiMT
schen Teilen und Ganzem beim Erkennen abstrakter visueller Muster
Wortkenntnis, Umfang des Wortschatzes, Fähigkeit zur Definition von Begriffen, allWT
gemeine sprachliche Entwicklung
Wiedererkennen von vertrauten Objekten, Erkennen von Beziehungen zwischen TeiFL
len und dem Ganzen
Praktisches Urteilsvermögen, Kenntnis konventioneller sozialer Regeln und ihrer BeAV
deutungen
Optionale Untertests (zur Bestimmung der Index-Werte)
Beobachtungsgenauigkeit und Konzentration, Geschwindigkeit geistiger VerarbeiSS
tungsprozesse
Akustische Merkfähigkeit, Arbeitsgedächtnis, Aufmerksamkeit und KonzentrationsZN
vermögen
4.3
Der HAWIK-IV
Der HAWIK-IV stellt die deutschsprachige Version der WISC-IV dar, die 2003 in den USA erschien. Wie oben beschrieben weist er eine deutlich andere hierarchische Struktur auf als bisherige HAWIK-Versionen (siehe Abbildung 4.2). Der Gesamt-IQ wird nicht mehr in Verbal- und
Handlungsteil unterteilt, sondern in die vier Indizes Sprachverständnis (SV), Wahrnehmungsgebundenes Logisches Denken (WLD), Arbeitsgedächtnis (AGD) und Verarbeitungsgeschwindigkeit (VG). Diese werden wiederum mit Hilfe von zwei oder drei Untertests berechnet.
Kapitel 4
Die Wechsler-Skalen
50
Gesamt-IQ
SV
GF
WT
WLD
AV
MT
BK
AGD
MZ
ZN
BZF
VG
ZST
SYS
Abbildung 4.2: Die hierarchische Struktur des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a)
Anmerkungen: Abkürzungen siehe Anhang A5 und A6. In Anlehnung an die Intelligenzmodelle
wird die Teststruktur in runden und eckigen Kästchen dargestellt (siehe Kapitel 3).
Der HAWIK-IV umfasst 15 Untertests, von denen 10 in die Berechnung der Indexwerte und des
Gesamt-IQ einfließen. Tabelle 4.5 enthält die inhaltliche Beschreibung der Untertests.
Tabelle 4.5: Die Untertests des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a)
Test Beschreibung
Mit Hilfe von zweifarbigen Würfeln soll das Kind unterschiedlich komplexe MusterMT
vorlagen innerhalb einer vorgegebenen Zeitspanne nachbauen.
Das Kind soll das Gemeinsame von mündlich vorgegebenen Begriffspaaren benennen
GF
oder beschreiben, die sich auf Konzepte oder Gegenstände des Alltags beziehen.
Dem Kind wird eine Serie von Zahlen vorgesprochen, die es in derselben Reihenfolge
ZN
(ZN-V) beziehungsweise in umgekehrter Reihenfolge (ZN-R) nachsprechen soll.
Das Kind soll aus zwei bzw. drei Bildreihen (mit je zwei bis vier Bildern) jeweils ein Bild
BK
auswählen, um daraus eine Gruppe mit einer gemeinsamen Eigenschaft zu bilden.
Eine Serie einfacher geometrischer Figuren (ZST-A) oder Ziffern (ZST-B), der das Kind
ZST abstrakte Symbole zuordnet. Es zeichnet durch Verwendung eines Entschlüsselungscodes in einer begrenzten Zeit die Symbole in die dazugehörigen Figuren bzw. Ziffern.
Bei den Bildaufgaben benennt das Kind die Bilder, die ihm vorgelegt werden. Bei den
WT
verbalen Aufgaben gibt das Kind Definitionen für verschiedene Worte.
Dem Kind werden eine Reihe von Nummern und Buchstaben vorgelesen. Es gibt die
BZF
Nummern in aufsteigender und die Buchstaben in alphabetischer Reihenfolge wieder.
Das Kind betrachtet eine unvollständige Matrize und wählt das fehlende Teil aus fünf
MZ
Antwortmöglichkeiten.
Das Kind beantwortet Fragen, die das Verständnis von allgemeinen Prinzipien und
AV
sozialen Situationen oder Regeln erfordern.
Das Kind vergleicht in einer begrenzten Zeit eine Gruppe von abstrakten Symbolen
SYS
mit einem Zielsymbol und gibt an, ob sich das Zielsymbol in der Suchgruppe befindet.
Das Kind sieht eine Reihe von Bildern und zeigt oder benennt das wichtige Teil/Detail,
BE
das auf dem jeweiligen Bild fehlt.
Das Kind betrachtet eine unstrukturierte beziehungsweise eine strukturierte BilderDT
anordnung und markiert in einer begrenzten Zeit die Zielbilder (Tiere).
Das Kind beantwortet Fragen über allgemein bekannte Ereignisse, Sachverhalte, Orte
AW
und Persönlichkeiten.
RD Das Kind löst eine Serie von mündlich vorgegebenen Rechenaufgaben.
Das Kind entschlüsselt den allgemeinen Begriff, der mit einer Reihe von Sätzen (SatzBEN
teilen) umschrieben wird.
Kapitel 4
Die Wechsler-Skalen
51
Wie oben beschrieben, wurden einige Untertests zur Erhebung der HAWIK-IV-Funktionen entwickelt, die in den vergangenen Jahren als wichtige kognitive Fähigkeitsbereiche ermittelt
wurden. Die erfassten Funktionen sämtlicher Untertests werden in Tabelle 4.6 beschrieben.
Tabelle 4.6: Die erfassten Funktionen der HAWIK-IV-Untertests (modifiziert nach Daseking et
al., 2007).
Test Beschreibung der erfassten Funktionen
Kerntests (zur Bestimmung der IQ-Werte)
Analyse und Synthetisierung abstrakter visueller Stimuli, nonverbale Konzeptbildung,
MT visuelle Wahrnehmung und Organisation, visuomotorische Koordination, FigurGrund-Unterscheidung bei visuellen Stimuli
Verbales Schlussfolgern und Konzeptbildung, auditives Verständnis, Gedächtnis, verGF
baler Ausdruck
Auditives Kurzzeitgedächtnis; Fertigkeit zur Reihenbildung, Aufmerksamkeit.
Zahlen nachsprechen vorwärts: automatisiertes Lernen, Gedächtnis, Aufmerksamkeit.
ZN Zahlen nachsprechen rückwärts: Arbeitsgedächtnis, mentale Rotation, visuellräumliches Vorstellungsvermögen.
Wechsel: kognitive Flexibilität
BK Abstraktes kategoriales Denken
Kognitive Verarbeitungsgeschwindigkeit, Kurzzeitgedächtnis, Lernfähigkeit, visuelle
ZST Wahrnehmung, visuomotorische Koordination, Fähigkeit zum visuellen Scanning,
kognitive Flexibilität, Aufmerksamkeit
Wortwissen und Begriffsbildung, Lernfähigkeit, Langzeitgedächtnis, SprachentwickWT
lung
Reihenfolgenbildung, mentale Rotation, Aufmerksamkeit, auditives KurzzeitgedächtBZF
nis, visuell-räumliches Vorstellungsvermögen, Verarbeitungsgeschwindigkeit
MZ Fluide Intelligenz
Verbales Schlussfolgern und verbale Konzeptualisierung, sprachliches Verständnis,
AV sprachlicher Ausdruck, Wissen um konventionelle Verhaltensstandards, soziales Urteil
Kognitive Verarbeitungsgeschwindigkeit, visuelles Kurzzeitgedächtnis, visuomotoriSYS
sche Koordination, kognitive Flexibilität, visuelle Diskrimination, Konzentration
Optionale Untertests (zusätzliche Informationen)
BE Visuelle Wahrnehmung und visuelle Organisation
DT Verarbeitungsgeschwindigkeit, visuelle selektive Aufmerksamkeit
AW Kristalline Intelligenz, allgemeines Faktenwissen, Langzeitgedächtnis
Mentale Rotation, Konzentration, Aufmerksamkeit, Kurz- und Langzeitgedächtnis,
RD
Rechenfähigkeit
Verbales Schlussfolgern, sprachliches Verständnis, verbale Abstraktion, BereichswisBEN sen, Integration und Synthetisierung verschiedener Informationsarten, Generierung
alternativer Konzepte
4.4
Testgütekriterien des HAWIK-III und HAWIK-IV
Nach Amelang und Schmidt-Atzert (2006) können die Gütekriterien zur Bewertung eines Testverfahrens wie folgt aufgegliedert werden:
Kriterien zu den Grundlagen eines Tests (diagnostische Zielsetzung, theoretische
Grundlagen und Nachvollziehbarkeit der Testkonstruktion),
Kapitel 4
Die Wechsler-Skalen
52
Kriterien zur Durchführung eines Tests (Durchführungsobjektivität, Transparenz, Zumutbarkeit, Verfälschbarkeit und Störanfälligkeit),
Kriterien zur Verwertung eines Tests (Auswertungsobjektivität, Zuverlässigkeit, Gültigkeit, Normierung, Bandbreite, Informationsausschöpfung und Änderungssensitivität),
Kriterien zur Evaluation eines Tests (Ökonomie, Fairness, Akzeptanz, Vergleichbarkeit
und Bewährung) sowie
Kriterien zur äußeren Gestaltung eines Tests.
Dabei kommen den Hauptgütekriterien Objektivität, Reliabilität und Validität zentrale Bedeutung zu.
4.4.1 Objektivität
Die Objektivität eines Intelligenztests ist von großer Bedeutung (Hall, Howerton & Bolin, 2005;
Lipsius, Petermann & Daseking, 2008). Ihr Mangel kann zu Einschränkungen der Aussagekraft
auch dieser Studie führen. Die Objektivität bestimmt sich dabei nach dem Ausmaß, in dem die
Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind (Amelang &
Schmidt-Atzert, 2006).
Bei umfangreichen Testbatterien wie dem HAWIK-III und -IV führen Fehler des Testleiters in
der Durchführung und Auswertung des Tests bisweilen zu gravierenden Abweichungen zwischen Testergebnis und wahrem Wert. Um dem mangelhaften Umgang mit Testverfahren entgegenzuwirken, haben in der Vergangenheit einige Organisationen Testleitlinien und
-standards entwickelt (Häcker, Leutner & Amelang, 1998; Moosbrugger & Höfling, 2006). Zu
nennen sind vor allem die Standards für pädagogisches und psychologisches Testen, die von
der AERA (American Educational Research Association), der APA (American Psychological Association) und der NCME (National Council on Measurement in Education) entwickelt wurden
(Standards for educational and psychological testing, AERA, APA & NCME, 1999) sowie die
Richtlinien der International Test Commission (International guidelines for test use, ITC, 2000).
Letztgenannte liegen in deutscher Fassung vom BDP (Berufsverband Deutscher Psychologinnen
und Psychologen) vor (2001). Auch die Interpretationsobjektivität ist bei Intelligenztests nicht
immer gegeben. Sie betrifft den Grad der Eindeutigkeit, mit der gleichen Werten (also in diesem Fall Testergebnissen) auch gleiche Merkmalsausprägungen (also hier kognitive Fähigkeiten) zugeordnet werden (Fisseni, 2004).
4.4.1.1 Objektivität im HAWIK-III
Die Durchführung des HAWIK-III erfolgt weitestgehend anhand standardisierter Materialien.
Im Manual werden keine empirischen Befunde zur Objektivtät berichtet, was auch kritisiert
wird (Renner & Fricke, 2001). Studien zur Durchführungs- und Auswertungsobjektivität des
HAWIK-III kamen übereinstimmend zu dem Ergebnis, dass Testleiter vor allem in den verbalen
Untertests häufig eine große Anzahl sehr unterschiedlicher Fehler machen und somit eine voll-
Kapitel 4
Die Wechsler-Skalen
53
ständige Objektivität nicht gewährleistet ist (Alfonso, Johnson, Patinella & Rader, 1998; Hall et
al., 2005). Außerdem wurde bemängelt, dass die Antwortbeispiele nicht immer dem aktuellen
Sprachgebrauch der Kinder entsprächen und somit eine Bewertungsentscheidung erschwert
werde. Bei konsequenter Einhaltung der Richtlinien für die Testdurchführung und -auswertung
kann jedoch von einer Durchführungs- und Auswertungsobjektivität ausgegangen werden (Daseking & Petermann, 2004; Jacobs, Heubrock & Petermann, 2002). Die oftmals notwendige
parallele Protokollierung und Bewertung sowie der sekundengenaue Umgang mit der Stoppuhr erfordern eine intensive Einarbeitung in den Test. Die Auswertung wird durch Beispiele
und Schablonen erleichtert.
4.4.1.2 Objektivität im HAWIK-IV
Zur Reduzierung von Durchführungs- und Bewertungsfehlern wurde das Design des WISC-IVProtokollbogens geändert. Eine verkürzte Version der wichtigsten Regeln zu Einstiegsalter,
Umkehr, Abbruch und Bewertung befindet sich für jeden Untertest auf dem Protokollbogen.
Zur Verbesserung der Anwenderfreundlichkeit des Tests wurden die Durchführungsprozeduren
modifiziert. Die Instruktionen an die Testleiter sind kürzer und verständlicher gehalten. Zur
objektiveren Gestaltung der Bewertung wurden zusätzliche Beispielantworten einbezogen. Für
konsistente und klare Durchführung wird außerdem in den Anweisungen bei allen Untertests
ein ähnlicher Wortlaut verwendet. Diese Veränderungen wurden auch für den HAWIK-IV übernommen und werden positiv bewertet (Deimann & Kastner-Koller, 2008; Renner, 2008).
Zur Bestimmung angemessener Punktwerte für vielfältige Antworttypen wurden für jene Untertestaufgaben, die elaboriertere Antworten erfordern, eine Reihe von Studien durchgeführt
(siehe dazu Wechsler, 2003b). Dem begrenzten Wortschatz jüngerer Kinder wurde durch die
stärkere Betonung der Bedeutung der Antworten als deren präziser Inhalt Rechnung getragen.
Zur Erleichterung der Bewertung der verbalen Untertests wurden zusätzliche Beispielantworten in das Manual aufgenommen. Mit dem Überblick über die gravierendsten Durchführungsund Auswertungsfehler am Ende des deutschen HAWIK-IV-Manuals wurde ein weiterer sinnvoller Versuch unternommen, die Objektivität des Tests zu verbessern (Lipsius et al., 2008).
Insgesamt wurde bei der Entwicklung der WISC-IV dem Problem der Testleiterobjektivität
durch anwenderfreundlichere Durchführungsanweisungen begegnet. Dennoch zeigen bisherige Studien, dass der HAWIK-IV, ebenso wie die WISC-IV, weiterhin ein hohes Fehlerpotential
hinsichtlich der Durchführung, Auswertung und Interpretation birgt (Linger, Ray, Zachar, Underhill & Lobello, 2007; Platt, Zachar, Ray, Underhill & Lobello, 2007). Beispielsweise führten
bei einer Untersuchung zum HAWIK-IV eine fehlerhafte Auswertung der sprachlichen Untertests zu Abweichungen von bis zu 33 IQ-Punkten im SV (Lipsius et al., 2008). In einer Studie zur
WISC-IV (Loe, Kadlubek & Marks, 2007) wiesen 98 % der untersuchten Testprotokolle Fehler
auf; im Schnitt waren es mehr als 25 Fehler pro Test.
Kapitel 4
Die Wechsler-Skalen
54
4.4.2 Reliabilität
Die Reliabilität beschreibt, wie genau ein Test misst und gibt Auskunft über die situationsübergreifende Stabilität und Konsistenz der Testwerte (Bortz & Döring, 2002). Tests mit geringer
Reliabilität beinhalten mehr Messfehler und demzufolge höhere Standardmessfehler als Testverfahren mit hoher Reliabilität. Daraus resultieren für Tests mit geringeren Reliabilitäten breitere Konfidenzintervalle, die den wahren Wert umgeben. Damit gilt die Reliabilität als das Varianzverhältnis zwischen wahren und beobachteten Werten (Bühner, 2004). Im Allgemeinen
gelten erst Reliabilitäten ab .80 als ausreichend. Daher wird davon abgeraten, Tests mit Reliabilitäten unter .80 für wichtige Screening- oder Diagnose-Entscheidungen zu verwenden (Flanagan & Kaufman, 2004).
Die Reliabilitäten des HAWIK-III und -IV wurden nach der Testhalbierungsmethode bestimmt
und nach Spearman-Brown korrigiert.
Die Reliabilitäten des HAWIK-III und HAWIK-IV (siehe Tabelle 4.7) erweisen sich auf Ebene der
Index-Werte und des Gesamt-IQ als fast identisch. Auf Ebene der Untertests sind jedoch teilweise größere Abweichungen zu verzeichnen.
Tabelle 4.7: Reliabilitäten der Untertests, Indizes und des Gesamt-IQ des HAWIK-III und -IV
Untertest/Index HAWIK-III HAWIK-IV
MT
.88
.85
GF
.80
.87
ZN
.88
.84
ZST
.85
.85
WT
.88
.90
AV
.81
.81
SS/SYS
.79
.79
BE
.74
.83
AW
.85
.85
RD
.84
.89
SV/SV
.94
.94
WO/WLD
.90
.93
UA/AGD
.89
.92
AG/VG
.87
.87
V-IQ/SV
.95
.94
H-IQ/WLD
.91
.93
Gesamt-IQ
.96
.97
Anmerkungen: Reliabilitäten mit einer Differenz von ≥ .05 sind grau hervorgehoben. Es werden
nur die Reliabilitäten der Untertests dargestellt, die in beiden Testversionen vorhanden sind.
Abkürzungen siehe Anhang A5 und A6.
Als Untertest mit der am meisten voneinander abweichenden Reliabilität stellt sich das Bilder
ergänzen4 dar, gefolgt vom Gemeinsamkeiten finden.
4
Bezieht sich die Untertestbezeichnung nicht eindeutig auf den Untertest einer bestimmten Testversion
wird die Schreibweise des HAWIK-IV verwendet.
Kapitel 4
Die Wechsler-Skalen
55
Auch wenn sich die Reliabilitäten der Untertests Zahlen-Symbol-Test und Symbol-Suche als
identisch erweisen, kann nicht von einer vergleichbaren Reliabilität ausgegangen werden, da
sie auf unterschiedliche Arten berechnet wurden. Im HAWIK-III wurden sie getrennt für Form A
und B an zwei Altersgruppen von jeweils 75 Kindern geschätzt. Dabei wurde die Anzahl der
richtigen Lösungen der ersten 60 Sekunden mit der Anzahl der richtigen Lösungen der zweiten
60 Sekunden korreliert. Auf die Berechnung der Reliabilitäten nach der Testwiederholungsmethode wurde mit dem Hinweis auf die Ergebnisse der WISC-III verzichtet (Tewes et al., 2002).
Im HAWIK-IV wurde dagegen für die Untertests des Index VG die Retest-Reliabilität bestimmt.
Dabei stellt der Koeffizient die Korrelation zwischen den Werten der ersten und der zweiten
Testung von 103 Kindern aus drei Altersstufen dar, korrigiert um die Varianz der Normierungsstichprobe.
In den Untertests des Verbalteils im HAWIK-III zeigten sich mit .80 bis .88 höhere Reliabilitäten
als in den Untertests des Handlungsteils mit Werten zwischen .68 und .88. Neben dem in dieser Studie nicht berücksichtigten Labyrinth-Test weist Figurenlegen mit .69 die niedrigste Reliabilität auf. Die Indizes beinhalten mit Reliabilitäten von.87 bis .94 und die drei übergeordneten IQ-Werte mit .91 bis .96 höhere Reliabilitäten als die Untertests.
Auch im HAWIK-IV fallen die Reliabilitäten der Untertests (.76 bis .91) insgesamt niedriger aus
als die Reliabilitäten der Index-Werte (.87 bis .94) und des Gesamt-IQ (.97). Dies kann damit
begründet werden, dass die Reliabilitätswerte generell höher ausfallen, je mehr Werte in die
Berechnung einfließen.
4.4.3 Validität
Die Überprüfung der Validität (oder Validierung) soll Aufschluss darüber erbringen, welche
Aspekte des Verhaltens vom jeweiligen Instrument erfasst werden und welche Prognosen mit
ihm möglich sind (Lienert & Raatz, 1998). Nur mit einer hohen Validität kann es möglich sein,
einen Test gezielt einzusetzen und sinnvoll zu interpretieren (Holling et al., 2004). Im Folgenden wird nur auf die für diese Vergleichsstudie relevanten Validitätsaspekte eingegangen.
4.4.3.1 Nachweis der internen Struktur
Die Überprüfung der internen Struktur gibt den Grad an, in dem die Beziehungen unter Testaufgaben und Testkomponenten zu dem Konstrukt passen, auf dem die vorgeschlagenen Testinterpretationen basieren (Standards for educational and psychological testing, AERA, APA &
NCME, 1999). Interne Validität ist demnach dann gegeben, wenn das Testergebnis den Annahmen entspricht, die vorher aufgestellt wurden.
Kapitel 4
Die Wechsler-Skalen
56
Die interne Struktur wird mit Hilfe von Faktorenanalysen überprüft. Auch in dieser Studie soll
untersucht werden, inwieweit sich die Faktoren, die die beiden Testverfahren zu messen vorgeben, in den vorliegenden Daten wiederfinden lassen.
Die Werte der mit den Normierungsdaten der WISC-IV durchgeführten exploratorischen Faktorenanalyse können Tabelle 4.8 entnommen werden.
Tabelle 4.8: Exploratorische Faktorenanalyse für alle 15 WISC-IV Untertests (gesamte Normierungsstichprobe, n = 1525) (modifiziert nach Wechsler, 2003b).
Faktor
Untertest
SV
WLD
AGD
VG
WT
.87
-.05
.06
.00
AV
.78
-.13
.06
.07
BEN
.73
.09
-.07
-.01
GF
.71
.13
.02
-.02
AW
.71
.08
.11
-.06
MT
-.06
.78
.04
-.02
MZ
-.03
.64
.19
-.04
BE
.32
.60
-.26
.02
BK
.16
.40
.06
.02
ZN
.00
-.03
.67
-.05
BZF
.11
-.04
.62
.00
RD
.14
.18
.51
.03
ZST
-.02
.01
.05
.70
DT
.01
-.09
-.11
.65
SYS
.01
.17
.08
.54
Anmerkungen: Sortiert nach Index und nach Höhe der Faktorladungen. Abkürzungen siehe
Anhang A5 und A6.
Faktorenanalysen des HAWIK-III: Zur Prüfung, inwieweit dem HAWIK-III eine ähnliche Faktorenstruktur zugrunde liegt wie der WISC-III, deren Struktur anhand von Faktorenanalysen bestätigt werden konnte (Näheres dazu siehe Blaha & Wallbrown, 1996; Keith & Witta, 1997;
Konold, Kush & Canivez, 1997; Sattler, 2001), wurden Faktorenanalysen auf Basis der Normierungsstichprobe für vier separate Altersgruppen und die Gesamtstichprobe durchgeführt (Tewes et al., 2002). Die Berechnungen erfolgten nach der Maximum-Likelihood-Methode mit
Varimax-Rotation. Zur Überprüfung der Aufteilung in Verbal- und Handlungsteil wurde zunächst eine Faktorenanalyse für eine Zweifaktorenlösung berechnet. Auf der Basis der Gesamtstichprobe zeigten sich bei allen Untertests des Verbalteils hohe Ladungen auf dem ersten
Faktor, mit Ausnahme des Zahlennachsprechens, das - ebenso wie die Untertests des Handlungsteils - eine etwas höhere Ladung auf dem zweiten Faktor aufwies. Rechnerisches Denken
lud ebenso wie das Zahlennachsprechen annähernd gleich hoch auf beiden Faktoren. Die Untersuchung der Vier-Faktoren-Struktur auf Index-Ebene wurde für verschiedene Altersgruppen
sowie die Gesamtstichprobe mit unterschiedlichen Abbruchkriterien berechnet, wodurch sich
die Faktorenanzahl und die Faktorenstruktur veränderten. Unter Beschränkung der Extraktion
auf Faktoren mit Eigenwerten von >1, ergaben sich für die Gesamtstichprobe drei Faktoren
Kapitel 4
Die Wechsler-Skalen
57
(SV, WO und AG). Der Index UA zeigte jedoch einen Eigenwert von deutlich unter 1.0. Auch
wenn die Autoren des HAWIK-III die Ergebnisse mit Abstrichen als empirische Bestätigung für
die vier Faktoren ansahen, wurde die Interpretation der Testergebnisse auf Index-Ebene vielfach kritisiert. So konnte nachgewiesen werden, dass insbesondere der Faktor UA nicht explizit
Ablenkbarkeit oder Hyperaktivität erfasst, auch wenn er sehr häufig in dieser Weise und als
Hinweis auf ADHS interpretiert wurde (Naglieri & Paolitto, 2005; Zhu et al., 2004).
Faktorenanalysen des HAWIK-IV: Die von den Testentwicklern vorgegebene Zuordnung der
Untertests zu den vier Indizes konnte auf der Basis der deutschsprachigen Normierungsstichprobe faktorenanalytisch sowohl für die zehn Kerntests als auch für alle 15 Untertests bestätigt
werden (Petermann & Petermann, 2008a, siehe Tabelle 4.9).
Tabelle 4.9: Exploratorische Faktorenanalyse für alle 15 Untertests des HAWIK-IV (gesamte
Normierungsstichprobe, n = 1650) (modifiziert nach Petermann & Petermann, 2008a, S. 133).
Faktor
Untertest
SV
WLD
AGD
VG
WT
.67
.09
.17
.09
GF
.62
.23
.09
.08
AV
.61
.13
.11
.17
BEN
.60
.10
.15
.14
AW
.58
.16
.21
.08
BE
.20
.58
.06
.10
MT
.09
.55
.10
.20
MZ
.03
.53
.26
.12
BK
.13
.51
.17
.04
ZN
.06
.00
.69
.09
BZF
.05
.12
.69
.06
RD
.13
.26
.55
.06
SYS
.06
-.03
.04
.82
ZST
-.01
.08
.05
.76
DT
.09
.19
.10
.48
Anmerkungen: Sortiert nach Index und nach Höhe der Faktorladungen. Abkürzungen siehe
Anhang A5 und A6.
4.4.3.2 Konstruktvalidität
Die Konstruktvalidität spiegelt die Aussagekraft eines Testwerts als Messung des Ausprägungsgrades der interessierenden psychologischen Eigenschaft wider (Häcker et al., 1998). Ein Test
ist demnach konstruktvalide, wenn aus dem zu erfassenden Zielkonstrukt Hypothesen ableitbar sind, die anhand der Testwerte bestätigt werden können (Bortz & Döring, 2002). Sie beschreibt ein Gesamtbild der Validität, das sich beispielsweise aus dem Nachweis des dem Test
zu Grunde liegenden Modells (z. B. durch Prüfung von Strukturannahmen) oder aus anderen
Bestandteilen wie der diskriminanten und der konvergenten Validität eines Tests ergibt. Die
konvergente Validität setzt hohe Korrelationen der Messdaten von Testverfahren voraus, die
dasselbe Konstrukt abbilden. Eine hohe diskriminante Validität liegt hingegen dann vor, wenn
ein Test zu anderen Tests, die andere Konstrukte abbilden, niedrige Zusammenhänge aufweist.
Kapitel 4
Die Wechsler-Skalen
58
Zur Untersuchung der diskriminanten und konvergenten Validität der WISC- bzw. HAWIKVersionen werden in einer Multitrait-Multimethod-Matrix die Interkorrelationen der Untertests angegeben. Dabei wird zum einen davon ausgegangen, dass die Untertests untereinander
zumindest niedrige bis mittlere Korrelationen aufweisen, da sie dem allgemeinen Intelligenzfaktor g unterliegen. Zweitens werden hohe Interkorrelationen der Untertests erwartet, die zu
einem Index gehören, während bei den Untertests unterschiedlicher Indizes niedrige Interkorrelationen erwartet werden. Drittens zeigen in bisherigen Studien einige Untertests höhere
Korrelationen mit g als andere Untertests (Keith et al., 2006; Sattler, 2001; Wechsler, 2003b).
Aus diesem Grund ist in den Untertests eine relativ hohe Interkorrelation zu erwarten, die
hoch auf g laden. Diese Hypothesen konnten für sämtliche Wechsler-Skalen bestätigt werden
(für Ausführlicheres soll an dieser Stelle auf die entsprechenden Testmanuale verwiesen werden).
4.4.4 Normen des HAWIK-III und HAWIK-IV
Das Manual des HAWIK-III bietet Testnormen und Umrechnungstabellen für die Altersspanne
von 6;0 bis 16;11 Jahren in Vier-Monats-Intervallen für 33 Altersgruppen mit insgesamt 1 570
Kindern und Jugendlichen. Die Normierung des HAWIK-III erfolgte von 1995 bis 1998 in
Deutschland, Österreich und der deutschsprachigen Schweiz. Auswahl und bildungsspezifische
Zuordnung der Kinder erfolgte nach Angaben des deutschen Statistischen Jahrbuchs (Näheres
dazu siehe Tewes et al., 2002).
Die Normierungsstichprobe des HAWIK-IV, die zwischen März 2005 und Mai 2006 in Deutschland, Österreich und der deutschsprachigen Schweiz erhoben wurde, beinhaltet die Daten von
1 650 Kindern und Jugendlichen im Alter von 6;0 bis 16;11 Jahren, (unter Bezug auf Angaben
des Statistischen Bundesamtes der BRD) geschichtet nach Merkmalen wie Region, Schulform
und Schulabschluss der Eltern. Wie im HAWIK-III wurden die Normtabellen in Vier-MonatsIntervalle unterteilt.
4.4.5 Boden- und Deckeneffekte
Boden- und Deckeneffekte beeinträchtigen die Beurteilung der wahren Fähigkeiten einer Person durch den Test. Sie führen zu einer niedrigeren Reliabilität und somit zu einem größeren
Messfehler. Beinhaltet ein Test zu wenige sehr leichte und sehr schwierige Aufgaben, kann an
den Randbereichen nicht ausreichend differenziert werden. Da die Skala beispielsweise bei
den Wechsler-Skalen auf die Wertpunkte 1 bis 19 festgelegt wurde, kann in einem Untertest
nicht mehr als drei Standardabweichungen (9 Punkte) vom Mittelwert abgewichen werden.
Aufgrund von Boden- und Deckeneffekten sind einige Testverfahren nicht ausreichend zur
Diagnose von Hoch- oder Minderbegabung geeignet, da aufgrund der Normalverteilung nur
wenige Personen an den Randbereichen getestet wurden und diese somit durch zu wenige
Kapitel 4
Die Wechsler-Skalen
59
leichte und schwierige Aufgaben nicht ausreichend Ergebnisvarianz aufweisen (Preckel, 2003).
Die beste Differenzierung findet sich für alle Altersstufen im mittleren Leistungsbereich.
Zwar wurde der WISC-III eine recht gute Differenzierung im oberen Bereich zuerkannt (Kaufman, 1992), bei Hochbegabten galt dies allerdings nur im Altersbereich 6 bis 14 Jahre. Auch
der HAWIK-III unterscheidet in den extremen Leistungsbereichen nicht in allen Altersgruppen
gleichermaßen hochwertig (Daseking & Petermann, 2004). Die Testautoren weisen auf das
Problem mangelhafter Differenzierung bei geistig retardierten Kindern am unteren (Bodeneffekt) und hochbegabten Jugendlichen am oberen Altersrand (Deckeneffekt) hin (Tewes et al.,
2002). Andere Autoren beschreiben ebenfalls die Problematik des Deckeneffektes bei Hochbegabten im HAWIK-III (Bründler et al., 2007; Preusche & Leiss, 2003; Sparrow & Gurland, 1998).
Den Untertests der WISC-IV werden dagegen gute Differenzierungsmöglichkeiten im oberen
und unteren Leistungsbereich attestiert (Flanagan & Kaufman, 2004). Um eine adäquate Abdeckung eines weiten Bereiches kognitiver Fähigkeiten sicherzustellen, wurden sowohl leichtere
als auch schwierigere Aufgaben hinzugefügt (z. B. vier Bildaufgaben zum Wortschatz-Test und
15 zusätzliche Aufgaben zur Symbol-Suche-B). Damit sollen nun für sämtliche Kerntests über
alle Altersstufen hinweg Standardwerte bis zu drei SD über dem Mittelwert vorgesehen sein.
Nach den Autoren des HAWIK-IV reicht dessen Differenzierung von sechsjährigen Kindern mit
moderater geistiger Entwicklungsverzögerung bis zu 16-jährigen Kindern mit intellektueller
Hochbegabung (Petermann & Petermann, 2008a). Dafür wurden sowohl Kinder in die Normierung miteinbezogen, die nach den Kriterien des ICD-10 die Diagnose einer leichten oder mittelgradigen geistigen Behinderung erhielten als auch Kinder mit einer diagnostizierten intellektuellen Hochbegabung. Auch Renner (2008) attestiert dem HAWIK-IV kaum Boden- und Deckeneffekte und sieht somit eine deutliche Verbesserung zum HAWIK-III hinsichtlich der Differenzierung in den Extrembereichen.
Innerhalb der fünf optionalen Untertests zeigt in der WISC-IV nur das Word Reasoning (entspricht dem Begriffe erkennen) einen leichten Deckeneffekt ab dem Alter 14. Im HAWIK-IV
weist lediglich das Begriffe erkennen und Bilder ergänzen bei Kindern von 16 Jahren einen
leichten Deckeneffekt auf. Da es sich dabei jedoch nur um optionale Untertests handelt, kann
bei der WISC-IV ebenso wie beim HAWIK-IV von einer guten Differenzierung im oberen Randbereich ausgegangen werden, was ihn zu einem der geeignetsten Intelligenztests für Hochbegabte macht (Sparrow, Pfeiffer & Newman, 2005).
4.5
Die Bewertung der Wechsler-Skalen
Die Kritik an den Wechsler-Skalen lässt sich in verschiedene Kategorien einteilen.
Kapitel 4
Die Wechsler-Skalen
60
4.5.1 Fehlende theoretische Bindung
Obwohl überwältigende Nachweise für die klinische Relevanz der Wechsler-Skalen geliefert
werden konnten, wurde immer wieder das Fehlen eines expliziten zu Grunde liegenden theoretischen Konzepts moniert (z. B. Beres, Kaufman & Perlman, 2000; Esters, Ittenbach & Han,
1997). So bezeichnen Esters et al. (1997) die WISC-III als Arbeitstier der IQ-Tests, mit dem zwar
viel untersucht werde, jedoch nichts hinsichtlich einer vertretbaren theoretischen Grundlage.
Die Tradition der Wechsler-Skalen ebenso wie ihr Marktanteil ständen sogar einem entsprechenden wissenschaftlichen Fortschritt im Wege. „One wonders how much longer it will be
before tradition and market share give way to the new and improved science of psychological
assessment“ (S. 214). Vor allem den Versionen bis zur WISC-III wurde mangelnde Anpassung
an den Stand der Forschung vorgeworfen. Kamphaus (1993) fasste zusammen: „The WechslerIII`s history is also its greatest liability. Much has been learned about children`s cognitive development since the conceptualization of the Wechsler scales, and yet few of these findings
have been incorporated into revisions” (S. 156).
Nach Sternberg (1993, zitiert nach Prifitera, 1994) sind neuere Intelligenztests, die auf aktuellen Theorien basieren, jedoch entweder nicht verfügbar oder weisen nur eingeschränkte Gütekriterien auf, weshalb die herkömmlichen Intelligenztests so populär blieben. Außerdem würden seiner Meinung nach Teile der WISC-III tatsächlich relativ zuverlässig solche Konstrukte
erfassen, die auf aktuellen Intelligenztheorien basieren (siehe Kapitel 3). Trotzdem werden die
Wechsler-Skalen immer wieder mit dem Vorwurf konfrontiert, die Interpretation der Testergebnisse bleibe weitgehend der Intuition der Diagnostiker überlassen, da ihnen kein theoretisches, empirisch erprobtes Modell zugrundeliege (Holling et al., 2004). McFie (1975) behauptet
sogar, es sei nur ein glücklicher Zufall, dass viele der Wechsler-Untertests neurologische Relevanz zeigten.
Carroll (1993) bewertete die Wechsler-Skalen im Zuge seiner faktorenanalytischen Studien wie
folgt: „Presently available technology would permit the development of tests and scales that
would be much more adequate for their purpose than the Wechsler scales” (S. 702). Nach Zhu
und Weiss (2005), die an der Entwicklung der WISC-IV beteiligt waren, schlagen die neuen
Versionen der Wechsler-Skalen ebenso wie ihre Vorgänger hingegen eine Brücke zwischen den
Ideen verschiedener Intelligenztheorien. So sei behutsam dafür gesorgt worden, Fortschritte in
den theoretischen und praktischen Grundlagen aus der kognitiven Diagnostik im Test widerzuspiegeln. Für Zhu und Weiss seien die modernen Wechsler-Skalen anders als ihre Vorgänger
klar von aktueller klinischer Forschung und theoretischen Entwicklungen geleitet. So sei zum
Beispiel mehr Wert auf die Erfassung fluiden Denkens gelegt worden, nachdem diese Fähigkeit
in vielen Theorien als wichtiger kognitiver Funktionsbereich betont wurde (u. a. Carroll, 1993,
2005).
Kapitel 4
Die Wechsler-Skalen
61
Auch wenn den Wechsler-Skalen im Nachhinein immer wieder ein theoretisches Konzept zu
Grunde gelegt wurde, geben die Autoren der Testmanuale weiterhin eher pragmatische Gründe (wie langjährige klinische Erfahrungen) als Entwicklungsgrundlage an. Durch die indes engere Anbindungen an die Theorie halten Flanagan und Kaufman (2004) die WISC-IV für die bedeutsamste Neuauflage der Wechsler-Skalen. Dennoch scheiterten die Wechsler-Skalen für
Flanagan et al. (Flanagan & Kaufman, 2004; Flanagan et al., 2000) trotz allen Lobes darin, mit
der aktuellen Intelligenzforschung Schritt zu halten. Für sie sei eine aussagekräftige Interpretation der Wechsler-Skalen nur möglich, wenn aktuelle Theorien, Forschungsergebnisse und
Messprinzipien integriert würden. Klinisches Urteil und klinische Erfahrung seien allein nicht
ausreichend, um auf sie vertretbare Interpretationen zu gründen. Deshalb bieten Flanagan et
al. alternative theoretisch schlüssige und statistisch nachvollziehbare Interpretationsmöglichkeiten für die Wechsler-Tests an, basierend auf aktuellen Intelligenztheorien wie der Gf-GcTheorie (Flanagan et al., 2000) oder dem CHC-Modell (Flanagan & Kaufman, 2004).
Für Zhu et al. (2004) sei es jedoch schwer zu glauben, dass Wechsler so viele verschiedene
Skalen entwickeln konnte, die ihre klinische Relevanz nachgewiesen haben, ohne ein ihnen
zugrunde liegendes tiefes Verständnis für die Natur der Intelligenz und ohne dass Wechsler bei
der Entwicklung seiner Skalen von verschiedenen Intelligenztheorien geleitet worden sei. Bei
genauerer Betrachtung seiner Publikationen und Testmanuale zeige sich bei der Entwicklung
jeder seiner Testversionen eine stillschweigende Basierung auf den zu der jeweiligen Zeit aktuellen Theorien (Zhu & Weiss, 2005). Für eine theoretische Fundierung der Wechsler-Tests
spricht die Einbindung gleicher oder ähnlicher Untertests in andere aktuelle Intelligenztests
wie dem Woodcock-Johnson III (WJ-III), der ausdrücklich auf der CHC-Theorie basiert (Woodcock et al., 2001).
4.5.2 Profilanalysen
Eine Besonderheit der Wechsler-Skalen ergibt sich aus der Möglichkeit der Berechnung von
Profilanalysen. Sie ermöglichen eine Interpretation des Tests mit Hilfe der Untertestergebnisse. Für Kritiker ist der Gebrauch solcher Analysen jedoch eingeschränkt, da die Untertests möglicherweise keine Fähigkeiten erfassen, die spezifisch genug seien, um ihre Interpretation zu
rechtfertigen (Prifitera, 1994). Studien ergaben zudem eine deutlich höhere Varianzaufklärung
durch den allgemeinen Intelligenzfaktor als durch die Indizes und Untertests. Somit könne die
Interpretation der Wechsler-Skalen auf Profil-Ebene zu Fehlinterpretationen führen (Glutting,
McDermott & Konold, 1997; McDermott et al., 1990; Watkins, 2006; Watkins & Kush, 1994;
Watkins et al., 2006). Ein weiterer Kritikpunkt an Profilanalysen gründet sich auf Untersuchungsergebnisse, die subtest-basierte Stärken und Schwächen als zeitlich instabil und somit
nicht reliabel aufwiesen. Daher sollten Empfehlungen auf dieser Grundlage ebenfalls nicht als
Kapitel 4
Die Wechsler-Skalen
62
reliabel gelten (Watkins & Canivez, 2004). Auch die American Educational Research Association
(AERA, 1999) spricht sich gegen den Gebrauch von Profilanalysen aus. Da die Erfassung der
allgemeinen Intelligenz eine höhere Vorhersagekraft auf berufliche Leistungen und allgemeines psychisches Wohlbefinden habe als abgegrenzte Teilbereiche der Intelligenz, sei es ökonomisch sinnvoller, die Intelligenz in ihrer Gesamtheit zu erheben. Zwar könne die Erhebung
von Teilleistungsbereichen diagnostisch sinnvoll sein, jedoch führten diese Messungen in der
Praxis nicht zwangsweise zu klinisch wertvollen Informationen (Zachary, 1990). Flanagan und
Kaufman (2004) sehen ebenfalls einen Trend hin zu „anti-profile research and writing“ (S. 1).
Andererseits halten viele Kliniker gerade die Unterschiedlichkeit der Untertests für sehr nützlich bei der Diagnosestellung. Gerade Kaufman (1994a) war einer derjenigen, der die Profilanalyse für die WISC-III vorschlug. Da kognitive Teilleistungen eng miteinander verknüpft seien,
könnten sie auch nicht isoliert abgerufen werden. Aus diesem Grund sei es sinnvoll, Untertests
zu verwenden, die verschiedene kognitive Fähigkeiten erfassten (Zhu et al., 2004). Donders
(1996) hingegen schlägt vor, ein Testprofil eher auf Index- als auf Untertestebene zu betrachten, da die Reliabilität der Indizes höher ausfällt als die der Untertests. Einige Forscher sahen
durch ihre Studien an klinischen Populationen (u. a. Kindern mit ADHS, Lernstörungen oder
traumatischen Gehirnverletzungen) mit den jeweils aktuellen Wechsler-Tests den Vorteil der
Interpretation auf Index- statt Gesamt-IQ-Ebene als ausreichend erwiesen an (Fiorello et al.,
2007; Fiorello, Hale, McGrath, Ryan & Quinn, 2001; Hale et al., 2001).
Gerade im Hinblick auf klinische Störungsbilder gelten Profilanalysen als sinnvoll (GrothMarnat, 1997; Mayes & Calhoun, 2004; Sattler, 2001). In einer Umfrage gaben 89 % der befragten Testanwender an, die Profilanalyse zu verwenden, 70 % der Befragten zählten sie sogar
zu den wichtigsten Merkmalen der Wechsler-Skalen (Pfeiffer, Reddy, Kletzel, Schmelzer &
Boyer, 2000; Titze & Tewes, 1994). Vor allem bei Diagnosestellungen und schulischen Platzierungsentscheidungen wurden sie als sehr nützlich eingestuft. Im schulpsychologischen Bereich
wird die Profilanalyse zudem als geeignetes Mittel angesehen, um unterschiedliche Aspekte in
der Lese- und Rechenleistung von Kindern zu verstehen (McGrew et al., 1997). Zur Diagnose
geistiger Behinderungen wird die Profilanalyse vom Diagnostischen und Statistischen Manual
psychischer Störungen (DSM-IV-TR, Saß, Wittchen, Zaudig & Houben, 2003) überdies sogar
explizit empfohlen. Petermann und Petermann (2008b) empfehlen, die Analyse individueller
Stärken und Schwächen mit Hilfe des HAWIK-IV im Rahmen der Therapieplanung zu berücksichtigen.
Die unterschiedlichen Ansichten zum Gebrauch von Profilanalysen hängen eng mit der Vorstellung vom Vorhandensein eines g-Faktors zusammen (siehe Kapitel 3.6). Die Befürworter von
Profilanalysen (z. B. Flanagan & Kaufman, 2004) widersprechen dem g-Faktor (hier in Form des
Kapitel 4
Die Wechsler-Skalen
63
Gesamt-IQ), während die Kritiker der Profilanalysen (z. B. Jensen, 1998; Watkins & Canivez,
2004) von der Existenz eines g-Faktors ausgehen.
4.5.3 Weitere Kritikpunkte
Nach Prifitera (1994) bemängeln vor allem Schulpsychologen die unzureichende Validität der
Wechsler-Skalen hinsichtlich der Hinweise auf Interventionsansätze. Sie seien nicht dafür geeignet Interventionsstrategien zu entwickeln. Dieser Vorwurf entbehrt jedoch jeglicher Grundlage, da Intelligenztests schon im Allgemeinen nicht als geeignet gelten, Diagnosen und somit
auch Behandlungsstrategien aus ihnen abzuleiten (Daseking et al., 2007) und auch nicht dafür
konzipiert wurden. Darauf verweist auch Wechsler (1997, 2003a, 2003b) in seinen Testmanualen. Für ihn leisten seine Tests einen Beitrag zur Diagnosestellung und damit auch zur Ableitung von Interventionsstrategien, dies sei jedoch nur in Verbindung mit anderen Testverfahren
und der Erhebung zusätzlicher Informationen durch Verhaltensbeobachtung oder die Anamnese der medizinischen und psychosozialen Vorgeschichte sinnvoll (siehe auch Donders, 1996).
Nach Kamphaus (2005) seien die Wechsler-Tests für junge Kinder wenig interessant gestaltet.
Die meisten Untertests (so beispielsweise das Allgemeine Verständnis) seien nur Abwandlungen der Skalen für Erwachsene (WAIS bzw. WIE) und für junge Kinder zu lang.
Zu Wechslers Kritikern zählt auch Frank. In seinem Buch The Wechsler Enterprise (1983) spricht
er den seinerzeit aktuellen Wechsler-Skalen Verbesserungen gegenüber den Binet-Skalen hinsichtlich der Erhebung differenzierter kognitiver Leistungen verschiedener psychiatrischer Patiententypen ab und stellt somit ihren klinischen Nutzen in Frage. Untertests würde nicht einzelne, sondern mehrere kognitive Funktionen gleichzeitig abbilden und die Wechsler-Tests
erfassten insgesamt nur drei der neun kognitiven Faktoren, die nach Thurstone Intelligenz
ausmachten (siehe Kapitel 3.2). Frank (1983) vergleicht die Wechsler-Skalen mit Dinosauriern:
„Too large, cumbersome and illfitted and awkward in the age in which they developed, unable
to remain viable in a psychometric age which has passed it by in conceptualization” (S. 126).
Sieht Frank 1983 die Wechsler-Skalen somit als zum Aussterben verurteilt an, muss allerdings
bedacht werden, dass die Studien, auf die er sein Urteil stützt, nur auf die älteren Testversionen Bezug nehmen und mittlerweile veraltet sind. So spricht er beispielsweise von Studien, die
ergeben hätten, die Wechsler-Skalen seien keine guten Prädiktoren für Schulleistung, was
neuere Studien jedoch widerlegen (siehe Freberg, Vandiver, Watkins & Canivez, 2008; Tewes
et al., 2002; Watkins, Lei & Canivez, 2007).
4.5.4 Abschließende Betrachtung der Wechsler-Skalen
Wie viele andere Autoren sieht auch Kaufman (1993) die Wechsler-Skalen als die am besten
standardisierten Intelligenztestverfahren an. Sie seien leicht anzuwenden, besäßen gute psy-
Kapitel 4
Die Wechsler-Skalen
64
chometrische Gütekriterien und wiesen Interpretationsansätze auf, die bekannt seien und in
den meisten psychologischen Ausbildungsprogrammen gelehrt werden. Die Gültigkeit der
Wechsler-Skalen wurde außerdem durch die hohe Korrelation mit anderen Messinstrumenten
zur Erfassung kognitiver Fähigkeiten bestätigt (Wechsler, 2003b; Zhu & Weiss, 2005). Matarazzo postuliert im Vorwort des WISC-IV-Manuals (Wechsler, 2003a), dass Revisionen sämtlicher
Wechsler-Skalen aktuelle psychometrische Standards charakterisieren. Für ihn übertreffen
diese Standards die anderer psychologischer Testverfahren.
Ein weiterer positiver Aspekt besteht in der Vielzahl von Veröffentlichungen über die Wechsler-Skalen, die zur praktischen Anwendbarkeit beigetragen haben (Prifitera, 1994). So unterstützen mehr als 60 Jahre Forschung und Anwendung den praktischen und klinischen Nutzen
der Wechsler-Skalen bei vielen Fragestellungen, wie der Diagnostik geistiger Behinderung und
Lernstörungen sowie bei klinischen Interventionen (Beres et al., 2000; Zhu et al., 2004).
Zhu et al. (Zhu & Weiss, 2005; Zhu et al., 2004) bezeichnen die Wechsler-Skalen als die am
meisten untersuchten Erhebungsinstrumente. Es steht eine immens große Anzahl an Veröffentlichungen bereit, die sich mit dem klinischen Nutzen und den psychometrischen Eigenschaften der Skalen beschäftigen. Für viele Psychologen ist die Langlebigkeit und die häufige
Anwendung der Wechsler-Skalen Zeugnis dafür, dass Wechsler richtige und präzise Vorstellungen der praktischen Bedürfnisse von Klinikern besaß, die Intelligenzdiagnostik betreiben
(Kamphaus, 2005; Zachary, 1990).
So stehen die Wechsler-Skalen trotz all der Kritik und der Innovationen anderer neuer oder
revidierter Intelligenztests nach Flanagan und Kaufman (2004) weiterhin unangefochten an
erster Stelle. Auch die Kritiker Wechslers erkennen den großen Einfluss an, den sie auf die Erforschung menschlicher Intelligenz und der Struktur kognitiver Fähigkeiten ausgeübt haben
und weiterhin ausüben. So zollen McDermott und seine Kollegen (1990) trotz ihrer Kritik am
Umgang mit Profilanalysen dem Großteil vom Erbe Wechslers ihren Respekt.
4.6 Bewertung der WISC-IV
Die wichtigsten Ziele bei der Entwicklung der WISC-IV waren die Aktualisierung der theoretischen Grundlagen, die Anpassung an den Entwicklungsstand der Kinder, die Verbesserung der
psychometrischen Eigenschaften (siehe Kapitel 4.4) und die Steigerung der Anwenderfreundlichkeit.
4.6.1 Aktualisierung der theoretischen Grundlagen
Die WISC-IV gilt als die erste WISC-Version, die grundlegende Verbesserungen gegenüber seinen Vorgängern aufweisen kann (Flanagan & Kaufman, 2004). Dies wird vor allem auf die nä-
Kapitel 4
Die Wechsler-Skalen
65
here Anlehnung an theoretische Intelligenzmodelle zurückgeführt (Kaufman et al., 2006). Im
Gegensatz zu ihren Vorgängern stellt die WISC-IV ein gutes Messinstrument für die theorieund forschungsbasierten Konstrukte fluides Denken und Arbeitsgedächtnis dar, während die
Bereiche Visualisierung und Antwortgeschwindigkeit weniger betont werden. Auch die Autoren der KABC-II kamen anhand von Korrelationsstudien zwischen der KABC-II und der WISC-III
bzw. WISC-IV zu dem Ergebnis, dass beide Wechsler-Versionen unterschiedliche Konstrukte
erfassen (Kaufman & Kaufman, 2004, mehr zu den Unterschieden beider Versionen siehe Kapitel 4.7). Für sie bilden der Handlungsteil und der WO der WISC-III eher visuelle Prozesse ab,
während der WLD der WISC-IV hoch mit den KABC-II-Untertests zur Messung des fluiden Denkens korreliert (siehe Kapitel 5.1).
Trotzdem werfen Kaufman et al. (2006) der WISC-IV weiterhin vor, sie basiere als einziges aktuelles Intelligenztestverfahren der letzten Jahre nicht explizit auf einer Intelligenztheorie wie
beispielsweise der CHC-Theorie: „This fact alone demonstrates that the inertia of tradition
plays a more powerful role in the revisions of the Wechsler scales than does adherence to contemporary theory and research“ (S. 293).
Die Aktualisierung aufgrund der Berücksichtigung der kontemporären theoretischen Grundlagen zeigt sich in einer neuen Teststruktur sowie der Betonung der kognitiven Fähigkeitsbereiche fluides Denken, Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit.
Teststruktur: Als Verbesserung gegenüber der WISC-III gilt die Aufteilung in eine VierFaktoren-Struktur (siehe Kapitel 4.3), die für Flanagan und Kaufman (2004) eine umfassendere
Repräsentation der allgemeinen intellektuellen Fähigkeiten bietet. Nach Zhu und Weiss (2005)
repräsentieren die vier Indizes die Funktionsweise eines Menschen genauer als ein Verbal- und
Handlungsteil. Somit hätten Kliniker verbesserte Möglichkeiten zur Evaluation spezifischer
Aspekte dieser Funktionsweise. Die Auflösung der Unterteilung in Verbal- und Handlungsteil
gilt auch als die größte Abweichung von der Wechsler-Tradition, die nach Meinung vieler Kritiker jedoch ohnehin lange überfällig war, da sie die klinische Aussagekraft einer Diskrepanz
zwischen beiden Teilen nie als eindeutig nachgewiesen sahen (siehe u. a. Flanagan & Kaufman,
2004; Kaufman et al., 2006; Riccio, Cohen, Hall & Ross, 1997).
Fluides Denken: Mehrere Theorien und Studien zur kognitiven Funktionsfähigkeit betonen die
Wichtigkeit des fluiden Denkens (Carroll, 2005; Cattell & Horn, 1978; Zhu et al., 2004). Fluide
Intelligenz beinhaltet mentale Operationen oder Problemlösemethoden, die ein Mensch anwenden kann, um relativ neue Aufgaben zu lösen (Flanagan & Kaufman, 2004, siehe auch Kapitel 3.3.1). Aufgaben, die fluides Denken erheben, involvieren den Prozess der „manipulativen
Abstraktionen, Regeln, Verallgemeinerungen und logischen Beziehungen“ (Carroll, 1993, S.
583, Übers. v. Verf.). Sowohl das induktive als auch das deduktive Schlussfolgern werden als
Kapitel 4
Die Wechsler-Skalen
66
basale Aspekte dieses Bereiches angesehen (McGrew & Flanagan, 1998). Aus der Perspektive
der CHC-Theorie weist das fluide Denken die engste Beziehung aller Faktoren des Stratum II
(Carroll, 1993; McGrew & Flanagan, 1998) zum g-Faktor auf (siehe Kapitel 3.6).
An den vorherigen WISC-Versionen wurde die unzureichende Erfassung des fluiden Denkens
kritisiert (Carroll, 1997a). Aus diesem Grund wurden für die WISC-IV mit Matrizen-Test, Bildkonzepte und Begriffe erkennen drei neue Untertests zur Messung des fluiden Denkens entwickelt. Bildkonzepte und Begriffe erkennen wurden von der WPPSI-III adaptiert, Matrizen-Test
wurde der WAIS-III und der WPPSI-III entnommen.
Arbeitsgedächtnis: Eine weitere Neuerung bietet die Einführung des Index AGD. Er geht aus
dem Index UA der WISC-III hervor, der Studien zu Folge nicht als valides psychologisches Konstrukt gesehen werden konnte (Carroll, 1993; Riccio et al., 1997, siehe auch Kapitel 4.4.3.1). Das
Arbeitsgedächtnis bezeichnet die Fähigkeit, aktiv Informationen zu behalten, mit ihnen Operationen durchzuführen oder sie zu manipulieren und damit ein Ergebnis zu erzielen. Es weist
namentlich einen Zusammenhang zu einem viel untersuchten Aspekt exekutiver Funktionen
auf (Flanagan & Kaufman, 2004). Aktuelle Forschung ermittelte das Arbeitsgedächtnis als eine
basale Komponente des fluiden Denkens und anderer kognitiver Prozesse höherer Rangordnung. Heitz, Unsworth und Engle (2005) sehen die durch Aufmerksamkeitsleistungen vermittelte Kapazität des Arbeitsgedächtnisses als einen wichtigen Einflussfaktor auf die fluide Intelligenz. Zudem ist das Arbeitsgedächtnis eng verwandt mit Lernen und Leistung (Fry & Hale,
1996; Perlow, Jattuso & Moore, 1997; Swanson, 1996). Für Conway, Cowan, Bunting, Therriault und Minkoff (2002) könne die Leistungsfähigkeit des Arbeitsgedächtnisses als Grundlage
des g-Faktors angesehen werden. Vor allem die Kurzzeitspeicherung stellte sich als hoch korrelierend mit allgemeiner Intelligenz heraus (Colom, Abad, Quiroga, Shih & Flores-Mendoza,
2008).
In der WISC-IV wurden einige Änderungen zur adäquateren Erfassung des Arbeitsgedächtnisses vorgenommen. Buchstaben-Zahlen-Folgen wurde aus der WAIS-III adaptiert, nach Flanagan
und Kaufman (2004) ein valider Test zur Messung des Arbeitsgedächtnisses. Basierend auf der
Forschung zu unterschiedlichen Anforderungen an das Arbeitsgedächtnis für ZN-V und ZN-R
wurden für diese Aufgabenteile separate Prozesswerte eingeführt. Zur Steigerung der Anforderungen an das Arbeitsgedächtnis sowie zur altersangemesseneren Erfassung des für den
Untertest erforderlichen mathematischen Wissens wurde das Rechnerische Denken überarbeitet. Außerdem wurde es in den Bereich der optionalen Untertests verlegt, was Flanagan und
Kaufman ebenfalls positiv bewerten, da es weiterhin stark mit rechnerischen Fähigkeiten korreliert und somit kein reines Maß des Arbeitsgedächtnisses darstellt. In Studien zur WISC-IV
weist das Rechnerische Denken die höchste g-Ladung auf und erfasst damit als Untertest den
Kapitel 4
Die Wechsler-Skalen
67
höchsten Grad an allgemeiner Intelligenz (Keith et al., 2006). In der WISC-IV liegt das Rechnerische Denken nach den Sprach-Untertests Wortschatz-Test, Allgemeines Wissen und Gemeinsamkeiten finden an vierter Stelle hinsichtlich der Höhe seiner g-Ladung (Flanagan & Kaufman,
2004). Auch bei altersseparater Betrachtung weist das Rechnerische Denken g-Ladungen auf,
die mehr mit denen des Index SV als mit denen des AGD übereinstimmen. Eine aktuelle Studie
zum Vergleich des HAWIK-IV mit dem Gedächtnistest BASIC-MLT (Lepach & Petermann, 2007)
offenbarte Korrelationen von r = .59 bis .66 zwischen dem Gedächtnis-Quotienten des BASICMLT und dem AGD des HAWIK-IV (Lepach, Petermann & Schmidt, 2008).
Verarbeitungsgeschwindigkeit: Die Informationsverarbeitungsgeschwindigkeit weist Zusammenhänge mit verschiedenen mentalen Prozessen, wie dem effizienten Gebrauch des Arbeitsgedächtnisses oder der Leseleistung, auf. Eine angestiegene Verarbeitungsgeschwindigkeit
wird mit Veränderungen in der Intelligenz in Verbindung gebracht (Kail, 2000). Nach Fry und
Hale (2000) steigt sie über die Kindheit hinweg bedeutend an, während die Unterschiede in der
Adoleszenz nur noch graduell ausfallen. Dies wird mit der zunehmenden neuronalen Vernetzung und somit der Hirnreifung in Verbindung gebracht. Die Verarbeitungsgeschwindigkeit
wurde in faktorenanalytischen Studien als wichtige kognitive Funktion identifiziert (Carroll,
1993, 2005; Horn & Noll, 1997), die außerdem relativ hoch mit g korreliert (Neisser et al.,
1996; Neubauer & Knorr, 1998; Sheppard & Vernon, 2007). Daher sind Messungen dieses
Funktionsbereiches in Wechslers Intelligenztests eingebunden.
Als neuer optionaler Untertest für den Index VG wurde der Durchstreich-Test für die WISC-IV
entwickelt. Ähnliche Untertests haben sich bereits im Rahmen der Diagnostik nach Hirnschädigungen bewährt (Donders & Janke, 2008; Janke & Donders, 2008; Prigatano, Gray & Gale,
2008).
Die Beurteilung der Verarbeitungsgeschwindigkeit erweist sich besonders bei Kindern als sinnvoll, da sie mit der Entwicklung anderer kognitiver Fähigkeiten, der neurologischen Entwicklung und dem Lernen zusammenhängt. Klinische Forschungen im Bereich der kognitiven Entwicklungspsychologie lassen ein dynamisches Zusammenspiel zwischen fluidem Denken, Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit vermuten (Calhoun & Mayes, 2005; Carpenter, Just & Shell, 1990; Fry & Hale, 1996, 2000; Kail & Salthouse, 1994; Schatz, Kramer, Ablin & Matthay, 2000).
Die Betonung des fluiden Denkens, des Gedächtnisses und der Geschwindigkeit bei der Messung von Intelligenz bezeichnet Matarazzo im Vorwort des WISC-IV-Manuals (Wechsler, 2003a)
deshalb als wichtig, da herausgefunden wurde, dass sie kognitive Voraussetzungen für das
Lernen darstellen und Intelligenz seiner Meinung nach letztendlich vor allem die Fähigkeit zu
lernen widerspiegelt.
Kapitel 4
Die Wechsler-Skalen
68
Als Schlussfolgerung für diese Studie muss somit festgestellt werden, dass durch die Aktualisierung der theoretischen Grundlagen der HAWIK-III und der HAWIK-IV unterschiedliche kognitive
Fähigkeiten erfassen. Dies kann zu einer Einschränkung der Vergleichbarkeit beider Testversionen führen. Auch die gleichen Untertests beider Versionen erfassen nicht zwangsläufig dieselbe Fähigkeit. So führen die Veränderungen in der Aufgabenvorgabe beim Rechnerischen Denken zu einer Modifikation hinsichtlich der erforderlichen Fähigkeiten (durch die rein mündliche
Vorgabe ist die Anforderung des Arbeitsgedächtnisses gestiegen).
4.6.2 Anpassung an den Entwicklungsstand der Kinder
Für die WISC-IV wurden in jeden Untertest Lern-, Beispiel- und/oder Übungsaufgaben aufgenommen. In den Untertests Buchstaben-Zahlen-Folgen, Bilder ergänzen und Bildkonzepte wird
die Aufgabenstellung durch entsprechende Nachfragen oder Hinweise verdeutlicht. Der verstärkte Einsatz solcher Hilfestellungen soll das Verständnis für die Aufgabenstellung und die
Aufmerksamkeit steigern und folglich ein besseres Bild der Fähigkeiten des Kindes liefern. Außerdem wurde durch die Verkürzung verbaler Anweisungen, die Unterstützung des Aufgabenverständnisses mit Hilfe von Lern- und Übungsaufgaben und durch Rückmeldung der richtigen
Lösung der Einsatzbereich des Tests erweitert, insbesondere bei Kindern mit einer bereits bekannten oder vermuteten Intelligenzminderung. Diese Neuerungen bieten dem Testleiter
mehr Spielraum, Kinder zu weiteren Anstrengungen und Überlegungen zu ermuntern (Renner,
2008).
In den Untertests, die nicht in erster Linie zur Messung der Verarbeitungsgeschwindigkeit dienen, wurden einige Änderungen zur Reduzierung der Bedeutung des Zeitfaktors vorgenommen: Die Untertests Bilderordnen, Figurenlegen und Labyrinth-Test wurden entfernt, die Anzahl der Aufgaben des Mosaik-Tests mit Zeitbonuspunkten wurde deutlich reduziert und im
Rechnerischen Denken werden keine zusätzlichen Zeitbonuspunkte für sehr schnelle Lösungen
mehr vergeben.
4.6.3 Steigerung der Anwenderfreundlichkeit
In einigen Situationen kann es sinnvoll sein, einen Kerntest durch einen optionalen Untertest
zu ersetzen. So kann sich beispielsweise ein Testleiter, der ein Kind mit feinmotorischen
Schwierigkeiten testet, dafür entscheiden, den Zahlen-Symbol-Test durch den DurchstreichTest oder den Mosaik-Test durch das Bilder ergänzen zu ersetzen.
Alle Illustrationen wurden aktualisiert und für Kinder attraktiver gestaltet. Weiterhin wurden
neue Aufgaben entwickelt, um zeitgemäße Situationen und Fragen zu integrieren, kulturbedingte Verzerrungen zu vermeiden sowie die Testfairness zu erhöhen. Einige veraltete Aufgaben wurden überarbeitet oder entfernt und das Layout des Stimulusbuches modifiziert.
Kapitel 4
Die Wechsler-Skalen
69
Da es sich bei dem HAWIK-IV um eine recht aufwändige Testbatterie handelt, wurden außerdem mögliche Kurzformen ermittelt (Waldmann, 2008). Die Anwendung einer Kurzform sollte
jedoch nur im Fall einer abgebrochenen Testung zur optimalen Verwertung unvollständiger
Informationen und nicht standardmäßig a priori zur ökonomischeren Handhabung des Tests
erfolgen.
4.6.4 Zusätzliche Auswertungsmöglichkeiten
Der Wegfall des Verbal- und Handlungsteils in der WISC-IV lässt Praktiker Schwierigkeiten bei
der Interpretation von inter- und intraindividuellen Leistungsdiskrepanzen vermuten. Die neue
Teststruktur bietet jedoch zusätzliche Auswertungsmöglichkeiten. Wie oben beschrieben wurde bei der Entwicklung der WISC-IV mehr Gewicht auf die Beurteilung des Arbeitsgedächtnisses und der Verarbeitungsgeschwindigkeit gelegt. Dabei handelt es sich um basale kognitive
Prozesse, denen ein hoher Zusammenhang mit der Intelligenz zugesprochen wird, wodurch
auch moderne Konzeptionen Berücksichtigung finden (Petermann & Lepach, 2007). Insbesondere in den Randbereichen der Normverteilung kommt es häufig zu großen Diskrepanzen innerhalb der vier Indizes. Dies lässt die Interpretation des Gesamt-IQ-Wertes in diesen Fällen
zumindest fragwürdig erscheinen (Newman, 2008). Gerade bei Hochbegabung erwies sich der
Gesamt-IQ in der WISC-IV als deutlich niedriger als in vorherigen WISC-Versionen, da diese
Kinder weniger überdurchschnittliche Leistungen in den stärker gewichteten Fähigkeitsbereichen Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit zeigte als im Sprachverständnis und
logischen Denken (Falk, Silverman & Moran, 2004). In der Annahme, dass der Gesamt-IQ nicht
immer eine gelungene Schätzung der kognitiven Fähigkeiten des Kindes darstellt, wurden
schon für die WISC-III verschiedene alternative Auswertungsmodelle vorgestellt (Weiss, Saklofske, Prifitera, Chen & Hildebrand, 1999). So bestand die Möglichkeit, die jeweils vier Untertests der Indizes SV und WO in einem allgemeinen Schätzwert kognitiver Leistungen zusammenzufassen, um den Einfluss der Untertests Rechnerisches Denken und Zahlen-Symbol-Test
zu reduzieren. Dieser Schätzwert wurde als General Ability Index (GAI), also Allgemeiner Fähigkeitsindex (AFI), bezeichnet. Damit lässt sich der Einfluss deutlich abweichender Leistungen im
Arbeitsgedächtnis und in der Verarbeitungsgeschwindigkeit auf den Gesamt-IQ reduzieren. Für
den HAWIK-III fehlt diese Auswertungsoption. Auch für die WISC-IV stehen Normtabellen zur
Berechnung des GAI aus den Wertpunktsummen der sechs relevanten Untertests bereit (Raiford, Weiss, Rolfhus & Coalson, 2005). Dabei wird die Wertpunktesumme der drei Kerntests
des SV und des WLD gebildet und in einen neuen Wert, den GAI, umgerechnet. Mit dem HAWIK-IV existiert erstmals auch für eine deutsche HAWIK-Version eine Tabelle zur Berechnung
des dem GAI entsprechenden AFI (Daseking, Petermann & Waldmann, 2008). Alternativ kann
der GAI auch durch Summierung der Index-Werte des SV und WLD berechnet werden (Flanagan & Kaufman, 2004). Als weitere Auswertungsmöglichkeit steht der Dumont-Willis-Index-1
Kapitel 4
Die Wechsler-Skalen
70
(DWI-1) bereit, der von Dumont und Willis (2004) auf der Basis der Interkorrelationen der
sechs SV- und WLD-Untertests entwickelt wurde. Zusätzlich entwickelten sie den DumontWillis-Index-2 (DWI-2), der aus den beiden anderen Indizes AGD und VG gebildet wird. Dieser
übergeordnete Index wird auch Cognitive Proficiency Index (CPI, Kognitiver Fertigkeitenindex)
genannt. Die Herausgeber der WISC-IV unterstützen jedoch ausschließlich die Anwendung des
GAI nach Raiford et al. (2005). Ihm wird eine hohe Korrelation mit dem Gesamt-IQ zugesprochen und gilt somit als guter Prädiktor für den Gesamt-IQ des HAWIK-IV (Scott, 2006).
4.6.5 Schwächen der WISC-IV
Flanagan und Kaufman (2004) sehen bei der WISC-IV trotz aller Vorteile gegenüber seinen
Vorgängern weiterhin einige Einschränkungen in der Validität. Sie halten diese jedoch nicht für
gravierend und weisen darauf hin, dass sie sich auch in anderen Intelligenztestbatterien finden
lassen. Braden und Niebling (2005) bemängeln, Aufgaben, die sich als verzerrend und unfair
herausgestellt haben, seien zwar entfernt worden, jedoch wurde im Manual keine Zusammenfassung der Untersuchungsergebnisse zur Höhe von Aufgabenverzerrungen aufgenommen.
Einige Kliniker kritisieren die Nicht-Berücksichtigung des Untertests Bilderordnen in der WISCIV, den sie als klinisch bedeutsam ansahen, da er als einziger Untertest interpersonale Situationen beinhaltete. Nach Flanagan und Kaufman (2004) hätte der klinisch geprägte David
Wechsler niemals zugestimmt, seine Testbatterie ohne die Möglichkeit der Erfassung interpersonaler Situationen zu veröffentlichen.
Ein weiterer Kritikpunkt besteht in der Kulturabhängigkeit der WISC-IV. Nach Flanagan und
Kaufman (2004) scheinen die Autoren zwar alle wichtigen Schritte unternommen zu haben,
eine Verzerrung der Ergebnisse durch kulturelle Unterschiede auszuschließen. Dennoch werden in der WISC-IV keine Angaben zu Wertdifferenzen zwischen ethnischen Gruppen (ebenso
wenig wie zu Geschlechtsunterschieden oder Unterschieden hinsichtlich des sozioökonomischen Status) erwähnt (Braden & Niebling, 2005). Dies scheint für Braden und Niebling (2005)
vor allem im Hinblick auf die umfassende Diskussion über die Kulturabhängigkeit bisheriger
Wechsler-Tests merkwürdig. Für den HAWIK-IV wurden auf Basis der Normierungsstichprobe
die Leistungen deutscher Kinder und der Kinder mit Migrationshintergrund miteinander verglichen (Daseking, Lipsius, Petermann & Waldmann, 2008). Dabei zeigten sich einzig im MatrizenTest keine signifikanten Unterschiede zwischen beiden Gruppen, während vor allem in den
sprachlichen Untertests die Kinder mit Migrationshintergrund signifikant schlechtere Ergebnisse erzielten als die deutsche Stichprobe. Schon in Studien zu anderen WISC-Versionen erwies
sich besonders der Untertest Allgemeines Verständnis als stark kulturabhängig (Kaufman,
1993). Im Allgemeinen gilt jedoch kein Test als uneingeschränkt kulturfrei (Sattler, 2001). Letz-
Kapitel 4
Die Wechsler-Skalen
71
ten Endes bleibt es dem Testanwender überlassen zu beurteilen, inwieweit der HAWIK-IV ein
für ihn geeignetes Instrument darstellt.
Auch die neue Teststruktur wird nicht durchweg positiv bewertet. Zwar bietet eine Aufteilung
der kognitiven Funktionsfähigkeit in enger definierte Teilfunktionen, wie in Kapitel 4.6.1 beschrieben, deutliche Vorteile. Da aber diese kognitiven Teilleistungen eng miteinander verknüpft und voneinander abhängig sind, können sie nur schwer getrennt voneinander erfasst
werden (Zhu et al., 2004). Selbst eine spezifische Funktion wie die Bearbeitungsgeschwindigkeit beinhaltet die Fähigkeit, zwischen visuellen Stimuli zu unterscheiden, diese Information zu
verarbeiten und die Reaktion mittels motorischer Fähigkeiten auszuführen. Obwohl faktorenanalytische Studien das Vorhandensein spezifischer, eng definierter Funktionsbereiche nahe
legen, wird dadurch möglicherweise nicht die Vielfalt der kognitiven Teilleistungen erfasst, die
zur Bearbeitung einer Aufgabe notwendig sind. Für Zhu und Weiss (2005) sei es jedoch sowohl
unmöglich als auch bedeutungslos, reine kognitive Funktionen zu erfassen, auch wenn die
Intelligenzforschung dafür plädiert. Es mag zwar diagnostisch sinnvoll sein, für sich allein stehende Funktionen abzubilden, dies münde jedoch nicht automatisch in klinisch bedeutsame
und praktisch sinnvolle Informationen. Zhu und Weiss halten die Wechsler-Skalen deshalb für
klinisch bedeutsamer als explizit theoriebasierte Intelligenztests.
4.7 Unterschiede zwischen HAWIK-III und -IV und deren Auswirkung auf die Vergleichbarkeit beider Testversionen
Wie bereits dargestellt, können viele Faktoren die Vergleichbarkeit zweier Testversionen beeinträchtigen. Bei dem Vergleich der WAIS-III mit der WAIS-R wurden folgende Abweichungen
als wichtig für die Vergleichbarkeit beider Testversionen festgestellt: Veränderungen auf Untertestebene, der Faktorenstruktur und der Art, in der die Konstrukte erfasst werden (Strauss,
Spreen & Hunter, 2000).
Da die Veränderungen, die bei der Entwicklung der WISC-IV ebenso wie bei dem adaptierten
HAWIK-IV vorgenommen wurden, für diese Vergleichsstudie von entscheidender Bedeutung
sind, soll auf sie im Folgenden ausführlich eingegangen werden.
4.7.1 Allgemeine und strukturelle Veränderungen zwischen beiden Testversionen
Die allgemeinen Veränderungen der WISC-IV bzw. des HAWIK-IV sind (Petermann & Petermann, 2008a; Wechsler, 2003b):
die Aktualisierung der strukturellen Grundlage zur Messung von gf und zur zusätzlichen
Messung von gsm (durch das Buchstaben-Zahlen-Folgen) und gs (durch den DurchstreichTest),
Kapitel 4
Die Wechsler-Skalen
72
die Modifizierung der Bewertungskriterien zur Verbesserung der Übersichtlichkeit,
die Einführung zusätzlicher Aufgaben zur Reduzierung des Boden- und Deckeneffekts,
verständlichere Anweisungen für die Testleiter,
die Aktualisierung der Grafiken zur Steigerung der Attraktivität für Kinder,
gesteigerte Entwicklungsangemessenheit (modifizierte Instruktionen, Lern- und/oder
Übungsaufgaben für jeden Untertest),
die Aktualisierung der Normen,
die Entfernung veralteter Aufgaben,
die Erweiterung des Manuals um Interpretationshinweise und ausführlichere Informationen zur Validität,
die Gewichtreduzierung des Testkoffers durch Entfernung der materialreichen Tests und
die Umbenennung des Index Wahrnehmungsorganisation in Wahrnehmungsgebundenes Logisches Denken.
Vor allem die strukturellen Neuerungen sind für diese Studie von großer Wichtigkeit. Dabei
handelt es sich um folgende Veränderungen (Flanagan & Kaufman, 2004):
Verbal- und Handlungsteil wurden entfernt,
zur Berechnung der vier Indizes werden nicht mehr 12, sondern nur noch zehn Untertests benötigt,
der Index UA wurde durch den Index AGD ersetzt,
das SV setzt sich im HAWIK-IV aus drei anstatt aus vier Untertests zusammen. Der Untertest Allgemeines Wissen wird ein optionaler Untertest, so dass der Index weniger von
Allgemeinbildung und Schulwissen abhängig ist,
das WLD setzt sich zusätzlich zum Mosaik-Test aus zwei neuen Untertests zusammen:
Bildkonzepte und Matrizen-Test. Bilder ergänzen ist nur noch ein optionaler Untertest,
der Index AGD setzt sich aus dem Zahlen nachsprechen und dem neuen Untertest Buchstaben-Zahlen-Folgen zusammen. Rechnerisches Denken ist nur noch ein optionaler Untertest,
Bilderordnen, Figurenlegen und Labyrinth-Test wurden (u. a. zur Reduzierung der Zeitabhängigkeit) entfernt sowie
Bildkonzepte, Buchstaben-Zahlen-Folgen, Matrizen-Test, Durchstreich-Test und Begriffe
erkennen wurden eingeführt.
4.7.2 Veränderungen in den einzelnen Untertests
Tabelle 4.10 gibt einen Überblick über Veränderungen hinsichtlich der Anzahl der Items, der
Punktevergabe pro Item sowie der Einstiegs-, Umkehr- und Abbruchkriterien. Im Anschluss
werden diese Unterschiede für jeden Untertest getrennt nach Index gesondert aufgeführt.
Kapitel 4
Die Wechsler-Skalen
73
Tabelle 4.10: Unterschiede und Gemeinsamkeiten von HAWIK-III und -IV (geordnet nach Zugehörigkeit zu den HAWIK-Indizes, modifiziert nach Petermann & Petermann, 2008a)
SV
GF
WT
AV
AW
Gesamtzahl der Items
Maximale Punktzahl pro Item
Einstiegsstufen
Umkehrregel
Abbruchkriterium
Einstiegsstufen
Umkehrregel
Abbruchkriterium
Einstiegsstufen
Umkehrregel
Abbruchkriterium
Einstiegsstufen
Umkehrregel
Abbruchkriterium
WLD
MT
BE
Einstiegsstufen
Umkehrregel
Abbruchkriterium
Einstiegsstufen
Umkehrregel
Abbruchkriterium
AGD
ZN
RD
Einstiegsstufen
Umkehrregel
Abbruchkriterium
Einstiegsstufen
Umkehrregel
Abbruchkriterium
VG
ZST-A/B
Einstiegsstufen/ Umkehrregel
Abbruchkriterium (Zeit in Sekunden)
SS/SYS-A/B
Einstiegsstufen/ Umkehrregel
Abbruchkriterium (Zeit in Sekunden)
HAWIK-III
HAWIK-IV
19
2
1
nein
4
30
2
4
ja
4
18
2
1
nein
3
30
1
4
ja
5
23
2
3
ja
5
36
2
3
ja
5
21
2
3
ja
4
33
1
3
ja
5
HAWIK-III
HAWIK-IV
12
7
2
ja
2
29
1
4
ja
5
14
7
2
ja
3
38
1
3
ja
6
HAWIK-III
HAWIK-IV
15
2
1
nein
1
24
2
4
ja
3
16
2
1
nein
1
34
1
3
ja
4
HAWIK-III
HAWIK-IV
59/119
1
120``
45/45
1
120``
59/119
1
120``
45/60
1
120``
Anmerkungen: Es wurden nur die Untertests berücksichtigt, die in beiden HAWIK-Versionen
enthalten sind. Abkürzungen siehe Anhang A5 und A6.
Kapitel 4
Die Wechsler-Skalen
74
Es können demnach nicht nur Änderungen der Teststruktur zu Einschränkungen der Vergleichbarkeit beider Testversionen führen. Auch Unterschiede innerhalb einzelner Untertests, die in
beiden Testversionen enthalten sind, können sich auf die Vergleichbarkeit auswirken. Dazu
zählen Änderungen
der Aufgaben, Aufgabenanzahl und der Aufgabenformulierung,
der Bewertung,
der Durchführung,
der Aufgabenreihenfolge,
der Startpunkte,
der Umkehrregel,
des Abbruchkriteriums sowie
der Untertestposition.
Auf diese Änderungen und den damit verbundenen Einfluss auf die Vergleichbarkeit beider
Testversionen wird nun für jeden Untertest, sortiert nach den vier Indizes, getrennt eingegangen.
4.7.2.1 Index Sprachverständnis
Gemeinsamkeiten finden:
a) Aufgaben:
Der Untertest Gemeinsamkeiten finden des HAWIK-IV umfasst 23 Aufgaben, von denen 12 neu
und zwei leicht verändert sind. Die Beispielaufgabe wurde überarbeitet, um vor dem eigentlichen Beginn des Untertests eine bewertbare Antwort des Kindes zu erhalten. Dies ersetzt das
korrigierende Feedback, das im HAWIK-III bei nicht-korrekter Antwort der ersten 2-PunkteAufgabe vorgegeben wird. Die Anzahl der 1-Punkt-Aufgaben wurde von fünf auf zwei reduziert. Zur Reduzierung des Deckeneffekts des HAWIK-III wurden zusätzliche Aufgaben mit hohem Schwierigkeitsgrad eingefügt.
b) Bewertung:
Die Bewertungskriterien wurden für alle Aufgaben überarbeitet. So gibt es im HAWIK-IV beispielsweise deutlich mehr Antworten, die einer Nachfrage seitens des Testleiters bedürfen.
Dadurch ist es bei einigen Aufgaben, die in beiden Testversionen enthalten sind, im HAWIK-IV
leichter, die volle Punktzahl zu erhalten. Ein Beispiel stellt die Frage: „Was ist das Gemeinsame
an Apfel und Banane?“ dar. Die Antwort „beides kann man essen“ wird im HAWIK-III mit einem
Punkt ohne Nachfrage, im HAWIK-IV jedoch mit einem Punkt mit Nachfrage bewertet. Das Kind
kann sich demnach im HAWIK-IV mit der zweiten Antwort „beides ist Obst“ noch auf zwei
Punkte verbessern. Dies führt zur Reduzierung des Bodeneffekts.
c) Durchführung:
Kapitel 4
Die Wechsler-Skalen
75
Während dem Testleiter im HAWIK-III nur erlaubt ist, die Aufgaben einmal vorzulesen, darf er
sie im HAWIK-IV so oft wie notwendig wiederholen. Dies kann zu einer Herabstufung des
Schwierigkeitsgrades führen. Andererseits ist es im HAWIK-III erlaubt, gegebenenfalls Synonyme für ein dem Kind unbekanntes Wort vorzugeben, was wiederum eine Erleichterung darstellen kann.
d) Aufgabenreihenfolge:
Im Gemeinsamkeiten finden zeigen sich Änderungen in der Reihenfolge der Aufgaben. Dadurch
werden Kindern möglicherweise Fragen, die sie in einem Test nicht beantworten können, im
anderen Test gar nicht vorgegeben. Außerdem sorgt in diesem Untertest die veränderte Reihenfolge für eine deutliche Änderung des Schwierigkeitsgrades bestimmter Aufgaben. Beispielsweise wird im HAWIK-III die Frage: „Was ist das Gemeinsame bei Katze und Maus?“ nach
den Fragen nach der Gemeinsamkeit von Hemd und Schuh und Schrank und Stuhl vorgegeben
und stellt die erste Aufgabe dar, für die es zwei Punkte gibt. Hier wird von fast allen Kindern
die Antwort „beides sind Tiere“ gegeben. Im HAWIK-IV hingegen wurde in der Normierungsversion des Testverfahrens die Gemeinsamkeit von Katze und Maus nach der Gemeinsamkeit
von Schmetterling und Biene erfragt. Hier wird die Antwort „beides sind Tiere“ nur mit einem
Punkt bewertet und erst, wenn das Kind auf Nachfrage die differenziertere Antwort „beides
sind Insekten“ anbietet, bekommt es die volle Punktzahl. Wenn dann die Frage nach der Gemeinsamkeit von Katze und Maus gestellt wird, denken einige Kinder, die Antwort „beides sind
Tiere“ sei nicht ausreichend und sie geben Antworten wie „beides sind Haustiere“ oder „beide
haben Fell“, die ihnen nur einen Punkt einbringen. Demnach weist die Frage nach der Gemeinsamkeit von Katze und Maus im HAWIK-IV einen höheren Schwierigkeitsgrad auf als im HAWIKIII.
e) Startpunkte:
Eine weitere Änderung liegt in der Einführung altersspezifischer Startpunkte. So erhalten einige Kinder im HAWIK-IV zwei Punkte für Aufgaben, die sie im HAWIK-III nicht korrekt beantworten können, da die Aufgaben im HAWIK-IV vor dem altersspezifischen Startpunkt liegen und
somit so bewertet werden, als seien sie korrekt beantwortet worden. Außerdem könnte dies
bei Kindern ab neun Jahren zu einer Erhöhung der Schwierigkeit des Untertests führen, da sie
weniger Möglichkeiten haben über einfachere Antworten mit dem Lösungsprinzip vertraut zu
werden. Andererseits kann es für diese Kinder von Vorteil sein, durch das Überspringen der
sehr leichten Aufgaben im HAWIK-IV weniger Motivations- und Konzentrationsprobleme zu
bekommen als im Gemeinsamkeitenfinden des HAWIK-III.
f)
Umkehrregel:
Kapitel 4
Die Wechsler-Skalen
76
Mit der Einführung altersspezifischer Startpunkte geht die Einführung der Umkehrregel einher.
Dies führt allerdings keine wesentlichen Änderungen hinsichtlich der Schwierigkeit mit sich.
g) Abbruchkriterium:
Das Abbruchkriterium wurde für die WISC-IV bzw. den HAWIK-IV von vier auf fünf falsche Aufgaben in Folge erhöht. Dies kann das Ergebnis insofern beeinflussen, als ein Kind im HAWIK-IV
durch die richtige Beantwortung von Fragen Punkte erhält, die ihm im HAWIK-III nicht vorgegeben werden, da der Untertest vorher abgebrochen werden musste.
h) Untertestposition:
Die Verschiebung des Untertests von der vierten auf die zweite Position dürfte keine großen
Auswirkungen auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben.
Wortschatz-Test:
a) Aufgaben:
Der Wortschatz-Test des HAWIK-IV beinhaltet 36 Aufgaben, vier Bild- und 32 Wortaufgaben.
17 Wortaufgaben sind neu, und 15 wurden aus dem HAWIK-III übernommen. Ebenso wie dem
Gemeinsamkeiten finden wurden auch dem Wortschatz-Test Aufgaben hinzugefügt, um sowohl
im unteren als auch im oberen Bereich besser differenzieren zu können. Die Bildaufgaben
wurden neu entwickelt, um jungen und leistungsschwachen Kindern die Möglichkeit zu geben,
über einfache Aufgaben das Lösungsprinzip des Untertests zu verstehen. Sie werden allerdings
nur vorgegeben, wenn die Umkehrregel in Kraft tritt. Da dies bei der vorliegenden Stichprobe
nur in wenigen Ausnahmefällen vorkam, kann ein bedeutsamer Einfluss durch diese Veränderung ausgeschlossen werden.
b) Bewertung:
Wie für alle sprachlichen Untertests wurden auch für den Wortschatz-Test die Bewertungsregeln erheblich modifiziert. So wurden im HAWIK-IV deutlich mehr Nachfragen eingefügt. Außerdem wurde die Bewertung vieler Aufgaben verändert (beispielsweise gibt die Antwort „genau“ bei der Beschreibung des Wortes „präzise“ im HAWIK-III die volle Punktzahl, im HAWIK-IV
jedoch nur einen Punkt mit Nachfrage).
c) Durchführung:
Eine weitere Änderung gegenüber seinem Vorgänger besteht im HAWIK-IV in der Möglichkeit
für Kinder ab neun Jahren, die Wörter mitzulesen, die sie beschreiben sollen.
d) und e) Aufgabenreihenfolge und Startpunkte:
Auch der mögliche Einfluss auf die Bearbeitungsleistung durch Veränderungen in der Aufgabenreihenfolge und der Alterseinstiege (Reduzierung von vier auf drei unterschiedliche altersspezifische Startpunkte) kommt im Wortschatz-Test zum Tragen.
Kapitel 4
Die Wechsler-Skalen
77
Das Abbruchkriterium wurde von vier auf fünf falsche Aufgaben in Folge erhöht (zum Einfluss
auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
Die Verschiebung vom achten auf den sechsten Untertest dürfte keine großen Auswirkungen
auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben.
Allgemeines Verständnis:
a) Aufgaben:
Der Untertest Allgemeines Verständnis des HAWIK-IV beinhaltet 21 Aufgaben. 13 wurden hinzugefügt, acht Aufgaben ohne oder mit kleinen Veränderungen aus dem HAWIK-III übernommen. Auch in diesem Untertest wurden einige Aufgaben weggelassen und zur Reduzierung des
Boden- und Deckeneffektes, vor allem besonders leichte und besonders schwierige Aufgaben
hinzugefügt. Die Frageformulierungen bei den Aufgaben, die in beiden Testversionen enthalten sind, blieben nahezu unverändert. Die einzige Änderung in der Formulierung, die zu einer
Änderung des Schwierigkeitsgrads führen könnte, stellt die Frage „Warum müssen wir Briefmarken auf Briefe kleben?“ des HAWIK-III gegenüber der offeneren Formulierung „Warum
kleben wir Briefmarken auf Briefe?“ im HAWIK-IV dar.
b) Bewertung:
Die Bewertungskriterien für alle Aufgaben wurden überarbeitet. So müssen beispielsweise bei
der Frage: „Warum ist die Redefreiheit in einer Demokratie so wichtig?“ im HAWIK-IV zwei
richtige Antworten aus zwei unterschiedlichen Konzepten gegeben werden, während im HAWIK-III eine Antwort zwei oder nur einen Punkt wert ist, je nachdem, wie hochwertig sie war.
Auch die Einführung zusätzlicher Nachfrageaufforderungen bei vielen Antworten führt zu Abweichungen in der Bewertung.
c) Durchführung:
Eine Änderung in der Durchführung, die zu einer Herabstufung der Schwierigkeit führen kann,
wurde für die Aufgaben eingeführt, die für das Erhalten der vollen Punktzahl zwei Antworten
aus zwei unterschiedlichen allgemeinen Konzepten erfordern (den *-Fragen). Während im
HAWIK-III nur einmal nachgefragt werden darf, nachdem das Kind eine Antwort aus einem
allgemeinen Konzept gegeben hat, muss im HAWIK-IV mehrmals nachgefragt werden, wenn
das Kind auf die erste Nachfrage eine weitere Antwort aus demselben allgemeinen Konzept
gibt. Dadurch erhöht sich die Chance die volle Punktzahl zu erhalten, indem zwei Antworten
aus zwei unterschiedlichen allgemeinen Konzepten gegeben werden.
Kapitel 4
Die Wechsler-Skalen
78
Wie in allen sprachlichen Untertests bestehen auch im Allgemeinen Verständnis Änderungen in
der Reihenfolge der Aufgaben. Dadurch werden Kindern möglicherweise Fragen, die sie in einem Test nicht beantworten können, im anderen Test gar nicht vorgegeben.
e) Startpunkte:
Eine weitere Änderung liegt in der Einführung altersspezifischer Startpunkte. Dadurch ist es
möglich, dass einige Kinder im HAWIK-IV zwei Punkte für Aufgaben bekommen, die sie im
HAWIK-III nicht korrekt beantworten können, da die Aufgaben im HAWIK-IV vor dem altersspezifischen Startpunkt liegen und somit so bewertet werden, als seien sie korrekt beantwortet worden (für weitere Auswirkungen dieser Veränderung siehe Gemeinsamkeiten finden).
f)
Umkehrregel:
Mit der Einführung altersspezifischer Startpunkte geht die Einführung der Umkehrregel einher.
Dies führt allerdings zu keinen wesentlichen Änderungen hinsichtlich der Schwierigkeit.
Das Abbruchkriterium wurde von drei auf vier falsche Antworten in Folge erhöht (zum Einfluss
auf Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
Die Verschiebung von der zehnten auf die neunte Position dürfte keine großen Auswirkungen
auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben.
Allgemeines Wissen:
a) Aufgaben:
Der Untertest Allgemeines Wissen des HAWIK-IV setzt sich aus 33 Fragen zusammen. 13 wurden hinzugefügt und 20 Fragen ohne oder mit kleinen Veränderungen aus dem HAWIK-III
übernommen. Wie in allen Untertests wurde auch im Allgemeinen Wissen auf eine Verbesserung der Leistungsdifferenzierung in den intellektuellen Randbereichen Wert gelegt. Dem wurde durch Einführung besonders schwieriger und besonders leichter Aufgaben Rechnung getragen. Außerdem führen Unterschiede in der Frageformulierung zu Veränderung des Schwierigkeitsgrades der Aufgaben. So besitzt beispielsweise die Frage: „Aus welchem Grund rostet
Eisen?“ des HAWIK-III einen anderen Schwierigkeitsgrad als die Frage: „Was lässt Eisen rosten?“ des HAWIK-IV (ein anderes Beispiel stellt die Frage: „Warum haben Pflanzen meistens
grüne Blätter?“ (HAWIK-III) gegenüber der Frage: „Was macht Blätter grün?“ (HAWIK-IV) dar).
b) Bewertung:
Die Bewertungskriterien für einige Aufgaben wurden modifiziert. Dies kann zu Abweichungen
zwischen den Testversionen hinsichtlich der Bewertung des Untertests führen.
c) Durchführung:
Kapitel 4
Die Wechsler-Skalen
79
Hinsichtlich der Durchführung zeigen sich keine gravierenden Unterschiede zwischen den Testversionen.
Auch der mögliche Einfluss auf die Bearbeitungsleistung durch Veränderungen in der Reihenfolge und der Alterseinstiege (Reduzierung von vier auf drei unterschiedliche altersspezifische
Startpunkte) kommt beim Allgemeinen Wissen zum Tragen.
Das Abbruchkriterium liegt in beiden Versionen bei fünf falschen Antworten in Folge.
Die Verlegung vom zweiten auf den drittletzten (13.) Untertest könnte Einfluss auf die Vergleichbarkeit der Ergebnisse in beiden Testversionen haben. Einerseits ist es möglich, dass die
Leistung eines Kindes im Laufe der Testung angesichts mangelnder Konzentrationsfähigkeit
oder Ermüdungserscheinungen abnimmt, was schlechtere Leistungen im HAWIK-IV zur Folge
haben könnte. Bei Kindern, die zu Beginn der Testung sehr nervös oder ängstlich sind, könnte
dies zu einer besseren Leistung im Allgemeinen Wissen des HAWIK-IV führen.
4.7.2.2 Index Wahrnehmungsgebundenes Logisches Denken
Mosaik-Test:
a) Aufgaben:
Der Mosaik-Test des HAWIK-IV umfasst 14 Aufgaben. Zehn wurden aus dem HAWIK-III übernommen; vier Aufgaben wurden zur Reduzierung des Deckeneffekts hinzugefügt (davon zwei
Aufgaben mit neun Würfeln, die einen hohen Schwierigkeitsgrad aufweisen).
b) Bewertung:
Der Gebrauch von Zeitbonuspunkten im HAWIK-IV wurde beibehalten, jedoch auf die letzten
sechs Aufgaben beschränkt. Daher wird der Gesamtrohwert dieses Untertests für viele jüngere
Kinder keine Zeitbonuspunkte beinhalten. Ergänzend wurde der Gesamtrohwert Mosaik-Testohne Zeitbonus (MT-OZ) eingeführt. Seine Berechnung kann sinnvoll sein bei Kindern mit körperlichen Einschränkungen, Schwierigkeiten mit Problemlösestrategien sowie persönlichen
Eigenschaften (wie beispielsweise Perfektionismus), die die Bearbeitung unter Zeitdruck beeinflussen (Flanagan & Kaufman, 2004). Da die gesteigerte Schwierigkeit und die Bewertungsmodifikationen durch den Vergleich mit der Normstichprobe berücksichtigt werden, dürfte
dies keinen Einfluss auf die Vergleichbarkeit der Wertpunkte beider Testversionen haben.
c) Durchführung:
Zur Reduktion der Testdauer und dementsprechend zur Steigerung der Anwenderfreundlichkeit wurden die Instruktionen verkürzt.
Kapitel 4
Die Wechsler-Skalen
80
Die Änderungen in der Aufgabenreihenfolge können im Mosaik-Test zu deutlichen Unterschieden führen. So wurde das letzte Muster im HAWIK-III zum ersten Muster mit neun Würfeln im
HAWIK-IV. Dies führt zu einem höheren Schwierigkeitsgrad dieser Aufgabe im HAWIK-IV, da
das Kind noch keine Strategien für die Lösung von Aufgaben mit neun Würfeln entwickeln
kann, während es im HAWIK-III vorher schon ähnliche Aufgaben lösen muss, bei denen es bereits Lösungsstrategien entwickeln konnte.
f)
Umkehrregel:
Auch wenn sich die Umkehrregeln in beiden Testversionen voneinander unterscheiden (im
HAWIK-III wird in aufsteigender Reihenfolge, also erst mit Aufgabe 1 und dann mit Aufgabe 2
vorgegangen und im HAWIK-IV in absteigender Reihenfolge, also erst mit Aufgabe 2 und dann
mit Aufgabe 1), dürfte dies keinen Einfluss auf die Vergleichbarkeit der Ergebnisse beider Testversionen haben, zumal in der vorliegenden Studie nur in Ausnahmefällen umgekehrt wurde.
Das Abbruchkriterium wurde von zwei auf drei nicht gelöste Aufgaben in Folge erhöht (zum
Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
Die Verschiebung des Mosaik-Tests von der siebten auf die erste Position kann einen Einfluss
auf die Ergebnisse in diesem Untertest haben. Einerseits ist es möglich, dass die Leistung eines
Kindes im Laufe der Testung angesichts von mangelnder Konzentration oder Ermüdungserscheinungen abnimmt, was bessere Leistungen im HAWIK-IV zur Folge haben kann. Bei Kindern, die zu Beginn der Testung sehr nervös oder ängstlich sind, könnte dies zu einer schlechteren Leistung im Mosaik-Test des HAWIK-IV führen.
Bilder ergänzen:
a) Aufgaben:
Der Untertest Bilder ergänzen des HAWIK-IV beinhaltet 38 Aufgaben, 12 neue und 26 Aufgaben, die aus dem HAWIK-III beibehalten wurden. Der Schwierigkeitsgrad einzelner Aufgaben
hat sich durch eindeutigere grafische Aufbereitung reduziert. So ist im HAWIK-IV der fehlende
Abfluss der Badewanne (Aufgabe 26) besser ersichtlich als im HAWIK-III (Aufgabe 16), da die
Wanne aus einer anderen Perspektive gezeigt wird.
b) und c) Bewertung und Durchführung:
Hinsichtlich der Bewertung und Durchführung zeigen sich keine gravierenden Veränderungen
zwischen beiden Testversionen.
Kapitel 4
Die Wechsler-Skalen
81
Auch im Bilder ergänzen kann die Bearbeitungsleistung durch Veränderungen in der Reihenfolge und den Alterseinstiegen (Reduzierung von vier auf drei altersspezifische Startpunkte) beeinflusst sein.
Das Abbruchkriterium wurde von fünf auf sechs nicht gelöste Aufgaben in Folge erhöht (zum
Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
Die Verlegung vom ersten auf den 11. Untertest könnte Einfluss auf die Vergleichbarkeit der
Ergebnisse in beiden Untertestversionen haben (zur Art des Einflusses siehe Allgemeines Wissen).
4.7.2.3 Index Arbeitsgedächtnis
Zahlen nachsprechen:
a) Aufgaben:
Für das Zahlen nachsprechen vorwärts (ZN-V) des HAWIK-IV wurden 15 Versuche übernommen
und ein neuer Versuch entwickelt. Für das Zahlen nachsprechen rückwärts (ZN-R) wurden
sechs neue Versuche entwickelt und zehn Versuche aus dem HAWIK-III übernommen. Die Veränderungen in den Zahlenreihen sind jedoch zu gering (beim ZN-V wurde beispielsweise nur
einmal eine 6 durch eine 8 ersetzt), um einen Einfluss auf die Vergleichbarkeit beider Testversionen zu haben. Im ZN-R wurden zur Erhöhung des Verständnisses für diese Teilaufgabe bei
leistungsschwachen Kindern zwei zusätzliche Aufgaben mit zwei Zahlen eingefügt. Zur Besserung Differenzierung der Leistung des Kindes wurden die ZN-V- und ZN-R-Prozesswerte sowie
die längste Zahlenspanne vorwärts (LZ-V) und die längste Zahlenspanne rückwärts (LZ-R) eingeführt. So ermöglicht die Prozessanalyse von ZN-V und ZN-R den Vergleich von Merkspanne
(ZN-V) und Arbeitsgedächtnis (ZN-R) (Flanagan & Kaufman, 2004).
b) bis g) Bewertung, Durchführung, Aufgabenreihenfolge, Startpunkte, Abbruchkriterium:
In diesen Bereichen gibt es keine Unterschiede zwischen HAWIK-III und -IV.
Durch die Verschiebung des Untertests Zahlen nachsprechen von der 12. auf die 3. Position
kann ein Kind unterschiedliche Leistungen in beiden Testversionen zeigen (zur Art des Einflusses siehe Mosaik-Test). Gerade für Leistungen des Arbeitsgedächtnisses, die mit diesem Untertest erfasst werden, sind Konzentration und Aufmerksamkeit von zentraler Bedeutung.
Rechnerisches Denken:
a) Aufgaben:
Der Untertest Rechnerisches Denken des HAWIK-IV umfasst 34 Aufgaben. Dabei beinhalten 11
zwar die gleichen mathematischen Rechenaufgaben wie der HAWIK-III, die textliche Einbet-
Kapitel 4
Die Wechsler-Skalen
82
tung der Rechenaufgaben wurde jedoch überarbeitet. Zur Verbesserung der Boden- und
Deckendifferenzierung wurden außerdem 20 neue Aufgaben entwickelt. Die Aufgaben wurden
so gestaltet, dass die Anforderungen an das Arbeitsgedächtnis erhöht wurden, indem auch die
schwierigen Aufgaben nicht mehr vom Kind gelesen werden können, während gleichzeitig das
mathematische Wissen, das zum Erfüllen der Untertestaufgabe erforderlich ist, altersangemessener gestaltet wurde.
b) Bewertung:
Die Zeitbonuspunkte für besonders schnelle Bearbeitung der letzten Aufgaben wurden abgeschafft.
c) Durchführung:
Während im HAWIK-III für die schwierigeren Aufgaben mehr Lösungszeit zur Verfügung steht,
liegt die Zeitgrenze beim HAWIK-IV durchweg bei 30 Sekunden. Die Karten zum Vorlesen der
Aufgaben durch das Kind wurden abgeschafft. Die Vorgabe der Aufgaben erfolgt ausschließlich
durch Vorlesen des Testleiters. Während die ersten Aufgaben im HAWIK-IV bei falscher Durchführung eine korrigierende Rückmeldung vorsehen, ist dies im HAWIK-III nicht vorgesehen.
Veränderungen in der Reihenfolge und den Alterseinstiegen (Reduzierung von vier auf drei
unterschiedliche altersspezifische Startpunkte) können die Bearbeitungsleistung im Rechnerischen Denken beeinflussen.
Das Abbruchkriterium wurde von drei auf vier falsche Antworten in Folge erhöht (zum Einfluss
auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
Durch die Verschiebung des Untertests Rechnerisches Denken von der sechsten auf die vorletzte Position können sich deutliche Unterschiede in den Leistungen eines Kindes zwischen beiden Testversionen ergeben (zur Art des Einflusses siehe Allgemeines Wissen). Gerade für Leistungen des Arbeitsgedächtnisses, die mit diesem Untertest erhoben werden, sind Konzentration und Aufmerksamkeit von zentraler Bedeutung.
4.7.2.4 Index Verarbeitungsgeschwindigkeit
Zahlen-Symbol-Test:
In diesem Untertest gibt es keine wesentlichen Unterschiede zwischen HAWIK-III und -IV. Zwar
wurde der Zahlen-Symbol-Test des HAWIK-III farbig und der Zahlen-Symbol-Test des HAWIK-IV
schwarz-weiß gehalten, dies dürfte jedoch keinen Einfluss auf die Vergleichbarkeit der Ergebnisse in beiden Testversionen haben.
Kapitel 4
Die Wechsler-Skalen
83
Symbol-Suche:
Bei der Version für die sechsund siebenjährigen Kinder (Version A) gibt es keine Unterschiede
zwischen beiden Tests. Für die älteren Kinder (Version B) wurden für die WISC-IV bzw. den
HAWIK-IV zur Vermeidung eines Deckeneffekts 15 zusätzliche Aufgaben entwickelt.
4.8 Zusammenfassung
Die Wechsler-Skalen zählen zu den bedeutendsten und empirisch meist untersuchten Testverfahren. Sie weisen eine jahrzehntelange Tradition in der Forschung und der klinischen Diagnostik auf. Wechslers Einfluss auf die Intelligenzforschung begann in den 1930er Jahren und hat
aufgrund seiner zahlreichen Tests weiterhin ungebrochen Bestand. Es besteht Kritik an unterschiedlichen Aspekten seiner Testbatterien, dennoch bleibt die Bedeutsamkeit der WechslerSkalen weitgehend unstrittig. Die hier gegenständlichen Intelligenztests HAWIK-III und HAWIKIV sind aus dem HAWIK hervorgegangen, einer für das Kindesalter abgewandelten Version der
Wechsler-Bellevue Intelligence Scale. Sie weisen insgesamt überdurchschnittliche psychometrische Eigenschaften auf. Dennoch gibt es Einschränkungen, beispielsweise im Hinblick auf die
Objektivität. Unterschiede in den Gütekriterien, wie unterschiedliche Reliabilitätskennwerte,
müssen beim Vergleich beider Testversionen Berücksichtigung finden.
Dem HAWIK-IV liegen die bisher größten Veränderungen gegenüber einer Vorgängerversion
zugrunde. So zeigen sich im HAWIK-III und -IV in vielerlei Hinsicht deutliche Unterschiede, beispielsweise durch die Einführung neuer Untertests, Änderungen der Teststruktur (u. a. Wegfall
des Verbal- und Handlungsteils) sowie die Erfassung unterschiedlicher kognitiver Fähigkeiten.
Auch innerhalb der Untertests, die in beiden Testversionen enthalten sind, haben sich diverse
Veränderungen ergeben. Dazu gehören die Einführung zusätzlicher Aufgaben ebenso wie Modifizierungen der Bewertungskriterien und Durchführungsanweisungen. Diese Änderungen
können die Vergleichbarkeit beider Testversionen beeinträchtigen.
Kapitel 5
Methodische Aspekte bei Vergleichsstudien
84
5 Methodische Aspekte bei Vergleichsstudien
Allgemeines Wissen, Frage 13: „Was tut der Magen?“
Marie, 7 Jahre: „Er passt auf, dass das Essen nicht rausfällt.“
Obwohl stets neue Testverfahren entwickelt werden, gibt es eine Vielzahl von Studien zu Revisionen bereits bestehender Testverfahren und zu neu aufgelegten Testversionen. Ein Messinstrument zu überarbeiten hat diverse Gründe. Dazu gehören nach Strauss, Spreen und Hunter
(2000)
die Aktualisierung der Normen (siehe Kapitel 4.6),
die Erweiterung der Altersbereiche,
die Bereitstellung zusätzlicher Minderheitenstichproben,
das Entfernen veralteter Items,
die Verbesserung der Güte des Items sowie
die Erhöhung der Testvalidität.
Testrevisionen können auf komplexe Weise die Art der erhaltenen Informationen verändern
und Merkmale, Fähigkeiten und Bedingungen anders als die vorherigen Versionen erheben.
5.1
Korrelationsstudien
Die Untersuchung der Korrelationen zwischen den Testwerten und externen Variablen gibt
Hinweise auf die Kriteriumsvalidität des Tests (siehe Kapitel 4.4.3). Die Kriteriumsvalidität ist
hoch, wenn der Test hoch mit anderen Instrumenten korreliert, die dasselbe Konstrukt zu
messen vorgeben.
Auch für die Wechsler-Skalen wurden entsprechende Korrelationsstudien durchgeführt. Um
abschätzen zu können, welche Korrelationen zwischen dem HAWIK-III und -IV in dieser Studie
zu erwarten sind, wird im Folgenden auf vergleichbare Studien eingegangen. Die Studien wurden größtenteils während der Normierung der jeweils aktuelleren Testversion in Form von CoNormierungsstudien durchgeführt. Korrelationsstudien wurden in den vergangenen drei Jahrzehnten im Bereich der Testentwicklung weit verbreitet eingesetzt (Zhu & Tulsky, 2000). Sie
erlauben die gemeinsame Interpretation zweier Tests und verstärken damit deren klinischen
Nutzen.
5.1.1 Korrelationsstudien zur WISC-III
Für die Untersuchung der Korrelation zwischen der WISC-III und der WISC-R wurden die beiden
Tests in ausbalancierter Reihenfolge 206 Kindern im Alter von 6 bis 16 Jahren (Mit-
Kapitel 5
85
tel = 11 Jahre) vorgegeben (Wechsler, 1991). Zwischen den beiden Testzeitpunkten lagen
durchschnittlich 21 Tage. Es wurden nur die Korrelationen zwischen den Untertests, die in beiden Testversionen vorkommen, und den drei IQ-Gesamtwerten (Verbal-, Handlungs- und Gesamt-IQ5) untersucht. Vor allem Verbal- und Gesamt-IQ beider Testversionen korrelierten hoch
miteinander (r = .90 und .89). Die Korrelation zwischen den Handlungs-IQ-Werten lag, wenn
auch etwas niedriger, mit r = .81 ebenfalls sehr hoch. Daraus wurde geschlossen, dass die
WISC-R und die WISC-III ausreichend die selben Konstrukte erfassen.
In Großbritannien wurde die Korrelation zwischen der englischen WISC-III und der WISC-R untersucht, indem die Testergebnisse von 151 der 206 Kindern der amerikanischen Stichprobe
auf die englischen Normen transferiert wurden (Wechsler, 1992). Der Zusammenhang zwischen den Gesamt- und Verbal-IQ erwies sich ebenfalls als deutlich höher als im Handlungs-IQ
(jeweils r = .88 gegenüber .79).
Eine Studie mit 51 hochbegabten Kindern und Jugendlichen zeigte dagegen auf Untertestebene nur Korrelationen zwischen r = .08 (Figurenlegen) und .59 (Mosaik-Test). Die beiden Verbal-,
Handlungs- und Gesamt-IQ wiesen mit Werten zwischen r = .33 und .37 ebenfalls niedrige Zusammenhänge auf (Sabatino, Spangler & Vance, 1995).
5.1.2 Korrelationsstudien zum HAWIK-III
Im Manual des HAWIK-III wird eine Validitätsstudie mit dem HAWIK-R beschrieben (Tewes et
al., 2002). Zum Vergleich beider Testversionen wurden sie in einer ausbalancierten Reihenfolge
einer Stichprobe von 87 Schweizer Kindern zur Bearbeitung vorgelegt (der Abstand betrug
durchschnittlich 30 Tage). Im Durchschnitt waren die Kinder 10;4 Jahre alt (s = .90 Jahre). Dabei wurden ebenfalls nur jene Untertests einbezogen, die in beiden Testversionen enthalten
sind. Im Gesamt-IQ zeigte sich eine Korrelation von r = .88 (nach Anwendung einer Korrektur
hinsichtlich der Varianzeinschränkung des HAWIK-III von r = .92, siehe Kapitel 7.5.3). Dies spreche nach Ansicht der Autoren dafür, dass die beiden Tests dasselbe Konstrukt abbilden. Im
Verbal-IQ (r = .80; korrigierter Wert: r = .88) und im Handlungs-IQ (r = .81; korrigierter Wert:
r = .87) lagen die Koeffizienten etwas niedriger. Doch auch diese Werte sprechen noch für eine
diagnostische Äquivalenz beider Tests. Insgesamt stimmen die Befunde mit denen der amerikanischen und englischen Studien überein. Das gilt auch im Wesentlichen für die Zusammenhangsuntersuchung der gemeinsamen Untertests. So ergaben sich sowohl im Vergleich der
WISC-III mit der WISC-R als auch im Vergleich des HAWIK-III mit dem HAWIK-R die niedrigsten
Korrelationen im Bilderordnen (r = .42 gegenüber .47; korrigiert: r = .47) und Bilderergänzen
(r = .57 gegenüber .41; korrigiert: r = .65).
5
Wie bereits an anderer Stelle, werden auch hier zum besseren Verständnis die deutschen Bezeichnungen der Gesamtwerte, Indizes und Untertests angegeben, auch wenn es sich um amerikanische Studien
handelt.
Kapitel 5
86
Im Gegensatz zu der amerikanischen Untersuchungsstichprobe zeigten sich allerdings bei den
Schweizer Kindern höhere IQ-Mittelwerte im HAWIK-III als im HAWIK-R (nur bei drei Untertests
des Handlungsteils waren die Mittelwerte des HAWIK-R höher). Die Autoren des HAWIK-III
stellten die Überlegung an, die höheren Mittelwerte im HAWIK-III könnten mit einer größeren
geografischen Streuung der Normierungspopulation des HAWIK-III zusammenhängen (Tewes
et al., 2002).
5.1.3 Korrelationsstudien zur WISC-IV
In der Studie, die für die vorliegende Untersuchung als Vergleichsbasis herangezogen wird,
wurde die Höhe der Korrelationen zwischen WISC-III und WISC-IV an 244 Kindern zwischen 6
und 16 Jahren untersucht (Wechsler, 2003b). Das Re-Testintervall lag durchschnittlich bei 28
Tagen. Zwischen den Gesamt-IQ beider Testversionen ergab sich eine korrigierte Korrelation
von r = .89. Außerdem wurden der VCI (Verbal Comprehension Index, entspricht dem Index SV
des HAWIK-IV) und der PRI (Perceptual Reasoning Index, entspricht dem Index WLD des HAWIK-IV) der WISC-IV mit dem Verbal- und dem Handlungs-IQ der WISC-III (n = 244, Alter 6-16)
verglichen. Dabei weist SV mit dem Verbal-IQ Korrelationen von r = .87 und WLD mit dem
Handlungs-IQ Korrelationen von r = .74 auf. Die Indizes korrelieren zwischen r = .72 und .88.
Die Zusammenhänge der Index-Kombinationen POI (entspricht dem Index WO des HAWIK-III)
und PRI sowie FDI (entspricht dem Index UA des HAWIK-III) und WMI (entspricht dem Index
AGD des HAWIK-IV) erweisen sich als niedriger als die Korrelationen der Index-Kombinationen
VCI und VCI sowie PSI (entspricht dem Index AG des HAWIK-III) und PSI (entspricht dem Index
VG des HAWIK-IV). Die Untertests zeigen nur geringfügig niedrigere Zusammenhänge auf. Allgemeines Verständnis erweist sich als Untertest mit den niedrigsten Korrelationen (r = .62),
während das Allgemeine Wissen mit r = .83 am höchsten korreliert. Insgesamt erweisen sich
die Indexwerte der WISC-III als höher als die entsprechenden Indexwerte der WISC-IV.
5.1.4 Korrelationsstudien zum HAWIK-IV
Für die Vergleichsstudie zwischen HAWIK-IV und seinem Vorgänger, dem HAWIK-III, wurden
100 Kinder und Jugendliche in ausbalancierter Reihenfolge mit beiden Testverfahren untersucht (Petermann & Petermann, 2008a). Der Abstand zwischen beiden Testungen betrug im
Mittel 35 Tage. Die Korrelationen wurden getrennt, in Abhängigkeit von der Reihenfolge der
Testvorgabe, angegeben. Bei den 54 Kindern und Jugendlichen, die den HAWIK-IV zuerst
durchführten zeigte sich eine Korrelation in den Gesamt-IQ beider Testversionen von r = .73.
Im Vergleich der zusammengesetzten IQ-Werte mit den entsprechenden Indizes sowie der
Indizes untereinander ergaben sich Korrelationen zwischen r = .50 und .97. und auf Untertestebene zwischen r = .34 und .79. Die 46 Kinder und Jugendlichen, die zuerst den HAWIK-III vorgelegt bekamen, wiesen in den Gesamt-IQ einen Zusammenhang von r = .63 und in den zu-
Kapitel 5
87
sammengesetzten IQ-Werten und den Indizes von r = .35 bis .80 auf. Auf Ebene der Untertests
zeigten sich Korrelationen zwischen r = .43 und .72.
Tabelle 5.1 stellt eine Übersicht über die bisherigen Korrelationsstudien zu HAWIK- bzw. WISCVersionen dar.
Tabelle 5.1: Ergebnisse der Korrelationsstudien zu HAWIK- bzw. WISC-Versionen
Untertest oder
Index
WISC-R
vs.
WISC-III
HAWIK-R
vs.
HAWIK-III
WISC-III
vs.
WISC-IV
US/UK
unkorr. (korr.)
unkorr. (korr.)
r
.76
.74
.71
.70
.77
.67
r
.81 (.84)
.48 (.58)
.78 (.81)
.77 (.77)
.77 (.88)
.44 (.78)
r
.77 (.77)
.75 (.76)
.79 (.77)
.77 (.76)
.78 (.82)
.60 (.62)
.68 (.67)
.62 (.64)
.82 (.83)
.74 (.74)
MT
GF
ZN
ZST
WT
AV
SS/SYS
BE
.57
.41 (.65)
AW
.80
.64 (.83)
RD
.67
.63 (.69)
BO
.42
.47 (.47)
FL
.58
.52 (.73)
V-IQ/V-IQ o. SV
.90/.88
.80 (.88)
H-IQ/H-IQ o. WLD .61/.79
.81 (.87)
SV/SV
WO/WLD
UA/AGD
AG/VG
Gesamt
.89/.88
.88 (.92)
.83 (.87)
.73 (.74)
.85 (.88)
.70 (.72)
.74 (.72)
.81 (.81)
.87 (.89)
HAWIK-III
vs.
HAWIK-IV
HAWIK-IV HAWIK-III
zuerst
zuerst
r
r
.61
.54
.60
.43
.72
.59
.72
.72
.60
.65
.61
.58
.34
.57
.63
.65
.79
.67
.72
.52
.97
.50
.75
.53
.72
.68
.73
.79
.35
.80
.37
.52
.73
.63
5.1.5 Korrelationsstudien mit anderen Testverfahren
Die Korrelationen zwischen WISC-IV und der Vorschulversion WPPSI-III wurden an 182 sechsund siebenjährigen Kindern berechnet (Wechsler, 2003b). Der Gesamt-IQ korrelierte mit
r = .89 (korrigiert). Auf Index-Ebene zeigten sich mit r = .83 die höchsten korrigierten Korrelationen im Vergleich Verbalteil und SV und mit r = .65 die niedrigsten im Vergleich der VGIndizes. In den Indizes und dem Gesamt-IQ lagen die Standarddifferenzen (siehe Kapitel
7.5.3.1) zwischen .02 und .10. Auf Untertestebene ergaben sich korrigierte Korrelationen zwischen r = .44 (Bildkonzepte) und .74 (Allgemeines Wissen). Die Standarddifferenzen lagen zwischen .00 (Allgemeines Verständnis) und .29 (Zahlen-Symbol-Test).
Zur Berechnung der Korrelationen zwischen WISC-IV und der Erwachsenenversion WAIS-III
wurden 198 Kinder im Alter von 16 Jahren untersucht (Wechsler, 2003b). Während der Korrelationskoeffizient des Gesamt-IQ bei r = .89 lag, erreichten die Indizes Korrelationen von r = .73
Kapitel 5
88
(WLD und WO) bis .86 (SV und Verbalteil). Im Hinblick auf die Untertests ergaben sich für die
Symbol-Suche mit r = .56 die niedrigsten und für den Wortschatz-Test mit r = .83 die höchsten
Korrelationen.
Die Korrelationsstudie zwischen WISC-IV und KABC-II wurde an 56 Kindern im Alter von 7 bis
16 Jahren durchgeführt (Kaufman & Kaufman, 2004). Der Gesamt-IQ der WISC-IV korrelierte
dabei hoch mit beiden Gesamtwerten der KABC-II (r = .88 mit dem Mental Processing Index
(MPI) und r = .89 mit dem Fluid-Crystallized Index (FCI) sowie r = .79 mit dem Nonverbal Index
(NVI)). Auf Index-Ebene wies SV mit dem entsprechenden Index Knowledge/Gc mit r = .85 den
höchsten Zusammenhang auf. WLD korrelierte am höchsten mit den entsprechenden Indizes
Planning/Gf und Simultaneous/Gv der KABC-II (r = .69 und .66), AGD mit r = .71 mit dem Index
Sequential/Gsm, der ebenfalls die Leistung des Kurzzeitgedächtnisses erheben soll. VG korrelierte mit keinem der KABC-II-Indizes sehr hoch und auch die Korrelationen zu den Gesamtwerten der KABC-II waren mit r = .59 bis .64 die niedrigsten aller vier Indizes.
In einer größer angelegten Studie wurden KABC-II und WISC-III anhand von 119 Kindern im
Alter von 8 bis 13 Jahren verglichen (Kaufman & Kaufman, 2004). Es ergaben sich auf Ebene
der Gesamtwerte niedrigere Zusammenhänge als zwischen K-ABC-II und WISC-IV (zwischen
r = .71 und .77). Verbal-IQ und SV korrelierten hoch mit dem entsprechenden Index Knowledge/Gc (r = .82), Handlungs-IQ und WO dagegen relativ niedrig mit dem entsprechenden
Index Simultaneous/Gv (r = .61 und .62). Anders als bei der WISC-IV korrelierten Handlungs-IQ
und WO nur recht niedrig mit dem Index Planning/Gf (r = .54 und .56), was dafür spricht, dass
der Handlungsteil des HAWIK-III eher visuelle Verarbeitung als fluides Denken misst (siehe
Kapitel 3.3.1 sowie Flanagan et al., 2000). UA und AG wiesen niedrige bis moderate Korrelationen zu den KABC-II-Indizes auf (zwischen r = .13 und .58).
5.2
Störeinflüsse
Viele Aspekte können ursächlich dafür sein, dass ein Individuum bei demselben oder einem
ähnlichen Test an zwei Messzeitpunkten deutlich voneinander abweichende Ergebnisse erzielt.
Dies können sowohl intraindividuelle und interpersonale als auch im umweltbezogene und
psychometrische Gründe sein (Bracken, 1992). Während vor allem umweltbezogene und
interpersonale Störeinflüsse relativ gut ausgeschlossen werden können, indem beispielsweise
beide Testungen im selben Raum stattfinden und vom selben Testleiter durchgeführt werden,
ist es kaum möglich, sämtliche psychometrischen Einschränkungen zu vermeiden. Diese Faktoren haben Einfluss auf den Validitätskoeffizienten und können zu unterschiedlichen Ergebnissen in zwei eigentlich ähnlichen Instrumenten führen. Teilweise interagieren sie zusätzlich
miteinander. Einige dieser Faktoren sind nach Wechsler (2003b)
Kapitel 5
89
das Zeitintervall zwischen den Testungen,
entwicklungsbedingte Veränderungen und Lernzuwächse während des Zeitintervalls,
strukturelle Unterschiede zwischen den Tests,
Regression zur Mitte von der ersten zur zweiten Testung,
die Reliabilitäten beider Tests,
Erinnerung an die erste Testdurchführung,
unterschiedliches prozedurales Lernen und Übung,
das Motivationslevel des Kindes sowie
der Flynn-Effekt.
Zhu und Weiss (2000) bezeichnen Faktoren wie Übung, Erlernen der Prozeduren und Bekanntheit mit der Testsituation als „carry-over“-Effekte. Im Folgenden werden diese Faktoren sowie
die Erinnerung an die erste Testdurchführung zusammenfassend als Lerneffekt bezeichnet und
ausführlich behandelt.
Ergänzend zu den oben genannten Störeinflüssen ging Bracken (1988) auch bei folgenden Faktoren davon aus, dass sie bei ähnlichen Tests zu unterschiedlichen Ergebnissen beitragen können:
Boden- und Deckeneffekte (siehe Kapitel 4.4.5),
Itemgefälle,
Unterschiede in den Normtabellen,
Untersuchung unterschiedlicher Fähigkeiten durch die Untertests (siehe Kapitel 4.2
und 4.3),
inhaltliche Unterschiede der Tests (siehe Kapitel 4.2 und 4.3) sowie
Repräsentativität der Normstichprobe (siehe Kapitel 4.4.4).
Diese Einflüsse und ihre Interaktionen miteinander müssen bei der Interpretation der Ergebnisse berücksichtigt werden.
Viele dieser Faktoren sind in dieser Studie nicht kontrollierbar. Dazu gehört das Motivationslevel des Kindes ebenso wie entwicklungsbedingte Veränderungen und Lernzuwächse. Letztere
können jedoch zumindest für das kurze Intervall ausgeschlossen werden. Der Einfluss unterschiedlicher Normtabellen (dies wäre beispielsweise der Fall, wenn bei den Testversionen unterschiedliche Altersspannen in den Normtabellen zusammengefasst wären) auf die Vergleichbarkeit beider Testversionen kann ebenfalls ausgeschlossen werden, da sich die Struktur der
Normtabellen von HAWIK-III und -IV nicht unterscheidet. Die Normstichprobe kann für beide
Testversionen als gleich repräsentativ angenommen werden.
Das Itemgefälle eines Tests gibt an, wie steil die Items hinsichtlich des Schwierigkeitsniveaus
und der Distanz zwischen den Standardwerten festgelegt wurden (Bracken, 1992). Bei zu stei-
Kapitel 5
90
lem Verlauf würde beispielsweise ein erzielter Rohwertpunkt mehr oder weniger entscheiden,
ob ein Kind als minder- oder hochbegabt diagnostiziert wird. In diesem Fall wäre eine Interpretation des Testergebnissen ausgesprochen fragwürdig. In dieser Studie wird von einem ähnlichen Itemgefälle beider Testversionen ausgegangen, so dass sich darauf keine Unterschiede
zwischen den Ergebnissen im HAWIK-III und -IV begründen lassen.
Auf das Zeitintervall wird aufgrund des in zwei Abstände unterteilten Untersuchungsdesigns an
diversen Stellen eingegangen. Ausführliche Angaben zu strukturellen und inhaltlichen Unterschieden zwischen beiden Testversionen sowie Boden- und Deckeneffekten wurden bereits in
Kapitel 4 aufgeführt. Auch die unterschiedlichen Fähigkeiten, die von den Untertests und Indizes des HAWIK-III und -IV erfasst werden sollen sowie unterschiedliche Reliabilitäten beeinflussen die Vergleichbarkeit beider Testversionen. Sie wurden deshalb im Kapitel 4 gesondert betrachtet. In diesem Kapitel soll daher auf folgende der oben aufgeführten Störeinflüsse eingegangen werden: den Lerneffekt und den Flynn-Effekt.
5.2.1 Lerneffekt
Einen möglichen Störeinfluss auf den Vergleich zwischen HAWIK-III und -IV stellt der Lerneffekt
dar. Besonders bei den Kindern und Jugendlichen, die mit einem Abstand von einem Monat
mit beiden Testverfahren getestet wurden, kann es aufgrund von Lernerfahrungen und Erinnerung zu höheren Werten in der zweiten Testung kommen. Der Lerneffekt entsteht nach Kaufman (1994b) durch die Erfahrung, die eine Person durch die erste Testdurchführung gemacht
hat, und geht nicht auf das Feedback des Testleiters oder Weiterentwicklungen der Fähigkeiten des Kindes zurück. Er ist vielmehr ein Aspekt des Messinstruments an sich, eine Art systematischer, eingebauter Fehler, der mit den spezifischen Fähigkeiten, die vom Test gemessen
werden, assoziiert ist. Es gibt einige Faktoren, die zum Lerneffekt beitragen. Dazu gehören die
Vertrautheit mit Aufgaben, wie sie in Intelligenztestverfahren vorkommen, die Erfahrung mit
der Lösung solcher Aufgaben und die Entwicklung von Strategien zur Lösung dieser Art von
Problemen (Kaufman, 1994b).
Der Lerneffekt gehört zu den psychometrischen Eigenschaften eines Testverfahrens und sollte
als spezifischer Aspekt der Reliabilität verstanden werden. Obwohl er ausgiebig untersucht und
nachgewiesen werden konnte, wird er nach Kaufman und Lichtenberger (2006) von vielen
Untersuchern bei der Interpretation von Testprofilen unberücksichtigt gelassen. Je länger der
Abstand zwischen beiden Messzeitpunkten ist, desto geringer zeigt sich der Einfluss des Lerneffekts. Nach langen Intervallen fließen eher andere Störvariablen wie die Zu- oder Abnahme
der erfassten Fähigkeiten in das Ergebnis ein (Kaufman, 1994b). Aus diesem Grund wurde der
Lerneffekt zumeist an kurzen Intervallen untersucht.
Kapitel 5
91
Für die WISC-IV wurde an 243 Kindern und Jugendlichen ein möglicher Lerneffekt untersucht.
Das Re-Testintervall lag dabei zwischen 13 und 63 Tagen mit einem durchschnittlichen Abstand
von 32 Tagen (Wechsler, 2003b).
Die folgende Tabelle 5.2 zeigt den Lerneffekt in den Index- und IQ-Werten, sowohl für alle Kinder als auch unterteilt in drei Altersgruppen.
Tabelle 5.2: Ein-Monats-Lerneffekt für die WISC-IV-Index- und IQ-Werte (n = 243) (modifiziert
nach Wechsler, 2003b, S. 40ff)
Index
Alter 6-7
Alter 8-11
Alter 12-16
Gesamt
SV
+3.4 (.31 SD)
+2.2 (.20 SD)
+1.7 (.14 SD)
+2.1 (.18 SD)
WLD
+6.4 (.46 SD)
+4.2 (.34 SD)
+5.4 (.38 SD)
+5.2 (.39 SD)
AGD
+4.7 (.33 SD)
+2.8 (.22 SD)
+1.6 (.12 SD)
+2.6 (.20 SD)
VG
+10.9 (.72 SD)
+8.2 (.60 SD)
+4.7 (.35 SD)
+7.1 (.51 SD)
Gesamt-IQ
+8.3 (.62 SD)
+5.8 (.53 SD)
+3.4 (.34 SD)
+5.6 (.46 SD)
Anmerkungen: SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.
Wie die Tabelle 5.2 zeigt, wiesen die Kinder im Alter von sechs bis sieben Jahren die größten
Lerneffekte auf und diese nahmen im Altersverlauf ab. Dies zeigte sich vor allem im GesamtIQ, aber auch in den Indizes mit Ausnahme des WLD. Obwohl der Lerneffekt bei der VG in der
Gruppe der sechs- bis siebenjährigen Kinder mit 10.9 Punkten Zuwachs am höchsten ausfiel,
zeigten sich keinerlei Lerneffekte im optionalen Untertest Durchstreich-Test. Rechnerisches
Denken und Buchstaben-Zahlen-Folgen, beides Untertests des Index AGD, wiesen in der jüngsten Altersgruppe deutliche, in den anderen Altersgruppen jedoch kaum Lerneffekte auf.
Auf Untertestebene wies Bilder ergänzen den größten Lerneffekt auf, gefolgt von den zwei
anderen Untertests des WLD, Bildkonzepte und Mosaik-Test. Tabelle 5.3 zeigt die Untertests
mit relativ großem Ein-Monats-Lerneffekt separat für die drei Altersgruppen.
Tabelle 5.3: Untertests mit relativ großem Ein-Monats-Lerneffekt getrennt in drei Altersgruppen (modifiziert nach Wechsler, 2003b, S. 40ff)
Alter 6-7
Alter 8-11
Alter 12-16
ZST (+0.65 SD)
BE (+0.68 SD)
BE (+0.58 SD)
SYS (+0.62 SD)
SYS (+0.52 SD)
DT (+0.44 SD)
BE (+0.58 SD)
BK (+0.52 SD)
ZST (+0.40 SD)
RD (+0.57 SD)
DT (+0.47 SD)
MT (+0.40 SD)
BK (+0.50 SD)
MT (+0.40 SD)
BK (+0.35 SD)
MT (+0.45 SD)
GF (+0.45 SD)
BEN (+0.42 SD)
BZF (+0.39 SD)
Anmerkungen: Abkürzungen siehe Anhang A5 und A6. Relativ große Lerneffekte sind hier die
Untertests mit einer Standardabweichung von mindestens 0.33 (dies entspricht ungefähr einer
Steigerung um einen Wertpunkt, abhängig von der genauen Standardabweichung in jedem Alter).
Eine Studie zur WISC-III an 51 Kindern und Jugendlichen im Alter von 11 bis 14 Jahren brachte
bei einem Test-Retest-Intervall zwischen 11 und 19 Tagen mit einem Mittelwert von 13 Tagen
Kapitel 5
92
im Handlungsteil Zuwächse von durchschnittlich 13.78 IQ-Punkten hervor (Siders, Kaufman &
Reynolds, 2006). Dies ähnelt den Ergebnissen, die im Testmanual der WISC-III angegeben sind
(Wechsler, 1991, Tabellen 5.3 bis 5.5). Dort erzielten 353 Kinder der Altersgruppen 6 bis 7, 10
bis 11 und 14 bis 15 nach einem Abstand von 12 bis 63 Tagen (Mittelwert 23 Tage) bei der
zweiten Testung zwischen 11.5 und 13.0 Handlungs-IQ-Punkte mehr. Für den Verbal-IQ lag der
Anstieg nur zwischen 1.7 und 3.3 Punkten, im Gesamt-IQ schwankte die Differenz zwischen
beiden Testzeitpunkten zwischen sieben und acht IQ-Punkten. Für Kamphaus (2005) scheint
demnach ein Zugewinn von zwei oder drei Punkten im Verbalteil ein typischer Lerneffekt nach
einer kurzen Zeitspanne zu sein, während im Handlungsteil die Vertrautheit mit den Untertests
durchschnittlich eine weitaus höhere Ergebnissteigerung zur Folge hat. Dies liegt nach Kaufman und Lichtenberger (2006) auch an den niedrigeren Reliabilitäten der Untertests des Handlungsteils, da mit geringerer Stabilität und größerem Messfehler deutlichere Änderungen zwischen Test und Re-Test einhergehen.
Für den hohen Lerneffekt im Handlungsteil waren in der Studie zur WISC-III vor allem die Untertests Zahlen-Symbol-Test und Bilderordnen ursächlich (Wechsler, 1991). Hier steigerte sich
der erreichte Wert um bis zu einer Standardabweichung. Ein hoher Lerneffekt im ZahlenSymbol-Test zeigte sich auch in der Studie zur WISC-IV, zumindest in der jüngsten und ältesten
Altersgruppe (siehe Tabelle 5.3). Einen ähnlich hohen Anstieg wie im Handlungsteil verzeichneten auf Index-Ebene nur die beiden Indizes WO und AG (Zuwächse von 9 bis 11 Punkten), was
darauf zurückgeführt werden kann, dass der Handlungsteil größtenteils aus den Untertests
dieser beiden Indizes besteht.
Auch in älteren Studien konnten große Lerneffekte nachgewiesen werden, vor allem nach kurzen Re-Testintervallen. Im Gegensatz zu bisher genannten Studien zeigten sich bei einer Untersuchung mit der WAIS deutlich größere Lerneffekte im Verbal- als im Handlungsteil (11.4 gegenüber 4.7) (Catron & Thompson, 1979). Matarazzo, R. G., Wiens, Matarazzo, J. D. und Manaugh (1973) fanden bei 29 Personen nach einem Intervall von 14 bis 22 Wochen einen durchschnittlichen Leistungszugewinn von 5.5 Gesamt-IQ-Punkten (Verbal-IQ 5.6 und Handlungs-IQ
4.9). Eine der ersten Studien zu Lerneffekten bei der WISC zeigte nach einem Drei-MonatsIntervall einen Gesamt-IQ-Zuwachs zwischen 4.3 und 8.1 Punkten, je nach Alter des Kindes
(Quereshi, 1968). Außerdem ergaben sich deutlich größere Lerneffekte im Handlungs- als im
Verbalteil. Im Allgemeinen Verständnis ließ sich, außer bei den jüngsten Kindern, sogar keinerlei Unterschied feststellen.
In einer Studie zur WAIS-R wurde an 52 16-Jährigen der Unterschied im IQ-Anstieg zwischen
einer Re-Testung nach drei Monaten und einer Re-Testung nach 18 Monaten untersucht
(Thompson & Molly, 1993). Es zeigten sich deutlich höhere Anstiege bei den Jugendlichen, die
Kapitel 5
93
erst nach 18 Monaten zum zweiten Mal getestet wurden (Gesamt-IQ: 10.4, Verbal-IQ: 7.3,
Handlungs-IQ: 12.2 gegenüber 7.0, 3.6 und 10.7 im kurzen Intervall). Da nach Thompson und
Molly der Lerneffekt mit größerem Abstand immer geringer wird, führen sie den größeren
Anstieg nicht auf Lerneffekte, sondern auf Reifungsprozesse und Bildungszuwachs der 16Jährigen zurück. Das wurde insbesondere im Allgemeinen Verständnis deutlich, in dem die
Jugendlichen, die nach dem längeren Abstand noch einmal getestet wurden, einen größeren
Zuwachs verzeichneten als die Jugendlichen mit dem kürzeren Intervall. Da sich das Allgemeine
Verständnis (ähnlich wie die anderen verbalen Untertests) als relativ unberührt von Lerneffekten erweist (siehe Quereshi, 1968), muss dieser Anstieg auf diese anderen Effekte zurückzuführen sein.
In Studien zur Untersuchung der Stabilität von WISC-III-Profilen ergaben sich bei einem ReTestintervall von im Durchschnitt drei Jahren keinerlei nennenswerte Wertpunkt- und IQWertanstiege (Borsuk, Watkins & Canivez, 2006; Canivez & Watkins, 1999).
Unter Berücksichtigung mehrerer Studien zum Lerneffekt bei den Wechsler-Skalen zeigte sich
im Gesamt-IQ ein Zuwachs von ungefähr sieben Punkten, dabei fiel dieser bei jüngeren etwas
geringer aus als bei älteren Kindern (Kaufman, 1994b). Im Handlungsteil ergaben sich durchschnittlich neun Punkte Zuwachs, im Verbalteil nur drei Punkte. Genau wie der Gesamt-IQ hatte auch der Handlungsteil einen geringeren Lerneffekt bei den jüngeren Kindern zu verzeichnen, im Verbalteil war dies jedoch nicht der Fall.
Auf Basis der oben beschriebenen Studien mit den Wechsler-Skalen kann mithin bei den Handlungsskalen erst nach einem Intervall von ein bis zwei Jahren von keinerlei Lerneffekt ausgegangen werden. Für die sprachlichen Untertests gilt dies ab ungefähr einem Jahr (Canivez &
Watkins, 1999; McCaffrey, Duff & Westervelt, 2000; Wechsler, 2003b).
Nach Kaufman und Lichtenberger (2006) lassen sich Lerneffekte besonders in den Untertests
nachweisen, die unabhängig von den schulischen Aufgaben des Kindes sind und demnach
neue, bisher unbekannte Aufgaben darstellen. So ergaben sich im Verbalteil der WechslerVersionen mit dichotomer Unterteilung in Verbal- und Handlungsteil die höchsten Zuwächse in
den Untertests Gemeinsamkeiten finden und Zahlen nachsprechen, da diese Art von Aufgaben
im schulischen Setting weniger gefragt sind. Die Untertests Wortschatz-Test, Rechnerisches
Denken und Allgemeines Verständnis - alles Untertests, die im schulischen Alltag der Kinder
eine große Rolle spielen - wiesen währenddessen durchweg den geringsten Lerneffekt auf.
Dies erklärt auch die deutlich höheren Lerneffekte im Handlungsteil, der Aufgaben beinhaltet,
die dem Kind aus dem schulischen Setting nicht vertraut sind. Durch die erste Vorgabe der
Aufgaben wurden sie dem Kind bekannt und es erinnert sich an die Lösungsstrategien, die
beim ersten Test am besten funktioniert haben. Auch wenn zum zweiten Testzeitpunkt nicht
Kapitel 5
94
unbedingt mehr Aufgaben zu lösen sind, so wird für die gelösten Aufgaben oftmals weniger
Zeit benötigt, was angesichts der Vergabe von Zeitbonuspunkten gerade in den Untertests des
Handlungsteils schon zu einem besseren Ergebnis führt.
Zur Berücksichtigung des Lerneffekts in der vorliegenden Studie wurde den Kindern der HAWIK-III und der HAWIK-IV in ausbalancierter Reihenfolge vorgegeben (siehe Kapitel 7.2). Dennoch soll überprüft werden, als wie hoch sich der Lerneffekt in dieser Studie erweist. Anders
als in den oben genannten Studien handelt es sich dabei jedoch um unterschiedliche Testversionen. Somit können neben einem Lerneffekt auch die Veränderungen in den Untertests und
Indizes Einfluss auf die Zuwächse oder Abnahmen haben.
5.2.2 Flynn-Effekt
Der nach dem neuseeländischen Politologen James R. Flynn benannte Flynn-Effekt besagt, dass
Testleistungen in Form einer säkularen Akzeleration über die Jahre hinweg zunehmen (Flynn,
2007; Lynn & Harvey, 2008; Teasdale & Owen, 2008). Das kann bei der Verwendung veralteter
Testnormen bei Intelligenzmessungen zu überhöhten Werten führen (Flynn, 1984, 1999, 2007)
und somit können Entwicklungsbeeinträchtigungen deutlich unterschätzt werden (Wolke &
Söhne, 1997). Dieser Effekt ist insbesondere bei jüngeren Kindern zu beobachten (Kanaya, Ceci
& Scullin, 2005). Aus diesem Grund haben Normen von Intelligenztests spätestens nach 15
Jahren ihre Gültigkeit verloren und sollten durch neue Vergleichswerte ersetzt werden.
Der Flynn-Effekt betrifft eher Tests, die die fluide Intelligenz erfassen (Flynn, 1999, 2007). So
zeigt sich bei Testverfahren wie den Raven-Matrizen ein Leistungsanstieg von bis zu sieben IQPunkten pro Dekade, während der verbale IQ eines Menschen innerhalb von zehn Jahren
durchschnittlich nur um etwa einen halben Punkt ansteigt (Flynn, 2007). Der durchschnittliche
Zugewinn liegt bei circa drei IQ-Punkten pro Jahrzehnt, was seit 1950 mehr als 15 Punkten
(und damit einer Standardabweichung) entspricht. In Deutschland und anderen westlichen
Nationen konnte sogar ein Flynn-Effekt von durchschnittlich fünf IQ-Punkten pro Jahrzehnt
aufgezeigt werden (Kaufman & Lichtenberger, 2006). Gründe dafür können nach Neisser et al.
(1996) Umgebungseinflüsse wie verbesserte Ernährung, kulturelle Änderungen, Erfahrung mit
Tests sowie Veränderungen des Lernverhaltens der Kinder und Erziehungsverhaltens der Eltern
sein. Neueste Studien sehen die Ursache der Leistungssteigerung einzig in der verbesserten
prä- und frühen postnatalen Ernährung (Lynn, 2009). Andere gehen eher von einer verbesserten Förderung sozial benachteiligter Gruppen als Ursache für den Flynn-Effekt aus (Strauss et
al., 2000).
Auch anhand der Wechsler-Skalen wurde der Flynn-Effekt in der Vergangenheit wiederholt
untersucht (Wechsler, 1991). Dabei zeigten sich auf Untertestebene unterschiedlich steile
Wachstumskurven. Für die Untertests Rechnerisches Denken, Wortschatz-Test und Allgemeines
Kapitel 5
95
Wissen konnten dabei die geringsten Anstiege verzeichnet werden. Laut Flynn (2007) stiegen
die Werte von der WISC aus dem Jahre 1947 bis zur 2002 erschienenen WISC-IV im Gemeinsamkeiten finden um 24 Punkte, im Allgemeinen Verständnis nur noch um 11 Punkte, im Wortschatz-Test um vier Punkte und im Rechnerischen Denken und Allgemeinen Wissen nur um
zwei Punkte. Der Anstieg des Gesamt-IQ liegt nach Flynn in dieser Zeitspanne bei ungefähr 18
Punkten. Somit würden Kinder, die heutzutage mit der WISC und der WISC-IV getestet werden,
in der WISC durchschnittlich 18 IQ-Punkte mehr erhalten als in der WISC-IV.
Zwischen den verschiedenen Versionen der Wechsler-Skalen wurden insgesamt Leistungszuwächse von drei bis acht Punkten berichtet, was einem Anstieg von ungefähr 0.3 IQ-Punkten
pro Jahr entspricht (Strauss et al., 2000). Bei einem Vergleich der Mittelwerte von WISC-R und
-III zeigten sich etwa fünf IQ-Punkte weniger im Gesamt-IQ der WISC-III, der Verbal-IQ der
WISC-III lag etwa zwei Punkte und der Handlungs-IQ ungefähr sieben Punkte unter denen der
WISC-R. Danach dürfte beispielsweise ein Kind, das in der WISC-R einen IQ-Wert von 100 erreicht hat, in der WISC-III nur noch einen IQ-Wert von 94 bis 96 erreichen. Diese Diskrepanz
nimmt noch zu, je weiter der Wert vom Mittelwert (IQ-Wert 100) entfernt ist. Dabei zeigen
sich im unteren Leistungsbereich deutlich höhere Leistungszuwächse als im oberen (Teasdale
& Owen, 1989).
Die Untersuchung des Leistungsanstiegs bei Hochbegabten mit einem neu entwickelten Testinstrument weist jedoch auch im oberen Leistungsbereich auf einen Flynn-Effekt hin (Wechsler, 1991, 2003b). Die als hochbegabt Identifizierten wiesen im neuen Verfahren einen Gesamt-IQ-Mittelwert auf, der deutlich unter der zur Diagnose von Hochbegabung festgelegten
Grenze von 130 IQ-Punkten liegt. So lag der mittlere Gesamt-IQ bei Hochbegabten in der Validierungsstudie zur WISC-III zunächst nur bei 128.7 (Wechsler, 1991) und in der Studie zur
WISC-IV sogar nur bei 123.5 IQ-Punkten (Wechsler, 2003b).
So unstrittig wie dargestellt, ist der Flynn-Effekt jedoch nicht. Einige Forscher widersprechen
seiner Existenz (Rodgers, 1998). Zumindest sind sich viele Forscher einig, dass der Flynn-Effekt
nachgelassen oder sich sogar umgekehrt hat. Flynns Studien basieren auf Studien bis Ende der
1980er Jahre. Neuere Studien in Skandinavien zeigen eine Stagnation der Intelligenzleistung in
den Industrienationen in den 1990er Jahren und seitdem sogar eine Abnahme, besonders hinsichtlich der fluiden Intelligenz (Sundet, Barlaug & Torjussen, 2004; Teasdale & Owen, 2008).
Teasdale, der die Ursache für den Flynn-Effekt in Dänemark in Schulreformen in den 1950er
und 1960er Jahren sieht, führt die Stagnation auf fehlende Verbesserungen im Schulsystem
seit den 1970er Jahren zurück. Flynn selbst erklärt sich den Rückgang mit dem Wohlstand in
den Industrienationen, der zu einer Dekadenz geführt habe (Channel Wissenschaft, 2006). Der
deutsche Intelligenzforscher Lehrl sieht den Rückgang durch die schlechteren Ergebnisse im
PISA-Test 2003 gegenüber denen des PISA-Tests von 2000 bestätigt (Prenzel et al., 2004), führt
Kapitel 5
96
ihn jedoch eher auf die Überforderung der modernen Gesellschaft an den Konsumenten zurück, der sich in weniger anspruchsvolle Alternativangebote flüchte und somit sein Gehirn
weniger fordere. Außerdem hält er die Menschen heute für passiver, sie würden Informationen nicht mehr überdenken, sondern sich nur noch von ihnen berieseln lassen (Donner, 2006).
Die vorliegende Studie kann dazu dienen, Hinweise darauf zu geben, inwiefern sich der FlynnEffekt auch noch innerhalb der vergangenen Dekade zeigt oder ob tatsächlich von einer Stagnation oder sogar einer Umkehr ausgegangen werden kann.
Eine Möglichkeit, die Testleistung aus zwei Versionen gleichzusetzen, wäre, die mittleren Differenzen beider Tests voneinander abzuziehen (Russell, 1992). Dieses Verfahren ist jedoch
durchaus problematisch, da die Höhe der Abweichungen stark variieren kann. So zeigte sich in
einer Studie an Kindern mit Lernbehinderung ein IQ-Abfall zwischen WISC-R und WISC-III von
1.35 Punkten, während er bei hochbegabten Kindern bei 18.09 IQ-Punkten lag (Strauss et al.,
2000).
Aus diesem Grund soll in dieser Studie der Flynn-Effekt gesondert für die Kinder und Jugendlichen betrachtet werden, die Leistungen in den IQ-Randbereichen zeigten.
5.3
Grenzen der Intelligenzdiagnostik
Wie in Kapitel 2.1 ausgeführt handelt es sich bei der Intelligenz um ein schwer greifbares und
sensibles Konstrukt. Im Hinblick auf die Diagnostik von Intelligenz können demnach neben den
mangelhaften Gütekriterien weitere Aspekte die Aussagekraft von Intelligenztests einschränken. So lassen Intelligenztests lediglich Aussagen über den aktuellen Leistungs- und Entwicklungsstand in Form einer Statusdiagnostik zu (Holling et al., 2004). Das Ergebnis hängt demnach teilweise stark von der Tagesform der Person ab und kann zu unterschiedlichen Zeitpunkten zu stark abweichenden Ergebnissen führen. Außerdem wird die Intelligenz besonders im
frühen Lebensalter als relativ instabil angesehen (Braaten & Norman, 2006). Daher gelten Intelligenzbefunde von Kindergartenkindern allgemein als schwache Prädiktoren für die Vorhersage zukünftiger Schulleistungen (O`Shea, Harel & Fein, 2002). Gerade bei jungen Kindern beeinflussen Störvariablen wie die Person des Untersuchers, die Tagesform oder Änderungen in
der Persönlichkeit des Kindes (z. B. Ablegung kindlicher Schüchternheit oder Unsicherheit) die
Testleistung. Somit sollten Testergebnisse aufgrund der hohen Variabilität im Rahmen der
normalen Entwicklung in den Jahren vor der Einschulung nur mit großer Vorsicht interpretiert
werden (Daseking et al., 2006).
Störvariablen und andere Einflüsse (siehe Kapitel 5.2) können bei jedem Testergebnis zu Messfehlern führen. Daher kann das Ergebnis nur als Annäherung an den wahren Wert gesehen
Kapitel 5
97
werden. Um dem entgegenzuwirken, werden Testergebnissen zusätzlich Konfidenz- bzw. Vertrauensintervalle zugeordnet.
Intelligenztests bilden nur den Ausschnitt der Intelligenz ab, der der Intelligenzdefinition entspricht, auf dessen Grundlage der Test entwickelt wurde. Daher korrelieren unterschiedliche
Intelligenztests nicht perfekt miteinander. Somit kann ein Mensch in verschiedenen Tests und
gleichbenannten Aufgabenbereichen unterschiedliche Ergebnisse erzielen (Daniel, 1997). Außerdem gelten bisherige Intelligenztests im Allgemeinen als nicht in der Lage, einzelne kognitive Prozesse genau abzubilden, die zum Teil in Sekundenbruchteilen ablaufen, aber für höhere
kognitive Prozesse relevant sind (Vock & Holling, 2006).
Besonders wenn der Intelligenztest über sprachliches Aufgabenmaterial verfügt, können Personen aus bildungsfernen Familien, Menschen mit Migrationshintergrund oder Sprachstörungen benachteiligt sein (Daseking, Lipsius et al., 2008; Gienger, Petermann & Petermann, 2008).
Zusammenfassend muss demnach festgestellt werden, dass psychometrische Testverfahren
diversen Einschränkungen unterliegen, die auch Einfluss auf die Ergebnisse dieser Studie haben
können.
Dennoch ermöglichen Intelligenztests bei Erfüllung der psychometrischen Gütekriterien objektive, reliable, valide und zeitökonomische Messungen sowie die Erfassung von Fähigkeiten, die
nicht durch entsprechende Leistungen im Alltag gezeigt werden (Holling et al., 2004). Sie bieten eine genauere Differenzierung intellektueller Dimensionen als andere Vorgehensweisen,
wie beispielsweise Selbst- oder Fremdeinschätzungen, Beobachtungen oder schulische Leistungsdaten. Außerdem machen die durch eine Normierung errechneten Zahlenwerte einen
intra- und interindividuellen Vergleich der Ausprägung kognitiver Fähigkeiten möglich.
5.4
Zusammenfassung
Einige Aspekte müssen bei dem Vergleich zweier Versionen eines Testverfahrens berücksichtigt werden. Korrelationsstudien zwischen Wechsler-Versionen oder zwischen Wechsler-Tests
und anderen Intelligenztestverfahren geben Hinweise auf die zu erwartende Höhe der Korrelationen zwischen den Ergebnissen der beiden hier gegenständlichen Testversionen HAWIK-III
und -IV. Innerhalb der Wechsler-Versionen ergaben sich auf Index- und Gesamt-IQ-Ebene Korrelationen zwischen r = .61 und .92. Der Untertestvergleich wies Korrelationen zwischen r = .42
und .88 auf. Demnach können für den Vergleich zwischen den Ergebnissen des HAWIK-III und IV ähnlich hohe Korrelationen erwartet werden.
In einer Validierungsstudie müssen verschiedene Störvariablen berücksichtigt werden. Dazu
gehören Lerneffekte, also die Erinnerung an die erste Testdurchführung. Außerdem besagt der
Kapitel 5
98
Flynn-Effekt, dass das Erhalten eines bestimmten IQ in aktuellen Testversionen mehr Leistung
erfordert als in älteren Versionen, da davon ausgegangen wird, dass der IQ in den vergangenen
Jahrzehnten kontinuierlich gestiegen ist.
Die Intelligenzdiagnostik unterliegt bestimmten Einschränkungen und Grenzen, die sich durch
Störeinflüsse, kulturelle Verzerrungen oder Instabilität der Ergebnisse ergeben können und
auch in dieser Studie zum Tragen kommen.
Kapitel 6
Ableitung der Fragestellung und Hypothesen
99
6 Ableitung der Fragestellung und Hypothesen
Allgemeines Verständnis, Frage 4: „Was sollst du machen, wenn du siehst, dass dicke
Rauchwolken aus dem Fenster des Nachbarhauses kommen?“
Marian, 6 Jahre: „Husten.“
In den vorherigen Kapiteln wurden die zu untersuchenden Messinstrumente HAWIK-III und -IV
vorgestellt, ihr theoretischer Hintergrund beleuchtet und Überlegungen dazu angestellt, welche Störeinflüsse auf die Vergleichbarkeit von Testwerten aus beiden Testverfahren wirken
können. Dabei stellten sich diverse Aspekte heraus, die Anlass bieten, an einer uneingeschränkten Vergleichbarkeit beider Testversionen zu zweifeln. Zu den wichtigsten zählen
die unterschiedlichen Forschungsstände zum Zeitpunkt der Testentwicklung,
ein unterschiedliches zu Grunde gelegtes Testmodell,
Veränderungen in der Teststruktur,
Veränderungen innerhalb der Untertests,
der Wegfall alter und die Einführung neuer Untertests sowie
die unterschiedlichen Erscheinungsdaten beider Testversionen (siehe Flynn-Effekt).
Aus diesen Erkenntnissen lassen sich diverse Fragestellungen und Hypothesen zur Vergleichbarkeit beider Testversionen ableiten. Dafür sollen zunächst mögliche Mittelwertunterschiede
untersucht werden. Außerdem soll versucht werden, die vorgegebene Faktorenstruktur beider
Testversionen zu replizieren. Zur Untersuchung der Höhe des Zusammenhangs werden anschließend Korrelationsanalysen durchgeführt. Schließlich soll die Teststruktur mit Hilfe von
Regressionsanalysen weitergehend untersucht werden. Ein Überblick über die Hypothesen
dieser Studie wird in Tabelle 6.1 dargestellt.
Kapitel 6
100
Tabelle 6.1: Überblick über die Hypothesen und Fragestellungen der Studie.
Hypothesen
Hypothesen
6.1.1-6.1.7
6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte
Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV
Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV
Indizes des HAWIK-III vs. Indizes des HAWIK-IV
6.2 Überprüfung der Hypothesenstruktur beider Testversionen
Struktur des HAWIK-III
Struktur des HAWIK-IV
Struktur beider Testversionen
6.3 Zusammenhangshypothesen zur Untersuchung der Korrelation
Unterschiedshypothesen zur Untersuchung des Einflusses der
Testreihenfolge
Unterschiedshypothesen zur Untersuchung des Einflusses des
Zeitintervalls
Zusammenhangshypothesen zur Untersuchung der Varianzauf6.4
klärung
der Indizes des HAWIK-III durch die Untertests des HAWIK-III
der Indizes des HAWIK-III durch die Untertests des HAWIK-IV
der Gesamt-IQ durch die Indizes der anderen Testversion
6.1.1
6.1.2-6.1.3
6.1.4-6.1.7
6.2.1-6.2.3
6.2.1
6.2.2
6.2.3
6.3.1-6.3.7
6.3.1
6.3.2-6.3.3
6.3.4-6.3.7
6.3.8-6.3.14
Fragen
1&2
1
2
3&4
3
4
5-8
5
6&7
8
9
6.3.8
6.3.9-6.3.10
6.3.11-6.3.14
6.3.15-6.3.21
10
6.3.15
6.3.16-6.3.17
6.3.18-6.3.21
6.4.1-6.4.16
11 - 13
6.4.1-6.4.4
6.4.5-6.4.14
6.4.15-6.4.16
11
12
13
6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte von
HAWIK-III und -IV
Auf die Formulierung von Hypothesen für die Untertests beider Testversionen wird verzichtet,
da die Interpretation auf Untertestebene äußerst umstritten ist (siehe Kapitel 4.5.2). Dennoch
werden die Ergebnisse der Untertestvergleiche in Kapitel 8 mit angeführt und in die Diskussion
im Kapitel 9 eingebunden, da sie möglicherweise Hinweise über die Ursachen möglicher Differenzen liefern können (siehe dazu Kapitel 4.7.2).
Bei einem Vergleich eines neuen Testverfahrens mit seinem Vorgänger muss davon ausgegangen werden können, dass die mit beiden Testversionen erzielten Werte (hier der IQ) sich nicht
signifikant voneinander unterscheiden. Die erste inhaltliche Fragestellung dieser Studie lautet
demnach:
Fragestellung 1: Gibt es signifikante Unterschiede zwischen dem Gesamt-IQ des HAWIK-III
und dem Gesamt-IQ des HAWIK-IV?
Kapitel 6
101
Dies führt zu folgender statistischer Hypothese:
Hypothese 6.1.1:
H0: Der Mittelwert des Gesamt-IQ des HAWIK-IV unterscheidet sich nicht signifikant vom Mittelwert des Gesamt-IQ des HAWIK-III.
H1: Der Mittelwert des Gesamt-IQ des HAWIK-IV unterscheidet sich signifikant vom Mittelwert
des Gesamt-IQ des HAWIK-III.
Durch den Wegfall des Verbal-und Handlungsteils haben sich neue Strukturen ergeben, die die
Frage aufwerfen, mit welchen Werten des HAWIK-IV diese Gesamtwerte verglichen werden
können. Die Autoren des WISC-IV empfehlen für den Vergleich zwischen HAWIK-III und -IV
dem Verbalteil des HAWIK-III den SV-Index des HAWIK-IV und in ähnlicher Weise dem Handlungsteil des HAWIK-III den WLD-Index des HAWIK-IV gegenüberzustellen, da ihnen ähnliche
Untertests zu Grunde liegen (Wechsler, 2003a). Deshalb wird der Unterschied zwischen diesen
Werten in die vorliegende Untersuchung miteinbezogen.
Da es sich trotz teilweise drastischen Änderungen auf Index-Ebene um den gleichen Test – nur
in unterschiedlichen Versionen – handelt, soll davon ausgegangen werden, dass es in den entsprechenden Indizes beider Versionen keine signifikanten Unterschiede gibt.
Dies führt zu folgender Fragestellung:
Fragestellung 2: Gibt es signifikante Unterschiede zwischen den Index- und Gesamtwerten
des HAWIK-III und denen des HAWIK-IV?
Daraus lassen sich folgende statistische Hypothesen ableiten:
Hypothese 6.1.2:
H0: Die Mittelwerte des Verbalteils des HAWIK-III und des SV-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander.
H1: Die Mittelwerte des Verbalteils des HAWIK-III und des SV-Index des HAWIK-IV unterscheiden sich signifikant voneinander.
Hypothese 6.1.3:
H0: Die Mittelwerte des Handlungsteils des HAWIK-III und des WLD-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander.
H1: Die Mittelwerte des Handlungsteils des HAWIK-III und des WLD-Index des HAWIK-IV unterscheiden sich signifikant voneinander.
Hypothese 6.1.4:
H0: Die Mittelwerte des SV-Index von HAWIK-III und HAWIK-IV unterscheiden sich nicht signifikant voneinander.
H1: Die Mittelwerte des SV-Index von HAWIK-III und HAWIK-IV unterscheiden sich signifikant
voneinander.
Kapitel 6
102
Hypothese 6.1.5:
H0: Die Mittelwerte des WO-Index des HAWIK-III und des WLD-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander.
H1: Die Mittelwerte des WO-Index des HAWIK-III und des WLD-Index des HAWIK-IV unterscheiden sich signifikant voneinander.
Hypothese 6.1.6:
H0: Die Mittelwerte des UA-Index des HAWIK-III und des AGD-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander.
H1: Die Mittelwerte des UA-Index des HAWIK-III und des AGD-Index des HAWIK-IV unterscheiden sich signifikant voneinander.
Hypothese 6.1.7:
H0: Die Mittelwerte des AG-Index des HAWIK-III und des VG-Index des HAWIK-IV unterscheiden
sich nicht signifikant voneinander.
H1: Die Mittelwerte des AG-Index des HAWIK-III und des VG-Index des HAWIK-IV unterscheiden
sich signifikant voneinander.
6.2
Hypothesen zur Faktorenstruktur des HAWIK-III und -IV
Damit die vorliegende Stichprobe als repräsentativ angesehen werden kann, sollte sich die
vorgegebene Faktorenstruktur beider Testversionen auch in dieser Untersuchungsstichprobe
wiederfinden lassen. Dies soll mit Hilfe von Faktorenanalysen (ohne und mit Vorgabe der Faktorenanzahl) untersucht werden. Dafür lassen sich folgende Fragestellungen ableiten und Hypothesen aufstellen:
Fragestellung 3: Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-III in
der vorliegenden Studie replizierbar?
Hypothese 6.2.1:
Aus der exploratorischen Faktorenanalyse des HAWIK-III resultieren die vier vorgegebenen
Indizes SV, WO, UA und AG.
Fragestellung 4: Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-IV in
der vorliegenden Studie replizierbar?
Hypothese 6.2.2:
Aus der exploratorischen Faktorenanalyse des HAWIK-IV resultieren die vier vorgegebenen
Indizes SV, WLD, AGD und VG.
Ein Hinweis darauf, ob beide Testversionen dasselbe messen, könnte eine Faktorenanalyse
geben, in die alle Untertests des HAWIK-III und -IV einschließen. Resultieren daraus die vier
Faktoren, die der vorgegebenen Struktur beider Testversionen entsprechen, könnte dies dafür
sprechen, dass beide Tests dieselben kognitiven Konstrukte erfassen. Dies spiegelt sich in folgender Hypothese wider:
Kapitel 6
103
Hypothese 6.2.3:
Eine Faktorenanalyse unter Einschluss sämtlicher Untertests weist eine Vierfaktorenstruktur
auf, mit einem Faktor, der sich aus den Untertests beider SV-Indizes zusammensetzt, einem
Faktor, der sich aus den Untertests der Indizes WO und WLD zusammensetzt, einem Faktor,
der sich aus den Untertests der Indizes UA und AGD zusammensetzt und einem Faktor, der
sich aus den Untertests der Indizes AG und VG zusammensetzt.
6.3 Hypothesen zum Zusammenhang zwischen HAWIK-III und
HAWIK-IV
Bisherige Studien zum Vergleich zwischen zwei Testverfahren bzw. -versionen eines Verfahrens
ergaben hohe Zusammenhänge zwischen den entsprechenden Werten beider Verfahren bzw.
Versionen. Die Korrelationen auf Gesamt-IQ-Ebene lagen dabei zwischen r = .88 und .92. Zwar
wird in der Literatur allgemein schon eine Korrelation von r = .50 als hoher Zusammenhang
angesehen (Bortz & Döring, 2006), da es sich bei den vorliegenden Vergleichen jedoch um die
Erfassung des selben Konstrukts handelt und bisherige Studien höhere Korrelationskoeffizienten aufwiesen, soll in dieser Studie auf Gesamt-IQ-Ebene von einer Korrelation von mindestens
r = .80 ausgegangen werden.
Fragestellung 5: Weisen die Gesamt-IQ beider Testversionen einen ebenso hohen Zusammenhang auf wie die Gesamt-IQ in vergleichbaren Studien?
Hypothese 6.3.1:
H0: Der Gesamt-IQ des HAWIK-IV korreliert mit r < .80 mit dem Gesamt-IQ des HAWIK-III.
H1: Der Gesamt-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem Gesamt-IQ des HAWIK-III.
Der Vergleich der amerikanischen HAWIK-Versionen ergab zwischen Verbalteil und SV eine
Korrelation von r > .80 und zwischen dem Handlungsteil und dem WLD von r > .60. Daraus
ergeben sich folgende Fragestellungen und Hypothesen:
Fragestellung 6: Weist der Index SV des HAWIK-IV einen ebenso hohen Zusammenhang zum
Verbalteil des HAWIK-III auf wie in vergleichbaren Studien?
Hypothese 6.3.2:
H0: Der SV-IQ des HAWIK-IV korreliert mit r < .80 mit dem Verbalteil des HAWIK-III.
H1: Der SV-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem Verbalteil des HAWIK-III.
Fragestellung 7: Weist der Index WLD des HAWIK-IV einen ebenso hohen Zusammenhang
zum Handlungsteil des HAWIK-III auf wie in vergleichbaren Studien?
Hypothese 6.3.3:
H0: Der WLD-IQ des HAWIK-IV korreliert mit r < .60 mit dem Handlungsteil des HAWIK-III.
H1: Der WLD-IQ des HAWIK-IV korreliert mit r ≥ .60 mit dem Handlungsteil des HAWIK-III.
Kapitel 6
104
Der Vergleich der Indizes orientiert sich ebenfalls an den Ergebnissen der Korrelationsstudie
zwischen WISC-III und -IV. Dabei lagen die Zusammenhänge der vergleichbaren Indizes zwischen r = .72 und .88, auf Untertest-Ebene schwankten sie zwischen r = .62 und .83. Da sich die
Indizes SV und SV sowie AG und VG gar nicht oder nur unwesentlich voneinander unterscheiden, wird bei ihnen von höheren Korrelationen ausgegangen als beim Indexvergleich WO mit
WLD sowie UA mit AGD, da diese Indizes sich inhaltlich deutlich voneinander unterscheiden.
Fragestellung 8: Weisen die einander theoretisch entsprechenden Indizes einen ebenso hohen Zusammenhang auf wie in vergleichbaren Studien?
Es werden folgende Hypothesen aufgestellt:
Hypothese 6.3.4:
H0: Der SV-IQ des HAWIK-IV korreliert mit r < .80 mit dem SV-IQ des HAWIK-III.
H1: Der SV-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem SV-IQ des HAWIK-III.
Hypothese 6.3.5:
H0: Der WLD-IQ des HAWIK-IV korreliert mit r < .60 mit dem WO-IQ des HAWIK-III.
H1: Der WLD-IQ des HAWIK-IV korreliert mit r ≥ .60 mit dem WO-IQ des HAWIK-III.
Hypothese 6.3.6:
H0: Der AGD-IQ des HAWIK-IV korreliert mit r < .70 mit dem UA-IQ des HAWIK-III.
H1: Der AGD-IQ des HAWIK-IV korreliert mit r ≥ .70 mit dem UA-IQ des HAWIK-III.
Hypothese 6.3.7:
H0: Der VG-IQ des HAWIK-IV korreliert mit r < .80 mit dem AG-IQ des HAWIK-III.
H1: Der VG-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem AG-IQ des HAWIK-III.
6.3.1 Einfluss der Testvorgabe
Es stellt sich die Frage, ob die Korrelationen davon beeinflusst werden, welche Testversion
dem Kind zuerst vorgelegt wurde. Daraus ergibt sich folgende Fragestellung:
Fragestellung 9: Hat die Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die
Höhe der Korrelationen?
Daher sollen die Korrelationen zunächst getrennt berechnet und dann die Differenz beider
Korrelationen auf Signifikanz überprüft werden. Aus der Fragestellung lassen sich folgende
Hypothesen ableiten:
Hypothese 6.3.8:
H0: Die Differenz der Korrelationen des Gesamt-IQ je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des Gesamt-IQ je nach Testvorgabe ist signifikant.
Kapitel 6
105
Hypothese 6.3.9:
H0: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Testvorgabe ist signifikant.
Hypothese 6.3.10:
H0: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Testvorgabe ist
nicht signifikant.
H1: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Testvorgabe ist
signifikant.
Hypothese 6.3.11:
H0: Die Differenz der Korrelationen beider SV-Indizes je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen beider SV-Indizes je nach Testvorgabe ist signifikant.
Hypothese 6.3.12:
H0: Die Differenz der Korrelationen des WO und WLD je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des WO und WLD je nach Testvorgabe ist signifikant.
Hypothese 6.3.13:
H0: Die Differenz der Korrelationen des UA und AGD je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des UA und AGD je nach Testvorgabe ist signifikant.
Hypothese 6.3.14:
H0: Die Differenz der Korrelationen des AG und VG je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des AG und VG je nach Testvorgabe ist signifikant.
6.3.2 Einfluss des Zeitintervalls
Zudem soll untersucht werden, ob ein Unterschied hinsichtlich der Höhe der Korrelationen
aufgezeigt werden kann, je nachdem, wie groß der Zeitraum zwischen beiden Testungen war.
Die darauf bezogene Fragestellung lautet wie folgt:
Fragestellung 10: Unterscheidet sich die Höhe der Korrelationen - getrennt nach der Länge
des Intervalls zwischen beiden Testungen - signifikant voneinander?
Dies soll anhand der gematchten Stichprobe untersucht werden, da diese Teilstichprobe die
gleiche Anzahl an Kindern in beiden Gruppen aufweist. Für die gematchte Stichprobe stellt sich
demnach die Frage, ob sich die Korrelationen zwischen langem und kurzem Intervall signifikant
unterscheiden. Dies wird anhand folgender Hypothesen untersucht:
Hypothese 6.3.15:
H0: Die Differenz der Korrelationen des Gesamt-IQ je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des Gesamt-IQ je nach Zeitintervall ist signifikant.
Kapitel 6
106
Hypothese 6.3.16:
H0: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Zeitintervall ist signifikant.
Hypothese 6.3.17:
H0: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Zeitintervall ist
nicht signifikant.
H1: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Zeitintervall ist
signifikant.
Hypothese 6.3.18:
H0: Die Differenz der Korrelationen beider SV-Indizes je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen beider SV-Indizes je nach Zeitintervall ist signifikant.
Hypothese 6.3.19:
H0: Die Differenz der Korrelationen des WO und WLD je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des WO und WLD je nach Zeitintervall ist signifikant.
Hypothese 6.3.20:
H0: Die Differenz der Korrelationen des UA und AGD je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des UA und AGD je nach Zeitintervall ist signifikant.
Hypothese 6.3.21:
H0: Die Differenz der Korrelationen des AG und VG je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des AG und VG je nach Zeitintervall ist signifikant.
6.4
Hypothesen zur Regressionsanalyse
Wie in Kapitel 4.3 aufgeführt, wurde die Untertestzusammensetzung des HAWIK-IV gegenüber
der des HAWIK-III modifiziert. Untertests wie Allgemeines Wissen oder Bilder ergänzen wurden
aus dem obligatorischen Teil entfernt und sind nur noch optionale Untertests, die nicht für die
Berechnung der Indizes und des Gesamt-IQ benötigt werden. Andere Untertests wie Bilderordnen oder Figurenlegen wurden gänzlich aus dem Test entfernt. Es stellt sich nun die Frage, ob
diese teilweise aus theoretischen Überlegungen heraus durchgeführten Veränderungen mit
Hilfe dieser Studie auch statistisch untermauert werden können und zwar im Sinne folgender
Fragestellung:
Fragestellung 11: Haben die entfernten oder nur noch optionalen Untertests weniger zur
Varianzaufklärung des Index beigetragen als die Untertests, die zur Berechnung des GesamtIQ des HAWIK-IV vorgegeben sind?
Daraus lassen sich folgende Hypothesen formulieren:
Kapitel 6
107
Hypothese 6.4.1 zum Index Sprachverständnis:
H0: Der Untertest AW6 des HAWIK-III trägt gleich viel oder mehr zur Varianzaufklärung des
Index SV des HAWIK-III bei als die Untertests GF, WT und AV.
H1: Der Untertest AW des HAWIK-III trägt weniger zur Varianzaufklärung des Index SV des HAWIK-III bei als die Untertests GF, WT und AV.
Hypothesen 6.4.2 und 6.4.3 zum Index Wahrnehmungsorganisation:
H0: Der Untertest MT des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des
Index WO des HAWIK-III bei als die Untertests BE, BO und FL.
H1: Der Untertest MT des HAWIK-III trägt mehr zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BE, BO und FL.
H0: Der Untertest BE des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des
Index WO des HAWIK-III bei als die Untertests BO und FL.
H1: Der Untertest BE des HAWIK-III trägt mehr zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BO und FL.
Hypothese 6.4.4 zum Index Unablenkbarkeit:
H0: Der Untertest ZN des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des
Index UA des HAWIK-III bei als der Untertest RD.
H1: Der Untertest ZN des HAWIK-III trägt mehr zur Varianzaufklärung des Index UA des HAWIKIII bei als der Untertest RD.
Sollen die Ergebnisse des HAWIK-III mit denen des HAWIK-IV verglichen werden, wird davon
ausgegangen, dass den sich entsprechenden Indizes dasselbe Konstrukt zu Grunde liegt. Demnach müssten die Untertests des HAWIK-IV eines Index signifikant zur Varianzaufklärung des
entsprechenden Index des HAWIK-III beitragen. Sollte dies nicht der Fall sein, kann geschlussfolgert werden, dass beide Indizes unterschiedliche Konstrukte bzw. kognitive Fähigkeiten erfassen und demnach nicht unbedenklich miteinander vergleichbar sind. Die dazugehörige Fragestellung lautet:
Fragestellung 12: Tragen die Untertests des HAWIK-IV eines Index signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-III bei?
Dabei werden die Hypothesen nur für die Untertests formuliert, die im HAWIK-IV in die Berechnung der Indizes einfließen.
Hypothesen 6.4.5 bis 6.4.7 zum Index Sprachliches Verständnis des HAWIK-III
H0: Der Untertest GF des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV
des HAWIK-III bei.
H1: Der Untertest GF des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des
HAWIK-III bei.
6
Aufgrund der häufigen Erwähnung der Untertestnamen in den Hypothesen werden sie an dieser Stelle
abgekürzt. Die Erklärungen zu den Abkürzungen befinden sich in Anhang A5 und A6.
Kapitel 6
108
H0: Der Untertest WT des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV
des HAWIK-III bei.
H1: Der Untertest WT des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des
HAWIK-III bei.
H0: Der Untertest AV des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV
des HAWIK-III bei.
H1: Der Untertest AV des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des
HAWIK-III bei.
Hypothesen 6.4.8 bis 6.4.10 zum Index Wahrnehmungsorganisation des HAWIK-III
H0: Der Untertest MT des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO
des HAWIK-III bei.
H1: Der Untertest MT des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des
HAWIK-III bei.
H0: Der Untertest BK des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO
des HAWIK-III bei.
H1: Der Untertest BK des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des
HAWIK-III bei.
H0: Der Untertest MZ des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO
des HAWIK-III bei.
H1: Der Untertest MZ des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des
HAWIK-III bei.
Hypothesen 6.4.11 und 6.4.12 zum Index Unablenkbarkeit des HAWIK-III
H0: Der Untertest ZN des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index UA
des HAWIK-III bei.
H1: Der Untertest ZN des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index UA des
HAWIK-III bei.
H0: Der Untertest BZF des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index UA
des HAWIK-III bei.
H1: Der Untertest BZF des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index UA des
HAWIK-III bei.
Hypothese 6.4.13 und 6.4.14 zum Index Arbeitsgeschwindigkeit des HAWIK-III
H0: Der Untertest ZST des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index AG
des HAWIK-III bei.
H1: Der Untertest ZST des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index AG des
HAWIK-III bei.
H0: Der Untertest SYS des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index AG
des HAWIK-III bei.
H1: Der Untertest SYS des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index AG des
HAWIK-III bei.
Mit Hilfe der Korrelation (siehe Hypothese 6.3.1) kann die Höhe des Zusammenhangs der Gesamt-IQ beider Testversionen festgestellt werden. Im Folgenden soll untersucht werden, mit
Kapitel 6
109
welchen Anteilen die Indizes der einen Testversion zur Varianzaufklärung des Gesamt-IQ der
anderen Testversion beitragen.
Fragestellung 13: Wie viel Varianz des Gesamt-IQ der einen Testversion klären die Indizes der
anderen Testversion auf?
Dies soll Aufschluss darüber geben, welche kognitiven Fähigkeiten der einen Testversion in der
anderen wiederzufinden sind und welche in der anderen Testversion keine signifikante Rolle
spielen.
Hypothese 6.4.15
H0: Die Indizes des HAWIK-IV tragen nicht signifikant zur Varianzaufklärung des Gesamt-IQ des
HAWIK-III bei.
H1: Die Indizes des HAWIK-IV tragen signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-III bei.
Hypothese 6.4.16
H0: Die Indizes des HAWIK-III tragen nicht signifikant zur Varianzaufklärung des Gesamt-IQ des
HAWIK-IV bei.
H1: Die Indizes des HAWIK-III tragen signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV bei.
II Empirischer Teil
Kapitel 7
Methoden und Datenanalyse
111
7 Methoden und Datenanalyse
Allgemeines Wissen, Frage 18: „Wer war Christoph Kolumbus?“
David, 11 Jahre: „Der Bruder von dem, der Amerika entdeckt hat.“
Felix, 10 Jahre: „ Der Mann, der Amerika erfunden hat.“
7.1
Studienablauf
Die Erhebungen erfolgten von Juni 2006 bis Dezember 2007 in Schulen Bremens und Niedersachsens. Nach der Kontaktaufnahme zu den Schulleitern oder zuständigen Lehrern wurden
die Einverständniserklärungen und Informationsblätter an die von den Lehrern per Zufallsprinzip ausgewählten Kinder verteilt.
Eine Testung dauerte in der Regel zwei Schulstunden (circa 90 Minuten) und fand ausnahmslos
am Vormittag statt, in den Grundschulen nur zwischen der ersten und der vierten Stunde, in
den weiterführenden Schulen innerhalb der ersten sechs Schulstunden. Als Belohnung und zur
Aufrechterhaltung der Motivation der Kinder und Jugendlichen wurde ihnen nach der Testung
ein kleines Geschenk überreicht. Die zweiten Testungen erfolgten nach gleicher Prozedur.
Die Testungen wurden größtenteils von der Verfasserin selbst durchgeführt. In Einzelfällen
kamen Studierende zum Einsatz, die vorher von der Verfasserin im Rahmen der Normierung
des HAWIK-IV intensiv geschult und supervidiert wurden und bereits eine große Anzahl an
Testdurchführungen absolviert hatten.
Die Auswertung der Testbögen erfolgte ausschließlich durch die Verfasserin. Da für den HAWIK-IV zum Zeitpunkt der Studie noch kein elektronisches Auswerteprogramm zur Verfügung
stand, wurden die Tests mit Hilfe der Normierungstabellen des HAWIK-IV-Manuals (Petermann
& Petermann, 2008a) per Hand ausgewertet. Die Wertpunkte und IQ-Werte wurden in eine
Microsoft Access Datenbank eingegeben und danach in SPSS überführt.
7.2
Studiendesign
Aufgrund des Lerneffektes, der die Ergebnisse einer Retest-Studie beeinflussen kann, wurden
zwei unterschiedliche Intervalle zwischen erster und zweiter Testung festgelegt. So wurden
zum ersten Testzeitpunkt (t1) zunächst alle Kinder untersucht. Während der zweite Erhebungszeitpunkt (t2a) für die eine Hälfte der Kinder und Jugendlichen bereits nach etwa einem Monat
erfolgte, wurde für die andere Hälfte der zweite Messzeitpunkt (t2b) nach einem Intervall von
mindestens einem halben Jahr veranschlagt (siehe Abbildung 7.1). Somit sollten zusätzlich zum
in vergleichbaren Studien üblichen Re-Testintervall von etwa einem Monat (siehe Kapitel 5.1)
Daten erhoben werden, in der von weniger Erinnerungseffekt ausgegangen werden kann. Au-
Kapitel 7
112
ßerdem wurde ein ausbalanciertes Design festgelegt. Somit sollte einer Hälfte der Kinder und
Jugendlichen zunächst der HAWIK-III und der anderen Hälfte zunächst der HAWIK-IV vorgelegt
werden. Zur besseren Lesbarkeit sollen im Folgenden die unterschiedlichen Stichproben so
bezeichnet werden, wie es der Tabelle 7.1 zu entnehmen ist.
Tabelle 7.1: Abkürzungen der Stichproben.
Stichprobe
Gesamtstichprobe
Gesamtstichprobe nach kurzem Intervall
Gesamtstichprobe nach langem Intervall
Gesamtstichprobe mit Erstvorgabe HAWIK-III
Gesamtstichprobe mit Erstvorgabe HAWIK-IV
Gesamtstichprobe nach kurzem Intervall mit Erstvorgabe des HAWIK-III
Gesamtstichprobe nach kurzem Intervall mit Erstvorgabe des HAWIK-IV
Gesamtstichprobe nach langem Intervall mit Erstvorgabe des HAWIK-III
Gesamtstichprobe nach langem Intervall mit Erstvorgabe des HAWIK-IV
Abkürzungen
G
GK
GL
G-III
G-IV
GK-III
GK-IV
GL-III
GL-IV
Zur Vermeidung eines Einflusses des Geschlechts sollte zudem eine gleich große Anzahl Jungen
und Mädchen getestet werden.
Abbildung 7.1 veranschaulicht das Design der Studie.
GL-III*
HAWIK-III
HAWIK-IV
ca. 6 Monate
GL-IV*
HAWIK-IV
GK-III*
HAWIK-III
HAWIK-III
HAWIK-IV
ca. 1 Monat
GK-IV*
HAWIK-IV
t1
Gesamtstichprobe
HAWIK-III
t2a
GK*
t2b
GL*
Abbildung 7.1: Design der Studie.
Anmerkung: * = Abkürzungen siehe Tabelle 7.1.
Um eine Gleichverteilung hinsichtlich der Testreihenfolge und des Geschlechts der Kinder und
Jugendlichen zu erreichen, wurde eine Stichprobe angestrebt wie sie Tabelle 7.2 zu entnehmen
ist.
Kapitel 7
113
Tabelle 7.2: Geplante Stichprobenverteilung (n=176).
Alter
6
7
8
9
10
11
12
13
14
15
16
Gesamt
7.3
kurzes Intervall
männlich weiblich
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
44
44
langes Intervall
männlich weiblich
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
44
44
Stichprobenbeschreibung
Insgesamt wurden 236 Kinder mit beiden Testverfahren untersucht. Davon wurden 223 Kinder
und Jugendliche in die Untersuchung miteinbezogen, 13 Datensätze konnten auf Grund fehlender Werte nicht berücksichtigt werden.
7.3.1 Gesamtstichprobe
Zur weitestgehenden Vermeidung von Verzerrungen wurde auf eine möglichst repräsentative
Gestaltung der Stichprobe Wert gelegt. Tabelle 7.3 gibt die alters- und geschlechtsspezifische
Aufteilung der Stichprobe getrennt nach kurzem und langem Intervall wieder. Die Gesamtstichprobe bilden 108 Jungen und 115 Mädchen.
Tabelle 7.3: Zusammensetzung der Untersuchungsstichprobe (n= 223).
Alter
6
7
8
9
10
11
12
13
14
15
16
Gesamt
kurzes Intervall
männlich weiblich
4
5
7
5
5
6
6
4
3
5
4
4
4
6
5
5
6
12
11
7
4
10
59
69
langes Intervall
männlich weiblich
4
4
4
5
5
4
7
2
4
5
5
4
4
4
4
7
4
4
4
3
4
4
49
46
Kapitel 7
114
Abbildung 7.2 stellt die Stichprobenverteilung unterteilt in das Geschlecht der Kinder und Jugendlichen und Abbildung 7.3 die Stichprobenverteilung unterteilt in die Länge des Intervalls
über die 11 Altersstufen hinweg graphisch dar.
Abbildung 7.2 verdeutlicht die annähernde Gleichverteilung hinsichtlich Alter und Geschlecht.
Einzig in den Altersstufen 9 und 15 überwiegt der Anteil der Jungen, während in den Altersstufen 10, 12, 13, 14 und 16 die Mädchen den größeren Stichprobenanteil ausmachen.
16
16
14
12
10
8
6
4
2
0
9 11 10 10 10
8
10
10
9 8 8
6 7
10
10
9
14
15
12
13
8
männlich
weiblich
6
7
8
9
10
11
12
13
14
15
16
Abbildung 7.2: Geschlechtsverteilung der Gesamtstichprobe über die 11 Altersgruppen.
Der Abstand zwischen beiden Testungen wies bei 128 Kindern und Jugendlichen durchschnittlich 39 Tage auf (SD = 16 Tage, Minimum 5, Maximum 104 Tage), bei 95 Kindern und Jugendlichen lagen durchschnittlich 8 Monate und 18 Tage (SD = 5 Monate und 12 Tage, Minimum 4,
Maximum 24 Monate) zwischen beiden Testungen.
Wie aus Abbildung 7.3 ersichtlich wird, überwiegen bei den älteren Kindern diejenigen, die
nach einem kurzen Intervall erneut getestet wurden. In den anderen Altersbereichen konnte
eine annähernde Gleichverteilung erreicht werden.
18
18
16
14
12
10
8
6
4
2
0
12
9 8
18
14
11
9 11 9 10 9
9
8
9
8
10 8 10
8
8
7
kurz
lang
6
7
8
9
10
11
12
13
14
15
16
Abbildung 7.3: Aufteilung der Länge des Re-Testintervalls über die 11 Altersgruppen.
Kapitel 7
115
Die Vorgabe der Testversionen erfolgte in ausbalancierter Reihenfolge. So wurde 111 Kindern
zunächst der HAWIK-III und 112 Kindern zunächst der HAWIK-IV vorgelegt. Abbildung 7.4 lässt
sich entnehmen, wie sich die Erstvorgabe in der Gesamtstichprobe über die verschiedenen
Altersstufen hinweg verteilt.
16
14
16
14
12
10
8
6
4
2
0
14
13
10
7
6
10
11 9 11
8
7
7
7
7
8
9
10
12
11
9 10
11
11
11
4
11
HAWIK-III
zuerst
HAWIK-IV
zuerst
12
13
14
15
16
Abbildung 7.4: Verteilung der Reihenfolge der Testvorgabe über die 11 Altersgruppen.
Die Daten wurden in mehreren Schulen erhoben, in denen unterschiedliche Schulformen integriert sind. Tabelle 7.4 zeigt die Verteilung der 223 Kinder und Jugendlichen auf die von ihnen besuchten Schulformen.
Tabelle 7.4: Verteilung der Untersuchungsstichprobe nach besuchtem Schultyp.
Schultyp
Grundschule
Hauptschule
Realschule
Gymnasium
Gesamtschule
Gesamt
Häufigkeit
76
3
42
77
25
223
Prozent (%)
34,1
1,3
18,8
34,5
11,2
100
Die Kinder, die zum Testzeitpunkt die Hauptschule besuchten, machen nur einen geringen
Anteil der Stichprobe aus. Allerdings gehörte ein Großteil der Kinder und Jugendlichen der
Gesamtschule dem Hauptschulzweig an. Die Verteilung auf die anderen Schulformen entspricht annähernd der derzeitigen Verteilung der Kinder in der Bevölkerung auf die jeweiligen
Schulformen (2007 besuchten 33,7 % der Schüler die Grundschule, 10,2 % die Hauptschule,
14 % die Realschule, 26,2 % das Gymnasium und 5,4 % eine integrierten Gesamtschule, siehe
Statistisches Bundesamt, 2007).
7.3.2 Gematchte Stichprobe
Da im langen Intervall die Abstände zwischen beiden Testungen sehr stark variieren, wurde
diese Stichprobe noch einmal in zwei Untergruppen unterteilt: die Gruppe mit einem ReTestintervall von vier bis neun Monaten und die Kinder, bei denen 12 bis 24 Monate zwischen
Kapitel 7
116
beiden Testungen liegen. Daraus ergibt sich folgende Verteilung: 72 Kinder weisen ein Intervall
von vier bis neun Monaten auf (Mittelwert = 5.78 Monate, SD = 1.27), bei 23 Kindern lagen 12
bis 24 Monate zwischen beiden Testungen (Mittelwert = 17.3; SD = 3.87).
Um für die Vergleiche zwischen kurzem und langem Intervall (genauer gesagt den 72 Kindern,
die ein Intervall von vier bis neun Monaten aufweisen) eine homogene Stichprobe zu erhalten,
wurde aus der Gruppe des kurzen Intervalls eine zur Gruppe mit dem 4- bis 9-Monats-Intervall
gematchte Stichprobe ermittelt. Die 23 Kinder mit einem Re-Testintervall von mehr als einem
Jahr wurden für diese Teilstichprobe unberücksichtigt gelassen. Somit befinden sich in beiden
Gruppen jeweils 72 Kinder mit gleicher Geschlechts- und Schulformverteilung und annähernd
gleicher Altersverteilung. Außerdem haben in beiden Stichproben die gleiche Anzahl an Kindern erst den HAWIK-III bzw. erst den HAWIK-IV durchgeführt (siehe Abbildung 7.5 und Tabelle
7.5 bis Tabelle 7.7).
Wie die Abbildung 7.5 verdeutlicht, weisen nur in den Altersstufen ab 12 Jahren eine unterschiedliche Anzahl an Kindern ein kurzes bzw. langes Test-Retest-Intervall auf.
9
10
7
8
9
8
7
9
8
6
6
4
4
4
3
6
6
3
9 8
9
8
7
6
5
3
kurz
lang
2
0
6
7
8
9
10
11
12
13
14
15
16
Abbildung 7.5: Altersverteilung der gematchten Stichprobe.
Die Verteilung auf die unterschiedlichen Schultypen zeigt in beiden Unterstichproben ein identisches Bild (siehe Tabelle 7.5).
Tabelle 7.5: Schultypverteilung der gematchten Stichprobe (n= 144).
Schultyp
Grundschule
Hauptschule
Realschule
Gymnasium
Gesamtschule
Gesamt
kurzes
Intervall
28
1
15
26
2
72
langes
Intervall
28
1
15
26
2
72
Kapitel 7
117
Während jeweils nur ein Kind die Hauptschule und jeweils zwei Kinder eine Gesamtschule besuchten, besuchte der Großteil der Kinder bezogen auf die weiterführenden Schulen das Gymnasium. Die Realschule wurde zum Zeitpunkt der Testungen von etwa einem Drittel der älteren
Kinder besucht.
Die folgende Tabelle 7.6 gibt die Geschlechtsverteilung der gematchten Teilstichprobe wieder.
Tabelle 7.6: Geschlechtsverteilung der gematchten Stichprobe (n= 144).
Geschlecht
männlich
weiblich
Gesamt
kurzes
Intervall
32
40
72
langes
Intervall
32
40
72
Die prozentuale Verteilung von 44,4 % Jungen gegenüber 55,6 % Mädchen kann als ungefähre
Gleichverteilung hinsichtlich des Geschlechts angesehen werden.
Schließlich gibt Tabelle 7.7 die Unterteilung der Teilstichprobe auf die Reihenfolge der Testvorgabe an.
Tabelle 7.7: Reihenfolge der Testvorgabe der gematchten Stichprobe (n= 144).
Testvorgabe
HAWIK-III zuerst
HAWIK-IV zuerst
Gesamt
kurzes
Intervall
26
46
72
langes
Intervall
26
46
72
Anders als in der Gesamtstichprobe liegt demnach in der Teilstichprobe mit 36,1 % (HAWIK-III
zuerst) gegenüber 63,9 % (HAWIK-IV zuerst) keine vollständig ausbalancierte Reihenfolge vor.
Die Abkürzungen für die gematchte Stichprobe sowie die beiden Unterstichproben kann Tabelle 7.8 entnommen werden.
Tabelle 7.8: Abkürzungen der gematchten Stichproben.
Stichprobe
Gematchte Stichprobe
Gematchte Stichprobe nach kurzem Intervall
Gematchte Stichprobe nach langem Intervall
Abkürzungen
GemS
GemSK
GemSL
7.4 Untersuchungsinstrumente
Da die Untersuchungsinstrumente HAWIK-III und -IV in Kapitel 4 bereits ausführlich vorgestellt
wurden, werden in Tabelle 7.9 lediglich die wichtigsten Eckdaten beider Verfahren zusammengefasst.
Kapitel 7
118
Tabelle 7.9: Eckdaten des HAWIK-III und -IV.
Kategorien zu Eckdaten
Erscheinungsjahr
Normierungsstichprobe
Normierungszeitraum
Reliabilität des Gesamt-IQ
Reliabilitäten der Index-Werte
Reliabilitäten der Untertests
Objektivität
Faktorenanalysen
Validierungsstudien im Manual
Anzahl der Untertests
Anzahl notwendiger Untertests
zur Berechnung des Gesamt-IQ
Anzahl notwendiger Untertests
zur Berechnung der Indizes
HAWIK-III
1999
1 570
1995 - 1998
.96
.87 - .94
.68 - .88
weitestgehend
gegeben
Index-Struktur nicht
eindeutig bestätigt
HAWIK-R vs. -III
Lernbehinderung
Schulformen
Noten/Lehrerurteil
ADHS
13
HAWIK-IV
2007
1 650
2005 - 2006
.97
.87 - .94
.76 - .91
weitestgehend
gegeben
Indexstruktur
bestätigt
HAWIK-III vs. -IV
Hochbegabung
Intelligenzminderung
LRS
ADHS
15
10
10
12
10
Der Aufbau der Tests sowie die inhaltliche Beschreibung der Untertests können dem vierten
Kapitel entnommen werden.
7.5 Statistische Methoden zur Analyse der Daten
Die Analyse der Daten erfolgte mit dem Statistikprogramm SPSS 15.0 für Windows. Das Signifikanz-Niveau wurde auf α = 5 % festgelegt. Da die zu untersuchenden Variablen intervallskaliert
sind und durch die hinreichend große Stichprobe die Voraussetzung der Normalverteilung vorliegt, gelten die Bedingungen für die Anwendung parametrischer Testverfahren als erfüllt.
7.5.1 t-Tests für abhängige Stichproben
Zur Überprüfung der Differenz beider Stichproben auf Signifikanz werden t-Tests für abhängige
Stichproben durchgeführt. Es werden Messwertpaare gebildet, in dem die Werte der Untertests, Indizes und des Gesamt-IQ des HAWIK-III mit den Werten der entsprechenden Untertests, Indizes und dem Gesamt-IQ des HAWIK-IV verglichen werden. Dabei wird der ermittelte
t-Wert mit dem für ein Signifikanzniveau von α = 0.05 kritischen t-Wert verglichen.
Da es sich auf Untertest- und Index-Ebene bei den t-Tests um multiple Vergleiche handelt, wird
eine Alpha-Korrektur nach Bonferroni-Holm vorgenommen, die zu einer Anpassung des AlphaNiveaus führt (Schlittgen, 2004). Zunächst werden dabei die Signifikanzen der einzelnen Mittelwertvergleiche nach ihrer Höhe sortiert. Für den Test, der die deutlichste Signifikanz aufweist, wird das Alpha-Niveau α= .05 durch die Anzahl der vorgenommenen Vergleiche dividiert
Kapitel 7
119
(bezeichnet mit k). Der Test mit der nächst höheren Signifikanz wird wiederum durch die Anzahl der verbleibenden Vergleiche, also k-1, dividiert. Erst die Variable mit der geringsten Signifikanz wird somit mit dem ursprünglichen Alpha-Niveau von α= .05 verglichen.
7.5.2 Faktorenanalysen
Das Hauptziel der Faktorenanalyse ist es, einem größeren Variablensatz eine ordnende Struktur zu unterlegen und somit eine Datenreduktion zu erreichen. Dies geschieht, indem Variablen gemäß ihrer korrelativen Beziehungen in voneinander unabhängige Gruppen klassifiziert
werden. Somit lassen sich Entscheidungen darüber treffen, welche Variablen gemeinsame und
welche unterschiedliche Informationen erfassen. Man erhält also mit einer Faktorenanalyse
wechselseitig voneinander unabhängige Faktoren, die die Zusammenhänge zwischen den Variablen erklären, die auf einem Faktor liegen (Bortz, 2005).
In dieser Studie soll mit Hilfe der Faktorenanalyse die interne Struktur der Testbatterien HAWIK-III und HAWIK-IV untersucht werden. Dabei wird überprüft, inwieweit die erhaltenen Ladungsmuster zur hypothetischen Struktur beider Testverfahren passen. Dafür wird zunächst
eine Hauptkomponentenanalyse ohne Vorgabe der zu extrahierenden Faktoren durchgeführt.
Zusätzlich wird eine Faktorenanalyse mit Vorgabe der vier testtheoretisch vorhandenen Faktoren durchgeführt. Die Faktorenrotation erfolgt nach dem Varimax-Kriterium (Diehl & Staufenbiehl, 2007). Aufgrund der nur geringfügigen Unterschiede hinsichtlich der Stichprobengröße
(bei wenigen Untertests weicht sie um ein oder zwei Kinder ab) wird ein paarweiser Fallausschluss vorgenommen.
7.5.3 Korrelationen
Die Berechnung der Höhe des Zusammenhangs in Form von Korrelationen beinhaltet die größte Aussagekraft über die Vergleichbarkeit beider Testversionen. Die Korrelation misst die Stärke des Zusammenhangs zweier Merkmale. Der Grad und die Richtung der linearen statistischen Abhängigkeit zweier intervallskalierter und normalverteilter Merkmale lassen sich mit
Hilfe des Produktmoment-Korrelationskoeffizienten r nach Pearson (Kähler, 2008) berechnen.
Um den Vergleich mit bisherigen Korrelationsstudien zu ermöglichen, wird nicht mit den
Wertpunktsummen sondern den IQ-Werten der Indizes und Gesamtwerte gerechnet, so dass
jedoch nicht von einer linearen Abhängigkeit ausgegangen werden kann (Näheres dazu siehe
Kapitel 7.5.4).
In Anlehnung an die Korrelationstabellen der amerikanischen und deutschen Testmanuale wird
zusätzlich die Standarddifferenz angegeben. Sie stellt die Differenz beider Testmittelwerte
geteilt durch die Quadratwurzel der gepoolten Varianz dar, die mit Hilfe von Cohens (1996)
Formel 10.4 berechnet wird. Die Formel lautet:
Kapitel 7
wobei
120
.
Die gepoolte Varianz bezeichnet den Durchschnittswert der Stichprobenvarianzen. Die Standarddifferenz gibt demnach an, inwieweit es einen Unterschied macht, ob der HAWIK-III oder
der HAWIK-IV verwendet wird, also sozusagen die Höhe des Effektes der Testauswahl.
Bei der Untersuchung des Lerneffektes in der vorliegenden Arbeit werden die Standarddifferenzen auf anderem Weg berechnet. Da vorher die Differenzen zwischen den Mittelwerten des
ersten und zweiten Tests über die Definition neuer Variablen gebildet werden, liegen nur ein
Mittelwert und eine Standardabweichung vor. Daher wird die Standarddifferenz für den Lerneffekt berechnet, indem der Mittelwert der Differenzen durch die Standardabweichung geteilt
wird.
7.5.3.1 Zusammengefasste Werte
Die oben beschriebenen Berechnungen gelten nur für die Korrelationsberechnungen getrennt
nach der Erstvorgabe der beiden Testversionen. Die Werte der Korrelationstabellen, in denen
diese beiden Unterstichproben zusammengefasst sind, werden wie folgt berechnet:
Mittelwert: Der zusammengefasste Mittelwert wird aus den Mittelwerten der IQ- und Wertpunkte der Untertests, Indizes und Gesamtwerte bei Erstvorgabe des HAWIK-III und Erstvorgabe des HAWIK-IV berechnet.
Standardabweichung: Die zusammengefasste Standardabweichung entspricht der Wurzel der
gepoolten Varianz (siehe oben) der Standardabweichung beider Werte (Erstvorgabe des HAWIK-III und des HAWIK-IV).
Korrelationen: Da bei einer Korrelation ein Wert von r = .80 gegenüber einem Wert von r = .40
nicht gleichbedeutend ist mit einem doppelt so hohen Zusammenhang, muss bei einer Mittelung mehrerer Korrelationen eine Standardisierung der Werte mittels einer z-Transformation
erfolgen. Somit werden hohe Korrelationen stärker berücksichtigt als niedrige Korrelationen.
Der zusammengefasste Korrelationskoeffizient errechnet sich aus den Fisher-z-transformierten
Werten beider Korrelationen (Korrelation bei Erstvorgabe HAWIK-III und Korrelation bei Erstvorgabe HAWIK-IV), gewichtet an den Freiheitsgeraden. Der daraus resultierende Wert wird
mit Hilfe einer inversen z-Transformation in einen Korrelationswert zurückgeführt. Aus
also
und aus
wird
wird
. Die Gewichtung an den Freiheitsgeraden erfolgt über die Formel:
.
Der Wert wird daraufhin per inverser Fisher-z-Transformation zu .
Korrigierte Korrelationen: rkorr stellt die hinsichtlich der Varianzeinschränkung im HAWIK-IV
korrigierten Korrelationswerte dar (Guilford & Fruchter, 1978). Gemäß Cascio (1991) schätzen
Kapitel 7
121
korrigierte Koeffizienten den wahren Zusammenhang besser als Koeffizienten ohne Korrektur.
Wenn eine Validierungsstudie eine eingeschränkte Stichprobe aufweist, die nicht den gesamten Umfang möglicher Leistungsbereiche abdeckt, führt eine Korrektur dazu, dass die Werte
eher der Gesamtstichprobe entsprechen. Die Korrekturformel, wie sie für die WISC-IV verwendet wurde, lautet:
,
wobei rc dem Korrelationswert der vorliegenden Validierungsstichprobe mit eingeschränkter
Varianz, Sc der Standardabweichung der vorliegenden und Su der SD der Gesamtstichprobe der
HAWIK-IV-Normierung entspricht (Epstein, Mooney, Ryser & Pierce, 2004).
Für den Vergleich HAWIK-R und HAWIK-III wurde die Formel
verwendet (Lienert & Raatz, 1998).
Im Folgenden werden die Ergebnisse beider Korrekturvarianten angegeben, auf Grund der
moderateren Berechnungsweise jedoch nur die nach der amerikanischen Version korrigierten
Werte interpretiert. Da aufgrund diverser Störeinflüsse wie dem Flynn-Effekt (siehe Kapitel
5.2.2) die HAWIK-III-Werte ein weniger valides Abbild der wahren Werte liefern als die Werte
des HAWIK-IV, ihnen also ein größerer Messfehler innewohnt, wird die Korrektur der Korrelationen nur für die Werte des HAWIK-IV vorgenommen.
Signifikanz: Der Signifikanzwert p bezeichnet den Wert, der angibt, ob sich die Differenz zwischen den Korrelationen als signifikant erweist.
7.5.4 Regressionsanalysen
Auch wenn auf die Berechnung in Form einer linearen Regression zurückgegriffen wurde, handelt es sich hierbei nicht um eine lineare Regression, da durch die Umrechnung der (linearen)
Wertpunktsummen in IQ-Werte die Linearität zu Gunsten der Standardisierung in einen festgelegten Wertebereich mit einer Standardabweichung von +/- 15 Wertpunkten nicht gegeben ist.
Somit werden in den Randbereichen die Werte künstlich verändert, um den vorgegebenen
Wertebereich (beim Gesamt-IQ stehen beispielsweise Werte von 40-160 zur Verfügung) abzudecken. Im relevanten mittleren Bereich (im Bereich Mittelwert +/- 1 SD liegen 68,27 % der
Gesamtpopulation) kann jedoch von Linearität ausgegangen werden. Auch andere Studien
dieser Art beruhen auf Analysen mit den IQ-Werten, da sie ebenso wie diese Studie das Ziel
verfolgen, dem Praktiker Hilfestellung im Umgang mit dem neuen Testverfahren zu geben und
in der Praxis nicht die Wertpunktsummen, sondern die IQ-Werte herangezogen werden. Bei
der linearen Regression wird im Gegensatz zur Korrelation nicht nur die Höhe des Zusammen-
Kapitel 7
122
hangs zwischen zwei Merkmalen, sondern auch die Abhängigkeit eines Merkmals vom anderen
Merkmal untersucht und als linearer Zusammenhang in Form einer Gleichung ausgedrückt
(Bortz, 2005). Hängen zwei Variablen zusammen, kann so die eine Variable auf Basis der anderen vorhergesagt werden. Die Vorhersage wird über folgende lineare Beziehung (Regressionsgerade) vorgenommen:
, wobei
punkt der Geraden mit der -Achse und
dem vorhergesagten Wert,
dem Schnitt-
der Steigung der Geraden entspricht. Ziel einer li-
nearen Regression ist es, eine Gerade zu bestimmen, die den Gesamttrend aller Punkte am
besten wiedergibt. Sie soll demnach so gewählt werden, dass die Abstände zwischen der Geraden und den empirisch beobachteten Werten minimiert werden. Die Gerade, die von der Gesamtheit aller Punkte den geringsten Abstand aufweist, wird Regressionsgerade genannt. Sie
wird durch folgenden Regressionskoeffizienten charakterisiert:
.
Der Determinationskoeffizient
gibt den Varianzanteil der abhängigen Variablen wieder, der
mit der unabhängigen Variablen vorhergesagt bzw. erklärt werden kann:
.
7.5.4.1 Multiple lineare Regression
Wird eine Kriteriumsvariable mit Hilfe mehrerer Prädiktorvariablen vorhergesagt, spricht man
von einer multiplen Regression. Die Aufgabe der multiplen Regressionsrechnung ist es, βKoeffizienten zu ermitteln, sogenannte Beta-Gewichte. Zur Überprüfung, welche Prädiktorvariable die meiste Varianz einer abhängigen Variablen aufklärt, wird die Einschluss-Methode
gewählt, in der alle Variablen simultan in einem Schritt in die Regressionsgleichung aufgenommen werden (Diehl & Staufenbiehl, 2007). Somit wird der Anteil der gemeinsamen Varianz
der Variablen heraus gerechnet. Das Beta-Gewicht spiegelt also den Beitrag eines Prädiktors
zur Vorhersage der unabhängigen Variablen wider.
7.5.4.2 Vorhergesagte Werte und Konfidenzintervalle
In dieser Studie wird mit Hilfe der linearen Regression zusätzlich die Abhängigkeit einer IQSkala des HAWIK-IV (abhängige Variable) von der entsprechenden IQ-Skala des HAWIK-III
(unabhängige Variable) untersucht. Damit soll vorhergesagt werden, welchen HAWIK-IV-Wert
ein Kind voraussichtlich erhält, wenn der entsprechende HAWIK-III-Wert bekannt ist.
Dabei wird der vorhergesagte Wert unter Ausschluss der Konstante in die Gleichung berechnet. Der Term a wird also immer auf 0 gesetzt (siehe oben) und somit mit Hilfe von SPSS eine
Kurvenanpassung vorgenommen. Der vorhergesagte Wert für jeden empirisch ermittelten IQWert des HAWIK-III ergibt sich aus der Multiplikation des HAWIK-III-Wertes und der Steigung
der Regressionsgerade, also b (siehe oben). Da nicht sämtliche IQ-Werte des HAWIK-III in der
Kapitel 7
123
Stichprobe zu finden sind, werden die empirischen Werte nach Errechnung der Regressionsgerade per Hand berechnet.
Zusätzlich soll das 95 %-Konfidenzintervall des zu erwartenden Wertes berechnet werden. Die
Konfidenzintervalle (KI) werden ebenfalls für jeden Wert einzeln per Hand berechnet, in dem
der für jeden vorhergesagten Wert entsprechende Standardfehler ermittelt wird. Dieser wird
in die Gleichung zur Berechnung eines Konfidenzintervalls aufgenommen. Das Konfidenzintervall für einen Wert wird wie folgt berechnet:
, wobei
dem erwarteten Wert (also dem HAWIK-IV-IQ-Wert) und
dem z-Wert entsprechend des gewählten Signifikanzniveaus entspricht. Bei einem 95 %Konfidenzintervall ergibt sich ein
-Wert von 1.96.
steht für den Standardfehler, auch
Standardmessfehler genannt, der sich wie folgt berechnet:
, wobei
der Standardabweichung der verwendeten Normskala und
dem
Reliabilitätskoeffizienten des verwendeten Tests entspricht. Vereinfacht ausgedrückt kann das
95 %-Konfidenzintervall per Hand berechnet werden, indem vom erwarteten Wert die Summe
aus 1.96 multipliziert mit dem jeweiligen Standardfehler abgezogen bzw. hinzugerechnet wird.
Kapitel 8
Ergebnisse
124
8 Ergebnisse
Begriffe erkennen, Frage 13:
„Man findet es in der Natur und es fließt Wasser heraus. Was ist das?“
Alina, 10 Jahre: „Ein Elefant.“
Die Ergebnisse beziehen sich auf die gemäß der theoretischen Erwartungen postulierten Hypothesen (siehe Kapitel 6).
8.1
Explorative Datenanalyse
Die explorative Datenanalyse soll zunächst einen Eindruck von der Verteilung der Testwerte
dieser Stichprobe vermitteln und somit Hinweise auf die zu erwartenden Ergebnisse liefern.
8.1.1 Deskriptive Statistiken des HAWIK-III
Die deskriptive Beschreibung der Daten erfolgt auf der Basis der Datensätze von 223 Kindern
und Jugendlichen. Tabelle 8.1 beinhaltet die Extremwerte (Minimum und Maximum) sowie die
Mittelwerte und Standardabweichungen für jeden Untertest und jeden Index- und GesamtWert des HAWIK-III.
Tabelle 8.1: Deskriptive Angaben des HAWIK-III.
Untertest/Index Minimum Maximum
M
SD
BE
3
18
11.1 3.0
AW
3
19
11.0 2.8
ZST
4
19
11.6 3.1
GF
3
19
11.8 2.8
BO
1
19
10.8 3.3
RD
4
19
11.1 2.8
MT
3
19
11.1 3.2
WT
4
19
11.6 2.8
FL
1
18
9.8
3.0
AV
7
19
11.2 2.0
SS
3
19
11.6 2.8
ZN
3
18
9.9
2.6
SV
78
147
110.1 13.7
WO
72
148
105.5 14.4
UA
76
144
103.6 13.2
AG
74
148
109.3 14.6
Verbal-IQ
78
148
108.9 12.9
Handlungs-IQ
71
141
106.9 14.2
Gesamt-IQ
76
141
108.9 13.3
Anmerkungen: M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang
A5 und A6.
Kapitel 8
Ergebnisse
125
Wie aus der Tabelle 8.1 ersichtlich, liegen die Untertestmittelwerte des HAWIK-III bis auf ZN7
und FL über dem teststandardisierten Mittelwert 10. GF, WT, ZST und SS zeigen mit einem
Mittelwert von 11.6 die größten Abweichungen vom Wertpunkt 10 auf. Auch die Index- und
Gesamtwerte befinden sich weit oberhalb des festgelegten Altersdurchschnitts von 100. Als
höchster Index erweist sich SV mit einem Mittelwert von 110.1, als niedrigster Index UA mit
103.6 IQ-Punkten im Mittel. Der IQ des Verbalteils liegt leicht über dem des Handlungsteils,
der Gesamtwert weist im Mittel 108.9 IQ-Punkte auf. Zur Veranschaulichung werden in Abbildung 8.1 die Mittelwerte, Standardabweichungen und Ausreißer des Gesamt-, Verbal- und
Handlungs-IQ des HAWIK-III in Form eines Box-Plots graphisch dargestellt.
Abbildung 8.1: Box-Plot des Gesamt-, Verbal- und Handlungs-IQ des HAWIK-III.
Anmerkungen: Sternchen (*) stellen statistische Ausreißer dar.
Der Verbal-IQ weist die geringste Streuung innerhalb der drei Gesamtwerte auf. Außerdem
wird durch die Abbildung 8.1 ersichtlich, dass im Verbal-IQ die Personen, die Werte im Extrembereich erzielten, als statistische Ausreißer gewertet werden können. Abbildung 8.2 illustriert die statistischen Kennwerte der HAWIK-III-Indizes SV, WO, UA und AG. Die Box-Plots
veranschaulichen die überdurchschnittlich hohen Testergebnisse in den Indizes SV und AG
sowie die große Streuung in den Indizes WO und AG.
7
Aufgrund der häufigen Erwähnung der Untertests werden in diesem Kapitel ihre Abkürzungen verwendet. Erklärungen zu den Abkürzungen können Anhang A5 und A6 entnommen werden.
Kapitel 8
Ergebnisse
126
Abbildung 8.2: Box-Plot der Indizes SV, WO, UA und AG des HAWIK-III.
Anmerkungen: Sternchen (*) stellen statistische Ausreißer dar. Abkürzungen siehe Anhang A5
und A6.
Insgesamt können, bis auf zwei Ausnahmen (FL und ZN), höhere Mittelwerte in den Untertests
und Indizes gegenüber denen der Normierungsstichprobe festgehalten werden. Die Standardabweichung der HAWIK-III-Untertests liegt relativ nah an den in der Normierungsstichprobe
festgelegten drei Wertpunkten, einzig AV weist mit 2.0 eine deutlich niedrigere Standardabweichung auf. Die Gesamt- und Indexwerte besitzen deutlich niedrigere Standardabweichungen als die Normierungsstichprobe (dort liegt die SD bei circa 15 Wertpunkten).
8.1.2 Deskriptive Statistiken des HAWIK-IV
Die Leistungen der 223 Kinder und Jugendlichen in den Untertests des HAWIK-IV ergeben Mittelwerte zwischen 10.4 im ZN und 11.2 im MT (siehe Tabelle 8.2). Von den Prozesswerten
weist einzig ZN-V einen Mittelwert unterhalb von 10 auf, alle anderen Prozesswerte liegen im
Mittel zwischen 10.5 und 11.2 Wertpunkten.
Kapitel 8
Ergebnisse
127
Tabelle 8.2: Deskriptive Angaben des HAWIK-IV.
Untertest/Index Minimum Maximum M
SD
MT
3
19
11.2 3.0
GF
5
18
11.0 2.4
ZN
4
19
10.4 2.5
BK
4
17
10.9 2.4
ZST
4
18
11.0 2.8
WT
5
19
11.0 2.7
BZF
1
18
10.9 2.3
MZ
4
16
10.6 2.4
AV
5
19
11.1 2.4
SYS
2
19
11.0 2.6
BE
1
19
11.1 2.8
DT
4
19
10.9 2.9
AW
4
18
10.7 2.5
RD
2
18
11.1 2.4
BEN
4
18
10.7 2.6
MT-OZ
3
19
11.2 2.9
ZN-V
4
18
9.9 2.7
ZN-R
5
18
10.5 2.5
DT-S
4
18
10.9 2.8
DT-U
2
19
10.8 3.0
SV
77
144
105.7 12.3
WLD
69
133
105.4 12.1
AGD
56
146
102.8 12.3
VG
62
141
105.8 13.7
Gesamt-IQ
64
131
106.3 11.4
Anmerkungen: M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang
A5 und A6.
Auf Index-Ebene fällt AGD mit einem Mittelwert von 102.8 IQ-Punkten am schlechtesten aus,
alle anderen Indizes weisen Mittelwerte zwischen 105.4 und 105.8 auf. Der höchste Wert wurde mit einem Mittelwert von 106.3 im Gesamt-IQ erzielt (zur graphischen Ansicht der Indizes
und des Gesamt-IQ des HAWIK-IV siehe Abbildung 8.3).
Kapitel 8
Ergebnisse
128
Abbildung 8.3: Box-Plot des Gesamt-IQ, SV, WLD, AGD und VG des HAWIK-IV.
Anmerkungen: Die Sternchen (*) stellen statistische Ausreißer dar. Aufgrund einiger statistischer Ausreißer im unteren Leistungsbereich wurde die Skalierung gegenüber den HAWIK-IIIBox-Plots nach unten erweitert. Abkürzungen siehe Anhang A5 und A6.
Insgesamt liegen die Mittelwerte der HAWIK-IV-Untertests durchschnittlich circa einen Wertpunkt oberhalb der Mittelwerte der Normierungsstichprobe. Auch in den Indizes und dem
Gesamt-IQ fallen die Mittelwerte höher aus als in der Normierungsstichprobe, jedoch weniger
deutlich als die entsprechenden Werte des HAWIK-III. Die Standardabweichungen der Untertests sind, außer im MT, durchweg kleiner als die der Normierungsstichprobe. Auch der Gesamt-IQ und die Indizes verfügen über deutlich geringere Standardabweichungen, sowohl im
Vergleich zur Normierungsstichprobe als auch in Bezug auf die Gesamt- und Indexwerte des
HAWIK-III.
Bei der Betrachtung der Gesamt-IQ-Punkte beider Testversionen kann mit 25 von 223 Kindern
bei 11,2 % der Untersuchungspopulation eine Differenz von einer Standardabweichung (also
15 IQ-Punkten) oder mehr zwischen beiden Gesamt-IQ aufgezeigt werden. In der gematchten
Stichprobe zeigten 15 von 144 Kindern diese Differenz, was 10,4 % der Stichprobe entspricht.
Auf Ebene der Indizes weisen mit 28 bis 52 Personen (dies entspricht 12,5 % bis 23,3 % der
Stichprobe) noch mehr Kinder einen Unterschied von mindestens einer Standardabweichung
zwischen den entsprechenden Indizes beider Testversionen auf. Dies deutet darauf hin, dass
die Neunormierung zu Veränderungen dessen geführt haben könnte, was der Gesamt-IQ und
Kapitel 8
Ergebnisse
129
die Indizes beinhalten und welche Fähigkeiten mit ihnen abgebildet werden. Dies soll im Folgenden genauer untersucht werden.
8.2
Überprüfung der Mittelwertdifferenzen
Zur Überprüfung der deskriptiv ersichtlichen Unterschiede werden die Mittelwertdifferenzen
der Index- und Gesamtwerte beider Testversionen mit t-Tests für gepaarte (bzw. abhängige)
Stichproben auf Signifikanz geprüft. Damit sollen die Fragestellung 1: „Gibt es signifikante
Unterschiede zwischen dem Gesamt-Wert des HAWIK-III und dem Gesamt-Wert des HAWIKIV?“ und die Fragestellung 2: „Gibt es signifikante Unterschiede zwischen den Index- und
Gesamtwerten des HAWIK-III und denen des HAWIK-IV?“ sowie die dazugehörigen Hypothesen 6.1.1 bis 6.1.7 überprüft werden. Dies wird zunächst auf Grundlage der Gesamtstichprobe
(n = 223) durchgeführt. Tabelle 8.3 zeigt die Mittelwerte und gepaarten Differenzen der Indexund Gesamtwerte. Wie in Kapitel 6.1 beschrieben, wird empfohlen, den Verbalteil mit dem SV
und den Handlungsteil mit dem WLD des HAWIK-IV zu vergleichen.
Tabelle 8.3: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ (n = 223).
HAWIK-III
HAWIK-IV
Gepaarte Differenzen
a
Testpaare
M
SD
M
SD
M
SD
p
α
G-IQ-III – G-IQ-IV
108.9 13.3 106.3 11.4 2.6 9.2 .000*
Verbal-IQ – SV-IV
108.9 12.9 105.7 12.3 3.2 8.5 .000** .025
Handlungs-IQ – WLD 106.9 14.2 105.4 12.1 1.5 12.6 .083 .050
SV – SV
110.1 13.7 105.7 12.3 4.4 8.4 .000** .013
WO – WLD
105.5 14.4 105.4 12.1 0.0 12.8 .967 .050
UA – AGD
103.6 13.2 102.8 12.3 0.8 11.0 .277 .025
AG – VG
109.3 14.6 105.8 13.7 3.4 11.3 .000** .017
Anmerkungen: * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges
α-adjustiertes Signifikanzniveau nach Bonferroni-Holm.
** = signifikantes Ergebnis auf
dem adjustierten Signifikanzniveau. G-IQ steht für den Gesamt-IQ, M für den Mittelwert, SD für
die Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.
Bezogen auf die Indizes zeigen sich signifikante Mittelwertdifferenzen bei SV und bei AG bzw.
VG. Im Mittelwertvergleich ergaben sich zudem signifikante Differenzen zwischen den Werten
des Verbal-IQ und des SV des HAWIK-IV; zwischen den Werten des Handlungs-IQ und WLD sind
die Unterschiede jedoch nicht signifikant. Die Gesamtwerte beider Verfahren weichen ebenfalls signifikant voneinander ab.
Somit muss die H0 der Hypothesen 6.1.1, 6.1.2, 6.1.4 und 6.1.7 abgelehnt und die Alternativhypothese (H1) angenommen werden. Für die Hypothesen 6.1.3, 6.1.5 und 6.1.6 kann jedoch
die H0 angenommen werden.
Die Tabelle 8.4 stellt die Ergebnisse der t-Tests für gepaarte Stichproben für die Untertests dar.
Auch wenn keine Hypothesen zum Mittelwertvergleich auf der Ebene der Untertests formu-
Kapitel 8
Ergebnisse
130
liert wurden (siehe Kapitel 6), werden sie mit angegeben, um zusätzlichen Aufschluss über die
Ursachen der Differenzen zu erhalten.
Tabelle 8.4: t-Test zur Prüfung der Mittelwertdifferenzen auf Untertestebene (n = 223).
HAWIK-III
HAWIK-IV
a
Testpaare
M
SD
M
SD
M
SD
p
α
BE – BE
11.1
3.0
11.1
2.8
0.0 2.9
.926 .025
AW – AW
11.0
2.8
10.7
2.5
0.3 1.9 .019* .010
ZST – ZST
11.6
3.1
11.0
2.8
0.6 2.4 .001** .006
GF – GF
11.8
2.8
11.0
2.4
0.8 2.3 .000** .005
RD – RD
11.1
2.8
11.1
2.4
0.0 2.3
1.00 .050
MT – MT
11.1
3.2
11.2
3.0 -0.1 2.6
.638 .017
WT – WT
11.6
2.8
11.0
2.7
0.5 2.2 .001** .006
AV – AV
11.2
2.0
11.1
2.4
0.1 2.1
.515 .013
SS – SYS
11.6
2.8
11.0
2.8
0.6 2.7 .001** .008
ZN – ZN
9.9
2.6
10.4
2.5 -0.5 2.2 .001** .007
Anmerkungen: * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges
α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem
adjustierten Signifikanzniveau. M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.
Im Untertestvergleich weisen sechs der zehn gemeinsamen Untertests signifikante Mittelwertdifferenzen auf. Nach der α-Korrektur erweist sich AW jedoch als nicht mehr signifikant. Die
signifikanten Untertests gehören bis auf ZN den in Tabelle 8.3 dargestellten signifikanten Indizes an.
Die t-Tests für abhängige Stichproben wurden zusätzlich mit der gematchten Stichprobe
(GemS, n = 144) durchgeführt. Tabelle 8.5 beinhaltet die Ergebnisse der Prüfung der Mittelwertdifferenzen für die Indizes und Gesamtwerte und Tabelle 8.6 für die Untertests beider
Testversionen.
Tabelle 8.5: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ der GemS.
HAWIK-III
Testpaare
M
SD
G-IQ III – G-IQ IV
108.8 13.8
Verbal-IQ – SV IV
108.4 12.9
Handlungs-IQ – WLD 107.5 15.0
SV – SV
109.9 13.9
WO – WLD
105.7 15.1
UA – AGD
102.8 12.9
AG – VG
110.4 14.6
Anmerkungen: siehe Tabelle 8.3.
HAWIK-IV
M
SD
105.6 12.2
105.3 12.8
104.8 12.6
105.3 12.8
104.8 12.6
102.3 12.5
105.4 13.9
M
3.2
3.1
2.7
4.6
0.9
0.5
5.0
Differenzen
SD
p
9.2 .000*
8.2 .000**
12.4 .009**
8.2 .000**
12.7 .384
10.8 .586
10.7 .000**
a
α
.025
.050
.013
.025
.050
.017
Die α-Adjustierung führt keinerlei Veränderungen hinsichtlich der Signifikanzen herbei.
Anders als in der Gesamtstichprobe weist in dieser Teilstichprobe neben den beiden SV- und
Geschwindigkeitsindizes AG bzw. VG sowie dem Gesamt-IQ und dem Vergleich des Verbalteils
mit dem SV des HAWIK-IV zusätzlich der Vergleich zwischen dem Handlungsteil und dem WLD
signifikante Wertunterschiede auf.
Kapitel 8
Ergebnisse
131
Auch für die gematchte Stichprobe wurde der Vergleich zusätzlich auf Untertestebene durchgeführt (siehe Tabelle 8.6).
Tabelle 8.6: t-Test zur Prüfung der Mittelwertedifferenzen der GemS auf Untertestebene.
HAWIK-III
HAWIK-IV
Testpaare
M
SD
M
SD
BE – BE
11.1
3.0
10.8
2.7
AW – AW
11.0
2.9
10.6
2.5
ZST – ZST
11.8
3.2
10.9
3.0
GF – GF
11.7
2.8
10.9
2.6
RD – RD
10.8
2.7
10.8
2.4
MT – MT
11.2
3.3
11.1
3.1
WT – WT
11.4
3.0
10.9
2.7
AV – AV
11.2
1.9
11.2
2.4
SS – SYS
11.8
2.7
11.0
2.6
ZN – ZN
9.9
2.6
10.3
2.4
a
M
SD
p
α
0.3 2.9
.223 .013
0.4 2.0 .019* .010
0.9 2.4 .000** .005
0.8 2.3 .000** .006
0.1 2.2
.765 .025
0.1 2.7
.600 .017
0.5 2.4 .009* .007
0.0 2.0
.933 .050
0.8 2.6 .001** .006
-0.4 2.2 .017* .008
In der GemS weisen ähnliche Untertestpaarungen signifikante Unterschiede auf wie in der
Gesamtstichprobe. Nach der α-Korrektur gelten die Differenzen der Paarungen von AW, WT
und ZN jedoch als nicht mehr signifikant. Somit weichen nur die Mittelwerte der Untertests
ZST, GF und SS bzw. SYS signifikant voneinander ab. Dies entspricht den Ergebnissen der Tabelle 8.5, da die auffälligen Untertests den Indizes angehören, die sich als voneinander signifikant
unterschiedlich erwiesen haben.
Für die gematchte Stichprobe kann festgehalten werden, dass die H0 der Hypothesen 6.1.1,
6.1.2, 6.1.3, 6.1.4 und 6.1.7 abgelehnt und die Alternativhypothese (H1) angenommen werden
muss, während für die Hypothesen 6.1.5 und 6.1.6 die H0 beibehalten werden kann.
Die Ergebnisse der t-Tests zur Überprüfung von Mittelwertdifferenzen zeigen also signifikante
Unterschiede zwischen den Werten beider Testversionen. Damit konnte die Vermutung bestätigt werden, die sich durch die hohe Prozentzahl (mehr als jeder zehnte Vergleich wies eine
Differenz von mehr als 1 SD auf) an Personen, die deutliche Differenzen im Gesamt-IQ beider
Testversionen aufweisen, ergeben hat.
Mögliche Ursachen für diese Differenzen können in den Störvariablen liegen, die in Kapitel 5.2
ausführlich dargestellt wurden. Im Folgenden werden deskriptive Analysen vorgenommen, die
Aufschluss darüber geben sollen, als wie hoch ein möglicher Einfluss dieser Störvariablen auf
die Ergebnisse beider Testversionen anzunehmen ist.
8.3
Mittelwertvergleich
Mit den folgenden Analysen soll festgestellt werden, wie die Werte der Untertests und Indizes
ausgefallen sind, je nachdem, welche Testversion zuerst durchgeführt wurde. Es wird also der
Kapitel 8
Ergebnisse
132
Einfluss der Testreihenfolge auf die Ergebnisse beider Testversionen untersucht, indem die
Mittelwerte einer Testversion verglichen werden, in Abhängigkeit davon, welcher Test als erstes durchgeführt wurde. Dabei wird auf Grund eines vermuteten Lerneffekts (siehe Kapitel
5.2.1) davon ausgegangen, dass die Werte derjenigen Testversion höher ausfallen, die als zweites durchgeführt wurde. Kann dies nicht bestätigt werden, könnten die signifikanten Differenzen auf eine nicht repräsentative Stichprobe zurückzuführen sein, in der beispielsweise die
Kinder, die den HAWIK-IV zuerst absolvierten, ein deutlich höheres Leistungsniveau aufweisen
als die Kinder, die den HAWIK-III als ersten Test vorgelegt bekamen. Dies würde die Interpretierbarkeit des vorliegenden Vergleichs einschränken.
Der Mittelwertevergleich erfolgt getrennt nach kurzem und langem Intervall.
8.3.1 Kurzes Intervall
Abbildung 8.4 veranschaulicht die Mittelwerte der HAWIK-III-Untertests nach kurzem Intervall
(GK) getrennt nach dem Testverfahren, das in der ersten Testung verwendet wurde.
13
12
HAWIK-III
zuerst
11
HAWIK-IV
zuerst
10
9
BE
AW
ZST
GF
BO
RD
MT
WT
FL
AV
SS
ZN
Abbildung 8.4: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (kurzes Intervall).
Anmerkungen: Legende: HAWIK-III zuerst = die HAWIK-III-Werte der Kinder, die den HAWIK-III zuerst durchführten, HAWIK-IV zuerst = die HAWIK-III-Werte der Kinder, die den
HAWIK-IV zuerst durchführten. Abkürzungen siehe Anhang A5 und A6.
Bis auf die Untertests RD, WT und FL zeigen alle Untertests dann höhere HAWIK-III-Mittelwerte
auf, wenn der HAWIK-IV zuerst vorgelegt wurde.
Kapitel 8
Ergebnisse
133
113
111
109
HAWIK-III
zuerst
107
105
HAWIK-IV
zuerst
103
101
Abbildung 8.5: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe
(kurzes Intervall).
Anmerkungen: siehe Abbildung 8.4.
Bezogen auf die HAWIK-III-Index- und -Gesamt-IQ-Werte zeichnen sich in allen Bereichen höhere Mittelwerte bei den Kindern ab, die den HAWIK-IV als ersten Test absolvierten (siehe
Abbildung 8.5).
13
12
HAWIK-III
zuerst
11
HAWIK-IV
zuerst
10
9
MT GF ZN BK ZST WT BZF MZ AV SYS BE DT AW RD BEN
Abbildung 8.6: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (kurzes Intervall).
Anmerkungen: Legende: HAWIK-III zuerst = die HAWIK-IV-Werte der Kinder, die den HAWIK-III zuerst durchführten, HAWIK-IV zuerst = die HAWIK-IV-Werte der Kinder, die den
HAWIK-IV zuerst durchführten. Abkürzungen siehe Anhang A5 und A6.
Für die Untertests des HAWIK-IV besitzt im kurzen Intervall nur AV einen geringfügig niedrigeren Wert in der Gruppe, die den HAWIK-III zuerst durchgeführt hat (11.0 gegenüber 11.05). In
allen anderen Untertests weist der HAWIK-IV dann höhere Werte auf, wenn vorher der HAWIK-III vorgegeben wurde (siehe Abbildung 8.6).
Wie in Abbildung 8.7 ersichtlich, erzielten die Kinder und Jugendlichen, die den HAWIK-III zuerst durchführten, auf der Ebene der Indizes und des Gesamt-IQ im HAWIK-IV durchgängig
höhere Mittelwerte. Besonders der Index VG birgt dabei deutlich höhere Werte.
Kapitel 8
Ergebnisse
134
113
111
109
HAWIK-III
zuerst
107
HAWIK-IV
zuerst
105
103
101
Gesamt-IQ
SV-IQ
WLD-IQ
AGD-IQ
VG-IQ
Abbildung 8.7: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe
(kurzes Intervall).
8.3.2 Langes Intervall
Für das lange Intervall (GL) wurde ebenfalls überprüft, wie sich die Mittelwerte danach unterscheiden, welches Testverfahren zuerst durchgeführt wurde.
13
HAWIK-III
zuerst
12
11
HAWIK-IV
zuerst
10
9
BE
AW
ZST
GF
BO
RD
MT
WT
FL
AV
SS
ZN
Abbildung 8.8: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (langes Intervall).
Im Mittelwertevergleich der Untertests des HAWIK-III (siehe Abbildung 8.8) weisen die Kinder,
die den HAWIK-III zuerst absolvierten, im WT und FL deutlich höhere und im BO und AV leicht
höhere Werte auf. Alle anderen Untertests sind in der Gruppe besser ausgefallen, die mit dem
HAWIK-IV begonnen hat.
Kapitel 8
Ergebnisse
135
115
113
111
109
107
105
103
101
99
HAWIK-III
zuerst
HAWIK-IV
zuerst
Abbildung 8.9: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe
(langes Intervall).
Für die Index-Werte, den Verbal-, und Handlungsteil und den Gesamt-IQ des HAWIK-III gilt,
dass die Kinder, denen der HAWIK-IV zum ersten Testzeitpunkt vorgelegt wurde, höhere Mittelwerte erzielten (siehe Abbildung 8.9). In der AG offenbart sich der Unterschied besonders
deutlich.
13
12
HAWIK-III
zuerst
11
HAWIK-IV
zuerst
10
9
MT GF ZN BK ZST WT BZF MZ AV SYS BE
DT AW RD BEN
Abbildung 8.10: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (langes
Intervall).
Für die Untertests des HAWIK-IV zeigen sich nur im ZN, MZ und RD höhere Mittelwerte bei den
Kindern, die den HAWIK-IV zuerst vorgelegt bekamen. Wie in Abbildung 8.10 veranschaulicht,
besitzt in allen anderen Untertests die Gruppe höhere Mittelwerte, die den HAWIK-III zuerst
bearbeitete.
Abbildung 8.11 illustriert, dass auch auf der Index-und IQ-Ebene des HAWIK-IV ebenso wie
nach kurzem Intervall auch nach langem Intervall die Gruppe höhere Mittelwerte erlangt, die
den HAWIK-III zuerst durchgeführt hat.
Kapitel 8
Ergebnisse
136
113
111
HAWIK-III
zuerst
109
107
HAWIK-IV
zuerst
105
103
101
Gesamt-IQ
SV-IQ
WLD-IQ
AGD-IQ
VG-IQ
Abbildung 8.11: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall).
Bis auf wenige Ausnahmen auf Untertest-Ebene kann demnach zusammenfassend festgestellt
werden, dass immer der Test höhere Werte aufzeigt, der an zweiter Stelle durchgeführt wurde. Es kann also von eine repräsentativen Stichprobe ausgegangen werden. Die Mittelwertvergleiche deuten jedoch auf einen Lerneffekt sowohl nach kurzem als auch nach langem Intervall
hin.
8.4
Lerneffekt
Zur genaueren Überprüfung eines möglichen Lerneffekts zwischen erster und zweiter Testung
wurden zusätzliche Mittelwertvergleiche vorgenommen. Der Lerneffekt dürfte sich im kurzen
Intervall deutlicher zeigen als im langen Intervall, da sich ein Kind generell besser an die erste
Testung erinnern kann, wenn der Abstand zur zweiten Testung geringer ist.
Dafür wurden zunächst die Mittelwerte der Untertests und Indizes der Teilstichprobe mit einem kurzen Intervall zwischen beiden Testungen und mit Erstvorgabe des HAWIK-III (GK-III)
verglichen. Tabelle 8.7 enthält die Mittelwerte beider Tests und den Zuwachs bzw. die Abnahme der Wert- und IQ-Punkte für das kurze Intervall zwischen erster und zweiter Testung.
Kapitel 8
Ergebnisse
137
Tabelle 8.7: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV
bei der Stichprobe GK-III (n = 63).
Mittelwert Mittelwert
Zuwachs
HAWIK-III HAWIK-IV
BE
10.3
11.7
+1.3
AW
10.9
10.8
-0.1
ZST
11.6
12.4
+0.9
GF
11.1
11.1
-0.1
RD
11.4
12.0
+0.6
MT
10.9
12.2
+1.3
WT
11.6
10.8
-0.8
AV
11.1
11.0
-0.1
SS/SYS
11.4
11.8
+0.4
ZN
9.7
10.6
+0.9
SV/SV
108.7
105.1
-3.6
WO/WLD
104.6
107.6
+3.1
UA/AGD
103.8
104.5
+0.7
AG/VG
108.5
111.9
+3.3
Gesamt-IQ
108.0
108.9
+0.8
Untertest/Index
Innerhalb der Untertests zeigen BE und MT den höchsten Anstieg, gefolgt von ZST und ZN. Die
Index-Kombinationen WO und WLD sowie AG und VG weisen den höchsten Zuwachs auf, während die Kinder im SV des HAWIK-IV durchschnittlich weniger Punkte erreichten als im SV des
HAWIK-III, obwohl sie mit dem HAWIK-III zuerst getestet wurden.
Die Ergebnisse der Kinder aus der Teilstichprobe mit einem langen Re-Testintervall und dem
HAWIK-III als erstem Test (GL-III) können Tabelle 8.8 entnommen werden.
bei der Stichprobe GL-III (n = 48).
Zuwachs
HAWIK-III HAWIK-IV
BE
10.9
12.2
+1.3
AW
10.7
11.2
+0.4
ZST
10.2
10.8
+0.6
GF
11.9
12.0
+0.1
RD
10.6
10.4
-0.2
MT
10.6
11.5
+0.9
WT
11.8
11.9
+0.1
AV
11.3
11.4
+0.1
SS/SYS
10.2
11.1
+0.9
ZN
9.2
10.1
+0.9
SV/SV
110.2
109.6
-0.6
WO/WLD
104.2
107.4
+3.2
UA/AGD
100.3
101.8
+1.5
AG/VG
101.0
105.3
+4.3
Gesamt-IQ
106.9
108.1
+1.3
Untertest/Index
Kapitel 8
Ergebnisse
138
Auch im langen Intervall weist BE den höchsten Wertpunktanstieg auf, gefolgt von MT, SYS und
ZN. Auf Index-Ebene zeigt sich ebenso wie im kurzen Intervall der höchste Anstieg vom AG zum
VG sowie vom WO zum WLD.
Die Mittelwertzuwächse der Stichprobe mit einem kurzen Intervall und der Erstvorgabe des
HAWIK-IV (GK-IV) lassen ebenfalls Leistungssteigerungen vom ersten zum zweiten Test erkennen (siehe Tabelle 8.9).
Tabelle 8.9: Mittelwerte und Mittelwertzuwächse zwischen HAWIK-III und -IV bei der Stichprobe
GK-IV (n = 65).
Zuwachs
HAWIK-IV HAWIK-III
BE
10.2
11.9
+1.7
AW
10.3
11.3
+1.0
ZST
10.1
12.1
+2.0
GF
10.8
12.1
+1.3
RD
10.8
11.0
+0.2
MT
10.8
11.6
+0.8
WT
10.7
11.5
+0.8
AV
11.0
11.3
+0.2
SYS/SS
10.4
12.3
+1.9
ZN
10.6
10.6
+0.1
SV/SV
104.2
111.0
+6.9
WLD/WO
103.6
108.1
+4.5
AGD/UA
103.0
105.6
+2.6
VG/AG
101.5
112.7
+11.2
Gesamt-IQ
103.9
111.0
+7.0
Untertest/Index
Insgesamt können größere Unterschiede festgestellt werden als bei Erstvorgabe des HAWIK-III.
Es zeigen sich keinerlei Wertpunktabnahmen von der ersten zur zweiten Testung; wurde der
HAWIK-IV als erster Test durchgeführt, sind die Werte im HAWIK-III also deutlich höher. Die
größte Zunahme erreichten die Werte der Geschwindigkeitsuntertests SS bzw. SYS und ZST,
gefolgt vom BE. Vor allem auf Index-Ebene sind die Werte der zweiten Testung deutlich höher
als die der ersten Testung. AG und VG haben mit einem Unterschied von 11.2 Wertpunkten
den größten Zuwachs zu verzeichnen.
Schließlich werden in Tabelle 8.10 die Zuwächse und Abnahmen in der Teilstichprobe mit einem langen Re-Testintervall und dem HAWIK-IV als erstem Test (GL-IV) aufgezeigt.
Kapitel 8
Ergebnisse
139
bei der Stichprobe GL-IV (n= 47).
Zuwachs
HAWIK-IV HAWIK-III
BE
10.3
11.1
+0.8
AW
10.6
11.1
+0.4
ZST
10.6
12.2
+1.7
GF
10.4
12.2
+1.8
RD
10.8
11.2
+0.4
MT
10.1
11.2
+1.1
WT
11.0
11.3
+0.3
AV
11.2
11.2
+0.0
SYS/SS
10.8
12.4
+1.6
ZN
10.2
9.9
-0.3
SV/SV
104.8
110.9
+6.1
WLD/WO
103.0
104.3
+1.3
AGD/UA
101.6
104.1
+2.6
VG/AG
104.0
113.6
+9.6
Gesamt-IQ
104.2
109.1
+4.9
Untertest/Index
Auch im langen Intervall zeigen sich deutlichere Unterschiede als bei Erstvorgabe des HAWIKIII, alles in allem jedoch niedrigere als im kurzen Intervall. Hier existiert die größte Zunahme im
GF, gefolgt von den Untertests der Geschwindigkeitsindizes: ZST und SYS. Wie in den anderen
Stichproben zeigt sich auch bei den Kindern der Stichprobe GL-IV mit fast zehn Wertpunkten
der größte Anstieg von VG zu AG.
Für einen Überblick über die Höhe des Lerneffekts im kurzen und langen Intervall insgesamt
wurden für jeden Untertest und jeden Index neue Variablen berechnet. Dafür wurden bei den
Kindern, die den HAWIK-III zuerst durchführten (G-III), die Werte des HAWIK-III von denen des
HAWIK-IV, und bei denen, die erst den HAWIK-IV durchführten (G-IV), die Werte des HAWIK-IV
von denen des HAWIK-III abgezogen wurden. Es wurde also immer die Werte der ersten von
der zweiten Testung abgezogen. So ergibt sich für jeden Untertest und Index ein Differenzbetrag für jedes Kind. Die mittleren Differenzen stellen den durchschnittlichen Wertpunkt- bzw.
IQ-Zuwachs von der ersten zur zweiten Testung dar und werden in Tabelle 8.11 aufgezeigt.
Kapitel 8
Ergebnisse
140
Tabelle 8.11: Mittelwertzuwächse bzw. -abnahmen der Untertests und Indizes getrennt nach
kurzem und langem Intervall.
Zuwachs kurzes
Zuwachs langes
Std.-diff.
Std.-diff.
Intervall (n=127)
Intervall (n=95)
BE
+1.6
+0.7
+1.1
+0.4
AW
+0.4
+0.2
+0.4
+0.2
ZST
+1.4
+0.7
+1.1
+0.5
GF
+0.6
+0.3
+0.9
+0.4
RD
+0.4
+0.2
+0.1
+0.0
MT
+1.1
+0.5
+1.0
+0.4
WT
+0.1
+0.0
+0.2
+0.1
AV
0.0
+0.0
+0.1
+0.0
SS/SYS
+1.2
+0.5
+1.3
+0.5
ZN
+0.5
+0.2
+0.3
+0.1
SV/SV
+1.7
+0.2
+2.7
+0.3
WO/WLD
+3.8
+0.3
+2.3
+0.2
UA/AGD
+1.7
+0.2
+2.0
+0.2
AG/VG
+7.4
+0.8
+7.1
+0.8
Gesamt-IQ
+4.0
+0.4
+3.1
+0.4
Anmerkungen: Std.-diff. = Standarddifferenz. Berechnung siehe Kapitel 7.5.3. Abkürzungen
siehe Anhang A5 und A6.
Untertest/Index
Die Wertzuwächse fallen im kurzen Intervall zwar etwas höher aus als im langen Intervall, insgesamt haben jedoch unabhängig von der Länge des Intervalls die gleichen Untertests und
Indizes hohe oder niedrige Zunahmen zu verzeichnen. In beiden Intervallen weisen die Werte
den höchsten Anstieg im Index VG auf. Hinsichtlich der Untertests zeigen in beiden Intervallen
die Werte des AV und RD die geringsten und die Werte des BE, ZST und SS bzw. SYS die
höchsten Zuwächse.
Studien besagen, dass sich der Lerneffekt bei jüngeren Kindern deutlicher zeigt als bei älteren
Kindern (siehe Kapitel 5.2.1). Dies soll im Folgenden untersucht werden. Tabelle 8.12 präsentiert die durchschnittlichen Mittelwertdifferenzen nach kurzem Re-Testintervall, aufgeteilt in
die drei Altersgruppen 6 bis 7, 8 bis 11 und 12 bis 16 Jahre.
Kapitel 8
Ergebnisse
141
Tabelle 8.12: Mittelwertzuwächse bzw. -abnahmen nach kurzem Intervall der Untertests und
Indizes unterteilt in drei Altersgruppen.
Alter 6-7
Alter 8-11
Alter 12-16
Std.-diff.
Std.-diff.
Std.-diff.
(n=20)
(n=37)
(n=70)
BE
+0.1
0.0
+1.9
+0.8
+1.8
+0.8
AW
+0.6
+0.3
+0.6
+0.3
+0.3
+0.2
ZST
+1.5
+0.6
+1.2
+0.6
+1.5
+0.7
GF
+0.6
+0.2
+0.9
+0.3
+0.5
+0.3
RD
+0.3
+0.1
-0.1
0.0
+0.6
+0.3
MT
+0.5
+0.2
+1.0
+0.4
+1.3
+0.6
WT
-0.1
0.0
-0.1
0.0
+0.2
+0.1
AV
-0.2
-0.1
-0.2
-0.1
+0.2
+0.1
SS/SYS
+1.7
+0.6
+1.5
+0.6
+0.9
+0.4
ZN
+0.6
+0.3
+0.8
+0.4
+0.3
+0.1
SV/SV
+1.1
+0.1
+1.1
+0.1
+2.3
+0.3
WO/WLD
+0.4
0.0
+3.4
+0.2
+5.0
+0.4
UA/AGD
+4.1
+0.4
+1.5
+0.1
+1.2
+0.1
AG/VG
+8.6
+0.8
+7.7
+0.8
+6.9
+0.7
Gesamt-IQ
+3.5
+0.4
+3.1
+0.3
+4.6
+0.5
Untertest/Index
Wie der Tabelle 8.12 entnommen werden kann, offenbaren nur in den Index-Kombinationen
UA und AGD sowie AG und VG die jüngsten Kinder den höchsten Zuwachs. In den anderen
Indizes und im Gesamt-IQ haben die Jugendlichen zwischen 12 und 16 Jahren am deutlichsten
von der ersten Testung profitiert.
Abschließend sind aus der Tabelle 8.13 die Mittelwertzuwächse bzw. -abnahmen nach langem
Intervall ersichtlich, wiederum unterteilt in die drei Altersgruppen.
Tabelle 8.13: Mittelwertzuwächse bzw. -abnahmen nach langem Intervall der Untertests und
Indizes unterteilt in drei Altersgruppen.
Alter 6-7
Alter 8-11
Alter 12-16
Std.-diff.
Std.-diff.
Std.-diff.
(n=17)
(n=36)
(n=42)
BE
0.0
0.0
+1.4
+0.5
+1.2
+0.5
AW
+1.0
+0.4
+0.3
+0.1
+0.3
+0.2
ZST
+0.9
+0.4
+0.4
+0.2
+1.8
+0.9
GF
+1.5
+0.6
+0.5
+0.2
+1.1
+0.5
RD
+0.2
+0.1
-0.2
-0.1
+0.3
+0.1
MT
+0.1
+0.1
+0.4
+0.2
+1.8
+0.7
WT
-0.2
-0.1
+0.3
+0.1
+0.2
+0.1
AV
-0.1
0.0
-0.2
-0.1
+0.4
+0.2
SS/SYS
+2.0
+0.7
+1.2
+0.5
+1.1
+0.5
ZN
+0.1
0.0
+0.1
0.0
+0.5
+0.2
SV/SV
+4.7
+0.5
+0.6
+0.1
+3.8
+0.6
WO/WLD
-0.5
0.0
+1.8
+0.1
+3.8
+0.3
UA/AGD
+4.5
+0.4
-1.4
-0.1
+4.0
+0.4
AG/VG
+8.7
+0.8
+5.0
+0.6
+8.3
+1.0
Gesamt-IQ
+3.8
+0.4
+0.6
+0.1
+5.0
+0.6
Untertest/Index
Kapitel 8
Ergebnisse
142
Im langen Intervall birgt die Gruppe der 12- bis 16-Jährigen im Gesamt-IQ und der Indexkombination WO und WLD den höchsten Zuwachs. In den anderen Indizes kann bei den jüngsten
Kindern der höchste Anstieg aufgezeigt werden.
Zusammenfassend lässt sich somit ein Lerneffekt feststellen. Vor allem in den Geschwindigkeitsindizes AG bzw. VG profitieren die Kinder und Jugendlichen deutlich von der ersten Testung. Nach kurzem Intervall wird ein etwas deutlicherer Zuwachs ersichtlich als nach langem
Intervall. Während nach kurzem Intervall die jüngste Altersstufe in den Gedächtnis- und Geschwindigkeitsindizes den höchsten Zuwachs aufweist und in den anderen Indexkombinationen die ältesten Kinder am meisten von der ersten Testung profitierten, haben im langen
Intervall, bis auf in den Indexkombination WO und WLD, immer die 6- bis 7-Jährigen den
höchsten Anstieg zu verzeichnen.
8.5
Flynn-Effekt
Ein weiterer möglicher Störeinfluss auf die Ergebnisse des Mittelwertvergleichs stellt der
Flynn-Effekt dar (siehe Kapitel 5.2.2). Zur Untersuchung des Flynn-Effekts werden nur die Kinder der Stichprobe mit langem Re-Testintervall ausgewählt, da bei ihnen der Lerneffekt weniger zum Tragen kommt (siehe Kapitel 8.4). Da der Lerneffekt, wie oben gezeigt, jedoch auch im
langen Intervall nachgewiesen werden konnte, kann mit Hilfe dieser Studie kein eindeutiger
Nachweis oder Gegenbeweis für die Existenz des Flynn-Effekts geboten werden.
Tabelle 8.14: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem
Intervall (n= 93-95).
HAWIK-III
HAWIK-IV
Untertest/Index
M
SD
M
SD
Differenz Std.-diff.
BE
11.0
2.9
11.3
3.0
+0.3
0.09
AW
10.9
3.0
10.9
2.6
+0.0
-0.01
ZST
11.2
3.0
10.7
2.8
-0.5
-0.17
GF
12.0
3.2
11.2
2.6
-0.8
-0.29
RD
10.9
2.7
10.6
2.3
-0.3
-0.12
MT
10.9
3.3
10.8
3.2
-0.1
-0.04
WT
11.6
3.2
11.5
2.8
-0.1
-0.04
AV
11.2
2.2
11.3
2.5
0.0
0.01
SS/SYS
11.3
3.1
11.0
2.6
-0.4
-0.13
ZN
9.6
2.4
10.2
2.3
+0.6
0.25
SV/SV
110.5
15.6
107.2
13.2
-3.3
-0.23
WO/WLD
104.2
14.6
105.2
12.8
+1.0
0.07
UA/AGD
102.2
12.5
101.7
11.2
-0.5
-0.04
AG/VG
107.3
15.7
104.8
13.7
-2.5
-0.17
Gesamt-IQ
108.0
14.2
106.2
11.6
-1.8
-0.14
Anmerkungen: M = Mittelwert, SD = Standardabweichung, Std.-diff. = Standarddifferenz. Berechnung der Standarddifferenz siehe Kapitel 7.5.3. Weitere Abkürzungen siehe Anhang A5 und
A6.
Kapitel 8
Ergebnisse
143
Tabelle 8.14 stellt die Mittelwerte und Wertpunkt- und IQ-Zuwächse bzw. -Abnahmen der GL
dar. Dabei scheint nur in einigen Bereichen ein Flynn-Effekt erkennbar zu sein. Die deutlichste
IQ-Abnahme zeigt sich im Vergleich der SV-Indizes und der Geschwindigkeitsindizes AG und
VG.
Wie in Kapitel 5.2.2 beschrieben zeigt sich der Flynn-Effekt vor allem in den Randbereichen des
kognitiven Leistungsspektrums. Auf einen Vergleich zu Kindern aus dem extrem niedrigen Leistungsbereich muss an dieser Stelle aufgrund der geringen Anzahl an Kindern mit einem Gesamt-IQ unter 85 in dieser Stichprobe verzichtet werden. Somit werden an dieser Stelle die
Ergebnisse der Kinder und Jugendlichen noch einmal gesondert betrachtet, die im HAWIK-III
einen Gesamt-IQ von ≥ 115 erzielten (siehe Tabelle 8.15). Wie die Tabelle 8.15 verdeutlicht
lassen sich Anzeichen für eine Normverschiebung zwischen HAWIK-III und -IV erkennen.
Tabelle 8.15: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem
Intervall bei Kindern und Jugendlichen mit einem HAWIK-III-Gesamt-IQ von ≥ 115 (n = 28).
HAWIK-III
Untertest/Index
M
SD
BE
13.2
2.3
AW
13.8
2.1
ZST
12.1
3.2
GF
14.9
2.5
RD
13.3
2.0
MT
13.5
2.7
WT
14.0
2.4
AV
13.0
2.4
SS/SYS
12.4
2.9
ZN
10.6
2.3
SV/SV
127.3
11.4
WO/WLD
120.1
10.2
UA/AGD
112.4
10.9
AG/VG
112.7
16.7
Gesamt-IQ
125.9
6.9
HAWIK-IV
M
SD
12.9
2.4
13.2
2.3
11.4
2.7
12.9
2.0
11.8
2.0
12.8
2.8
13.6
2.2
12.8
2.3
12.0
2.1
11.1
2.0
118.0
10.4
114.8
9.8
107.7
9.7
109.3
12.0
116.9
7.8
Differenz Std.-diff.
-0.3
-0.11
-0.6
-0.28
-0.7
-0.24
-2.0
-0.87
-1.5
-0.75
-0.8
-0.27
-0.4
-0.19
-0.2
-0.08
-0.4
-0.15
0.5
0.23
-9.2
-0.85
-5.3
-0.53
-4.7
-0.45
-3.4
-0.23
-9.0
-1.23
Auf Untertestebene sind die Wertpunkte bei den leistungsstarken Kindern und Jugendlichen
vor allem im GF und RD gesunken. Der Gesamt-IQ und das SV liegen im HAWIK-III circa 9 Punkte höher als im HAWIK-IV.
Insgesamt können die Störeinflüsse Lern- und Flynn-Effekt zur Erklärung der signifikanten Differenzen zwischen den meisten Index- und Untertestwerten beider Testversionen beitragen
(mehr dazu siehe Kapitel 9.2).
Kapitel 8
Ergebnisse
144
8.6 Untersuchung der Teststruktur mit Hilfe von Faktorenanalysen
Im Folgenden werden Faktorenanalysen berechnet, die Hinweise auf die Struktur der zu untersuchenden Testverfahren und die Höhe der Ladungen auf den von den Testautoren benannten
Faktoren liefern sollen. Damit wird der Frage 3: „Ist die von den Testautoren vorgegebene
Faktorenstruktur des HAWIK-III in der vorliegenden Studie replizierbar?“ und der Frage 4:
„Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-IV in der vorliegenden Studie replizierbar?“ nachgegangen. Gleichzeitig werden die dazugehörigen Hypothesen
6.2.1 bis 6.2.3 untersucht.
8.6.1 Faktorenanalysen ohne Vorgabe der Faktorenanzahl
Zur Untersuchung der Struktur beider Testversionen wird die Faktorenanalyse zunächst ohne
Vorgabe der Faktorenanzahl durchgeführt.
Tabelle 8.16: Exploratorische Faktorenanalyse des HAWIK-III ohne Vorgabe der Faktorenanzahl.
Faktor
Untertest
1
2
3
AW
.78
.20
.13
WT
.77
.19
.01
GF
.77
.23
-.02
AV
.63
.32
.01
RD
.56
.09
.40
FL
.08
.79
.06
MT
.21
.64
.38
BE
.32
.58
-.03
BO
.32
.57
.13
ZST
.00
.15
.75
SS
-.07
.20
.74
ZN
.38
-.15
.60
Anmerkungen: Die Untertests sind sortiert nach Höhe der Faktorladungen. Details zur Berechnung siehe Kapitel 7.5.2. Abkürzungen siehe Anhang A5 und A6.
Die Tabelle 8.16 zeigt eine Drei-Faktoren-Struktur des HAWIK-III.
Somit muss an dieser Stelle die Hypothese 6.2.1 abgelehnt werden.
Den ersten Faktor bilden die Untertests des Index SV und der Untertest RD. Auf dem zweiten
Faktor laden die Untertests des Index WO und auf dem dritten Faktor die Untertests des Index
AG und der Untertest ZN. RD weist ebenfalls relativ hohe Ladungen auf dem dritten Faktor auf.
Für die 15 Untertests des HAWIK-IV wurde ebenfalls eine explorative Faktorenanalyse berechnet. Tabelle 8.17 stellt die erhaltene Faktorenstruktur des HAWIK-IV ohne Faktorenvorgabe
dar.
Kapitel 8
Ergebnisse
145
Tabelle 8.17: Exploratorische Faktorenanalyse des HAWIK-IV ohne Vorgabe der Faktorenanzahl.
Faktor
Untertest
1
2
3
BEN
.79
-.05
.14
WT
.78
-.08
.22
GF
.77
.09
.20
AW
.68
.00
.40
AV
.67
-.02
.15
BE
.62
.43
-.12
BK
.57
.24
-.14
MT
.50
.40
.18
MZ
.40
.37
.31
SYS
.12
.77
.21
DT
-.01
.74
-.11
ZST
-.03
.71
.27
ZN
.10
.06
.83
BZF
.09
.10
.78
RD
.36
.24
.58
Wie schon im HAWIK-III zeigen sich auch für den HAWIK-IV nur drei Faktoren.
Die Hypothese 6.2.2 muss somit ebenfalls abgelehnt werden.
Die Untertests des SV und des WLD können dem ersten Faktor zugeordnet werden. Der zweite
Faktor setzt sich aus Untertests des Index VG zusammen und auf dem dritten Faktor laden die
Untertests des Index AGD.
Aufgrund des bereits festgestellten großen Einflusses des Re-Testintervalls und der Testreihenfolge (siehe Lern- und Flynn-Effekt) werden die Faktorenanalysen zusätzlich getrennt nach
Höhe des Intervalls sowie getrennt nach Reihenfolge der Testvorgabe durchgeführt.
Unterteilung in Intervall:
Im HAWIK-IV zeigen sich im kurzen Intervall genau die vier Faktoren, wie sie theoretisch vorgegeben werden (siehe Anhang A7). Im langen Intervall ergeben sich jedoch nur drei Faktoren,
die auch nur teilweise mit der Struktur des HAWIK-IV übereinstimmen (siehe Anhang A8).
Die Faktorenanalyse der HAWIK-III-Untertests weist im langen Intervall nahezu theoriekonforme Ergebnisse auf, einzig BO ist eher den Untertests des UA, RD und ZN, zuzuordnen als den
anderen Untertests des WO (siehe Anhang A10). Im kurzen Intervall kann MT dem Faktor, auf
dem die Untertests des UQ laden, eher zugeordnet werden als dem Faktor, auf dem sich die
Untertests des WO befinden (siehe Anhang A9).
Unterteilung in Testreihenfolge:
Die Faktorenanalyse der HAWIK-III-Untertests mit der Stichprobe, die den HAWIK-III zuerst
bearbeitet hat (siehe Anhang A11) weist vier Faktoren auf, allerdings insofern abweichend von
Kapitel 8
Ergebnisse
146
der vorgegebenen Teststruktur, als dass MT etwas mehr auf dem UA-Faktor lädt als auf dem
WO-Faktor (das selbe Ergebnis zeigte sich schon für die Stichprobe, die ein kurzes Intervall
zwischen den Testungen aufwies, siehe oben). In der Stichprobe, die den HAWIK-IV zuerst absolvierte, bilden die Untertests des HAWIK-III lediglich drei Faktoren, in denen die theoriegeleiteten Faktoren nur bedingt wiederzufinden sind (siehe Anhang A12). So lädt BO mehr auf dem
SV-Faktor als auf dem Faktor der WO-Untertests. Außerdem bilden die Untertests des Index
AG einen gemeinsamen Faktor mit dem ZN.
Die Ergebnisse der Untertests des HAWIK-IV der Kinder, die zuerst den HAWIK-III vorgelegt
bekamen, bilden exakt die vier Faktoren, die dem Test theoretisch zu Grunde liegen (siehe
Anhang A13). Wurde jedoch zuerst der HAWIK-IV durchgeführt, laden die Untertests des HAWIK-IV auf drei Faktoren, von denen einzig der Faktor AGD erkennbar ist (siehe Anhang A14).
Zusammenfassend kann somit festgestellt werden, dass sich bei den Untertests des HAWIK-IV
im kurzen Intervall und bei Erstvorgabe des HAWIK-III die vier von den Testautoren vorgegebenen Faktoren wiederfinden lassen, ohne dass eine Faktorenanzahl vorgegeben wurde. In
diesen Teilstichproben könnte demnach die Hypothese angenommen werden.
8.6.2 Faktorenanalysen mit Vorgabe der Faktorenanzahl
Im Folgenden wird vor der Berechnung der Faktorenanalysen festgelegt, dass sich vier Faktoren ergeben sollen. Dies entspricht der vorgegebenen Teststruktur beider HAWIK-Versionen.
Indem zunächst eine Faktorenanalyse mit Vorgabe von vier Faktoren berechnet wird, in die
sämtliche Untertests beider Testversionen einbezogen werden, soll ein Eindruck davon vermittelt werden, wie hoch die Untertests beider Testversionen gemeinsam auf die ihnen zu Grunde
liegenden Faktoren laden. In Tabelle 8.18 werden die Ergebnisse dieser Faktorenanalyse dargestellt.
Kapitel 8
Ergebnisse
147
Tabelle 8.18: Faktorenanalyse des HAWIK-III und -IV mit Vorgabe von vier Faktoren.
Faktor
Untertest
1
2
3
WT-IV
.80
.15
.15
WT-III
.78
.06
.20
BEN-IV
.73
.23
.12
GF-III
.73
.20
.15
AV-III
.72
.10
.00
GF-IV
.71
.30
.17
AV-IV
.70
.20
.01
AW-III
.66
.25
.35
AW-IV
.63
.27
.38
MT-IV
.14
.78
.26
MT-III
.14
.71
.24
BE-IV
.31
.66
-.09
FL-III
.13
.64
.05
BE-III
.36
.44
-.06
MZ-IV
.19
.44
.35
BK-IV
.28
.43
.02
BO-III
.39
.39
.03
ZN-IV
.10
.01
.81
ZN-III
.02
.01
.78
BZF-IV
.16
.00
.69
RD-IV
.28
.24
.61
RD-III
.27
.34
.60
ZST-III
.04
.03
.20
ZST-IV
.06
.01
.16
SYS-IV
.10
.24
.14
SS-III
.03
.04
.12
DT-IV
-.04
.23
-.10
4
.00
.07
-.03
-.01
.19
.01
.07
-.05
-.05
.07
.16
.14
.05
.07
.19
.06
.18
.07
.14
.14
.17
.01
.81
.80
.77
.65
.58
Die vier Faktoren entsprechen der von den WISC-Entwicklern vorgegebenen Teststruktur. Der
erste Faktor beinhaltet die Untertests der beiden als SV bezeichneten Indizes, der zweite Faktor besteht aus den Untertest des WO und des WLD, der dritte Faktor beinhaltet die Untertests der Indizes UA und AGD und der vierte Faktor bildet sich aus den Untertests der Indizes
AG und VG.
Die Hypothese 6.2.3 kann somit angenommen werden.
Allerdings kann BO sowohl dem ersten als auch dem zweiten Faktor zugeordnet werden. Auch
die beiden Versionen des BE laden zusätzlich mit mehr als .30 auf dem ersten Faktor, der die
Untertests des SV beinhaltet.
Im Folgenden soll für jede Testversion getrennt die von den Testautoren vorgegebene Teststruktur untersucht werden. Dafür werden jeweils vier Faktoren vorgegeben, da dies der theoretisch festgelegten Anzahl entspricht.
Kapitel 8
Ergebnisse
148
Tabelle 8.19: Faktorenanalyse des HAWIK-III mit Vorgabe von vier Faktoren.
Faktor
Untertest
1
2
3
4
WT
.79
.09
.19
.02
AV
.78
.16
-.04
.17
GF
.77
.16
.21
-.04
AW
.66
.20
.45
-.03
FL
.08
.85
.08
-.02
MT
.13
.71
.33
.23
BO
.37
.53
.06
.14
BE
.45
.49
-.11
.08
RD
.24
.25
.78
.00
ZN
.08
-.02
.75
.27
ZST
.08
.07
.13
.83
SS
.02
.13
.09
.82
Werden die vier Faktoren vorgeben, lässt sich die Teststruktur des HAWIK-III (siehe Tabelle
8.19) im vorliegenden Datensatz wiederfinden.
Mit Vorgabe von vier Faktoren kann die Hypothese 6.2.1 somit angenommen werden.
Der erste Faktor setzt sich aus den Untertests des SV zusammen, der zweite aus den Untertests des WO, der dritte aus den Untertests des UA-Index und der vierte Faktor aus den Untertests des AG. BE kann jedoch wie schon bei der Analyse unter Berücksichtigung aller Untertests
beider Versionen (siehe Tabelle 8.18) fast gleich gut dem ersten als auch dem zweiten Faktor
zugeordnet werden. AW zeigt neben dem Sprachfaktor ebenfalls hohe Ladungen auf dem Faktor, der die Untertests des UA-Index beinhaltet.
Die Ergebnisse der Faktorenanalyse für die HAWIK-IV-Untertests werden in der folgenden Tabelle 8.20 dargestellt.
Tabelle 8.20: Faktorenanalyse des HAWIK-IV mit Vorgabe von vier Faktoren.
Faktor
Untertest
1
2
3
WT
.84
.16
.12
BEN
.79
.09
.22
AV
.74
.09
.09
GF
.73
.16
.30
AW
.61
.39
.31
ZN
.08
.85
.10
BZF
.18
.76
-.07
RD
.24
.60
.34
BK
.27
-.08
.68
MT
.21
.23
.67
MZ
.12
.37
.62
BE
.43
-.11
.55
ZST
.10
.21
-.08
SYS
.11
.18
.18
DT
-.14
-.09
.31
4
.00
-.01
.07
.09
-.04
.02
.16
.14
.00
.17
.14
.30
.84
.79
.66
Kapitel 8
Ergebnisse
149
Wie aus der Tabelle 8.20 ersichtlich, lässt sich auch für den HAWIK-IV bei Vorgabe der vier
Faktoren die testtheoretische Faktorenstruktur replizieren. Den ersten Faktor bilden die Untertests des SV, den zweiten die Untertests des AGD, dem dritten lassen sich die Untertests des
WLD und dem vierten Faktor die Untertests des VG zuordnen.
Mit Vorgabe von vier Faktoren kann die Hypothese 6.2.2 somit angenommen werden.
Wie bei der Faktorenanalyse der HAWIK-III-Untertests laden auch bei der Analyse der HAWIKIV-Untertests AW relativ hoch auf dem Faktor, der die AGD-Untertests beinhaltet und BE auf
dem Faktor, der sich aus den Untertests des Index SV zusammensetzt.
8.6.3 Zusammenfassung Faktorenanalysen
Faktorenanalysen ohne Vorgabe der Faktorenanzahl konnten die vier Faktoren des HAWIK-III
und HAWIK-IV nur teilweise nachweisen. Anhand von Faktorenanalysen mit Vorgabe der Faktorenanzahl können die Hypothesen zur Faktorenstruktur beider Versionen jedoch bestätigt
werden. Sowohl die Untersuchung sämtlicher Untertests beider Testversionen als auch die
separaten Analysen der Tests weisen die Vier-Faktoren-Struktur auf, wie sie von den Entwicklern vorgegeben wurde. Dabei stellt sich heraus, dass die Untertests BE und BO ebenfalls hoch
auf dem Sprachverständnis-Faktor laden und AW zusätzlich auf dem Gedächtnis-Faktor hohe
Ladungen aufweist. Während die bezüglich der Faktorenstruktur beider Testversionen aufgestellten Hypothesen also nach der Berechnung ohne Faktorenvorgabe abgelehnt werden müssen, können sie anhand einer Faktorenanalyse mit Vorgabe der vier testeigenen Faktoren angenommen werden. Insgesamt konnte demnach die Struktur des HAWIK-III und des HAWIK-IV
repliziert werden.
8.7 Untersuchung des Zusammenhangs mit Hilfe von Korrelationen
Die Untersuchung der Korrelationen gibt Aufschluss über die Höhe und Richtung des Zusammenhangs der Untertests und Indizes beider Testversionen. Die Fragestellungen 5 bis 8 beschäftigen sich mit der Höhe der Korrelationen der sich entsprechenden Werte. Im Folgenden
soll also geklärt werden, ob sich die Korrelationen zwischen den sich entsprechenden Werten
als ebenso hoch erweisen, wie es sich in vergleichbaren Studien darstellte.
8.7.1 Korrelationen der Gesamtstichprobe
Wie im Manual des HAWIK-IV werden die Korrelationen zwischen beiden Testversionen zunächst getrennt in Abhängigkeit von der Reihenfolge der Testvorgabe angegeben. Tabelle 8.21
zeigt die Korrelationen zwischen HAWIK-III und -IV der G-III und Tabelle 8.22 die Korrelationen
der G-IV.
Kapitel 8
Ergebnisse
150
Tabelle 8.21: Korrelationen zwischen HAWIK-III und -IV (G-III, n = 109 bis 111).
HAWIK-IV N M
SD HAWIK-III
N M
SD Std.-diff. r
MT
111 11.9 2.9 MT
111 10.8 2.9
.38
.68
GF
111 11.5 2.3 GF
111 11.4 2.6
.00
.57
ZN
111 10.4 2.3 ZN
111 9.5 2.4
.37
.59
ZST
111 11.7 2.7 ZST
111 11.0 2.8
.28
.77
WT
111 11.3 2.6 WT
111 11.7 2.6
-.16
.64
AV
111 11.2 2.1 AV
111 11.2 2.0
-.01
.40
SYS
109 11.5 2.6 SS
109 10.9 2.7
.22
.57
BE
111 11.9 2.7 BE
111 10.6 2.7
.50
.55
AW
110 11.0 2.4 AW
110 10.8 2.8
.06
.74
RD
110 11.3 2.1 RD
110 11.0 2.9
.10
.53
SV
111 107.0 11.5 Verbal-IQ
111 108.2 12.3
-.10
.75
WLD
111 107.5 11.7 Handlungs-IQ 111 105.1 13.0
.19
.50
SV
111 107.0 11.5 SV
111 109.3 12.9
-.19
.79
WLD
111 107.5 11.7 WO
111 104.4 13.5
.25
.48
AGD
111 103.3 11.3 UA
111 102.3 13.0
.08
.61
VG
109 109.0 13.7 AG
109 105.3 13.7
.27
.81
Gesamt-IQ 111 108.5 9.8 Gesamt-IQ 111 107.5 12.5
.09
.73
Anmerkungen: N = Anzahl der Personen, M = Mittelwert, SD = Standardabweichung, Std.diff. = Standarddifferenz, r = Höhe der Korrelation. Zur Berechnung der Standarddifferenz
siehe Kapitel 7.5.3. Weitere Abkürzungen siehe Anhang A5 und A6.
Die Gesamt-IQ beider Testversionen korrelieren mit r = .73. Auf Index-Ebene weisen die Vergleiche zwischen WLD und Handlungs-IQ sowie zwischen WLD und WO in der G-III die niedrigsten Korrelationen auf. Die höchsten Korrelationen zeigen sich dagegen zwischen den Indizes
VG und AG. Der Untertest AV weist mit r = .40 mit Abstand die niedrigste, der nicht veränderte
ZST bei erneuter Testung mit r = .77 die höchste Korrelation auf. Die beiden Versionen des AW
korrelieren mit r = .74 ebenfalls hoch miteinander.
Tabelle 8.22: Korrelationen zwischen HAWIK-IV und -III (G-IV, n = 111 bis 112).
HAWIK-IV N M
SD HAWIK-III
N M
MT
112 10.5 2.9 MT
112 11.4
GF
112 10.6 2.4 GF
112 12.1
ZN
112 10.4 2.7 ZN
112 10.3
ZST
112 10.3 2.8 ZST
112 12.2
WT
112 10.8 2.7 WT
112 11.4
AV
112 11.1 2.6 AV
112 11.3
SYS
112 10.6 2.5 SS
112 12.4
BE
111 10.2 2.6 BE
111 11.5
AW
111 10.5 2.6 AW
111 11.2
RD
112 10.8 2.6 RD
112 11.1
SV
112 104.4 13.0 Verbal-IQ
112 109.6
WLD
112 103.3 12.3 Handlungs-IQ 112 108.6
SV
112 104.4 13.0 SV
112 111.0
WLD
112 103.3 12.3 WO
112 106.5
AGD
112 102.4 13.2 UA
112 105.0
VG
112 102.6 12.9 AG
112 113.1
Gesamt-IQ 112 104.0 12.3 Gesamt-IQ 112 110.2
SD Std.-diff. r
3.4
-.30
.72
2.9
-.57
.68
2.7
.03
.68
3.3
-.61
.75
3.1
-.21
.69
2.0
-.06
.70
2.6
-.68
.56
3.2
-.46
.61
2.7
-.28
.75
2.6
-.10
.68
13.5
-.39
.81
15.2
-.38
.66
14.5
-.48
.83
15.3
-.23
.64
13.3
-.20
.66
14.5
-.76
.79
14.1
-.47
.81
Kapitel 8
Ergebnisse
151
In der G-IV erweist sich die Korrelation im Gesamt-IQ mit r = .81 als etwas höher als in der G-III.
Ebenso hoch korreliert der SV des HAWIK-IV mit dem Verbal-IQ, die beiden SV-Indizes weisen
mit r = .83 die höchsten Korrelationen auf. Insgesamt liegen die Korrelationen in der G-IV höher als in der G-III. Auch auf Untertestebene zeigen sich ähnlich hohe oder höhere Korrelationen. Die niedrigste Korrelation weisen die beiden Symbol-Suche-Untertests mit r = .56 und die
höchsten die AW-Untertests mit r = .75 auf.
Die folgende Tabelle 8.23 beinhaltet die Verteilungskennwerte der Testergebnisse sowie der
Korrelationen zwischen HAWIK-III und -IV. Erläuterungen zur Berechnung der gemittelten Werte aus G-III und G-IV befinden sich in Kapitel 7.5.3.1.
Tabelle 8.23: Korrelationen zwischen HAWIK-III und -IV gesamt (n = 221 bis 223).
a
HAWIK-IV N M SD HAWIK-III
N M SD St.-diff. r rcorr1 rcorr2
p
α
MT
223 11.2 2.9 MT
223 11.1 3.1 .03
.70 .74 .77 .512 .013
GF
223 11.0 2.4 GF
223 11.8 2.8 -.29 .63 .73 .81 .182 .006
ZN
223 10.4 2.5 ZN
223 9.9 2.6 .19
.64 .70 .76 .280 .007
ZST
223 11.0 2.7 ZST
223 11.6 3.0 -.19 .76 .79 .80 .759 .017
WT
223 11.0 2.7 WT
223 11.6 2.8 -.19 .67 .75 .81 .462 .008
AV
223 11.1 2.4 AV
223 11.2 2.0 -.04 .57 .67 .77 .001** .005
SYS
221 11.0 2.6 SS
221 11.6 2.7 -.22 .57 .63 .71 .944 .050
BE
222 11.1 2.6 BE
222 11.1 2.9 -.01 .58 .63 .69 .485 .010
AW
221 10.7 2.5 AW
221 11.0 2.8 -.12 .75 .81 .84 .922 .025
RD
222 11.1 2.4 RD
223 11.1 2.8 .00
.61 .71 .79 .070 .006
SV
223 105.7 12.3 V-IQ
223 108.9 12.9 -.25 .78 .87 .89 .260 .050
WLD
223 105.4 12.0 H-IQ
223 106.9 14.2 -.11 .58 .68 .78 .076 .025
SV
223 105.7 12.3 SV
223 110.1 13.7 -.34 .81 .88 .90 .326 .017
WLD
223 105.4 12.0 WO
223 105.4 14.4 .00
.57 .67 .78 .077 .013
AGD
223 102.8 12.3 UA
223 103.6 13.2 -.06 .64 .72 .79 .569 .025
VG
221 105.8 13.3 AG
221 109.2 14.1 -.24 .80 .84 .85 .639 .050
Gesamt-IQ 223 106.3 11.2 Gesamt-IQ 223 108.9 13.3 -.21 .77 .87 .90 .155
Anmerkungen: N = Anzahl der Personen, M = Mittelwert, SD = Standardabweichung, St.diff. = Standarddifferenz, r = Höhe der Korrelation, rcorr1 und rcorr2 = korrigierte Korrelationen
(Formeln siehe 7.5.3.1), p = Signifikanz der Differenzen * = signifikantes Ergebnis auf dem .05Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm.
** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. Ausführliche Angaben zur Berech-
nung der Werte siehe Kapitel 7.5.3.1. Weitere Abkürzungen siehe Anhang A5 und A6.
Der Gesamt-IQ beider Testversionen korreliert - nach der Korrektur, wie sie für den amerikanischen Vergleich WISC-III und WISC-IV vorgenommen wurde (rcorr1, siehe Kapitel 7.5.3.1) - mit
r = .87. Der SV und der Verbalteil korrelieren ebenso hoch, während der WLD mit dem Handlungs-IQ mit r = .68 nach Korrektur einen niedrigeren Zusammenhang aufweist. Die korrigierten Korrelationen der Indexvergleiche liegen zwischen r = .67 und .88. Innerhalb der Untertests
zeigen sich korrigierte Korrelationen von r = .63 bis .81.
Die Fragestellungen 5 bis 8 können somit bejaht und die H1 der zugehörigen Hypothesen 6.3.1
bis 6.3.7 angenommen werden.
Kapitel 8
Ergebnisse
152
Zusätzlich lässt sich anhand der Ergebnisse, die in Tabelle 8.23 dargestellt sind, die Fragestellung 9: „Hat die Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die Höhe der
Korrelationen?“ beantworten. Die einzige Korrelation, die sich je nach dem zuerst vorgelegten
Testverfahren signifikant unterscheidet, weist der Untertest AV auf. In der G-III korrelieren die
beiden AV-Untertests nur mit r = .40, in der G-IV jedoch mit r = .70. Dies führt zu einem signifikanten Unterschied hinsichtlich der Höhe der Korrelation, je nachdem, welcher Test den Kindern und Jugendlichen der Gesamtstichprobe zuerst vorgelegt wurde.
Innerhalb der Indizes und Gesamtwerte sind keine signifikanten Unterschiede dieser Art festzustellen. Die Fragestellung 9 kann somit verneint und die H1 der Hypothesen 6.3.8 bis 6.3.14
angenommen werden.
Auch wenn die Frage nach dem Einfluss des Zeitintervalls zwischen beiden Testungen an der
gematchten Teilstichprobe untersucht werden soll (siehe Kapitel 7.3.2), werden im Folgenden
auch für die Gesamtstichprobe die Korrelationen getrennt nach der Länge des Re-Testintervalls
geprüft. In Tabelle 8.24 bis Tabelle 8.26 befinden sich die Angaben für die GK zunächst getrennt nach Testvorgabe und dann gemeinsam.
Tabelle 8.24: Korrelationen zwischen HAWIK-III und -IV für die GK-III (n = 63).
HAWIK-IV M
SD HAWIK-III
M
MT
12.2 2.8 MT
10.9
GF
11.1 2.2 GF
11.1
ZN
10.6 2.5 ZN
9.7
ZST
12.4 2.5 ZST
11.6
WT
10.8 2.5 WT
11.6
AV
11.0 2.2 AV
11.1
SYS
11.8 2.8 SS
11.4
BE
11.7 2.4 BE
10.3
AW
10.8 2.5 AW
10.9
RD
12.0 2.1 RD
11.4
SV
105.1 11.5 Verbal-IQ
108.0
WLD
107.6 11.1 Handlungs-IQ 106.2
SV
105.1 11.5 SV
108.7
WLD
107.6 11.1 WO
104.6
AGD
104.5 12.7 UA
103.8
VG
111.9 13.7 AG
108.5
Gesamt-IQ 108.9 10.3 Gesamt-IQ 108.0
SD Std.-diff. r
2.9
.78
.71
2.4
-.04
.55
2.6
.56
.68
3.0
.52
.77
2.5
-.49
.64
1.9
-.09
.48
2.5
.25
.63
2.8
.83
.64
2.7
-.05
.73
3.1
.38
.60
11.9
-.86
.78
14.1
.39
.51
12.2 -1.05
.82
14.4
.86
.48
14.0
.18
.67
13.6
.90
.82
12.9
.24
.75
Der Gesamt-IQ beider Testversionen korreliert in dieser Teilstichprobe mit r = .75. Wie schon in
der Gesamtstichprobe (G-III, siehe Tabelle 8.21) weisen die Kombinationen WLD und Handlungs-IQ sowie WLD und WO auch dann die niedrigsten Zusammenhänge auf, wenn der HAWIK-III zuerst durchgeführt wurde. Die höchsten Korrelationen zeigen sich zwischen den Indizes VG und AG und den SV-Indizes. Der AV-Vergleich weist mit r = .48 ebenso wie in der G-III
Kapitel 8
Ergebnisse
153
die niedrigste Korrelation auf. Der Untertest ZST des HAWIK-III und des HAWIK-IV zeigt mit
r = .77 identische Korrelationen zur G-III.
Tabelle 8.25: Korrelationen zwischen HAWIK-IV und -III für die GK-IV (n = 64 bis 65).
HAWIK-IV N M
SD HAWIK-III
MT
65 10.8 2.6 MT
GF
65 10.8 2.3 GF
ZN
65 10.6 2.8 ZN
ZST
65 10.1 2.7 ZST
WT
65 10.7 2.6 WT
AV
65 11.0 2.3 AV
SYS
65 10.4 2.2 SS
BE
64 10.2 2.5 BE
AW
64 10.3 2.4 AW
RD
65 10.8 2.6 RD
SV
65 104.2 11.7 Verbal-IQ
WLD
65 103.6 12.0 Handlungs-IQ
SV
65 104.2 11.7 SV
WLD
65 103.6 12.0 WO
AGD
65 103.0 13.3 UA
VG
65 101.5 11.7 AG
Gesamt-IQ 65 103.9 11.6 Gesamt-IQ
N
65
65
65
65
65
65
65
64
64
65
65
65
65
65
65
65
65
M
11.6
12.1
10.6
12.1
11.5
11.3
12.3
11.9
11.3
11.0
109.5
109.8
111.0
108.1
105.6
112.7
111.0
SD Std.-diff. r
3.1
-.48
.69
2.4
-.86
.61
2.7
-.05
.77
3.3
-1.16
.75
2.6
-.53
.68
1.9
-.16
.67
2.5
-1.21
.39
3.1
-1.07
.64
2.7
-.59
.75
2.6
-.10
.66
11.9 -1.56
.74
14.0 -1.74
.55
12.2 -1.99
.77
14.1 -1.25
.55
13.5
-.72
.71
13.5 -3.15
.73
12.4 -2.03
.75
Die GK-IV weist ebenso wie die G-IV (siehe Tabelle 8.22) im Gesamt-IQ sowie in den sprachlichen Index- und Gesamtwerten die höchsten Zusammenhänge auf. Auf Untertestebene zeigen
sich auch hier ähnlich hohe oder höhere Korrelationen wie bei den Kindern der GK-III (siehe
Tabelle 8.24). Als auffallend niedrig offenbart sich mit r = .39 der Zusammenhang zwischen den
Versionen der Symbol-Suche.
Tabelle 8.26: Korrelationen zwischen HAWIK-III und -IV (GK gesamt, n = 127 bis 128).
MT
128 11.5 2.7 MT
GF
128 10.9 2.2 GF
ZN
128 10.6 2.6 ZN
ZST
128 11.3 2.6 ZST
WT
128 10.7 2.5 WT
AV
128 11.0 2.3 AV
SYS
128 11.1 2.5 SS
BE
127 10.9 2.4 BE
AW
127 10.6 2.4 AW
RD
128 11.4 2.3 RD
SV
128 104.6 11.6 V-IQ
WLD
128 105.6 11.5 H-IQ
SV
128 104.6 11.6 SV
WLD
128 105.6 11.5 WO
AGD
128 103.7 13.0 UA
VG
128 106.7 12.7 AG
N M SD St.-diff.
128 11.2 3.0 .09
128 11.6 2.4 -.30
128 10.2 2.7 .15
128 11.8 3.1 -.20
128 11.6 2.6 -.32
128 11.2 1.9 -.09
128 11.8 2.5 -.29
128 11.1 2.9 -.08
128 11.1 2.7 -.20
128 11.2 2.9 .08
128 108.8 11.9 -.35
128 108.0 14.1 -.19
128 109.8 12.2 -.44
128 106.3 14.2 -.06
128 104.7 13.7 -.07
128 110.6 13.5 -.30
128 109.5 12.7 -.26
r rcorr1
.70 .76
.58 .71
.73 .77
.76 .81
.66 .76
.59 .70
.52 .59
.64 .71
.74 .81
.63 .73
.76 .86
.53 .65
.80 .89
.51 .63
.69 .75
.78 .82
.75 .86
rcorr2
.80
.81
.80
.83
.83
.80
.70
.78
.84
.80
.89
.78
.91
.77
.80
.85
.89
p
.871
.584
.276
.827
.666
.101
.073
.968
.745
.605
.595
.738
.447
.589
.622
.220
.970
a
α
.025
.007
.006
.017
.010
.006
.005
.050
.013
.008
.025
.050
.017
.025
.050
.013
Kapitel 8
Ergebnisse
154
In der Stichprobe, die ein kurzes Intervall zwischen beiden Testungen aufweist (GK), ergibt sich
zwischen den beiden Gesamt-IQ eine korrigierte Korrelation von r = .86. Auch hier zeigen sich
die niedrigsten Zusammenhänge bezogen auf die Indizes zwischen WLD und Handlungsteil
sowie WLD und WO. Insgesamt unterscheiden sich die Korrelationen der Gesamtstichprobe
(siehe Tabelle 8.23) und der GK (siehe Tabelle 8.26) nur unwesentlich voneinander. Einzig die
Untertests ZN und BE weisen in der GK etwas höhere Korrelationen zwischen HAWIK-III und -IV
auf als in der Gesamtstichprobe (r = .70 gegenüber .77 im ZN und r = .63 gegenüber .71 im BE).
Die niedrigsten Zusammenhänge offenbaren die Untertests SYS und SS mit r = .59 nach Korrektur.
Tabelle 8.27 und Tabelle 8.28 beinhalten die Angaben der Korrelationsberechnungen für die
Stichprobe, bei der ein langes Intervall zwischen beiden Testungen lag (GL), getrennt nach der
Reihenfolge der Testvorgabe. Die Ergebnisse die zusammengefassten Berechnungen beider
Teilstichproben lassen sich Tabelle 8.29 entnehmen.
Tabelle 8.27: Korrelationen zwischen HAWIK-III und -IV für die GL-III (n = 46 bis 48).
HAWIK-IV N M
SD HAWIK-III
MT
48 11.5 2.9 MT
GF
48 12.0 2.3 GF
ZN
48 10.1 2.0 ZN
ZST
48 10.8 2.7 ZST
WT
48 11.9 2.6 WT
AV
48 11.4 1.9 AV
SYS
46 11.1 2.3 SS
BE
48 12.2 3.0 BE
AW
47 11.2 2.2 AW
RD
47 10.4 1.8 RD
SV
48 109.6 11.2 Verbal-IQ
WLD
48 107.4 12.6 Handlungs-IQ
SV
48 109.6 11.2 SV
WLD
48 107.4 12.6 WO
AGD
48 101.8 9.1 UA
VG
48 105.3 12.9 AG
N
48
48
48
48
48
48
46
48
47
47
48
48
48
48
48
46
48
M
10.6
11.9
9.2
10.2
11.8
11.3
10.2
10.9
10.7
10.6
108.4
103.7
110.2
104.2
100.3
101.0
106.9
SD Std.-diff. r
2.9
.50
.64
2.8
.06
.58
2.1
.59
.40
2.3
.40
.74
2.7
.04
.66
2.2
.07
.31
2.9
.57
.48
2.5
.79
.44
3.1
.24
.79
2.7
-.13
.38
12.9
.35
.75
11.4
1.06
.50
13.9
-.17
.76
12.3
.91
.50
11.5
.47
.48
12.7
1.29
.78
12.1
.40
.69
Die GL-III offenbart auf Untertestebene zum Teil niedrige Korrelationen. So weisen die Hälfte
der Untertestvergleiche Korrelationen unter r = .50 auf. Der Vergleich Handlungsteil und WLD
zeigt mit r = .50 identische Korrelationen wie der Vergleich zwischen WO und WLD. Nur der
Vergleich zwischen UA und AGD ergab mit r = .48 noch niedrigere Zusammenhänge zwischen
beiden den Geschwindigkeits-Indizes beider Testversionen.
Kapitel 8
Ergebnisse
155
Tabelle 8.28: Korrelationen zwischen HAWIK-IV und -III für die GL-IV (n = 47).
HAWIK-IV M
SD HAWIK-III
M
MT
10.1 3.4 MT
11.2
GF
10.4 2.7 GF
12.2
ZN
10.2 2.5 ZN
9.9
ZST
10.6 2.9 ZST
12.2
WT
11.0 3.0 WT
11.3
AV
11.2 2.9 AV
11.2
SYS
10.8 2.9 SS
12.4
BE
10.3 2.8 BE
11.1
AW
10.6 2.9 AW
11.1
RD
10.8 2.6 RD
11.2
SV
109.7
WLD
103.0 12.8 Handlungs-IQ 106.9
SV
104.8 14.7 SV
110.9
WLD
103.0 12.8 WO
104.3
AGD
101.6 13.2 UA
104.1
VG
104.0 14.4 AG
113.6
SD Std.-diff. r
3.7
-.60
.75
3.5
-1.02
.75
2.7
.19
.53
3.3
-.94
.75
3.7
-.16
.72
2.3
-.03
.73
2.8
-.97
.72
3.3
-.46
.59
2.9
-.26
.76
2.7
-.24
.72
15.5 -1.26
.87
16.7 -1.03
.57
17.4 -1.53
.88
16.8
-.34
.76
13.3
-.71
.58
16.0 -2.45
.85
16.1 -1.28
.86
Die GL-IV weist deutlich höhere Korrelationen auf als die GL-III. So liegen alle Untertestvergleiche über r = .50. Innerhalb der Indizes und Gesamtwerte offenbaren nur die Vergleiche zwischen Handlungsteil und WLD sowie zwischen UA und AGD Korrelationen unter r = .70. Die
Gesamt-IQ korrelieren mit r = .86 ebenfalls deutlich höher als in der GL-III.
Tabelle 8.29: Korrelationen zwischen HAWIK-IV und -III (GL gesamt, n = 93 bis 95).
MT
95 10.8 3.1 MT
GF
95 11.2 2.5 GF
ZN
95 10.2 2.3 ZN
ZST
95 10.7 2.8 ZST
WT
95 11.4 2.8 WT
AV
95 11.3 2.5 AV
SYS
93 11.0 2.6 SS
BE
95 11.2 2.9 BE
AW
94 10.9 2.6 AW
RD
94 10.6 2.3 RD
SV
95 107.2 13.0 V-IQ
WLD
95 105.2 12.7 H-IQ
SV
95 107.2 13.0 SV
WLD
95 105.2 12.7 WO
AGD
95 101.7 11.3 UA
VG
93 104.8 13.8 AG
N
95
95
95
95
95
95
93
95
94
94
95
95
95
95
95
93
95
M SD St.-diff.
10.9 3.3 -.04
12.0 3.2 -.29
9.6 2.4 .24
11.2 2.8 -.18
11.6 3.2 -.04
11.2 2.2 .01
11.3 2.9 -.13
11.0 2.9 .09
10.9 3.0 -.01
10.9 2.7 -.12
109.0 14.3 -.13
105.3 14.3 -.01
110.5 15.7 -.23
104.2 14.7 .07
102.2 12.4 -.05
107.3 14.5 -.17
108.0 14.2 -.14
r rcorr1
.70 .71
.68 .75
.47 .57
.75 .77
.69 .76
.55 .63
.62 .67
.52 .53
.77 .82
.57 .68
.82 .88
.66 .73
.83 .89
.64 .72
.53 .66
.82 .84
.79 .88
rcorr2
.72
.81
.73
.78
.81
.73
.72
.57
.84
.79
.89
.79
.90
.78
.79
.85
.90
p
.306
.133
.457
.976
.567
.005**
.065
.332
.709
.017*
.074
.023**
.066
.040*
.497
.303
.031
a
α
.008
.007
.013
.050
.017
.005
.006
.010
.025
.006
.050
.025
.017
.013
.050
.025
Da sich in der GL-IV deutlich höhere Zusammenhänge zeigen als in der GL-III, erweisen sich
einige Korrelationen in ihrer Höhe als voneinander signifikant verschieden. Innerhalb der Untertests ist dies für AV und RD zu vermerken, allerdings zeigt sich nach einer α-Adjustierung
lediglich AV als weiterhin signifikant. Auf Indexebene stellt sich einzig der Vergleich WLD und
Kapitel 8
Ergebnisse
156
WO ohne α-Adjustierung je nach Testvorgabe als signifikant voneinander abweichend dar. Die
Korrelationen des Vergleichs Handlungsteil und WLD sowie der Gesamt-IQ erweisen sich ebenso als voneinander signifikant divergent. Verglichen mit der Stichprobe, die nach einem kurzen
Intervall erneut getestet wurde (GK, siehe Tabelle 8.26), ergeben sich insgesamt in der GL ähnlich hohe Korrelationen. Der Gesamt-IQ-Vergleich erweist sich mit .88 nach Korrektur als etwas
höher als in der GK. Innerhalb der Indizes und der Gesamtwerte unterscheiden sich die Korrelationen unter Berücksichtigung der Testreihenfolge im langen Intervall maximal um r = .09
(der Vergleich zwischen WO und WLD weist in der GL, der Vergleich zwischen AGD und UA in
der GK etwas höhere Korrelationen auf). Die Korrelationen der Untertests unterscheiden sich
um maximal r = .20. Die mit Abstand größte Differenz zwischen den Werten der Kinder mit
kurzem und denen mit langem Intervall hinsichtlich der Höhe der Korrelationen weisen ZN
(.20) und BE (.18) auf. Die Korrelationen dieser beiden Untertests liegen sowohl deutlich unterhalb derer der GK als auch (wenn auch weniger deutlich) derer der Gesamtstichprobe.
8.7.2 Korrelationen der Teilstichprobe
Mit Hilfe der gematchten Teilstichprobe soll die Fragestellung 10: „Unterscheidet sich die
Höhe der Korrelationen, getrennt nach der Länge des Intervalls zwischen beiden Testungen,
signifikant voneinander?“ untersucht werden.
Tabelle 8.30 stellt die Korrelationen zwischen beiden Testversionen für die gematchte Stichprobe mit einem kurzen Re-Testintervall (GemSK) und Tabelle 8.31 für die gematchte Stichprobe mit einem langen Re-Testintervall (GemSL) dar.
Tabelle 8.30: Korrelationen zwischen HAWIK-III und -IV für die GemSK (n = 72).
HAWIK-IV M
SD HAWIK-III
M
MT
11.8 3.0 MT
11.6
GF
10.9 2.5 GF
11.7
ZN
10.5 2.5 ZN
10.0
ZST
11.0 3.0 ZST
12.1
WT
10.7 2.7 WT
11.5
AV
11.2 2.1 AV
11.3
SYS
11.2 2.6 SS
11.9
BE
10.9 2.7 BE
11.3
AW
10.8 2.4 AW
11.5
RD
11.1 2.4 RD
10.9
SV
109.1
WLD
106.3 12.1 Handlungs-IQ 109.7
SV
104.7 11.9 SV
110.6
WLD
106.3 12.1 WO
107.8
AGD
103.2 13.2 UA
103.4
VG
106.1 14.0 AG
111.7
SD Std.-diff. r
3.0
.10
.62
2.4
-.48
.60
2.7
.28
.73
3.3
-.62
.72
2.5
-.50
.65
1.7
-.09
.54
2.4
-.47
.38
3.0
-.22
.53
2.7
-.46
.72
2.7
.10
.59
11.4 -1.27
.76
14.4
-.94
.53
11.8 -1.70
.80
14.5
-.41
.50
13.6
-.06
.72
13.2 -1.52
.69
12.6 -1.18
.73
Kapitel 8
Ergebnisse
157
Ebenso wie in der GK (siehe Tabelle 8.26) zeigen sich auch in der gematchten Stichprobe mit
kurzem Intervall (GemSK) die niedrigsten Index-Korrelationen zwischen WLD und Handlungsteil sowie WLD und WO. Auch die niedrigsten Zusammenhänge in den Untertests SYS und SS
sind in beiden Stichproben zu finden, in der gematchten Stichprobe kommen sie sogar noch
deutlicher zum Vorschein (r = .38 in der GemSK gegenüber .52 in der GK vor Korrektur).
Tabelle 8.31: Korrelationen zwischen HAWIK-IV und -III für die GemSL (n = 72).
HAWIK-IV M
SD HAWIK-III
M
MT
10.4 3.2 MT
10.8
GF
10.9 2.7 GF
11.8
ZN
10.1 2.4 ZN
9.7
ZST
10.8 2.9 ZST
11.5
WT
11.1 2.7 WT
11.3
AV
11.3 2.7 AV
11.2
SYS
10.9 2.6 SS
11.6
BE
10.7 2.7 BE
10.9
AW
10.5 2.6 AW
10.6
RD
10.5 2.3 RD
10.7
SV
107.6
WLD
103.2 13.0 Handlungs-IQ 105.2
SV
105.8 13.6 SV
109.2
WLD
103.2 13.0 WO
103.5
AGD
101.4 11.7 UA
102.2
VG
104.8 13.9 AG
109.2
SD Std.-diff. r
3.6
-.22
.67
3.1
-.52
.64
2.4
.28
.48
3.1
-.44
.68
3.4
-.13
.69
2.0
.06
.62
3.0
-.46
.62
3.0
-.12
.47
3.0
-.05
.72
2.7
-.17
.65
14.2
-.48
.83
15.3
-.54
.67
15.8
-.86
.83
15.4
-.09
.66
12.3
-.22
.53
15.9 -1.14
.75
14.8
-.62
.78
Die GemSL und die GL (siehe Tabelle 8.29) offenbaren ähnliche Korrelationen. Auch in der gematchten Stichprobe mit langem Intervall (GemSL) weisen die Vergleiche zwischen den Versionen des ZN und BE einen niedrigen Zusammenhang auf. Auch die niedrigen Korrelationen
im Vergleich zwischen AGD und UA ebenso wie die hohen Korrelationen im Vergleich der SVIndizes sowie des Verbalteils mit dem SV des HAWIK-IV decken sich mit den Ergebnissen aus
der GL. Die beiden Gesamt-IQ korrelieren mit r = .78 nahezu identisch zu den beiden GesamtIQ in der GL vor Korrektur.
Mit derselben Rechenprozedur wie in der Gesamtstichprobe ergaben sich für die gesamte gematchte Stichprobe (GemS) folgende zusammengefasste Korrelationen, Standarddifferenzen
und deren Signifikanzen (siehe Tabelle 8.32).
Kapitel 8
Ergebnisse
158
Tabelle 8.32: Korrelationen zwischen HAWIK-IV und -III (GemS gesamt, n = 144).
HAWIK-IV M SD HAWIK-III
MT
11.1 3.1 MT
GF
10.9 2.6 GF
ZN
10.3 2.4 ZN
ZST
10.9 3.0 ZST
WT
10.9 2.7 WT
AV
11.2 2.4 AV
SYS
11.0 2.6 SS
BE
10.8 2.7 BE
AW
10.6 2.5 AW
RD
10.8 2.3 RD
SV
105.3 12.8 V-IQ
WLD
104.8 12.6 H-IQ
SV
105.3 12.8 SV
WLD
104.8 12.6 WO
AGD
102.3 12.5 UA
VG
105.4 13.9 AG
Gesamt-IQ 105.6 12.2 Gesamt-IQ
M
11.2
11.7
9.9
11.8
11.4
11.2
11.8
11.1
11.0
10.8
108.4
107.5
109.9
105.7
102.8
110.4
108.8
SD St.-diff. r rcorr1
3.3 -.04 .65 .67
2.8 -.30 .62 .69
2.6
.18
.62 .70
3.2 -.30 .70 .71
3.0 -.18 .67 .75
1.9 -.01 .58 .67
2.7 -.28 .51 .56
3.0 -.10 .50 .54
2.8 -.15 .72 .78
2.7 -.02 .62 .72
12.9 -.24 .80 .86
14.9 -.20 .60 .69
13.9 -.34 .82 .88
15.0 -.07 .59 .67
13.0 -.04 .63 .72
14.6 -.35 .72 .75
13.7 -.25 .76 .84
rcorr2
.69
.76
.77
.71
.80
.77
.66
.62
.81
.80
.89
.77
.90
.76
.79
.77
.87
p
.585
.681
.014*
.649
.683
.497
.066
.655
.954
.591
.294
.174
.603
.171
.077
.472
.526
a
α
.007
.017
.005
.010
.025
.006
.006
.013
.050
.008
.050
.025
.050
.017
.013
.025
Die Korrelationen der Gesamt-IQ erweisen sich auch in der gematchten Stichprobe mit r = .84
nach Korrektur (rcorr1) als hoch. Ebenso ergeben sich hohe Zusammenhänge zwischen dem SV
des HAWIK-IV und dem Verbalteil sowie beiden SV-Indizes.
Mit dem ZN erweist es sich die Differenz der Korrelationen nur bei einem Test als signifikant
voneinander unterschiedlich, je nach dem Abstand zwischen beiden Testungen, allerdings lediglich vor einer α-Adjustierung. Nach einem kurzen Re-Testintervall korrelieren die Untertests
ZN des HAWIK-III und -IV deutlich niedriger miteinander als nach langem Intervall.
Da sich innerhalb der Indizes und der Gesamtwerte keine signifikanten Differenzen hinsichtlich
der Korrelationen feststellen lassen, können die Fragestellung 10 verneinend beantwortet und
die Hypothesen 6.3.15 bis 6.3.21 somit angenommen werden.
8.7.3 Zusammenfassung Korrelationsanalysen
Insgesamt lässt sich festhalten, dass die beiden Testversionen durchweg hoch miteinander
korrelieren. Es zeigen sich dabei höhere Zusammenhänge auf Ebene der Indizes und Gesamtwerte als auf Untertestebene. In der Gesamtstichprobe weisen die Indexpaare WLD und WO,
AGD und UA sowie der Vergleich zwischen dem Handlungsteil und dem WLD deutlich geringere Korrelationen auf als die Indexpaare SV und SV, VG und AG sowie der Vergleich zwischen
Verbalteil und SV des HAWIK-IV. Dieses Ergebnis zeigt sich sowohl unter Berücksichtigung der
Gesamtstichprobe als auch in den Berechnungen, die in ein kurzes und ein langes ReTestintervall unterteilt wurden. Außerdem erwies es sich in der Gesamtstichprobe einzig im
Untertest AV als bedeutsam, welcher Test zuerst vorgegeben wurde. Somit kann für die Gesamtstichprobe die Frage verneint werden, ob innerhalb der Indizes und Gesamtwerte die
Kapitel 8
Ergebnisse
159
Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die Höhe der Korrelationen hat.
Während sich jedoch in der Stichprobe, die ein kurzes Intervall zwischen beiden Testungen
aufweist, keinerlei signifikante Differenzen je nach Testvorgabe zeigten, stellt es sich bei den
Kindern und Jugendlichen mit langem Re-Testintervall sowohl im AV als auch im Gesamt-IQ
und im Vergleich zwischen Handlungsteil und WLD (auch nach Alpha-Korrektur) als signifikant
unterschiedlich dar, welcher Test zuerst vorgegeben wurde.
Verglichen mit den Werten der Gesamtstichprobe weisen die Kinder und Jugendlichen der
gematchten Stichprobe in den meisten Untertests gleichhohe oder etwas geringere Korrelationen auf. Die Höhe der Korrelation beider Gesamt-IQ-Vergleiche ist mit r = .87 gegenüber .84
nahezu identisch. Die Korrelationen der Indexvergleiche erweisen sich in beiden Stichproben außer im Vergleich AG versus VG - ebenfalls als identisch (dort weist die gematchte Stichprobe
mit r = .75 eine geringere Korrelation auf als die Gesamtstichprobe mit r = .84).
Es ergeben sich aus den Korrelationsberechnungen demnach insgesamt höhere Zusammenhänge zwischen den sprachlichen Index- und Gesamtwerten und den Geschwindigkeitsindizes
als zwischen den handlungsbezogenen Index-und Gesamtwerten und denen, die Gedächtnisleistungen beinhalten. Die Untersuchung des Einflusses des Testintervalls auf die Korrelationen
zeigte in der gematchten Stichprobe keine signifikanten Differenzen innerhalb der Indizes und
der Gesamtwerte des HAWIK-III und -IV. Die entsprechende Fragestellung kann somit verneint
werden.
8.8
Regressionsanalysen
Die lineare Regression gibt Aufschluss über die Höhe der Varianzaufklärung der Untertests in
Bezug auf die Indizes sowie der Indizes auf den Gesamt-IQ. Zusätzlich soll mit Hilfe der Regressionsanalyse berechnet werden, welche Index- und Gesamtwerte vor der Durchführung des
HAWIK-IV zu erwarten sind, je nachdem, welche Werte bei der Testung mit dem HAWIK-III
erzielt wurden.
8.8.1 Untersuchung der Varianzaufklärung der HAWIK-III-Untertests
Zunächst soll versucht werden, die Fragestellung 11: „Haben die entfernten oder nur noch
optionalen Untertests weniger zur Varianzaufklärung des Index beigetragen als die Untertests, die zur Berechnung des Gesamt-IQ des HAWIK-IV vorgegeben sind?“ zu beantworten.
Dafür wird untersucht, wie viel Varianz des jeweiligen Index die Untertests aufklären, wie gut
sie also als Prädiktoren für den Index dienen. Damit können möglicherweise Rückschlüsse darauf gezogen werden, aus welchen Gründen einige Untertests nicht in den HAWIK-IV übernommen wurden oder nur noch optionale Untertests darstellen. Es wird davon ausgegangen,
Kapitel 8
Ergebnisse
160
dass die Untertests, die weiterhin oder im HAWIK-IV erstmals zum Kernteil der Testbatterie
gehören, mehr zur Varianzaufklärung des Index beitragen als die Untertests, die im HAWIK-IV
nicht mehr enthalten oder nur noch optional durchzuführen sind.
Für den SV-Index des HAWIK-III wurde die Hypothese 6.4.1 formuliert. Die Ergebnisse der Hypothesenprüfung sind Tabelle 8.33 zu entnehmen.
Tabelle 8.33: Lineare Regression der Untertests des SV-Index des HAWIK-III.
Untertests
b
Std.-Fehler Beta
T
p
GF
1.668
.035
.338 48.209 .000
AW
1.649
.034
.335 48.693 .000
WT
1.554
.034
.322 45.146 .000
AV
1.656
.044
.244 37.418 .000
Anmerkungen: Abhängige Variable: SV des HAWIK-III, b = unstandardisierter Regressionskoeffizient, Std.-Fehler = Standardfehler von b, Beta = standardisierter Regressionskoeffizient,
entspricht dem β-Gewicht, T = Wert zur Signifikanzprüfung, p = zweiseitiger Signifikanzwert
(5 %-Niveau). Sortiert nach Höhe von Beta. Weitere Abkürzungen siehe Anhang A5 und A6.
In der linearen Regression erweist sich GF als der Untertest, der die meiste Varianz des SVIndex des HAWIK-III aufklärt, gefolgt vom AW und WT. Am wenigsten trägt AV zur Varianzaufklärung bei. Da die Untertests GF, WT und AV des HAWIK-IV jedoch in den SV des HAWIK-IV
einfließen und der AW nur als optionaler Untertest dient, muss die H1 der Hypothese 6.4.1
abgelehnt und die Alternativhypothese (H0) angenommen werden.
In Tabelle 8.34 werden die Ergebnisse der linearen Regression mit dem Index WO als abhängige Variable und den Untertests des WO als Prädiktoren angegeben. Dies dient der Überprüfung der Hypothesen 6.4.2 und 6.4.3.
Tabelle 8.34: Lineare Regression der Untertests des WO-Index des HAWIK-III.
Untertests
b
Std.-Fehler Beta
BO
1.597
.026
.369
MT
1.560
.028
.363
FL
1.611
.030
.338
BE
1.659
.029
.321
Anmerkungen: Abhängige Variable: WO
8.33.
T
p
62.227 .000
56.553 .000
53.252 .000
54.898 .000
des HAWIK-III. Weitere Erklärungen siehe Tabelle
Insgesamt weisen alle Untertests ein ähnlich hohes β-Gewicht auf. Sie sind demnach alle ungefähr gleich hoch an der Varianzaufklärung des WO beteiligt. Dennoch zeigen nicht die ebenfalls
im HAWIK-IV vorhandenen Untertests MT und BE, sondern der im HAWIK-IV nicht berücksichtigte Untertest BO den höchsten Varianzaufklärungsanteil. Am wenigsten trägt BE zur Varianzaufklärung des Index bei. Folglich müssen die H1 der Hypothesen 6.4.2 und 6.4.3 abgelehnt
werden.
Weiterhin wird die UA hinsichtlich der Vorhersagekraft der Prädiktoren, also der Untertests
des Index, untersucht. Damit soll die Hypothese 6.4.4 überprüft werden.
Kapitel 8
Ergebnisse
161
Tabelle 8.35: Lineare Regression der Untertests des UA-Index des HAWIK-III.
Untertests
b
Std.-Fehler Beta
T
p
RD
2.964
.024
.621 122.057 .000
ZN
2.940
.026
.581 114.108 .000
Anmerkungen: Abhängige Variable: UA des HAWIK-III. Weitere Erklärungen siehe Tabelle
8.33.
Anders als sich durch die Verlegung des RD in den optionalen und des ZN in den obligatorischen Teil des HAWIK-IV vermuten lässt, trägt RD mehr zur Varianzaufklärung des Index UA bei
als ZN. Folglich muss auch die H1 der Hypothese 6.4.4 abgelehnt werden.
8.8.2 Untersuchung der Varianzaufklärung der HAWIK-IV-Untertests
Zur Beantwortung der Frage 12: „Tragen die Untertests des HAWIK-IV eines Index signifikant
zur Varianzaufklärung des entsprechenden Index des HAWIK-III bei?“ werden zusätzliche
Regressionsanalysen durchgeführt. Hiermit soll untersucht werden, inwieweit die Untertests
des HAWIK-IV signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-III beitragen. Erweist sich die Varianzaufklärung sämtlicher Kernuntertests des HAWIK-IV als signifikant für die dazugehörigen Indizes des HAWIK-III, kann davon ausgegangen werden, dass die
Indizes beider Testversionen dieselben Konstrukte bzw. kognitiven Fähigkeiten erfassen und
somit bedenkenlos miteinander verglichen werden können. Mit der H1 der Hypothesen 6.4.5
bis 6.4.14 wird demnach die Vermutung aufgestellt, dass die Kernuntertests des HAWIK-IV
signifikant zur Varianzaufklärung des Index des HAWIK-III beitragen.
Dabei werden zunächst die Hypothesen 6.4.5 bis 6.4.7 untersucht, indem der Index SV des
HAWIK-III als abhängige Variable dient und die SV-Untertests des HAWIK-IV die unabhängigen
Variablen bilden. Es soll demnach die Höhe ihrer Varianzaufklärung auf die abhängige Variable
geprüft werden. Die Ergebnisse dieser linearen Regression sind Tabelle 8.36 zu entnehmen.
Tabelle 8.36: Varianzaufklärung der SV-Untertests des HAWIK-IV auf den SV des HAWIK-III.
Untertests des
b
Std.-Fehler Beta
T
p
HAWIK-IV
AW
1.555
.278
.279 5.582 .000
WT
1.383
.300
.267 4.616 .000
GF
1.254
.313
.219 4.002 .000
AV
0.921
.283
.155 3.248 .001
BEN
0.566
.273
.109 2.071 .040
Anmerkungen: Abhängige Variable: SV des HAWIK-III. Weitere Erklärungen siehe Tabelle
8.33.
Da die drei SV-Kernuntertests des HAWIK-IV, namentlich GF, WT und AV, signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-IV beitragen, kann die H1 der Hypothesen 6.4.5, 6.4.6 und 6.4.7 angenommen werden. Insgesamt werden mit den fünf Untertests
des Index SV des HAWIK-IV fast 70 % der Varianz des Index SV des HAWIK-III aufgeklärt
(r2 = .695).
Kapitel 8
Ergebnisse
162
Zur Entscheidung, ob für die Hypothesen 6.4.8 bis 6.4.10 die H1 oder die H0 angenommen
werden muss, dienen die Ergebnisse, die Tabelle 8.37 zu entnehmen sind. Sie zeigt die lineare
Regression mit dem Index WO als abhängiger und den Untertests des WLD als unabhängige
Variablen.
Tabelle 8.37: Varianzaufklärung der WLD-Untertests des HAWIK-IV auf den WO des HAWIKIII.
Untertests des
b
Std.-Fehler Beta
T
p
HAWIK-IV
MT
1.970
.304
.407 6.486 .000
BE
1.403
.328
.268 4.274 .000
MZ
0.640
.353
.106 1.811 .072
BK
-0.021
.346
-.004 -0.061 .952
Anmerkungen: Abhängige Variable: WO des HAWIK-III. Weitere Erklärungen siehe Tabelle
8.33.
Lediglich MT und BE zeigen signifikante Beiträge zur Varianzaufklärung des WO. Folglich kann
mit dem MT nur einer der drei Kerntests des WLD signifikant zur Varianzaufklärung des WO
beitragen. Somit kann nur für die Hypothese 6.4.8 die H1 angenommen werden, während sie
bezogen auf die Hypothesen 6.4.9 und 6.4.10 abgelehnt werden muss. Die vier Untertests des
WLD klären zusammen nicht einmal die Hälfte der Varianz des WO auf (r2 = .404).
Die Ergebnisse der Analyse der gemeinsamen Varianz der Untertests des Index AGD des HAWIK-IV und des Index UA des HAWIK-III werden in Tabelle 8.38 dargestellt. Die Hypothesen
6.4.11 und 6.4.12 beziehen sich auf die Frage, inwieweit die Untertests des AGD signifikant zur
Varianzaufklärung des Index UA beitragen können.
Tabelle 8.38: Varianzaufklärung der AGD-Untertests des HAWIK-IV auf den UA des HAWIK-III.
Untertests des
b
Std.-Fehler Beta
T
p
HAWIK-IV
RD
2.024
.302
.363 6.713 .000
ZN
1.812
.311
.340 5.819 .000
BZF
1.089
.331
.186 3.293 .001
Anmerkungen: Abhängige Variable: UA des HAWIK-III. Weitere Erklärungen siehe Tabelle
8.33.
Alle drei Untertests des AGD leisten einen signifikanten Beitrag zur Varianzaufklärung des UA.
Insgesamt klären sie über 50 % der Varianz des Index auf (r2 = .507). Die H1 der entsprechenden Hypothesen 6.4.11 und 6.4.12 kann somit angenommen werden. Es zeigt sich jedoch für
den optionalen Untertest RD ein deutlich höheres ß-Gewicht als für den Kerntest BZF.
Schließlich wird der HAWIK-III Index AG untersucht. Die dazugehörigen Hypothesen 6.4.13 und
6.4.14 können überprüft werden, indem die Höhe der Varianzaufklärung der Untertests des
entsprechenden HAWIK-IV-Index VG auf die AG berechnet wird.
Kapitel 8
Ergebnisse
163
Tabelle 8.39: Varianzaufklärung der VG-Untertests des HAWIK-IV auf den AG des HAWIK-III.
Untertests des
b
Std.-Fehler Beta
T
p
HAWIK-IV
ZST
1.912
.321
.371 5.952 .000
SYS
2.063
.354
.370 5.834 .000
DT
.294
.270
.059 1.090 .277
Anmerkungen: Abhängige Variable: AG des HAWIK-III. Weitere Erklärungen siehe Tabelle
8.33.
Tabelle 8.39 stellt die Ergebnisse der linearen Regression dar. Die beiden schon im AG vorhandenen Untertests ZST und SYS des HAWIK-IV tragen signifikant zur Varianzaufklärung des HAWIK-III-Index bei. Damit kann die H1 der Hypothesen 6.4.13 und 6.4.14 angenommen werden.
Die zusätzliche Aufklärung durch den optionalen Untertest DT ist dagegen minimal. Alle drei
Untertests zusammen klären etwas weniger als die Hälfte der Varianz des Index AG auf
(r2 = .473).
8.8.3 Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ
Nachdem in den bisherigen Regressionsrechnungen die Untertests als Prädiktoren eingesetzt
wurden, soll im Folgenden die Vorhersagekraft der Indizes auf die Gesamt-IQ betrachtet werden. Damit soll folgende Fragestellung 13 beantwortet werden: „Wie viel Varianz des GesamtIQ der einen Testversion klären die Indizes der anderen Testversion auf?“ Dies soll Rückschlüsse darüber zulassen, inwiefern die Indizes beider Testversionen die gleichen kognitiven
Fähigkeiten erfassen.
Daraus resultieren zwei Hypothesen, die mit Hilfe der linearen Regression untersucht werden.
Hypothese 6.4.15 bezieht sich auf die Höhe der Varianzaufklärung der Indizes des HAWIK-IV
auf den Gesamt-IQ des HAWIK-III. Das Ergebnis wird in Tabelle 8.40 dargestellt.
Tabelle 8.40: Varianzaufklärung der Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III.
Indizes des
b
Std.-Fehler Beta
T
p
HAWIK-IV
SV
.570
.054
.525 10.560 .000
WLD
.306
.056
.278 5.439 .000
VG
.136
.045
.139 3.029 .003
AGD
.070
.050
.065 1.398 .164
Anmerkungen: Abhängige Variable: Gesamt-IQ des HAWIK-III. Weitere Erklärungen siehe
Tabelle 8.33.
Es wird ersichtlich, dass der Index SV des HAWIK-IV mit mehr als der Hälfte den höchsten Teil
der Varianz des Gesamt-IQ des HAWIK-III aufklärt, gefolgt vom WLD und VG. Der Index AGD
leistet keinen signifikanten Beitrag zur Varianzaufklärung des Gesamt-IQ des HAWIK-III. Damit
muss Hypothese 6.4.15 abgelehnt werden. Alle Indizes gemeinsam klären etwa 60 % der Varianz des HAWIK-III-Gesamt-IQ auf (r2 = .602).
Kapitel 8
Ergebnisse
164
Hypothese 6.4.16, die aus der Fragestellung 13 resultiert, bezieht sich auf die Indizes des HAWIK-III und deren Anteil an der Varianzaufklärung des Gesamt-IQ des HAWIK-IV. Die Werte der
vier Indizes lassen sich der Tabelle 8.41 entnehmen.
Tabelle 8.41: Varianzaufklärung der Indizes des HAWIK-III auf den Gesamt-IQ des HAWIK-IV.
Indizes des
b
Std.-Fehler Beta
T
p
HAWIK-III
SV
.343
.045
.414 7.679 .000
UA
.198
.044
.230 4.545 .000
AG
.177
.036
.227 4.871 .000
WO
.148
.042
.188 3.518 .001
Anmerkungen: Abhängige Variable: Gesamt-IQ des HAWIK-IV. Weitere Erklärungen siehe
Tabelle 8.33.
Die vier Indizes des HAWIK-III tragen durchweg signifikant zur Varianzaufklärung des GesamtIQ des HAWIK-IV bei. Hypothese 6.4.16 kann demzufolge angenommen werden. Auch in dieser
Regression stellt sich das SV als wichtigster Index zur Varianzaufklärung des Gesamt-IQ dar.
Allerdings klären die vier Indizes gemeinsam etwas weniger Varianz des HAWIK-IV auf als die
vier Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III (r2 = .581). Der Index WO trägt am
wenigsten zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV bei.
8.8.4 Erwartete Werte und Konfidenzintervalle
Für den Praktiker ist es wichtig zu wissen, welcher HAWIK-IV-Wert zu erwarten ist, wenn ein
bestimmter Wert im HAWIK-III erreicht wurde. Dabei kann auf Grund veralteter Normen im
HAWIK-III und dem damit einhergehenden Flynn-Effekt (siehe Kapitel 5.2.2) vermutet werden,
dass die zu erwartenden Werte des HAWIK-IV etwas unterhalb der Werte des HAWIK-III liegen.
Ein Kind, mit dem beide Verfahren durchgeführt werden, dürfte demnach im HAWIK-III etwas
höhere Werte erzielen als im HAWIK-IV.
Zur Bestimmung der zu erwartenden Werte und deren Konfidenzintervalle wurde eine Regressionsanalyse durchgeführt (Näheres dazu siehe Kapitel 7.5.4.2). Aufgrund der eingeschränkten
Streuung in der vorliegenden Stichprobe wurden die Werte nur für den Bereich zwischen 85 (d.
h. eine Standardabweichung unterhalb des Mittelwertes) und 130 (d. h. zwei Standardabweichungen oberhalb des Mittelwertes) berechnet.
Die folgenden Tabellen bieten für ausgewählte Werte des HAWIK-III die zu erwartenden Werte
der entsprechenden Indizes des HAWIK-IV und dem dazugehörigen Konfidenzintervall. Zunächst erfolgt dies, wie in Tabelle 8.42 dargestellt, auf Ebene des Gesamt-IQ. Bei einem BetaGewicht von .971 ergibt sich für die Berechnung der zu erwartenden Werte folgende Gleichung: Gesamt-IQ des HAWIK-IV = 0 + .971 Gesamt-IQ des HAWIK-III.
Kapitel 8
Ergebnisse
165
Tabelle 8.42: Erwartete Werte und Wertebereiche des Gesamt-IQ des HAWIK-IV für ausgewählte Gesamt-IQ des HAWIK-III.
Gesamt-IQ
Gesamt-IQ
95 %des HAWIK-III des HAWIK-IV Konfidenzintervall
85
83
80-85
90
87
85-90
95
92
90-94
100
97
96-99
105
102
101-103
110
107
106-108
115
112
110-113
120
117
115-118
125
121
119-123
130
126
124-129
Die im HAWIK-IV zu erwartenden Gesamtwerte liegen zwei bis vier IQ-Punkte unter denen des
HAWIK-III-Gesamt-IQ. Der Wertebereich des Konfidenzintervalls unterscheidet sich in Abhängigkeit zur Nähe zum empirischen Mittelwert (108.9, siehe Tabelle 8.1). Während sich also für
die HAWIK-III-Gesamt-IQ 105 und 110 ein Konfidenzintervall von zwei IQ-Punkten berechnen
lässt, vergrößert sich das Intervall, je mehr sich der Ausgangswert vom empirischen Mittelwert
der Stichprobe entfernt. An den Randbereichen des IQ umfassen die Intervalle für den erwarteten Gesamt-IQ des HAWIK-IV fünf IQ-Punkte. Dies hängt damit zusammen, dass der Standardfehler (Messfehler) größer wird, je niedriger die Reliabilitäten sind. Da die Kinder und Jugendlichen in den Randbereichen in der Regel weniger Ergebnisvarianz aufweisen (die leistungsstarken Kinder beantworten alles richtig, die leistungsschwachen Kinder alles falsch),
zeigen sich dort niedrigere Reliabilitäten.
Dasselbe zeigt sich in den Tabellen 9.43 bis 9.48, die die erwarteten Werte für die Indexwerte
des HAWIK-IV darstellen, basierend auf den Gesamt- und Indexwerten des HAWIK-III.
Tabelle 8.43: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte Verbal-IQ des HAWIK-III.
Verbal-IQ
85
90
95
100
105
110
115
120
125
130
SV des
95 %HAWIK-IV Konfidenzintervall
82
80-85
87
85-89
92
90-94
97
95-98
102
101-103
106
105-107
111
110-112
116
115-118
121
119-123
126
123-128
Auch der Vergleich zwischen dem Verbal-IQ des HAWIK-III und dem SV-IQ des HAWIK-IV
(Tabelle 8.43) weist unterschiedlich breite Konfidenzintervalle auf. Es ergibt sich ein ß-Gewicht
Kapitel 8
Ergebnisse
166
von .968. Somit wurden die erwarteten Werte auf Grundlage der Gleichung SV-IQ des HAWIKIV = 0 + .968
Verbal-IQ des HAWIK-III berechnet. Mit zwei IQ-Punkten liegen die kleinsten
Intervalle im Verbal-IQ zwischen 105 und 115 und in den dazugehörigen erwarteten SV-IQWerten zwischen 102 und 111. Insgesamt liegen die zu erwartenden SV-Werte drei bis vier
Punkte unterhalb der im Verbalteil erzielten Werte.
Tabelle 8.44: Erwartete Werte und Wertebereiche des WLD des HAWIK-IV für ausgewählte
Handlungs-IQ des HAWIK-III.
Handlungs-IQ
WLD
85
90
95
100
105
110
115
120
125
130
83
88
93
98
103
107
112
117
122
127
95 %Konfidenzintervall
79-88
84-91
90-96
96-100
101-104
106-109
110-114
115-120
119-126
122-132
Die Konfidenzintervalle des vorhergesagten WLD bei Kenntnis des Handlungs-IQ-Wertes
(Tabelle 8.44) sind insgesamt breiter als im Gesamt- und SV-IQ. Das kleinste Intervall umfasst
drei IQ-Punkte (Handlungs-IQ von 105 und 110). Die vorhergesagten Werte des WLD sind zwei
bis drei IQ-Punkte unterhalb des im Handlungsteil erzielten Ergebnisses anzusiedeln. Aus einem ß-Gewicht von .977 resultiert folgende Gleichung: WLD des HAWIK-IV = 0 + .977 Handlungs-IQ des HAWIK-III.
Tabelle 8.45: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte SVWerte des HAWIK-III.
SV des
SV des
95 %HAWIK-III HAWIK-IV Konfidenzintervall
85
81
79-84
90
86
84-88
95
91
89-93
100
96
94-97
105
100
99-101
110
105
104-106
115
110
109-111
120
115
113-116
125
120
118-121
130
124
122-126
Wie Tabelle 8.45 zeigt, liegen die zu erwartenden SV-Werte des HAWIK-IV vier bis fünf IQPunkte unterhalb der Werte des SV des HAWIK-III. Auf Grundlage eines ß-Gewichts von .956
ergibt sich zur Berechnung der erwarteten Werte die Gleichung SV-IQ des HAWIK-IV = 0 + .956
SV-IQ des HAWIK-III. Das mit zwei IQ-Punkten kleinste Intervall zeigt sich bei einem SV im
HAWIK-IV von 100.
Kapitel 8
Ergebnisse
167
Tabelle 8.46: Erwartete Werte und Wertebereiche des WLD-IQ des HAWIK-IV für ausgewählte
WO-IQ-Werte des HAWIK-III
WO
WLD
85
90
95
100
105
110
115
120
125
130
84
89
94
99
104
109
114
119
124
129
79-89
86-93
91-97
97-101
103-105
107-110
112-116
116-122
120-128
124-134
Die vorhergesagten Werte des WLD liegen durchweg einen IQ-Punkt unterhalb der Werte des
WO. Die geringe Abweichung hängt mit dem hohen ß-Gewicht von .99 zusammen. Somit wurden die erwarteten Werte auf Grundlage der Gleichung WLD-IQ des HAWIK-IV = 0 + .99 WOIQ des HAWIK-III berechnet. Wie in Tabelle 8.46 ersichtlich, zeigen sich außerdem in den Randbereichen mit zehn IQ-Punkten sehr breite Konfidenzintervalle. Dies deckt sich mit den Ergebnissen der erwarteten WLD-Werte bei Kenntnis des Handlungs-IQ-Wertes (siehe Tabelle 8.44).
Tabelle 8.47: Erwartete Werte und Wertebereiche des AGD-IQ des HAWIK-IV für ausgewählte
UA-IQ-Werte des HAWIK-III
UA
AGD
85
90
95
100
105
110
115
120
125
130
84
89
94
99
104
108
113
118
123
128
81-87
86-91
92-96
97-100
102-105
107-110
111-115
116-121
120-127
124-132
Gilt der Index UA als Prädiktor für den Index AGD, können ein bis zwei IQ-Punkte weniger erwartet werden (siehe Tabelle 8.47). Die Vertrauensbereiche umfassen im mittleren IQ-Bereich
drei und in den Randbereichen sechs bis acht IQ-Punkte. Bei einem ß-Gewicht von .986 wurden die erwarteten Werte auf Grundlage der Gleichung AGD-IQ des HAWIK-IV = 0 + .986 UAIQ des HAWIK-III berechnet.
Abschließend werden in Tabelle 8.48 die zu erwartenden Werte für die VG des HAWIK-IV dargestellt, sofern der AG-Wert des HAWIK-III bekannt ist.
Kapitel 8
Ergebnisse
168
Tabelle 8.48: Erwartete Werte und Wertebereiche des VG-IQ des HAWIK-IV für ausgewählte
AG-IQ-Werte des HAWIK-III
AG
VG
85
90
95
100
105
110
115
120
125
130
82
87
91
96
101
106
111
116
120
125
78-85
84-90
89-94
94-98
100-103
105-107
109-112
114-118
118-123
122-128
Soll die Leistung eines Kindes in der Arbeitsgeschwindigkeit erneut erfasst werden, kann mit
einem Wert gerechnet werden, das im Durchschnitt drei bis fünf IQ-Punkte unter dem der
ersten Testung liegt. Wie aus der Tabelle 8.48 ersichtlich wird, umfasst das Konfidenzintervall
des VG-Index zwischen zwei und sieben IQ-Punkte. Durch ein ß-Gewicht von .963 stellt sich die
Gleichung wie folgt dar: VG-IQ des HAWIK-IV = 0 + .963 AG-IQ des HAWIK-III.
Insgesamt kann somit die Hypothese bestätigt werden, dass die zu erwartenden Werte im
HAWIK-IV durchweg leicht unterhalb der Werte des HAWIK-III liegen.
8.8.5 Zusammenfassung der Regressionsanalysen
In der Analyse der Teststruktur des HAWIK-III erweist sich AV in Bezug auf den SV-Index als
wenig zur Varianzaufklärung beitragend. Somit muss in der dazugehörigen Hypothese 6.4.1 die
H1 abgelehnt werden. Auch in den Indizes WO und UA zeigen sich andere Ergebnisse als erwartet. So trägt im Index WO wider Erwarten nicht MT am meisten zur Varianzaufklärung des Index bei und BE weist sogar den geringsten Beitrag zur Varianzaufklärung auf. In der UA lässt RD
ein höheres Beta-Gewicht erkennen als ZN.
Für den SV-Index kann die Frage, ob die Untertests des HAWIK-IV signifikant zur Varianzaufklärung des SV des HAWIK-III beitragen, positiv beantwortet werden. Mit dem MT steuert nur ein
Kerntest des WLD signifikant zur Varianzaufklärung des WO bei. Bezüglich des Index UA können die Hypothesen jedoch angenommen werden, da sich alle Kernuntertests des Index AGD
signifikant an der Varianzaufklärung des Index UA beteiligen. Dies gilt auch für den Index AG,
für den die HAWIK-IV-Untertests ZST und SYS signifikante Varianzaufklärung leisten.
Die Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ offenbarte signifikante
Beiträge zur Varianzaufklärung der HAWIK-III-Indizes auf den HAWIK-IV-Gesamt-IQ. Zum HAWIK-III-Gesamt-IQ tragen jedoch nicht alle Indizes des HAWIK-IV signifikant zur Varianzaufklärung bei.
Kapitel 8
8.9
Ergebnisse
169
Zusammenfassung der Ergebnisse
Die Ergebnisse der Mittelwertvergleiche erwiesen sich als weitestgehend hypothesenkonform.
Bis auf wenige Ausnahmen erbrachte immer der Test höhere Werte, der als zweiter Test
durchgeführt wurde. Die Untersuchung des Einflusses der Störvariablen ergab einen schwachen Lerneffekt, der sich nach kurzem Intervall etwas deutlicher zeigte als nach langem Intervall. Einzig in den Geschwindigkeitsuntertests und -indizes konnte ein deutlicherer Wertzuwachs von der ersten zur zweiten Testung gefunden werden. In gewissem Rahmen kann der
Flynn-Effekt von HAWIK-III zu HAWIK-IV ebenfalls nachgewiesen werden. Die Faktorenanalysen
mit Vorgabe der vier testtheoretischen Faktoren replizieren die Vier-Faktorenstruktur beider
Testversionen. Über sämtliche Korrelationsanalysen hinweg können die Korrelationen in den
zusammengefassten Stichproben mit höheren Korrelationen auf Ebene der Indizes und Gesamtwerte als auf Ebene der Untertests durchweg als hoch bezeichnet werden. Außerdem
zeigen sich höhere Zusammenhänge zwischen den sprachlichen Index- und Gesamtwerten
ebenso wie den Geschwindigkeitsindizes als zwischen den handlungsbezogenen Index-und
Gesamtwerten und dem Vergleich UA und AGD. Anhand der Regressionsanalysen können die
hinsichtlich der Untersuchung der HAWIK-III-Teststruktur getroffenen Annahmen nicht bestätigt werden. Mit dem MT steuert nur ein Kerntest des WLD signifikant zur Varianzaufklärung
des WO bei. Die Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ zeigt, dass
sämtliche Indizes des HAWIK-III zur Aufklärung des HAWIK-IV-Gesamt-IQ, jedoch nicht alle
Indizes des HAWIK-IV signifikant zur Varianzaufklärung des HAWIK-III-Gesamt-IQ beitragen.
Wie zu erwarten war, offenbaren sich die erwarteten Werte im HAWIK-IV bei Kenntnis des
HAWIK-III durchweg als etwas niedriger als die entsprechenden IQ-Werte des HAWIK-III.
Kapitel 9
Diskussion der Ergebnisse
170
9 Diskussion der Ergebnisse
Begriffe erkennen, Frage 12: „Es kann den Geschmack von Essen verbessern
und man findet es im Meer. Was ist das?“
Carlotta, 8 Jahre: „Ein Bratfisch.“
Wie in den bisherigen Kapiteln aufgezeigt wurde, stellt der Vergleich zweier Versionen eines
Testverfahrens einen wichtigen Beitrag zum Validitätsnachweis des aktuellen Testverfahrens
dar. Durch die inhaltlichen und strukturellen Unterschiede der hier untersuchten Intelligenztests HAWIK-III und -IV ist es von hoher praktischer Relevanz, inwieweit beide Testversionen
dasselbe erfassen und dementsprechend die Ergebnisse beider Versionen uneingeschränkt
nebeneinandergestellt werden dürfen. Im Folgenden sollen die in Kapitel 8 vorgestellten Ergebnisse separat betrachtet werden.
9.1 Ergebnisbetrachtung des Mittelwertvergleichs
Die Überprüfung der Mittelwertdifferenzen von HAWIK-III und -IV ergab signifikante Abweichungen im Gesamt-IQ, im Vergleich zwischen Verbalteil des HAWIK-III und dem Sprachverständnis (SV) des HAWIK-IV sowie im Vergleich der SV-Indizes und der beiden Geschwindigkeitsindizes Arbeitsgeschwindigkeit (AG) und Verarbeitungsgeschwindigkeit (VG). Auch einige
Untertests unterscheiden sich signifikant voneinander. Diverse Phänomene und Einflüsse können ursächlich für diese statistisch auffälligen Unterschiede sein. So lässt die signifikante Differenz zwischen den Indizes AG und VG vermuten, dass sich die Kinder und Jugendlichen in der
zweiten Testung an die Aufgabenstellung erinnerten und aus diesem Grund mehr Aufgaben
bearbeiten konnten. Da sich die Untertests dieser Indizes in beiden Testversionen nicht oder
nur unwesentlich voneinander unterscheiden, können die unterschiedlichen Leistungen vermutlich eher auf veränderte Bedingungen wie Vorerfahrungen aus der ersten Testung oder
unterschiedliche Normen zurückgeführt werden. Aus diesem Grund wurden die Differenzen im
Hinblick auf mögliche Störeinflüsse genauer untersucht.
Da die Tests in ausbalancierter Reihenfolge vorgegeben wurden, wird ein Lerneffekt in beiden
Tests gleichermaßen vermutet und kann somit nicht ursächlich für die signifikanten Mittelwertunterschiede sein. Dennoch wurde der Einfluss der Testreihenfolge genauer untersucht,
um sicherzustellen, dass keine Verzerrungen der Ergebnisse durch eine nicht repräsentative
Stichprobe vorliegt, also beispielsweise die Kinder ein deutlich höheres Leistungsniveau aufweisen, die den HAWIK-IV zuerst vorgelegt bekamen, als die Kinder, die zuerst den HAWIK-III
durchführten oder umgekehrt.
Kapitel 9
171
In diesem Mittelwertevergleich (siehe Kapitel 8.3) weist, bis auf Ausnahmen in wenigen Untertests, immer der Test höhere Werte auf, der als zweites durchgeführt wurde. Somit scheinen
trotz der nicht gänzlich normalverteilten Stichprobe (siehe Kapitel 7.3) keine bedeutsamen
Stichprobenverzerrungen vorzuliegen, die die Interpretierbarkeit der Ergebnisse einschränken.
Sie deuten vielmehr auf einen Lerneffekt hin, der sowohl nach kurzem als auch nach langem
Intervall besteht.
9.2 Ergebnisbetrachtung der Störeinflüsse
9.2.1 Lerneffekt
Dieser Lerneffekt wurde daraufhin genauer untersucht. Dabei wurde von einem deutlicheren
Lerneffekt nach kurzem Intervall als nach langem ausgegangen.
Die in Tabelle 8.7 und Tabelle 8.8 dargestellten Mittelwertvergleiche zwischen HAWIK-III und
-IV bei Erstvorgabe des HAWIK-III weisen im kurzen und langen Intervall hohe Zunahmen in
den Index-Kombinationen Wahrnehmungsorganisation (WO) und Wahrnehmungsgebundenes
Logisches Denken (WLD) sowie AG und VG auf. Dies deckt sich mit den Ergebnissen der Studie
zur WISC-IV (siehe Tabelle 5.3). Während in der amerikanischen Studie jedoch die WISC-IV
zweimal vorgegeben wurde, und es sich somit in beiden Testungen um dieselben Indizes handelt (WLD und WLD bzw. VG und VG), wird der Lerneffekt in dieser Studie an unterschiedlichen
Indizes untersucht. Daher müssen die Mittelwertzuwächse in den Indizes WO und WLD in dieser Studie nicht zwangsläufig auf einen Lerneffekt hindeuten, sondern lassen vielmehr vermuten, dass sie durch die unterschiedliche Untertestzusammensetzung entstanden sind. Da es
sich bei den Indizes AG und VG jedoch um identische Untertestkombinationen handelt, kann
für diesen Vergleich ein Lerneffekt festgehalten werden. Dies kann eine Erklärung für die signifikanten Mittelwertdifferenzen in den t-Tests (Tabelle 8.3 und Tabelle 8.5) darstellen.
Die Abnahme der erzielten IQ-Punkte im Index SV zwischen erster und zweiter Testung lässt
sich möglicherweise ebenfalls auf die unterschiedliche Untertestzusammensetzung zurückführen (Näheres siehe Kapitel 9.7). Außerdem kann die unterschiedliche Normierung beider Testversionen zu abweichenden Testergebnissen führen, die nicht auf den Lerneffekt zurückzuführen sind (siehe auch Kapitel 9.6 und 9.7.3). Auch der ebenfalls untersuchte Flynn-Effekt kann
dabei von Bedeutung sein, der dem Lerneffekt entgegenwirkt.
Schließlich muss berücksichtigt werden, dass es sich durch die Unterteilung in ein kurzes und
ein langes Intervall sowie in eine Stichprobe, die zuerst den HAWIK-III und eine andere, die
zuerst den HAWIK-IV durchführte, um deutlich kleinere Stichproben handelt als bei der Untersuchung des Lerneffekts in der WISC-IV (die Teilstichproben dieser Stichprobe liegen zwischen
n = 47 und 127, für die WISC-IV wurde der Lerneffekt an 243 Kindern untersucht).
Kapitel 9
172
In Bezug auf die Untertests, die in beiden Versionen enthalten sind, zeigen sich im Bilder ergänzen und Mosaik-Test die größten Zuwächse, gefolgt vom Zahlen-Symbol-Test und Zahlen
nachsprechen. Bis auf Zahlen nachsprechen gehören diese Untertests auch in der WISC-IVStudie zu den Untertests mit der größten Wertpunktzunahme. Vor allem Bilder ergänzen
scheint einen hohen Wiedererkennungswert zu besitzen, der zu besseren Ergebnissen in der
zweiten Testdurchführung führt. Dem Zahlen nachsprechen kommt eine besondere Position
zu. Für diesen Untertest ergeben sich auch dann höhere Werte im HAWIK-IV, wenn diese Testversion zuerst durchgeführt wurde. Hier scheint nicht der Lerneffekt für den großen Zuwachs
verantwortlich zu sein. Vielmehr kann dies möglicherweise auf die unterschiedlichen Positionen des Untertests innerhalb der beiden Testbatterien zurückgeführt werden (siehe Kapitel
9.7.5). Die Kinder scheinen von der Verschiebung des Untertests von der elften auf die dritte
Testposition zu profitieren. Kaufman und Lichtenberger (2006) sehen jedoch auch das Zahlen
nachsprechen als stark vom Lerneffekt beeinflusst an, da der Untertest schulunabhängige Leistungen erfordert, die generell einem größeren Lerneffekt unterliegen (siehe Kapitel 5.2.1).
Nach kurzem Intervall zeigen sich bei den meisten Untertests und Indizes etwas höhere Mittelwertzunahmen als nach langem Intervall. In einigen Indizes und Untertests lässt sich jedoch
auch nach dem längeren Re-Testintervall ein größerer Anstieg feststellen. Dies deckt sich mit
der Studie von Thompson und Molly (1993) und kann eventuell auf Reifungsprozesse und allgemeine Lernzuwächse zurückgeführt werden. So ist beispielsweise das Sprachverständnis, das
nach langem Intervall eine größere Zunahme aufweist, sehr bildungsabhängig und kann aus
diesem Grund stark schwanken, je nach derzeitigem schulischen Themenschwerpunkt der Kinder und Jugendlichen.
Wird der HAWIK-IV zuerst vorgegeben, zeigen sich insgesamt deutlich höhere Zuwächse von
der ersten zur zweiten Testung. Vor allem die Geschwindigkeitsindizes verzeichnen mit einem
Anstieg um mehr als zehn IQ-Punkte nach kurzem Intervall (siehe Tabelle 8.9) und knapp 10 IQPunkten nach langem Intervall (siehe Tabelle 8.10) eine deutliche Zunahme. Hier scheint eine
Aufsummierung von Flynn- und Lerneffekt die Ursache zu sein. Anders als bei Erstvorgabe des
HAWIK-III erweisen sich die Werte des SV auch bei Erstvorgabe des HAWIK-IV als deutlich höher im HAWIK-III als im HAWIK-IV. Allerdings stellt diese Reihenfolge nicht die gängige Praxis
dar, da es im diagnostischen Prozess lediglich vorkommen kann, dass der HAWIK-IV durchgeführt wird, nachdem bereits ein HAWIK-III erfolgte und nicht umgekehrt.
Am deutlichsten wird die Höhe des Lerneffekts anhand der Berechnung ersichtlich, deren Ergebnisse in Tabelle 8.11 dargestellt sind. Hier wurden für jeden Untertest und jeden Index
neue Variablen berechnet, in dem bei den Kindern, die den HAWIK-III zuerst durchführen, die
Werte des HAWIK-III von denen des HAWIK-IV, und bei denen, die erst den HAWIK-IV durch-
Kapitel 9
173
führten, die Werte des HAWIK-IV von denen des HAWIK-III abgezogen wurden. Daraus resultierte ein Differenzbetrag für jedes Kind aus dem die mittleren Differenzen berechnet wurden,
die den durchschnittlichen Wertpunkt- bzw. IQ-Zuwachs von der ersten zur zweiten Testung
widerspiegeln. Es zeigen sich fast identisch hohe Wertzuwächse unabhängig von der Höhe des
Re-Testintervalls. Der Abstand scheint also keinen Einfluss auf die Höhe des Lerneffekts zu
haben. Wie schon in den bisherigen Berechnungen zeigt sich die größte Leistungssteigerung in
den Untertests zur Erfassung der Verarbeitungsgeschwindigkeit. Hier scheinen die Vertrautheit
mit dem Lösungsprinzip der Aufgabe und der Übungseffekt einen besonders hohen Einfluss auf
die Testleistung zu haben. Dagegen scheinen Kinder bei Aufgaben, die das Arbeitsgedächtnis
erfordern, nicht von der ersten Testung zu profitieren. Auch wenn die Kinder bei erneuter
Testvorgabe das Lösungsprinzip erinnern, erleichtert es ihnen nicht die Bearbeitung der Aufgaben, da sie sich nicht an die konkreten Fragen (z. B. die Textaufgaben beim Rechnerischen Denken) beziehungsweise Aufgaben (z. B. die konkreten Buchstaben und Zahlen beim BuchstabenZahlen-Folgen) erinnern können. Während die Zunahmen im einzigen, beiden Indizes WO und
WLD gemeinsamen Untertest Mosaik-Test in beiden Re-Testintervallen nahezu identisch sind,
zeigen sich im kurzen und langen Intervall unterschiedliche Zuwächse im Vergleich dieser Indizes. Hierfür scheinen demnach die anderen Untertests beider Indizes ursächlich zu sein. Somit
kann dieser Vergleich keinen Aufschluss über einen Lerneffekt und den Einfluss des ReTestintervalls auf einen Leistungszuwachs im Bereich der Wahrnehmung und des logischen
Denkens geben.
In sämtlichen Studien zum Lerneffekt zeigt sich keinerlei Wertpunktzuwachs im Allgemeinen
Verständnis. Dies deckt sich mit bisherigen Studien zum Lerneffekt (Quereshi, 1968).
Die Ergebnisse hinsichtlich der Höhe des Lerneffektes in unterschiedlichen Altersstufen decken
sich nur teilweise mit denen der Studie zur WISC-IV (siehe Kapitel 5.2.1 sowie Tabelle 8.12 und
Tabelle 8.13). Während in der WISC-IV-Studie die jüngste Altersgruppe zumeist die höchste
Leistungssteigerung aufweist, kann das in der vorliegenden Studie im kurzen Intervall nur für
die Indexkombinationen Unablenkbarkeit (UA) und Arbeitsgedächtnis (AGD) sowie AG und VG
bestätigt werden. Diese unterschiedlichen Ergebnisse lassen sich jedoch zum einen mit den
sehr unterschiedlichen Gruppengrößen und zum anderen mit der insgesamt geringeren Stichprobengröße in der vorliegenden Studie erklären. Außerdem kann beispielsweise der Anstieg
der Zunahme im Altersverlauf in den Indizes WO und WLD mit Entwicklungsschüben zwischen
beiden Testungen erklärt werden, die zu einer Leistungssteigerung im Bereich der Wahrnehmung, des räumlichen Vorstellungsvermögens und des logischen Denkens führen können. Gerade während der Pubertät kann es zu sprunghaften Leistungsanstiegen im logischen Denken
kommen, da nach Piaget (1984) in diesem Alter die Frontallappen ausgereift sind, die mit logi-
Kapitel 9
174
schem Denken zusammenhängen und sich die kognitiven Leistungen im Alter von 12 bis 14
Jahren von konkret-operationalem zu abstrakt-logischem Denken entwickeln. Somit hat auch
die unterschiedliche Untertestzusammensetzung beider Indizes einen Einfluss auf das Ergebnis. Im HAWIK-III ist das logische Denken weniger repräsentiert als im HAWIK-IV.
Aus diesem Grund soll abschließend noch einmal darauf hingewiesen werden, dass es sich
anders als in den im fünften Kapitel beschriebenen Studien um einen Vergleich unterschiedlicher Testversionen handelt. Demnach kann für die meisten Vergleiche an dieser Stelle kein
eindeutiger Beweis oder Gegenbeweis für einen Lerneffekt gegeben werden.
9.2.2 Flynn-Effekt
Die Mittelwerte beider Tests (siehe Tabelle 8.1 und Tabelle 8.2) deuten auf einen Flynn-Effekt
hin. Auf Basis der gesamten Stichprobe kommt es auf Ebene des Gesamt-IQ zu einem Absinken
um ca. 2.5 IQ-Punkte von HAWIK-III (108.9) auf HAWIK-IV (106.3). Auf Index-Ebene zeigt sich
die größte Differenz im Sprachverständnis (105.7 im SV des HAWIK-IV gegenüber 110.1 im SV
des HAWIK-III). Der Vergleich der Indizes WO und WLD, die fluides Denken erfassen, offenbart
fast gleich hohe Werte und kann demnach keine besseren Leistungen der Kinder im HAWIK-III
aufweisen. Dies kann jedoch auch mit der unterschiedlichen Untertestzusammensetzung dieser Indizes erklärt werden. Die Werte des neuen Index VG, der kaum verändert wurde, liegen
wiederum ca. 3.5 IQ-Punkte unter denen des AG-Index (105.8 gegenüber 109.3).
Zur genaueren Untersuchung des Flynn-Effekts wurden nur die Werte des langen Intervalls
betrachtet, in dem sich der Einfluss des Lerneffekts weniger zeigte als im kurzen Intervall. Da
sich jedoch auch im langen Intervall ein Lerneffekt nachweisen ließ, sollten die Ergebnisse mit
Vorsicht interpretiert werden. Jedoch basieren die Studien zum Flynn-Effekt auf der Stichprobe, die ein ausbalanciertes Design hinsichtlich der Reihenfolge der Testvorgabe aufweist. Daher kann der Lerneffekt in dieser Studie vernachlässigt werden.
Zwar wurde die Erfassung des fluiden Denkens erst im HAWIK-IV durch die Einführung der
Untertests Matrizen-Test, Bildkonzepte und Begriffe erkennen adäquat ermöglicht, dennoch
kann die These, diese Tests seien vom Flynn-Effekt betroffen, an dieser Stelle bestätigt werden. So zeigt sich innerhalb der Untertests die größte Differenz im Gemeinsamkeiten finden,
hier sinkt der Mittelwert um .75 von HAWIK-III zu HAWIK-IV. Gemeinsamkeiten finden gilt als
der Untertest, der innerhalb der SV-Untertests den höchsten Anteil an fluidem Denken erfordert (Flanagan & Kaufman, 2004). Neben den Indizes WLD und WO erfordert auch die Bearbeitung der Geschwindigkeitsindizes VG und AG, fluides Denken. Zwischen dem AG-Index des
HAWIK-III und dem VG-Index des HAWIK-IV zeigt sich in dieser Teilstudie (Kinder mit langem
Re-Testintervall) ein Absinken um 2.5 IQ-Punkte von HAWIK-III zu HAWIK-IV, der auf Grund der
Kapitel 9
175
ausbalancierten Reihenfolge der Testvorgabe nicht auf einen Lerneffekt zurückgeführt werden
kann.
Das Absinken des IQ im SV um etwas mehr als drei Wertpunkte stimmt mit der Annahme
überein, dass der Flynn-Effekt im Bereich der kristallinen Intelligenz zu einem Rückgang von
drei Punkten pro Dekade führt. Das Arbeitsgedächtnis scheint dagegen nicht vom Flynn-Effekt
betroffen zu sein.
Der Anstieg vom WO des HAWIK-III zum WLD des HAWIK-IV lässt sich wie oben schon angedeutet auf die unterschiedliche Untertestzusammensetzung beider Indizes zurückführen. Da
die Indizes mit dem Mosaik-Test nur einen gemeinsamen Untertest aufweisen, kann ein Vergleich dieser Werte nicht zur Untersuchung des Flynn-Effekts herangezogen werden. Durch die
höheren Werte im WLD als im WO ist auch das Absinken im Gesamt-IQ nicht sehr deutlich
ausgefallen. Somit hätte sich bei einer größeren inhaltlichen Übereinstimmung beider Testverfahren voraussichtlich ein deutlicherer Unterschied im Gesamt-IQ gezeigt.
Neben dem WLD-Index zeigen auch einige Untertests im Mittel höhere Werte im HAWIK-IV.
Diese Untertests scheinen von anderen Störvariablen bzw. Veränderungen beeinflusst zu sein,
so beispielsweise die Mittelwerte des Untertests Zahlen nachsprechen, die im HAWIK-III einen
halben Wertpunkt niedriger ausfallen als im HAWIK-IV. Dies kann mit der unterschiedlichen
Position des Untertests in der Testbatterie erklärt werden (siehe Kapitel 4 und 9.7.5).
Mit der Untersuchung des Flynn-Effekts an Kindern aus dem oberen Leistungsbereich lässt sich
die Annahme bestätigen, dass das Absinken des IQ besonders in den Randbereichen intellektueller Fähigkeiten auftritt (auf Indexebene sinken die Werte um 3.4 bis 9.2 IQ-Punkte ab, der
Gesamt-IQ des HAWIK-IV weist durchschnittlich neun IQ-Punkte weniger auf als der Gesamt-IQ
des HAWIK-III, siehe Tabelle 8.15). Außerdem spiegeln die Ergebnisse dieses Vergleichs die
typischen Leistungsprofile überdurchschnittlich bzw. hoch begabter Kinder wider. Gemäß Studien mit Hochbegabten weisen Kinder am oberen Leistungsbereich besonders hohe Werte in
den Bereichen der Sprache und des logischen Denkens auf, während sie im Gedächtnis und in
der Geschwindigkeit eher durchschnittlich abschneiden (siehe Kapitel 4.6.4 und Daseking, Petermann et al., 2008). Das deutliche Absinken des Gesamt-IQ wurde auch in Studien zu Hochbegabung berichtet und mit der im HAWIK-IV erhöhten Berücksichtigung der Erfassung von
Gedächtnis- und Geschwindigkeitsleistungen begründet (siehe Kapitel 4.6.4 und Birke & Lehn,
in Druck; Falk et al., 2004).
Insgesamt können demnach die Ergebnisse einiger Forscher nicht bestätigt werden, der IQZuwachs habe in den vergangenen Jahren stagniert oder es sei sogar ein Absinken des IQ zu
erkennen. Nach den Ergebnissen dieser Studie kann auch für das vergangene Jahrzehnt ein
Anstieg der kognitiven Leistungen deutscher Kinder und Jugendlichen verzeichnet werden.
Kapitel 9
176
Somit bestätigen diese Ergebnisse die Notwendigkeit, Intelligenztestverfahren nach einem
gewissen Abstand neu zu normieren. Die Steigerung der kognitiven Fähigkeiten von Kindern
und Jugendlichen, die sich auch in dieser Studie gezeigt hat, spricht dafür, das jeweils aktuelle
Testverfahren zu präferieren.
9.3 Ergebnisbetrachtung der Faktorenanalysen
Während die Faktorenanalysen ohne Vorgabe von Faktoren uneinheitliche Ergebnisse zeigen,
replizieren die im achten Kapitel angeführten Faktorenanalysen mit Vorgabe der Faktoren die
vorgegebene Faktorenstruktur beider Testversionen. Sowohl für die Faktorenanalyse mit sämtlichen in der Studie durchgeführten Untertests (siehe Tabelle 8.18) als auch für die Faktorenanalysen getrennt für die Untertests des HAWIK-III und -IV (siehe Tabelle 8.19 und Tabelle
8.20) können demnach die aufgestellten Hypothesen angenommen werden. Auffällig dabei ist,
dass der Untertest Bilder ergänzen ebenfalls hoch auf dem Faktor lädt, der die Untertests des
SV beinhaltet. Außerdem weist das Allgemeine Wissen zusätzlich zum SprachverständnisFaktor auch auf dem Gedächtnisfaktor hohe Ladungen auf. Die hohe Ladung des Untertests
Bilder ergänzen auf dem Sprachfaktor deckt sich mit der in Kapitel 4.4.3.1 vorgestellten Faktorenanalyse der WISC-IV (Wechsler, 2003b). Interkorrelationsstudien der WISC-IV (Wechsler,
2003b) und des HAWIK-IV (Petermann & Petermann, 2008a) weisen ebensolche Ergebnisse
auf. Die Testautoren führen dies auf den Gebrauch verbaler Vermittlungsformen beim Lösen
von Problemen und der Antwortformulierung bei dieser Art von Aufgaben zurück (dies gilt in
gleicher Hinsicht für den Untertest Bildkonzepte, der sowohl für die WISC-IV als auch für den
HAWIK-IV mittlere bis hohe Korrelationen mit den Sprachuntertests aufweist). Auch die Interkorrelationen der vorliegenden Studie offenbaren einen hohen Zusammenhang (bis zu r = .50)
zwischen Bilder ergänzen und den Untertests des SV, sowohl für den HAWIK-III als auch für den
HAWIK-IV (siehe Anhang A1 und A3).
Die hohen Ladungen des Allgemeinen Wissens auf dem Faktor, der die Untertests beinhaltet,
die Gedächtnisleistungen abbilden, entsprechen ebenso den Angaben der Testentwickler des
HAWIK-III und -IV, beim Allgemeinen Wissen werde zusätzlich zu anderen kognitiven Fähigkeiten auch auf Leistungen des Langzeitgedächtnisses zurückgegriffen (siehe auch Flanagan &
Kaufman, 2004). Genauso beinhaltet das Rechnerische Denken Fähigkeiten des Langzeitgedächtnisses, was die hohen Interkorrelationen beider Untertests (zwischen r = .42 und .52,
siehe Anhang A3 und A4) erklärt.
Die Ergebnisse der Faktorenanalyse, in die alle Untertests beider Testversionen einbezogen
wurden, lassen vermuten, dass der Vergleich der Indizes WO und WLD genauso wie der Vergleich der Indizes UA und AGD legitim ist, da die dazugehörigen Untertests auf einen gemeinsamen Faktor laden (siehe Tabelle 8.18). Zwar laden Bilderordnen und Bilder ergänzen eben-
Kapitel 9
177
falls hoch auf dem sprachlichen Faktor, dennoch wurden sie dem wahrnehmungsbezogenen
Faktor zugeordnet. Die anderen Untertests, die nur in einer Testversion enthalten sind, also
Figurenlegen, Bildkonzepte und Matrizen-Test, können diesem Faktor jedoch eindeutiger zugeordnet werden.
Insgesamt zeigen sich in dieser Studie zum Teil deutlich höhere Faktorladungen als in bisherigen Studien zur WISC-IV und WISC-III bzw. zum HAWIK-III und HAWIK-IV. Bezogen auf die
WISC-IV wird dies besonders in den Untertests Bildkonzepte und Symbol-Suche deutlich. Im
Vergleich zur HAWIK-IV-Normierungsstichprobe zeigt die vorliegende Stichprobe - außer im
Allgemeinen Wissen - in allen sprachlichen Untertests sowie in den Untertests DurchstreichTest und Zahlen nachsprechen höhere Ladungen auf dem entsprechenden Faktor. Die Faktorenstruktur des HAWIK-III lässt sich auf Basis der vorliegenden Stichprobe eindeutiger replizieren als in der Untersuchung, die im HAWIK-III-Manual beschrieben wird (Tewes et al., 2002).
Wie schon bei der HAWIK-III-Studie kann das Zahlennachsprechen des HAWIK-III auch in der
vorliegenden Untersuchung nicht eindeutig einem Faktor zugeordnet werden. Die relativ geringe Ladung (.38) des Zahlennachsprechens auf dem Faktor, auf dem die Untertests des Verbalteils liegen (siehe Tabelle 8.16), spricht gegen eine Aufteilung in Verbal- und Handlungsteil,
wie sie im HAWIK-III vorgesehen ist.
9.4 Ergebnisbetrachtung der Korrelationsanalysen
Folgende Erkenntnisse lassen sich aus der Untersuchung der Korrelationen von HAWIK-III und
HAWIK-IV festhalten:
die Testreihenfolge hat keinen Einfluss auf die Höhe der Korrelationen der Indizes und
Gesamtwerte,
beide Tests korrelieren insgesamt hoch miteinander,
die beiden Gesamt-IQ korrelieren in den zusammengefassten Korrelationsanalysen
(Mittelung der Korrelationen bei HAWIK-III als erstem und HAWIK-IV als erstem Test)
durchweg mit r > .80,
der Verbalteil des HAWIK-III korreliert höher mit dem SV des HAWIK-IV als der Handlungsteil des HAWIK-III mit dem WLD des HAWIK-IV,
die Indexpaare des Sprachverständnisses und der Verarbeitungsgeschwindigkeit korrelieren höher als die Indexpaare WO und WLD sowie AGD und UA,
die Indizes korrelieren insgesamt höher miteinander als die Untertests,
die gematchte Stichprobe weist ähnliche Korrelationen auf wie die Gesamtstichprobe
sowie
die Länge des Re-Testintervalls hat keinen Einfluss auf die Höhe der Korrelationen in
der gematchten Stichprobe.
Kapitel 9
178
Diese Ergebnisse sollen im Folgenden diskutiert werden.
9.4.1 Einfluss der Testreihenfolge
Bevor die Korrelationen zwischen beiden Testversionen anhand der Gesamttabellen interpretiert wird, soll zunächst darauf eingegangen werden, ob die Differenz der Korrelationen signifikant ist, je nachdem, welche Testversion zuerst vorgelegt wurde (Fragestellung 9, Hypothesen
6.3.8 bis 6.3.14).
In der Stichprobe mit langem Re-Testintervall zeigt sich teilweise ein signifikanter Einfluss der
Testreihenfolge auf die Höhe der Korrelation. Grund dafür sind die in einigen Untertests und
Indizes auffällig niedrigeren Korrelationen in der Stichprobe, der zuerst der HAWIK-III vorgelegt
wurde (siehe Tabelle 8.27). Möglicherweise liegt in dieser Teilstichprobe ein Stichprobeneffekt
vor, dessen Ursache nicht weiter nachvollzogen werden kann.
Bei der Betrachtung der Gesamtstichprobe zeigt sich jedoch einzig im Allgemeinen Verständnis
ein signifikanter Unterschied bezüglich der Testvorgabe (siehe Tabelle 8.23). Dies ist auf die
mit r = .40 relativ niedrigen Korrelationen zwischen beiden Versionen des Untertests bei Erstvorgabe des HAWIK-III zurückzuführen (siehe Tabelle 8.21). Auch im Vergleich zwischen HAWIK-R und HAWIK-III zeigt das Allgemeine Verständnis mit r = .41 vor Korrektur die niedrigste
Korrelation innerhalb der Untertests (Tewes et al., 2002). Die Indizes und Gesamtwerte weisen
jedoch hinsichtlich des Einflusses der Testreihenfolge keine signifikanten Unterschiede auf. Die
Korrelationen werden somit nicht signifikant von der Testreihenfolge beeinflusst. Dank des
ausbalancierten Versuchsdesign können demzufolge die zusammengefassten Korrelationswerte interpretiert werden und müssen nicht separat danach betrachtet werden, welche Testversion dem Kind zuerst vorgegeben wurde. Damit ist es legitim, bei der Interpretation der Korrelationen zwischen HAWIK-III und HAWIK-IV auf die Gesamttabellen zurückzugreifen.
9.4.2 Höhe der Korrelationen der Gesamtstichprobe
Angesichts der in Kapitel 8.7 vorgestellten Korrelationsanalysen kann durchweg die Hypothese
(H1) angenommen werden. Die Korrelationen erweisen sich als ebenso hoch wie in bisherigen
Studien, die sich mit einem Vergleich der entsprechenden amerikanischen Testversionen
WISC-III und WISC-IV bzw. ähnlicher Vergleiche beschäftigten. Dabei richtet sich die Interpretation der Ergebnisse nach den korrigierten Korrelationen. Diese Korrekturen vorzunehmen ist
mit der nicht vollständig normalverteilten Stichprobenverteilung (siehe Kapitel 7.3) und damit
zu begründen, dass auch in vergleichbaren Studien diese Korrekturen vorgenommen wurden.
Allerdings konnten die Korrekturen in dieser Studie nur für die SD der HAWIK-IV-Normierungsstichprobe vorgenommen werden, da die genauen Standardabweichungen der HAWIK-IIIWerte aus dem HAWIK-III-Manual nicht ersichtlich sind. Dies gibt Anlass zu der Vermutung,
Kapitel 9
179
dass die Korrelationen noch höher ausgefallen wären, wenn sich die Standardabweichungen
der Mittelwerte im HAWIK-III als niedriger darstellen als im HAWIK-IV.
Die Ergebnisse der Gesamtstichprobe dieser Studie (siehe Tabelle 8.23) ähneln denen aus dem
Vergleich zwischen WISC-III und WISC-IV (Wechsler, 2003b). So unterscheiden sich die GesamtIQ-Korrelationen nur geringfügig (r = .87 gegenüber .89). Der Vergleich zwischen den übergeordneten Gesamtwerten des HAWIK-III und den entsprechenden Indizes des HAWIK-IV weist
im Indexpaar Handlungs-IQ und WLD in der amerikanischen Studie etwas höhere Korrelationen
auf (r = .74 in der WISC-Studie gegenüber r = .68 in dieser Studie). In der Paarung Verbal-IQ
und SV erweist sich der Zusammenhang jedoch als identisch (jeweils r = .87). Innerhalb der
Indizes zeigen der Vergleich der SV-Indizes mit r = .88 sowie der Vergleich zwischen UA und
AGD mit r = .72 identische Korrelationen in beiden Studien. Für die Indexpaarung WO und WLD
zeigen sich in der amerikanischen Studie (r = .72 gegenüber .67), für den Vergleich zwischen
AG und VG dagegen in der vorliegenden Studie (r = .84 gegenüber .81) etwas höhere Korrelationen. Auf Untertestebene weisen in beiden Studien die gleichen drei Untertestpaarungen
lediglich Korrelationen unter r = .70 auf, namentlich Allgemeines Verständnis, Symbol-Suche
und Bilder ergänzen. Außerdem erweist sich das Allgemeine Wissen jeweils als der Untertest
mit den höchsten Korrelationen (r = .83 und .81). Insgesamt kann die vorliegende Untersuchung somit die Ergebnisse bisheriger Studien bestätigen.
Anhand der Stichprobe G-III (dies stellt die üblicherweise vorgenommene Reihenfolge dar, erst
den HAWIK-III und dann den HAWIK-IV durchzuführen) soll veranschaulicht werden, wie sich
die unterschiedlichen Zusammensetzungen der Untertests zu einem Index auf die Höhe der
Korrelationen auswirken (siehe Tabelle 8.21): In dieser Stichprobe weisen die Vergleiche zwischen WO und WLD sowie zwischen Handlungsteil und WLD die niedrigsten Zusammenhänge
(r = .48 und .50) auf. Diese Indizes bzw. Gesamtwerte resultieren aus einer stark voneinander
abweichenden Untertestzusammensetzung. So besitzen WLD und WO beziehungsweise WLD
und Handlungsteil mit dem Mosaik-Test nur einen gemeinsamen Untertest. Auf der anderen
Seite lassen sich die hohen Korrelationen zwischen VG und AG (r = .81) mit der identischen
Untertestzusammensetzung (Symbol-Suche und Zahlen-Symbol-Test) erklären. Es zeigt sich
also beispielhaft an dieser Stichprobe, dass dort hohe Korrelationen festzustellen sind, wo
wenige Veränderungen vorgenommen wurden und demgegenüber niedrigere Zusammenhänge dort zu finden sind, wo große Veränderungen zwischen beiden Testversionen erfolgten.
Bei Betrachtung der Stichprobe mit kurzem Re-Testintervall (siehe Tabelle 8.26) offenbart der
Vergleich zwischen der Symbol-Suche des HAWIK-III und der des HAWIK-IV mit r = .59 nach
Korrektur die niedrigsten Korrelationen. Dies ist auf eine Korrelation von nur r = .39 bei den
Kindern zurückzuführen, die den HAWIK-IV zuerst bearbeiteten. Hier kann die niedrige Korrela-
Kapitel 9
180
tion eventuell auf Motivationsprobleme zurückgeführt werden. Die Symbol-Suche stellt einen
Untertest mit monotonen Aufgaben dar, da sie die Verarbeitungsgeschwindigkeit ohne Reizanregungen erheben soll. Bei den Kindern, die den Test zweimal innerhalb kurzer Zeit durchführten, stellt die Motivation bei der Leistungsfähigkeit in diesem Untertest einen wichtigen Aspekt
dar. Demnach scheint die Stichprobe GK-IV mehr als andere Stichproben aus Kindern zusammengesetzt zu sein, die Probleme haben, sich bei der Wiederholung reizarmer Aufgaben erneut zu motivieren. Auch eine Veränderung der Rohwerteverteilung (siehe Kapitel 9.6) kann
die niedrige Korrelation verursacht haben. Dennoch korrelieren die Indizes AG und VG insgesamt hoch miteinander (r = .82). Dies lässt sich auf die mit r = .81 hohe Korrelation im anderen
Geschwindigkeitsuntertest, Zahlen-Symbol-Test zurückführen. Auch in der Gesamtstichprobe
und der Stichprobe mit langem Re-Testintervall zeigen sich sehr hohe Zusammenhänge zwischen den beiden Geschwindigkeits-Indizes.
9.4.3 Vergleich zwischen der gematchten und der Gesamtstichprobe
Beim Vergleich zwischen den Ergebnissen der gematchten Stichprobe und der Gesamtstichprobe (Tabelle 8.23 und Tabelle 8.32) wird deutlich, dass die Korrelationen der gematchten
Stichprobe entweder gleich hoch oder etwas niedriger sind als die der Gesamtstichprobe. Die
niedrigeren Werte können zum einen mit dem geringeren Stichprobenumfang erklärt werden,
zum anderen ist eine mögliche Ursache die unterschiedliche Aufteilung der Stichprobe hinsichtlich der Reihenfolge der Testvorgabe (26 Kinder haben den HAWIK-III und 46 den HAWIKIV zuerst durchgeführt). Die insgesamt ähnlichen und zum Teil sogar identischen Korrelationen
sprechen jedoch dafür, dass sich die Größe der Stichprobe nicht entscheidend die Höhe der
Korrelationen beeinflusst. Demnach können die ähnlich hohen Korrelationen zwischen dieser
und bisheriger Studien nicht allein auf der ähnlich hohen Stichprobengröße beruhen. Folgendes Gesamtergebnis kann somit als aussagekräftig gelten: Aufgrund der hohen Zusammenhänge sind die beiden Testversionen HAWIK-III und -IV miteinander vergleichbar.
9.4.4 Einfluss der Länge des Re-Testintervalls
Mit der Fragestellung 10 wurde der Einfluss des Intervalls zwischen beiden Testungen untersucht. Dies erfolgte anhand der gematchten Stichprobe, in der gleich viele Kinder ein langes
und ein kurzes Intervall aufweisen (jeweils 72 Kinder). Dabei zeigt sich nur zwischen den Korrelationen des Untertests Zahlen nachsprechen (und dies auch nur vor der α-Adjustierung) ein
signifikanter Unterschied je nach Länge des Re-Testintervalls (siehe Tabelle 8.30 und Tabelle
8.32). Dies ist auf eine mit r = .48 relativ niedrige Korrelation in der Stichprobe mit langem ReTestintervall (GemSL) zurückzuführen. Möglicherweise liegt die Ursache für diese niedrige Korrelation in einem Stichprobeneffekt, der an dieser Stelle nicht inhaltlich interpretiert werden
kann.
Kapitel 9
181
9.4.5 Abschließende Ergebnisbetrachtung der Korrelationsanalysen
Die Untersuchung des Zusammenhangs beider Testversionen weist sehr hohe Korrelationen
zwischen den Gesamt-IQ auf. Dies lässt den Schluss zu, dass beide Testversionen das gleiche
Konstrukt (allgemeine Intelligenz im Sinne eines g-Faktors) erfassen und demnach miteinander
verglichen werden können. Die Interpretation dieses Ergebnisses für die Praxis wird in Kapitel
9.8.1 diskutiert. Auch der Vergleich der Indizes, innerhalb derer geringe oder keine inhaltlichen
Veränderungen vorgenommen wurden, scheint dank hoher Korrelationen zulässig. Die niedrigeren Korrelationen zwischen WLD und WO sowie AGD und UA bestätigen die Angaben der
Testautoren der WISC-IV, dass der Schwerpunkt der von den Indizes erfassten kognitiven Fähigkeiten auf Grund modifizierter Modellvorstellungen von Intelligenz verändert wurde
(Wechsler, 2003b). Der Vergleich dieser Indizes kann demnach nicht generell vorgenommen
werden (siehe auch Kapitel 9.7). Aufgrund der niedrigeren und uneinheitlichen Korrelationen
auf Ebene der Untertests stellt sich ein Vergleich auf Untertestebene als zumindest fragwürdig
dar. Untertests weisen allgemein aufgrund der geringeren Informationsmenge, die in den Untertest-Wert einfließt, einen höheren Messfehler und somit niedrigere Reliabilitäten auf (siehe
Kapitel 4.4.2). Je mehr Informationen jedoch in einen Wert einfließen, desto höher sind die
Reliabilitäten. Daraus kann gefolgert werden, dass nur der Gesamt-IQ und eingeschränkt noch
die Indizes ein wirklich aussagekräftiges Abbild der kognitiven Leistungen geben. Die höheren
Reliabilitäten sprechen dafür, den Schwerpunkt bei der Interpretation auf den Gesamt-IQ zu
legen und erst im zweiten Schritt die Interpretation der Indizes vorzunehmen. Die Ergebnisse
in den Untertests sollten demnach nur für die Analyse der Stärken und Schwächen eines Kindes herangezogen werden (siehe auch Daseking, Petermann & Petermann, in Druck). Zudem
besitzen die Untertests des HAWIK-III und des HAWIK-IV teilweise unterschiedliche Reliabilitäten (siehe Tabelle 4.7, Kapitel 4.4.2). Dies kann ein Grund dafür sein, weshalb Kinder auch
beim Vergleich identischer Untertests unterschiedliche Werte erzielen, die nicht auf einen
Lern- oder Flynn-Effekt zurückgeführt werden können. Daraus sollte ebenfalls resultieren, von
einem Vergleich auf Untertestebene abzusehen.
9.5 Ergebnisbetrachtung der Regressionsanalysen
9.5.1 Varianzaufklärung der Untertests des HAWIK-III
Regressionsanalytisch wurde geprüft, inwieweit sich die Veränderungen auf Untertestebene
zwischen HAWIK-III und -IV (die Entfernung einiger Untertests aus dem Gesamttest oder die
Verschiebung einiger Untertests in den optionalen Teil) mit der Höhe der Varianzaufklärung
der Untertests des HAWIK-III auf den entsprechenden HAWIK-III-Index erklären lassen.
Kapitel 9
182
In der Regressionsanalyse der SV-Untertests des HAWIK-III trägt das Allgemeine Verständnis
deutlich weniger zur Varianzaufklärung des Index bei als es die Teststruktur des HAWIK-IV
vermuten lassen würde. Das Allgemeine Wissen hat als nur noch optionaler Untertest mehr
Anteil an der Varianzaufklärung als die Kerntests Allgemeines Verständnis und Wortschatz-Test
(siehe Tabelle 8.33). Schon in anderen Analysen dieser Studie erwies sich das Allgemeine Verständnis als auffällig. So zeigt es beispielsweise als einziger Untertest signifikant unterschiedliche Korrelationen, je nachdem, welcher Test zuerst durchgeführt wurde (siehe Tabelle 8.23).
Auch im Mittelwertvergleich zeigt die Stichprobe des kurzen Intervalls, die den HAWIK-III zuerst durchführte (GK-III), einen geringfügig niedrigeren Wert im Allgemeinen Verständnis des
HAWIK-IV, obwohl sie aufgrund der Erinnerung an die erste Durchführung einen höheren Wert
hätte erreichen müssen (siehe Abbildung 8.6). Dies könnte mit dem auffälligen Ergebnis in der
Regressionsanalyse zusammenhängen. Das Allgemeine Wissen erweist sich hingegen als Untertest mit den höchsten Korrelationswerten sowohl in dieser Studie als auch im Vergleich der
amerikanischen WISC-IV mit ihrem Vorgängerverfahren, der WISC-III (Wechsler, 2003b). Die
Verlegung des Allgemeinen Wissens in den optionalen Teil des HAWIK-IV scheint demnach
nicht aus statistischen Gründen vorgenommen worden zu sein. Vielmehr können inhaltliche
Überlegungen als mögliche Ursachen für die Verlegung des Untertests in den optionalen Teil
herangezogen werden. So weist das Allgemeine Wissen eine hohe Bildungsabhängigkeit auf
(siehe dazu Daseking, Lipsius et al., 2008). Zwar ist auch das Allgemeine Verständnis als bildungsabhängig einzustufen, jedoch wird mit diesem Untertest vor allem das Wissen über soziale Situationen erfragt, welches schulformübergreifend vorhanden sein sollte. Aus diesem
Grund erscheint es wichtiger, das Allgemeine Verständnis und nicht das Allgemeine Wissen in
den Kernteil des Index SV aufzunehmen. Da jedoch die Regressionsanalyse eine hohe Varianzaufklärung des Allgemeinen Wissens des Index SV zeigt und sowohl ein gutes Messinstrument
für kristalline Intelligenz darstellt als auch hoch mit dem g-Faktor korreliert, sollte es als zusätzliche Informationsquelle zur Feststellung der kognitiven Leistungsfähigkeit weiterhin mit erhoben werden.
Die Regressionsanalyse der WO-Untertests (siehe Tabelle 8.34) weist für alle vier Untertests
ähnlich hohe β-Gewichte auf. Da jedoch der Mosaik-Test etwas niedrigere Werte zeigt als Figurenlegen und Bilderergänzen am wenigsten zur Varianzaufklärung des WO beiträgt, muss die
Hypothese (H1) abgelehnt werden. Die geringste Varianzaufklärung des Untertests Bilderergänzen auf den WO unterstützt die Entscheidung, den Untertest im HAWIK-IV vom Kernteil in
den Zusatzteil zu verlegen. Wie schon im Allgemeinen Wissen haben jedoch auch hinsichtlich
des Bilderordnens andere Ursachen den Wegfall des Untertests veranlasst. Zum einen erwies
sich das Bilderordnen als sehr fehlerlastig hinsichtlich der Durchführung, die sehr komplex und
demnach viel Übung seitens des Testleiters erfordert. Desweiteren wird die relativ niedrige
Kapitel 9
183
Reliabilität für die Entfernung des Bilderordnens verantwortlich gemacht, die nach den ebenfalls nicht berücksichtigten Untertests Labyrinth-Test (.70) und Figurenlegen (.69) mit .76 am
niedrigsten ausfiel (Wechsler, 1992). In dieser Studie zeigt Bilderordnen mit keinem Untertest
Interkorrelationen von mehr als r = .40 (siehe Anhang A1 und A2). Wie schon erwähnt, wird
der Wegfall des Bilderordnens jedoch auch kritisiert und vermutet, dass ihn Wechsler niemals
befürwortet hätte, da ihm das Erfassen sozialer Fertigkeiten, wie es mit diesem Untertest möglich ist, wichtig war (Flanagan & Kaufman, 2004). Als Hauptargument für den Verzicht auf die
Untertests Bilderordnen und Figurenlegen sowie der Verlegung des Untertests Bilderergänzen
in den optionalen Teil des HAWIK-IV gilt jedoch der reduzierte Einfluss der Zeitkomponente
(siehe Kapitel 4.7.1 und Flanagan & Kaufman, 2004).
Im dritten Schritt wurden die Untertests des Index UA mit Hilfe der Regressionsanalyse untersucht. Auch für diesen Index muss die Hypothese (H1) abgelehnt werden, da sich das Rechnerische Denken als wichtiger für die Varianzaufklärung des Index erweist als das Zahlennachsprechen (siehe Tabelle 8.35). Somit wird die Unablenkbarkeit vermutlich besser durch den Untertest Rechnerisches Denken erfasst als durch das Zahlennachsprechen, das scheinbar eher eine
reine Messung des Arbeitsgedächtnisses als der Unablenkbarkeit darstellt. Wie in Kapitel
4.4.3.1 erwähnt, wird die Index-Bezeichnung Unablenkbarkeit im HAWIK-III als irreführend
angesehen, da der Index nicht explizit Ablenkbarkeit oder Hyperaktivität erfasst (siehe Naglieri
& Paolitto, 2005; Zhu et al., 2004). Bei der exploratorischen Faktorenanalyse des HAWIK-III
(siehe Tabelle 8.16) laden beide Untertests ebenfalls nicht auf einem gemeinsamen Faktor
(Rechnerisches Denken lädt auf dem SV-Faktor und Zahlennachsprechen bildet mit den Geschwindigkeitsuntertests Zahlen-Symbol-Test und Symbol-Suche einen eigenen Faktor). Die
Untertests Rechnerisches Denken und Zahlennachsprechen scheinen im HAWIK-III demnach
unterschiedliche Fähigkeiten abzubilden. Auch die Interkorrelationen von nur .38 (Gesamtstichprobe, siehe Anhang A1) beziehungsweise .39 (gematchte Stichprobe, siehe Anhang A2)
deuten darauf hin.
Da sich das Zahlen nachsprechen inhaltlich nicht verändert hat, muss es auf das Rechnerische
Denken sowie den neuen Untertest Buchstaben-Zahlen-Folgen zurückzuführen sein, dass die
Indizes UA und AGD unterschiedliche Fähigkeiten erfassen. Wie in Kapitel 4 beschrieben, haben neue Erkenntnisse im Bereich der Intelligenzforschung zu einer Modifizierung der Untertests dahingehend geführt, welche kognitiven Funktionen mit ihnen erhoben werden. Auch
das Rechnerische Denken erfasst in beiden Versionen unterschiedliche kognitive Fähigkeiten
(siehe Kapitel 4.2 und 4.3 sowie Tabelle 4.4 und Tabelle 4.6). Durch das Fehlen der optischen
Vorgabe der Rechenaufgaben in Form von Aufgabenkarten zielt das Rechnerische Denken im
HAWIK-IV mehr auf die Erfassung des Kurz- und Langzeitgedächtnisses ab als im HAWIK-III.
Dies zeigt sich auch durch die Ladung der beiden Versionen des Rechnerischen Denkens auf
Kapitel 9
184
unterschiedlichen Faktoren in den Faktorenanalysen ohne Vorgabe der Faktorenanzahl (weitere Analysen zur inhaltlichen Veränderung der Untertests siehe Kapitel 9.7.4). Mit der Regressionsanalyse konnte demnach die eingeschränkte Vergleichbarkeit beider Testversionen durch
diese inhaltlichen Veränderungen verdeutlicht werden.
9.5.2 Varianzaufklärung der Untertests des HAWIK-IV
Desweiteren wurde mit Hilfe der Regressionsanalyse untersucht, inwieweit die Untertests des
HAWIK-IV zur Varianzaufklärung des entsprechenden HAWIK-III-Index beitragen. Sollten sich
sämtliche Kernuntertests des HAWIK-IV als relevant für die Varianzaufklärung der HAWIK-IIIIndizes erweisen, würde dies die Vergleichbarkeit beider Testversionen unterstützen.
Für den Index Sprachverständis kann anhand der in Tabelle 8.36 vorgestellten Regressionsanalyse davon ausgegangen werden, dass die Untertests des HAWIK-III mit einer Varianzaufklärung von insgesamt fast 70 % annähernd dieselben Fähigkeiten abbilden wie der Index SV des
HAWIK-III. Die drei Kernuntertests des HAWIK-IV tragen signifikant zur Varianzaufklärung des
Index SV des HAWIK-III bei. Bei einem Vergleich der beiden SV-Indizes muss demnach nur mit
einer geringen Abweichung der Testergebnisse auf Grund inhaltlicher Veränderungen beider
Testversionen ausgegangen werden.
Anders verhält es sich im Index WO des HAWIK-III. Hier zeigen sich anhand der Regressionsanalyse der Untertests des WLD (siehe Tabelle 8.37), dass die Kerntests des WLD nicht durchweg bedeutsam zur Varianzaufklärung des WO beitragen. Die beiden neuen Untertests Bildkonzepte und Matrizen-Test leisten keinen signifikanten Beitrag zur Varianzaufklärung des WO.
Insgesamt zeigt sich mit etwas mehr als 40 % der geringste Varianzaufklärungsanteil innerhalb
der vier Indizes. Nach den Ergebnissen der Korrelationsanalysen kann nunmehr auch anhand
der Regressionsanalysen verdeutlicht werden, dass WO und WLD nicht dieselben kognitiven
Fähigkeiten erheben und daher nicht uneingeschränkt miteinander verglichen werden sollten.
Wie in Kapitel 4.6.1 dargestellt, kamen auch die Autoren der KABC-II anhand von Korrelationsstudien zwischen der KABC-II und der WISC-III bzw. WISC-IV zu dem Ergebnis, dass beide
Wechsler-Versionen unterschiedliche Konstrukte erfassen (Kaufman & Kaufman, 2004). Ihrer
Meinung nach bilden der Handlungsteil und der WO eher visuelle Prozesse ab, während der
Index WLD der WISC-IV hoch mit den KABC-II-Untertests zur Messung des fluiden Denkens
korreliert.
Die Untertests des AGD klären nur die Hälfte der Varianz des entsprechenden HAWIK-III-Index
UA auf (siehe Tabelle 8.38). Auch zwischen den Indizes AGD und UA muss demnach von einer
eingeschränkten Vergleichbarkeit ausgegangen werden. Aufgrund der geringen Varianzaufklärung des Untertests Buchstaben-Zahlen-Folgen scheint der Index UA nicht so explizit das Ar-
Kapitel 9
185
beitsgedächtnis zu erfassen, wie dies durch die Buchstaben-Zahlen-Folgen und den entsprechenden Index AGD gewährleistet zu sein scheint.
Trotz der (bis auf den Durchstreich-Test) identischen Untertests klären die Untertests des Index
VG weniger als die Hälfte der Varianz des Index AG auf (siehe Tabelle 8.39). Hier scheinen, wie
oben schon beschrieben, andere Einflüsse wie der Lerneffekt oder die Wertverschiebung (siehe Kapitel 9.2.1 und 9.6) ursächlich zu sein. Der Durchstreich-Test trägt nicht signifikant zur
Varianzaufklärung bei. Auch die niedrigen Interkorrelationen mit den anderen VG-Untertests,
also dem Zahlen-Symbol-Test und der Symbol-Suche des HAWIK-IV (.34 und .39, siehe Anhang
A3), deuten auf die Erfassung anderer Fähigkeiten des Durchstreich-Tests hin als es von den
anderen Untertests des Verarbeitungsgeschwindigkeits-Index erfolgt.
9.5.3 Vorhersagekraft der Indizes auf den Gesamt-IQ
Zusätzlich wurde regressionsanalytisch untersucht, wie viel Varianz des Gesamt-IQ der einen
Testversion von den Indizes der anderen Testversion aufgeklärt wird (siehe Tabelle 8.40 und
Tabelle 8.41). Dieses Vorgehen soll Rückschlüsse darüber liefern, inwieweit die beiden Testversionen durch Aufklärung gemeinsamer Varianz die gleichen kognitiven Leistungen abbilden.
Bei der Untersuchung des Gesamt-IQ des HAWIK-III erweist sich das SV des HAWIK-III als wichtigster Faktor zur Aufklärung der Varianz des Gesamt-IQ. Dies lässt sich darauf zurückführen,
dass mit dem Gemeinsamkeiten finden, dem Wortschatz-Test und dem Allgemeinen Verständnis sämtliche Untertests des SV des HAWIK-IV in den Gesamt-IQ des HAWIK-III einfließen.
Der ebenfalls hohe Varianzaufklärungsanteil des WLD auf den HAWIK-III-Gesamt-IQ kann mit
dem hohen Beitrag der Untertests Mosaik-Test und Bilder ergänzen des HAWIK-IV zur Varianzaufklärung des WO (siehe Tabelle 8.37) erklärt werden. Beide Untertests fließen in den Gesamt-IQ des HAWIK-III ein. Die Untertests Bildkonzepte und Matrizen-Test tragen jedoch nicht
signifikant zur Varianzaufklärung des WO (siehe Tabelle 8.37) bei. Daher kann trotz der Ergebnisse der Regressionsanalyse zum Gesamt-IQ des HAWIK-III geschlussfolgert werden, dass WO
und WLD nicht dieselben kognitiven Fähigkeiten erfassen.
Der Index AGD trägt nicht signifikant zur Varianzaufklärung des HAWIK-III-Gesamt-IQ bei. Dies
deckt sich mit den Ergebnissen der Korrelationsanalysen. Damit wird ein weiteres Argument
dafür geliefert, UA und AGD nicht miteinander zu vergleichen, da sie unterschiedliche Fähigkeiten erfassen. Hier zeigt sich erneut, dass das Überarbeitungsziel der Entwickler der WISC-IV
erreicht wurde, der Erfassung des Arbeitsgedächtnisses einen größeren Stellenwert einzuräumen als dies in der WISC-III bzw. dem HAWIK-III der Fall war.
Zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV leisten sämtliche HAWIK-III-Indizes einen
signifikanten Beitrag. Auch hier erweist sich das SV als wichtigster Faktor. Dennoch kann von
Kapitel 9
186
allen vier Indizes insgesamt nur 58 % der Varianz des Gesamt-IQ aufgeklärt werden. Ein Grund
dafür, dass in beiden Studien die Geschwindigkeitsindizes nur relativ wenig Varianz aufklären,
obwohl sie inhaltlich beinahe identisch sind, könnte in der Verschiebung hinsichtlich der Rohwertverteilung auf die Wertpunkte liegen (siehe Kapitel 9.6).
Sowohl die Varianzaufklärung des HAWIK-III-Gesamt-IQ durch die Indizes des HAWIK-IV als
auch die Varianzaufklärung des HAWIK-IV-Gesamt-IQ durch die Indizes des HAWIK-III liegt somit lediglich bei etwa 60 %. Demnach kann circa 40 % der Varianz nicht erklärt werden. Dies
spricht dafür, beide Testversionen nur begrenzt miteinander zu vergleichen.
Bei der Interpretation der Einflüsse der Indizes auf den Gesamt-IQ muss jedoch folgende, als
scheinbar abweichender IQ (seemingly anomalous IQ, Reddon, Whippler & Reddon, 2007) bezeichnete testspezifische Besonderheit berücksichtigt werden: In einigen Fällen liegt der Gesamt-IQ im oberen Leistungsbereich oberhalb und im unteren Leistungsbereich unterhalb der
Werte der Indizes (siehe dazu Reddon, Vander Veen & Reddon, 2004; Reddon et al., 2007). Der
Wertebereich des Gesamt-IQ ist größer (die Werte reichen von 40 bis 160) als der Wertebereich der Indizes (bei den Indizes SV und WLD liegen die Werte zwischen 45 und 155 und in der
AGD und der VG zwischen 50 und 150). Daher zeigt sich das Phänomen häufiger an den Randbereichen der IQ-Normalverteilung. In einer Untersuchung mit der WISC-IV wurde dieser abweichende IQ bei 1 % der Fälle festgestellt (Reddon et al., 2007). Dies hängt mit der Regression
zur Mitte zusammen. Die Regression zur Mitte zählt zu den Störeinflüssen, die die Vergleichbarkeit zweier Tests beeinträchtigen können (siehe Kapitel 5.2). Sie kann dazu führen, dass die
Abhängigkeit zwischen Indizes und Gesamt-IQ kaum interpretiert werden kann. Da die Regression zur Mitte jedoch nur extrem selten vorkommt, kann ein großer Einfluss auf die Ergebnisse
dieser Untersuchung ausgeschlossen werden.
9.5.4 Abschließende Ergebnisbetrachtung der Regressionsanalysen
Insgesamt lassen die Ergebnisse der Regressionsanalysen darauf schließen, dass die unterschiedlichen Vorstellungen von Intelligenz, die in die Entwicklung beider Testversionen eingeflossen sind, deren Vergleichbarkeit beeinträchtigen. Es soll an dieser Stelle jedoch erneut darauf hingewiesen werden, dass die Berechnung der Varianzaufklärung der Indizes durch die
Untertests verzerrt ist. Bei den Indizes handelt es sich um IQ-Werte, die künstlich erzeugt worden sind und keinen linearen Zusammenhang zu den Wertpunkten der Untertests aufweisen
(siehe Kapitel 7.5.4).
9.5.5 Erwartete Werte und Konfidenzintervalle
Die Ergebnisse der Vorhersage des HAWIK-IV-Konfidenzintervalls unter Kenntnis des entsprechenden HAWIK-III-Wertes unterstützen die Existenz eines Flynn-Effekts, der zu einer Über-
Kapitel 9
187
schätzung der Leistung eines Kindes führt, wenn es aktuell noch mit dem HAWIK-III getestet
wird. Dies hängt damit zusammen, dass bei der Berechnung der Konfidenzintervalle die Konstante auf 0 festgelegt wurde (siehe Kapitel 7.5.4.2). So ergeben sich durchweg niedrigere vorhergesagte Werte im HAWIK-IV, was sich mit den von den WISC-IV-Autoren angegebenen erwarteten WISC-IV-Werten deckt (Wechsler, 2003b) und dem Flynn-Effekt (siehe Kapitel 5.2.2)
zuzusprechen ist. Diese erwarteten Werte und Konfidenzintervalle sollen dem Testanwender
verdeutlichen, von welchen Werten sie bei einer Testung mit dem HAWIK-IV ausgehen können, wenn bereits der HAWIK-III durchgeführt wurde. Liegen die Werte außerhalb der Konfidenzintervalle weist dies auf ein zur HAWIK-III-Testung abweichendes Leistungsprofil hin. Die
Veränderungen können jedoch auch durch die spezifischen Stärken und Schwächen des Kindes
entstanden sein, die durch die Verschiebung der erfassten Fähigkeiten mehr oder weniger
betont werden (siehe Kapitel 9.7.1). Zudem sollten die anderen Ergebnisse dieser Studie, wie
Lerneffekte - vor allem im Bereich der Erfassung von Verarbeitungsgeschwindigkeit - berücksichtigt werden.
9.6 Unterschiede in der Rohwerte- und Wertpunktverteilung
An den Untertests Zahlen-Symbol-Test und Symbol-Suche, die sich von HAWIK-III zu HAWIK-IV
inhaltlich nicht verändert haben (mit der Ausnahme, dass die Symbol-Suche für die Kinder zwischen 9 und 16 Jahren zur Reduzierung des Deckeneffekts im HAWIK-IV 15 zusätzliche Aufgaben aufweist), soll im Folgenden exemplarisch dargestellt werden, dass unterschiedliche Ergebnisse in beiden Testversionen nicht zwangsläufig mit einer veränderten Leistung des Kindes
einhergehen. Vielmehr basieren unterschiedliche Rohwertverteilungen auf der Wertpunktberechnung. Tabelle 9.1 stellt einen Auszug aus den Umrechnungstabellen des HAWIK-III und -IV
dar, der die unterschiedliche Einstufung der erzielten Rohwerte in Wertpunkte verdeutlicht.
Wie aus Tabelle 9.1 ersichtlich wird, zeigen sich im mittleren Leistungsbereich (10 Wertpunkte)
keine deutlichen Unterschiede hinsichtlich der für einen Wertpunkt von 10 notwendigen Rohwerte. Einzig die 16;8- bis 16;11-Jährigen müssen in der Symbol-Suche für 10 Wertpunkte im
HAWIK-IV drei Rohwertpunkte mehr erzielen als im HAWIK-III (35-36 im HAWIK-IV gegenüber
32-33 im HAWIK-III). Besonders deutlich wird die Rohwertverschiebung jedoch an den Randbereichen. So erhalten die Kinder der jüngsten Altersgruppe im HAWIK-III für 10 Rohwerte im
Zahlen-Symbol-Test nur 1 Wertpunkt, während gleichaltrige Kinder im HAWIK-IV schon für 3
Rohwerte 2 Wertpunkte erhalten (für 10 Rohwerte würden sie 4 Wertpunkte bekommen). Den
ältesten Kindern werden im Zahlen-Symbol-Test des HAWIK-IV für 33 Rohwerte schon 2 Wertpunkte vergeben, während die Kinder desselben Alters im HAWIK-III 37 Rohwerte erreichen
müssen, um 2 Wertpunkte zu erhalten. Hier haben demnach die Kinder der Normierungsstichprobe des HAWIK-IV schlechter abgeschnitten als die der Normierungsstichprobe des HAWIK-
Kapitel 9
188
III. Der entgegengesetzte Trend zeigt sich am oberen Leistungsrand der Symbol-Suche. So benötigen die 6;0- bis 6;3-Jährigen beispielsweise 40 Rohwerte in der Symbol-Suche des HAWIKIV, um die maximalen 19 Wertpunkte zu erhalten, während die gleichaltrigen Kinder im HAWIK-III nur 29 Rohwerte für 19 Wertpunkte benötigen.
Tabelle 9.1: Normtabellenauszug der Untertests Zahlen-Symbol-Test und Symbol-Suche aus
den Manualen des HAWIK-III und -IV (Petermann & Petermann, 2008a; Tewes et al., 2002).
HAWIK- HAWIKIII
IV
Wertpunkte
19 WP
19 WP
6;0-6;3
61-65
61-65
9;0-9;3
60-119
65-119
ZST
12;0-12;3
81-119
86-119
16;8-16;11
100-119 110-119
6;0-6;3
29-45
40-45
9;0-9;3
34-45
37-60
SS/SYS
12;0-12;3
44-45
46-60
45 (ab
16;8-16;11
0-14
0-15
32-33
35-36
55-60
18 WP)
Anmerkungen: Abkürzungen siehe Anhang A5 und A6. Die grau unterlegten Wertpunkbereiche
repräsentieren deutliche Verschiebungen zwischen beiden Testversionen.
Altersstufe
HAWIKIII
1 WP
0-10
0-14
0-22
0-36
0
0-5
0-8
HAWIKIV
1 WP
0-2
0-10
0-18
0-32
0
0-4
0-8
HAWIKIII
10 WP
27-30
37-39
48-52
66-70
15
20-21
25-26
HAWIKIV
10 WP
28-31
36-38
49-52
69-72
13-14
20
26-27
Die Rohwerteverteilung hat sich demzufolge trotz inhaltlich identischer Untertests zum Teil
deutlich verändert. Dies hängt mit der Standardisierung der erzielten Rohwerte in Wertpunkte
mit einem Wertpunktmittel von 10 und einer Standardabweichung von +/- 3 zusammen. Werden für den HAWIK-IV mehr Rohwerte für dieselben Wertpunkte benötigt als für den HAWIKIII, kann jedoch auch der Flynn-Effekt ursächlich sein.
Schlussfolgernd daraus ist also ein Anstieg oder Abfall in den Wertpunkten zwischen dem HAWIK-III und dem HAWIK-IV nicht zwangsläufig mit einer Verbesserung bzw. Verschlechterung
der Leistung in der dem Untertest zugrunde liegenden Fähigkeit zu begründen. Dies ist vom
Anwender bei der Interpretation der Testergebnisse unbedingt zu beachten.
9.7 Einzelfallbetrachtungen
Im Folgenden soll anhand der Ergebnisse einzelner Testpersonen aufgezeigt werden, welche
Schwierigkeiten bei der Vergleichbarkeit zweier unterschiedlicher Versionen eines Tests bestehen und wie Störvariablen (siehe Kapitel 5.2) die Testergebnisse beeinflussen können.
9.7.1 Veränderungen in der Untertestzusammensetzung der Indizes
Wie in Kapitel 4 dargestellt, können Differenzen im HAWIK-III und -IV auf strukturelle Veränderungen, wie unterschiedliche Untertestzusammensetzungen der Indizes beider Tests, zurückgeführt werden. Ein 16-jähriges Mädchen erhält weit überdurchschnittliche IQ-Werte im Handlungsteil und im Index WO (141 und 142) des HAWIK-III, jedoch nur einen durchschnittlichen
Kapitel 9
189
IQ-Wert im entsprechenden HAWIK-IV-Index WLD (106). Dies kann auf die unterschiedliche
Untertestzusammensetzung beider Test zurückgeführt werden. So erzielt sie im HAWIK-III 19
Punkte im Bilderordnen, in den WLD-Untertests Bildkonzepte und Matrizen-Test jedoch nur 10
beziehungsweise 11 Punkte. Dies deutet auf Stärken des Mädchens eher im sozialen Bereich
als im logischen Denken und räumlichen Vorstellungsvermögen hin.
Ein achtjähriges Mädchen erhält im HAWIK-III einen Gesamt-IQ von 115 und im HAWIK-IV einen Gesamt-IQ von 93. Der Unterschied beträgt demnach 22 IQ-Punkte (also fast 1.5 SD) und
kann nicht auf den Lerneffekt zurückgeführt werden, da das Kind zuerst den HAWIK-III durchführte. Die Ursache für diese hohe Differenz liegt vor allem an den Untertests des WO bzw. des
WLD: Der WO-IQ des Mädchens beträgt 118, der WLD-IQ jedoch nur 98. Dies lässt sich ebenfalls auf die unterschiedliche Untertestzusammensetzung zurückführen. Während das Mädchen überdurchschnittliche Werte im Bilderordnen und Figurenlegen erzielt (jeweils 16 Wertpunkte), schneidet es in den neuen Untertests Bildkonzepte und Matrizen-Test mit jeweils 9
Punkten nur durchschnittlich ab.
Bei einem zehnjährigen Jungen führen durchschnittliche Werte in den Untertests Bildkonzepte
und Matrizen-Test und weit überdurchschnittliche Werte im Bilderordnen und Figurenlegen zu
einer Differenz von 23 Wertpunkten (112 gegenüber 135), was ihm auf handlungsbezogener
Ebene im HAWIK-III die Diagnose einer Hochbegabung, im HAWIK-IV jedoch nur einer normalen Begabung einbringen würde.
Ein achtjähriges Mädchen erzielt im WLD nur 69 IQ-Punkte gegenüber 100 IQ-Punkten im WO.
Es würde somit im HAWIK-IV hinsichtlich der Fähigkeit zum wahrnehmungsgebundenen logischen Denken an der Grenze zur Intelligenzminderung liegen, die Fähigkeit zur Wahrnehmungsorganisation im HAWIK-III würde jedoch als absolut durchschnittlich gelten.
Auch in anderen Indizes führt die unterschiedliche Untertestzusammensetzung zu stark abweichenden Ergebnissen. So erhält ein zehnjähriges Mädchen beim UA-Index des HAWIK-III 88 IQPunkte, beim entsprechenden HAWIK-IV-Index AGD jedoch einen IQ-Wert von 120. Dies ist
zum Teil darauf zurückzuführen, dass sich das Rechnerische Denken als schwächster Untertest
des Mädchens erweist, das im HAWIK-III in den Index einfließt und im HAWIK-IV nur noch optional eingesetzt wird. Bei einem 13-jährigen Mädchen macht die Auslagerung des Rechnerischen Denkens zu einem optionalen Untertest einen Unterschied zwischen den entsprechenden Indizes von 22 Wertpunkten aus (98 im UA gegenüber 120 im AGD). Dies zeigt sich auch in
umgekehrter Hinsicht bei Kindern, deren Stärke das rechnerische Denken darstellt. Sie schneiden im Index UA besser ab als im AGD. Bei anderen Kindern ist der große Unterschied zwischen diesen beiden Indizes dadurch zu erklären, dass sie Schwierigkeiten mit dem Untertest
Buchstaben-Zahlen-Folgen hatten und daher im HAWIK-IV schlechter abschnitten als im HA-
Kapitel 9
190
WIK-III, obwohl sie im Zahlen nachsprechen und Rechnerischen Denken der beiden Testversionen die gleichen Wertpunkte erreichten.
Auch im SV sind solche Abweichungen zu beobachten. Ein achtjähriger Junge erzielt im HAWIKIII einen SV-IQ von 147 und im HAWIK-IV von 126. Der Grund für die Abweichung liegt im Untertest Allgemeines Wissen, der mit jeweils 18 Wertpunkten seinen besten Untertest darstellt,
im HAWIK-IV jedoch nur noch ein optionaler Untertest ist.
Wie diese Beispiele verdeutlichen, sollte beim Vergleich beider Tests die unterschiedliche Untertestzusammensetzung berücksichtigt werden, die teilweise gänzlich unterschiedliche Fähigkeiten erfassen.
9.7.2 Klinische Relevanz
Die Folgen, die daraus resultieren, welche der beiden Testversionen HAWIK-III und HAWIK-IV
zur Intelligenzdiagnostik herangezogen werden, verdeutlicht folgendes Beispiel: Ein siebenjähriger Junge erzielt im HAWIK-III einen Gesamt-IQ von 77, im HAWIK-IV erhält er jedoch nur 64
IQ-Punkte. Wäre das Kind im Zuge einer diagnostischen Abklärung mit dem HAWIK-III getestet
worden, wäre eine Lernbehinderung diagnostiziert worden, während die Leistung im HAWIK-IV
im Bereich einer leichten geistigen Behinderung liegt. Allerdings wurde bei diesem Kind der
HAWIK-IV zuerst durchgeführt, so dass der Unterschied vermutlich auch durch den Lerneffekt
erklärt werden kann.
9.7.3 Unterschiedliche Normierung
Manche Differenzen können mit der unterschiedlichen Normierung beider Testversionen begründet werden. So erhält ein Kind, das im Wortschatz-Test des HAWIK-III nur zwei Rohwerte
mehr erreicht als im HAWIK-IV, dafür im HAWIK-III neun Wertpunkte mehr. Ein achtjähriges
Kind erhält im Wortschatz-Test des HAWIK-III für die Hälfte der möglichen Rohwerte (30 von
60) schon die maximale Punktzahl (19 Wertpunkte). Hier liegen die Ursachen für die Differenz
also nicht im Lerneffekt oder anderen Störvariablen, sondern in der Normierung des HAWIK-III.
Dieses Phänomen zeigt sich teilweise auch im Gemeinsamkeiten finden.
9.7.4 Inhaltliche Veränderungen der Untertests
Unter Bezugnahme auf die Aktualisierung der theoretischen Grundlagen wurden im HAWIK-IV
einige Änderungen vorgenommen (siehe Kapitel 4.5.1). Welchen Einfluss diese Änderungen
auf die Vergleichbarkeit beider Testversionen haben können, soll an einigen Beispielen aufgezeigt werden. So weisen die Ergebnisse eines zwölfjährigen Jungen im Mosaik-Test eine Differenz von fünf Wertpunkten zwischen HAWIK-III und -IV (6 und 11 Wertpunkte) auf. Da der
HAWIK-IV zuerst vorgelegt wurde, kann die Differenz nicht im Lerneffekt begründet sein. Die
Untertestprofile beider Tests, die unterdurchschnittliche Ergebnisse bei zeitabhängigen Unter-
Kapitel 9
191
tests wie Figurenlegen oder Zahlen-Symbol-Test aufweisen, deuten darauf hin, dass das Ergebnis aus der Verringerung der Zeitkomponente im Mosaik-Test des HAWIK-IV resultiert. Das
Kind scheint Schwierigkeiten mit Zeitbegrenzungen zu haben und kam deshalb beim MosaikTest trotz gleich viel gelöster Aufgaben zu mehr Wertpunkten im HAWIK-IV, da es im HAWIK-III
keine Zeitbonuspunkte erhielt und somit schlechter abschnitt als andere Kinder seines Alters,
die Zeitbonuspunkte erhielten.
9.7.5 Veränderungen der Untertestreihenfolge
Ein Untertest, bei dem die unterschiedliche Position im Test zu deutlich voneinander abweichenden Testergebnissen führen kann, stellt das Zahlen nachsprechen dar, das von der letzten
auf die dritte Position vorverlegt wurde. Insgesamt weisen 11 Kinder und Jugendliche dieser
Stichprobe (das entspricht knapp 5 % der Gesamtstichprobe) mehr als drei Wertpunkte (also
mehr als eine Standardabweichung) Differenz zwischen beiden Zahlen nachsprechenUntertests auf und zeigen dabei die bessere Leistung in dem Test, den sie zuerst durchführten,
was bei ihnen den Lerneffekt als Ursache ausschließt. Der Großteil dieser Kinder (acht von elf)
zeigt schlechtere Leistungen im HAWIK-III, obwohl sie den HAWIK-IV zuerst durchführten und
demnach im HAWIK-III angesichts des Lerneffekts besser hätten sein müssen. Dies deutet darauf hin, dass hier die ungünstigere Untertestposition des Zahlennachsprechens im HAWIK-III
(Ermüdung, mangelnde Konzentration, Motivation etc. zum Ende der Testung) den Ausschlag
für die deutlich geringere Wertpunktzahl gegeben hat.
Ein weiterer Untertest, der eine deutlich andere Position eingenommen hat, ist der MosaikTest, der von der siebten auf die erste Stelle verschoben wurde. Diese Veränderung erweist
sich vor allem bei ängstlichen Kindern als bedeutsam, da sie zu Beginn der Testung oftmals
noch unsicher sind und dementsprechend schwächere Leistungen zeigen. So erreicht ein
sechsjähriges Mädchen bei Erstvorgabe des HAWIK-IV im Mosaik-Test dieser Testversion 6
Punkte und im HAWIK-III 11 Punkte. Insgesamt weist das Profil zum einen steigende Werte zur
Mitte der HAWIK-IV-Testung und zum anderen schlechtere zu Beginn des HAWIK-III auf (5
Punkte im Allgemeinen Wissen und 7 Punkte im Bilderergänzen). Es scheinen demzufolge persönlichkeitsspezifische Charaktereigenschaften des Mädchens zu stark voneinander abweichende Leistungen im gleichen Untertest in beiden Testversionen zu führen. Gleiches ergibt
sich bei einem elfjährigen Mädchen, dessen Ergebnisse im Bilder ergänzen acht Wertpunkte
Differenz aufweisen (9 Wertpunkte im HAWIK-III, in dem der Test an erster Position vorgegeben wird gegenüber 17 Wertpunkte im HAWIK-IV, in dem der Test die 11. Position belegt). Da
der HAWIK-IV vor dem HAWIK-III durchgeführt wurde, kann die Differenz nicht auf Lerneffekte
zurückgeführt werden. Vielmehr scheinen Startschwierigkeiten, beispielsweise auf Testangst
begründet, ursächlich zu sein.
Kapitel 9
192
9.7.6 Zusammenfassung der Einzelfallbetrachtungen
An den Analysen einzelner Testergebnisse konnten die Auswirkungen der Veränderungen zwischen HAWIK-III und -IV auf die Vergleichbarkeit beider Testergebnisse demonstriert werden.
Im Einzelfall können demnach durch die unterschiedlichen Testversionen erhebliche Ergebnisdifferenzen auftreten. Dabei erweisen sich in den Einzelfalldarstellungen folgende Unterschiede als ursächlich für die stark voneinander abweichenden Ergebnisse:
Veränderungen in der Untertestzusammensetzung der Indizes,
die unterschiedliche Normierung beider Testversionen,
inhaltliche Veränderungen der Untertests sowie
Veränderungen der Untertestreihenfolge.
Wie die Analysen aufgezeigt haben, kann die Entscheidung für eine Testversion vereinzelnd
sogar die Diagnosestellung beeinflussen.
Insgesamt sollten die Analysen den Anwender dazu veranlassen – auch wenn sich insgesamt
hohe Korrelationen zwischen beiden Testversionen ergeben haben –im Einzelfall die Ergebnisse vorsichtig zu interpretieren. Schließlich können sich im Einzelfall auch dann Effekte zeigen,
wenn sie sich in der Gruppe nicht nachweisen lassen. Zhu und Tulsky (2000) empfehlen, sich
sensibel für Effekte wie Testreihenfolge und unterschiedliche situative Bedingungen zu zeigen.
Die abweichenden Ergebnisse einzelner Befunde deuten außerdem auf die Bedeutsamkeit von
Störeinflüssen wie der Tagesform oder der Motivation der Testperson hin. Damit unterstützt
diese Studie die Kritik an der Intelligenzdiagnostik, sie sei nur als Statusdiagnostik zu bewerten,
die lediglich Aussagen über den jeweils aktuellen Leistungs- und Entwicklungsstand zulasse
(siehe Kapitel 5.3).
9.8 Ausblick und Einschränkungen
Obwohl sich zunächst die Testentwickler verantwortlich für Validitätsnachweise zeigen, liegt es
letztendlich in der Hand des Testanwenders, für sich herauszufinden, inwieweit diese Nachweise die Anwendung des Tests für den ihm angedachten Zweck ausreichend unterstützen
(Wechsler, 2003b).
9.8.1 Perspektiven für die Praxis
Aufgrund der Interpretationsprobleme und dem Mangel an ausreichender Forschung zum
Thema der Vergleichbarkeit zweier Testversionen empfehlen Strauss et al. (2000) den Testanwendern – je nach Zweck ihrer Untersuchung – eine Kombination von Richtlinien. Im Folgenden werden nur die Richtlinien angegeben, die für die hier gegenständliche Art von Testrevision gültig sind:
Kapitel 9
193
Konnte eine Normverschiebung (z. B. durch einen großen Flynn-Effekt) nachgewiesen
werden, sollte die überarbeitete Version verwendet werden.
Erfasst die aktuellere Version erfolgreich neue und bedeutsame Konstrukte, ist sie der
älteren Version klar vorzuziehen.
Sind neue Normen vorhanden, sollten nur diese verwendet werden.
Bei Vorher-Nachher-Testungen sollte immer die gleiche Version verwendet werden.
Entscheidungsregeln, die auf unterschiedlichen Testversionen beruhen, sollten vermieden werden.
Wenn die Faktorenstrukturen voneinander abweichen, sollte beim Vergleich beider
Versionen die Interpretation der Gesamtwerte vermieden werden. Es sollte sich nur
auf die Komponenten beschränkt werden, die in beiden Versionen äquivalent erscheinen.
Es sollten generell stets mehrere Messinstrumente zur Messung eines Konstrukts verwendet werden.
Unter Bezugnahme auf diese Kriterien sollte im Hinblick auf den HAWIK im Regelfall immer der
HAWIK-IV zum Einsatz kommen. So zeigt sich ein Flynn-Effekt im Vergleich des HAWIK-IV mit
seinem Vorgängerverfahren, dem HAWIK-III. Wie in Kapitel 5.2.2 ausführlich geschildert, kann
die Verwendung älterer Testversionen angesichts des Flynn-Effekts in eine geringere Anzahl an
Diagnosen von Entwicklungsbeeinträchtigungen münden, so dass vorhandene Beeinträchtigungen nicht ernst genommen werden (Strauss et al., 2000). Testergebnisse sollten auf normativen Informationen basieren, die sowohl aktuell als auch repräsentativ für die jeweilige Population sind. Es wird davon ausgegangen, dass Normen von Intelligenztests spätestens nach 15
Jahren als ungültig gelten und durch neue Vergleichswerte zu ersetzen sind (Kanaya et al.,
2005). Die Normen des HAWIK-III wurden zwischen 1995 und 1998 erhoben. Demnach sind die
erhobenen HAWIK-III-Werte mittlerweile bis zu 14 Jahre alt.
Außerdem konnte nachgewiesen werden, dass für die WISC-IV und damit auch den HAWIK-IV
erfolgreich Änderungen in der Erfassung kognitiver Fähigkeiten vorgenommen wurden, die als
wichtige Konstrukte im Bereich der Intelligenzdiagnostik gelten. Einzig im Bereich der Verlaufsdiagnostik, beispielsweise bei Testungen vor und nach einer Therapie, ist es angebracht,
erneut auf den HAWIK-III zurückzugreifen, wenn er bereits vor der Maßnahme durchgeführt
wurde. Nur so können Veränderungen im Leistungsprofil des Kindes auf tatsächliche Leistungsveränderungen zurückgeführt werden, ohne dass Verzerrungen wie Unterschiede in den
Tests oder veraltete Normen berücksichtigt werden müssen. Allerdings müssen in diesem Fall
mögliche Lerneffekte unbedingt berücksichtigt werden. Liegt die erste Testung mehrere Jahre
zurück, kann zwar ein Lerneffekt ausgeschlossen werden, jedoch kann dann bereits der FlynnEffekt zum Tragen kommen. Auch die Einzelfallbetrachtungen zeigen gravierende Auswirkun-
Kapitel 9
194
gen auf die Ergebnisse durch Veränderungen in den Untertests und der Teststruktur. In Einzelfällen kann dies Folgen für Schulformentscheidungen, Diagnosestellungen oder Therapieplanungen haben. Daher sollte bei einer Wiederholungstestung für die Katamnese unbedingt auf
das ursprünglich eingesetzte Verfahren zurückgegriffen werden.
Analysen zum Zusammenhang beider Versionen ergaben jedoch hohe Korrelationen. Somit
scheinen der HAWIK-III und -IV trotz inhaltlicher und struktureller Unterschiede dasselbe Konstrukt zu erfassen. Unter Berücksichtigung der Erkenntnisse, die aus der vorliegenden Studie
gezogen werden können, scheint es demnach zulässig, die Ergebnisse beider Testversionen
miteinander zu vergleichen. Als Richtlinie sollten dabei die erwarteten Werte und ihre Konfidenzintervalle (siehe Kapitel 8.8.4) herangezogen werden. Sie bieten eine praktische Hilfestellung bei der Einschätzung der Ergebnisse hinsichtlich potentieller Veränderungen der Leistungen eines Kindes nach einer psychologischen und/oder medizinischen Behandlung oder pädagogischen Maßnahme.
Auch wenn in den Faktorenanalysen, in die sämtliche Untertests beider Testversionen einbezogen wurden, sowohl die Untertests des WO und WLD als auch die Untertests der Indizes UA
und AGD auf einem gemeinsamen Faktor laden, scheint auf Grund der anderen Ergebnissen
dieser Studie (z. B. Regressionsanalysen und Korrelationen) ein Vergleich dieser Indizes zumindest nur eingeschränkt möglich zu sein. Dabei liegen die Veränderungen nicht nur in den unterschiedlichen Untertests, sondern auch in den damit verbundenen unterschiedlichen kognitiven Fähigkeiten, die in den Indizes erfasst werden (siehe Tabelle 4.4 und Tabelle 4.6).
Außerdem scheinen identische Wertpunkte, beispielsweise in den Indizes WO und WLD, nicht
gleichbedeutend damit zu sein, dass das Kind in beiden Indizes identische Leistungen gezeigt
hat oder dass die Tests dasselbe messen. Genauso bedeutet eine IQ-Steigerung von WO zu
WLD nicht zwangsläufig eine Verbesserung der Leistung des Kindes. Durch die Standardisierung auf ein Mittel von 10 Wert- bzw. 100 IQ-Punkten bedeuten jeweils 10 Wertpunkte bzw.
ein IQ von 100 in beiden Testversionen lediglich, dass das Kind verglichen mit Kindern des gleichen Alters ein durchschnittliches kognitives Niveau aufweist.
Für die Praxis kann aus den Regressions- und Korrelationsanalysen dieser Studie zudem die
Schlussfolgerung abgeleitet werden, dass es sinnvoll ist, einige optionale Untertests weiterhin
durchzuführen, im Besonderen das Allgemeine Wissen. Dieser Untertest erweist sich sowohl in
der vorliegenden als auch in anderen Studien als aussagekräftiger Untertest zur Erfassung kristalliner und allgemeiner Intelligenz. Ein zusätzlicher Informationsgewinn durch die Durchführung der optionalen Untertests Durchstreich-Test und Begriffe erkennen konnte dahingegen
anhand der Ergebnisse dieser Studie nicht nachgewiesen werden.
Kapitel 9
195
In den Analysen dieser Studie stellen sich die Ergebnisse der Untertests als deutlich heterogener dar als die der Indizes und des Gesamt-IQ. Demnach stellt sich die Interpretation der übergeordneten Werte als aussagekräftiger dar als die Interpretation der Untertests. Wie in der
Diskussion über einen g-Faktor (siehe Kapitel 3.6) dargestellt, sprechen sich diverse Forscher
gegen eine Interpretation des Gesamt-IQ im Sinne eines g-Faktors aus. Fällt die Entscheidung
bei der Testwahl zur Erfassung der kognitiven Leistungen eines Kindes jedoch auf einen Wechsler-Test, stellt die Interpretation des Gesamt-IQ zwangsläufig einen wichtigen Aspekt dar. Da
sich der g-Faktor jedoch als Konstrukt aus vielen Teilfunktionen zusammensetzt, wird bei einer
großen Abweichung innerhalb der Indizes (mehr als 1.5 SD Differenz zwischen zwei Indizes)
davon abgeraten, den Gesamt-IQ zu interpretieren (mehr dazu siehe Daseking et al., in Druck;
Flanagan & Kaufman, 2004)
9.8.2 Einschränkungen der Studie
Intelligenztests unterliegen diversen Einschränkungen (siehe Kapitel 5.3), die auch für die Ergebnisse dieser Studie berücksichtigt werden müssen. Mit Hilfe der Einzelfallbetrachtungen
konnte verdeutlicht werden, wie stark ein Testergebnis von Störvariablen beeinflusst werden
kann. So können vor allem die Daten der jüngeren Kinder nicht als frei von Störeinflüssen - wie
einer unterschiedlichen Tagesform, dem Motivationslevel oder Persönlichkeitsveränderungen
des Kindes - gesehen werden. Dies gilt vor allem für die Kinder, die erst nach einem längeren
Zeitraum erneut getestet wurden. Für diese Stichprobe können auch Lernzuwächse zu verzerrten Ergebnissen geführt haben.
Jedoch können die Gütekriterien beider Testversionen als ausreichend erfüllt betrachtet werden und dürften somit generell nicht zu einer Verzerrung der Ergebnisse beitragen. Lediglich
die Objektivität der Wechsler-Skalen sollte kritisch gesehen werden (siehe Kapitel 4.4.1). So
kann die Durchführungsobjektivität nicht vollständig gewährleistet werden. Da die Testungen
dieser Studie jedoch größtenteils von der Verfasserin sowie von wenigen erfahrenen, intensiv
geschulten und supervidierten Testleitern durchgeführt wurden, konnten Fehler in der Testdurchführung minimiert werden. Einschränkungen in der Auswertungsobjektivität können
weitestgehend ausgeschlossen werden, da die Testprotokolle nur von der Verfasserin ausgewertet wurden, die an der Entstehung des Manuals beteiligt war und im Zuge der Normierung
ausgiebig mit dem Test und den Auswertungsrichtlinien vertraut wurde.
Neben den allgemeinen Einschränkungen hinsichtlich der Interpretation von Intelligenztests
führt auch das Design dieser Studie zu einigen Einschränkungen, die bei der Interpretation der
Ergebnisse beachtet werden sollten.
So erweist sich die Stichprobe durch die Unterteilung in Untergruppen teilweise als relativ
klein. Vor allem die Analysen in der gematchten Stichprobe können aus diesem Grund nur als
Kapitel 9
196
eingeschränkt aussagefähig gelten. Bei der Berechnung der erwarteten Werte (siehe Kapitel
8.8.4) musste aufgrund fehlender Daten für einige Werte auf eine künstliche Umrechnung per
Hand zurückgegriffen werden (siehe auch 7.5.4.2). Da die Gesamtstichprobe jedoch einen ähnlichen Umfang wie vergleichbare Studien aufweist und diese den wichtigsten Ergebnissen und
Interpretationen zu Grunde liegt, kann ihr Umfang insgesamt als ausreichend betrachtet werden.
Allerdings ergeben sich Einschränkungen in der Interpretierbarkeit, da die Intelligenztestergebnisse der vorliegenden Stichprobe insgesamt zu gut ausgefallen sind. Mit einem mittleren
IQ von 108.9 (HAWIK-III) beziehungsweise 106.3 (HAWIK-IV) liegen die Werte der Stichprobe
deutlich über dem Mittelwert von 100 der Normierungsstichprobe.
Eine weitere Einschränkung ergibt sich durch die große Varianz der Länge des Re-Testintervalls
in der Stichprobe mit langem Intervall. So variiert der Abstand zwischen erster und der zweiter
Testung im langen Intervall deutlich (die SD der Varianz liegt bei etwas mehr als fünf Monaten). Diese große Varianz kann dazu führen, dass die Kinder dieser Teilstichprobe deutlich unterschiedliche Lernzuwächse oder allgemeine Reifungsprozesse zwischen beiden Testungen
aufweisen. Möglicherweise kann dies die Ergebnisse des Vergleichs zwischen erster und zweiter Testung im langen Intervall verzerren. Hier wäre es zudem wichtig gewesen, Informationen
über mögliche therapeutische oder medizinische Behandlungen, die Tagesform des Kindes zu
beiden Testzeitpunkten sowie eventuelle Medikation zu erheben. Somit hätte ausgeschlossen
werden können, dass die Unterschiede zwischen den Ergebnissen beider Testungen auf diese
Variablen zurückzuführen sind. Eine Erfassung des Motivationslevels des Kindes während der
beiden Testungen hätte zudem den Einfluss unterschiedlich hoher Motivation des Kindes bei
der Bearbeitung der Aufgaben ausschließen können.
In dieser Studie wurde zum Vergleich der Testversionen auf statistische und methodische
Standardverfahren zurückgegriffen, die auch in vergleichbaren Studien mit Intelligenzskalen
zum Einsatz kamen. Die Durchführung eines komplexeren statistischen Verfahrens wie eines
Strukturgleichungs- bzw. Pfadmodells wäre sinnvoll gewesen, um komplexere Vergleiche zu
ermöglichen, in denen Messfehler und Störvariablen stärkere Berücksichtigung finden. Dies
wurde jedoch zu Gunsten einer Betonung der Vergleiche zwischen einzelnen Testkomponenten verworfen. Es stand demnach weniger die Strukturüberprüfung als vielmehr der inhaltliche
Vergleich der verschiedenen Testkomponenten sowie die Untersuchung der Störeinflüsse im
Vordergrund. Durch die Einzelfalldarstellungen wurde zusätzlich verdeutlicht, welche Bereiche
des Testverfahrens besonders von den inhaltlichen Änderungen zwischen den Testversionen
betroffen sind.
Kapitel 9
197
9.8.3 Forschungsperspektiven
In zukünftigen Studien sollte die Stichprobe hinsichtlich des kognitiven Niveaus der Kinder ausgeglichener gestaltet werden. So sollte versucht werden, Kinder und Jugendliche aus sämtlichen Schulformen zu untersuchen, um einen Querschnitt zu erhalten, der die Normierungsstichprobe besser repräsentiert. Außerdem wäre es wünschenswert, weniger Varianz in den
Abständen zwischen den Testungen zu erreichen, damit von identischen Lern- und Reifungsprozessen von der ersten zur zweiten Testung ausgegangen werden kann.
Zudem kann es sinnvoll sein, den Vergleich beider Testversionen auf Grundlage eines Strukturgleichungsmodells vorzunehmen, um Störeinflüsse besser berücksichtigen und simultane aufeinander bezogene Berechnungen vornehmen zu können, die ein übersichtlicheres Bild über
die strukturellen Veränderungen zwischen beiden Testversionen geben. Sollen die Ergebnisse
eher der Forschung als der praktischen Anwendung dienen, könnte es zusätzlich sinnvoll sein,
die Berechnungen hinsichtlich der Indizes und Gesamtwerte nicht unter Bezugnahme auf die
IQ-Werte, sondern die Wertpunktsummen vorzunehmen. Dies würde eine lineare Abhängigkeit zwischen den Untertests und den Indizes gewährleisten.
Bei der Untersuchung des Lerneffekts zeigten sich Mittelwertveränderungen, die auf allgemeine Reifungsprozesse und Lernzuwächse zurückgeführt werden können. Diese machten eine
hohe Bildungsabhängigkeit, vor allem in den sprachlichen Untertests wie dem Allgemeinen
Verständnis, deutlich. Demzufolge können die Ergebnisse in diesen Untertests womöglich stark
von der besuchten Klassenstufe des Kindes abhängen. Daher wäre zu überlegen, die Normen
nicht auf Grundlage von Alters- sondern von Klassenstufen zu erheben. So stellt es sich als
bedeutsam dar, ob ein sechsjähriges Kind zum Zeitpunkt der Testung bereits die Schule oder
noch den Kindergarten besucht.
Die Veränderungen vom HAWIK-III zum HAWIK-IV spiegeln die Trends in der Intelligenzforschung wider, auf bestimmte kognitive Bereiche wie der fluiden Intelligenz, dem Arbeitsgedächtnis und der Verarbeitungsgeschwindigkeit gesteigerten Wert zu legen. Die Erfassung
dieser Fähigkeiten hat an Bedeutung zugenommen und wurde aus diesem Grund im HAWIK-IV
stärker berücksichtigt, als dies im HAWIK-III der Fall war. Es wird jedoch weiterhin kritisiert,
dass der HAWIK-IV nur wenige der kognitiven Fähigkeiten adäquat erfasst, die in aktuellen
Intelligenztheorien als wichtige Faktoren der Intelligenz erachtet werden. Dies sollte bei der
Entwicklung zukünftiger Testversionen berücksichtigt werden, darf jedoch nicht dazu führen,
den Wechsler-Skalen ihr „Gesicht“ zu nehmen und die Untertests nicht zu berücksichtigen, die
sich als praktisch und klinisch bedeutsam herausgestellt haben.
Zusammenfassung
198
Zusammenfassung
Die Erfassung der Intelligenz zählt zu den wichtigsten Aspekten der psychologischen Leistungsdiagnostik. Auch wenn weiterhin umstritten ist, wie Intelligenz definiert werden kann, beschäftigen sich unzählige Forschungsarbeiten mit der Struktur der kognitiven Fähigkeiten des Menschen. Diese Modelle haben großen Einfluss auf die Entwicklung von Intelligenztestverfahren.
Aufgrund veralteter Normen und neuer Erkenntnisse im Bereich der Intelligenzstrukturforschung stellt es sich als notwendig dar, Intelligenztestverfahren in regelmäßigen Abständen zu
modifizieren und neu zu normieren. Dies gilt auch für die Wechsler-Skalen, die zu den weltweit
wichtigsten Intelligenztests zählen. Für den Testanwender ist es dabei von großer Bedeutung,
inwieweit das modifizierte Verfahren mit seinem Vorgänger vergleichbar ist.
Die vorliegende Studie befasst sich mit dem Vergleich zwischen HAWIK-III (im Jahr 1999 erschienen) und HAWIK-IV (im Jahr 2007 erschienen), beides Versionen des WechslerIntelligenztests für Kinder und Jugendliche zwischen 6 und 16 Jahren. Dabei wurden Störeinflüsse wie der Lern- und Flynn-Effekt untersucht. Beide Störeffekte konnten für die Kinder und
Jugendlichen dieser Studie nachgewiesen werden und müssen demnach bei der Interpretation
der Ergebnisse berücksichtigt werden.
In dieser Studie zeigen sich sehr hohe Korrelationen zwischen den Gesamt-IQ beider Testversionen. Es kann also davon ausgegangen werden, dass beide Versionen dasselbe Konstrukt
erfassen. Auch auf Ebene der Indizes konnten sehr hohe Zusammenhänge nachgewiesen werden. Dabei ergaben sich bei den Indizes höhere Korrelationen, die weniger Veränderungen von
HAWIK-III zu HAWIK-IV aufweisen. Dagegen zeigten diejenigen Indizes niedrigere Zusammenhänge, bei denen einschneidende Veränderungen vorgenommen wurden. So lässt die zusätzliche Untersuchung der Höhe der Varianzaufklärung der Untertests auf die Indizes die Schlussfolgerung zu, dass die stark veränderten Indizes nur eingeschränkt miteinander vergleichbar
sind. Die Faktorenstruktur beider Testversionen konnte jedoch repliziert werden.
Um dem Testanwender eine Richtlinie zu bieten, welche HAWIK-IV-Werte zu erwarten sind,
wenn die mit dem HAWIK-III erhobenen Ergebnisse vorliegen, wurden die erwarteten Werte
und ihre Konfidenzintervalle berechnet und für ausgewählte IQ-Werte tabellarisch dargestellt.
An den Zusammenhangsanalysen und Einzelfallbetrachtungen wird deutlich, wie sich die Entscheidung für eines der beiden Testversionen auf die Ergebnisse und damit einhergehenden
Diagnosen auswirken kann. Aufgrund der Ergebnisse der vorliegenden Studie kann die Richtlinie aufgestellt werden, im Regelfall den aktuelleren HAWIK-IV dem Vorgängerverfahren HAWIK-III vorzuziehen. Einzig im Rahmen der Verlaufsdiagnostik sollte der HAWIK-III weiterhin
Anwendung finden, sofern er bereits in der Eingangsdiagnostik eingesetzt wurde.
Literaturverzeichnis
199
Aiken, L. R. (Ed.). (2003). Psychological testing and assessment (11th ed.). Boston: Pearson.
Alfonso, V. C., Flanagan, D. P. & Radwan, S. (2005). The impact of the Cattell-HornCarroll theory on test development and interpretation of cognitive and academic abilities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd ed., pp. 185-202). New York:
Guilford.
Alfonso, V. C., Johnson, A., Patinella, L. & Rader, D. E. (1998). Common WISC-III examiner errors: Evidence from graduate students in training. Psychology in the
Schools, 35, 119-125.
Amelang, M. & Schmidt-Atzert, L. (2006). Psychologische Diagnostik und Intervention.
Heidelberg: Springer Medizin.
American Educational Research Association, American Psychological Association &
National Council on Measurement in Education (1999). Standards for educational and psychological testing. Washington: Author.
Anastasi, A. & Urbina, S. (Eds.). (1997). Psychological testing (7th ed.). Upper Saddle
River: Prentice Hall.
Angoff, W. H. (1988). Validity: An evolving concept. In H. Wainer & H. I. Braun (Eds.),
Test validity. Hillsdale: Erlbaum.
Baltes, P. B. (1983). Life-span developmental psychology: Observations on history and
theory revisited. In R. M. Lerner (Ed.), Developmental psychology: Historical and
philosophical perspectives (pp. 79-111). Hillsdale: Erlbaum.
Belter, R. W. & Piotrowski, C. (2001). Current status of doctoral-level training in psychological testing. Journal of Clinical Psychology, 57, 717-726.
Beres, K. A., Kaufman, A. S. & Perlman, M. D. (2000). Assessment of child intelligence.
In G. Goldstein & M. Hersen (Eds.), Handbook of psychological assessment (3rd
ed., pp. 65-96). Kindlington, Oxford, United Kingdom: Elsevier Science.
Bickley, P. G., Keith, T. Z. & Wolfle, L. M. (1995). The Three-Stratum Theory of Cognitive
Abilities: Test of the structure of intelligence across the life span. Intelligence,
20, 309-328.
Binet, A. & Simon, T. (1916). The development of intelligence in children (Originally
published in 1905). Baltimore: Williams & Wilkins.
Birke, M. & Lehn, B. (in Druck). Intellektuelle Hochbegabung. In F. Petermann & M.
Daseking (Hrsg.), Fallbuch zum HAWIK-IV. Göttingen: Hogrefe.
Bjorklund, D. F. & Schneider, W. (2006). Ursprung, Veränderung und Stabilität der Intelligenz im Kindesalter: Entwicklungspsychologische Perspektiven. In W.
Schneider & B. Sodian (Hrsg.), Enzyklopädie der Psychologie (Serie V Entwicklungspsychologie, Bd. 2, S. 770-821). Göttingen: Hogrefe.
Blaha, J. & Wallbrown, F. H. (1996). Hierarchical factor structure of the Wechsler Intelligence Scale for Children-III. Psychological Assessment, 8, 214-218.
200
Bölte, S., Adam-Schwebe, S., Englert, E., Schmeck, K. & Poustka, F. (2000). Zur Praxis
der psychologischen Testdiagnostik in der deutschen Kinder- und Jugendpsychiatrie: Ergebnisse einer Umfrage. Zeitschrift für Kinder- und Jugendpsychiatrie
und Psychotherapie, 28, 151-161.
Bondy, C. (1956). Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE). Bern:
Huber.
Borsuk, E. R., Watkins, M. W. & Canivez, G. L. (2006). Long-term stability of membership in a Wechsler Intelligence Scale for Children-Third Edition (WISC-III) subtest core profile taxonomy. Journal of Psychoeducational Assessment, 24, 5268.
Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6., vollst. überarbeitete
und aktual. Aufl.). Heidelberg: Springer Medizin.
Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation: für Human- und
Sozialwissenschaftler (4., überarbeitete Aufl.). Heidelberg: Springer Medizin.
Bortz, J. & Döring, N. (Hrsg.). (2002). Forschungsmethoden und Evaluation. Für Humanund Sozialwissenschaftler (3. Aufl.). Berlin: Springer.
Braaten, E. B. & Norman, D. (2006). Intelligence (IQ) testing. Pediatrics in Review, 27,
403-408.
Bracken, B. A. (1988). Ten psychometric reasons why similar tests produce dissimilar
results. Journal of School Psychology, 26, 155-166.
Bracken, B. A. (1992). The interpretation of tests. In M. Zeidner & R. Most (Eds.), Psychological testing. An inside view (pp. 119-156). Palo Alto: Consulting Psychologists.
Braden, J. P. & Niebling, B. C. (2005). Evaluating the validity evidence for intelligence
tests using the joint test standards. In D. P. Flanagan & P. L. Harrison (Eds.),
Contemporary Intellectual Assessment (2nd ed., pp. 615-630). New York: Guilford.
Brody, N. (2000). History of theories and measurements of intelligence. In R. J. Sternberg (Ed.), Handbook of intelligence (pp. 16-33). Cambridge: Cambridge University.
Brody, N. (2003a). Construct validation of the Sternberg Triarchic Abilities Test: Comment and reanalysis. Intelligence, 31, 319-329.
Brody, N. (2003b). What Sternberg should have concluded. Intelligence, 31, 339-342.
Brody, N. (2005). To g or not to g - that is the question. In O. Wilhelm & R. W. Engle
(Eds.), Handbook of understanding and measuring intelligence (pp. 489-502).
Thousand Oaks: Sage.
Bründler, M., Bürkli, M., Christen, S., Müller, W., Sonderegger, P. & Wolf, K. (2007).
Schulpsychologie und Begabungsförderung. Ein Beitrag zur Qualitätsentwicklung und Qualitätssicherung für Schulpsychologische Dienste. Luzern: VippPraxisforschung.
Bühner, M. (2004). Einführung in die Test- und Fragebogenkonstruktion. München:
Pearson Studium.
201
Burt, C. (1949). The structure of the mind; a review of the results of factor analysis.
British Journal of Educational Psychology, 19, 176-199.
Calhoun, S. L. & Mayes, S. D. (2005). Processing speed in children with clinical disorders. Psychology in the Schools, 42, 333-343.
Camara, W. J., Nathan, J. S. & Puente, A. E. (2000). Psychological test usage: Implications in professional psychology. Professional Psychology: Research and Practice, 31, 141-154.
Canivez, G. L. & Watkins, M. W. (1999). Long-term stability of the Wechsler Intelligence
Scale for Children-Third Edition among demographic subgroups: Gender,
race/ethnicity, and age. Journal of Psychoeducational Assessment, 17, 300-313.
Carpenter, P. A., Just, M. A. & Shell, P. (1990). What one intelligence test measures: A
theoretical account of the processing in the Raven Progressive Matrices Test.
Psychological Review, 97, 404-431.
Carroll, J. B. (1992). Cognitive abilities: The state of the art. Psychological Science, 3,
266-270.
Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. New
York: Cambridge University.
Carroll, J. B. (1994). Primary mental abilities theory. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (2nd ed., pp. 833-836). New York: Macmillan.
Carroll, J. B. (1997a). Commentary on the Keith and Witta`s hierarchical and cross-age
confirmatory factor analysis of the WISC-III. School Psychology Quarterly, 12,
108-109.
Carroll, J. B. (1997b). The Three-Stratum Theory of Cognitive Abilities. In D. P. Flanagan,
J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assessment:
Theories, tests, and Issues (pp. 122-130). New York: Guilford.
Carroll, J. B. (2003). The higher-stratum structure of cognitive abilities: Current evidence supports g and about ten broad factors. In H. Nyborg (Ed.), The scientific
structure of general intelligence. Tribute to Arthur R. Jensen. Kidlington, Oxford:
Elsevier Science.
Carroll, J. B. (2005). The Three-Stratum Theory of Cognitive Abilities. In D. P. Flanagan
& P. L. Harrison (Eds.), Contemporary intellectual assessment- theories, tests,
and issues (2nd ed., pp. 69-76). New York: Guilford.
Cascio, W. F. (Ed.). (1991). Applied psychology in personnel management (4th ed.). Upper Saddle River: Prentice Hall.
Catron, D. W. & Thompson, C. C. (1979). Test-retest gains in WAIS scores after four
retest intervals. Journal of Clinical Psychology, 35, 352-357.
Cattell, R. B. (1971). Abilities: Their structure, growth and action. Boston: Houghton
Mifflin.
Cattell, R. B. (1987). Intelligence: Its structure, growth and action. Amsterdam: Elsevier.
Cattell, R. B. & Horn, J. L. (1978). A check on the theory of fluid and crystallized intelligence with description of new subtest designs. Journal of Educational Measurement, 15, 139-164.
202
Ceci, S. J. (1991). How much does schooling influence general intelligence and its cognitive components? A reassessment of the evidence. Developmental Psychology, 27, 703-722.
Ceci, S. J. & Williams, W. M. (1997). Schooling, intelligence, and income. American Psychologist, 52, 1051-1058.
Channel Wissenschaft. (2006). Menschen werden wieder dümmer. Med-dent-magazin
[On-line]. Verfügbar unter:
http://www.med-dent-magazin.de/archiv/2006/med-dent-magazin-07-06.pdf
[19.12. 2008].
Cohen, J. (1996). Explaining psychological statistics. Pacific Grove: Brooks.
Cole, J. C. & Randall, M. K. (2003). Comparing the cognitive ability models of Spearman,
Horn and Cattell, and Carroll. Journal of Psychoeducational Assessment, 21,
160-179.
Colom, R., Abad, F. J., Quiroga, M. Á., Shih, P. C. & Flores-Mendoza, C. (2008). Working
memory and intelligence are highly related constructs, but why? Intelligence,
36, 584-606.
Colvin, S. S. (1921). Intelligence and its measurement: A symposium-IV. Journal of Educational Psychology, 12, 136-139.
Conway, A. R. A., Cowan, N., Bunting, M. F., Therriault, D. J. & Minkoff, S. R. B. (2002).
A latent variable analysis of working memory capacity, short-term memory capacity, processing speed, and general fluid intelligence. Intelligence, 30, 163183.
Daniel, M. H. (1997). Intelligence testing: Status and trends. American Psychologist, 52,
1038-1045.
Daniel, M. H. (2007). ‘Scatter’ and the construct validity of FSIQ: Comment on Fiorello
et al. (2007). Applied Neuropsychology, 14, 291-295.
Das, J. P., Naglieri, J. A. & Kirby, J. R. (1994). Assessment of cognitive processes: the
PASS theory of intelligence. Needham Heights: Allyn & Bacon.
Daseking, M., Janke, N. & Petermann, F. (2006). Intelligenzdiagnostik. Monatsschrift
Kinderheilkunde, 154, 314-139.
Daseking, M., Lipsius, M., Petermann, F. & Waldmann, H.-C. (2008). Differenzen im
Intelligenzprofil bei Kindern mit Migrationshintergrund: Befunde zum HAWIKIV. Kindheit und Entwicklung, 17, 76-89.
Daseking, M. & Petermann, F. (2004). Testbesprechung Hamburg-WechslerIntelligenztest für Kinder III (HAWIK-III). Kindheit und Entwicklung, 13, 190-194.
Daseking, M., Petermann, F. & Petermann, U. (in Druck). HAWIK-IV: Grundlagen und
Auswertungsstrategien. In F. Petermann & M. Daseking (Hrsg.), Fallbuch zum
HAWIK-IV. Göttingen: Hogrefe.
Daseking, M., Petermann, F. & Waldmann, H.-C. (2008). Der allgemeine Fähigkeitsindex (AFI) – eine Alternative zum Gesamt-Intelligenzquotienten (G-IQ) des HAWIK-IV? Diagnostica, 54, 211-220.
Daseking, M., Petermann, U. & Petermann, F. (2007). Intelligenzdiagnostik mit dem
HAWIK-IV. Kindheit und Entwicklung, 16, 250-259.
203
Davidson, J. E. & Downing, C. L. (2000). Contemporary models of intelligence. In R. J.
Sternberg (Ed.), Handbook of intelligence (pp. 33-49). Cambridge: Cambridge
University.
Dearborn, W. F. (1921). Intelligence and its measurement: A symposium-XII. Journal of
Educational Psychology, 12, 210-212.
Deary, I. J. & Smith, P. (2004). Intelligence research and assessment in the United Kingdom. In R. J. Sternberg (Ed.), International handbook of intelligence (pp. 1-48).
New York: Cambridge University.
Deimann, P. & Kastner-Koller, U. (2008). Testbesprechung HAWIK-IV. Zeitschrift für
Entwicklungspsychologie und Pädagogische Psychologie, 40, 161-165.
Demetriou, A., Mouyi, A. & Spanoudis, G. (2008). Modelling the structure and development of g. Intelligence, 36, 437-454.
Diehl, J. M. & Staufenbiehl, T. (2007). Statistik mit SPSS für Windows. Version 15. Frankfurt/Main: Klotz.
Donders, J. (1996). Cluster subtypes in the WISC-III standardization sample: Analysis of
factor index scores. Psychological Assessment, 8, 312-318.
Donders, J. & Janke, K. (2008). Criterion validity of the Wechsler Intelligence Scale for
Children-Fourth Edition after pediatric traumatic brain injury. Journal of the
International Neuropsychological Society, 14, 651-655.
Donner, S. (2006). Forscher schlagen Alarm: In den Industrieländern ist der IQ auf Talfahrt. Bild der Wissenschaft [On-line]. Verfügbar unter:
http://www.wissenschaft.de/wissenschaft/hintergrund/253016.html [19.12.
2008].
Dumont, R. & Willis, J. O. (2004). Use of the Tellegen and Briggs formula to determine
the Dumont-Willis Indexes (DWI-1 & DWI-2) for the WISC-IV [On-line]. Verfügbar unter: http://alpha.fdu.edu/psychology/WISCIV_DWI.htm [19.12. 2008].
Edwards, A. J. (1994). David Wechsler (1896-1981). In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 1134-1143). New York: Macmillan.
Eggert, D. (1975). Hannover Wechsler Intelligenztest für das Vorschulalter. Deutsche
Bearbeitung der Wechsler Preschool and Promary Scale of Intelligence. Bern:
Huber.
Eid, M. & Petermann, F. (2006). Aufgaben, Zielsetzungen und Strategien der Psychologischen Diagnostik. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik (S. 15-25). Göttingen: Hogrefe.
Epstein, M. H., Mooney, P., Ryser, G. & Pierce, C. D. (2004). Validity and reliability of
the Behavioral and Emotional Rating Scale (2nd ed.): Youth Rating Scale. Research on Social Work Practice, 14, 358-367.
Esters, I. G., Ittenbach, R. F. & Han, K. (1997). Today's IQ tests: Are they really better
than their historical predecessors. School Psychology Review, 26, 211-223.
Evans, J. J., Floyd, R. G., McGrew, K. S. & Leforgee, M. H. (2002). The relations between
measures of Cattell-Horn-Carroll (CHC) cognitive abilities and reading achievement during childhood and adolescence. School Psychology Review, 31, 246262.
204
Eysenck, H. J. (1939). Review of Thurstone`s Primary Mental Abilities. British Journal of
Falk, R. F., Silverman, L. K. & Moran, D. M. (2004). Using two WISC-IV Indices to identify
the gifted [On-line]. Verfügbar unter:
http://www.gifteddevelopment.com/PDF_files/WISC-IVIndices.pdf [19.12.
2008].
Fiorello, C. A., Hale, J. B., Holdnack, J. A., Kavanagh, J. A., Terrell, J. & Long, L. (2007).
Interpreting intelligence test results for children with disabilities: Is global intelligence relevant? Applied Neuropsychology, 14, 2-12.
Fiorello, C. A., Hale, J. B., McGrath, M., Ryan, K. & Quinn, S. (2001). IQ interpretation
for children with flat and variable test profiles. Learning and Individual Differences, 13, 115-125.
Fisseni, H.-J. (2004). Lehrbuch der psychologischen Diagnostik (3., überarbeitete u. erweiterte Aufl.). Göttingen: Hogrefe.
Flanagan, D. P. & Kaufman, A. S. (2004). Essentials of WISC-IV Assessment. Hoboken:
Wiley & Sons.
Flanagan, D. P. & McGrew, K. S. (1998). Interpreting intelligence tests from contemporary Gf-Gc theory: Joint confirmatory factor analysis of the WJ-R and KAIT in a
non-white sample. Journal of School Psychology, 36, 151-182.
Flanagan, D. P., McGrew, K. S. & Ortiz, S. O. (2000). The Wechsler Intelligence Scales
and Gf-Gc theory: A contemporary approach to interpretation. Boston: Allyn &
Bacon.
Flanagan, D. P., Ortiz, S. O., Alfonso, V. C. & Mascolo, J. T. (2002). The achievement test
desk reference (ADTR): Comprehensive assessment and learning disabilities.
Boston: Allyn & Bacon.
Floyd, R. G., Evans, J. J. & McGrew, K. S. (2003). Relations between measures of CattellHorn-Carroll (CHC) cognitive abilities and mathematics achievement across the
school age years. Psychology in the Schools, 40, 155-171.
Flynn, J. R. (1984). The mean IQ of Americans: Massive gains 1932 to 1978. Psychological Bulletin, 95, 29-51.
Flynn, J. R. (1999). Searching for justice: The discovery of IQ gains over time. American
Psychologist, 54, 5-20.
Flynn, J. R. (2007). What is intelligence? Beyond the Flynn effect. Cambridge: Cambridge University.
Frank, G. (1983). The Wechsler enterprise. An assessment of the development, structure, and use of the Wechsler Tests of Intelligence. Oxford: Pergamon.
Freberg, M. E., Vandiver, B. J., Watkins, M. W. & Canivez, G. L. (2008). Significant factor
score variability and the validity of the WISC-III Full Scale IQ in predicting later
academic achievement. Applied Neuropsychology, 15, 131-139.
Freeman, F. N. (1921). Intelligence and its measurement: A symposium-III. Journal of
Fritz, A., Preuß, U., Ricken, G. & Schuck, K. D. (2001). Hannover-WechslerIntelligenztest im Vorschulalter- Revision (HAWIVA-R). Bern: Huber.
205
Fry, A. F. & Hale, S. (1996). Processing speed, working memory, and fluid intelligence:
Evidence for a developmental cascade. Psychological Science, 7, 237-241.
Fry, A. F. & Hale, S. (2000). Relationships among processing speed, working memory,
and fluid intelligence in children. Biological Psychology, 54, 1-34.
Funke, J. & Vaterrodt-Plünnecke, B. (2004). Was ist Intelligenz? (2. Aufl.). München:
Beck.
Gienger, C., Petermann, F. & Petermann, U. (2008). Wie stark hängen die HAWIK-IVBefunde vom Bildungsstand der Eltern ab? Kindheit und Entwicklung, 17, 90-98.
Gignac, G. E. (2006). Evaluating subtest 'g' saturation levels via the single traitcorrelated uniqueness (STCU) SEM approach: Evidence in favor of crystallized
subtests as the best indicators of 'g'. Intelligence, 34, 29-46.
Glutting, J. J., McDermott, P. A. & Konold, T. R. (1997). Ontology, structure, and diagnostic benefits of a normative subtest taxonomy from the WISC-III standardization sample. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (pp. 349-372). New
York: Guilford.
Glutting, J. J., Watkins, M. W. & Youngstrom, E. A. (2003). Multifactored and crossbattery ability assessments: Are they worth the effort? In C. R. Reynolds & R.
W. Kamphaus (Eds.), Handbook of psychological and educational assessment of
children: Intelligence, aptitude, and achievement (2nd ed., pp. 343-377). New
York: Guilford.
Goleman, D. (1995). Emotional intelligence. New York: Bantam.
Grob, A., Petermann, F., Lipsius, M., Costan-Dorigon, J., Petermann, U. & Daseking, M.
(2008). Differences in Swiss and German children`s intelligence as measured by
the HAWIK-IV. Swiss Journal of Psychology, 67, 113-118.
Groth-Marnat, G. (Ed.). (1997). Handbook of psychological assessment (3rd ed.). New
York: Wiley.
Guilford, J. P. & Fruchter, B. (1978). Fundamental statistics in psychology and education (6th ed.). New York: McGraw-Hill.
Guthke, J. (1999). Intelligenzdaten. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (Bd. 4, S. 396-412). München: Beltz.
Häcker, H., Leutner, D. & Amelang, M. (Hrsg.). (1998). Standards für pädagogisches
und psychologisches Testen. Bern: Huber.
Haggerty, M. E. (1921). Intelligence and its Measurement: A symposium-XIII. Journal of
Hagmann-von Arx, P., Meyer, C. S. & Grob, A. (2008). Assessing intellectual giftedness
with the WISC-IV and the IDS. Zeitschrift für Psychologie, 216, 172-179.
Hale, J. B., Fiorello, C. A., Kayanagh, J. A., Hoeppner, J. B. & Gaither, R. A. (2001). WISCIII predictors of academic achievement for children with learning disabilities:
Are global and factor scores comparable? School Psychology Quarterly, 16, 3155.
Hall, J. D., Howerton, D. L. & Bolin, A. U. (2005). The use of testing technicians: Critical
issues for professional psychology. International Journal of Testing, 5, 357-375.
206
Hardesty, F. P. & Priester, H. J. (1956). Hamburg-Wechsler-Intelligenztest für Kinder
(HAWIK). Bern: Huber.
Heitz, R. P., Unsworth, N. & Engle, R. W. (2005). Working memory capacity, attention
control, and fluid intelligence. In O. Wilhelm & R. W. Engle (Eds.), Handbook of
understanding and measuring intelligence (pp. 61-77). Thousand Oaks: Sage.
Henmon, V. A. C. (1921). Intelligence and its measurement: A symposium-VIII. Journal
of Educational Psychology, 12, 195-198.
Holling, H., Preckel, F. & Vock, M. (2004). Intelligenzdiagnostik. Göttingen: Hogrefe.
Holocher-Ertl, S., Kubinger, K. D. & Hohensinn, C. (2008). Hochbegabungsdiagnostik:
HAWIK-IV und AID 2. Kindheit und Entwicklung, 17, 99-106.
Horn, J. L. (1985). Remodeling old models of intelligence. In B. B. Wolman (Ed.), Handbook of intelligence: Theories, measurement, and applications (pp. 267-300).
New York: Wiley.
Horn, J. L. (1988). Thinking about human abilities. In J. R. Nesselroade (Ed.), Handbook
of mulitivariate psychology (pp. 267-300). New York: Academic.
Horn, J. L. (1991). Measurement of intellectual capabilities: a review of theory. In K. S.
McGrew, J. K. Werder & R. W. Woodcock (Eds.), Woodcock-Johnson Technical
Manual. Allen: DLM Teaching.
Horn, J. L. (1994). Theory of fluid and crystallized intelligence. In R. J. Sternberg (Ed.),
Encyclopedia of human intelligence (pp. 443-451). New York: Macmillan.
Horn, J. L. & Blanksen, N. (2005). Foundations for better understanding of cognitive
ablities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd ed., pp. 41-68). New York: Guilford.
Horn, J. L. & Cattell, R. B. (1966). Refinement and test of the theory of fluid and crystallized general intelligences. Journal of Educational Psychology, 57, 253-270.
Horn, J. L. & Cattell, R. B. (1967). Age differences in fluid and crystallized intelligence.
Acta Psychologica, 26, 107-129.
Horn, J. L. & McArdle, J. J. (2007). Understanding human intelligence since Spearman.
In R. Cudeck & R. MacCallum (Eds.), Factor analysis at 100 (pp. 205-248). Mahwah: Erlbaum.
Horn, J. L. & Noll, J. (1994). A system for understanding cognitive capabilities: A theory
and the evidence on which it is based. In D. K. Detterman (Ed.), Current topics in
human intelligence (Vol. 4, pp. 151-203). Norwood: Ablex.
Horn, J. L. & Noll, J. (1997). Human cognitive capabilities: Gf-gc theory. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (pp. 53-91). New York: Guilford.
Humphreys, L. G. (1962). The organization of human abilities. American Psychologist,
17, 475-483.
International Test Comission. (2000). International guidelines for test use [On-line].
Verfügbar unter: http:// www.intestcom.org/test_use_full.htm [19.12.2008].
International Test Commission, Commission Internationale des Tests & Berufsverband
Deutscher Psychologinnen und Psychologen. (2001). Internationale Richtlinien
207
für die Testanwendung. Version 2000. Deutsche Fassung [On-line]. Verfügbar
unter: http://ftp.zpid.de/pub/tests/itc_richtlinien.pdf [19.12.2008].
Jacobs, C., Heubrock, D. & Petermann, F. (2002). Testinformation: Hamburg-WechslerIntelligenztest für Kinder (HAWIK-III). Diagnostica, 48, 159-162.
Jäger, A. O. (1986). Validität von Intelligenztests. Diagnostica, 32, 272-289.
Jäger, R. S. & Petermann, F. (1999). Einleitung. In R. S. Jäger & F. Petermann (Hrsg.),
Psychologische Diagnostik (4. Aufl., S. 11-13). Weinheim: Beltz.
Janke, K. M. & Donders, J. (2008). Sensitivity of the WISC-IV to pediatric traumatic
brain injury. Clinical Neuropsychologist, 22, 446.
Jensen, A. R. (1972). Genetics and education. London: Methuen.
Jensen, A. R. (1998). The g factor: The science of mental ability. Westport: Praeger.
Jensen, A. R. (2002). Psychometric g: Definition and substantiation. In R. J. Sternberg &
E. L. Grigorenko (Eds.), The general factor of intelligence. How general is it? (pp.
39-53). Mahwah: Erlbaum.
Jensen, A. R. (2004). Obituary. Intelligence, 32, 1-5.
Johnson Grados, J. & Russo-Garcia, K. A. (1999). Comparison of the Kaufman Brief Intelligence Test and the Wechsler Intelligence Scale for Children—Third Edition
in economically disadvantaged African American youth. Journal of Clinical Psychology, 55, 1063-1071.
Kähler, W. M. (2008). Statistische Datenanalyse: Verfahren verstehen und mit SPSS
gekonnt einsetzen (5. Aufl.). Wiesbaden: Vieweg.
Kail, R. (2000). Speed of Information Processing: Developmental change and links to
intelligence. Journal of School Psychology, 38, 51-61.
Kail, R. & Salthouse, T. A. (1994). Processing speed as a mental capacity. Acta Psychologica, 86, 199-225.
Kamphaus, R. W. (1993). Clinical assessment of children`s intelligence. Boston: Allyn &
Bacon.
Kamphaus, R. W. (Ed.). (2005). Clinical assessment of child and adolescent intelligence
(2nd ed.). New York: Springer.
Kamphaus, R. W., Winsor, A. P., Rowe, E. W. & Kim, F. (2005). A history of intelligence
test interpretation. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment (2nd ed., pp. 23-38). New York: Guilford.
Kanaya, T., Ceci, S. J. & Scullin, M. H. (2005). Age differences within secular IQ trends:
An individual growth modeling approach. Intelligence, 33, 613-621.
Kaufman, A. S. (1992). Evaluation of the WISC-III and WPPSI-R for gifted children. Roeper Review, 14, 154-158.
Kaufman, A. S. (1993). King WISC the Third assumes the throne. Journal of School Psychology, 31, 345-354.
Kaufman, A. S. (1994a). Intelligent testing with the WISC-III. New York: Wiley.
Kaufman, A. S. (1994b). Practice effects. In R. J. Sternberg (Ed.), Encyclopedia of human
intelligence (Vol. 2, pp. 828-833). New York: Macmillan.
208
Kaufman, A. S., Flanagan, D. P., Alfonso, V. C. & Mascolo, J. T. (2006). Test Review:
Wechsler Intelligence Scale for Children, Fourth Edition (WISC-IV). Journal of
Psychoeducational Assessment, 24, 278-295.
Kaufman, A. S. & Kaufman, N. L. (2004). Kaufman Assessment Battery for Children,
Second Edition (KABC-II). Circle Pines: AGS.
Kaufman, A. S. & Lichtenberger, E. O. (2006). Assessing adolescent and adult intelligence (3rd ed.). Hoboken: Wiley.
Keith, T. Z., Fine, J. G., Taub, G. E., Reynolds, M. R. & Kranzler, J. H. (2006). Higher order, multisample, confirmatory factor analysis of the Wechsler Intelligence
Scale for Children - Fourth Edition: What does it measure? School Psychology
Review, 35, 108-127.
Keith, T. Z. & Witta, E. L. (1997). Hierarchical and cross-age confirmatory factor analysis
of the WISC-III: What does it measure? School Psychology Quarterly, 12, 89107.
Konold, T. R., Kush, J. C. & Canivez, G. L. (1997). Factor replication of the WISC-III in
three independent samples of children receiving special education. Journal of
Psychoeducational Assessment, 15, 123-137.
Kubinger, K. D. (2006). Psychologische Leistungstests. In F. Petermann & M. Eid (Hrsg.),
Handbuch der Psychologischen Diagnostik (S. 118-126). Göttingen: Hogrefe.
Lehrl, S. (2005). Mehrfachwahl-Wortschatz-Intelligenztest MWT-B (5. Aufl.). Balingen:
Spitta.
Lepach, A. & Petermann, F. (2007). Battery of Assessment in Children - Merk- und Lernfähigkeitstest (BASIC-MLT). Bern: Huber.
Lepach, A., Petermann, F. & Schmidt, S. (2008). Comparison of the BASIC-Memory and
Learning Test and the WISC-IV under developmental aspects. Zeitschrift für Psychologie, 216, 180-186.
Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim:
Beltz.
Linger, M. L., Ray, G. E., Zachar, P., Underhill, A. T. & Lobello, S. G. (2007). Decreasing
scoring errors on Wechsler scale vocabulary, comprehension, and similarities
subtests: A preliminary study. Psychological Reports, 101, 661-669.
Lipsius, M., Petermann, F. & Daseking, M. (2008). Wie beeinflussen Testleiter die HAWIK-IV-Befunde? Kindheit und Entwicklung, 17, 107-117.
Loe, S. A., Kadlubek, R. M. & Marks, W. J. (2007). Administration and scoring errors on
the WISC-IV among graduate student examiners. Journal of Psychoeducational
Assessment, 25, 237-247.
Lynn, R. (2009). What has caused the Flynn effect? Secular increases in the Development Quotients of infants. Intelligence, 37, 16-24.
Lynn, R. & Harvey, J. (2008). The decline of the world`s IQ. Intelligence, 36, 112-120.
Matarazzo, J. D. (1990). Psychological assessment versus psychological testing: Validation from Binet to the school, clinic, and courtroom. American Psychologist, 45,
999-1017.
209
Matarazzo, R. G., Wiens, A. N., Matarazzo, J. D. & Manaugh, T. S. (1973). Test-retest
reliability of the WAIS in a normal population. Journal of Clinical Psychology, 29,
194-197.
Mayer, J. D. & Salovey, P. (1993). The intelligence of emotional intelligence. Intelligence, 17, 433-442.
Mayes, S. D. & Calhoun, S. L. (2004). Similarities and differences in Wechsler Intelligence Scale for Children – Third Edition (WISC-III) profiles: Support for subtest
analysis in clinical referrals. The Clinical Neuropsychologist, 18, 559-572.
McCaffrey, R. J., Duff, K. & Westervelt, H. J. (2000). Practitioner’s guide to evaluation
change with intellectual assessment instruments. New York: Kluwer.
McDermott, P. A., Fantuzzo, J. W. & Glutting, J. J. (1990). Just say no to subtest analysis: A critique on Wechsler theory and practice. Journal of Psychoeducational
Assessment, 8, 290-302.
McFie, J. (1975). Assessment of organic intellectual impairment. Oxford: Academic.
McGrew, K. S. (1997). Analysis of the major intelligence batteries according to a proposed comprehensive Gf-Gc framework. In D. P. Flanagan, J. L. Genshaft & P. L.
Harrison (Eds.), Contemporary Intellectual Assessment. Theories, tests, and issues (pp. 151-174). New York: Guilford
McGrew, K. S. (2005). The Cattell-Horn-Carroll Theory of Cognitive Abilities: Past,
present, and future. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd ed., pp. 136-182). New
York: Guilford.
McGrew, K. S. & Flanagan, D. P. (1998). The Intelligence Test Desk Reference (ITDR): GfGc cross-battery assessment. Boston: Allyn & Bacon.
McGrew, K. S., Flanagan, D. P., Keith, T. Z. & Vanderwood, M. (1997). Beyond g: The
impact of Gf-Gc specific cognitive abilities research on the future use and intepretation of intelligence test batteries in the schools. School Psychology Review, 26, 189-210.
McGrew, K. S. & Woodcock, R. W. (2001). Technical Manual. Woodcock-Johnson III.
Itasca: Riverside.
Moosbrugger, H. & Höfling, V. (2006). Testdurchführung und -auswertung. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik (S. 449-456).
Göttingen: Hogrefe.
Naglieri, J. A. (1999). Essentials of CAS assessment. New York: Wiley.
Naglieri, J. A. & Das, J. P. (2002). Practical implications of general intelligence and PASS
cognitive processes. In R. J. Sternberg & E. L. Grigorenko (Eds.), The general factor of intelligence. How general is it? (pp. 55-84). Mahwah: Erlbaum.
Naglieri, J. A. & Paolitto, A. W. (2005). Ipsative comparisons of WISC-IV index scores.
Applied Neuropsychology, 12, 208-211.
Neisser, U. (1979). The concept of intelligence. In R. J. Sternberg & D. K. Detterman
(Eds.), Human intelligence: Perspectives on its theory and measurement. Norwood: Ablex.
210
Neisser, U., Boodoo, G., Bouchard Jr, T. J., Boykin, A. W., Brody, N., Ceci, S. J.et al.
(1996). Intelligence: Knowns and unknowns. American Psychologist, 51, 77-101.
Neubauer, A. C. & Knorr, E. (1998). Three paper-and-pencil tests for speed of information processing: Psychometric properties and correlations with intelligence. Intelligence, 26, 123-151.
Newman, T. M. (2008). Assessment of giftedness in school-age children using measures
of intelligence or cognitive abilities. In S. I. Pfeiffer (Ed.), Handbook of giftedness in children (pp. 161-176). New York: Springer.
O`Shea, A. G., Harel, B. & Fein, D. (2002). Neuropsychological assessment of the preschool child. In S. J. Segalowitz & I. Rapin (Eds.), Handbook of Neuropsychology
(2 ed., Vol. 8, pp. 249-280). Amsterdam: Elsevier.
Perlow, R., Jattuso, M. & Moore, D. D. (1997). Role of verbal working memory in complex skill acquisition. Human Performance, 10, 283-302.
Petermann, F. (2006). Intelligenzdiagnostik. Kindheit und Entwicklung, 15, 71-75.
Petermann, F. & Lepach, A. C. (2007). Klinische Kinderneuropsychologie. Kindheit und
Entwicklung, 16, 1-6.
Petermann, F. & Petermann, U. (2008a). Hamburg-Wechsler-Intelligenztest für KinderIV (HAWIK-IV) (2. ergänzte Aufl.). Bern: Huber.
Petermann, F. & Petermann, U. (2008b). HAWIK-IV. Kindheit und Entwicklung, 17, 7175.
Peterson, J. (1921). Intelligence and its measurement: A symposium-IX. Journal of Educational Psychology, 12, 198-201.
Petrill, A. (2005). Behavioral genetics and intelligence. In O. Wilhelm & R. W. Engle
(Eds.), Handbook of understanding and measuring intelligence (pp. 165-176).
Thousand Oaks: Sage.
Pfeiffer, S. I., Reddy, L. A., Kletzel, J. E., Schmelzer, E. R. & Boyer, L. M. (2000). The practitioner's view of IQ testing and profile analysis. School Psychology Quarterly,
15, 376-385.
Phelps, L., McGrew, K. S., Knopik, S. N. & Ford, L. (2005). The general (g), broad, and
narrow CHC stratum characteristics of the WJ III and WISC-III tests: A confirmatory cross-battery investigation. School Psychology Quarterly, 20, 66-88.
Piaget, J. (1984). Psychologie der Intelligenz (8. Aufl. in der vollst. überarbeitete Übers.
der 2. Aufl.). Stuttgart: Klett-Cotta.
Pintner, R. (1921). Intelligence and its measurement: A symposium-V. Journal of Educational Psychology, 12, 139-143.
Platt, T. L., Zachar, P., Ray, G. E., Underhill, A. T. & Lobello, S. G. (2007). Does Wechsler
Intelligence Scale administration and scoring proficiency improve during assessment training? Psychological Reports, 100, 547-555.
Preckel, F. (2003). Diagnostik intellektueller Hochbegabung. Bern: Hogrefe.
Prenzel, M., Baumert, J., Blum, W., Lehmann, R., Leutner, D., Neubrand, M.et al.
(Hrsg.). (2004). PISA 2003. Der Bildungsstand der Jugendlichen in Deutschland Ergebnisse des zweiten internationalen Vergleichs. Münster: Waxmann.
211
Preusche, I. & Leiss, U. (2003). Intelligenztests für Kinder. HAWIK-III, AID-2 und K-ABC
im Vergleich. Report Psychologie, 28, 12-26.
Prifitera, A. (1994). Wechsler scales of intelligence. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 1136-1143). New York: Macmillan.
Prigatano, G. P., Gray, J. A. & Gale, S. D. (2008). Individual case analysis of processing
speed difficulties in children with and without traumatic brain injury. Clinical
Neuropsychologist, 22, 603-619.
Quereshi, M. Y. (1968). Practice effects on the WISC subtest scores and IQ estimates.
Journal of Clinical Psychology, 24, 79-85.
Raiford, S. E., Weiss, L. G., Rolfhus, E. L. & Coalson, D. (2005). Technical Report # 4
General Ability Index. San Antonio: Psychological Corporation.
Raven, J., Raven, J. C. & Court, J. H. (1998). Manual for Raven`s progressive matrices
and vocabulary scales. Oxford: Oxford Psychologists.
Reddon, J. R., Vander Veen, S. & Reddon, J. E. (2004). Seemingly anomalous Full Scale
IQ scores on the WAIS-III and the WISC-III. Current Psychology, 23, 86-94.
Reddon, J. R., Whippler, S. M. & Reddon, J. E. (2007). Seemingly anomalous WISC-IV
Full Scale IQ scores in the American and Canadian standardization samples.
Current Psychology, 26, 60-69.
Renner, G. (2008). Neuere Testverfahren. Praxis der Kinderpsychologie und Kinderpsychiatrie, 57, 154-162.
Renner, G. & Fricke, T. (2001). Der Hamburg-Wechsler-Intelligenztest für Kinder - dritte
Auflage (HAWIK-III). Report Psychologie, 26, 460-477.
Reynolds, C. R. & Kaufman, A. S. (1990). Assessment of childrens intelligence with the
Wechsler Intelligence Scale for Children - Revised (WISC-R). In C. R. Reynolds &
R. W. Kamphaus (Eds.), Handbook of psychological and educational assessment
of children: Intelligence and achievement (pp. 127-165). New York: Guilford.
Riccio, C. A., Cohen, M. J., Hall, J. & Ross, C. M. (1997). The third and fourth factors of
the WISC-III: What they don't measure. Journal of Psychoeducational Assessment, 15, 27-39.
Ricken, G., Fritz, A., Schuck, K. D. & Preuß, U. (2007). Hannover-WechslerIntelligenztest für Kinder im Vorschulalter III (HAWIVA-III). Bern: Huber.
Rodgers, J. L. (1998). A critique of the Flynn Effect: Massive IQ gains, methodological
artifacts, or both? Intelligence, 26, 337-356.
Roid, G. H. (2003). Stanford-Binet Intelligence Scales, Fifth Edition. Itasca: Riverside.
Roid, G. H. & Pomplun, M. (2005). Interpreting the Stanford-Binet Intelligence Scales,
Fifth Edition. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary Intellectual
Assessment (2nd ed., pp. 325-343). New York: Guilford.
Russell, E. W. (1992). Comparison of two methods for converting the WAIS to the
WAIS-R. Journal of Clinical Psychology, 48, 355-359.
Sabatino, D. A., Spangler, R. S. & Vance, H. B. (1995). The relationship between the
Wechsler Intelligence Scale for Children-Revised and the Wechsler Intelligence
Scale for Children-III scales and subtests with gifted children. Psychology in the
Schools, 32, 18-23.
212
Saß, H., Wittchen, H.-U., Zaudig, M. & Houben, I. (2003). Diagnostisches und Statistisches Manual psychischer Störungen – Textrevision (DSM-IV-TR). Göttingen:
Hogrefe.
Sattler, J. M. (2001). Assessment of children: Cognitive applications (4th ed.). San Diego:
Author.
Schaarschmidt, U., Ricken, G., Kieschke, U. & Preuß, U. (2004). Bildbasierter Intelligenztest für das Vorschulalter (BIVA). Göttingen: Hogrefe.
Schatz, J., Kramer, J. H., Ablin, A. & Matthay, K. K. (2000). Processing speed, working
memory, and IQ: A developmental model of cognitive deficits following cranial
radiation therapy. Neuropsychology, 14, 189-200.
Schlittgen, R. (2004). Statistische Auswertungen: Standardmethoden und Alternativen
mit ihrer Durchführung in R. München: Oldenbourg.
Schorr, A. (1995). Stand und Perspektiven diagnostischer Verfahren in der Praxis. Ergebnisse einer repräsentativen Befragung westdeutscher Psychologen. Diagnostica, 41, 3-20.
Scott, K. A. (2006). Is the GAI a good short form of the WISC-IV?. Marshall University
Libraries.
Sheppard, L. D. & Vernon, P. A. (2007). Intelligence and speed of informationprocessing: A review of 50 years of research. Personality and Individual Differences, 44, 535-551.
Siders, A., Kaufman, A. S. & Reynolds, C. R. (2006). Do practice effects on Wechsler's
Performance subtests relate to children's general ability, memory, learning ability, or attention? Applied Neuropsychology, 13, 242-250.
Sparrow, S. S. & Gurland, S. T. (1998). Assessment of gifted children with the WISC-III.
In A. Prifitera & D. H. Saklofske (Eds.), WISC-III clinical use and interpretation
(pp. 59-72). San Antonio: Harcourt.
Sparrow, S. S., Pfeiffer, S. I. & Newman, T. M. (2005). Assessment of children who are
gifted with the WISC-IV. In A. Prifitera, D. H. Saklofske & L. G. Weiss (Eds.),
WISCV-IV clinical use and interpretation - scientist-practitioner perspectives (1st
ed., pp. 281-299). San Diego: Elsevier.
Spearman, C. (1904). ‘General Intelligence’, objectively determined and measured.
American Journal of Psychology, 15, 201-293.
Spearman, C. (1927). The abilities of man: Their nature and measurement. New York:
Macmillan.
Spearman, C. (1939). Thurstone`s work reworked. Journal of Educational Psychology,
30, 1-16.
Stankov, L. (2005). g Factor. Issues of design and interpretation. In O. Wilhelm & R. W.
Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 279293). Thousand Oaks: Sage.
Statistisches Bundesamt. (2007). Allgemeinbildende Schulen. Schüler/innen nach Schularten [On-line]. Verfügbar unter:
http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Conte
nt/Statistiken/BildungForschungKultur/Schulen/Tabellen/Content75/Allgemein
bildendeSchulenSchulartenSchueler,templateId=renderPrint.psml [19.12.2008].
213
Steck, P. (1997). Psychologische Testverfahren in der Praxis. Ergebnisse einer Umfrage
unter Testanwendern. Diagnostica, 43, 267-284.
Stern, W. (1911). Differentielle Psychologie in ihren methodischen Grundlagen. Leipzig:
Barth.
Sternberg, R. J. (1985a). Human intelligence: The model is the message. Science, 230,
1111-1118.
Sternberg, R. J. (1985b). Implicit theories of intelligence, creativity, and wisdom. Journal of Personality & Social Psychology, 49, 607-627.
Sternberg, R. J. (1997a). The concept of intelligence and its role in lifelong learning and
success. American Psychologist, 52, 1030-1037.
Sternberg, R. J. (1997b). Successful intelligence. New York: Plume.
Sternberg, R. J. (2000a). The ability is not general, and neither are the conclusions. Behavioral and Brain Sciences, 23, 697-698.
Sternberg, R. J. (2000b). The concept of intelligence. In R. J. Sternberg (Ed.), Handbook
of intelligence. New York: Cambridge University.
Sternberg, R. J. (2002). Beyond g: The theory of successful intelligence. In R. J. Sternberg & E. L. Grigorenko (Eds.), The general factor of intelligence: How general is
it? (pp. 447-479). Mahwah: Erlbaum.
Sternberg, R. J. (2004). North american approaches to intelligence. In R. J. Sternberg
(Ed.), International handbook of intelligence (pp. 411-444). Cambridge: Cambridge University.
Sternberg, R. J., Conway, B. E., Ketron, J. L. & Bernstein, M. (1981). People's conceptions of intelligence. Journal of Personality & Social Psychology, 41, 37-55.
Sternberg, R. J. & Detterman, D. K. (Eds.). (1986). What is intelligence? Contemporary
viewpoints on its nature and definition. Norwood: Ablex.
Sternberg, R. J. & Grigorenko, E. L. (Eds.). (2002). General factor of intelligence: How
general is it? Mahwah: Erlbaum.
Strauss, E., Spreen, O. & Hunter, M. (2000). Implications of test revisions for research.
Psychological Assessment, 12, 237-244.
Sundet, J. M., Barlaug, D. G. & Torjussen, T. M. (2004). The end of the Flynn effect? A
study of secular trends in mean intelligence test scores of Norwegian conscripts
during half a century. Intelligence, 32, 349-362.
Swanson, H. L. (1996). Individual and age-related differences in children’s working
memory. Memory & Cognition, 24, 70-82.
Teasdale, T. W. & Owen, D. R. (1989). Continuing secular increases in intellgence and a
stable prevalence of high intelligence levels. Intelligence, 13, 255-262.
Teasdale, T. W. & Owen, D. R. (2008). Secular declines in cognitive test scores: A reversal of the Flynn Effect. Intelligence, 36, 121-126.
Tellegen, P. J., Laros, J. A. & Petermann, F. (2007). SON-R 2½-7 Non-verbaler Intelligenztest. Testmanual mit deutscher Normierung und Validierung. Göttingen:
Hogrefe.
214
Terman, L. M. (1921). Intelligence and its measurement: A symposium-II. Journal of
Tewes, U. (1983). Hamburg-Wechsler-Intelligenztest für Kinder, Revision 1983 (HAWIKR). Bern: Huber.
Tewes, U. (1991). Hamburg-Wechsler-Intelligenztest für Erwachsene - Revision (HAWIER). Bern: Huber.
Tewes, U., Rossmann, P. & Schallberger, U. (1999). Hamburg-Wechsler-Intelligenztest
für Kinder (HAWIK-III). Bern: Huber.
Tewes, U., Rossmann, P. & Schallberger, U. (2002). Hamburg-Wechsler-Intelligenztest
für Kinder - dritte Auflage : HAWIK-III. Bern: Huber.
Tewes, U. & Titze, I. (1994). Hamburg-Wechsler Intelligenztest für Kinder, Revision
1983. HAWIK-R. Handbuch und Testanweisung. Bern: Huber.
Thompson, A. P. & Molly, K. (1993). The stability of WAIS-R IQ for 16-year old students
retested after 3 and 8 months. Journal of Clinical Psychology, 49, 891-898.
Thorndike, E. L. (1921). Intelligence and its measurement: A symposium-I. Journal of
Thurstone, L. L. (1921). Intelligence and its measurement: A symposium-X. Journal of
Thurstone, L. L. (1938). Primary mental abilities. Chicago: University of Chicago.
Thurstone, L. L. & Thurstone, T. G. (1941). Factorial studies of intelligence. Chicago:
University of Chicago.
Titze, I. & Tewes, U. (1994). Messung der Intelligenz bei Kindern mit dem HAWIK-R.
Bern: Huber.
Tulsky, D. S. & Price, L. R. (2003). The joint WAIS-III and WMS-III factor structure: Development and cross-validation of a six-factor model of cognitive functioning.
Psychological Assessment, 15, 149-162.
Vernon, P. A. (1969). Intelligence and cultural environment. London: Methuen.
Vock, M. & Holling, H. (2006). Intelligenzdiagnostik. In F. Petermann & M. Eid (Hrsg.),
Handbuch der psychologischen Diagnostik (S. 494-502). Göttingen: Hogrefe.
von Aster, M., Neubauer, A. & Horn, R. (2006). Wechsler Intelligenztest für Erwachsene
(WIE). Frankfurt: Harcourt.
Waldmann, H.-C. (2008). Kurzformen des HAWIK-IV: Statistische Bewertung in verschiedenen Anwendungsszenarien. Diagnostica, 54, 202-210.
Watkins, M. W. (2005). Diagnostic validity of Wechsler subtest scatter. Learning Disabilities: A Contemporary Journal, 3, 18-27.
Watkins, M. W. (2006). Orthogonal higher order structure of the Wechsler Intelligence
Scale for Children - Fourth Edition. Psychological Assessment, 18, 123-125.
Watkins, M. W. & Canivez, G. L. (2004). Temporal stability of WISC-III subtest composite: Strengths and weaknesses. Psychological Assessment, 16, 133-138.
Watkins, M. W. & Kush, J. C. (1994). Wechsler subtest analysis: The right way, the
wrong way, or no way? School Psychology Review, 23, 640-651.
215
Watkins, M. W., Lei, P.-W. & Canivez, G. L. (2007). Psychometric intelligence and
achievement: A cross-lagged panel analysis. Intelligence, 35, 59-68.
Watkins, M. W., Wilson, S. M., Kotz, K. M., Carbone, M. C. & Babula, T. (2006). Factor
structure of the Wechsler Intelligence Scale for Children-Fourth Edition among
referred students. Educational and Psychological Measurement, 66, 975-983.
Wechsler, D. (1939a). The measurement of adult intelligence. Baltimore: Williams &
Wilkins.
Wechsler, D. (1939b). Wechsler-Bellevue Intelligence Scale. San Antonio: Psychological
Corporation.
Wechsler, D. (1940). Non-intellective factors in general intelligence. Psychological Bulletin, 37, 444-445.
Wechsler, D. (1943). Non-intellective factors in general intelligence. Journal of Abnormal and Social Psychology, 38, 101-103.
Wechsler, D. (1944). The measurement of adult intelligence (3rd ed.). Baltimore: Williams & Wilkins.
Wechsler, D. (1946). The Wechsler-Bellevue Intelligence Scale Form II: Manual for administering and scoring the test. San Antonio: Psychological Corporation.
Wechsler, D. (1949). Wechsler Intelligence Scale for Children. San Antonio: Psychological Corporation.
Wechsler, D. (1950). Cognitive, conative, and non-intellective intelligence. American
Psychologist, 5, 78-83.
Wechsler, D. (1955). Manual for the Wechsler Adult Intelligence Scale. San Antonio:
Psychological Corporation.
Wechsler, D. (1958). The measurement and appraisal of adult intelligence (4th ed.).
Baltimore: Williams & Wilkins.
Wechsler, D. (1967). Manual for the Wechsler Preschool and Primary Scale of Intelligence. San Antonio: Psychological Corporation.
Wechsler, D. (1974). Wechsler Intelligence Scale for Children - Revised. San Antonio:
Psychological Corporation.
Wechsler, D. (1975). Intelligence defined and undefined: A relativistic appraisal. American Psychologist, 30, 135-139.
Wechsler, D. (1981). Manual for the Wechsler Adult Intelligence Scale - Revised. San
Antonio: Psychological Corporation.
Wechsler, D. (1989). Manual for the Wechsler Preschool and Primary Scale of Intelligence-revised. San Antonio: Psychological Corporation.
Wechsler, D. (1991). Wechsler Intelligence Scale for Children - Third Edition. San Antonio: Psychological Corporation.
Wechsler, D. (1992). Wechsler Intelligence Scale for Children - WISC-III UK Manual.
London: Psychological Corporation.
Wechsler, D. (1997). Wechsler Adult Intelligence Scale - Third Edition. San Antonio: Psychological Corporation.
216
Wechsler, D. (2002). Wechsler Preschool and Primary Scale of Intelligence - Third Edition. San Antonio: Psychological Corporation.
Wechsler, D. (2003a). Wechsler Intelligence Scale for Children - Fourth Edition (WISCIV). Administration and scoring manual. San Antonio: Psychological Corporation.
Wechsler, D. (2003b). Wechsler Intelligence Scale for Children - Fourth Edition. Technical and interpretative manual. San Antonio: Psychological Corporation.
Weiss, L. G., Saklofske, D. H., Prifitera, A., Chen, H.-Y. & Hildebrand, D. K. (1999). The
calculation of the WISC-Ill General Ability Index using Canadian norms. Canadian Journal of School Psychology, 14, 1-10.
Weiß, R. H. (2006). Grundintelligenztest Skala 2 - Revision - (CFT 20-R). Göttingen: Hogrefe.
Wolke, D. & Söhne, B. (1997). Wenn der Schein trügt: Zur kritischen Interpretation von
Entwicklungsstudien. Monatsschrift Kinderheilkunde, 145, 444-456.
Woodcock, R. W. (1990). Theoretical foundations of the WJ-R measures of cognitive
abilities. Journal of Psychoeducational Assessment, 8, 231-258.
Woodcock, R. W. (1994). Measures of fluid and crystallized theory of intelligence. In R.
J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 452-456). New York:
Macmillan.
Woodcock, R. W., McGrew, K. S. & Mather, N. (2001). The Woodcock-Johnson III. Itasca: Riverside.
Woodrow, H. (1921). Intelligence and its measurement: A symposium-XI. Journal of
Zachary, R. A. (1990). Wechsler`s intelligence scales: Theoretical and practical considerations. Journal of Psychoeducational Assessment, 8, 276-289.
Zhu, J. & Tulsky, D. S. (2000). Co-norming the WAIS-III and WMS-III: Is there a testorder effect on IQ and memory scores? The Clinical Neuropsychologist, 14, 461467.
Zhu, J. & Weiss, L. G. (2005). The Wechsler Scales. In D. P. Flanagan & P. L. Harrison
(Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd
ed., pp. 297-324). New York: Guilford.
Zhu, J., Weiss, L. G., Prifitera, A. & Coalson, D. (2004). The Wechsler Intelligence Scales
for children and adults. In G. Goldstein & S. R. Beers (Eds.), Comprehensive
handbook of psychological assessment (Vol. 1, S. 51-75). Hoboken: Wiley.
Anhang
217
Anhang
Abbildungsverzeichnis
Abbildung 3.1: Das Zwei-Faktoren-Modell (modifiziert nach Spearman, 1927) .........................................19
Abbildung 3.2: Cattell-Horn Gf-Gc-Modell (modifiziert nach McGrew, 2005) ............................................24
Abbildung 3.3: Three-Stratum-Theorie der kognitiven Fähigkeiten (modifiziert nach Carroll, 1992; 1993)
.............................................................................................................................................................27
Abbildung 3.4: Cattell-Horn-Carroll-Modell (modifiziert nach McGrew, 2005) ..........................................30
Abbildung 3.5: Struktur der Cattell-Horn-Carroll (CHC) Theorie der kognitiven Fähigkeiten (modifiziert
nach Daseking, Petermann & Petermann, 2007) ................................................................................32
Abbildung 4.1: Hierarchische Struktur des HAWIK-III (modifiziert nach Tewes et al., 2002, S. 86) ............47
Abbildung 4.2: Die hierarchische Struktur des HAWIK-IV (modifiziert nach Petermann & Petermann,
2008a) ..................................................................................................................................................50
Abbildung 7.1: Design der Studie. .............................................................................................................112
Abbildung 7.2: Geschlechtsverteilung der Gesamtstichprobe über die 11 Altersgruppen. .....................114
Abbildung 7.3: Aufteilung der Länge des Re-Testintervalls über die 11 Altersgruppen. ..........................114
Abbildung 7.4: Verteilung der Reihenfolge der Testvorgabe über die 11 Altersgruppen. .......................115
Abbildung 7.5: Altersverteilung der gematchten Stichprobe. ..................................................................116
Abbildung 8.1: Box-Plot des Gesamt-, Verbal- und Handlungs-IQ des HAWIK-III. ....................................125
Abbildung 8.2: Box-Plot der Indizes SV, WO, UA und AG des HAWIK-III. .................................................126
Abbildung 8.3: Box-Plot des Gesamt-IQ, SV, WLD, AGD und VG des HAWIK-IV. ......................................128
Abbildung 8.4: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (kurzes Intervall). ....132
Abbildung 8.5: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes
Intervall). ...........................................................................................................................................133
Abbildung 8.6: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (kurzes Intervall). ....133
Abbildung 8.7: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes
Intervall). ...........................................................................................................................................134
Abbildung 8.8: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (langes Intervall). ....134
Abbildung 8.9: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (langes
Intervall). ...........................................................................................................................................135
Abbildung 8.10: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (langes Intervall). ..135
Abbildung 8.11: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (langes
Intervall). ...........................................................................................................................................136
Anhang
218
Tabellenverzeichnis
Tabelle 2.1: Übersicht über die wichtigsten Intelligenzvorstellungen (modifiziert nach Sternberg, 1985a)
.............................................................................................................................................................11
Tabelle 4.1: Die Wechsler-Intelligenzskalen im Überblick ..........................................................................45
Tabelle 4.2: Untertestzusammensetzungen der HAWIK-Versionen ...........................................................46
Tabelle 4.3: Die Untertests des HAWIK-III (modifiziert nach Tewes et al., 2002) .......................................48
Tabelle 4.4: Die erfassten Funktionen der HAWIK-III-Untertests (modifiziert nach Tewes et al., 2002) ....49
Tabelle 4.5: Die Untertests des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) ................50
Tabelle 4.6: Die erfassten Funktionen der HAWIK-IV-Untertests (modifiziert nach Daseking et al., 2007).
.............................................................................................................................................................51
Tabelle 4.7: Reliabilitäten der Untertests, Indizes und des Gesamt-IQ des HAWIK-III und -IV ...................54
Tabelle 4.8: Exploratorische Faktorenanalyse für alle 15 WISC-IV Untertests (gesamte
Normierungsstichprobe, n = 1525) (modifiziert nach Wechsler, 2003b). ...........................................56
Tabelle 4.9: Exploratorische Faktorenanalyse für alle 15 Untertests des HAWIK-IV (gesamte
Normierungsstichprobe, n = 1650) (modifiziert nach Petermann & Petermann, 2008a, S. 133). ......57
Tabelle 4.10: Unterschiede und Gemeinsamkeiten von HAWIK-III und -IV (geordnet nach Zugehörigkeit
zu den HAWIK-Indizes, modifiziert nach Petermann & Petermann, 2008a) .......................................73
Tabelle 5.1: Ergebnisse der Korrelationsstudien zu HAWIK- bzw. WISC-Versionen ...................................87
Tabelle 5.2: Ein-Monats-Lerneffekt für die WISC-IV-Index- und IQ-Werte (n = 243) (modifiziert nach
Wechsler, 2003b, S. 40ff) ....................................................................................................................91
Tabelle 5.3: Untertests mit relativ großem Ein-Monats-Lerneffekt getrennt in drei Altersgruppen
(modifiziert nach Wechsler, 2003b, S. 40ff) ........................................................................................91
Tabelle 6.1: Überblick über die Hypothesen und Fragestellungen der Studie. .........................................100
Tabelle 7.1: Abkürzungen der Stichproben. ..............................................................................................112
Tabelle 7.2: Geplante Stichprobenverteilung (n=176). .............................................................................113
Tabelle 7.3: Zusammensetzung der Untersuchungsstichprobe (n= 223). ................................................113
Tabelle 7.4: Verteilung der Untersuchungsstichprobe nach besuchtem Schultyp. ..................................115
Tabelle 7.5: Schultypverteilung der gematchten Stichprobe (n= 144). ....................................................116
Tabelle 7.6: Geschlechtsverteilung der gematchten Stichprobe (n= 144). ...............................................117
Tabelle 7.7: Reihenfolge der Testvorgabe der gematchten Stichprobe (n= 144). ....................................117
Tabelle 7.8: Abkürzungen der gematchten Stichproben. .........................................................................117
Tabelle 7.9: Eckdaten des HAWIK-III und -IV. ...........................................................................................118
Tabelle 8.1: Deskriptive Angaben des HAWIK-III. .....................................................................................124
Tabelle 8.2: Deskriptive Angaben des HAWIK-IV. .....................................................................................127
Tabelle 8.3: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ (n = 223). ............129
Tabelle 8.4: t-Test zur Prüfung der Mittelwertdifferenzen auf Untertestebene (n = 223). ......................130
Tabelle 8.5: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ der GemS. ..........130
Tabelle 8.6: t-Test zur Prüfung der Mittelwertedifferenzen der GemS auf Untertestebene....................131
Tabelle 8.7: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der
Stichprobe GK-III (n = 63)...................................................................................................................137
Anhang
219
Stichprobe GL-III (n = 48). ..................................................................................................................137
Tabelle 8.9: Mittelwerte und Mittelwertzuwächse zwischen HAWIK-III und -IV bei der Stichprobe GK-IV
(n = 65)...............................................................................................................................................138
Stichprobe GL-IV (n= 47)....................................................................................................................139
Tabelle 8.11: Mittelwertzuwächse bzw. -abnahmen der Untertests und Indizes getrennt nach kurzem
und langem Intervall. .........................................................................................................................140
Tabelle 8.12: Mittelwertzuwächse bzw. -abnahmen nach kurzem Intervall der Untertests und Indizes
unterteilt in drei Altersgruppen. .......................................................................................................141
Tabelle 8.13: Mittelwertzuwächse bzw. -abnahmen nach langem Intervall der Untertests und Indizes
unterteilt in drei Altersgruppen. .......................................................................................................141
Tabelle 8.14: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall
(n= 93-95). .........................................................................................................................................142
Tabelle 8.15: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall
bei Kindern und Jugendlichen mit einem HAWIK-III-Gesamt-IQ von ≥ 115 (n = 28). ........................143
Tabelle 8.16: Exploratorische Faktorenanalyse des HAWIK-III ohne Vorgabe der Faktorenanzahl. .........144
Tabelle 8.17: Exploratorische Faktorenanalyse des HAWIK-IV ohne Vorgabe der Faktorenanzahl. ........145
Tabelle 8.18: Faktorenanalyse des HAWIK-III und -IV mit Vorgabe von vier Faktoren. ............................147
Tabelle 8.19: Faktorenanalyse des HAWIK-III mit Vorgabe von vier Faktoren. ........................................148
Tabelle 8.20: Faktorenanalyse des HAWIK-IV mit Vorgabe von vier Faktoren. ........................................148
Tabelle 8.21: Korrelationen zwischen HAWIK-III und -IV (G-III, n = 109 bis 111). .....................................150
Tabelle 8.22: Korrelationen zwischen HAWIK-IV und -III (G-IV, n = 111 bis 112). .....................................150
Tabelle 8.23: Korrelationen zwischen HAWIK-III und -IV gesamt (n = 221 bis 223). .................................151
Tabelle 8.24: Korrelationen zwischen HAWIK-III und -IV für die GK-III (n = 63). .......................................152
Tabelle 8.25: Korrelationen zwischen HAWIK-IV und -III für die GK-IV (n = 64 bis 65). ............................153
Tabelle 8.26: Korrelationen zwischen HAWIK-III und -IV (GK gesamt, n = 127 bis 128). ..........................153
Tabelle 8.27: Korrelationen zwischen HAWIK-III und -IV für die GL-III (n = 46 bis 48). .............................154
Tabelle 8.28: Korrelationen zwischen HAWIK-IV und -III für die GL-IV (n = 47). .......................................155
Tabelle 8.29: Korrelationen zwischen HAWIK-IV und -III (GL gesamt, n = 93 bis 95). ...............................155
Tabelle 8.30: Korrelationen zwischen HAWIK-III und -IV für die GemSK (n = 72). ....................................156
Tabelle 8.31: Korrelationen zwischen HAWIK-IV und -III für die GemSL (n = 72). ....................................157
Tabelle 8.32: Korrelationen zwischen HAWIK-IV und -III (GemS gesamt, n = 144). ..................................158
Tabelle 8.33: Lineare Regression der Untertests des SV-Index des HAWIK-III..........................................160
Tabelle 8.34: Lineare Regression der Untertests des WO-Index des HAWIK-III........................................160
Tabelle 8.35: Lineare Regression der Untertests des UA-Index des HAWIK-III. ........................................161
Tabelle 8.36: Varianzaufklärung der SV-Untertests des HAWIK-IV auf den SV des HAWIK-III..................161
Tabelle 8.37: Varianzaufklärung der WLD-Untertests des HAWIK-IV auf den WO des HAWIK-III. ...........162
Tabelle 8.38: Varianzaufklärung der AGD-Untertests des HAWIK-IV auf den UA des HAWIK-III. .............162
Tabelle 8.39: Varianzaufklärung der VG-Untertests des HAWIK-IV auf den AG des HAWIK-III. ...............163
Tabelle 8.40: Varianzaufklärung der Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III................163
Anhang
220
Tabelle 8.41: Varianzaufklärung der Indizes des HAWIK-III auf den Gesamt-IQ des HAWIK-IV................164
Tabelle 8.42: Erwartete Werte und Wertebereiche des Gesamt-IQ des HAWIK-IV für ausgewählte
Gesamt-IQ des HAWIK-III...................................................................................................................165
Tabelle 8.43: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte Verbal-IQ des
HAWIK-III. ..........................................................................................................................................165
Tabelle 8.44: Erwartete Werte und Wertebereiche des WLD des HAWIK-IV für ausgewählte Handlungs-IQ
des HAWIK-III. ....................................................................................................................................166
Tabelle 8.45: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte SV-Werte des
HAWIK-III. ..........................................................................................................................................166
Tabelle 8.46: Erwartete Werte und Wertebereiche des WLD-IQ des HAWIK-IV für ausgewählte WO-IQWerte des HAWIK-III ..........................................................................................................................167
Tabelle 8.47: Erwartete Werte und Wertebereiche des AGD-IQ des HAWIK-IV für ausgewählte UA-IQWerte des HAWIK-III ..........................................................................................................................167
Tabelle 8.48: Erwartete Werte und Wertebereiche des VG-IQ des HAWIK-IV für ausgewählte AG-IQWerte des HAWIK-III ..........................................................................................................................168
Tabelle 9.1: Normtabellenauszug der Untertests Zahlen-Symbol-Test und Symbol-Suche aus den
Manualen des HAWIK-III und -IV (Petermann & Petermann, 2008a; Tewes et al., 2002). ...............188
Tabelle A1: Interkorrelationen der Untertests des HAWIK-III (Gesamtstichprobe). .................................221
Tabelle A2: Interkorrelationen der Untertests des HAWIK-III (gematchte Stichprobe)............................221
Tabelle A3: Interkorrelationen der Untertests des HAWIK-IV (Gesamtstichprobe). ................................222
Tabelle A4: Interkorrelationen der Untertests des HAWIK-IV (gematchte Stichprobe). ..........................223
Tabelle A5: Abkürzungen des HAWIK-IV. ..................................................................................................224
Tabelle A6: Abkürzungen des HAWIK-III. ..................................................................................................224
Tabelle A7: Exploratorische Faktorenanalyse des HAWIK-IV (kurzes Intervall). .......................................225
Tabelle A8: Exploratorische Faktorenanalyse des HAWIK-IV (langes Intervall). .......................................225
Tabelle A9: Exploratorische Faktorenanalyse des HAWIK-III (kurzes Intervall). .......................................225
Tabelle A10: Exploratorische Faktorenanalyse des HAWIK-III (langes Intervall). .....................................225
Tabelle A11: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-III). .................................226
Tabelle A12: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-IV). .................................226
Tabelle A13: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-III). .................................226
Tabelle A14: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-IV). ................................226
Anhang
221
Zusatztabellen
Tabelle A1: Interkorrelationen der Untertests des HAWIK-III (Gesamtstichprobe).
Untertest
BE AW ZST GF BO RD MT WT FL
AV SS
ZN
BE
AW
.33
ZST
.11 .12
GF
.41 .58 .10
BO
.29 .35 .11 .28
RD
.15 .52 .15 .37 .31
MT
.34 .35 .27 .31 .35 .40
WT
.29 .55 .11 .56 .34 .30 .26
FL
.31 .26 .13 .22 .35 .24 .48 .24
AV
.35 .44 .18 .48 .38 .23 .28 .54 .22
SS
.09 .12 .46 .05 .23 .16 .27 .07 .08 .10
ZN
.12 .24 .27 .17 .12 .38 .26 .22 .09 .13 .19
Mittelwert 11.1 11.0 11.6 11.8 10.8 11.1 11.1 11.6 9.8 11.2 11.6 9.9
SD
3.0 2.8 3.1 2.8 3.3 2.8 3.2 2.8 3.0 2.0 2.8 2.6
Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen
Tabelle A2: Interkorrelationen der Untertests des HAWIK-III (gematchte Stichprobe).
Untertest
BE AW ZST GF BO RD MT WT FL
AV SS
ZN
BE
AW
.39
ZST
.17 .11
GF
.49 .58 .12
BO
.24 .40 .12 .33
RD
.17 .51 .17 .38 .35
MT
.39 .43 .30 .34 .37 .44
WT
.31 .52 .11 .53 .38 .26 .27
FL
.32 .34 .16 .29 .37 .26 .51 .31
AV
.37 .49 .21 .54 .30 .23 .26 .58 .26
SS
.08 .18 .41 .15 .19 .28 .28 .11 .06 .02
ZN
.19 .23 .30 .11 .13 .39 .26 .21 .14 .07 .26
Mittelwert 11.1 11.0 11.8 11.7 10.8 10.9 11.2 11.4 9.8 11.2 11.8 9.9
SD
3.0 2.9 3.2 2.8 3.4 2.7 3.3 3.0 3.2 1.9 2.7 2.6
Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen
Untertest
MT
GF
ZN
BK
ZST WT BZF MZ
AV SYS
BE
DT
AW RD BEN
MT
GF
.41
ZN
.28
.21
BK
.31
.40
.06
ZST
.19
.14
.20
.10
WT
.30
.65
.20
.33
.08
BZF
.14
.27
.51
.00
.24
.26
MZ
.38
.34
.31
.29
.13
.26
.25
AV
.33
.49
.19
.22
.11
.56
.14
.30
SYS
.35
.20
.18
.18
.60
.14
.21
.31
.14
BE
.49
.43
.04
.40
.21
.35
.14
.32
.35
.28
DT
.19
.07 -.01 .14
.34 -.01 .04
.26
.00
.39
.24
AW
.46
.57
.36
.32
.11
.56
.33
.39
.47
.18
.32
.03
RD
.36
.36
.44
.26
.24
.33
.37
.36
.28
.32
.23
.10
.45
BEN
.26
.60
.18
.35
.05
.63
.18
.31
.47
.16
.45 -.05 .53
.35
Mittelwert 11.2 11.1 10.4 10.9 11.0 11.0 10.9 10.6 11.1 11.0 11.1 10.9 10.7 11.0 10.7
SD
3.0
2.4
2.5
2.4
2.8
2.6
2.3
2.4
2.3
2.6
2.8
2.9
2.5
2.4
2.7
Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6.
Tabelle A3: Interkorrelationen der Untertests des HAWIK-IV (Gesamtstichprobe).
Anhang
222
Untertest
MT
GF
ZN
BK
ZST WT BZF MZ
AV SYS
BE
DT
AW RD BEN
MT
GF
0.47
ZN
0.28 0.24
BK
0.34 0.37 0.12
ZST
0.21 0.19 0.23 0.15
WT
0.36 0.65 0.19 0.34 0.14
BZF
0.27 0.37 0.56 0.06 0.28 0.34
MZ
0.37 0.39 0.30 0.36 0.22 0.29 0.33
AV
0.37 0.50 0.21 0.28 0.11 0.61 0.24 0.34
SYS
0.41 0.24 0.26 0.25 0.55 0.18 0.33 0.43 0.13
BE
0.56 0.50 0.19 0.40 0.26 0.45 0.28 0.41 0.48 0.37
DT
0.18 0.11 0.02 0.16 0.37 0.01 0.14 0.30 -0.03 0.46 0.29
AW
0.51 0.56 0.35 0.33 0.11 0.55 0.41 0.41 0.49 0.21 0.39 0.00
RD
0.40 0.42 0.40 0.34 0.16 0.38 0.43 0.43 0.30 0.39 0.26 0.08 0.42
BEN
0.29 0.57 0.20 0.31 0.09 0.61 0.25 0.36 0.51 0.16 0.49 -0.01 0.51 0.39
Mittelwert 11.2 10.9 10.2 10.8 10.9 10.8 10.8 10.5 11.1 11.0 10.8 10.6 10.6 10.8 10.5
SD
3.1
2.6
2.4
2.3
3.0
2.7
2.3
2.5
2.3
2.7
2.7
2.9
2.5
2.4
2.6
Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6.
Tabelle A4: Interkorrelationen der Untertests des HAWIK-IV (gematchte Stichprobe).
Anhang
223
Untertest
Prozesswert
Index
Untertest/Index
Abkürzung
Mosaik-Test
MT
Gemeinsamkeiten finden
GF
Zahlen nachsprechen
ZN
Bildkonzepte
BK
Zahlen-Symbol-Test
ZST
Wortschatz-Test
WT
Buchstaben-Zahlen-Folgen
BZF
Matrizen-Test
MZ
Allgemeines Verständnis
AV
Symbol-Suche
SYS
Bilder ergänzen
BE
Durchstreich-Test
DT
Allgemeines Wissen
AW
Rechnerisches Denken
RD
Begriffe erkennen
BEN
Mosaik-Test ohne Zeitbonus
MT-OZ
Zahlen nachsprechen vorwärts
ZN-V
Zahlen nachsprechen rückwärts
ZN-R
Durchstreich-Test strukturiert
DT-S
Durchstreich-Test unstrukturiert
DT-U
Sprachverständnis
SV
Wahrnehmungsgebundenes LogiWLD
sches Denken
Arbeitsgedächtnis
AGD
Verarbeitungsgeschwindigkeit
VG
Untertest/Index
Bilderergänzen
Allgemeines Wissen
Zahlen-Symbol-Test
Gemeinsamkeitenfinden
Bilderordnen
Rechnerisches Denken
Mosaik-Test
Wortschatz-Test
Figurenlegen
Allgemeines Verständnis
Symbol-Suche
Zahlennachsprechen
(Labyrinth-Test)
Sprachliches Verständnis
Wahrnehmungsorganisation
Unablenkbarkeit
Arbeitsgeschwindigkeit
Verbal-IQ
Handlungs-IQ
Abkürzung
BE
AW
ZST
GF
BO
RD
MT
WT
FL
AV
SS
ZN
LT
SV
WO
UA
AG
V-IQ
H-IQ
Tabelle A6: Abkürzungen des HAWIK-III.
Untertest
Index- und
Gesamtwert
Tabelle A5: Abkürzungen des HAWIK-IV.
Anhang
224
Anhang
225
Tabelle A7: Exploratorische Faktorenanalyse des HAWIK-IV (kurzes Intervall).
Tabelle A8: Exploratorische Faktorenanalyse des HAWIK-IV (langes Intervall).
Faktor
Faktor
Untertest
1
2
BEN
.83
.03
GF
.82
.14
WT
.82
-.03
AW
.75
.00
AV
.68
-.05
BE
.67
.39
MT
.57
.36
BK
.55
.34
SYS
.16
.80
DT
.01
.79
ZST
-.01
.76
MZ
.41
.47
ZN
.07
.02
BZF
.15
.05
RD
.36
.25
Anmerkung: Abkürzungen siehe
und A6.
Untertest
1
2
3
4
WT
.83
.21
.02
.03
BEN
.77
.05
-.04
.16
GF
.72
.25
.09
.19
AV
.67
.11
.06
.19
AW
.56
.51
.01
.25
ZN
.11
.84
.07
.08
RD
.30
.62
.17
.28
BZF
.24
.61
.33
-.25
ZST
.12
.15
.84
-.12
SYS
.07
.17
.77
.16
DT
-.23
.02
.55
.35
MT
.20
.31
.21
.63
BK
.32
.00
-.06
.60
BE
.36
-.28
.36
.56
MZ
.10
.49
.05
.56
Anmerkung: Abkürzungen siehe Anhang A5
und A6.
3
.19
.09
.13
.26
.11
.12
.10
-.11
.18
-.16
.16
.32
.86
.85
.54
Anhang A5
.
Tabelle A9: Exploratorische Faktorenanalyse
des HAWIK-III (kurzes Intervall).
Faktor
Untertest
1
2
3
4
AV
.76
-.06
.29
.24
WT
.73
.26
.10
.06
GF
.69
.36
.17
-.16
AW
.57
.54
.18
.06
RD
.20
.81
.09
.02
MT
-.01
.63
.52
.22
ZN
.34
.60
-.17
.24
FL
.00
.35
.71
.08
BO
.26
-.05
.70
.17
BE
.24
-.02
.67
-.05
SS
-.08
.09
.14
.79
ZST
.20
.12
.03
.78
und A6.
Tabelle A10: Exploratorische Faktorenanalyse des HAWIK-III (langes Intervall).
Faktor
Untertest
1
2
3
4
WT
.84
-.01
.02
.17
GF
.83
.09
.16
.05
AV
.76
.06
.17
.01
AW
.74
-.09
.09
.33
BE
.55
.16
.45
.01
ZST
.02
.90
.09
.03
SS
.06
.83
.02
.24
FL
.09
-.11
.89
.11
MT
.25
.30
.71
.19
RD
.30
.06
.13
.75
ZN
-.10
.27
.02
.72
BO
.41
.00
.26
.56
und A6.
Anhang
226
Tabelle A11: Explorative Faktorenanalyse des
HAWIK-III (Erstvorgabe HAWIK-III).
Faktor
HAWIK-III (Erstvorgabe HAWIK-IV).
Untertest
1
2
3
4
AW
.78
.11
.32
.08
GF
.77
.07
.20
-.17
WT
.74
.16
.12
.06
AV
.64
.25
.04
.18
FL
-.02
.78
.31
-.04
BO
.28
.70
.01
.21
BE
.39
.56
-.10
-.09
ZN
.09
-.03
.78
.01
RD
.29
.14
.72
.13
MT
.20
.47
.57
.16
SS
-.01
.01
.05
.86
ZST
.07
.07
.11
.82
und A6.
Faktor
Untertest
1
2
3
WT
.82
.10
.08
GF
.81
.23
.01
AW
.76
.15
.14
AV
.72
.27
-.04
RD
.57
.00
.46
BO
.45
.39
.18
FL
.17
.81
.07
MT
.17
.74
.35
BE
.40
.56
-.05
ZN
.28
-.20
.75
ZST
-.03
.22
.70
SS
-.03
.35
.64
und A6.
HAWIK-IV (Erstvorgabe HAWIK-III).
HAWIK-IV (Erstvorgabe HAWIK-IV).
Faktor
Untertest
1
2
3
4
WT
.87
.04
.12
-.03
BEN
.81
.14
.19
-.09
GF
.79
-.05
.24
.08
AV
.68
.03
.08
.02
AW
.59
.41
.35
.04
ZN
-.06
.87
.06
.05
BZF
.09
.70
-.18
.07
RD
.16
.64
.35
.09
MT
.07
.25
.75
.18
BK
.23
-.17
.62
.01
MZ
.26
.30
.61
.05
BE
.35
-.19
.57
.21
ZST
-.05
.20
-.06
.86
SYS
.07
.14
.12
.86
DT
-.02
-.14
.31
.64
und A6.
Faktor
Untertest
1
2
3
BEN
.73
.26
-.04
BE
.72
-.06
.33
AV
.67
.29
.02
GF
.65
.50
.04
BK
.65
-.05
.15
WT
.63
.50
-.10
MT
.62
.15
.24
AW
.62
.50
-.11
BZF
.07
.81
.22
ZN
.17
.76
.13
RD
.36
.53
.29
DT
-.04
-.14
.78
SYS
.21
.20
.71
ZST
-.02
.33
.64
MZ
.36
.28
.54
und A6.
Hiermit erkläre ich, dass ich die vorliegende Arbeit ohne unerlaubte Hilfe angefertigt, keine
anderen als die angegebenen Quellen und Hilfsmittel verwendet und die den benutzten
Werken wörtlich oder inhaltlich entnommenen Stellen als solche kenntlich gemacht habe.
Bremen, den 19.12.2008
Maike Lipsius
Diese Veröffentlichung lag dem Promotionsausschuss Dr. phil der Universität Bremen als Dissertation
vor.
Gutachter: Prof. Dr. Franz Petermann
Gutachter Prof. Dr. Uwe Tewes
Das Kolloquium fand am 16. Juni 2009 statt.

Validitätsstudie zum HAWIK-IV im Vergleich zum HAWIK-III - E-LIB

Transcrição

Documentos relacionados

Hamburg- Wechsler Intelligenztest für Kinder Geschichte

1 HAWIVA® -III Hannover-Wechsler-Intelligenztest

Wechsler Intelligenztest für Erwachsene

WPPSI-III - Pearson Assessment

Aufmerksamkeitsstörungen nach Schlaganfällen

Bistabiles-Relais K-RP

BREITLING | Windrider Wings Automatic | Ref - UHREN

CHOPARD | Mille Miglia Chronograph GMT | Ref - UHREN

Einbauanleitung Kabelsatz CD-Wechsler Adapter im Audi A6, A8 MMI

Mercedes-Benz ML 420 CDI 4Matic 7G