Vergleichsarbeiten als Instrument zur Verbesserung der

Transcrição

Vergleichsarbeiten als Instrument zur Verbesserung der
Vergleichsarbeiten als Instrument zur Verbesserung der
Diagnosekompetenz von Lehrkräften
Andreas Helmke, Ingmar Hosenfeld und Friedrich-Wilhelm Schrader
Universität Koblenz-Landau, Campus Landau
erscheint 2004 in: R. Arnold & C. Griese (Hrsg.), Schulmanagement und Schulentwicklung.
Hohengehren: Schneider-Verlag
1. ÜBERSICHT
Zu den für das Unterrichten unerlässlichen Kompetenzen gehört nach einhelliger Meinung in
Pädagogischer Psychologie und Unterrichtsforschung auch die diagnostische Kompetenz von
Lehrkräften. Für Weinert ist sie - neben der Klassenführungskompetenz, der didaktischen und
fachwissenschaftlichen Kompetenz - eine der vier Schlüsselkompetenzen (vgl. etwa Weinert,
Schrader & Helmke, 1990). Im Widerspruch dazu steht die Unterbewertung, ja Vernachlässigung des gesamten Bereichs der Pädagogischen Diagnostik in der Lehreraus- und weiterbildung - obgleich das Leitbild des Lehrers als eines kompetenten Diagnostikers zumindest nominell in einschlägigen Präambeln und Verordnungen präsent ist (Arnold, 1999, 2001).
Erst die Präsentation der Befunde von PISA 2000 hat es mit sich gebracht, dass die Frage
nach der diagnostischen Kompetenz von Lehrkräften erstmals in einer breiten bildungspolitischen Öffentlichkeit diskutiert wurde. Obwohl die entsprechende Teiluntersuchung (in der
deutschen PISA-Studie) nur schmal angelegt war und nicht den Anspruch auf Verallgemeinerbarkeit erhoben hat, ist dieses Teilergebnis - mangelnde diagnostische Fähigkeiten von
Lehrkräften - besonders intensiv diskutiert worden und hat seinen Niederschlag in der Formulierung von Handlungsfeldern der KMK gefunden. Dort ist ausdrücklich die Rede von
„Maßnahmen zur Verbesserung der Professionalität der Lehrertätigkeit, insbesondere im Hinblick auf diagnostische und methodische Kompetenz als Bestandteil systematischer Schulentwicklung“ (Beschluss der Kultusministerkonferenz vom 6. März 2003).
Eine mindestens ebenso wichtige Konsequenz aus den für Deutschland katastrophalen Ergebnissen von PISA 2000 (die angesichts zahlloser Original- und Sekundärtexte an dieser Stelle
nicht zum wiederholten Male berichtet werden sollen) besteht in der Forderung der KMK
nach überregionalen Vergleichsarbeiten bereits in der Grundschule und nach bundesweit gültigen Bildungsstandards.
Diese Situation - Forderung nach Vergleichsarbeiten und Bevorstehen verbindlicher Standards einerseits, und Klagen über mangelnde diagnostische Lehrerkompetenzen andererseits ist der Ausgangspunkt für unseren Text. Wir belegen, dass und warum diagnostische Kompetenz eine unabdingbare Voraussetzung für effektiven Unterricht im allgemeinen und individuelle Förderung im besonderen ist. Zweitens argumentieren wir, dass Vergleichsarbeiten
eine gute Grundlage für die Erfassung und das nachfolgende Training von diagnostischen
Lehrerkompetenzen sein können. Dies möchten wir anhand konkreter Beispiele aus dem Projekt "Vergleichsarbeiten in der Grundschule" (VERA) belegen, das seit 2003 unter der wissenschaftlichen Leitung der beiden zuerst genannten Autoren (Helmke & Hosenfeld) in zur
2
Zeit1 sieben deutschen Bundesländern stattfindet: Berlin, Brandenburg, Bremen, Mecklenburg-Vorpommern, Nordrhein-Westfalen, Rheinland-Pfalz und Schleswig-Holstein.
Wir möchten also mit diesem Artikel einen Beitrag zur Überwindung der Kluft zwischen
Evaluation und Innovation leisten: Moderne Evaluation muss, will sie sich nicht lediglich auf
eine Standortbestimmung beschränken, von vorne herein so angelegt sein, dass ihr Potenzial
auch für die Verbesserung von Schule und Unterricht genutzt werden kann. Angewendet auf
Vergleichsarbeiten als Instrument der Evaluation, lautet die Frage: Wie lassen sich Vergleichsarbeiten für die Verbesserung didaktischer und diagnostischer Kompetenzen - und damit letzlich für die Verbesserung des Unterrichts - nutzen?
2. DIAGNOSEKOMPETENZ - WAS IST DAS?
Zum besseren Verständnis dessen, was diagnostische Kompetenz ausmacht, ist ein gewisses
begriffliches Handwerkszeug unerlässlich. Ausgehend von einer Beschreibung des Gegenstandsbereiches der Diagnosekompetenz stellen wir im folgenden (a) diagnostisches Wissen
und Diagnosegenauigkeit gegenüber und beschreiben anschließend (b) allgemeine Gütekriterien diagnostischer Urteile, (c) Dimensionen diagnostischer Urteile sowie (d) die Komponenten der Urteilsgenauigkeit. Diese begriffliche Klärung soll die Grundlage dafür liefern, woran
genau man anknüpfen kann, wenn man auf eine Erfassung und Verbesserung der diagnostischen Expertise im Kontext von Vergleichsarbeiten setzt.
2.1. Gegenstandsbereich von Diagnosekompetenz
Diagnosekompetenz von Lehrkräften wird häufig als deren Fähigkeit verstanden, Schüler zutreffend einzuschätzen (Schrader, 2001), und somit mehr oder weniger mit Diagnose- oder
Urteilsgenauigkeit (Veridikalität) gleichgesetzt. Grundlage dafür sind Lehrerurteile über
Schüler hinsichtlich bestimmter Merkmale (häufig ihrer Leistungen), die mit den tatsächlichen Merkmalsausprägungen (den von den Schülern erzielten Leistungen) verglichen werden.
Der Grad an Übereinstimmung zwischen Lehrerurteil und Schülerleistung wird dann als Indikator für die diagnostische Kompetenz des urteilenden Lehrers gesehen.
Neben dieser personenbezogenen Diagnosefähigkeit wird gelegentlich auch die Genauigkeit
der Beurteilung von Aufgabenschwierigkeiten untersucht (siehe etwa Schrader, 1989). Lehrkräfte schätzen dazu die Schwierigkeit verschiedener Testaufgaben ein, die dann wiederum
mit deren tatsächlicher Schwierigkeit verglichen wird. Da die empirisch erfasste Aufgabenschwierigkeit (Prozentsatz der Schüler, die eine Aufgabe lösen) im Grunde nichts anderes als
die mittlere Leistung der Schüler bei der jeweiligen Aufgabe darstellt, geht es bei diesen Einschätzungen im wesentlich darum einzuschätzen, wie gut eine Gruppe von Personen (z.B. die
eigene Klasse, der gesamte Schülerjahrgang) die jeweilige Aufgabe löst. Zur Bestimmung der
Diagnosegenauigkeit verwendet man auch hier wieder die Übereinstimmung zwischen Lehrerurteilen und Leistungen, hier: den mittleren Leistungen der jeweiligen Gruppe.
Wir verwenden im Folgenden, abweichend von der bisher skizzierten Notation, das Konzept
„Diagnosekompetenz“ in einem weiteren Sinne. Es wäre nach unserer Einschätzung eine verkürzte Sichtweise, diese Kompetenz lediglich auf die Diagnosegenauigkeit zu beschränken,
ohne gleichzeitig deren Wissensgrundlagen einzubeziehen. Da eine geeignete theoretische
Konzeption bislang nicht vorliegt, machen wir folgenden Vorschlag (vgl. Schrader, 1989):
(a) Grundlage für die Fähigkeit, genaue diagnostische Urteile abzugeben, sind vermutlich
relativ stabile und schwer beeinflussbare Merkmale wie Intelligenz und kognitive
Komplexität.
1
Verhandlungen mit weiteren Bundesländern sind zum gegenwärtigen Zeitpunkt (Dezember 2003) noch nicht
abgeschlossen
3
(b) Weiterhin spielen erfahrungsabhängige bereichsspezifische Fähigkeiten und Wissensstrukturen eine Rolle. Diese umfassen zum einen methodisches Wissen (Kenntnis und
Beherrschung diagnostischer Methoden, Wissen über Urteilsfehler und –tendenzen). Sie umfassen zum anderen aber auch bereichs- oder gegenstandsspezifisches Wissen (über die Anforderungen in einem Lerngebiet, über Schwierigkeitsmerkmale von Aufgaben, über mögliche Lösungsprozeduren, typische Vorgehensweisen, Leistungen und Fehlern bei Schülern
unterschiedlichen Entwicklungsstands und unterschiedlicher Leistungsfähigkeit). Dieses Wissen lässt sich in Anlehnung an die etablierte Klassifikation metakognitiven Wissens einteilen
in Wissen über Aufgaben, über Personen, über Strategien sowie deren Interaktion (vgl.
Schrader, 2001).
(c) Schließlich spielen spezifische Kenntnisse (Wissen über einzelne Schüler und Klassen,
z.B. deren Stärken und Schwächen, über die Schwierigkeit und Beliebtheit von Unterrichtsstoffen in der Klasse) eine Rolle.
Was das methodische Wissen bzw. die diagnostische-methodische Kompetenz von Lehrkräften angeht, so sind hierzulande sowohl die Forschung als auch die Verankerung dieser Kompetenz in Form professioneller Standards noch kaum entwickelt. In den USA hingegen wird
diesem Bereich traditionell eine große Wichtigkeit beigemessen. Dies wird gut dokumentiert
durch die folgende Übersicht (nach Arnold, 1999) eines amerikanischen Lehrerverbandes
(vgl. Tabelle 1):
Tabelle 1: Standards des amerikanischen Lehrerverbandes zur Diagnostischen Kompetenz
von Lehrkräften
1. Lehrer sollen aus dem verfügbaren Methodenarsenal jene Diagnoseverfahren auswählen
können, die für anstehende Unterrichtsentscheidungen angemessen sind.
2. Lehrer sollen Diagnoseverfahren entwickeln können, die für anstehende Unterrichtsentscheidungen angemessen sind.
3. Lehrer sollen fähig sein, sowohl von Testexperten professionell konstruierte als auch
unterrichtsbezogene, von Lehrern entwickelte Diagnoseverfahren anzuwenden, auszuwerten
und zu interpretieren.
4. Lehrer sollen fähig sein, pädagogisch-diagnostische Informationen (a) in pädagogischen
Entscheidungen, die einzelne Schüler betreffen, (b) für die Planung ihres Unterrichts, (c) im
Rahmen der Curriculumentwicklung und (d) in Schulentwicklungsprozessen zu nutzen.
5. Lehrer sollen fähig sein, valide Verfahren der zusammenfassenden Beurteilung von Einzelbewertungen zu entwickeln (z.B. als Zensierungsmodell).
6. Diagnoseergebnisse sollen von Lehrern in verständlicher Weise den Schülern, Eltern oder
anderen Laienpersonen mitgeteilt werden können.
7. Lehrer sollen fähig sein, ethisch inakzeptable oder ungesetzliche oder in anderer Weise
unangemessene Diagnoseverfahren bzw. eine in dieser Weise problematische Anwendung
von Verfahren zu erkennen.
Über das für die Diagnoseleistung relevante bereichspezifische konzeptuelle Wissen von
Lehrkräften ist bislang noch wenig bekannt. Forschungen zu subjektiven oder impliziten Theorien von Lehrkräften, zu Lehrerkognitionen und zur Lehrerexpertise können hier aber erste
Anhaltspunkte liefern (vgl. etwa Bromme, 1997).
2.2. Gütekriterien diagnostischer Urteile
Was für die Gütekriterien von diagnostischen Verfahren (wie etwa Tests) gilt, trifft auch für
die Qualität von Lehrerurteilen zu. Damit sind die klassischen drei Kriterien der Objektivität,
4
Reliabilität und Validität gemeint. Objektivität bezieht sich darauf, inwieweit Lehrkräfte in ihrem Urteil übereinstimmen, wenn sie den gleichen Sachverhalt, z.B. die gleiche
Schülerleistung (etwa in einem Aufsatz) beurteilen. Man kann unterscheiden zwischen
Durchführungs-, Auswertungs- und Interpretationsobjektivität. Reliabilität als Genauigkeit,
mit der ein Messinstrument (in diesem Fall der Lehrer) ein Merkmal misst, lässt sich am
besten anhand der Retest-Reliabilität veranschaulichen: Wiederholte Messungen oder Beurteilungen sollten zum gleichen oder zumindest einem ähnlichen Urteil führen (z.B. wenn Lehrkräfte denselben Aufsatz wiederholt beurteilen). Mit Validität ist das Ausmaß gemeint, in
dem Lehrkräfte auch tatsächlich das beurteilen, was beurteilt werden soll (z.B.: Wird tatsächlich die inhaltliche und sprachliche Qualität des Aufsatzes beurteilt oder der Umfang der
Rechtschreibfehler?). Es gibt verschiedene Arten von Validität. Am wichtigsten in diesem
Zusammenhang ist die kriterienbezogene Validität, also der Grad der Übereinstimmung einer
Messung mit einem Außenkriterium (z.B. Lehrerurteil mit der Testleistung). Wie aus der
Testtheorie bekannt ist, setzt eine hohe Validität hohe Reliabilität und Objektivität voraus
(Jäger, 2001).
In der Urteilsforschung spricht man häufig von Veridikalität. Damit ist gemeint, wie gut
Urteile mit den „tatsächlichen“, d.h. den objektiv gemessenen Merkmalen und Merkmalsausprägungen übereinstimmen (Schrader, 2001). Die Veridikalität ist aber im Grunde nichts
anderes als ein Sonderfall der kriterienbezogenen Validität, bei dem der Prädiktor (das
Lehrerurteil) mit einer möglichst guten (zumindest aber besseren) Messung des
vorherzusagenden oder zu beurteilenden Merkmals, dem Kriterium, verglichen wird. Wenn
man von Veridikalität spricht, hat man also die Situation im Blick, dass Prädiktor und
Kriterium das gleiche Merkmal erfassen, während bei kriterienbezogener Validität
Beziehungen zwischen ähnlichen (aber nicht unbedingt den gleichen) oder aus anderen
Gründen zusammengehörigen Merkmalen betrachtet werden. Bei Lehrerurteilen würde man
z.B. dann von Veridikalität sprechen, wenn der Lehrer direkt die Leistungen seiner Schüler in
einem ihm bekannten Test einschätzen würde und diese Einschätzungen dann mit den
tatsächlichen Testleistungen verglichen würden. Vergleicht man dagegen Zensuren und
Testleistungen, so ist man sich meistens von vornherein darüber im Klaren, dass keine
vollständig äquivalenten Erhebungen vorliegen.
2.3. Komponenten der Diagnosegenauigkeit
Mit der Veridikalität von Urteilen beschäftigt sich ein eigener Forschungsansatz, der eine
lange Tradition hat (Funder, 1995). So ist seit langem bekannt, dass die Bestimmung der
Urteilsgenauigkeit, d.h. die Ermittlung der Übereinstimmung von Urteilen und tatsächlichen
Merkmalsausprägungen ein nicht-triviales Problem ist. Würde man einfach Differenzwerte
zwischen Urteilen und - mit gleichem Maßstab gemessenen - Kriteriumswerten bilden, dann
wären darin verschiedene Komponenten der Urteilsgenauigkeit konfundiert. Cronbach (1955)
hat in einer grundlegenden Arbeit auf dieses Problem hingewiesen und als Lösung für den
allgemeinen Fall, dass mehrere Personen im Hinblick auf mehrere Merkmale beurteilt
werden, ein Komponentenmodell entwickelt. Basierend auf dieser grundlegenden
methodischen Arbeit von Cronbach haben Schrader und Helmke (1987) für den in der
Schulpraxis typischen Fall, dass ein und dieselbe Lehrperson mehrere Personen (z.B. Schüler
in der Klasse) anhand eine Merkmals (z.B. der Testleistung) beurteilt, drei unterschiedliche
Komponenten der Diagnosegenauigkeit unterschieden:
Die Niveaukomponente bezieht sich darauf, ob die Lehrkraft im Mittel das zu Debatte stehende Merkmal der Schüler zu hoch, gerade richtig, oder zu niedrig einschätzt. Dazu berechnet man im Falle der Testleistungsbeurteilung das mittlere Niveau der Schülerleistungen (z.B.
wie viele Aufgaben einer Testbatterie im Durchschnitt gelöst wurden) und vergleicht diesen
Wert mit dem mittleren Niveau der korrespondierenden Lehrereinschätzungen. Unter- oder
5
Überschätzung können unterschiedliche Gründe haben: z.B. Urteilstendenzen (Strenge- oder
Mildeeffekt), die Orientierung an inadäquaten Vergleichsmaßstäben (z.B. der klasseninternen
Leistungsverteilung anstelle des Kriteriums) oder fachdidaktisch fundierte Fehleinschätzungen (z.B. Unter- oder Überschätzung spezifischer Aufgabentypen als Konsequenz eines inkorrekten subjektiven Kompetenzmodells). In dem Ausmaß, in dem sich Unter- oder Überschätzungen immer wieder zeigen (z.B. zu verschiedenen Zeitpunkten, in verschiedenen Kontexten
/ Klassen oder bei verschiedenen Aufgabentypen), kann auf systematische Fehleinschätzungstendenzen geschlossen werden.
Die Streuungskomponente bezieht sich auf den Vergleich der Streuungen der empirischen
(real vorkommenden) Merkmale der Schüler und der korrespondierenden Lehrerangaben. Ist
die Streuung der Lehrerurteile deutlich geringer als die der Schülerangaben (die dabei als
Kriterium angesehen werden), dann kann darin ebenfalls eine systematische Urteilstendenz
(„Tendenz zur Mitte“) zum Ausdruck kommen, nämlich eine der Realität nicht entsprechende
Reduktion des Streubereichs der Einschätzungen, so dass z.B. real existierende große Leistungsunterschiede zwischen Schülern in der Einschätzung der Lehrkräfte nicht widergespiegelt werden. Aber auch das Gegenteil (Überdifferenzierung) ist denkbar.
Die Rangordnungs- oder Korrelationskomponente ist das Kernstück der diagnostischen Kompetenz,. Sie betrifft die Fähigkeit, die Rangordnung bzw. Fähigkeitsabstufung zwischen verschiedenen Schülern (oder Aufgaben) zu erkennen. Hierzu überprüft man mit Hilfe von Korrelationskoeffizienten, wie ähnlich die Rangordnungen der tatsächlichen und der vom Lehrer
eingeschätzten Ergebnisse der einzelnen Schüler sind. Im Idealfall stimmen beide
vollkommen überein (Korrelation von r = 1.0); im entgegengesetzten (wenngleich unrealistischen) Fall wäre die geschätzte Rangordnung die perfekte Umkehrung der tatsächlich vorliegenden (r = -1.0); gibt es keinerlei Zusammenhang zwischen beiden Messreihen (wie bei einer Zufallsangabe), dann entspräche dies einer Korrelation von r = 0. Anstelle die
Rangordnungen von Schülern (geschätzt vs. empirisch) gegenüberzustellen, kann man in
analoger Weise auch mit den realen vs. geschätzten Aufgabenschwierigkeiten verfahren.
2.4. Diagnostische Urteile im Kontext der Schule: Drei Maßstäbe
Für die Einordnung verschiedener Typen diagnostischer Leistungen, wie sie das Projekt
VERA vorsieht, ist schließlich noch von Bedeutung, welcher Maßstab verwendet wird. Jede
Bewertung eines Urteils (z.B. einer Lehrerdiagnose der Leistungen einer konkreten Klasse)
setzt notwendigerweise einen Gütemaßstab voraus, auch wenn er nicht immer explizit ist. Am
Beispiel der Schulleistungsbeurteilung lässt sich gut veranschaulichen, dass es drei grundlegende Gütemaßstäbe gibt:
Verteilungsorientierte Vergleiche. Der Vergleich der Leistung einer individuellen Person
(oder eine Klasse) mit anderen firmiert oft unter dem Label "sozialer " oder
„normorientierter“ Vergleich. Die Güte der Leistung hängt davon ab, wo sich die beurteilte
Person bzw. Klasse innerhalb der Gesamtverteilung befindet. Im Falle der Beurteilung eines/r
Schülers/in läuft dies darauf hinaus, wie gut jemand verglichen mit dem Rest der Klasse ist.
Zu solchen Einschätzungen sind Lehrkräfte im allgemeinen recht gut in der Lage. Ersetzt
man allerdings die Beurteilung von Schüler/innen innerhalb einer Klasse durch die
Bestimmung des Standortes der Klasse insgesamt, dann wird die begrenzte Reichweite
diagnostischer Urteile im Schulalltag deutlich: Lehrer orientieren sich primär an einem klasseninternen Bezugssystem (vgl. Schrader, 2001); die klassenübergreifende Beurteilung nach
einem absoluten Maßstab fällt ihnen schwer, weil ihnen die dazu nötigen Vergleichsinformationen häufig nicht verfügbar sind und derartige Urteile nicht Teil der alltäglichen Diagnosepraxis sind.
6
Kriteriale Vergleiche. Im Gegensatz dazu steht die Beurteilung einer konkreten Leistung mit
einem absoluten Maßstab, d.h. anhand eines Kriteriums, das unabhängig von der vorfindbaren
Verteilung innerhalb oder zwischen Schulklassen ist. Ein Paradebeispiel dafür ist die Einschätzung, ob jemand ein bestimmtes Lernziel erreicht hat - ja oder nein - , oder jemand einer
bestimmten Kompetenzstufe (z.B. des Leseverständnisses) zuzuordnen ist oder nicht (dies
entspräche der Diagnoseaufgabe, die Hauptschullehrkräfte im Rahmen von PISA 2000 zu
bewältigen hatten). Diese Perspektive wird mit der Einführung verbindlicher bundesweit
gültiger Bildungsstandards an Gewicht gewinnen.
Entwicklungsbezogene Vergleiche. Die pädagogisch wahrscheinlich wichtigste Dimension ist
die der Zeit: Wie gut ist jemand (ein/e Schüler/in, eine Klasse) zu einem gegebenen Zeitpunkt,
verglichen mit einem Anfangszustand, einer "base line"? Dies entspricht der sog.
"individuellen" oder „ipsativen“ Bezugsnorm und heißt nichts anderes als die Bewertung
einer Leistung in Relation zu den gegebenen Vorkenntnissen, also ob und wie viel man in
einem bestimmten Zeitraum dazugelernt und sich damit leistungsmäßig verbessert (oder auch
stagniert bzw. infolge Vergessens sogar verschlechtert hat). Dies erfordert (mindestens zwei)
Erhebungszeitpunkte.
2.5. Verschiedene Gegenstände und Analyseebenen diagnostischer Urteile
Es lassen sich verschiedene Varianten und Dimensionen diagnostischer Urteile unterscheiden
(vgl. dazu auch Helmke, 1994):
Punktuell vs. kumulativ. Beurteilung einer punktuellen (oder aktuellen) Leistung, z.B. in einer
Klassenarbeit, vs. Beurteilung der kumulativen Leistung über ein Schuljahr hinweg, z.B. in
Form einer die Leistungen über einen größeren Zeitraum zusammenfassenden Note.
Global vs. spezifisch. Beurteilung der Leistung in Form eines globalen, zwischen verschiedenen Aspekten oder Bereichen des Faches nicht weiter differenzierenden Wertes (ausgedrückt
etwa in Form einer Note oder eines Punktwertes, z.B. in „Mathematik“) vs. Beurteilung von
spezifischen Fertigkeiten und Kompetenzen (z.B. in distinkten Bereichen wie Arithmetik und
Geometrie). Gerade spezifische Diagnosen des „Noch-nicht-Gekonnten“ sind oft besonders
interessant, also z.B. die Vorhersage von Art und Häufigkeit von Fehlern oder konzeptuellen
Missverständnissen. Daneben können sich spezifische Diagnosen z.B. auch auf die Wahl der
Lösungsstrategie beziehen.
Kognitive vs. nicht-kognitive Merkmale. Neben Fachleistungen und kognitiven Merkmalen
wie Intelligenz und Begabung (Wild, 1991) oder anderen leistungsnahen Merkmalen (Carr &
Kurtz, 1991), wurde gelegentlich auch die Fähigkeit untersucht, affektive Schülermerkmale
(Helmke & Fend, 1981, 1982) oder allgemeine Persönlichkeitsmerkmale (ter-Laak, De Goede
& Brugman, 2001) zu beurteilen.
Analyseeinheit. Traditionell werden Schülerinnen und Schüler beurteilt. Als Analyseeinheit
kommt jedoch auch die Schulklasse in Betracht (typisches Item in einem Lehrerfragebogen
z.B.: Wie leistungsstark ist Ihre Klasse, verglichen mit einer durchschnittlichen Grundschulklasse?), und in gleicher Weise auch die gesamte Schule. Schließlich kann der Focus auch auf
Aufgaben liegen, deren Schwierigkeiten einzuschätzen sind.
Kombinationen. Die o.g. Dimensionen und Analyseebenen lassen sich in vielfältiger Weise
miteinander kombinieren. Beispielsweise kann eine diagnostische Leistung zum Gegenstand
haben, ob sich eine Teilgruppe von Schülern (z.B. Migranten) im Laufe eines bestimmten
Zeitraumes (individuelle Bezugsnorm) leistungsmäßig verbessert hat, verglichen mit dem
durchschnittlichen Lernfortschritt der gesamten Schülergruppe (soziale Bezugsnorm), oder ob
sich die Verteilung auf spezifische Kompetenzstufen in einem bestimmten Zeitintervall geändert hat.
7
3. DIAGNOSTISCHEN KOMPETENZ: EMPIRISCHER FORSCHUNGSSTAND
3.1. Genauigkeit von Schülerdiagnosen
Die ohnehin nicht umfangreiche bisherige Forschung zur Rolle der diagnostischen Kompetenz von Lehrkräften hat sich bisher weitgehend auf einen Teilaspekt der diagnostischen
Kompetenz beschränkt: auf die Diagnosegenauigkeit bei kognitiven Leistungen. In den meisten Untersuchungen werden ausschließlich klassenspezifische Korrelationen zwischen Lehrerurteilen und korrespondierenden Schülerleistungen berichtet. Damit wird eine der Komponenten diagnostischer Kompetenz, die Rangordnungskomponente, zugrunde gelegt. Dabei
hat sich gezeigt, dass die mittleren Korrelationen meistens im Bereich zwischen r = .60 und
.70 liegen (Hoge & Coladarci, 1989; Schrader, 1989, 2001), was häufig als Hinweis darauf
gesehen wird, dass Lehrkräfte im großen und ganzen recht gut über die Leistungsunterschiede
in ihrer Klasse unterrichtet sind. Neuere Arbeiten (z.B. Bates & Nettelbeck, 2001; Feinberg &
Shapiro, 2003) bestätigen dieses Bild. Mittlere Korrelationen maskieren aber oft große
Unterschiede zwischen der Diagnosegenauigkeit einzelner Lehrkräfte.
Wir müssen allerdings darauf hinweisen, dass das Prinzip „je genauer, desto besser“ für
Lehrerurteile zu relativieren ist. Erstens wäre es weltfremd, von Lehrkräften extrem präzise
diagnostische Leistungen abzuverlangen. Die Orientiertheit z. B. über Fähigkeitsunterschiede
zwischen Schülern, über schwierigkeitsbestimmende Merkmale von Aufgaben oder den
Standort der eigenen Klasse muss lediglich in einer Zone liegen, die tolerierbar ist. Da hierfür
eine Metrik fehlt und sich Standards schwer definieren lassen, muss die Quantifizierung einer
solchen Zone zunächst offen bleiben. Dazu kommt (Schrader, 1997; Weinert & Schrader,
1986): Es spricht einiges dafür, dass nicht die exakte Einschätzung, sondern eher eine leicht
positiv verzerrte Überschätzung des Leistungspotenzials von Schülern pädagogisch günstig
ist, weil dies mit höherer Wahrscheinlichkeit dazu führt, dem „Kind anspruchsvolle, gerade
noch im Rahmen seiner Bewältigungsmöglichkeiten liegende Aufgaben zu stellen und ihm so
günstige Entwicklungsanreize (zu) bieten“ (Schrader, 2001, S. 92).
In Untersuchungen zur Rangordnungskomponente – d.h. der Genauigkeit, mit der Schüler
hinsichtlich des zu beurteilenden Merkmals in eine Rangreihe gebracht werden – zeigten sich
im Durchschnitt mittelhohe Zusammenhänge (r = .64) und zugleich erhebliche Unterschiede
zwischen Lehrkräften. Arbeiten, in den zusätzlich zur korrelativen Übereinstimmung auch das
Urteilsniveau untersucht wird, sind selten: so z.B. bei Bates & Nettelbeck (2001), die eine
Tendenz zur Überschätzung der Leseleistung von 6- bis 8-jährigen Kindern, insbesondere bei
leseschwachen Schülern, fanden. In der Untersuchung von Schrader und Helmke (1987) überschätzten Lehrkräfte die Leistungen ihrer Schüler im Mittel (Niveaukomponente) deutlich und
die Leistungsstreuung innerhalb der Klasse (Streuungskomponente) leicht. Die drei genannten
Komponenten der Akkuratheit hingen nur schwach miteinander zusammen.
Angelehnt an unsere eigene Arbeit haben Spinath und Höfer (2003) ebenfalls eine Komponentenanalyse der Diagnosegenauigkeit durchgeführt, wobei als Schülermerkmale Intelligenz,
Selbstkonzept, Ängstlichkeit und Lernmotivation zugrunde gelegt wurden. Die Werte für die
Rangordnungskomponente waren deutlich niedriger als die bei Schülerleistungen üblicherweise gefundenen Ergebnisse (Intelligenz r = .40, Selbstkonzept, r = .39, Ängstlichkeit r =
.15, Lernmotivation, r = .20), was auf die höheren Urteilsanforderungen bei solchen Merkmalen, bei den Selbstberichtsskalen zusätzlich aber auch auf höhere Messungenauigkeiten auf
Seiten des Kriteriums hindeuten könnte. Eine Überschätzung der mittleren Merkmalsausprägung (Niveaukomponente) konnte hier nur für Ängstlichkeit, eine Überschätzung der Merkmalsstreuung (Differenzierungskomponente) nur für die Lernmotivation und abgeschwächt
für das Selbstkonzept gefunden werden. Auch in dieser Arbeit gab es nur sehr schwache Zusammenhänge zwischen den einzelnen Komponenten der Diagnosegenauigkeit, und zwar sowohl innerhalb der einzelnen Merkmale als auch über die verschiedenen Merkmale hinweg.
8
Hosenfeld, Helmke und Schrader (2002) verglichen darüber hinaus unterrichtsbezogene Lehrereinschätzungen zu Aufmerksamkeit, Verständnis, Interesse und Unterforderung mit den
entsprechenden Schülerselbsteinschätzungen. Bemerkenswert ist hier, dass Lehrkräfte zu einer Unterschätzung von Aufmerksamkeit, Verständnis und Interesse tendieren. Darüber hinaus unterschätzen sie auch das Ausmaß , in dem sich Schüler unterfordert fühlen, trauen also
den Schülern insgesamt gesehen relativ wenig zu: Warum es hier zu Ergebnissen kommt, die
denen zur Leistungseinschätzung entgegengesetzt sind, lässt sich bislang noch nicht genau sagen. Möglicherweise spielen hier selbstwertdienliche Urteilstendenzen auf Seiten der Schüler,
eher konservative Urteile bei Lehrern in der Klassensituation und unterschiedliche Informationsquellen (Verhaltensbeurteilung vs. Selbsteinschätzung) eine Rolle.
3.2. Genauigkeit der Diagnose von Aufgabenschwierigkeiten
Sehr wenige Untersuchungen liegen zur Aufgabenschwierigkeitsschätzung für die eigene
Klasse vor (für nicht klassenbezogene Einschätzungen vgl. Thonhauser, Buschmann &
Schmich, 2003). In diesen Arbeiten zeigte sich eine Tendenz zur Überschätzung im Niveau
der Klassenleistung (Hosenfeld et al., 2002; Schrader, 1989; Lehmann, Peek, Gänsfuß,
Lutkat, Mücke & Barth, 2000). Bezogen auf die Rangordnungskomponente, also die
Übereinstimmung in der Rangordnung der Schwierigkeiten von verschiedenen Aufgaben,
ergaben sich auch hier mittelhohe Durchschnittswerte: r = .33 (Schrader, 1989), r = .36 in
Klassenstufe 5 bzw. r = .43 in Klassenstufe 9 (Lehmann et al., 2000) und r = .56 (Hosenfeld
et al., 2002) - in Verbindung mit erheblichen Lehrer- bzw. Klassenunterschieden.
3.3. Diagnostische Kompetenz und Unterrichtserfolg
Diagnostische Kompetenz ist vor allem deshalb von Interesse, weil diesem Merkmal eine
wichtige Rolle für die Unterrichtsgestaltung und den Unterrichtserfolg zugeschrieben wird.
Leitender Gesichtspunkt ist die Adaptivität des Unterrichts, d.h. die Notwendigkeit einer Anpassung des Unterrichts an die Lernvoraussetzungen der Schüler (Prinzip der Passung): Dafür
ist es wichtig, dass Lehrkräfte hinreichend über den Leistungsstand, die verfügbaren Vorkenntnisse und das erzielte Lernergebnis, ggf. auch über nicht-kognitive Lernvoraussetzungen
orientiert sind. Lehmann et. al. (2000) fanden in der QuaSUM-Untersuchung in der 5.
Klassenstufe keinen Zusammenhang zwischen aufgabenbezogener Diagnoseleistung
(Rangordnungskomponente) und Leistung, r = .03, allerdings nicht bezogen auf den
Lernzuwachs, sondern auf die am Ende des Schuljahrs einmalig erhobene Testleistung. Auch
in der 9. Klassenstufe konnte für zwei Schulformen (Gesamtschule Erweiterungskurs r = .01;
Realschule r = -.01) kein Zusammenhang mit der Leistung festgestellt werden, wohl aber für
die beiden anderen Schulformen (Gesamtschule Grundkurse r = .28; Gymnasien r = .24) gab.
Einen positiven Zusammenhang zwischen Diagnosekompetenz und residualisiertem
Leistungszuwachs berichten auch Fisher et al. (1978) im Rahmen von Auswertungen zur
„Beginning Teachers Evaluation Study“ (BTES).
In unseren eigenen Untersuchungen zeigte sich dagegen, dass hohe diagnostische Kompetenz
nur dann für den Lernerfolg bedeutsam war, wenn sie mit einem hohen Maß an Strukturierungshilfen einerseits und einem hohen Maß an individueller fachlicher Unterstützung andererseits einherging (Helmke & Schrader, 1987; Schrader & Helmke, 1987; Schrader, 1989).
Der Lernerfolg der Klasse war dann besonders hoch, wenn Lehrer mit einer hohen Diagnosekompetenz gleichzeitig viele Strukturierungs- und Unterstützungsmaßnahmen einsetzten (vgl.
Abbildung 1). Ein vergleichbarer Befund ergab sich auch für die aufgabenbezogene
Diagnosekompetenz (Schrader, 1986). Eine ähnliche Wechselwirkung zwischen diagnostischer Kompetenz und Unterrichtskompetenz konnte darüber hinaus auch in einer Folgestudie
nachgewiesen werden (Weinert & Lingelbach, 1995).
9
Leistungszuwachs
4
niedrige Strukturierung
hohe Strukturierung
3
2
1
0
niedrige Diagnosekompetenz
hohe Diagnosekompetenz
Abbildung 1: Münchner Studie: Entwicklung der Mathematikleistung in Abhängigkeit von
der Diagnosekompetenz des Lehrers und der Häufigkeit von Strukturierungshilfen
Diesen Ergebnissen zufolge hängt es also offenbar von zusätzlichen Bedingungen ab, ob Diagnosekompetenz wirksam ist. Unsere eigenen Befunde legen nahe, dass Diagnosekompetenz
vor allem dann wirksam ist, wenn ihre Wirkung durch das unterrichtliche Handeln vermittelt
wird (Schrader, 1989). Welche Bedingungen im Falle der positiven Befunde bei Fisher et al.
(1978) sowie Lehmann et al. (2000) – hier allerdings mit der Einschränkung, dass kein
Lernzuwachs erfasst wurde – , muss offen bleiben. Denkbar und mit den eigenen Ergebnissen
vereinbar wäre etwa, dass im Unterschied zu unserer eigenen Untersuchung die für die Umsetzung der Diagnosen erforderlichen Unterrichtsmaßnahmen bei allen untersuchten Lehrkräften ausreichend häufig vorgekommen sind und sich die diagnostischen Kompetenzen der
Lehrkräfte deshalb auch im Lernerfolg der Schüler niederschlagen konnten.
Diagnostische Kompetenz steht also nicht unbedingt in einem einfachen - linearen und direkten – Verhältnis zum Lernerfolg der Klasse. Vielmehr scheint sie eher eine Art Katalysatorvariable zu sein, die den Einfluss bestimmter Unterrichtsmerkmale moderiert. Umgekehrt betrachtet sind bestimmte Unterrichtsmaßnahmen offenbar vor allem dann wirksam, wenn sie an
die Lernvoraussetzungen und Leistungen der Schüler angepasst sind.
3.4. Förderung und Verbesserung diagnostischer Kompetenz
Angesichts der großen Bedeutung der diagnostischen Kompetenz im Rahmen von Schule und
Unterricht ergibt sich die naheliegende Frage, wie man dieses Merkmal fördern und verbessern kann. Darüber ist bislang kaum etwas bekannt. Ein Vorschlag dazu stammt von Wahl,
Weinert und Huber (1997). Sie empfehlen Lehrkräften, möglichst häufig Situationen
herzustellen, in denen die Leistungen von Schülern vorgesagt und gleichzeitig die tatsächlichen Schülerleistungen erfasst werden können. Die Vorhersagen können sich auf die Leistung
der ganzen Klasse oder einzelner Schüler beziehen. Die Vorhersagen werden dann an der empirischen Realität überprüft, indem sie mit Testdaten verglichen werden.
Das Grundprinzip dieses Ansatzes besteht darin, im Schulalltag oft nur implizit abgegebene
Urteile explizit zu machen und diese Urteile dann mit den tatsächlichen Ergebnissen zu
vergleichen, um eine Reflektion der zugrundeliegende Wissensbasis anzuregen. Dahinter steht
die Annahme, dass ein solches Vorgehen den Lehrer zwingt, die eigenen impliziten Hypothe-
10
sen zur Leistung und Fähigkeit von Schülern zu explizieren und einer empirischen Bewährung auszusetzen. Verbesserungen der diagnostischen Kompetenz könnten bereits durch das
Bemühen, präzise und spezifische Hypothesen zu formulieren, resultieren. Verbesserungen
sind insbesondere dann zu erwarten, wenn Diskrepanzen zwischen erwarteten und tatsächlich
erzielten Leistungen dazu genutzt werden, um nach Gründen für die erwartungswidrigen Ergebnisse zu suchen, und wenn die entsprechenden Hypothesen durch das Einholen weiterer
Informationen überprüft werden (vgl. dazu im einzelnen Schrader, 1989, S. 268-269). Der
Vergleich zwischen vorhergesagtem und tatsächlich erzieltem Ergebnis dient also nicht zuletzt dem Ziel, eine Selbstreflexion über die eigenen Wissensgrundlagen in Gang zu setzen
und das Wissen dadurch zu verbessern, zu präzisieren und zu aktualisieren. Eine hohe Diagnosegenauigkeit ist dabei kein Selbstzweck und auch nicht das eigentliche Ziel, sondern eher
Beiprodukt einer gezielten Auseinandersetzung mit der zugrunde liegenden Wissensbasis. Der
kompetente Diagnostiker ist dadurch gekennzeichnet, dass er sich auf spezifische und aktuelle
Beobachtungen stützt und sich um präzise und überprüfbare Vorhersagen bemüht, statt sich
von allgemeinen und vagen Erwartungen und Einschätzungen leiten zu lassen. Wichtig ist dabei ein solides, handlungsnahes Wissen über Urteilsbildung, Urteilsfehler und diagnostische
Methoden sowie eine professionelle diagnostische Einstellung, die dadurch gekennzeichnet
ist, dass eine ständige Überwachung und Überprüfung der eigenen Diagnoseleistungen als
wichtiger Bestandteil der Berufsrolle betrachtet wird.
Darüber, wie die kognitiven Grundlagen guter diagnostischer Kompetenz, also die vom Diagnostiker verwendeten Modelle oder Schemata aussehen, ist noch wenig bekannt. Zur Charakterisierung von Urteilsleistungen und ihrer Genauigkeit wird gelegentlich der bekannte
Linsenmodellansatz herangezogen (Helmke, 2003; Kleber, 1992). Danach gibt es für das zu
beurteilende und nicht direkt beobachtbare (distale) Merkmal (z.B. die Intelligenz eines
Schülers) eine Reihe von beobachtbaren Indikatoren (proximalen Merkmalen), mit deren
Hilfe auf das zu beurteilende Merkmal geschlossen werden kann. Die Urteilsgüte hängt davon
ab, ob und in welchem Maße der Urteiler die tatsächlich vorhersagekräftigen ‚validen’ Indikatoren (z.B.: Schüler kommt gut mit Aufgaben zurecht, die Abstraktionsleistungen erfordern) für sein Urteil nutzt. Ungenaue Urteile resultieren, wenn der Beurteiler keine validen
Indikatoren verwendet (karikierend dargestellt etwa: hohe Stirn und Brille als vermeintliche
Intelligenzindikatoren). Die Bezeichnung „Linsenmodell“ rührt daher, dass distales Merkmal,
proximale Merkmale und Urteil in Form einer konvexen Linse angeordnet werden können.
Bei dieser Betrachtungsweise käme es darauf an, Lehrkräfte für spezifische und valide Indikatoren der Leistungsfähigkeit von Schülern zu sensibilisieren. Lehrkräfte müssten nicht nur
wissen, welche Indikatoren für ein zutreffendes Urteil relevant sind (z.B. Lösen diagnostisch
aufschlussreicher Aufgaben; Qualität von Einfällen und andere Hinweise auf vertieftes Verständnis; Güte bestimmter Lösungswege; Auftreten bestimmter Fehler), sondern sie müssten
vor allem auch über effektive diagnostische Methoden verfügen (neben einer auf wesentliche
Aspekte fokussierten Beobachtung, vor allem auch die Fähigkeit, sich mit geeigneten Aufgabenstellungen sehr schnell einen genauen Überblick über das aktuelle Leistungsvermögen eines Schülers zu verschaffen) und die gewonnene Informationen in ein zutreffendes Modell
oder Schema integrieren können. Aufgabenbezogenes Wissen, etwa über die mit bestimmten
Aufgaben verbundenen kognitiven Anforderungen, hätten dabei einen zentralen Stellenwert.
4. VERGLEICHSARBEITEN UND DIAGNOSEKOMPETENZ
4.1. Das Projekt VERA (Vergleichsarbeiten in der Grundschule)
Das Projekt Vergleichsarbeiten in 4. Grundschulklassen (VERA) ist ein Gemeinschaftsunternehmen von zur Zeit sieben Bundesländern (Berlin, Brandenburg, Bremen, MecklenburgVorpommern, Nordrhein-Westfalen, Rheinland-Pfalz, Schleswig-Holstein). Das zugrunde
11
liegende Konzept von VERA wurde von den beiden zuerst genannten Autoren als wissenschaftlichen Leitern des Projektes entwickelt und verfolgt mehrere Ziele: von der Qualitätssicherung über die damit verknüpfte angestrebte Verbesserung der Unterrichtsqualität sowie
diagnostischer Lehrerkompetenzen, eine fundiertere Schullaufbahnberatung der Eltern bis hin
zu positiven Nebenwirkungen wie der beschleunigten Entwicklung informationstechnischer
Kompetenzen (wegen der unumgänglichen Nutzung des Internet) und der erleichterten
Durchsetzung innovativer Rahmenpläne und Kerncurricula.
Wir sehen an dieser Stelle davon ab, den bildungspolitischen Hintergrund von Vergleichsarbeiten zu skizzieren. Hier nur soviel: Im Kern umfassen die Vergleichsarbeiten im Projekt
VERA eine vergleichende Leistungsmessung in den Fächern Mathematik und Deutsch in allen vierten Klassen der sieben Bundesländer (knapp 400.000 Schülerinnen und Schüler) kurz
nach Beginn der 4. Klassenstufe. Verwendet wird ein auf der Grundlage von ausführlichen
Pilotierungen und Normierungen (Eichungen) gewonnener Aufgabensatz. Zur Leistungserfassung werden im Fach Mathematik zehn Aufgaben zentral vorgegeben, weitere zehn Aufgaben
werden von den Schulen auf der Basis eines Steuerprogramms, das eine ausgewogene Mischung von Anforderungstypen und Inhaltsbereichen gewährleistet -, aus dem Netz heruntergeladen. Für Einzelheiten sei auf detaillierte Darstellungen von VERA in anderen Publikationen (Helmke & Hosenfeld, 2003a, 2003b; Helmke, 2003; Helmke & Hosenfeld, in Druck) sowie auf die VERA-Homepage verwiesen (http://www.uni-landau.de/~vera/).
4.2. Einbau diagnostischer Leistungen in das Projekt VERA
Mit diagnostischen Aufgabenstellungen werden die Lehrkräften in VERA bereits konfrontiert,
wenn sie innerhalb einer Schule gemeinsam entscheiden müssen, welche Aufgaben (einheitlich für die gesamte Schule, d.h. für alle Parallelklassen) ausgewählt werden. Wenn diese
Entscheidung reflektiert und rational begründet erfolgen soll, dann ist dazu eine
Auseinandersetzung mit (a) den Merkmalen der Aufgaben und möglicherweise auch (b) den
erwarteten Leistungen der Schülerinnen und Schüler erforderlich.
Das Projekt VERA bietet eine ganze Reihe von Möglichkeiten, Diagnoseleistungen
systematisch zu untersuchen. Man kann verschiedene Urteile erfassen, eine unterschiedliche
Anzahl von Zeitpunkten einbeziehen, verschiedene Komponenten der Diagnosegenauigkeit
berücksichtigen und die resultierenden Diagnosekennwerte in unterschiedliche
Vergleichsgruppen einordnen. Im einzelnen kann man diese Aspekte, die sich zum großen
Teil auch miteinander kombinieren lassen, wie folgt berücksichtigen:
•
Gegenstand der Diagnose: Neben der Leistung bei verschiedenen Aufgaben (wie viele
Schüler können eine Aufgabe lösen?) kann man auch beurteilen lassen, wie viele
Schüler sich innerhalb einer bestimmten Kompetenzstufe befinden oder welche Fehler
oder Lösungsstrategien bei einzelnen Aufgaben vorkommen. Außerdem kann man die
Aufgaben nach bestimmten schwierigkeitsbestimmenden Merkmalen (z.B. Zahl der erforderlichen Lösungsschritte) einschätzen lassen.
•
Häufigkeit: Statt einer Einpunktmessung („Momentaufnahme“) sind künftig
Mehrfachmessungen möglich, z.B. in Form einer Wiederholung der Vergleichsarbeit
nach einem Quartal. Wenn diese vorgenommen worden sind, dann kann man
Veränderungen direkt einschätzen lassen oder für jeden Messzeitpunkt separate Urteile
erheben, dafür Diagnosekennwerte berechnen und etwaige Veränderungen der
Diagnoseleistung analysieren.
•
Komponenten der Diagnosegenauigkeit: Die grundlegenden Komponenten (Niveau-,
Streuungs-, Rangordnungskomponente) können sich auf die Gesamtheit der verwendeten Aufgaben oder auf Teilbereiche (z.B. Arithmetik, Geometrie) beziehen. Aussagen
12
zum Niveau (Über- oder Unterschätzung) lassen sich auch für einzelne Aufgaben gewinnen.
•
Vergleichsbasis: Man kann die Diagnosegenauigkeit einzelner Lehrkräfte mit den
Diagnoseleistungen ganz unterschiedlichen Gruppen vergleichen. Möglich sind z. B.
bundeslandübergreifende Vergleiche, Vergleiche zwischen Schulen innerhalb von
Bundesländern oder Vergleiche zwischen Parallelklassen innerhalb von Schulen.
Einige der möglichen Vorgehensweisen sollen anhand der aktuellen VERA-Erhebung
2003/2004, die allerdings erst einen kleinen Ausschnitt aus dem Gesamtspektrum möglicher
Untersuchungen realisiert, veranschaulicht werden.
Zurück zur Erhebung VERA im Jahr 2003: Um Diagnoseleistungen systematisch anzuregen
und zu überprüfen, werden die Lehrkräfte nach der Aufgabenauswahl (und noch vor der
Durchführung der eigentlichen Vergleichsarbeit) gebeten, vorherzusagen, wie viele
Schülerinnen und Schüler ihrer Klasse jede der Aufgaben lösen werden (vgl. Abbildung 2).
Die Erfassung der Schwierigkeitsurteile erfolgt mit Hilfe eines von uns zu diesem Zweck
entwickelten menügesteuerten Auswahlprogramms. Darin ist zwingend vorgesehen, dass alle
Lehrkräfte Schwierigkeitseinschätzungen für die ausgewählten zehn Mathematikaufgaben abgeben. Nur wenn die Lehrkräfte die entsprechenden Eintragungen machen, lässt sich das
EDV-Programm überhaupt beenden. Wie sich der damit verbundene „sanfte Zwang“
auswirkt, wird die begleitende Evaluation des Gesamtvorhabens zeigen.
Nach Durchführung der Vergleichsarbeiten werden diese von den Lehrkräften schulintern
nach von uns vorgegebenen Richtlinien ausgewertet. Der Vergleich der geschätzten mit den
realen Aufgabenschwierigkeiten und die Berechnung von Diagnosekennwerten werden
anhand eines ebenfalls von uns bereitgestellten menügesteuerten Programms erfolgen. Zu
diesem Zweck müssen die tatsächlichen Aufgabenschwierigkeiten, d. h. die von der Klasse
bei den einzelnen Aufgaben erreichten mittleren Leistungen der Klasse, in eine Datenbank
eingetragen werden. Das Programm berechnet dann die verschiedenen Diagnosekennwerte.
13
Abbildung 2: Eingabe der Lösungshäufigkeiten im internetbasierten Aufgabenauswahlprogramm des Projektes VERA in einer fiktiven Klasse
Zur Veranschaulichung der Auswertungsmöglichkeiten soll kurz auf die beiden Aspekte, die
in der aktuellen VERA-Erhebung 2003/2004 im Vordergrund stehen werden, eingegangen
werden:
•
Orientierung über das Leistungsniveau einer Klasse: Der Vergleich der geschätzten
mit den tatsächlichen Aufgabenschwierigkeiten liefert zunächst Information darüber,
ob und inwieweit das Leistungsniveau der Klasse realistisch eingeschätzt. Ergänzend
dazu kann der Vergleich der tatsächlichen Aufgabenleistungen der Klasse mit den
Normwerten, d. h. den auf der Basis der Gesamtpopulation bestimmten Lösungshäufigkeiten, interessante Informationen liefern: Weichen die Klassenleistungen auffällig von
den Normwerten ab? Und beurteilt die Lehrkraft die populationsbezogenen Leistungen
14
womöglich genauer als die klassenbezogenen, d. h. ist er/sie vielleicht sensibel für die
in den Populationsangaben zum Ausdruck kommenden Aufgabenmerkmale, weniger
dagegen für die Besonderheiten der eigenen Klasse?
•
Aufgabenbezogene Diagnosegenauigkeit: Hier geht es zunächst um die Genauigkeit, mit
der Schwierigkeitsunterschiede zwischen Aufgaben vorhergesagt werden (Rangordnungskomponente), ausgedrückt durch eine Korrelationskoeffizienten. Zusätzlich zur
Orientierung über das allgemeine Leistungsniveau der Klasse kann auch geprüft
werden, ob alle Aufgabenschwierigkeiten gleichermaßen unter- oder überschätzt
werden oder ob sich z. B. bereichsspezifische Unterschiede zeigen.
Eine weitere Fragestellung (nämlich die, aufgrund welcher Merkmale die Schwierigkeit
von Aufgaben zustande kommt) berührt unseres Erachtens einen Kernbereich
didaktischer Expertise, der im Zuge der aktuellen wissenschaftlichen Bemühungen,
bundesweit gültige Standards zu entwickeln und dafür Kompetenzmodelle zugrunde zu
legen, zunehmend an Bedeutung gewinnt: Diagnostiker-Teams in Schulen könnten zum
Zwecke der Verbesserung der Diagnoseleistung und des didaktischen Vorgehens die
schwierigkeitsbestimmenden Merkmale von Aufgaben eruieren, also der Frage
nachgehen: Was macht Aufgaben leicht oder schwierig?
Und, auf der personalen Ebene: Gibt es Personengruppen, bei denen die
diagnostizierende Lehrkraft genau urteilt, und andere, bei denen sie „daneben“ liegt?
Sind möglicherweise systematische Unter- oder Überschätzungen spezifischer
Schülergruppen (etwa Kinder nicht-deutscher Herkunftssprache) verantwortlich für
Diskrepanzen zwischen eingeschätzter und tatsächlicher Aufgabenschwierigkeit?
Vielleicht erschließt sich die Bedeutung verschiedener Dimensionen, wenn man ein fiktives
Beispiel zugrunde legt. In Abbildung 3 erfolgt dies für 10 Mathematikaufgaben, wobei die
Buchstaben in Klammern für die Lernbereiche Arithmetik, Geometrie und Sachrechnen
stehen.
15
Vorhersage der Lehrkraft
tatsächliche Leistung der Klasse
Lösungsquote in % der Klasse
80
60
40
20
0
A1 (A) A2 (A) A3 (A) A4 (G) A5 (G) A6 (G) A7 (G) A8 (S) A9 (S) A10 (S)
Aufgaben (in Klammern; Kennzeichnung des Inhaltsbereichs)
Abbildung 3: Vorhersage und tatsächlich erzielte Mathematikleistung (fiktive Daten).
Dies ergibt für die drei Komponenten Folgendes:
Niveaukomponente: Liegt der Mittelwert der eigenen Vorhersagen über oder unter dem Mittelwert der tatsächlichen Leistungen (Anzahl von Schülern, die die ausgewählten Aufgaben
lösen)? In dem in Abbildung 3 dargestellten Beispiel überschätzt die Lehrkraft im Mittel die
Klasse: Bei sieben der zehn Aufgaben liegen die Erwartungen über den empirischen Werten.
In besonderem Maße gilt dies für die drei Aufgaben aus dem Bereich der Arithmetik (in der
Abbildung die drei linken Balkenpaare, mit A für Arithmetik gekennzeichnet).
Streuungskomponente: Ist die Differenz zwischen maximaler und minimaler vorhergesagter
Lösungsquote kleiner oder größer als die Differenz zwischen maximaler und minimaler empirischer Lösungshäufigkeit? Noch präziser kann diese Komponente ermittelt werden, wenn die
Standardabweichungen über die zehn gewählten Aufgaben hinweg berechnet und einander
gegenüber gestellt werden. Im dargestellten Beispiel (Abbildung 3) überschätzt die Lehrkraft
auch die Streubreite der Leistungen über die zehn Aufgaben hinweg. Sowohl die Standardabweichung als auch die Differenz zwischen schwerster und leichtester Aufgabe (bei der Vorhersage: Lösungsquote der Aufgabe 1 minus Lösungsquote der Aufgabe 10; bei den empirischen Werten Lösungsquote der Aufgabe 8 minus Lösungsquote der Aufgabe 7) fallen für die
empirisch ermittelten Lösungsraten geringer aus als vorhergesagt.
Rangordnungskomponente: Ist die Aufgabe mit der niedrigsten vorhergesagten Lösungsquote
auch tatsächlich diejenige mit der höchsten empirischen Schwierigkeit, die mit der höchsten
vorhergesagten Lösungsquote auch die empirisch leichteste? Der Vergleich der Rangreihen
der Aufgabenschwierigkeit (vorhergesagt vs. empirisch) bietet Anhaltspunkte für die
Präzision, mit der Unterschiede der Aufgabenschwierigkeit erfasst und beurteilt wurden.
Große Abweichungen der Rangfolgen könnten darauf hindeuten, dass schwierigkeitsrelevante
Merkmale der Aufgaben (z.B. die Anforderungen an die Lesekompetenz bei Mathematikauf-
16
gaben) nicht ausreichend bedacht wurden. Im dargestellten Beispiel gelingt die Vorhersage
der Rangordnung der Schwierigkeit gut, der Rangkorrelationskoeffizient beträgt r = .70.
Die Darstellung in Abbildung 3 war aufgabenbasiert. Für den nächsten VERA-Zyklus im
Jahre 2004 planen wir zusätzlich - ähnlich wie bei PISA 2000 - Diagnosen auf der Ebene von
Kompetenzstufen: Lehrkräfte schätzen vor der Durchführung der Vergleichsarbeit ein, wieviele Schülerinnen und Schüler ihrer Klasse auf verschiedene Kompetenzstufen entfallen.
Diese Schätzung wird mit der realen Verteilung von Kompetenzstufen in der jeweiligen
Klasse verglichen. Dies kann etwa wie folgt aussehen (vgl. Abbildung 4):
geschätzt
50
real
Prozent
40
30
20
10
0
unter Stufe 1
Stufe 1
Stufe 2
Stufe 3
Kompetenzstufe
Abbildung 4: Vergleich der vorausgesagten mit der (testbasierten) realen
Kompetenzstufenverteilung in einer Klasse (fiktive Daten)
Im o.g. Fall (es handelt sich um fiktive Daten) würde es sich ähnlich verhalten wie bei PISA
2000: Der Anteil der Schülerinnen und Schüler in der Risikogruppe („unter Stufe 1“) würde
deutlich unterschätzt.
Eine Variante dieser diagnostischen Aufgabe, die wir für den nächsten Zyklus planen,
bestünde darin, eine Standortbestimmung der Klasse dadurch vorzunehmen, dass die
klasseninterne Kompetenzstufenverteilung geschätzt und mit der Gesamtverteilung (auf
Landesebene, oder auch bundesländerübergreifend) verglichen wird. Einfacher ist
demgegenüber die globale Einschätzung der eigenen Klasse, wie sie bereits jetzt (VERA
2003) erhoben wird: Die Lehrkräfte werden gefragt, wie sie die Leistungsstärke der eigenen
Klasse in Mathematik bzw. Deutsch beurteilen; dabei sollen sie ausdrücklich einen
schulübergreifenden Maßstab anlegen und schätzen, ob sich die eigene Klasse im obersten
Fünftel, im zweitobersten Fünftel...usw. der Gesamtleistungsverteilung in Deutschland
befindet.
4.3. Verbesserung diagnostischer Lehrerkompetenzen im Rahmen von VERA
Die in VERA erfolgte umfassende Erfassung von Diagnoseleistungen bieten günstige
Voraussetzungen für eine Verbesserung diagnostischer Kompetenzen. Lehrkräfte können
durch die vorgesehene Rückmeldung, insbesondere durch den Vergleich ihrer Leistungen mit
17
denen anderer Lehrkräfte ein realistisches Bild ihrer Stärken und Schwächen gewinnen.
Ausgangspunkt von Bemühungen zur Verbesserung sind die rückgemeldeten Ergebnisse zum
Vergleich von vorhergesagter und tatsächlich erzielter Mathematikleistung der Klasse (vgl.
Abbildung 3), die Lehrkräfte erhalten, nachdem die Vergleichsarbeiten von ihnen ausgewertet
und die Ergebnisse in die Datenbank eingetragen sind. Da für die Verbesserung der
Diagnosekompetenzen noch kein ausgearbeitetes Programm vorliegt, sollen nur für die beiden
wichtigsten Diagnosekomponenten exemplarisch einige Möglichkeiten aufgezeigt werden.
Wie in Abschnitt 3.4 dargestellt, geht es dabei im wesentlichen darum, durch den Vergleich
der vorhergesagten mit den tatsächlichen Ergebnissen eine Selbstreflexion über das dem
Urteil zugrunde liegende Wissen anzuregen. Dazu wäre es sinnvoll, dass sich die beteiligten
Lehrkräfte im ersten Schritt zunächst einmal individuell mit ihren Diagnoseleistungen
auseinandersetzen und nach möglichen Gründen für Abweichungen zwischen vorgesagten
und tatsächlichen Ergebnissen zu suchen.
Niveaukomponente. Gründe für Diskrepanzen zwischen Urteilsniveau und tatsächlichem
Leistungsniveau können sowohl bei den Lehrkräften selbst als auch bei den Schülern zu
lokalisieren sein. Im Falle einer generellen Überschätzung der Klassenleistung wäre etwa zu
überlegen, ob dies auf überhöhte eigene Erwartungen und Ansprüche hindeuten könnte oder
ob die Klasse unerwartet schlecht abgeschnitten hat. Ein Indiz für zu hohe eigene Ansprüche
wäre, wenn die eigenen Einschätzungen sehr viel höher ausfallen als die anderer Lehrkräfte,
insbesondere solcher mit vergleichbaren Klassen. Dafür, dass die Leistungen schlechter
ausgefallen sind als erwartet, kann es eine ganze Reihe von Gründen geben: Hat die Lehrkraft
die Besonderheiten der Testsituation zu wenig in Rechnung gestellt? Hat sie zu wenig
berücksichtigt, dass nicht nur eine einzelne Aufgabe, sondern ein ganze Reihe von Aufgaben
unter Zeitdruck bearbeitet werden mussten? Waren die Schüler in der Testsitutation vielleicht
unmotiviert oder ängstlich? Hat sich die Lehrkraft daran orientiert, was durchgenommen
wurde, und dabei einfach unterstellt, dass das einmal Durchgenommene auch beherrscht
werden müsste und Faktoren wie Vergessen oder mangelnde Sicherheit in der Anwendung
des Gelernten nicht genügend in Rechnung gestellt? Hat sie sich bei der Durchnahme
hinreichend vergewissert, ob der Stoff auch tatsächlich beherrscht wird? Oder hat sie sich bei
der Beurteilung zu sehr an den Leistungsstärkeren orientiert?
Rangordnungskomponente. Was sind Gründe dafür, dass Lehrkräfte nicht hinreichend über
die Rangordnung der Aufgabenschwierigkeiten und damit letztlich über
Schwierigkeitsabstufungen bei den Aufgaben orientiert sind? Hierfür dürfte zum einen
psychologisch und fachdidaktisch fundiertes Sachwissen, also Wissen über Strukturmerkmale
von Aufgaben und die damit verbundenen Anforderungen zentral sein (Aufgabenwissen).
Welche Lösungsschritte sind bei einer Aufgabe nötig, wie schwer und wie fehleranfällig sind
diese Schritte allgemein bzw. für Kinder eines bestimmten Alters. Zum anderen ist Wissen
darüber erforderlich, wie vertraut Kinder mit einzelnen Aufgabenarten sind (Personenwissen).
Dazu ist wiederum wichtig zu wissen, wie intensiv und wie erfolgreich einzelne Stoffgebiete
durchgenommen wurden, wie gut die Schüler die Inhalte verstanden haben, wie lange die
Behandlung des Stoffgebiets zurückliegt und anderes mehr. Hilfreich für die Suche nach
Gründen ist dabei etwa, sich klar zu machen, welche Aufgaben genau oder ungenau
eingeschätzt werden. Damit verbunden ist die Frage, ob bestimmte Stoffgebiete oder
Aufgabenbereiche generell für zu leicht oder zu schwer gehalten werden. Werden
möglicherweise bei bestimmten Stoffen lösungsrelevante Aspekte oder Zwischenschritte
übersehen oder als selbstverständlich unterstellt? Werden mögliche Missverständnisse oder
Fehlermöglichkeiten unterschätzt?
Dies sind einige Empfehlungen, die Elemente eines noch zu entwickelnden Programms zur
Förderung diagnostischer Kompetenzen sein könnten. Um das Vorgehen stärker zu
strukturieren, sollte möglichst ein Fragenkatalog entwickelt werden, der Lehrkräften genauere
18
Hinweise für ihr Vorgehen gibt. Als Ergebnis dieser individuellen Auseinandersetzung sollte
die Lehrkraft die wichtigsten Gründe für die aufgetretenen Abweichungen auflisten, also
mögliche Hypothesen bilden, warum es zu den Abweichungen gekommen ist. Gleichzeitig
sollte sie sich überlegen, welche Möglichkeiten es gibt, diese Hypothesen gezielt zu prüfen
(z.B. durch eine wiederholte Überprüfung der Leistungen mit ausgewählten Aufgaben, durch
eine gezielte Beobachtung der Schüler bei der Bearbeitung, durch Befragung der Schüler,
durch gezielte Hilfestellungen), und welche Indikatoren das Vorliegen bestimmter Ursachen
anzeigen könnten. Dadurch würden diagnostisch-methodische Kompetenzen angeregt.
Gleichzeitig sollte sich die Lehrkraft überlegen, wie die Ergebnisse solcher Prüfungen
festgehalten, ausgewertet und dokumentiert werden könnten.
Als zweiter Schritt würde sich eine Gruppenarbeit anbieten: Die an der Untersuchung
beteiligten Lehrkräfte würden sich zusammensetzen und ihre Diagnoseleistungen und die
vermuteten Gründe für unzureichende Diagnoseergebnisse diskutieren. Dabei ergeben sich
vielfältige Möglichkeiten, voneinander zu lernen, etwa dadurch, dass Erklärungen
ausgetauscht und dadurch Hinweise auf bislang nicht gesehene Faktoren gewonnen werden.
Ein wichtiges Element, das künftig noch systematischer auszubauen wäre, ist die
Einschätzung der Aufgaben nach schwierigkeitsbestimmenden Merkmalen und die
Diskussion dieser Merkmale. Am Ende der Gruppenarbeit sollte bei jedem Beteiligten ein
Satz von Hypothesen über mögliche Aspekte und Bedingungen der Schülerleistung stehen,
die für die Fehleinschätzungen verantwortlich gewesen sein könnten (z.B. Fehlen bestimmter
Vorkenntnisse; Schwierigkeiten bei bestimmten Lösungsschritten; Neigung zu bestimmten
Fehlern usw.), verbunden mit einem Vorschlag, wie diese Merkmale überprüft werden
können. Für die Überprüfung dieser Hypothesen sollten möglichst konkrete Absichten
formuliert werden, wann und in welcher Weise die aufgestellten Hypothesen überprüft
werden. Die Ergebnisse dieser individuellen Bemühungen würden dann, wieder beginnend
mit individuellen Analysen, im Rahmen eines weiteren Treffens diskutiert werden. Dieser
Zyklus von Hypothesenbildung, Überprüfung und individuellen und kooperativen Analysen
könnte dann mehrfach fortgesetzt werden.
Nach einiger Zeit (z.B. am Ende eines Schulhalbjahres) sollte eine formellere Evaluation
erfolgen: Die Lehrkräfte würden sich dazu (wie bei VERA) auf einen Satz gemeinsamer
Aufgaben einigen, den sie ihren Klassen zur Bearbeitung und Überprüfung vorlegen. Vor der
Bearbeitung durch die Schüler würden die Lehrkräfte wieder Einschätzungen der
Aufgabenschwierigkeit vornehmen. Der Vergleich mit den tatsächlichen Ergebnissen zeigt
dann, ob sich die Diagnoseleistungen substantiell verbessert haben. Es wäre allerdings
unrealistisch zu erwarten, dass Lehrkräfte dadurch irgendwann einmal zu perfekten
Diagnostikern würden. Letztlich ist die Überwachung und Verbesserung von
Diagnoseleistungen wie auch anderer Unterrichtskompetenzen eine Daueraufgabe. Lehrkräfte
dafür zu sensibilisieren und kooperative Arbeitsstrukturen für die fachliche
Weiterentwicklung anzuregen, wäre ein nicht zu unterschätzender Nebeneffekt eines
möglichen Förderprogramms.
4.4. Bedingungen der Verbesserung diagnostischer Lehrerkompetenzen
Die in VERA vorgesehene Rückmeldung der Diagnoseleistungen an die einzelnen Lehrkräfte
ist nur der Ausgangspunkt für mögliche Bemühungen zur Verbesserung der diagnostischen
Kompetenzen. Dabei ist realistischerweise davon auszugehen, dass die bloße Information
über die Genauigkeit der eigenen Urteile für sich genommen vielfach nicht ausreichen dürfte,
um Lehrkräfte zu einer Weiterentwicklung ihrer diagnostischen Kompetenzen zu veranlassen.
Wie nicht zuletzt unsere eigenen Forschungen (Schrader & Helmke, 2003, in Druck-b, in
Druck-a) gezeigt haben, ist der Weg von der Information über eigene Kompetenzen bis hin zu
realen Verbesserungen steinig und weit. Ob die an Lehrkräfte gerichtete Information die
19
Empfänger überhaupt erreicht, ob sie verstanden wird, ob sie schul- und unterrichtsrelevante
Aktivitäten nicht nur auslöst, sondern auch längerfristig in Gang hält: Auf diesem langen Weg
gibt es zahlreiche Möglichkeiten des Versickerns und Verpuffens, wie wir anhand eines
Prozessmodells (Helmke & Schrader, 2001; Helmke, 2003) gezeigt haben. Diese Gefahr ist
um so größer, je weniger Hilfestellungen und Strukturierungshinweise Lehrkräfte auf diesem
Weg bekommen. Insofern ist die Entwicklung eines stärker formalisierten und zentral
begleiteten Lernprogramms und die Organisation von innerschulischer Unterstützung ein sehr
wesentlicher Schritt auf diesem Wege. Sobald im VERA-Projekt erst einmal eine solide
Datenbasis vorhanden ist und erste Erfahrungen zur Nutzung dieser Daten vorliegen, sollen
verstärkt Anstrengungen unternommen werden, Möglichkeiten zur Verbesserung
diagnostischer Kompetenzen zu entwickeln.
5. Ausblick
Wie es "lernende Schulen" gibt, müssen auch Projekte lernfähig sein. Dies gilt insbesondere
für das Projekt "Vergleichsarbeiten in der Grundschule" in sieben Bundesländern (und ca.
400.000 beteiligten Schülern – das sind doppelt so viele wie in PISA weltweit), weil es in
vielfacher Hinsicht Neuland betritt. Dies betrifft zum einen den inhaltlichen Aspekt: Fragen
der diagnostischen Kompetenz und die damit zusammenhängenden theoretischen und
methodischen Aspekte sind weiße Flecken auf der kognitiven Landkarte von Lehrkräften.
Zum anderen stößt man gerade bei computerunterstützten individualisierten Rückmeldungen
über Aspekte der diagnostischen Kompetenz an die Grenzen dessen, was Lehrkräfte
schulintern, gestützt auf Handreichungen, mit Papier und Bleistift selbst auswerten können.
Wir werden deshalb im Projekt VERA den gesamten Bereich der Auswertung und
Rückmeldung von Ergebnissen im Bereich der diagnostischen Kompetenz komplett
internetbasiert gestalten. Auf diese Weise wird es möglich sein, nicht nur in großem Umfang
Aufschluss über wichtige diagnostische Kompetenzen von Lehrkräften zu bekommen,
sondern den Lehrkräften auch eine gezielte Rückmeldung und damit auch Impulse für die
Verbesserung ihre diagnostischen Fähigkeiten zu geben.
6. Literatur
Arnold, K.-H. (1999). Diagnostische Kompetenz erwerben. Wie das Beurteilen zu lernen und zu lehren ist.
Pädagogik, 51 (7-8), 73-77.
Arnold, K.-H. (2001). Beurteilungskompetenz. unterrichten/erziehen, 20 (1), 12-15.
Bates, C. & Nettelbeck, T. (2001). Primary school teachers judgements of reading achievement. Educational
Psychology, 21 (2), 177-187.
Bromme, R. (1997). Kompetenzen, Funktionen und unterrichtliches Handeln des Lehrers. In F. E. Weinert
(Hrsg.), Psychologie des Unterrichts und der Schule (Enzyklopädie der Psychologie, Pädagogische
Psychologie, Vol. 3, S. 177-212). Göttingen: Hogrefe.
Carr, M. & Kurtz, B. E. (1991). Teachers' perceptions of their students' metacognition, attributions, and selfconcept. British Journal of Educational Psychology, 61, 197-206.
Cronbach, L. J. (1955). Processes affecting scores on "understanding of others" and "assumed similarity".
Psychological Bulletin, 52, 177-193.
Feinberg, A. & Shapiro, E. (2003). Accuracy of teacher judgements in predicting oral reading fluency. School
Psychology Quarterly, 18 (1), 52-65.
Fisher, C. W., Filby, N., Marliave, R., Cahen, L. S., Dishaw, M. M., Moore, J. & Berliner, D. C. (1978).
Teaching behaviors, academic learning time, and student achievement: Final report of phase III-B,
Beginning Teacher Evaluation Study. San Francisco: Far West Laboratory.
Funder, D. C. (1995). On the accuracy of personality judgment: A realistic approach. Psychological Review
(102), 652-670.
Helmke, A. (1994). Diagnosing students' needs. In T. Husen (Hrsg.), The International Encyclopedia of
Education. Second edition (2. Aufl., Vol. 10, S. 5768-5772). Oxford: Pergamon.
Helmke, A. (2003). Unterrichtsqualität: Erfassen, Bewerten, Verbessern. Seelze: Kallmeyersche
Verlagsbuchhandlung.
20
Helmke, A. & Fend, H. (1981). Wie gut kennen Eltern ihre Kinder und Lehrer ihre Schüler? In G. Zimmer
(Hrsg.), Persönlichkeitsentwicklung und Gesundheit im Schulalter. Gefährdungen und Prävention (S.
341-360). Frankfurt: Campus.
Helmke, A. & Fend, H. (1982). Diagnostic sensitivity of teachers and parents with respect to the test anxiety of
students. Advances in test anxiety research, 1, 115-128.
Helmke, A. & Hosenfeld, I. (2003a). Vergleichsarbeiten (VERA): Eine Standortbestimmung zur Sicherung
schulischer Kompetenzen - Teil 1: Ziele, Konzepte und Organisation. SchulVerwaltung, Ausgabe
Nordrhein-Westfalen (4), 107-110.
Helmke, A. & Hosenfeld, I. (2003b). Vergleichsarbeiten (VERA): Eine Standortbestimmung zur Sicherung
schulischer Kompetenzen - Teil 2: Nutzung für Qualitätssicherung und Verbesserung der
Unterrichtsqualität. SchulVerwaltung, Ausgabe Nordrhein-Westfalen (5), 143-145.
Helmke, A. & Hosenfeld, I. (in Druck). Vergleichsarbeiten - Kompetenzmodelle - Standards. In R. S. Jäger, A.
Frey & M. Wosnitza (Hrsg.), Lernprozesse, Lernumgebungen und Lerndiagnostik. Wissenschaftliche
Beiträge zum Lernen im 21. Jahrhundert. Landau: Verlag Empirische Pädagogik.
Helmke, A. & Schrader, F.-W. (1987). Interactional effects of instructional quality and teacher judgement
accuracy on achievement. Teaching and Teacher Education, 3, 91-98.
Helmke, A. & Schrader, F.-W. (2001). Von der Leistungsevaluation zur Unterrichtsentwicklung. In R.
Silbereisen & M. Reitzle (Hrsg.), Psychologie 2000. Bericht über den 42. Kongress der Deutschen
Gesellschaft für Psychologie in Jena (S. 594-606). Lengerich: Pabst.
Hoge, R. D. & Coladarci, T. (1989). Teacher-based judgments of academic achievement: A review of literature.
Review of Educational Research, 59, 297-313.
Hosenfeld, I., Helmke, A. & Schrader, F.-W. (2002). Diagnostische Kompetenz: Unterrichts- und lernrelevante
Schülermerkmale und deren Einschätzung durch Lehrkräfte in der Unterrichtsstudie SALVE. In M.
Prenzel & J. Doll (Hrsg.), Bildungsqualität von Schule: Schulische und außerschulische Bedingungen
mathematischer, naturwissenschaftlicher und überfachlicher Kompetenzen. Zeitschrift für Pädagogik,
45. Beiheft (S. 65-82). Weinheim: Beltz.
Jäger, R. S. (2001). Von der Beobachtung zur Notengebung (4. Aufl.). Landau: Verlag Empirische Pädagogik.
Kleber, E. W. (1992). Diagnostik in pädagogischen Handlungsfeldern. München: Juventa.
Lehmann, R. H., Peek, R., Gänsfuß, R., Lutkat, S., Mücke, S. & Barth, I. (2000). Qualitätsuntersuchungen an
Schulen zum Unterricht in Mathematik (QuaSUM). Potsdam: Ministerium für Bildung, Jugend und
Sport des Landes Brandenburg (MBJS).
Schrader, F.-W. (1986). Aufgabenschwierigkeitseinschätzung als Teil der Diagnosekompetenz von Lehrern
[Abstract]. In M. Amelang (Hrsg.), Bericht über den 35. Kongreß der Deutschen Gesellschaft für
Psychologie in Heidelberg (Vol. 1, S. 415). Göttingen: Hogrefe. [Langfassung: MaxPlanck-Institut für
psychologische Forschung, Paper 2/1987].
Schrader, F.-W. (1989). Diagnostische Kompetenzen von Lehrern und ihre Bedeutung für die Gestaltung und
Effektivität des Unterrichts. Frankfurt a.M.: Lang.
Schrader, F.-W. (1997). Lern- und Leistungsdiagnostik im Unterricht. In F. E. Weinert (Hrsg.), Psychologie des
Unterrichts und der Schule (Enzyklopädie der Psychologie, Pädagogische Psychologie, Vol. 3, S. 659699). Göttingen: Hogrefe.
Schrader, F.-W. (2001). Diagnostische Kompetenz von Eltern und Lehrern. In D. H. Rost (Hrsg.),
Handwörterbuch Pädagogische Psychologie (2. Aufl., S. 68-71). Weinheim: Psychologie Verlags
Union.
Schrader, F.-W. & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen.
Empirische Pädagogik, 1, 27-52.
Schrader, F.-W. & Helmke, A. (2003). Evaluation - und was danach? Ergebnisse der Schulleiterbefragung im
Rahmen der Rezeptionsstudie WALZER. Schweizerische Zeitschrift für Bildungswissenschaften, 25 (1),
79-110.
Schrader, F.-W. & Helmke, A. (in Druck-a). MARKUS und die Folgen: Zentrale Ergebnisse der
Rezeptionsstudie WALZER und ihre Bedeutung für die Evaluationsforschung und das
Qualitätsmanagement. In R. S. Jäger, A. Frey & M. Wosnitza (Hrsg.), Lernprozesse, Lernumgebungen
und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert. Landau: Verlag
Empirische Pädagogik.
Schrader, F.-W. & Helmke, A. (in Druck-b). Von der Evaluation zur Innovation? Die Rezeptionsstudie
WALZER: Ergebnisse der Lehrerbefragung. Empirische Pädagogik.
Spinath, B. & Höfer, R. (2003). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer/innen und
das Konstrukt der diagnostischen Kompetenz. Vortrag bei der 9. Fachtagung Pädagogische
Psychologie. Bielefeld.
ter-Laak, J., De Goede, M. & Brugman, G. (2001). Teacher´s judgements of pupils: Agreement and accuracy.
Social Behavior and Personality, 29 (3), 257-270.
21
Thonhauser, J., Buschmann, I. & Schmich, J. (2003). Nach welchen Faktoren schätzen Lehrer/innen die
Schwierigkeit von Aufgaben ein? Benchmarks von innen. Beitrag präsentiert bei Beitrag bei der 64.
Tagung der Arbeitsgemeinschaft für empirische pädagogische Forschung (AEPF), Hamburg.
Wahl, D., Weinert, F. E. & Huber, G. L. (1997). Psychologie für die Schulpraxis. Ein handlungsorientiertes
Lehrbuch für Lehrer (6. Aufl.). München: Kösel.
Weinert, F. E. & Lingelbach, H. C. (1995). Teaching expertise: Theoretical conceptualizations, empirical
findings, and some consequences for teacher training. In R. Hoz & M. Silberstein (Hrsg.), Partnerships
of schools and institutions of higher education in teacher development (S. 293-302). Beer-Shera, Israel:
Ben Gurion University of the Negev Press.
Weinert, F. E. & Schrader, F.-W. (1986). Diagnose des Lehrers als Diagnostiker. In H. Petillon, J. W. L. Wagner
& B. Wolf (Hrsg.), Schülergerechte Diagnose (S. 11-29). Weinheim: Beltz.
Weinert, F. E., Schrader, F.-W. & Helmke, A. (1990). Educational expertise: Closing the gap between
educational research and classroom practice. School Psychology International, 11, 163-180.
Wild, K.-P. (1991). Identifikation hochbegabter Schüler. Lehrer und Schüler als Datenquellen. Heidelberg:
Asanger.

Documentos relacionados