Vergleichsarbeiten als Instrument zur Verbesserung der
Transcrição
Vergleichsarbeiten als Instrument zur Verbesserung der
Vergleichsarbeiten als Instrument zur Verbesserung der Diagnosekompetenz von Lehrkräften Andreas Helmke, Ingmar Hosenfeld und Friedrich-Wilhelm Schrader Universität Koblenz-Landau, Campus Landau erscheint 2004 in: R. Arnold & C. Griese (Hrsg.), Schulmanagement und Schulentwicklung. Hohengehren: Schneider-Verlag 1. ÜBERSICHT Zu den für das Unterrichten unerlässlichen Kompetenzen gehört nach einhelliger Meinung in Pädagogischer Psychologie und Unterrichtsforschung auch die diagnostische Kompetenz von Lehrkräften. Für Weinert ist sie - neben der Klassenführungskompetenz, der didaktischen und fachwissenschaftlichen Kompetenz - eine der vier Schlüsselkompetenzen (vgl. etwa Weinert, Schrader & Helmke, 1990). Im Widerspruch dazu steht die Unterbewertung, ja Vernachlässigung des gesamten Bereichs der Pädagogischen Diagnostik in der Lehreraus- und weiterbildung - obgleich das Leitbild des Lehrers als eines kompetenten Diagnostikers zumindest nominell in einschlägigen Präambeln und Verordnungen präsent ist (Arnold, 1999, 2001). Erst die Präsentation der Befunde von PISA 2000 hat es mit sich gebracht, dass die Frage nach der diagnostischen Kompetenz von Lehrkräften erstmals in einer breiten bildungspolitischen Öffentlichkeit diskutiert wurde. Obwohl die entsprechende Teiluntersuchung (in der deutschen PISA-Studie) nur schmal angelegt war und nicht den Anspruch auf Verallgemeinerbarkeit erhoben hat, ist dieses Teilergebnis - mangelnde diagnostische Fähigkeiten von Lehrkräften - besonders intensiv diskutiert worden und hat seinen Niederschlag in der Formulierung von Handlungsfeldern der KMK gefunden. Dort ist ausdrücklich die Rede von „Maßnahmen zur Verbesserung der Professionalität der Lehrertätigkeit, insbesondere im Hinblick auf diagnostische und methodische Kompetenz als Bestandteil systematischer Schulentwicklung“ (Beschluss der Kultusministerkonferenz vom 6. März 2003). Eine mindestens ebenso wichtige Konsequenz aus den für Deutschland katastrophalen Ergebnissen von PISA 2000 (die angesichts zahlloser Original- und Sekundärtexte an dieser Stelle nicht zum wiederholten Male berichtet werden sollen) besteht in der Forderung der KMK nach überregionalen Vergleichsarbeiten bereits in der Grundschule und nach bundesweit gültigen Bildungsstandards. Diese Situation - Forderung nach Vergleichsarbeiten und Bevorstehen verbindlicher Standards einerseits, und Klagen über mangelnde diagnostische Lehrerkompetenzen andererseits ist der Ausgangspunkt für unseren Text. Wir belegen, dass und warum diagnostische Kompetenz eine unabdingbare Voraussetzung für effektiven Unterricht im allgemeinen und individuelle Förderung im besonderen ist. Zweitens argumentieren wir, dass Vergleichsarbeiten eine gute Grundlage für die Erfassung und das nachfolgende Training von diagnostischen Lehrerkompetenzen sein können. Dies möchten wir anhand konkreter Beispiele aus dem Projekt "Vergleichsarbeiten in der Grundschule" (VERA) belegen, das seit 2003 unter der wissenschaftlichen Leitung der beiden zuerst genannten Autoren (Helmke & Hosenfeld) in zur 2 Zeit1 sieben deutschen Bundesländern stattfindet: Berlin, Brandenburg, Bremen, Mecklenburg-Vorpommern, Nordrhein-Westfalen, Rheinland-Pfalz und Schleswig-Holstein. Wir möchten also mit diesem Artikel einen Beitrag zur Überwindung der Kluft zwischen Evaluation und Innovation leisten: Moderne Evaluation muss, will sie sich nicht lediglich auf eine Standortbestimmung beschränken, von vorne herein so angelegt sein, dass ihr Potenzial auch für die Verbesserung von Schule und Unterricht genutzt werden kann. Angewendet auf Vergleichsarbeiten als Instrument der Evaluation, lautet die Frage: Wie lassen sich Vergleichsarbeiten für die Verbesserung didaktischer und diagnostischer Kompetenzen - und damit letzlich für die Verbesserung des Unterrichts - nutzen? 2. DIAGNOSEKOMPETENZ - WAS IST DAS? Zum besseren Verständnis dessen, was diagnostische Kompetenz ausmacht, ist ein gewisses begriffliches Handwerkszeug unerlässlich. Ausgehend von einer Beschreibung des Gegenstandsbereiches der Diagnosekompetenz stellen wir im folgenden (a) diagnostisches Wissen und Diagnosegenauigkeit gegenüber und beschreiben anschließend (b) allgemeine Gütekriterien diagnostischer Urteile, (c) Dimensionen diagnostischer Urteile sowie (d) die Komponenten der Urteilsgenauigkeit. Diese begriffliche Klärung soll die Grundlage dafür liefern, woran genau man anknüpfen kann, wenn man auf eine Erfassung und Verbesserung der diagnostischen Expertise im Kontext von Vergleichsarbeiten setzt. 2.1. Gegenstandsbereich von Diagnosekompetenz Diagnosekompetenz von Lehrkräften wird häufig als deren Fähigkeit verstanden, Schüler zutreffend einzuschätzen (Schrader, 2001), und somit mehr oder weniger mit Diagnose- oder Urteilsgenauigkeit (Veridikalität) gleichgesetzt. Grundlage dafür sind Lehrerurteile über Schüler hinsichtlich bestimmter Merkmale (häufig ihrer Leistungen), die mit den tatsächlichen Merkmalsausprägungen (den von den Schülern erzielten Leistungen) verglichen werden. Der Grad an Übereinstimmung zwischen Lehrerurteil und Schülerleistung wird dann als Indikator für die diagnostische Kompetenz des urteilenden Lehrers gesehen. Neben dieser personenbezogenen Diagnosefähigkeit wird gelegentlich auch die Genauigkeit der Beurteilung von Aufgabenschwierigkeiten untersucht (siehe etwa Schrader, 1989). Lehrkräfte schätzen dazu die Schwierigkeit verschiedener Testaufgaben ein, die dann wiederum mit deren tatsächlicher Schwierigkeit verglichen wird. Da die empirisch erfasste Aufgabenschwierigkeit (Prozentsatz der Schüler, die eine Aufgabe lösen) im Grunde nichts anderes als die mittlere Leistung der Schüler bei der jeweiligen Aufgabe darstellt, geht es bei diesen Einschätzungen im wesentlich darum einzuschätzen, wie gut eine Gruppe von Personen (z.B. die eigene Klasse, der gesamte Schülerjahrgang) die jeweilige Aufgabe löst. Zur Bestimmung der Diagnosegenauigkeit verwendet man auch hier wieder die Übereinstimmung zwischen Lehrerurteilen und Leistungen, hier: den mittleren Leistungen der jeweiligen Gruppe. Wir verwenden im Folgenden, abweichend von der bisher skizzierten Notation, das Konzept „Diagnosekompetenz“ in einem weiteren Sinne. Es wäre nach unserer Einschätzung eine verkürzte Sichtweise, diese Kompetenz lediglich auf die Diagnosegenauigkeit zu beschränken, ohne gleichzeitig deren Wissensgrundlagen einzubeziehen. Da eine geeignete theoretische Konzeption bislang nicht vorliegt, machen wir folgenden Vorschlag (vgl. Schrader, 1989): (a) Grundlage für die Fähigkeit, genaue diagnostische Urteile abzugeben, sind vermutlich relativ stabile und schwer beeinflussbare Merkmale wie Intelligenz und kognitive Komplexität. 1 Verhandlungen mit weiteren Bundesländern sind zum gegenwärtigen Zeitpunkt (Dezember 2003) noch nicht abgeschlossen 3 (b) Weiterhin spielen erfahrungsabhängige bereichsspezifische Fähigkeiten und Wissensstrukturen eine Rolle. Diese umfassen zum einen methodisches Wissen (Kenntnis und Beherrschung diagnostischer Methoden, Wissen über Urteilsfehler und –tendenzen). Sie umfassen zum anderen aber auch bereichs- oder gegenstandsspezifisches Wissen (über die Anforderungen in einem Lerngebiet, über Schwierigkeitsmerkmale von Aufgaben, über mögliche Lösungsprozeduren, typische Vorgehensweisen, Leistungen und Fehlern bei Schülern unterschiedlichen Entwicklungsstands und unterschiedlicher Leistungsfähigkeit). Dieses Wissen lässt sich in Anlehnung an die etablierte Klassifikation metakognitiven Wissens einteilen in Wissen über Aufgaben, über Personen, über Strategien sowie deren Interaktion (vgl. Schrader, 2001). (c) Schließlich spielen spezifische Kenntnisse (Wissen über einzelne Schüler und Klassen, z.B. deren Stärken und Schwächen, über die Schwierigkeit und Beliebtheit von Unterrichtsstoffen in der Klasse) eine Rolle. Was das methodische Wissen bzw. die diagnostische-methodische Kompetenz von Lehrkräften angeht, so sind hierzulande sowohl die Forschung als auch die Verankerung dieser Kompetenz in Form professioneller Standards noch kaum entwickelt. In den USA hingegen wird diesem Bereich traditionell eine große Wichtigkeit beigemessen. Dies wird gut dokumentiert durch die folgende Übersicht (nach Arnold, 1999) eines amerikanischen Lehrerverbandes (vgl. Tabelle 1): Tabelle 1: Standards des amerikanischen Lehrerverbandes zur Diagnostischen Kompetenz von Lehrkräften 1. Lehrer sollen aus dem verfügbaren Methodenarsenal jene Diagnoseverfahren auswählen können, die für anstehende Unterrichtsentscheidungen angemessen sind. 2. Lehrer sollen Diagnoseverfahren entwickeln können, die für anstehende Unterrichtsentscheidungen angemessen sind. 3. Lehrer sollen fähig sein, sowohl von Testexperten professionell konstruierte als auch unterrichtsbezogene, von Lehrern entwickelte Diagnoseverfahren anzuwenden, auszuwerten und zu interpretieren. 4. Lehrer sollen fähig sein, pädagogisch-diagnostische Informationen (a) in pädagogischen Entscheidungen, die einzelne Schüler betreffen, (b) für die Planung ihres Unterrichts, (c) im Rahmen der Curriculumentwicklung und (d) in Schulentwicklungsprozessen zu nutzen. 5. Lehrer sollen fähig sein, valide Verfahren der zusammenfassenden Beurteilung von Einzelbewertungen zu entwickeln (z.B. als Zensierungsmodell). 6. Diagnoseergebnisse sollen von Lehrern in verständlicher Weise den Schülern, Eltern oder anderen Laienpersonen mitgeteilt werden können. 7. Lehrer sollen fähig sein, ethisch inakzeptable oder ungesetzliche oder in anderer Weise unangemessene Diagnoseverfahren bzw. eine in dieser Weise problematische Anwendung von Verfahren zu erkennen. Über das für die Diagnoseleistung relevante bereichspezifische konzeptuelle Wissen von Lehrkräften ist bislang noch wenig bekannt. Forschungen zu subjektiven oder impliziten Theorien von Lehrkräften, zu Lehrerkognitionen und zur Lehrerexpertise können hier aber erste Anhaltspunkte liefern (vgl. etwa Bromme, 1997). 2.2. Gütekriterien diagnostischer Urteile Was für die Gütekriterien von diagnostischen Verfahren (wie etwa Tests) gilt, trifft auch für die Qualität von Lehrerurteilen zu. Damit sind die klassischen drei Kriterien der Objektivität, 4 Reliabilität und Validität gemeint. Objektivität bezieht sich darauf, inwieweit Lehrkräfte in ihrem Urteil übereinstimmen, wenn sie den gleichen Sachverhalt, z.B. die gleiche Schülerleistung (etwa in einem Aufsatz) beurteilen. Man kann unterscheiden zwischen Durchführungs-, Auswertungs- und Interpretationsobjektivität. Reliabilität als Genauigkeit, mit der ein Messinstrument (in diesem Fall der Lehrer) ein Merkmal misst, lässt sich am besten anhand der Retest-Reliabilität veranschaulichen: Wiederholte Messungen oder Beurteilungen sollten zum gleichen oder zumindest einem ähnlichen Urteil führen (z.B. wenn Lehrkräfte denselben Aufsatz wiederholt beurteilen). Mit Validität ist das Ausmaß gemeint, in dem Lehrkräfte auch tatsächlich das beurteilen, was beurteilt werden soll (z.B.: Wird tatsächlich die inhaltliche und sprachliche Qualität des Aufsatzes beurteilt oder der Umfang der Rechtschreibfehler?). Es gibt verschiedene Arten von Validität. Am wichtigsten in diesem Zusammenhang ist die kriterienbezogene Validität, also der Grad der Übereinstimmung einer Messung mit einem Außenkriterium (z.B. Lehrerurteil mit der Testleistung). Wie aus der Testtheorie bekannt ist, setzt eine hohe Validität hohe Reliabilität und Objektivität voraus (Jäger, 2001). In der Urteilsforschung spricht man häufig von Veridikalität. Damit ist gemeint, wie gut Urteile mit den „tatsächlichen“, d.h. den objektiv gemessenen Merkmalen und Merkmalsausprägungen übereinstimmen (Schrader, 2001). Die Veridikalität ist aber im Grunde nichts anderes als ein Sonderfall der kriterienbezogenen Validität, bei dem der Prädiktor (das Lehrerurteil) mit einer möglichst guten (zumindest aber besseren) Messung des vorherzusagenden oder zu beurteilenden Merkmals, dem Kriterium, verglichen wird. Wenn man von Veridikalität spricht, hat man also die Situation im Blick, dass Prädiktor und Kriterium das gleiche Merkmal erfassen, während bei kriterienbezogener Validität Beziehungen zwischen ähnlichen (aber nicht unbedingt den gleichen) oder aus anderen Gründen zusammengehörigen Merkmalen betrachtet werden. Bei Lehrerurteilen würde man z.B. dann von Veridikalität sprechen, wenn der Lehrer direkt die Leistungen seiner Schüler in einem ihm bekannten Test einschätzen würde und diese Einschätzungen dann mit den tatsächlichen Testleistungen verglichen würden. Vergleicht man dagegen Zensuren und Testleistungen, so ist man sich meistens von vornherein darüber im Klaren, dass keine vollständig äquivalenten Erhebungen vorliegen. 2.3. Komponenten der Diagnosegenauigkeit Mit der Veridikalität von Urteilen beschäftigt sich ein eigener Forschungsansatz, der eine lange Tradition hat (Funder, 1995). So ist seit langem bekannt, dass die Bestimmung der Urteilsgenauigkeit, d.h. die Ermittlung der Übereinstimmung von Urteilen und tatsächlichen Merkmalsausprägungen ein nicht-triviales Problem ist. Würde man einfach Differenzwerte zwischen Urteilen und - mit gleichem Maßstab gemessenen - Kriteriumswerten bilden, dann wären darin verschiedene Komponenten der Urteilsgenauigkeit konfundiert. Cronbach (1955) hat in einer grundlegenden Arbeit auf dieses Problem hingewiesen und als Lösung für den allgemeinen Fall, dass mehrere Personen im Hinblick auf mehrere Merkmale beurteilt werden, ein Komponentenmodell entwickelt. Basierend auf dieser grundlegenden methodischen Arbeit von Cronbach haben Schrader und Helmke (1987) für den in der Schulpraxis typischen Fall, dass ein und dieselbe Lehrperson mehrere Personen (z.B. Schüler in der Klasse) anhand eine Merkmals (z.B. der Testleistung) beurteilt, drei unterschiedliche Komponenten der Diagnosegenauigkeit unterschieden: Die Niveaukomponente bezieht sich darauf, ob die Lehrkraft im Mittel das zu Debatte stehende Merkmal der Schüler zu hoch, gerade richtig, oder zu niedrig einschätzt. Dazu berechnet man im Falle der Testleistungsbeurteilung das mittlere Niveau der Schülerleistungen (z.B. wie viele Aufgaben einer Testbatterie im Durchschnitt gelöst wurden) und vergleicht diesen Wert mit dem mittleren Niveau der korrespondierenden Lehrereinschätzungen. Unter- oder 5 Überschätzung können unterschiedliche Gründe haben: z.B. Urteilstendenzen (Strenge- oder Mildeeffekt), die Orientierung an inadäquaten Vergleichsmaßstäben (z.B. der klasseninternen Leistungsverteilung anstelle des Kriteriums) oder fachdidaktisch fundierte Fehleinschätzungen (z.B. Unter- oder Überschätzung spezifischer Aufgabentypen als Konsequenz eines inkorrekten subjektiven Kompetenzmodells). In dem Ausmaß, in dem sich Unter- oder Überschätzungen immer wieder zeigen (z.B. zu verschiedenen Zeitpunkten, in verschiedenen Kontexten / Klassen oder bei verschiedenen Aufgabentypen), kann auf systematische Fehleinschätzungstendenzen geschlossen werden. Die Streuungskomponente bezieht sich auf den Vergleich der Streuungen der empirischen (real vorkommenden) Merkmale der Schüler und der korrespondierenden Lehrerangaben. Ist die Streuung der Lehrerurteile deutlich geringer als die der Schülerangaben (die dabei als Kriterium angesehen werden), dann kann darin ebenfalls eine systematische Urteilstendenz („Tendenz zur Mitte“) zum Ausdruck kommen, nämlich eine der Realität nicht entsprechende Reduktion des Streubereichs der Einschätzungen, so dass z.B. real existierende große Leistungsunterschiede zwischen Schülern in der Einschätzung der Lehrkräfte nicht widergespiegelt werden. Aber auch das Gegenteil (Überdifferenzierung) ist denkbar. Die Rangordnungs- oder Korrelationskomponente ist das Kernstück der diagnostischen Kompetenz,. Sie betrifft die Fähigkeit, die Rangordnung bzw. Fähigkeitsabstufung zwischen verschiedenen Schülern (oder Aufgaben) zu erkennen. Hierzu überprüft man mit Hilfe von Korrelationskoeffizienten, wie ähnlich die Rangordnungen der tatsächlichen und der vom Lehrer eingeschätzten Ergebnisse der einzelnen Schüler sind. Im Idealfall stimmen beide vollkommen überein (Korrelation von r = 1.0); im entgegengesetzten (wenngleich unrealistischen) Fall wäre die geschätzte Rangordnung die perfekte Umkehrung der tatsächlich vorliegenden (r = -1.0); gibt es keinerlei Zusammenhang zwischen beiden Messreihen (wie bei einer Zufallsangabe), dann entspräche dies einer Korrelation von r = 0. Anstelle die Rangordnungen von Schülern (geschätzt vs. empirisch) gegenüberzustellen, kann man in analoger Weise auch mit den realen vs. geschätzten Aufgabenschwierigkeiten verfahren. 2.4. Diagnostische Urteile im Kontext der Schule: Drei Maßstäbe Für die Einordnung verschiedener Typen diagnostischer Leistungen, wie sie das Projekt VERA vorsieht, ist schließlich noch von Bedeutung, welcher Maßstab verwendet wird. Jede Bewertung eines Urteils (z.B. einer Lehrerdiagnose der Leistungen einer konkreten Klasse) setzt notwendigerweise einen Gütemaßstab voraus, auch wenn er nicht immer explizit ist. Am Beispiel der Schulleistungsbeurteilung lässt sich gut veranschaulichen, dass es drei grundlegende Gütemaßstäbe gibt: Verteilungsorientierte Vergleiche. Der Vergleich der Leistung einer individuellen Person (oder eine Klasse) mit anderen firmiert oft unter dem Label "sozialer " oder „normorientierter“ Vergleich. Die Güte der Leistung hängt davon ab, wo sich die beurteilte Person bzw. Klasse innerhalb der Gesamtverteilung befindet. Im Falle der Beurteilung eines/r Schülers/in läuft dies darauf hinaus, wie gut jemand verglichen mit dem Rest der Klasse ist. Zu solchen Einschätzungen sind Lehrkräfte im allgemeinen recht gut in der Lage. Ersetzt man allerdings die Beurteilung von Schüler/innen innerhalb einer Klasse durch die Bestimmung des Standortes der Klasse insgesamt, dann wird die begrenzte Reichweite diagnostischer Urteile im Schulalltag deutlich: Lehrer orientieren sich primär an einem klasseninternen Bezugssystem (vgl. Schrader, 2001); die klassenübergreifende Beurteilung nach einem absoluten Maßstab fällt ihnen schwer, weil ihnen die dazu nötigen Vergleichsinformationen häufig nicht verfügbar sind und derartige Urteile nicht Teil der alltäglichen Diagnosepraxis sind. 6 Kriteriale Vergleiche. Im Gegensatz dazu steht die Beurteilung einer konkreten Leistung mit einem absoluten Maßstab, d.h. anhand eines Kriteriums, das unabhängig von der vorfindbaren Verteilung innerhalb oder zwischen Schulklassen ist. Ein Paradebeispiel dafür ist die Einschätzung, ob jemand ein bestimmtes Lernziel erreicht hat - ja oder nein - , oder jemand einer bestimmten Kompetenzstufe (z.B. des Leseverständnisses) zuzuordnen ist oder nicht (dies entspräche der Diagnoseaufgabe, die Hauptschullehrkräfte im Rahmen von PISA 2000 zu bewältigen hatten). Diese Perspektive wird mit der Einführung verbindlicher bundesweit gültiger Bildungsstandards an Gewicht gewinnen. Entwicklungsbezogene Vergleiche. Die pädagogisch wahrscheinlich wichtigste Dimension ist die der Zeit: Wie gut ist jemand (ein/e Schüler/in, eine Klasse) zu einem gegebenen Zeitpunkt, verglichen mit einem Anfangszustand, einer "base line"? Dies entspricht der sog. "individuellen" oder „ipsativen“ Bezugsnorm und heißt nichts anderes als die Bewertung einer Leistung in Relation zu den gegebenen Vorkenntnissen, also ob und wie viel man in einem bestimmten Zeitraum dazugelernt und sich damit leistungsmäßig verbessert (oder auch stagniert bzw. infolge Vergessens sogar verschlechtert hat). Dies erfordert (mindestens zwei) Erhebungszeitpunkte. 2.5. Verschiedene Gegenstände und Analyseebenen diagnostischer Urteile Es lassen sich verschiedene Varianten und Dimensionen diagnostischer Urteile unterscheiden (vgl. dazu auch Helmke, 1994): Punktuell vs. kumulativ. Beurteilung einer punktuellen (oder aktuellen) Leistung, z.B. in einer Klassenarbeit, vs. Beurteilung der kumulativen Leistung über ein Schuljahr hinweg, z.B. in Form einer die Leistungen über einen größeren Zeitraum zusammenfassenden Note. Global vs. spezifisch. Beurteilung der Leistung in Form eines globalen, zwischen verschiedenen Aspekten oder Bereichen des Faches nicht weiter differenzierenden Wertes (ausgedrückt etwa in Form einer Note oder eines Punktwertes, z.B. in „Mathematik“) vs. Beurteilung von spezifischen Fertigkeiten und Kompetenzen (z.B. in distinkten Bereichen wie Arithmetik und Geometrie). Gerade spezifische Diagnosen des „Noch-nicht-Gekonnten“ sind oft besonders interessant, also z.B. die Vorhersage von Art und Häufigkeit von Fehlern oder konzeptuellen Missverständnissen. Daneben können sich spezifische Diagnosen z.B. auch auf die Wahl der Lösungsstrategie beziehen. Kognitive vs. nicht-kognitive Merkmale. Neben Fachleistungen und kognitiven Merkmalen wie Intelligenz und Begabung (Wild, 1991) oder anderen leistungsnahen Merkmalen (Carr & Kurtz, 1991), wurde gelegentlich auch die Fähigkeit untersucht, affektive Schülermerkmale (Helmke & Fend, 1981, 1982) oder allgemeine Persönlichkeitsmerkmale (ter-Laak, De Goede & Brugman, 2001) zu beurteilen. Analyseeinheit. Traditionell werden Schülerinnen und Schüler beurteilt. Als Analyseeinheit kommt jedoch auch die Schulklasse in Betracht (typisches Item in einem Lehrerfragebogen z.B.: Wie leistungsstark ist Ihre Klasse, verglichen mit einer durchschnittlichen Grundschulklasse?), und in gleicher Weise auch die gesamte Schule. Schließlich kann der Focus auch auf Aufgaben liegen, deren Schwierigkeiten einzuschätzen sind. Kombinationen. Die o.g. Dimensionen und Analyseebenen lassen sich in vielfältiger Weise miteinander kombinieren. Beispielsweise kann eine diagnostische Leistung zum Gegenstand haben, ob sich eine Teilgruppe von Schülern (z.B. Migranten) im Laufe eines bestimmten Zeitraumes (individuelle Bezugsnorm) leistungsmäßig verbessert hat, verglichen mit dem durchschnittlichen Lernfortschritt der gesamten Schülergruppe (soziale Bezugsnorm), oder ob sich die Verteilung auf spezifische Kompetenzstufen in einem bestimmten Zeitintervall geändert hat. 7 3. DIAGNOSTISCHEN KOMPETENZ: EMPIRISCHER FORSCHUNGSSTAND 3.1. Genauigkeit von Schülerdiagnosen Die ohnehin nicht umfangreiche bisherige Forschung zur Rolle der diagnostischen Kompetenz von Lehrkräften hat sich bisher weitgehend auf einen Teilaspekt der diagnostischen Kompetenz beschränkt: auf die Diagnosegenauigkeit bei kognitiven Leistungen. In den meisten Untersuchungen werden ausschließlich klassenspezifische Korrelationen zwischen Lehrerurteilen und korrespondierenden Schülerleistungen berichtet. Damit wird eine der Komponenten diagnostischer Kompetenz, die Rangordnungskomponente, zugrunde gelegt. Dabei hat sich gezeigt, dass die mittleren Korrelationen meistens im Bereich zwischen r = .60 und .70 liegen (Hoge & Coladarci, 1989; Schrader, 1989, 2001), was häufig als Hinweis darauf gesehen wird, dass Lehrkräfte im großen und ganzen recht gut über die Leistungsunterschiede in ihrer Klasse unterrichtet sind. Neuere Arbeiten (z.B. Bates & Nettelbeck, 2001; Feinberg & Shapiro, 2003) bestätigen dieses Bild. Mittlere Korrelationen maskieren aber oft große Unterschiede zwischen der Diagnosegenauigkeit einzelner Lehrkräfte. Wir müssen allerdings darauf hinweisen, dass das Prinzip „je genauer, desto besser“ für Lehrerurteile zu relativieren ist. Erstens wäre es weltfremd, von Lehrkräften extrem präzise diagnostische Leistungen abzuverlangen. Die Orientiertheit z. B. über Fähigkeitsunterschiede zwischen Schülern, über schwierigkeitsbestimmende Merkmale von Aufgaben oder den Standort der eigenen Klasse muss lediglich in einer Zone liegen, die tolerierbar ist. Da hierfür eine Metrik fehlt und sich Standards schwer definieren lassen, muss die Quantifizierung einer solchen Zone zunächst offen bleiben. Dazu kommt (Schrader, 1997; Weinert & Schrader, 1986): Es spricht einiges dafür, dass nicht die exakte Einschätzung, sondern eher eine leicht positiv verzerrte Überschätzung des Leistungspotenzials von Schülern pädagogisch günstig ist, weil dies mit höherer Wahrscheinlichkeit dazu führt, dem „Kind anspruchsvolle, gerade noch im Rahmen seiner Bewältigungsmöglichkeiten liegende Aufgaben zu stellen und ihm so günstige Entwicklungsanreize (zu) bieten“ (Schrader, 2001, S. 92). In Untersuchungen zur Rangordnungskomponente – d.h. der Genauigkeit, mit der Schüler hinsichtlich des zu beurteilenden Merkmals in eine Rangreihe gebracht werden – zeigten sich im Durchschnitt mittelhohe Zusammenhänge (r = .64) und zugleich erhebliche Unterschiede zwischen Lehrkräften. Arbeiten, in den zusätzlich zur korrelativen Übereinstimmung auch das Urteilsniveau untersucht wird, sind selten: so z.B. bei Bates & Nettelbeck (2001), die eine Tendenz zur Überschätzung der Leseleistung von 6- bis 8-jährigen Kindern, insbesondere bei leseschwachen Schülern, fanden. In der Untersuchung von Schrader und Helmke (1987) überschätzten Lehrkräfte die Leistungen ihrer Schüler im Mittel (Niveaukomponente) deutlich und die Leistungsstreuung innerhalb der Klasse (Streuungskomponente) leicht. Die drei genannten Komponenten der Akkuratheit hingen nur schwach miteinander zusammen. Angelehnt an unsere eigene Arbeit haben Spinath und Höfer (2003) ebenfalls eine Komponentenanalyse der Diagnosegenauigkeit durchgeführt, wobei als Schülermerkmale Intelligenz, Selbstkonzept, Ängstlichkeit und Lernmotivation zugrunde gelegt wurden. Die Werte für die Rangordnungskomponente waren deutlich niedriger als die bei Schülerleistungen üblicherweise gefundenen Ergebnisse (Intelligenz r = .40, Selbstkonzept, r = .39, Ängstlichkeit r = .15, Lernmotivation, r = .20), was auf die höheren Urteilsanforderungen bei solchen Merkmalen, bei den Selbstberichtsskalen zusätzlich aber auch auf höhere Messungenauigkeiten auf Seiten des Kriteriums hindeuten könnte. Eine Überschätzung der mittleren Merkmalsausprägung (Niveaukomponente) konnte hier nur für Ängstlichkeit, eine Überschätzung der Merkmalsstreuung (Differenzierungskomponente) nur für die Lernmotivation und abgeschwächt für das Selbstkonzept gefunden werden. Auch in dieser Arbeit gab es nur sehr schwache Zusammenhänge zwischen den einzelnen Komponenten der Diagnosegenauigkeit, und zwar sowohl innerhalb der einzelnen Merkmale als auch über die verschiedenen Merkmale hinweg. 8 Hosenfeld, Helmke und Schrader (2002) verglichen darüber hinaus unterrichtsbezogene Lehrereinschätzungen zu Aufmerksamkeit, Verständnis, Interesse und Unterforderung mit den entsprechenden Schülerselbsteinschätzungen. Bemerkenswert ist hier, dass Lehrkräfte zu einer Unterschätzung von Aufmerksamkeit, Verständnis und Interesse tendieren. Darüber hinaus unterschätzen sie auch das Ausmaß , in dem sich Schüler unterfordert fühlen, trauen also den Schülern insgesamt gesehen relativ wenig zu: Warum es hier zu Ergebnissen kommt, die denen zur Leistungseinschätzung entgegengesetzt sind, lässt sich bislang noch nicht genau sagen. Möglicherweise spielen hier selbstwertdienliche Urteilstendenzen auf Seiten der Schüler, eher konservative Urteile bei Lehrern in der Klassensituation und unterschiedliche Informationsquellen (Verhaltensbeurteilung vs. Selbsteinschätzung) eine Rolle. 3.2. Genauigkeit der Diagnose von Aufgabenschwierigkeiten Sehr wenige Untersuchungen liegen zur Aufgabenschwierigkeitsschätzung für die eigene Klasse vor (für nicht klassenbezogene Einschätzungen vgl. Thonhauser, Buschmann & Schmich, 2003). In diesen Arbeiten zeigte sich eine Tendenz zur Überschätzung im Niveau der Klassenleistung (Hosenfeld et al., 2002; Schrader, 1989; Lehmann, Peek, Gänsfuß, Lutkat, Mücke & Barth, 2000). Bezogen auf die Rangordnungskomponente, also die Übereinstimmung in der Rangordnung der Schwierigkeiten von verschiedenen Aufgaben, ergaben sich auch hier mittelhohe Durchschnittswerte: r = .33 (Schrader, 1989), r = .36 in Klassenstufe 5 bzw. r = .43 in Klassenstufe 9 (Lehmann et al., 2000) und r = .56 (Hosenfeld et al., 2002) - in Verbindung mit erheblichen Lehrer- bzw. Klassenunterschieden. 3.3. Diagnostische Kompetenz und Unterrichtserfolg Diagnostische Kompetenz ist vor allem deshalb von Interesse, weil diesem Merkmal eine wichtige Rolle für die Unterrichtsgestaltung und den Unterrichtserfolg zugeschrieben wird. Leitender Gesichtspunkt ist die Adaptivität des Unterrichts, d.h. die Notwendigkeit einer Anpassung des Unterrichts an die Lernvoraussetzungen der Schüler (Prinzip der Passung): Dafür ist es wichtig, dass Lehrkräfte hinreichend über den Leistungsstand, die verfügbaren Vorkenntnisse und das erzielte Lernergebnis, ggf. auch über nicht-kognitive Lernvoraussetzungen orientiert sind. Lehmann et. al. (2000) fanden in der QuaSUM-Untersuchung in der 5. Klassenstufe keinen Zusammenhang zwischen aufgabenbezogener Diagnoseleistung (Rangordnungskomponente) und Leistung, r = .03, allerdings nicht bezogen auf den Lernzuwachs, sondern auf die am Ende des Schuljahrs einmalig erhobene Testleistung. Auch in der 9. Klassenstufe konnte für zwei Schulformen (Gesamtschule Erweiterungskurs r = .01; Realschule r = -.01) kein Zusammenhang mit der Leistung festgestellt werden, wohl aber für die beiden anderen Schulformen (Gesamtschule Grundkurse r = .28; Gymnasien r = .24) gab. Einen positiven Zusammenhang zwischen Diagnosekompetenz und residualisiertem Leistungszuwachs berichten auch Fisher et al. (1978) im Rahmen von Auswertungen zur „Beginning Teachers Evaluation Study“ (BTES). In unseren eigenen Untersuchungen zeigte sich dagegen, dass hohe diagnostische Kompetenz nur dann für den Lernerfolg bedeutsam war, wenn sie mit einem hohen Maß an Strukturierungshilfen einerseits und einem hohen Maß an individueller fachlicher Unterstützung andererseits einherging (Helmke & Schrader, 1987; Schrader & Helmke, 1987; Schrader, 1989). Der Lernerfolg der Klasse war dann besonders hoch, wenn Lehrer mit einer hohen Diagnosekompetenz gleichzeitig viele Strukturierungs- und Unterstützungsmaßnahmen einsetzten (vgl. Abbildung 1). Ein vergleichbarer Befund ergab sich auch für die aufgabenbezogene Diagnosekompetenz (Schrader, 1986). Eine ähnliche Wechselwirkung zwischen diagnostischer Kompetenz und Unterrichtskompetenz konnte darüber hinaus auch in einer Folgestudie nachgewiesen werden (Weinert & Lingelbach, 1995). 9 Leistungszuwachs 4 niedrige Strukturierung hohe Strukturierung 3 2 1 0 niedrige Diagnosekompetenz hohe Diagnosekompetenz Abbildung 1: Münchner Studie: Entwicklung der Mathematikleistung in Abhängigkeit von der Diagnosekompetenz des Lehrers und der Häufigkeit von Strukturierungshilfen Diesen Ergebnissen zufolge hängt es also offenbar von zusätzlichen Bedingungen ab, ob Diagnosekompetenz wirksam ist. Unsere eigenen Befunde legen nahe, dass Diagnosekompetenz vor allem dann wirksam ist, wenn ihre Wirkung durch das unterrichtliche Handeln vermittelt wird (Schrader, 1989). Welche Bedingungen im Falle der positiven Befunde bei Fisher et al. (1978) sowie Lehmann et al. (2000) – hier allerdings mit der Einschränkung, dass kein Lernzuwachs erfasst wurde – , muss offen bleiben. Denkbar und mit den eigenen Ergebnissen vereinbar wäre etwa, dass im Unterschied zu unserer eigenen Untersuchung die für die Umsetzung der Diagnosen erforderlichen Unterrichtsmaßnahmen bei allen untersuchten Lehrkräften ausreichend häufig vorgekommen sind und sich die diagnostischen Kompetenzen der Lehrkräfte deshalb auch im Lernerfolg der Schüler niederschlagen konnten. Diagnostische Kompetenz steht also nicht unbedingt in einem einfachen - linearen und direkten – Verhältnis zum Lernerfolg der Klasse. Vielmehr scheint sie eher eine Art Katalysatorvariable zu sein, die den Einfluss bestimmter Unterrichtsmerkmale moderiert. Umgekehrt betrachtet sind bestimmte Unterrichtsmaßnahmen offenbar vor allem dann wirksam, wenn sie an die Lernvoraussetzungen und Leistungen der Schüler angepasst sind. 3.4. Förderung und Verbesserung diagnostischer Kompetenz Angesichts der großen Bedeutung der diagnostischen Kompetenz im Rahmen von Schule und Unterricht ergibt sich die naheliegende Frage, wie man dieses Merkmal fördern und verbessern kann. Darüber ist bislang kaum etwas bekannt. Ein Vorschlag dazu stammt von Wahl, Weinert und Huber (1997). Sie empfehlen Lehrkräften, möglichst häufig Situationen herzustellen, in denen die Leistungen von Schülern vorgesagt und gleichzeitig die tatsächlichen Schülerleistungen erfasst werden können. Die Vorhersagen können sich auf die Leistung der ganzen Klasse oder einzelner Schüler beziehen. Die Vorhersagen werden dann an der empirischen Realität überprüft, indem sie mit Testdaten verglichen werden. Das Grundprinzip dieses Ansatzes besteht darin, im Schulalltag oft nur implizit abgegebene Urteile explizit zu machen und diese Urteile dann mit den tatsächlichen Ergebnissen zu vergleichen, um eine Reflektion der zugrundeliegende Wissensbasis anzuregen. Dahinter steht die Annahme, dass ein solches Vorgehen den Lehrer zwingt, die eigenen impliziten Hypothe- 10 sen zur Leistung und Fähigkeit von Schülern zu explizieren und einer empirischen Bewährung auszusetzen. Verbesserungen der diagnostischen Kompetenz könnten bereits durch das Bemühen, präzise und spezifische Hypothesen zu formulieren, resultieren. Verbesserungen sind insbesondere dann zu erwarten, wenn Diskrepanzen zwischen erwarteten und tatsächlich erzielten Leistungen dazu genutzt werden, um nach Gründen für die erwartungswidrigen Ergebnisse zu suchen, und wenn die entsprechenden Hypothesen durch das Einholen weiterer Informationen überprüft werden (vgl. dazu im einzelnen Schrader, 1989, S. 268-269). Der Vergleich zwischen vorhergesagtem und tatsächlich erzieltem Ergebnis dient also nicht zuletzt dem Ziel, eine Selbstreflexion über die eigenen Wissensgrundlagen in Gang zu setzen und das Wissen dadurch zu verbessern, zu präzisieren und zu aktualisieren. Eine hohe Diagnosegenauigkeit ist dabei kein Selbstzweck und auch nicht das eigentliche Ziel, sondern eher Beiprodukt einer gezielten Auseinandersetzung mit der zugrunde liegenden Wissensbasis. Der kompetente Diagnostiker ist dadurch gekennzeichnet, dass er sich auf spezifische und aktuelle Beobachtungen stützt und sich um präzise und überprüfbare Vorhersagen bemüht, statt sich von allgemeinen und vagen Erwartungen und Einschätzungen leiten zu lassen. Wichtig ist dabei ein solides, handlungsnahes Wissen über Urteilsbildung, Urteilsfehler und diagnostische Methoden sowie eine professionelle diagnostische Einstellung, die dadurch gekennzeichnet ist, dass eine ständige Überwachung und Überprüfung der eigenen Diagnoseleistungen als wichtiger Bestandteil der Berufsrolle betrachtet wird. Darüber, wie die kognitiven Grundlagen guter diagnostischer Kompetenz, also die vom Diagnostiker verwendeten Modelle oder Schemata aussehen, ist noch wenig bekannt. Zur Charakterisierung von Urteilsleistungen und ihrer Genauigkeit wird gelegentlich der bekannte Linsenmodellansatz herangezogen (Helmke, 2003; Kleber, 1992). Danach gibt es für das zu beurteilende und nicht direkt beobachtbare (distale) Merkmal (z.B. die Intelligenz eines Schülers) eine Reihe von beobachtbaren Indikatoren (proximalen Merkmalen), mit deren Hilfe auf das zu beurteilende Merkmal geschlossen werden kann. Die Urteilsgüte hängt davon ab, ob und in welchem Maße der Urteiler die tatsächlich vorhersagekräftigen ‚validen’ Indikatoren (z.B.: Schüler kommt gut mit Aufgaben zurecht, die Abstraktionsleistungen erfordern) für sein Urteil nutzt. Ungenaue Urteile resultieren, wenn der Beurteiler keine validen Indikatoren verwendet (karikierend dargestellt etwa: hohe Stirn und Brille als vermeintliche Intelligenzindikatoren). Die Bezeichnung „Linsenmodell“ rührt daher, dass distales Merkmal, proximale Merkmale und Urteil in Form einer konvexen Linse angeordnet werden können. Bei dieser Betrachtungsweise käme es darauf an, Lehrkräfte für spezifische und valide Indikatoren der Leistungsfähigkeit von Schülern zu sensibilisieren. Lehrkräfte müssten nicht nur wissen, welche Indikatoren für ein zutreffendes Urteil relevant sind (z.B. Lösen diagnostisch aufschlussreicher Aufgaben; Qualität von Einfällen und andere Hinweise auf vertieftes Verständnis; Güte bestimmter Lösungswege; Auftreten bestimmter Fehler), sondern sie müssten vor allem auch über effektive diagnostische Methoden verfügen (neben einer auf wesentliche Aspekte fokussierten Beobachtung, vor allem auch die Fähigkeit, sich mit geeigneten Aufgabenstellungen sehr schnell einen genauen Überblick über das aktuelle Leistungsvermögen eines Schülers zu verschaffen) und die gewonnene Informationen in ein zutreffendes Modell oder Schema integrieren können. Aufgabenbezogenes Wissen, etwa über die mit bestimmten Aufgaben verbundenen kognitiven Anforderungen, hätten dabei einen zentralen Stellenwert. 4. VERGLEICHSARBEITEN UND DIAGNOSEKOMPETENZ 4.1. Das Projekt VERA (Vergleichsarbeiten in der Grundschule) Das Projekt Vergleichsarbeiten in 4. Grundschulklassen (VERA) ist ein Gemeinschaftsunternehmen von zur Zeit sieben Bundesländern (Berlin, Brandenburg, Bremen, MecklenburgVorpommern, Nordrhein-Westfalen, Rheinland-Pfalz, Schleswig-Holstein). Das zugrunde 11 liegende Konzept von VERA wurde von den beiden zuerst genannten Autoren als wissenschaftlichen Leitern des Projektes entwickelt und verfolgt mehrere Ziele: von der Qualitätssicherung über die damit verknüpfte angestrebte Verbesserung der Unterrichtsqualität sowie diagnostischer Lehrerkompetenzen, eine fundiertere Schullaufbahnberatung der Eltern bis hin zu positiven Nebenwirkungen wie der beschleunigten Entwicklung informationstechnischer Kompetenzen (wegen der unumgänglichen Nutzung des Internet) und der erleichterten Durchsetzung innovativer Rahmenpläne und Kerncurricula. Wir sehen an dieser Stelle davon ab, den bildungspolitischen Hintergrund von Vergleichsarbeiten zu skizzieren. Hier nur soviel: Im Kern umfassen die Vergleichsarbeiten im Projekt VERA eine vergleichende Leistungsmessung in den Fächern Mathematik und Deutsch in allen vierten Klassen der sieben Bundesländer (knapp 400.000 Schülerinnen und Schüler) kurz nach Beginn der 4. Klassenstufe. Verwendet wird ein auf der Grundlage von ausführlichen Pilotierungen und Normierungen (Eichungen) gewonnener Aufgabensatz. Zur Leistungserfassung werden im Fach Mathematik zehn Aufgaben zentral vorgegeben, weitere zehn Aufgaben werden von den Schulen auf der Basis eines Steuerprogramms, das eine ausgewogene Mischung von Anforderungstypen und Inhaltsbereichen gewährleistet -, aus dem Netz heruntergeladen. Für Einzelheiten sei auf detaillierte Darstellungen von VERA in anderen Publikationen (Helmke & Hosenfeld, 2003a, 2003b; Helmke, 2003; Helmke & Hosenfeld, in Druck) sowie auf die VERA-Homepage verwiesen (http://www.uni-landau.de/~vera/). 4.2. Einbau diagnostischer Leistungen in das Projekt VERA Mit diagnostischen Aufgabenstellungen werden die Lehrkräften in VERA bereits konfrontiert, wenn sie innerhalb einer Schule gemeinsam entscheiden müssen, welche Aufgaben (einheitlich für die gesamte Schule, d.h. für alle Parallelklassen) ausgewählt werden. Wenn diese Entscheidung reflektiert und rational begründet erfolgen soll, dann ist dazu eine Auseinandersetzung mit (a) den Merkmalen der Aufgaben und möglicherweise auch (b) den erwarteten Leistungen der Schülerinnen und Schüler erforderlich. Das Projekt VERA bietet eine ganze Reihe von Möglichkeiten, Diagnoseleistungen systematisch zu untersuchen. Man kann verschiedene Urteile erfassen, eine unterschiedliche Anzahl von Zeitpunkten einbeziehen, verschiedene Komponenten der Diagnosegenauigkeit berücksichtigen und die resultierenden Diagnosekennwerte in unterschiedliche Vergleichsgruppen einordnen. Im einzelnen kann man diese Aspekte, die sich zum großen Teil auch miteinander kombinieren lassen, wie folgt berücksichtigen: • Gegenstand der Diagnose: Neben der Leistung bei verschiedenen Aufgaben (wie viele Schüler können eine Aufgabe lösen?) kann man auch beurteilen lassen, wie viele Schüler sich innerhalb einer bestimmten Kompetenzstufe befinden oder welche Fehler oder Lösungsstrategien bei einzelnen Aufgaben vorkommen. Außerdem kann man die Aufgaben nach bestimmten schwierigkeitsbestimmenden Merkmalen (z.B. Zahl der erforderlichen Lösungsschritte) einschätzen lassen. • Häufigkeit: Statt einer Einpunktmessung („Momentaufnahme“) sind künftig Mehrfachmessungen möglich, z.B. in Form einer Wiederholung der Vergleichsarbeit nach einem Quartal. Wenn diese vorgenommen worden sind, dann kann man Veränderungen direkt einschätzen lassen oder für jeden Messzeitpunkt separate Urteile erheben, dafür Diagnosekennwerte berechnen und etwaige Veränderungen der Diagnoseleistung analysieren. • Komponenten der Diagnosegenauigkeit: Die grundlegenden Komponenten (Niveau-, Streuungs-, Rangordnungskomponente) können sich auf die Gesamtheit der verwendeten Aufgaben oder auf Teilbereiche (z.B. Arithmetik, Geometrie) beziehen. Aussagen 12 zum Niveau (Über- oder Unterschätzung) lassen sich auch für einzelne Aufgaben gewinnen. • Vergleichsbasis: Man kann die Diagnosegenauigkeit einzelner Lehrkräfte mit den Diagnoseleistungen ganz unterschiedlichen Gruppen vergleichen. Möglich sind z. B. bundeslandübergreifende Vergleiche, Vergleiche zwischen Schulen innerhalb von Bundesländern oder Vergleiche zwischen Parallelklassen innerhalb von Schulen. Einige der möglichen Vorgehensweisen sollen anhand der aktuellen VERA-Erhebung 2003/2004, die allerdings erst einen kleinen Ausschnitt aus dem Gesamtspektrum möglicher Untersuchungen realisiert, veranschaulicht werden. Zurück zur Erhebung VERA im Jahr 2003: Um Diagnoseleistungen systematisch anzuregen und zu überprüfen, werden die Lehrkräfte nach der Aufgabenauswahl (und noch vor der Durchführung der eigentlichen Vergleichsarbeit) gebeten, vorherzusagen, wie viele Schülerinnen und Schüler ihrer Klasse jede der Aufgaben lösen werden (vgl. Abbildung 2). Die Erfassung der Schwierigkeitsurteile erfolgt mit Hilfe eines von uns zu diesem Zweck entwickelten menügesteuerten Auswahlprogramms. Darin ist zwingend vorgesehen, dass alle Lehrkräfte Schwierigkeitseinschätzungen für die ausgewählten zehn Mathematikaufgaben abgeben. Nur wenn die Lehrkräfte die entsprechenden Eintragungen machen, lässt sich das EDV-Programm überhaupt beenden. Wie sich der damit verbundene „sanfte Zwang“ auswirkt, wird die begleitende Evaluation des Gesamtvorhabens zeigen. Nach Durchführung der Vergleichsarbeiten werden diese von den Lehrkräften schulintern nach von uns vorgegebenen Richtlinien ausgewertet. Der Vergleich der geschätzten mit den realen Aufgabenschwierigkeiten und die Berechnung von Diagnosekennwerten werden anhand eines ebenfalls von uns bereitgestellten menügesteuerten Programms erfolgen. Zu diesem Zweck müssen die tatsächlichen Aufgabenschwierigkeiten, d. h. die von der Klasse bei den einzelnen Aufgaben erreichten mittleren Leistungen der Klasse, in eine Datenbank eingetragen werden. Das Programm berechnet dann die verschiedenen Diagnosekennwerte. 13 Abbildung 2: Eingabe der Lösungshäufigkeiten im internetbasierten Aufgabenauswahlprogramm des Projektes VERA in einer fiktiven Klasse Zur Veranschaulichung der Auswertungsmöglichkeiten soll kurz auf die beiden Aspekte, die in der aktuellen VERA-Erhebung 2003/2004 im Vordergrund stehen werden, eingegangen werden: • Orientierung über das Leistungsniveau einer Klasse: Der Vergleich der geschätzten mit den tatsächlichen Aufgabenschwierigkeiten liefert zunächst Information darüber, ob und inwieweit das Leistungsniveau der Klasse realistisch eingeschätzt. Ergänzend dazu kann der Vergleich der tatsächlichen Aufgabenleistungen der Klasse mit den Normwerten, d. h. den auf der Basis der Gesamtpopulation bestimmten Lösungshäufigkeiten, interessante Informationen liefern: Weichen die Klassenleistungen auffällig von den Normwerten ab? Und beurteilt die Lehrkraft die populationsbezogenen Leistungen 14 womöglich genauer als die klassenbezogenen, d. h. ist er/sie vielleicht sensibel für die in den Populationsangaben zum Ausdruck kommenden Aufgabenmerkmale, weniger dagegen für die Besonderheiten der eigenen Klasse? • Aufgabenbezogene Diagnosegenauigkeit: Hier geht es zunächst um die Genauigkeit, mit der Schwierigkeitsunterschiede zwischen Aufgaben vorhergesagt werden (Rangordnungskomponente), ausgedrückt durch eine Korrelationskoeffizienten. Zusätzlich zur Orientierung über das allgemeine Leistungsniveau der Klasse kann auch geprüft werden, ob alle Aufgabenschwierigkeiten gleichermaßen unter- oder überschätzt werden oder ob sich z. B. bereichsspezifische Unterschiede zeigen. Eine weitere Fragestellung (nämlich die, aufgrund welcher Merkmale die Schwierigkeit von Aufgaben zustande kommt) berührt unseres Erachtens einen Kernbereich didaktischer Expertise, der im Zuge der aktuellen wissenschaftlichen Bemühungen, bundesweit gültige Standards zu entwickeln und dafür Kompetenzmodelle zugrunde zu legen, zunehmend an Bedeutung gewinnt: Diagnostiker-Teams in Schulen könnten zum Zwecke der Verbesserung der Diagnoseleistung und des didaktischen Vorgehens die schwierigkeitsbestimmenden Merkmale von Aufgaben eruieren, also der Frage nachgehen: Was macht Aufgaben leicht oder schwierig? Und, auf der personalen Ebene: Gibt es Personengruppen, bei denen die diagnostizierende Lehrkraft genau urteilt, und andere, bei denen sie „daneben“ liegt? Sind möglicherweise systematische Unter- oder Überschätzungen spezifischer Schülergruppen (etwa Kinder nicht-deutscher Herkunftssprache) verantwortlich für Diskrepanzen zwischen eingeschätzter und tatsächlicher Aufgabenschwierigkeit? Vielleicht erschließt sich die Bedeutung verschiedener Dimensionen, wenn man ein fiktives Beispiel zugrunde legt. In Abbildung 3 erfolgt dies für 10 Mathematikaufgaben, wobei die Buchstaben in Klammern für die Lernbereiche Arithmetik, Geometrie und Sachrechnen stehen. 15 Vorhersage der Lehrkraft tatsächliche Leistung der Klasse Lösungsquote in % der Klasse 80 60 40 20 0 A1 (A) A2 (A) A3 (A) A4 (G) A5 (G) A6 (G) A7 (G) A8 (S) A9 (S) A10 (S) Aufgaben (in Klammern; Kennzeichnung des Inhaltsbereichs) Abbildung 3: Vorhersage und tatsächlich erzielte Mathematikleistung (fiktive Daten). Dies ergibt für die drei Komponenten Folgendes: Niveaukomponente: Liegt der Mittelwert der eigenen Vorhersagen über oder unter dem Mittelwert der tatsächlichen Leistungen (Anzahl von Schülern, die die ausgewählten Aufgaben lösen)? In dem in Abbildung 3 dargestellten Beispiel überschätzt die Lehrkraft im Mittel die Klasse: Bei sieben der zehn Aufgaben liegen die Erwartungen über den empirischen Werten. In besonderem Maße gilt dies für die drei Aufgaben aus dem Bereich der Arithmetik (in der Abbildung die drei linken Balkenpaare, mit A für Arithmetik gekennzeichnet). Streuungskomponente: Ist die Differenz zwischen maximaler und minimaler vorhergesagter Lösungsquote kleiner oder größer als die Differenz zwischen maximaler und minimaler empirischer Lösungshäufigkeit? Noch präziser kann diese Komponente ermittelt werden, wenn die Standardabweichungen über die zehn gewählten Aufgaben hinweg berechnet und einander gegenüber gestellt werden. Im dargestellten Beispiel (Abbildung 3) überschätzt die Lehrkraft auch die Streubreite der Leistungen über die zehn Aufgaben hinweg. Sowohl die Standardabweichung als auch die Differenz zwischen schwerster und leichtester Aufgabe (bei der Vorhersage: Lösungsquote der Aufgabe 1 minus Lösungsquote der Aufgabe 10; bei den empirischen Werten Lösungsquote der Aufgabe 8 minus Lösungsquote der Aufgabe 7) fallen für die empirisch ermittelten Lösungsraten geringer aus als vorhergesagt. Rangordnungskomponente: Ist die Aufgabe mit der niedrigsten vorhergesagten Lösungsquote auch tatsächlich diejenige mit der höchsten empirischen Schwierigkeit, die mit der höchsten vorhergesagten Lösungsquote auch die empirisch leichteste? Der Vergleich der Rangreihen der Aufgabenschwierigkeit (vorhergesagt vs. empirisch) bietet Anhaltspunkte für die Präzision, mit der Unterschiede der Aufgabenschwierigkeit erfasst und beurteilt wurden. Große Abweichungen der Rangfolgen könnten darauf hindeuten, dass schwierigkeitsrelevante Merkmale der Aufgaben (z.B. die Anforderungen an die Lesekompetenz bei Mathematikauf- 16 gaben) nicht ausreichend bedacht wurden. Im dargestellten Beispiel gelingt die Vorhersage der Rangordnung der Schwierigkeit gut, der Rangkorrelationskoeffizient beträgt r = .70. Die Darstellung in Abbildung 3 war aufgabenbasiert. Für den nächsten VERA-Zyklus im Jahre 2004 planen wir zusätzlich - ähnlich wie bei PISA 2000 - Diagnosen auf der Ebene von Kompetenzstufen: Lehrkräfte schätzen vor der Durchführung der Vergleichsarbeit ein, wieviele Schülerinnen und Schüler ihrer Klasse auf verschiedene Kompetenzstufen entfallen. Diese Schätzung wird mit der realen Verteilung von Kompetenzstufen in der jeweiligen Klasse verglichen. Dies kann etwa wie folgt aussehen (vgl. Abbildung 4): geschätzt 50 real Prozent 40 30 20 10 0 unter Stufe 1 Stufe 1 Stufe 2 Stufe 3 Kompetenzstufe Abbildung 4: Vergleich der vorausgesagten mit der (testbasierten) realen Kompetenzstufenverteilung in einer Klasse (fiktive Daten) Im o.g. Fall (es handelt sich um fiktive Daten) würde es sich ähnlich verhalten wie bei PISA 2000: Der Anteil der Schülerinnen und Schüler in der Risikogruppe („unter Stufe 1“) würde deutlich unterschätzt. Eine Variante dieser diagnostischen Aufgabe, die wir für den nächsten Zyklus planen, bestünde darin, eine Standortbestimmung der Klasse dadurch vorzunehmen, dass die klasseninterne Kompetenzstufenverteilung geschätzt und mit der Gesamtverteilung (auf Landesebene, oder auch bundesländerübergreifend) verglichen wird. Einfacher ist demgegenüber die globale Einschätzung der eigenen Klasse, wie sie bereits jetzt (VERA 2003) erhoben wird: Die Lehrkräfte werden gefragt, wie sie die Leistungsstärke der eigenen Klasse in Mathematik bzw. Deutsch beurteilen; dabei sollen sie ausdrücklich einen schulübergreifenden Maßstab anlegen und schätzen, ob sich die eigene Klasse im obersten Fünftel, im zweitobersten Fünftel...usw. der Gesamtleistungsverteilung in Deutschland befindet. 4.3. Verbesserung diagnostischer Lehrerkompetenzen im Rahmen von VERA Die in VERA erfolgte umfassende Erfassung von Diagnoseleistungen bieten günstige Voraussetzungen für eine Verbesserung diagnostischer Kompetenzen. Lehrkräfte können durch die vorgesehene Rückmeldung, insbesondere durch den Vergleich ihrer Leistungen mit 17 denen anderer Lehrkräfte ein realistisches Bild ihrer Stärken und Schwächen gewinnen. Ausgangspunkt von Bemühungen zur Verbesserung sind die rückgemeldeten Ergebnisse zum Vergleich von vorhergesagter und tatsächlich erzielter Mathematikleistung der Klasse (vgl. Abbildung 3), die Lehrkräfte erhalten, nachdem die Vergleichsarbeiten von ihnen ausgewertet und die Ergebnisse in die Datenbank eingetragen sind. Da für die Verbesserung der Diagnosekompetenzen noch kein ausgearbeitetes Programm vorliegt, sollen nur für die beiden wichtigsten Diagnosekomponenten exemplarisch einige Möglichkeiten aufgezeigt werden. Wie in Abschnitt 3.4 dargestellt, geht es dabei im wesentlichen darum, durch den Vergleich der vorhergesagten mit den tatsächlichen Ergebnissen eine Selbstreflexion über das dem Urteil zugrunde liegende Wissen anzuregen. Dazu wäre es sinnvoll, dass sich die beteiligten Lehrkräfte im ersten Schritt zunächst einmal individuell mit ihren Diagnoseleistungen auseinandersetzen und nach möglichen Gründen für Abweichungen zwischen vorgesagten und tatsächlichen Ergebnissen zu suchen. Niveaukomponente. Gründe für Diskrepanzen zwischen Urteilsniveau und tatsächlichem Leistungsniveau können sowohl bei den Lehrkräften selbst als auch bei den Schülern zu lokalisieren sein. Im Falle einer generellen Überschätzung der Klassenleistung wäre etwa zu überlegen, ob dies auf überhöhte eigene Erwartungen und Ansprüche hindeuten könnte oder ob die Klasse unerwartet schlecht abgeschnitten hat. Ein Indiz für zu hohe eigene Ansprüche wäre, wenn die eigenen Einschätzungen sehr viel höher ausfallen als die anderer Lehrkräfte, insbesondere solcher mit vergleichbaren Klassen. Dafür, dass die Leistungen schlechter ausgefallen sind als erwartet, kann es eine ganze Reihe von Gründen geben: Hat die Lehrkraft die Besonderheiten der Testsituation zu wenig in Rechnung gestellt? Hat sie zu wenig berücksichtigt, dass nicht nur eine einzelne Aufgabe, sondern ein ganze Reihe von Aufgaben unter Zeitdruck bearbeitet werden mussten? Waren die Schüler in der Testsitutation vielleicht unmotiviert oder ängstlich? Hat sich die Lehrkraft daran orientiert, was durchgenommen wurde, und dabei einfach unterstellt, dass das einmal Durchgenommene auch beherrscht werden müsste und Faktoren wie Vergessen oder mangelnde Sicherheit in der Anwendung des Gelernten nicht genügend in Rechnung gestellt? Hat sie sich bei der Durchnahme hinreichend vergewissert, ob der Stoff auch tatsächlich beherrscht wird? Oder hat sie sich bei der Beurteilung zu sehr an den Leistungsstärkeren orientiert? Rangordnungskomponente. Was sind Gründe dafür, dass Lehrkräfte nicht hinreichend über die Rangordnung der Aufgabenschwierigkeiten und damit letztlich über Schwierigkeitsabstufungen bei den Aufgaben orientiert sind? Hierfür dürfte zum einen psychologisch und fachdidaktisch fundiertes Sachwissen, also Wissen über Strukturmerkmale von Aufgaben und die damit verbundenen Anforderungen zentral sein (Aufgabenwissen). Welche Lösungsschritte sind bei einer Aufgabe nötig, wie schwer und wie fehleranfällig sind diese Schritte allgemein bzw. für Kinder eines bestimmten Alters. Zum anderen ist Wissen darüber erforderlich, wie vertraut Kinder mit einzelnen Aufgabenarten sind (Personenwissen). Dazu ist wiederum wichtig zu wissen, wie intensiv und wie erfolgreich einzelne Stoffgebiete durchgenommen wurden, wie gut die Schüler die Inhalte verstanden haben, wie lange die Behandlung des Stoffgebiets zurückliegt und anderes mehr. Hilfreich für die Suche nach Gründen ist dabei etwa, sich klar zu machen, welche Aufgaben genau oder ungenau eingeschätzt werden. Damit verbunden ist die Frage, ob bestimmte Stoffgebiete oder Aufgabenbereiche generell für zu leicht oder zu schwer gehalten werden. Werden möglicherweise bei bestimmten Stoffen lösungsrelevante Aspekte oder Zwischenschritte übersehen oder als selbstverständlich unterstellt? Werden mögliche Missverständnisse oder Fehlermöglichkeiten unterschätzt? Dies sind einige Empfehlungen, die Elemente eines noch zu entwickelnden Programms zur Förderung diagnostischer Kompetenzen sein könnten. Um das Vorgehen stärker zu strukturieren, sollte möglichst ein Fragenkatalog entwickelt werden, der Lehrkräften genauere 18 Hinweise für ihr Vorgehen gibt. Als Ergebnis dieser individuellen Auseinandersetzung sollte die Lehrkraft die wichtigsten Gründe für die aufgetretenen Abweichungen auflisten, also mögliche Hypothesen bilden, warum es zu den Abweichungen gekommen ist. Gleichzeitig sollte sie sich überlegen, welche Möglichkeiten es gibt, diese Hypothesen gezielt zu prüfen (z.B. durch eine wiederholte Überprüfung der Leistungen mit ausgewählten Aufgaben, durch eine gezielte Beobachtung der Schüler bei der Bearbeitung, durch Befragung der Schüler, durch gezielte Hilfestellungen), und welche Indikatoren das Vorliegen bestimmter Ursachen anzeigen könnten. Dadurch würden diagnostisch-methodische Kompetenzen angeregt. Gleichzeitig sollte sich die Lehrkraft überlegen, wie die Ergebnisse solcher Prüfungen festgehalten, ausgewertet und dokumentiert werden könnten. Als zweiter Schritt würde sich eine Gruppenarbeit anbieten: Die an der Untersuchung beteiligten Lehrkräfte würden sich zusammensetzen und ihre Diagnoseleistungen und die vermuteten Gründe für unzureichende Diagnoseergebnisse diskutieren. Dabei ergeben sich vielfältige Möglichkeiten, voneinander zu lernen, etwa dadurch, dass Erklärungen ausgetauscht und dadurch Hinweise auf bislang nicht gesehene Faktoren gewonnen werden. Ein wichtiges Element, das künftig noch systematischer auszubauen wäre, ist die Einschätzung der Aufgaben nach schwierigkeitsbestimmenden Merkmalen und die Diskussion dieser Merkmale. Am Ende der Gruppenarbeit sollte bei jedem Beteiligten ein Satz von Hypothesen über mögliche Aspekte und Bedingungen der Schülerleistung stehen, die für die Fehleinschätzungen verantwortlich gewesen sein könnten (z.B. Fehlen bestimmter Vorkenntnisse; Schwierigkeiten bei bestimmten Lösungsschritten; Neigung zu bestimmten Fehlern usw.), verbunden mit einem Vorschlag, wie diese Merkmale überprüft werden können. Für die Überprüfung dieser Hypothesen sollten möglichst konkrete Absichten formuliert werden, wann und in welcher Weise die aufgestellten Hypothesen überprüft werden. Die Ergebnisse dieser individuellen Bemühungen würden dann, wieder beginnend mit individuellen Analysen, im Rahmen eines weiteren Treffens diskutiert werden. Dieser Zyklus von Hypothesenbildung, Überprüfung und individuellen und kooperativen Analysen könnte dann mehrfach fortgesetzt werden. Nach einiger Zeit (z.B. am Ende eines Schulhalbjahres) sollte eine formellere Evaluation erfolgen: Die Lehrkräfte würden sich dazu (wie bei VERA) auf einen Satz gemeinsamer Aufgaben einigen, den sie ihren Klassen zur Bearbeitung und Überprüfung vorlegen. Vor der Bearbeitung durch die Schüler würden die Lehrkräfte wieder Einschätzungen der Aufgabenschwierigkeit vornehmen. Der Vergleich mit den tatsächlichen Ergebnissen zeigt dann, ob sich die Diagnoseleistungen substantiell verbessert haben. Es wäre allerdings unrealistisch zu erwarten, dass Lehrkräfte dadurch irgendwann einmal zu perfekten Diagnostikern würden. Letztlich ist die Überwachung und Verbesserung von Diagnoseleistungen wie auch anderer Unterrichtskompetenzen eine Daueraufgabe. Lehrkräfte dafür zu sensibilisieren und kooperative Arbeitsstrukturen für die fachliche Weiterentwicklung anzuregen, wäre ein nicht zu unterschätzender Nebeneffekt eines möglichen Förderprogramms. 4.4. Bedingungen der Verbesserung diagnostischer Lehrerkompetenzen Die in VERA vorgesehene Rückmeldung der Diagnoseleistungen an die einzelnen Lehrkräfte ist nur der Ausgangspunkt für mögliche Bemühungen zur Verbesserung der diagnostischen Kompetenzen. Dabei ist realistischerweise davon auszugehen, dass die bloße Information über die Genauigkeit der eigenen Urteile für sich genommen vielfach nicht ausreichen dürfte, um Lehrkräfte zu einer Weiterentwicklung ihrer diagnostischen Kompetenzen zu veranlassen. Wie nicht zuletzt unsere eigenen Forschungen (Schrader & Helmke, 2003, in Druck-b, in Druck-a) gezeigt haben, ist der Weg von der Information über eigene Kompetenzen bis hin zu realen Verbesserungen steinig und weit. Ob die an Lehrkräfte gerichtete Information die 19 Empfänger überhaupt erreicht, ob sie verstanden wird, ob sie schul- und unterrichtsrelevante Aktivitäten nicht nur auslöst, sondern auch längerfristig in Gang hält: Auf diesem langen Weg gibt es zahlreiche Möglichkeiten des Versickerns und Verpuffens, wie wir anhand eines Prozessmodells (Helmke & Schrader, 2001; Helmke, 2003) gezeigt haben. Diese Gefahr ist um so größer, je weniger Hilfestellungen und Strukturierungshinweise Lehrkräfte auf diesem Weg bekommen. Insofern ist die Entwicklung eines stärker formalisierten und zentral begleiteten Lernprogramms und die Organisation von innerschulischer Unterstützung ein sehr wesentlicher Schritt auf diesem Wege. Sobald im VERA-Projekt erst einmal eine solide Datenbasis vorhanden ist und erste Erfahrungen zur Nutzung dieser Daten vorliegen, sollen verstärkt Anstrengungen unternommen werden, Möglichkeiten zur Verbesserung diagnostischer Kompetenzen zu entwickeln. 5. Ausblick Wie es "lernende Schulen" gibt, müssen auch Projekte lernfähig sein. Dies gilt insbesondere für das Projekt "Vergleichsarbeiten in der Grundschule" in sieben Bundesländern (und ca. 400.000 beteiligten Schülern – das sind doppelt so viele wie in PISA weltweit), weil es in vielfacher Hinsicht Neuland betritt. Dies betrifft zum einen den inhaltlichen Aspekt: Fragen der diagnostischen Kompetenz und die damit zusammenhängenden theoretischen und methodischen Aspekte sind weiße Flecken auf der kognitiven Landkarte von Lehrkräften. Zum anderen stößt man gerade bei computerunterstützten individualisierten Rückmeldungen über Aspekte der diagnostischen Kompetenz an die Grenzen dessen, was Lehrkräfte schulintern, gestützt auf Handreichungen, mit Papier und Bleistift selbst auswerten können. Wir werden deshalb im Projekt VERA den gesamten Bereich der Auswertung und Rückmeldung von Ergebnissen im Bereich der diagnostischen Kompetenz komplett internetbasiert gestalten. Auf diese Weise wird es möglich sein, nicht nur in großem Umfang Aufschluss über wichtige diagnostische Kompetenzen von Lehrkräften zu bekommen, sondern den Lehrkräften auch eine gezielte Rückmeldung und damit auch Impulse für die Verbesserung ihre diagnostischen Fähigkeiten zu geben. 6. Literatur Arnold, K.-H. (1999). Diagnostische Kompetenz erwerben. Wie das Beurteilen zu lernen und zu lehren ist. Pädagogik, 51 (7-8), 73-77. Arnold, K.-H. (2001). Beurteilungskompetenz. unterrichten/erziehen, 20 (1), 12-15. Bates, C. & Nettelbeck, T. (2001). Primary school teachers judgements of reading achievement. Educational Psychology, 21 (2), 177-187. Bromme, R. (1997). Kompetenzen, Funktionen und unterrichtliches Handeln des Lehrers. In F. E. Weinert (Hrsg.), Psychologie des Unterrichts und der Schule (Enzyklopädie der Psychologie, Pädagogische Psychologie, Vol. 3, S. 177-212). Göttingen: Hogrefe. Carr, M. & Kurtz, B. E. (1991). Teachers' perceptions of their students' metacognition, attributions, and selfconcept. British Journal of Educational Psychology, 61, 197-206. Cronbach, L. J. (1955). Processes affecting scores on "understanding of others" and "assumed similarity". Psychological Bulletin, 52, 177-193. Feinberg, A. & Shapiro, E. (2003). Accuracy of teacher judgements in predicting oral reading fluency. School Psychology Quarterly, 18 (1), 52-65. Fisher, C. W., Filby, N., Marliave, R., Cahen, L. S., Dishaw, M. M., Moore, J. & Berliner, D. C. (1978). Teaching behaviors, academic learning time, and student achievement: Final report of phase III-B, Beginning Teacher Evaluation Study. San Francisco: Far West Laboratory. Funder, D. C. (1995). On the accuracy of personality judgment: A realistic approach. Psychological Review (102), 652-670. Helmke, A. (1994). Diagnosing students' needs. In T. Husen (Hrsg.), The International Encyclopedia of Education. Second edition (2. Aufl., Vol. 10, S. 5768-5772). Oxford: Pergamon. Helmke, A. (2003). Unterrichtsqualität: Erfassen, Bewerten, Verbessern. Seelze: Kallmeyersche Verlagsbuchhandlung. 20 Helmke, A. & Fend, H. (1981). Wie gut kennen Eltern ihre Kinder und Lehrer ihre Schüler? In G. Zimmer (Hrsg.), Persönlichkeitsentwicklung und Gesundheit im Schulalter. Gefährdungen und Prävention (S. 341-360). Frankfurt: Campus. Helmke, A. & Fend, H. (1982). Diagnostic sensitivity of teachers and parents with respect to the test anxiety of students. Advances in test anxiety research, 1, 115-128. Helmke, A. & Hosenfeld, I. (2003a). Vergleichsarbeiten (VERA): Eine Standortbestimmung zur Sicherung schulischer Kompetenzen - Teil 1: Ziele, Konzepte und Organisation. SchulVerwaltung, Ausgabe Nordrhein-Westfalen (4), 107-110. Helmke, A. & Hosenfeld, I. (2003b). Vergleichsarbeiten (VERA): Eine Standortbestimmung zur Sicherung schulischer Kompetenzen - Teil 2: Nutzung für Qualitätssicherung und Verbesserung der Unterrichtsqualität. SchulVerwaltung, Ausgabe Nordrhein-Westfalen (5), 143-145. Helmke, A. & Hosenfeld, I. (in Druck). Vergleichsarbeiten - Kompetenzmodelle - Standards. In R. S. Jäger, A. Frey & M. Wosnitza (Hrsg.), Lernprozesse, Lernumgebungen und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert. Landau: Verlag Empirische Pädagogik. Helmke, A. & Schrader, F.-W. (1987). Interactional effects of instructional quality and teacher judgement accuracy on achievement. Teaching and Teacher Education, 3, 91-98. Helmke, A. & Schrader, F.-W. (2001). Von der Leistungsevaluation zur Unterrichtsentwicklung. In R. Silbereisen & M. Reitzle (Hrsg.), Psychologie 2000. Bericht über den 42. Kongress der Deutschen Gesellschaft für Psychologie in Jena (S. 594-606). Lengerich: Pabst. Hoge, R. D. & Coladarci, T. (1989). Teacher-based judgments of academic achievement: A review of literature. Review of Educational Research, 59, 297-313. Hosenfeld, I., Helmke, A. & Schrader, F.-W. (2002). Diagnostische Kompetenz: Unterrichts- und lernrelevante Schülermerkmale und deren Einschätzung durch Lehrkräfte in der Unterrichtsstudie SALVE. In M. Prenzel & J. Doll (Hrsg.), Bildungsqualität von Schule: Schulische und außerschulische Bedingungen mathematischer, naturwissenschaftlicher und überfachlicher Kompetenzen. Zeitschrift für Pädagogik, 45. Beiheft (S. 65-82). Weinheim: Beltz. Jäger, R. S. (2001). Von der Beobachtung zur Notengebung (4. Aufl.). Landau: Verlag Empirische Pädagogik. Kleber, E. W. (1992). Diagnostik in pädagogischen Handlungsfeldern. München: Juventa. Lehmann, R. H., Peek, R., Gänsfuß, R., Lutkat, S., Mücke, S. & Barth, I. (2000). Qualitätsuntersuchungen an Schulen zum Unterricht in Mathematik (QuaSUM). Potsdam: Ministerium für Bildung, Jugend und Sport des Landes Brandenburg (MBJS). Schrader, F.-W. (1986). Aufgabenschwierigkeitseinschätzung als Teil der Diagnosekompetenz von Lehrern [Abstract]. In M. Amelang (Hrsg.), Bericht über den 35. Kongreß der Deutschen Gesellschaft für Psychologie in Heidelberg (Vol. 1, S. 415). Göttingen: Hogrefe. [Langfassung: MaxPlanck-Institut für psychologische Forschung, Paper 2/1987]. Schrader, F.-W. (1989). Diagnostische Kompetenzen von Lehrern und ihre Bedeutung für die Gestaltung und Effektivität des Unterrichts. Frankfurt a.M.: Lang. Schrader, F.-W. (1997). Lern- und Leistungsdiagnostik im Unterricht. In F. E. Weinert (Hrsg.), Psychologie des Unterrichts und der Schule (Enzyklopädie der Psychologie, Pädagogische Psychologie, Vol. 3, S. 659699). Göttingen: Hogrefe. Schrader, F.-W. (2001). Diagnostische Kompetenz von Eltern und Lehrern. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (2. Aufl., S. 68-71). Weinheim: Psychologie Verlags Union. Schrader, F.-W. & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen. Empirische Pädagogik, 1, 27-52. Schrader, F.-W. & Helmke, A. (2003). Evaluation - und was danach? Ergebnisse der Schulleiterbefragung im Rahmen der Rezeptionsstudie WALZER. Schweizerische Zeitschrift für Bildungswissenschaften, 25 (1), 79-110. Schrader, F.-W. & Helmke, A. (in Druck-a). MARKUS und die Folgen: Zentrale Ergebnisse der Rezeptionsstudie WALZER und ihre Bedeutung für die Evaluationsforschung und das Qualitätsmanagement. In R. S. Jäger, A. Frey & M. Wosnitza (Hrsg.), Lernprozesse, Lernumgebungen und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert. Landau: Verlag Empirische Pädagogik. Schrader, F.-W. & Helmke, A. (in Druck-b). Von der Evaluation zur Innovation? Die Rezeptionsstudie WALZER: Ergebnisse der Lehrerbefragung. Empirische Pädagogik. Spinath, B. & Höfer, R. (2003). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer/innen und das Konstrukt der diagnostischen Kompetenz. Vortrag bei der 9. Fachtagung Pädagogische Psychologie. Bielefeld. ter-Laak, J., De Goede, M. & Brugman, G. (2001). Teacher´s judgements of pupils: Agreement and accuracy. Social Behavior and Personality, 29 (3), 257-270. 21 Thonhauser, J., Buschmann, I. & Schmich, J. (2003). Nach welchen Faktoren schätzen Lehrer/innen die Schwierigkeit von Aufgaben ein? Benchmarks von innen. Beitrag präsentiert bei Beitrag bei der 64. Tagung der Arbeitsgemeinschaft für empirische pädagogische Forschung (AEPF), Hamburg. Wahl, D., Weinert, F. E. & Huber, G. L. (1997). Psychologie für die Schulpraxis. Ein handlungsorientiertes Lehrbuch für Lehrer (6. Aufl.). München: Kösel. Weinert, F. E. & Lingelbach, H. C. (1995). Teaching expertise: Theoretical conceptualizations, empirical findings, and some consequences for teacher training. In R. Hoz & M. Silberstein (Hrsg.), Partnerships of schools and institutions of higher education in teacher development (S. 293-302). Beer-Shera, Israel: Ben Gurion University of the Negev Press. Weinert, F. E. & Schrader, F.-W. (1986). Diagnose des Lehrers als Diagnostiker. In H. Petillon, J. W. L. Wagner & B. Wolf (Hrsg.), Schülergerechte Diagnose (S. 11-29). Weinheim: Beltz. Weinert, F. E., Schrader, F.-W. & Helmke, A. (1990). Educational expertise: Closing the gap between educational research and classroom practice. School Psychology International, 11, 163-180. Wild, K.-P. (1991). Identifikation hochbegabter Schüler. Lehrer und Schüler als Datenquellen. Heidelberg: Asanger.