Standardbezogene Unterrichtsevaluation
Transcrição
Standardbezogene Unterrichtsevaluation
Standardbezogene Unterrichtsevaluation 1 Andreas Helmke und Ingmar HosenfeJd 1. Übersicht Gegenstand dieses Beitrags ist die Frage nach den Chancen und Grenzen einer crgeb nisbezogenen, an Standards orientierten Unterrichtsevaluation, die das Potenzial von Lernstandserhebungen (Vergleichsarbeiten, Orientierungsarbeiten) über die Standortbestimmung hinaus ausdrücklich auch für die Unterrichtsentwicklung und die Lehrerprofessionalisierung nutzt. Dies soll anhand des Projekts VERA (Ver gleichsarbeiten in der Grundschule in den Fächern Deutsch und Mathematik) gezeigt werden. Abschliessend wird argumentiert, dass die Einführung regelmässiger Ver gleichsarbeiten und die Etablierung verbindlicher Bildungsstandards mit neuen Herausforderungen für den Unterricht verbunden sind; insbesondere die Rolle der Diagnosekompetenz von Lehrpersonen wird an Gewicht gewinnen. 2. Warum erfordert die Frage nach der standardbasierten Unterrichtsevaluation eine klare konzeptuelle theoretische Basis? 2.1 Zwei konträre Konzepte der Unterrichtsqualität Gerade wenn es um «Qualität» und um (,Evaluation» im Bereich von Schule und Unterricht geht, sind oft Missverständnisse vorprogrammiert, weil mit gleichen Begriffen (wie «Unterrichtsqualität») sehr Verschiedenes gemeint wird oder weil umgekehrt unterschiedliche Begriffe (wie «standardbasiert» und «ergebnisorien tiert») im Grunde das gleiche Prinzip meinen. Im Hinblick auf die Unterrichtsqualität gibt es zwei konträre Konzepte 2004a, BaumertiKunter/Brunner/Krauss/Blum/Neubrand 2004): Unterrichtsqualität lässt sich zum einen vom Unterrichtsprozess her bestimmen, d.h. von der Qualität (Angemessenheit, Passung usw.) der im Unterricht ablaufenden Prozesse so wie man sie als Unterrichtsbeobachter in vivo verfolgen könnte oder als Beurteiler einer videografierten Unterrichtsstunde. Diese klassisch-didaktische Sichtweise des Unterrichts als Inszenierung, die einen starken normativen Zug trägt, war lange Zeit die einzige legitime Perspektive in der Lehrerausbildung wie auch in der traditionell geisteswissenschaftlich orientierten Schulpädagogik und Fachdidak tik. Seit der empirischen Wende in der deutschen Bildungspolitik, gefolgt vom Wir bedanken uns beim VERA-Team (Jana Gross Ophotf, Jan Hochweber, Kevin Isaac, Ursula Koch, Frank Scherthan und Sonja Wagner) für hilfreiche Hinweise und konstruktive Ergän zungsvorschläge zu diesem Bericht. 127 StanBard bezogene Unterrichtseva Iuation A ndreas Helmke und Ingmar Ho senfeld «TI MSS-S chock» und der «PISA-Katastrophe», bahnt sich jedoch ein Umdenken an: Nunmehr ko mmt es au ch - u nd künftig sogar verstärkt - auf d as Un te rrichtspro dukt an, also darauf, wel che Wirku ngen de r Unterricht hat, und zwar nicht hoffentl ic h ode r mutrnassli ch, sondern nachweislich. Die Einfü hrung obl igatorischer Vergl eichs und Orienti erungs arbeiten in vielen Bun desl ändern und vor all em di e Eta blieru ng von Bildungsstandards erfor de rn eine Umorientierung in Ric ht un g erge bnis orientie rten Unterrichts, und das heisst in naher Zu kunft: Unterricht, de m es g el ingt, möglichst al le Schülerinnen und Schüler einer Kl asse auf ein akzepta b les Niveau elementarer Kompetenzen zu heben (vgl. Helmke/Hosenfe ld 2004a). Prozess- und prod uktorientierte Konzeptionen der Unterrichtsqualität schliessen sich nicht aus, sondern ergänzen sich. Ein Unterricht , der seine Wirkungen ig noriert, wäre heut z u ~ age schli cht anachronistisch. Umgekehrt w äre es jedoch auch fatal, die Qu alität des UntN richt s ausschliesslich von d en empirisch messbaren Effekten her zu bestimm en, denn schuHs che Leistun ge n sind mu ltipel bedin gt , d .h. d as Ergebnis vieler, miteinande r zusammenhä ngende r Faktoren - darüber wird in A bschnitt 2.2 noch zu sprechen se in . Ein exzellentes Leistun gsniveau in einer Schul k lasse kann, muss aber nicht Verdienst eines erstklassigen Unterrichts sein . Das heisst, die Kom petenzverteilung einer Schulklasse am Ende eines Unterrichtszeitraums I,ässt sich niemals eine m einzigen Bedingungsf aktor ein-eindeutig zuo~dnen . Und vice versa: Defizite im Leistungsn i,vea u sind nicht notwendigerweise schlechtem Unterricht an zulasten, sondern können massgeblich Resultat eif1e ~ ungünstigen Klassenzusam mensetzung und anderer Rahmenbe d ingungen sein. Fü r eine adäquate und faire Evaluation der Unterri chtsqualität sind dies wichtige Punkte. Abbildung '1 verdeutli cht den Zusammenhang zwi schen prozess- und produktba sierter Konzeption der Unterrichtsqual irtät. Wenn m an beid'e Dimensionen jew eils in «negativ» und «pos irtiv » unterteillt. ergibt sich das folgende Vierfeldersc hema: Bewertung des Unterrichtsprod uktes negativ Bewertu ng des Unter richtsprozesses 1 negativ positiv schlecht eingeschätzter Unter richt gutes Unterrichtsergebnis. schlechtes Unte rrichtsergeb nis positiv gut eingeschätzter Unterrich t. trotzdem sch lechtes Unter richtsergebnis trotz schlecht eingeschätztem Unterricht gut eingeSChätzter Un terricht gutes Unterrichtsergebnis und umgekehrt: Unter den nach we islich erfolgreichen Klass en befind en sich auch solche, de ren Unterricht nicht notwendi ge rweise positiv eingeschätzt wird (rechts oben), dem also hinsichtlid , zentraler Gütek riterien (wie Motivierungsqualität, Klarheit, Strukturiertheit usw.) eine ledigl ich unterdu rchschnittliche Ausprägung attestiert wird. Abgesehen von der bereit s angesprochenen Tatsache, dass es vie.le simultan wirkende Einflussgrössen gi bt, ist ein perfekter Zusammenhang zwischen Prozess- und Produktqualität (dann wären die beiden Felder mit den «erwartungs widrig em> Ko mbinationen in der A bb il dung leer) auch aus methodischen Gründen nicht unbedingt zu erwarten : Der Zusammenhang zw ischen M erkmalen der Unter richtsqualität un d spezifischen Wir kun gen ist niemals deterministisch , sondern immer nur probabilistisch, d.h., er hat Wahrscheinlich keitsch arakter. Dazu kommt, dass in den Sozialwissenschaften alle Erhe b u nge n im Feld notwendig erweise mit Messfehlern belastet sind. 2.2 Ein Angebots-Nutzungs-Modell als theoretischer Rahmen Das folgerlde Rahmenmodell soll die komplexe Verflech t ung verschiedener Ur sachenbündel im Kontext des Unt errichts veranschaulichen und als Basis für die darauf aufbauend en Erörterun ge n dienen. L EHR PERS O N UNTERRICHT (Angebot) Expertise In der Diagonale von lin ks oben nach rechts unt en (in der Abbildung grau hinterlegt) befi nd en sich die «erwartungsgemässen » Ergebnisse. Vorausgesetzt, man hat die wi chtigste n Güte kriterien d es Unterrichtshandelns methodisch solide erfasst. sol;lten Schulklassen mit ausgeprägt positiver Prozessqualität des Unterrichts in aller Regel auch auf der Produktseite gut dastehen . in der Empirie finden sich aber immer auch Kl assen in den beiden «erwartungswidrigen» Qua d ranten : Ein positiv eingeschätzte [ Unterricht, der im Ergebnis ni cht hält, w as seine Inszenierung verspricht (links unten), 128 INDIVID UELLE EINGANGSVORAUS SETZUNGEN ! Unte rrichts qualität in den 4 Kernbe reichen: Fach w issen Dida k tik Diagnose Kl asse nführung MEDIATlO NSPRO ZESSE Effizienz der Klass enführun g Engag ement I~ ~ L ERN AK TIV rrÄ TEN (Nutzung) aIA SchUlerseila Fachliche Effekte M otiva tion a le I- Unterrichts quantität I- Verm ittlung & proze sse Pädagogische Orienti er ung en I- A ktive Lernz 81t im Unterricht I~ Ausse rsch u lische l ernakt ivi tät en Qualität des Lehr- und Selbstwirk s amkeit Lernmaterials Fachwisse n Grund ve rslän dnls Lernstrate gien Fertig keiten Überfachliche Effekte Wah rn ehm ung und Subje ktive Schlüsselkom petenzen Sozi al i sationseffe rJe Interpretati on des Untern chts Theori e n Abbildung 1." Vierfelders ch ema der prozess- und produktorien t ier te n Sichtweise d er Unter r ichtsqualität I Bereits c haft zur Selbstrefie xion I t t t K LASSENKO NTEXT und FACH LI CHER KONTEX T I J Abb ildu ng 2: Ein Rahmenmodell der Wirkun gswe ise des Unterrichts (rl elmke 2004a) 129 Andreas Helmke und Ingmar Hosenfeld Das Modell berücksichtigt Lehrpersonmerkmale (presage), Kontextmerkmale (con text), Merkmale des Unterri ( htsprozesses (process), Mediationsprozesse, Lernpro zesse und Ergebnisvariablen (product) und stellt damit eine Erweiterung des klassischen Modells von Dunkin und Biddle (1974) dar, dessen Begriffe in Klammern gesetzt sind. Verschiedene Kombinationen dieser Variablenklassen entsprechen ver schiedenen Parad igmen der Unterrichtsforschung. Die folgenden Aussagen des Modells erscheinen für die Fragestellung wichtig: • Unterricht kann, einer Idee von Helmut Fend (1998) folgend, als Angebot verstan den werden . Ob, wann und wie dieses Angebot seitens der «Kundschaft» gen utzt wi'rd, al'so zu aktiven, selbstständigen Lernprozessen (<<aktive Lernzeit») und letzt endlich zu den erwünschten fachlichen und überfachlichen «Ou'tcomes» führt, hängt nicht nur vom Unterricht, sondern eben auch von vielen anderen Faktoren ab. • Unterricht ist nur eines von mehreren Bündeln von Wirkfaktoren , die auf Schüler seite für den Aufbau von Wissen, Verständnis und Schlüsselkompetenzen verant wortlich sind. Daneben kommen z.B. auch EinHüsse der Familie und des Klassen kontextes ins Spiel. M it Letztgenanntem ist sowohl die Klassenzusammensetzun g gemeint (Geschlechts-, Sprach-, Schichtverteilung) als auch der normati,ve Kontext (Klassenklima, z.B. kollektive Wertschätzung oder Ablehnung von Leistung und Konformität - vgl. Fend 1977, Specht/Fend 1979). • Unterricht umfasst neben der Qualität der Unterrichtsprozesse auch deren Quan tität (Lernzeit, Lerngelegenheiten) sowie die Effizienz der Klassenführung und die Qualität des Lehr-Lern-Materials . • Das in der obigen Abbildung nicht weiter aufgeschlüsselte Merkmal «Unterrichts qualität» umfasst eine Reihe vo" Prinzipien, die an dieser Stelle lediglich auf geführt, nicht jedoch hergeleitet oder im Detail beschrieben werden können. Um die wichtigsten zu nennen: effiziente Klassenführung und Zeitnutzung; lernför derliches, motivierendes Klima; Passung und Adaptivität; Struktu,riertheit; Inhalts qualität: Klarheit, Aktualität, Korrektheit;. angemessene Methodenvielfalt; Nach haltigkeit: Sicherung, Konsolidierung, Übung, Transfer; anspruchsvolle Ziele; konstruktiver Umgang mit Fehlern und Missverständnissen; Förderung des Auf baus von intelligentem Wissen und von Schlüsselkompetenzen, insbesondere von selbstständigem Lernen und sozialen Kompetenzen. Übersichten und Klassifi kationen von Merkmalen der Unterrichtsqualität finden sich bei Slavin (2000), Brophy (2000), Ditton (2002), Helmke (2004a) und Meyer (2004). • Merkmale der Lehrperson (z .B. diagnostische Expertise) und Prozessmerkmale der Unterrichtsqualität sind zu eilnem erheblichen Anteil- der sich jedoch einer Quan tifizierung entzieht - wechselseitig kompensierbar und substituierbar. Das heisst z.B., ein Defizit an Strukturierung ist - oberhalb einer kritischen, jedoch mangels ei'ner geeigneten Metrik nicht präzise angebbaren Schwelle - durch besondere Stärken in anderen Bereichen kompensierbar. • Unterricht ist «unabhängige » und «abhängige» Varia b le zugleich. Er ist ein w ich ti ger Wirkfaktor für den Aufbau von Wissen und Kompetenzen; seine Qualität hängt je doch seinerseits von der Klassenzusammensetzung ab, beispielswe ise vom Niveau und der Heterogenität der Leistungen der betreffenden Klasse zu Beginn Sta ndardbezogene Unterrichtseval uation • Die Beziehungen zwischen Unterrichtsmerkmalen und Kriteriumsvariablen sind indirekt, d.h., sie werden durch 'Mediations- und Interpretationsprozesse gefi,ltert oder auch geblockt. 3. Welche Aspekte schulischer Leistungen eignen sich für die Analyse und Rückmeldung von Ergebnissen? Nur allzu oft wird die Diskussion über Leistungsvergl'eiche und Lernstandserhebun gen auf einige wenige Informationen reduziert, und es wird oft nur ein Bruchteil der pädagogisch und didaktisch möglicherweise nützlichen Ergebnisse zurückgemeldet. Somit wird das Potenzial solcher Studien nicht ausgenutzt. Am Beispiel des Projekts VERA (Vergleichsarbeiten in der Grundschule in den Fächern Deutsch und Mathema tik) soll aufgezeigt werden, wie sich durch eine differenzierte Berichterstattung auf mehreren Ebenen das Potenzial von Vergleichsarbeiten für die Unterrichtsentwick I,ung und Lehrerprofessionalisierung besser ausschöpfen 'lässt. 3. 1 Das Projekt VERA - Anlage und Ziele Die nachfolgende Abbildung 3 gibt einen Überblick über die organisatorische Struk tur des Projekts, an dem zur Zeit (2005) sieben Bundesländer und verschiedene deut sche Auslandsschulen teilnehmen: Das Projekt verfolgt mehrere Ziele: • Schaffung einer empirisch fundierten Basis für Unterrichtsentwicklung und ge zielte fachliche Förderung • Steigerung der Professionalität der Lehrertätigkeit, insbesondere fachdidaktischer un d diagnostischer Kompetenzen • Intensivierung schulinterner Lehrerkooperation durch notwendige Teamarbeit (Auswahl von Aufgaben, Auswertung der Vergleichsarbeiten, Planung von Mass nahmen usw.) • Bestandsaufnahme und Siche rung von Leistungsstandards auf System-, Schul- und Klassenebene • ergänzende Information der Eltern über das derzeitige Fähigkeitsprofil ihrer Kinder • Beschleunigung der Umsetzung von Bildungsstandards sowie neuer Lehr- un d Rahmenpläne Dazu kommt - positive Nebenwirkung, aber ke in eigenständiges Ziel - die infol ge der unumgänglichen und intensiven Nutzu ng des Internets erzielte Verbesserung informationstechnischer Kompetenzen der Lehrkräfte. Für detaillierte Angaben zu den Zielen, der Organisati on und den bisherige n Ergebnissen von VERA siehe Helmke und Hosenfeld (2003a, 2003b, 2004b) so w ie Helm ke, Hosenfeld un d Sch rader (.2'004). des Unterrichtszeitraums. 1 ~n 13 1 Stan dardbezogene Unterrichtsevalu ati on Andreas He'l mke und Ingma r Hosenfeld Institut zur Qualitätsentw icklung im Bildungswesen (lQB) Kultusm in isterkonferenz l Berlin St euerg ru ppe (Vertreter der Länder + Projektleitung) Projekt VERA im Projektverbund Empirische Bildungsfors chung , Unive rsrtä t Koblen z- Landau , Campus Landau Leitung :Prof . Dr. A Helmke und Jun. Prof . Bremen entwicklung • Landes institute Sekretariat:M Friedf - Fachdidaktiker - Lehrkräf te ,-_-.,.,,..-___,..--,-_L...,..-___--:-__- , - -- , \ Ko ntakte m it Institutionen und Projekten der Bildungsforschung und -evaluation MPIB Berlin (6 ....... '1 IPN Ki e l ( Pr~el) Kompet ClnZZenlru m ProJ okt Harmo S, Zürich , Klassen -Cockpit (Messt) Sch YIGlz PHZH-Uing sschn itt Z I.Hich (Mos&f. Hollenweoar. SI.nm) Universit ät Hamburg . Oricn l itlrungsarbcit cn ProjekIIGL u.: 80s.} Zcnt ra lsch ~ lz (Buche<. SeMl Branden burg für die Aufgaben F. Hosenfc!d (Dip l.-Informahker) DIPF Frankfurt ~ Die wichtigste A nalyseebene bei VERA ist die der Schulklasse. Die meisten Rück meldungen beziehen sich deshalb auch auf Erg eb nisse der einzelnen Klassen bzw. auf M erkmale (wie Diagnosegenaui gkeit) ih rer Lehrkräfte, Insofern ist VERA in el'ster Linie ein Projekt, das mit Hilfe eines differenzierten System s zeitnahe r Ergebnis rückmeldungen einen Beitrag zur Förderung der Sch ul- und Unterrichtsentw icklung leisten w ill. Schliesslich f al len bei Vergleichsarbeiten auch individuelle Ergebnisse an, d ie - im Fall von VERA - den Eltern in Form ein es Fähigkeitsprofils zurückge meldet w erden. Die folgende Abbildun g veranschaulicht die individuelle Rückmeldu ng (am Beispiel Mathematik) : Expertengruppen Wlssensch af1ler-Team J . Hoch weber, K. Isaac (Oi pl.*Psych,): (KII·.... I M INISTERIEN der beteiligten Bu n desländer 1I.+aradoo l Ba~r. R ~) ~~Ig,!~e;~~!::~. Klas se: 4 ~ ~ s chülerln IArithmetik[Geometrie [SaChreehnen 1~ Nordrhein Westfalen 21 ~ 3.l1 BtUlh,n IRJO da Janelfo} Ch,na (PeldftgJ DMt:ffIalk I (l(opanhagon) 03'1emalk 11 (U ~ NCKdSC-nhu ..... gl Finntand lH,I. ,nki ) GtOßbn~nn·en (landon) fT ehef1ln) italien ~om) tJ.a.) Hu mbo ld t-U n lv . B crlin (lohtnann) ZSEE Graz (Spochl) Kolumbien (CaII) MaXI '\0 (Pu.~81 Siludl-Arablon plldnahl S elblen (Belgtlld) hlwln [Tllpth) Tlchechlen (Pragl Ungam ~B~d.Pt$I) V.n.e:ru.I_ ~Car.tC.ul ; \ Schles w ig Holstein 2i[ -- 2[ - - 2 • 2 1 - 2[ 2 n, a,L,* [ - 11 2 21 _ 1I Ir - 7[ _ 2[ 8r - 2[ 2[ 9 3.2 Verschieden e Hierarchieebenen Die Ergebn isse von Vergleichsarbeiten lassen Analysen auf mehreren Hierarchi e ebenen zu: System , Schule, Klasse und Individuum, Zunä chst geht es auf der Ebene des Systems, also den beteiligten Bundesl änd ern, wie bei den grossen lernstandserhebungen TIMSS, PISA, DESI un d PIRLS/IG LU, um «system monitoring» _Alle diese Studien basieren auf Stichproben, sind also nicht als Gesamterhebung angelegt - im Gegensatz zu Lernstandserhebungen in der Fläche wie LAU (Leh mann/Peek/Gänsfuss 1997), MARKUS (Helmke/Jäger 2002) un d VERA (Helmke/H'osenfeld 2003a, 2003b), an der alle Schulen mit der jeweiligen Klassen stufe teilnehmen, VE RA ist jedoch inf olge seiner Anlage (Wahl eines grossen Teils d er Au f gaben durch die Ko llegien ; Durchführung der Testung durc h Lehrkräfte statt durch Testleiter; schul interne Auswertung) für evaluative Zw ecke w eniger geeig net , insbesondere nicht zum Verglei ch der Leistungsstärke von Bu ndesl ändern (für Det ails vg l. Hel m ke/Hosenfeld 2005b), Trotzdem sind auch Analysen auf Systemebene si n n voll, aber nicht ländervergleichend, sondern innerhalb der Länder über die Zeit hin weg : Wo konnten durch entsprechende bildungspolitische Massnahmen Schwäch en beseitigt, Stärken ausgebaut werden? 3{ 11.-_2 1 1r . -: 2r I -~ I Abbildung 3: Organisationsstruktur des Projekts VERA (Vergleichsarbeiten in der Grundschu le) 132 - - 4[ - Rheinland Pfalz Ir.lln Projekt grupp ~ Ollton Deutsche Auslandsschu len : Ä'h,opl,n IAddl. Ab'b'l MecklenburgVorpommern 10 11- 21 1 1[ 2'- 2 2[ 1 11 21 2[ 12f _ 13 [ - 14[ - 15 2[ - 2[ ~ 21 ~- 2 [ -~-- 1 16[ 1 31 __ 2'[ r - - 21 1[ n,a,L,* I[ n,a.L.* 1 1 2 'J "" 1 -, ,;) 1 1 Abbildung 4: Zuweisung von Fähigkeitsniveaus an Schülerinnen und Schüler im Projekt VERA 133 Andreas Helmke und Ingmar Hosenfeld Sta ndardbezogene Unterrichtseva Iuation In dieser Abbildung wird jedem der 16 Schülerinnen und Schüler in einer fiktiven Klasse für jedes Teilgebiet der Mathematik ein Fähigkeitsniveau zugewiesen 2 . Für jeden der sieben Inhaltsbereiche (Deutsch: Leseverständnis, Schreiben, Sprachbe trachtung, Orthographie; Mathematik: Arithmetik, Geometrie, Sachrechnen/Grös sen) wurden die Fähigkeitsniveaus vorab definiert; hier exemplarisch die Stufen beschreibung für e,in es der sieben Gebiete, die Arithmetik (Vergleichsarbeit 2004): • Fähigkeitsniveau 1: elementare bzw. grundlegende Fähigkeiten. Einfache Auf gaben mit grundlegenden Anforderungen werden hinreichend sicher gelöst. • Fähigkeitsniveau 2: erweiterte Fähigkeiten. Aufgaben mittleren Anforderungs niveaus werden hinreichend sicher gelöst. • Fähigkeitsniveau 3: fortgeschri,ttene Fähigkeiten. Auch anspruchsvollere Auf gaben werden hinreichend sicher gelöst. Stufe 1: Elementare Kenntnisse arithmetischer Verfahren • In Gleichungen kann eine fehlende Rechenoperation eingesetzt w erden . • Schriftliche Additionsaufgaben werden gelöst. • Schriftliche Subtraktionsaufgaben ohne Übertrag werden gelöst. • Die Aufgabenlösung gelingt bei sehr kurzen und sprachlich einfachen Texten in der Aufgabensteilung. Liegen keine Daten vor (z.B. wei ,1die Aufgabe gar nicht bearbeitet wurde) oder sind die Daten unvollständig (z.B. weil die Aufgabenlösung extrem bruchstückhaft und unvollständig ist), ist keine Zuordnung zu einem der drei definierten Fähigkeits niveaus möglich. Wir sprechen daher von einer «nicht auswertbaren Leistung» (n .a.L.). De facto liegt dies noch unter dem Fähigkeitsniveau 1. Stufe 2: Umfassende Kenntnis der Addition und Subtraktion • Einsicht in das Stellenwertsystem liegt vor und es kann angewendet werden. • Schriftliche Subtraktion gelingt auch mit Überträgen oder in unüblichen Formaten (Lückenaufgaben). • Das Vervollständigen von Zahlenreihen gelingt, w enn die zugrunde liegende Regel Strichrechnung erfordert. • Sprachlich formulierte Aufgaben zu den Grundrechenarten werden bewältigt, im Fall von Stri chrechnung auch mehrschrittig . • Aufgaben mit sprachlich komplexeren und längeren Texten werden gemeistert. Stufe 3: Flexible Beherrschung der Grundrechenarten • Mehrschrittige Rechnungen werden unter Berücksichtigung der Regel «Punkt rechnung vor Strichrechnung» bewältigt. • Das Finden, Erklären und Korrigieren von Fehlern in schriftlichen Additionen oder Subtraktionen gelingt. • Zahlen können durch das Auffinden geeigneter Operationen zu einer Zielzahl kombiniert werden. • SchrifUiche Subtraktion gelingt auch mit Überträgen in unüblichen Formaten (Lückenaufgaben) • Die Identifikation und Benennung der einer Zahlenfolge zugrunde liegenden zweischrittigen Regel gelingt. ,. Überschlagsrechnungen können vorgenommen werden. Bereichsübergreifend führt die Unterscheidung der drei Fähigkeitsniveaus dazu, dass jeder Schülerin un d jedem Schüler al!.Jfgrund der Leistungen in der Vergleichsarbeit ein Fähigkeitsniveau zugeordnet wird. Diese Zuordnung besag,t, dass die für dieses Niveau formulierten Anforderungen mit hinreichender Sicherheit 3 bewältigt werden. 2 Künitig (ab 2005) wird sich die Rückmeldung nicht mehr an den tradi,tion ellen Inhalts gebieten, sondern an den Kompetenzbereichen der Bildungsstandards für die Grundschule orientieren. (http ://www.kmk.org/schul/Bildungsstandard s/Grund sch u le_M athe mati k_BS_307 KM K. pdf) 3 «Hinreichende Sicherheit» ist wie bei vergleichbaren Leistungsvergleichsstudi en in der Regel definiert als Lösung swahrscheinlichkeit von mindestens 62%. 134 3.3 Drei Bezugsnormen der Evaluation Jede Evaluation erfordert einen Massstab, eine Bewertungsnorm. Im Fall der Ver gleichsarbeit lassen sich drei unterschiedlkhe Bezugssysteme unterscheiden: a) verteilungsbezogen oder normativ (<<Wie gut ist Schule X oder Klasse Y, vergilichen mit anderen?» «Andere» können sein: die Parallelklassen der eigenen Schule, die Gesamtpopulation oder eine Teilgruppe daraus). b) sachbezogen oder kriterial : Vergleich mit einem inhaltlich definierten Massstab, z.B. einem Lernziel oder einem Anforderungsniveau im Rahmen der Bildungs standards. c) veränderungsbezogen oder ipsativ (Vergleich des gleichen Gegenstands, z.B. des Fähigkeitsprofils zum Zeitpunkt Tl mit anderen Zeitpunkten) : Immer dann, wenn es sich bei der Leistungsmessung um Zyklen handelt (z. B. S Jahre bei PIRLS/,IGLU, 4 Jahre bei TIMSS, 3 Jahre bei PISA und jährliche Wiederholung bei VERA), lassen sich so Muster der Veränderung über die Zeit abbilden, sowohl auf Systemebene als auch auf Schulebene. Dies gilt allerdings nicht für die Ebene der Sc hulklasse, weil bei VERA jährlich die jeweiligen 4. Klassen getestet werden. 3.4 Auflösungsgrad In der öffentlichen Diskussion dominieren Angaben zu durchschnittlichen Werten d ie Diskussion, oft in Gestalt eines einzigen Pun'ktwerts oder Skalenpunkts für ein gesamtes Fach. Eine Alternative sind Ergebnisrückmeldungen in Form von Fähig keitsniveauverteilungen, sowohl auf Systemebene als auch auf Schul- und Sch ul klassenebene. I,n inhaltlicher Hinsicht reicht das Spektrum von Jnformationen zu einem Fach insgesamt (w ie bei IGLU) zur Information über Teilgebiete des jeweiligen Inhaltsbereichs b ~ s hin zu Informationen über die Schwierigkeit (Lösungspro zentsätze) einzelner Items . Im Projekt VERA erfolgten 2004 separate Auswertungen und Berichte über Fähigkeitsniveauverteilungen für die Bereiche Arithmetik, Geometrie und Sach rechnen (in Mathematik) sowi e für Leseverständnis, Schreiben, Orthographie und Sprachbetraclltung (in Deutsch). Auf der Homepage des Projekts VERA (http://www. Andreas Helm ke und In g mar Hose nfel d Stand ard bezoge ne Unterrichtse va Iuati o n un'i -Iandau.de/vera/) befinden sich entsprechende A ufgabenbeispiele zu den Inhalts bereichen; auf der WWW-Seite «Iearn-line » von NRW vertiefen de didaktische Hin weise zu den A ufga ben 4 . Die folgen de Abbi ld ung veranschaulicht exemplarisch f ür M athem atik, w ie die Standortbestimmung bei VE RA vorgenommen wird: Einzelne Klassen können sich gleichzeitig mit der eigenen Schul e u nd mit dem Landesdurchschn itt vergle ichen. Proze ntuale Fähigke itsnive auverte ilung I ARITHM ETIK DStufe :1 . Stufe 3 ~.-------~----- La nd ~~~==::"::!~~~=~=~~~~~~~~~~==== Schu le Klass e 4a 1! h ~ 20 % (:"~:~,m. • 3. 5 Qualitative VS. quantitative Merkmale Neben der verbreiteten (und unersetzbaren) Informatio n über Fähi gkeiten (basie rend auf ausreichend vielen unterschiedlich en A uf g aben zum g leichen Bereich ) w ird im Projekt VERA auch über Falschlösungen informiert, d .h. d arüber, ob besti m mte Fehlerarten (d ie ihrerseits für unterschiedliche Den kf ehler, Fehler bei Ro utinen o de r «m isco nce pt ions» stehen können) in ei ne r Klasse überzu fällig häufig auftauc hen . Ziel ist d ie A nregung einer fachdidaktische r Dis kussi on über die Grün de d es g e häuften Vorkomme ns best im mt er Feh le rtypen, verglichen m it den Ergebn issen d er repräsentativen Normierungssti chprobe. Hie rzu w u rd e im Proj ekt V ERA eine aus führliche Handreichung entwi ckelt, die alle Lehrk räfte im geschüt zt en Be reich der VE RA-Homepage herunterla de n können. Die fol gende A b bild ung veranschaulicht das Pri nz ip d er Rückmeld u ng von Fehler un d Falschlös ung smust ern (aus Platzg ründen si nd d ie Auf gabe ntexte u nd Fe h ler typen hie r n icht aufgefü hrt): GEOMETRIE DK las se 4a La nd ! 12 % I Sch u le li~"'1:::Ji.ifj._ JW 19 % . insge s am t (Norm ieru ngss tudie ) Fehle r 1 I ' , SACHRECH NENI GRÖSSEN I I ___ ____ ___ 1_ , _____ - - __ J ___ _ _ ___ _ _ I ___ ___ __ __ L ~ Lan d .fß;. 41 % Schule t J I , , 40% 50% __ _ _ 'l:); 1 35 % Klas se4 a I I I I~=' =-~I====================~==========~======~===e====~ 0% 20% 4 0% 60% 80% 100 °) Abbildung 5: Standortbestimmung bei VERA: Vergleiche mit der Fähigkeitsniveauverteilun g der Schule und des Bundeslandes (fiktive Daten) f-------..:..------~-----,; - -- - ---- - - r -- - -- - - - -- ,-- - -- -- - - - rJi c h t beal'beit Im vorliegenden fikti ven Fall (siehe A bbildu ng 5) ist z.B. die Fähigkeitsniveauvertei lung der Klasse 4a im Bereich A r ith m etik etwas ungünstiger (1 % Schüler mit «nicht auswertbaren Leistun ge n» sowie 20 % auf Fähig ke itsniveau 1, und lediglich 27 % auf der höchsten Fäh igkeitsniveaustufe) als der Sch uldurchschnitt. Die Schu le ist se lbst wiederum in einer ung ünstigeren Lage als der Durchschnitt des Bundesla nd es (ledig lich 54 % auf dem höchsten Fähig ke itsn iveau, vergl ic hen mit 65% auf Landesebene, und 12% auf Fäh igke itsniveau 1 im Ver g leich zu nur 5% auf Landesebene) . 4 http://www.learn-line.nrw.de/angebot e/vergleichsarbeiten4/auswertung.htm I 136 0% 10% 20% 30% 60 % Abbildung 6: Rückmeldung von Fehler- und Falschlösungsmustern bei VERA (fiktive Daten) In diesem (fikti ven) Fall zeigen sich zw ei Auffäll igkeiten in der Klasse: (1) Ein be stimmter Fehlertyp (Nr. 1) wird hi er übe rzu f älli g hä ufiger als im Durchschn itt ge macht - vielleicht ein Hi nweis auf Opt imie ru ngsb ed arf im Bereich der Fachdida kt ik oder d es eingesetzt en Lernmaterials. (2) Ebenfalls deutlich häufiger ai s im Durch schrlitt kommt es vor, d ass A ufgaben gar nicht bearbe itet werd en - möglicherw eise ein A nzeichen für eine subopt imale Strategie angesichts von Unsicherheit: Eine schwierige Aufg ab e wird ganz ausgelassen; strategisch günstige r wäre es, es zumi.n 137 Andreas Helmke und Ingmar Hosenfeld Standa rdbezogene U nterr ichtseva Iuation dest zu versuchen, oder (bei Multiple-Choice-Aufgaben) die plausibelste Lösung anzukreuzen. 3.6 Verschiedene Para meter der Schülerleistungen Meist steht bei hgebnisrückmeldungen die Frage nach dem Niveau im Vo rdergrund . Gerade in Anbetracht der Ergebnisse von PISA 2000 und 2003, die für Deutschland eine enorme sozialschicht- und sprachabhängige Leistungsheterogenität erwiesen haben, ist aber auch die Frage nach der Streuung der Leistungen innerhalb von Klassen (auch: Schulen, Bundesländern) aus bildungspolitischer und pädagogischer Sicht wichtig. Sofern zuzüglich zu den «nackten» Leistungsdaten bei der Durchführung der Ver gleichsarbeiten auch soziodemographische Schülerangaben erhoben werden (bei VERA z.B. das Geschlecht, der Sprachhintergrund und - im Jahre 2003 - die Zeugnis noten in Deutsch und Mathematik), lassen sich weitere wichtige Informationen der Vergleichsarbeiten auswerten und den beteiligten Schulen und Klassen zurück melden, beispielsweise die Korrelation zwischen dem Anteil an Schülern mit Deutsch als nicht-dominanter Sprache in einer Schule (oder in einem Bundesland) einerseits und Nivea u und Streuung der Leistungen andererseits. Der Vergleich dieser Ergeb nisse über die Zeit liefert wichtige bildungspolitische Steuerungsinformationen zur (Ent-)Koppelung von Schulerfolg und Sprachhintergrund. Was die Noten anbelangt, so lieferte die Gegenüberstellung von Zeugnisnoten versus Fähigkeitsni'veauverteilung (VERA Rheinland-Pfalz, 2003) interessante Infor mationen darübef, welches Gewicht (für die Zeugnisnote) verschiedenen Inhalts bereichen zukommt. Hierzu die folgende Abbildung (aus Helmke u.a. 2004): l ~ naL DSt~~ 1- 0 Stufe 2 0 Zunächst einmal zeigte sich, dass die Mathematiknote erwartungsgemäss mit dem Fähigkeitsniveau zusammenhängt: Schülerinnen und Schüler mit der Mathematik note «1» befinden sich seltener auf den niedrigen (n.a.L, Stufe 1) und häufiger auf den höheren Niveaus (Stufe 2, Stufe 3) der Fähigkeitsniveauverteilung . Daneben zeigt sich aber auch das unterschiedliche Gewicht der drei mathematischen Inhalts bereiche: Die Arithmetik (A) kovariiert sehr stark mit der Mathematiknote, die anderen beiden Bereiche (G = Geometrie, S = Sachrechnen) dagegen deutlich schwächer. 3.7 Diagnostische Kompetenz von Lehrkräften Die diagnostische Kompetenz gilt als eine der vier Schlüssel kompetenzen für erfolg reichen Unterricht (neben fachwissenschaftlicher, didaktischer und Klassenführungs kompetenz), weil sie die Voraussetzur:lg für schülerangemessene Verteilung von Auf gabelI, für Individualisierung und Differenzierung ist. Insbesondere nach den enttäuschenden Ergebnissen von PISA 2000 ist dieses Merkmal der Lehrerprotes sionalität verstärkt in den Blickpunkt gerückt und spielt bei VERA eine wichtige Roll e (Helmke/Hosenfeld/Schrader 2003, Helmke u.a . 2004, Schrader/Helmk e in Druck) . Auch hierz u gibt es im geschützten Bereich der VERA-Homepage eine ausführliche Handreichung für die Lehrkräfte. 100 Prozent D geschätzt . real BEISPIEL: 80 Sie haben geschätzt: 70%der Klasse lösen diese Aufgabe Stufe 3 A G 60 S 2 A G 40 S 3 A G 20 S 4 A G S o A1 A2 G1 S1 A3 S2 G2 53 Prozentsatz der Schülerinnen und Schüler, die die Aufgaben lösen 5 u. 6 A G s 0% 20% 40% 60% 80% 100% Abbildung 8: Vergleich zwischen lehrergeschätzten und tatsächlichen Aufgabenschwierig keiten (fiktiv) Abbildung 7: Zeugnisnoten und Fähigkeitsniveau verteilung im Fach Mathematik 138 139 Andreas He lm ke und Ingmar Hosenfeld Standardbezog ene Unte rrichtsevaluation Abbildung 8 bezieht sich auf den Vergleich der Lehrerprog nose mit den tatsäc hlichen Ergebnissen b ei zehn von den Lehrkräften selbst au sgewä hlten Mathematik aufgaben (A = Arithmetik , G = Geometrie, S = Sachrechn en) . Die Rückmeldung über di e eigene Diagnosegenauig keit ist auf dieser Ebene zunächst rein kr iterial, d .h ., es gibt keine Vero rtung über den Vergleich mit anderen. De r zwe ite Te il d er Rückmeldung (siehe Abbi ldun g 9) ist dageg en vergleichs orientiert, erm ögli cht also den Lehrkräften eine Stando rtbestimmun g im Vergleich mit der b undeslandübergreifende n Verteilu n g der Diagn osege nauigkeit. so dass Lehrkr äfte ihre eige n e Positi on verorten kön nen . Im vorlieg enden Fall ist das Ergebnis der Lehrkraft mit ein er Korrelation von nur r = 0.27 mässig; erst Korrelati onen ab r = 0.50 können als ausreichend gelten. Immerhin erreicht ein nicht unerheb li cher Prozentsatz von Lehrkräften Genauig ke itskennwerte von r = 0.50 und darübe r. dafür gibt es mehrere Möglichkeiten. Sie reiche n von ein er einfachen Beschre ibung relevanter Kontextmerkmale über d ie Be rechnu ng von Erwartungswerten, den Ver gleich mit äquiva lenten Gruppen bis hin zu r Adjustierun g der Ro hwert e (so dass kon textbeg ün st igte Klassen bzw Schulen, also solche mit «Rückenwi nd», einen M alus, Klassen bzw Schulen mit «Gegenwind » einen Bonus erhalten). Die folgende A bbildung zeigt, exemplarisch für M athematik, das bei VER A 2004 angewendete Verfahren der internetbasierten Rückmeldung des eigenen Ergeb nisses, verglichen mit einer äquivalenten Gruppe: Proze ntuale Fähigkeitsniveauverte ilung Verteihmg der Kor r ela tion 2ß 15 Ir---------------------~ ...c' ~1ß o L Ve r gleichsg :.. 5 I a ' ........ • SAC HRECHNENI GRÖSS EN I C== - 13,4 " 11 11 -[1,2 "I !II B IL: -i , _ ., ,, 0. 2 ~lI?r 11 {l ,4 '" '" [1 ,6 "' '" 0,8 !I 35% 1 Ve r gle ic hsgru 1ie,:;pn :=;iF Q- - 0% 20% 40 % 60 % 80% 1 OO O~ Abbildung 10: Ergebn isrückmeldung bei VERA: «Fairer Vergleich » Ih r Gen auigke itsindex (Korrelation): 0.27 Abbildung 9: Diagnosegenauigkeit: Rückmeldung an Lehrkräfte (VERA, 2004) 3.8 Fairer Vergleich Erg ebnisrückmeldungen auf Klassen- und Schulebene, die sich auf die rohen We rte beschränken und den sozialen Kontext ausser Acht lassen - die Klassen zusam mensetzu ng, das Sc huleinzug sg ebiet - sind problematisch . Denn Unterricht in einer Schul e in einem sozi alen Brennpunkt kann noch so gut sein, di e Lehrkräfte noch so engagiert - gegenüber privilegierten Schulen (<< Region von Besitz und Bildung », «Villenviertel») haben sie vi elfach keine Chance gleichzuziehen. Deshalb muss aus Gründen der Fairness der sozial e Kontext berücksichtigt w erden. Wie das getan wird, 140 Fairness ist jed och auch beim Ve rgleich von Syste men (hier: Bundesl än der) gebote n, da sich d iese hinsic htlich wicht iger le rn- und leistu ngsre levanter Bed in gungen (wie M igranten anteil, A rbeitslosi gkeit, Schichtzu gehöri gke it usw) erheblic h vo ne inande r unt erscheiden . Bei der Publikatio n d er Länd erergebnisse der Vergleichsarbeit 2004 wurden d esh alb, separat für jedes Land, neben den Gesa mtwerten (<< over-all ») auch die Fähig ke itsnivea uvertei lu ngen get rennt nach Sprachhintergru nd b erichtet. Dabei wir d unterschi eden zwische n Deutsch als dominanter vs. nicht-dom inanter Sprach e. Mit «dominant» ist gemeint, welche Sprache überw iege nd gesprochen wi rd ; Dat en basis si nd Lehreran gaben . Die fol ge nde Abbi ldung (aus Helm ke/Hosenf eld 2005b) enthält die be i den letztgenannten Grafik en f ür das Bu nd es land Bremen, w o Deutsch bei 18.9% der V iertk lässler die nicht-dom inante Spra che ist. 141 Andreas Helmke und Ingmar Hosenfeld Standardbezogene Unterrichtsevaluation 4. Welche Konsequenzen haben Standards für den Unterricht? Die empirische Wende der Bildungspolitik, in Deutschland mit TIMSS eingeleitet, ist nicht mehr rückgängig zu machen . Im Gru nde wird mit dieser Rückkehr Deutschlands in die Gemeinschaft derjenigen Staaten, die seit langem und kontinuierlich die Wirk samkeit ihrer Bildungssysteme evaluieren, nur ein gravierender Rückstand beseitigt. Dass sich die Kultusministerkonferenz nach den niederschmetternden Ergebnissen von PISA 2000 nicht mit der Postulierung von zentralen Handlungsfeldern begnügt hat, sondern es in sehr kurzer Zeit geschafft hat, über Bildungsstandards nicht nur zu reden, sondern sie verbindlich einzuführen, ist eine angesichts der föde rale n Tra dition in der Bundesrepublik und zahlreicher Bedenkenträger wahrhaft herkulische Leistung, die man gar nicht hoch genug einschätzen kann. Deutsch als domi nante Sprache (N =4.230) 0% Deutsch als nicht dominante Spra che (N = 920) AnUlmellk 6 Geometno 31 Sach rechnen '0 Lesen Schreiben 10% 20% 1 30% I. 23 SprachbeUachtung 6 1 Orthographie 6 1 10% 20% 80% 90% 100 4. 1 Unterrichtsinh alte , r E;l I (1 r 24 EIl m l 4' 21 70% ~ I , 60% EIl 45 1 17 50% I 23 24 0% 40% ~ 2J ~ ! 30% -- 40% 50% 60% Dass die Bildungsstandards primär Konsequenzen für die Unterrichtsinhalte haben, ist trivial, wird jedoch in vielen Schulen zu erheblichen Umstellungen führen. Mass geblich sind künftig vor allem die in den Standards beschriebenen, durch pro totypische Beispielaufgaben repräsentierten Kompetenzberei che. Lehrbücher und anderes Material, das diesbezügli ch nicht optimal ist, in dem relevante Bereiche ganz fehlen oder nicht gut ausbalanciert sind, dürften künftig nur geringe Chancen auf dem Markt haben. 70% 80% 90% 100 Abbildung 11: Als Beispiel: Ergebnisrü ckm eldung an das Land Bremen (VERA 2004) Entspreche nd deutl'ich fallen die Unterschiede der beiden Schülergruppen aus, ins besondere beim Lese n und Schreiben, deutlich gerirlge r in der Mathemati,k - und hier am stärksten im Bereich Sachrechnen/Grössen, in dem das sprachliche Ver ständni s noch wichtiger ist als in der Arithmetik und der Geometrie . 4.2 Nötig: eine empirische Wende auch in den Sch ulen Von der empirischen Wende in der Bildungspolitik war bereits die Rede . Allerdings ist in vielen Schulen die empirische Wende noch nicht wirklich angekommen . Gewiss, man ist über das TIMS S- Debakel und über die PISA-Katastrophe orient iert. do ch waren dies Studien vom Typ «syste m monitoring », d ie - ausgenommen , man gehörte selbst zur Stichprobe - den schulischen Alltag und die Unterrichtspraxis nicht w irk lich tangierten . Mit der Einführung flächendeckender Vergleichsarbeiten in der Grundschule (Projekt VERA) sowie in der Sekundarstufe I (Zentrale Lernstands erhebung in der Jahrgangsstufe 9 in NRWS), beide verbunden mit internetbasierten differenzierten Ergebni srückmeldungen, und der künftige n Or ientierung an Stan dards wird sich jedo ch in den Schulen mit Sicherheit Einiges ändern (Helmke/Hosen feld 2004a, 2005a). Was deshalb auf lange Sicht unabdingbar erscheint. ist eine empirische - d.h.: an nachweislichen Resultaten orientierte - We nde auch im Schulal/tag . A n dieser Stelle ist jedoch vor einer Engführung zu warnen: der Beschränkung auf schnell, öko nomisch und schriftlich testbare Kompetenzen . Die folgende Abbildun g so ll doku mentieren, da ss Bildungsstan da rds nur einen (wenngleich sehr wichtigen) Ausschnitt aller Bildungsziele eines Fachs zu erfassen beanspruchen (nicht oder nur marginal : 5 http://www.l e arnlin e. de/ange bot elle rnst a nd 9/ 142 143 Standardbezogene Unterri chtseva Iuation And reas Helm ke und Ingmar Hosenfeld überf achlich e Kompetenzen). Vergleichsarbeiten können nur einen Ausschnitt der Bildungsstandards erfassen; so entziehen sich Hörverstehen und mündliche Kom munikation aus ökonomischen Gründen einer !festung durch schriftliche Vergleichs arbeiten. Bildungsziele eines Unterrichtsfachs Bildungsstandards: Kernbereiche fachlicher Kompetenzen Gegenstand von Verg leichsa rbeiten: schriftlich und ökon omisch testbarer Teil der Bi Idungsstandards '---- änderte Akzentsetzung im Sinne ein er verstärkten Bedeutung kontinuierlicher, an Standards orientierter Diagnostik. D,ie Qualität des Unterri chts w ird zunehmend daran bewertet w erde n, in we lchem Ausmass es Lehrkräfte schaffen, mög lichst alle Schül erinnen und Sc hüler der unter richteten Kla sse auf ei n akzeptables Niveau fachlicher Ko mpetenzen zu bringen. Die Bildungsstandards beziehen sich jedoch lediglich auf Scha rn iersteilen de r Sc hul bi o graphie, in der Grundschule z.B. auf das Ende der 4. Klasse. Dies ist in den meisten Bundeslän dern gleichbedeutend mit dem Ende der Grundschulzeit, in den bei VERA beteiligten Ländern Berlin und Branden bu rg dagegen nicht - dort dauert die Gr und schule se chs Jahre. Wichti g ist in jede m Fall, dass sich Lehrkräfte rechtzeitig ein Bild darü be r mac hen müsse n, welche Sch ül eri nnen und Schüler besonderer Förderung bedü rf en, w o ve rstärkte r W ied er holu ngs- od er Vert ief un gsbedarf beste ht oder welche Den k- oder M ethod enfe hler in einer Kl asse besonders verbreitet sind, dam it sie am Ende der 4. Klassenstufe die von den Standards vorgegebenen Kom pet enze n mit ausreichender Sicherheit beherrschen . Anders ausge drückt : Es reicht nicht aus, sich erst geg en Ende de r 4. Klasse ein Bild der Fäh igkeit sniveau verteilung in der Kla sse zu machen - dies würde ledi glich dem fragwü rd igen Ziel ei ner optimierten Se lektion dienen. Was nötig ist, sind Diagnosen zu einem Zeitp un kt, der noch genügend Ze it fü r syst ematische Förderung lässt: spätestens gegen Anfang der 4. Klassenstufe; g ünstiger wäre Ende der 3. Klasse nstuf e. Dies erfordert in ve rstärktem M asse dia gnostische Komp etenzen, d.h., Lehrkräfte müssen künftig in der Lage sein, lange vor zentra len Übe rprüfung en von Standards und mit vergleichsweise geringem Aufwand eine Reihe di agnostische r und darauf basierender didaktischer Leist ungen zu erbringen . Hierzu ein Zitat (Helmke/Hosen feld 2004a, S. 174/5): «Standardbezogen e Tests einsetzen . Günstigenfa lls liegen hierzu Ergebn isse über Abbildung 12: Bildungsziele - Sta ndards - Vergle ichsarbeiten 4.3 Zentral: lerndiagnostische Lehrerkompetenzen I In den meisten deutschen Sch u len herrscht momentan noch Ratlosigkeit, wie künftig den neuen Herausforderung en durch obligatorische Bildungsstandards zu begegnen se i. M uss etwa der gesamte Unterricht völlig restrukturiert werden? Gilt morgen nichts mehr von dem, was gestern «guten Unterricht» ,i m Sinne der Prozessqualität von Unt erricht ausgem ac ht hat? Hat Wein erts (1998) Postulierung de r vier Schlüssel kompetenze n für erfo lgreichen Unterricht - Fa chkompetenz, did akti sche Ko mpe tenz, diagnost ische und Kl assenfüh rungskom peten z - keine Gült igke it meh r ? Spätestens hier ist Entwarnung angesagt. Die zentralen Pri nz ipien dessen, was g uten Unterri cht ausm acht - z. B. Passung, M otivierun gsq ualit ät, Förderu ng akt iven Lerne ns, eff iziente Klassenfüh rung (für Einze lh eiten vgl. Helmke 2004a) -, be ha lt en sel bstverst änd lich ihre Gült ig keit und sind von der bevorstehenden emp irisc he n We nde in den Schulen in keiner Wei se betroffen. Im Gegenteil : Je mehr die gut en alten Lehrplän e und Curricula ver schwinden oder an Bedeutung verliere n, desto mehr wird eine Rückbesinnung auf elementa re Prinzipien de r Unterrichtsqualität erfolgen . Was dagegen nötig ist - ni cht mehr, aber auch nicht we niger - ist eine ver- 144 regional'er Vergleichsarbeiten vor (w ie im Projekt VERA); in Länd ern und Kl assen stufen, wo dies nicht der Fall ist, geht es an d ieser' Stelle darum, sich sel bst über geeign ete Erhe b ungsmethoden (z.B. f rei gegeben e Testaufgabe n aus den grossen Leistungsstudien ; Beispie laufgab en zu den Bildungsstandards) zu info rmieren, geeignete Instrumente zu beschaffen, einzusetzen und auszuwert en. Diese Ve r ortung an Benchmark s «Wie ist die Verteilung der Fähi g keitsniveaus in meiner Klasse, verglichen mit ei'ner Referenzgrupp e, z. B. dem Landesdurchschnoitt? » erfordert allerdings eine erhebliche Expertise. Ohne eine darauf zugeschnittene Lehreraus- und -fortbildung , ohne M oderatoren, Fachb erater und methodisch geschulte Schul psychologen sind die A ussichten eher ungünstig. Verständnis für Komp e tenzen entwickeln. Wenn gravierende Defizite auftreten, dann sollten sich Lehrkräfte mit diesen Kompeten zbereichen intensiver aus einand ersetzen. Dazu gehört vor a:llem auch eine eingehende Anal yse der zur Leis tungsmessung verwend eten Aufgaben und derjenigen A ufg abenmerkmale, die die A ufgab enschwierigk eiten bestimme n. Dies sind neben de n eigentlich en inhaltl ichen An f orderung en auch weitere Merkmale w ie beispielsweise das Ant wortformat od er der in d er Aufgaben steIlung verwe ndete Wo rtschatz. Di es erfordert ein solides fa chdidaktisches W issen, dane be n auch ein M ind estmass an entwicklungspsycnologischem Wissen \Informiertheit über typ isch e ah ersspez i fische Begrenztheiten des Denk ens und typische <mi sco nceptions». 145 Sta ndard bezogene Unterri chtseva Iuation Andreas Helmke und Ingmar Hosenfeld Selbst A ufgaben entwickeln. Diese Anforderung wird im Kern standardbezogener Formen des Unterrichtens stehen. Da sich Klassen im Niveau und in der Streuung der standardbezogenen Kompetenzen stark unterscheiden werden, wird es kein ideales, überall einsetzbares Material zur Behebung von Defiziten geben . Viel mehr müssen Lehrkräfte auch einmal selbst Aufgaben ganz gezielt zu denjenigen Kompetenzaspekten entwickeln, die im Argen liegen . Dies erforde rt ein fachdidaktisches Verständnis für Kompetenzen, aber auch eine gute Vertrautheit mit unterschiedlichen Aufgabenformaten: von Richtig-Falsch- und Multiple Choice-Testaufgaben über Zuordnungs-Testaufg abe n, lückentest, Fehler finden und markieren bis hin zu Kurzantwort-Testaufgaben (short answer) und Aufsatz test (essay), um nur einige in Vergleichsuntersuchungen vorkommende Formate zu nennen. Hierzu gibt es gute, speziell an Lehrkräfte adressierte Literatur (vgl. z. B. Weinert 2001). Nutzung von Mehrfachkorrekturen. Insbesondere im Sprachunterricht ist das Ver fahren der M ehrfachkorrektur eine lehrreiche und fruchtbare Methode. Beurteilt man beispielsweise bei einer Schreibaufgabe (z.B. ein appellativer Brief) zusätz lich zu einem Globalurteil der «Qualität» des Schreibprodukts konkrete Aspekte der formalen (z.B. Gestaltung), inhaltlichen (welche Elemente müssen, dürfen, sollten nicht vorkommen) und sprachlichen (Situationsangemessenheit, Wort schatz, Rechtschreibung, Grammatik) Qualität und vergleicht die Urteile derselben Arbeiten miteinander, dann kann dies sehr erhellend sein und die fachdidaktische Diskussion über Schülerkompetenzen sowie über «guten Deutschunterricht» för dern . 5. Wie ist zu gewährleisten, dass das Potenzial der externen Evaluation tür die Verbesserung des Lehrens und Lernens genutzt wird? Abschliessend soll darauf hingewiesen werden, dass eine verstärkte, kontinuierliche Lerndiagnostik eine notwendige, aber keine hinreichende Bedingung für Verbes serungen des Lehre/1s und Lemens ist. Dies zu betonen, erscheint wichtig, weil in der bildungspolitischen Diskussion gel egentlich der Eindruck entstehen kann, eine solide Evaluation würde gleichsam automatisch den Unterr icht und damit die Lernleis tungen der Schülerinnen und Schüler verbessern. Davon kann aber keine Rede sein. Vielmehr ist der Weg von der Information (hier: über den akt uellen Leistungsstand einer Klasse) bis zur Innovation (wirkungsvolle Massnahmen des Unterrichts, der För derung, des Trainings) weit und beschwerlich . Dies soll die folgende Abbildung (aus Helmke 2004a) veranschaulichen: In for mation über Individuelle Bedin g ungen Modi..... "", IT·Korr!>cIllf\Z ~!·SöU·Vetg l eCl'lI ZtJfrlCldar'hltI Vor'MSSM ~bSC Prota551Me1les SEfbst\erslJnlnis SoI~tw.m;arrh!l1 t - lel5t!.Jng s!l!'k~ MOlI..nhon und Vollhon A.lo:Zoptanz..ql EwlualJon · lBistung sbandhfffltf. StabillLaI \0"1 GeI~ten 1 ~ · FehlerfJlJSlP.r Rezeption - OröIJra;eoJer'IaJ: g ~ J . s..Chl!lr\JnyetI"l8SMlncleslnl..caus 146 PlÜung fachI,chor~ · Fetdarll'l9 lei$1Ung s,sthYa:hIJ" TacMSChI · ParalleHlassen • aqlll'oalf!l"1:en Klassen nalrer VefgfotÖ'·) ~ W.h""tmJf1g f-< UrieftlchlStlu:lh~ j.-.... 991. EIheIdq zusatzhchBr _""t.a1 Massnahmen uoo g~ itkt h~b(m der klasscnütll"Q • EWlualfons!QJtlJ' f-o . Aufg_'" - FehlerlQJltuf - SchultW9 der c:Jg IlJSh'$Chan t vom Typ · Ve-cnierurlg iflotllhi4b des n.äng ~!:.cI'r Jlt · VerC!'Outng l<V1gfr l!:. llg t Externe Bedingungen . EOV- undFIt'linzaus. s ~ der Sct\.IIe E..aIlJaltons· Iß1l<Jq>eratl~l~ t HllklI91slL6Ig durch dIe W'55E11l5Chal'i UI1t6fSllIVLf'g durch oe Sd'UlallPW . 5ctUau(sl(;i)l. ~1n5UWte ~'Alllld~(X"atr.eOrre-.:iEr"~ Vetb:nje GEnarn= ÖliMtllctw.t Allzeplar\l S8iil!Jn!i dt!r EJI.n'" SchuIer Modefil6oren Lnt Oual'lasbera'er Vetbl rdl~t(lJ"d\ VcröWN.."ftJ"lg Im ~-.stilut.OMI'slet"te Hillm VI Dattnnt{f"p-ota(IO(I ~ SchJtprog rarrm t T I leh,erausbo'dung und ' "",'erbold'H1g - \'.ern sie genul%.1 habon . obdi.Ift.I"U1g nachhallJg 15: Kornpel$U · KoppeItJIg ft'It PTOjet!M zur Untarrlchtsquall Lil · VOfjße5efgebnis \· Z OIt...a"II18·) ergriffenen · G_",le s.t.g.. ung .... S........ ds SctJ'Jahres - ob du;! Schtiergruppen Su;henoch ErNat"UlQtwl U......l1Iung Ver~s - Bundesland 5)OCtw"cr rt.1cmeota1natme*1 Tests wiederholen. Für fast alle oben genannten Punkte können Testwieder holungen nützlich sein. Wollen Lehrkräfte feststellen, ob gezielte Bemühungen etwa die Klasse in Richtung Standards voranzubri.ngen - Erfolg gehabt haben, dann führt kaum ein Weg an einer Testwiederholung vorbei. Dies macht geradezu den Kern einer empirischen Orientierung in der Schule aus: Nicht aufs Geratewohl fördern und intervenieren - im der Hoffnung, es werde wohl schon einen Prof ilt bringen -, sondern die Wirkungen der Förderung, der Unterrichtsmassnahme empirisch nachweisen.» Eva lu at ion Aktion Reflexion Ve r gleic he mit Fehler analysieren. Nutzung auffäl,liger Abweichungen des Fehlermusters in der eigenen Klasse (wie es z.B. im Rahmen des VERA-Projekts die Lehrkräfte auf Nach frage hin erfahren), um daraufhin ge zielt Gründe für Fehler und «misconceptions» zu sondieren: Liegen sie an mangelnden Vo~kenntnissen, geringer Anstrengung, mangelndem Instruktionsverständnis? Ist der betreffende Stoff im Schuljahr noch nicht bzw. seit langem nicht mehr unterrichtet oder geübt worden, simd bestimm te Kompetenzen und Fertigkeiten im Unterricht bisher zu wenig - oder nicht nach haltig genug - thematisiert worden, erschweren die benutzten Lehrtexte das Ver stän dn is? !l 11 Boldungsfl...... 'erUn;1 11 B, dung.poiil,k I Abbildung 13: Von der Diagnose zur Innovation (Helmke 2004b) 147 Andreas Helmke und Ingmar Hosenfeld Ob Informationen aus einer Leistungsmessung, wie sie beispielsweise bei VERA inter netbasiert zurückgemeldet werden, überhaupt rezip iert (ode r ignoriert, missver standen) we rden , ob sie Reflexionsprozesse auslösen, ob diese Folg en (in Form unter richtlicher oder ausserunterrichtlicher M assnahmen) haben und ob diese Aktionen in der biossen Hoffnung auf Erfolg etabliert oder zusätzl ich auch evaluiert werden d ies ist eine lange und in mehrfacher Hinsicht fragile Kette. An jedem Übergang in d ieser Ke tte gibt es d ie M ög lich ke it, dass das Poten zial der Vergleichsarb eiten entweder verpufft und versickert - oder beachtet und kon struktiv gen utzt w ird. In gewisser Weise ist das hier geschilderte Modell in der «instructiona l psychology » bereits vorweggenommen worden, verbunden mit Namen wie Gl aser und Resn ick. Das Modell von Glaser (1987) beispielsweise, das im deutschen Sprachraum bedauer licherweise kaum rezipie rt wurde, umfasst vier Komponenten (zitiert nach Shuell 1996, S. 742): • Analysis and description of the competent performances (knowledge and sk i 11 ) that we want students to acquire, including intermediating performances (dies entspric ht der Logik der Bildungsstandards, d ie nichts anderes als erwartete Kom petenzen sind). • Identification and description of the learner's knowledge, ab ility, and other goal relevant states prior to instruction (dies entspricht der Base-Line-Messung durch Verg leichsarbe iten) . • Explication of the processes and conditions that can be implemented in instruc tiona l settings to assist the learner in moving from his or her initial state to the desired state of competence (dies entspricht der datenbasierten Planung indivi dueller oder gruppenspezifischer Fördermassn ahmen). • Monitoring and ass'essment of the learner's performance and bot h the short-te rm (e.g., classroom performance) and long-term (e.g., transfer, generalization, abi li ty for further learning) effects of the instructional implementation (dies entspricht im Rahmenmodel l der Evaluation). Vergleichsarbeiten und die Überprüfung von Standards sind kein Selbstzweck, sondern dienen letztlich der Verbesserung des Lehrens und lernens. Deshalb ist es wichtig, sich über förderliche un d hinderliche personelle und kontextuel le Faktoren Rechenschaft abzulegen (für Details vgl. Helmk e 2004b). Auf externer Seite kommen beispielsweise folgende Faktoren ins Spiel: • kooperatives Klima im Kollegium • Evaluat ions- und Innovationskultur • Ve rbindlichkeit durch Verankerung im Schulprogramm • Akze ptanz durch Eltern und Schülerschaft • EDV-Aussta ttung und finanzielle Ressourcen der Schu le • Verfügbarkeit von Moderatoren und Qu alitätsberatern • institutionalisierte Hilfen zur Dateninterpretation • Hilfeleistung durch die Wissenschaft' • Unterstült zung durch Schulleitung, Schulaufsicht, Landesinst itute, Verbän de, Geme inde, Öffentlichkeit • Anreizsysteme 148 Sta ndardbezogene Unterrichtseva Iuation Auf individueller Seite spielen u.a. folgende Faktoren eine Rolle: • ausreichende Motivation (<<Lohnt es sich?») • Ist-Soll-Vergl eichlZufriedenheit «<Ist eine Veränderung nötig?») • diagnostische und didaktische Expertise • Selbstvertrauen (<<Kann ich das schaffen?») • Bereitschaft zur Selbstreflexion • Vermeidung unrealistischer Zielsetzungen • professionelles Se lbstverständnis • Bereitschaft zur Kooperatio n • Plastizität von Gewohnheiten, Rout inen und Alltagstheorien • Ak zeptanz von Evaluation • Medien- und IT-Kompetenz Das Spektrum unterrichtlicher Aktionen als Antwort auf suboptimale Ergebnisse ist so vielfältig, dass hier nur be ispiel- und stichworthaft einige Punkte aufgeführt werden können: • Suche nach Gründen für Unterschiede im leistungsni veau zw ischen Kl assen innerhalb einer Schule • Sichtung geeigneten didaktischen Materials und Entwicklung neuer Aufgaben für defizitäre Bereiche • Interpretation auffälliger M uster von Fehlern, Falschlösungen, Missverständ nissen, Misskonzepten • Mehrfach- und Kreuzkorrektur ausgewählter Arbeiten • Erprobung unterschiedlicher Lehr-le rn- Szena rien mit anschliessendem inner schulischem Austausch • Verknüpf ung mit innerschulischen Unterrichtsprojekten (z.B . Schü lerfeedback) • gezielte Förderung leistungsschwacher Schü lerinnen und Schüler: - interne Differenzierung - leistungsstarke Schüler als «Tutoren» - Sch LI le-EItern -Koo peration - Somm erschu le - Chancen der Ganztagsschu le • «Virtue lle Hosp itation»: Austausch von Segmenten eigenen videografierten Unterrichts • Training eigener diagnostischer Kompetenzen • Schulintern e Kooperation, schulübergreifende Vernetzung (Vorbild SIN US) Welche Massnahmen im Einzelnen ergriffen werden können und sollen, hängt von der jeweiligen Leistungssituation, von den Ressourcen der Schule und den Erfah rungen der Lehrkräfte ab. Entscheidend für einen längerfristigen Erfol g - und eigentlich gleichbedeutend mi t der empirischen Wende in der Schule - ist, dass der in Abbildu ng 1 genannte Zyklus immer wieder (a lso nicht nur einmalig) und kom plett durchlaufen wird. 149 Andreas Helmke und Ingmar Hosenfeld Lit eratur Baumert, J.; Kunter, M.; Brunner, M.; Krauss, S.; Blum, W.; Neubrand, M . (2004): Schule und Unterricht. Mathematikunterricht aus Sicht der PISA-Schülerinnen und -Schüler und ihrer Lehrkräfte. In: M. Prenzel, J. Baumert, W. Blum, R. Lehmann, D. Leutner, M. Neubrand, R. Pekrun, H.-G. Rolft, J. Rost & U. Schiefeie (Hrsg.): PISA 2003. Der Bildungsstand der Jugendlichen in Deutschland - Ergebnisse des zweiten internationalen Vergleichs (S. 314-349). Münster: Wa xmann. Brophy, J. E. (2000): Teaching (Educational Practices Se ries, Vol. 1). Brussels: Interna tional Academy of Education & International Bureau of Education www.ibe.unesco.of9· Ditton, H. (2002): Unterrichtsqualität - Konzeptionen, methodische Überlegungen und Perspektiven. In: Unterrichtswissenschaft, 30 (3), S. 197-212. Dunkin, M. J.; Biddl1e, B. J. (1974): The study of teaching. New York: Holt, Rinehart & Winston. Fend, H. (1977): Schulklima: Soziale Einflussprozesse in der Schule. Fend, H. (1998): Qualität im Bildungswesen. Schulforschung zu Systembedingungen, Schulprofilen und Lehrerleistung. Weinheim: Juventa . Glaser, R. (1987): Learning theory and theories of knowledge. In: Learning and Instruction, 1, S. 397-414. Helmke, A. (2004a): Unterrichtsqualität: Erfassen, Bewerten, Verbessern (3. AlJfl.). Seelze: Kallmeyersche Verlagsbuchhandlung. Helmke, A. (2004b): Von der Evaluation zur Innovation: Pädagogische Nutz barmachung von Vergleichsarbeiten in der Grundschule. In: Seminar, 2, S. 90- 112. Helmke, A.; Hosenfeld, I. (2003a) : Vergleichsarbeiten (VERA): Eine Standortbe stimmung zur Sicherung schulischer Kompetenzen - Teil 1: Grundlagen, Zie le, Realisierung. In: SchulVerwaltung, Ausgabe Hessen/Rheinland-Pfalz/Saarland (1), S. 10-13. Helmke, A.; Hosenfeld, I. (2003b): Vergleichsarbeiten (VERA): Eine Standortbestim mung zur Sicherung schulischer Kompetenzen - Teil 2: Nut zung für Qualitäts sicherung und Verbesserung der Unterrichtsqualität. In : SchulVerwaltung, A usgabe Hessen/Rheinland-Pfalz/Saarland (2), S. 41-43. Helmke, A.; Hosenfeld, I. (2004a): Bildungsstandards und Unterrichtsqualität. I,n: Pädagogische Führung, 4, S. 173-176. Helmke, A.; Hosenfeld, I: (2004b). Ve.rgleichsarbeiten - Kompetenzmodelle - Stan dards. In: M . Wosnitza, A. Frey & R. S. Jäger (I'-lrsg.). Lernprozesse, Lern umgebungen und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert (S. 56-75). Landau : Verlag Empirische Pädagogik. Helmke, A.; Hosenfeld, I. (2005a) : Leistungsmessung in der Grundschule: Vorberei tung und Nutzung von Vergleichs- und Orientierungsarbeiten. In: Klexer, 14, S.3-5. Helmke, A.; Hosenfeld, I. (2005b): VERA 2004: Erste Ergebnisse des Länderver9leichs, http://www.uni-Iandau.de/vera/do wnloa ds/Laenderk u rzbericht. pdf. Helmke, A.; Hosenfeld, 1.; Schrader, F-W. (2003): Diagnosekompetenz in Ausbildung und Beruf entwickeln. In: Karlsruher Pädagogische Beiträge (55), S. 15-34. Helmke, A.; Hosenfeld, I.; Schrader, F-W. (2004): Vergleichsarbeiten als Instrument zur Verbesserung der Diagnosekompetenz von Lehrkräften. In: R. Arnold & C. 150 Standardbezo gene Unterrichtseva Iuation Griese (Hrsg.) Schulleitung und Schulentwicklung (S. 119-144). Hohengehre.n: Schneider-Verlag. He'l mke, A.; Jäger, R. S. (Hrsg.) (2002) : Die Studie MARKUS - Mathematik-Gesamt erhebung Rheinland-Pfalz: Kompetenzen, Unterrichtsmerkmale, Schulkon t ext. Landau: Verlag Empirische Pädagogik. Lehmann, R. H.; Peek, R.; Gänsfuss, R. (1997): Aspekte der Lernausgangslage von Schülerinnen und Schülern der fDnften Klassen an Hamburger Schulen. Bericht über die Untersuchung im September 1996. Hamburg: Behörde für Schule, Jugend und' Berufsausbildung, Amt für Schule. Meyer, H. (2004): Was ist guter Unterricht? Berlin: Carnelsen. Schrader, F.-W.; Helmke, A. (in Druck): Training der Diagnosefähigkeit von Lehrkräf ten durch die Nutzung von Vergleichsarbeiten . Friedrich Jahresheft 2005. Seelze: Friedrich Verlag. Shuell, T. (1996): Teaching and 'I earning in a classroom context. In: D. C. Berliner & R. Calfee (Hrsg.) : Handbook of Educational Psychology (S. 726-764). New York: Macmillan . Slavin, R. E. (2000): Educational Psychology. Boston: Allyn and Bacon. Specht, W.; Fend, H. (1979): Der «Klassengeist» als Sozialisationsfaktor. In: Unter richtswissenschaft, 2, S. 128-142. Weinert, F E. (1998): Neue Unterrichtskonzepte zwischen gesellschaftlichen Not wendigkeiten, pädagogischen Visionen und psychologischen Möglichkeiten. In: Bayrisches Staatsministerium für Unterricht, Kultur, Wissenschaft und Kunst (Hrsg .): Wissen und Werte für die Welt von morgen - Dokumentation zum Bildungskongress am 29./30. April 1998 (S. 101-125). München: Bayerisches Staatsministerium für Unterricht, Kultur, Wissenschaft und Kunst. Weinert, F. E. (Hrsg.). (2001): Leistungsmessungen in Schulen. Weinheim: Beltz. 151