GIZ 2012_Positionspapier RCT
Transcrição
GIZ 2012_Positionspapier RCT
Stabsstelle Monitoring und Evaluierung – Im Fokus Wirkungsmessung mit experimentellen Designs – und deren Anwendung in der GIZ Randomisierte Kontrollstudien (Randomised Controlled Trials, RCT) zur Messung der Wirkung von Entwicklungsvorhaben erfahren derzeit große Aufmerksamkeit in der deutschen Presse und werden dort mit „Goldstandard“ in der Wirkungsevaluierung betitelt. Neu ist diese Debatte in Fachkreisen jedoch nicht. Die GIZ und ihre Vorgängerorganisationen beschäftigen sich seit einigen Jahren mit RCT und deren Anwendungsmöglichkeiten bei der Evaluierung ihrer Vorhaben. Die Stabsstelle Monitoring & Evaluierung hat die Erfahrungen ausgewertet und unter Berücksichtigung der Realitäten der Vorhaben vor Ort Empfehlungen für den möglichen Einsatz abgeleitet. Wirkungsorientierung ist ein wichtiges Qualitätsmerkmal der Arbeit der GIZ. Damit wir die Wirkungen unserer Arbeit zuverlässig und glaubwürdig nachweisen können, werden unsere Projekte und Programme regelmäßig evaluiert. Dabei interessieren uns vor allem Antworten auf die Fragen: Was wirkt, wie, warum und unter welchen Bedingungen? Große Aufmerksamkeit in der deutschen Presse erfährt seit 2011 ein bestimmtes (experimentelles) Untersuchungsdesign zur Wirkungsmessung: sog. randomisierte Kontrollstudien, auch kontrollierte Zufallsexperimente genannt (Randomised Controlled Trials, RCT). Insbesondere die Publikationen von Abhijit V. Banerjee und Esther Duflo vom J-PAL1 haben diese Diskussion befördert, die jedoch keineswegs neu ist, sondern in internationalen und nationalen Evaluierungsfachkreisen in und über die Entwicklungszusammenarbeit (EZ) hinaus seit Jahren geführt wird. RCT gelten dort als ein wichtiger Ansatz, aber nicht (mehr) als der Goldstandard für Wirkungsevaluierungen. Dieses Papier stellt Möglichkeiten und Grenzen von RCT vor dem Hintergrund der internationalen Debatte und unseren eigenen Erfahrungen dar und leitet Empfehlungen für die Verwendung in der GIZ ab. Es richtet sich einerseits an GIZ-Mitarbeiter, die sich mit Wirkungsmessung beschäftigen, dabei insbesondere an die Auftragsverantwortlichen, die bereits zu Vorhabenbeginn die Voraussetzungen für eine spätere Evaluierbarkeit (v.a. Wirkungszuschreibung) schaffen müssen. Zum anderen informiert es die interessierte Öffentlichkeit über die Position der GIZ zur Anwendung von RCT. 1 Abdul Latif Jameel Poverty Action Lab am MIT Was sind RCT? RCT beruhen auf der Grundidee, dass die Wirkung einer Maßnahme dann festgestellt werden kann, wenn man weiß, was ohne die Intervention passiert wäre (das sogenannte „Kontrafaktische“). Hierzu wird die Gruppe, die an der Maßnahme teilnimmt, mit einer Kontrollgruppe verglichen, die nicht von der Intervention profitiert. Die Zuteilung zu den beiden Gruppen erfolgt randomisiert, das heißt zufällig vor Beginn der Intervention. So kann weitestgehend sichergestellt werden, dass Unterschiede, die man nach der Maßnahme feststellt, auch wirklich auf die Maßnahme und nicht etwa auf andere Faktoren zurückzuführen sind. Potenziale und Stärken von RCT Evaluierungen müssen sich mit der Frage auseinandersetzen, ob andere Faktoren als die Intervention für die festgestellten Wirkungen verantwortlich sein könnten. Geber können nicht rückblickend einschätzen, was ohne ihre Intervention geschehen wäre. Auch der Vergleich von Personen, die von einer Maßnahme profitierten, mit solchen, die nicht von ihr betroffen waren, liefert diese Erkenntnis nicht, denn es muss die Ähnlichkeit bzw. Nicht-Ähnlichkeit zwischen den beiden Gruppen berücksichtigt werden. Diese Problematik versucht man mit RCT zu lösen: Durch die randomisierte Selektion von Maßnahme- und Kontrollgruppe wird bereits vor Beginn der Intervention eine kontrafaktische Situation gebildet, so dass die Unterschiede über die Zeit ermittelt werden können. Bei einzelnen und v.a. großangelegten Interventionen, bei denen die Maßnahmen auf viele Einheiten abzielen (z.B. Individuen, Haushalte, Schulen, Krankenhäuser, Unterneh- men, Dörfer oder Distrikte), kann das Kontrafaktische am besten gebildet werden. indem man Ergebnisse eines Experiments in Afrika heranzieht. Da aufgrund des Designs mit einer Kontrollgruppe, das die Ähnlichkeit der beiden Gruppen sicherstellt, Alternativerklärungen für das Vorliegen oder den Umfang der gefundenen Wirkungen in der Maßnahmengruppe weitgehend ausgeschlossen werden können, wird für die gezogenen Schlussfolgerungen ein hoher Grad an sogenannter interner Validität angenommen. Durch die Anwendung überwiegend quantitativer Methoden (v.a. standardisierte Befragungen) besteht die Gefahr, die Wirklichkeit durch einen vorher stark eingeschränkten Filter wahrzunehmen. Die Befragten können Aspekte, die für sie besonders wichtig sind, unter Umständen gar nicht ansprechen, wenn diese nicht vorher bereits in den Fragebogen aufgenommen wurden, was das Aufdecken von unerwarteten Wirkungen erschwert oder sogar verhindert. Das experimentelle Design ermöglicht es also, kausale Zusammenhänge aufzudecken und somit den Beitrag eines einzelnen Vorhabens bzw. einer Intervention zu messen. Die statistische Analyse von surveybasierten Daten – wobei v.a. ökonometrische Verfahren2 zum Einsatz kommen – wird dabei als die Kernmethode betrachtet. Ein RCT wurde 2010 im Auftrag der GTZ (Stabsstelle Evaluierung) erstmals im Senegal angewendet, um die Wirkungen der Verbreitung von verbesserten Herden zu untersuchen. Durchgeführt wurde dieser Auftrag vom Rheinisch-Westfälischen Institut für Wirtschaftsforschung (RWI). Dabei sollten Wirkungen auf den Feuerholzverbrauch, sowie auf Gesundheit, Zeitnutzung und finanzielle Ausgaben eruiert werden. Zunächst wurden 253 Haushalte für die Baseline interviewt, dann wurden ihnen per Los ein Herd (Zielgruppe) oder ein Sack Reis (Kontrollgruppe) zugeteilt. Um die Nutzung der Herde und eventuell technische Probleme bei der Nutzung zu kontrollieren, wurden drei Zwischenerhebungen durchgeführt. Die Nutzung nach einem Jahr lag bei 87%. Mittels standardisiertem Fragebogen wurden alle sozioökonomischen Dimensionen der Haushalte erfasst – mit besonderem Fokus auf Brennstoffzugang und -verbrauch sowie Kochverhalten – und trianguliert mit Informationen aus semi-strukturierten Interviews mit Schlüsselpersonen. Die Ergebnisse waren statistisch signifikant: Der Feuerholzverbrauch sank um 30%, die Kochdauer pro Tag um 70 Minuten, Augenreizungen und Atemprobleme nahmen ab. Auf Basis dieser Ergebnisse erfolgt nun die weitere Verbreitung der Herde. Da experimentelle (Labor-)Studien in der Wissenschaft eine lange Tradition haben, ist das Design gut beschrieben und etabliert. Es generiert „objektive“ Daten und erfreut sich einer großen Glaubwürdigkeit. Grenzen und Schwächen von RCT Eine inhärente methodische Schwäche von RCT ist die geringe externe Validität – das heißt es ist nicht klar, inwiefern die Ergebnisse aus einer Studie in einen anderen Kontext übertragbar sind. Dennoch wird von Seiten der Durchführer oft unzulässig verallgemeinert. Es kann jedoch bezweifelt werden, dass Probleme in Indien gelöst werden, Die Ökonometrie ist ein Teilgebiet der Wirtschaftswissenschaften, das die ökonomische Theorie sowie mathematische Methoden und statistische Daten zusammenführt, um wirtschaftstheoretische Modelle empirisch zu überprüfen und ökonomische Phänomene quantitativ zu analysieren. 2 Eine damit verwandte Kritik ist, dass mit vielen ökonometrischen Verfahren nicht analysiert werden kann, wie und warum sich Wirkungen entfalten oder nicht entfalten (die sog. “black box”). Sie können somit nicht bestimmen, worauf das Ausbleiben intendierter Wirkungen zurückzuführen ist, z.B. auf Planungsfehler oder auf Implementierungsfehler. RCT bleiben damit häufig die Antwort auf die Frage schuldig, warum etwas wirkt oder nicht wirkt. Andere Herausforderungen beziehen sich auf die Umsetzbarkeit von RCT in der entwicklungspolitischen Evaluierungspraxis. Die wissenschaftliche Anforderung, dass Experimente "dreifachblind"3 bzw. zumindest „doppelblind“4 durchgeführt werden müssen, um valide Ergebnisse zu produzieren, kann in der Evaluierungspraxis in der Regel nicht erfüllt werden. Außerdem können sogenannte „Spillover“ (Übertragungs-)Effekte auf die Kontrollgruppe oft nicht hinreichend kontrolliert werden. Darüber hinaus machen bestimmte Charakteristika von GIZ-Vorhaben die Anwendung von RCT oft unmöglich oder sehr schwierig: Zielgruppen werden häufig bewusst ausgewählt (beispielsweise besonders motivierte Personen) und sind damit nicht ohne weiteres vergleichbar mit Personen, die nicht an einem Programm teilnehmen; viele Vorhaben arbeiten (auch) auf nationaler Ebene, wodurch oft alle Menschen gleichzeitig von bestimmten Maßnahmen (z.B. einer Gesetzesänderung) profitieren und keine Kontrollgruppe etabliert werden kann; ebenso lassen sich makroökonomische Fragen natürlich kaum mit Kontrollgruppen beantworten; der hohe Komplexitätsgrad vieler Vorhaben erschwert die Wirkungserfassung über die Ebene der einzelnen Interventionen hinaus und es ist umgekehrt nicht immer sinnvoll, einzelne Interventionen isoliert zu betrachten; in einigen Sektoren ist die quantifizierte Messung von Wirkungen schwieriger als in anderen (z.B. Good Governance vs. Berufsbildung). Das heißt in der Regel sind die erforderlichen Voraussetzungen in den Vorhaben für ein RCT gar nicht gegeben. Zu bedenken sind auch die nicht unerheblichen Kosten von RCT und der hohe Aufwand diese durchzuführen, da sie 3 Weder die Mitglieder der Maßnahme- und Kontrollgruppe, noch die Mitarbeiter des Vorhabens, noch die evaluierenden Gutachter wissen, wer zur Kontroll- und wer zur Maßnahmengruppe gehört. 4 Weder die Mitglieder der Maßnahme- und Kontrollgruppe, noch die Mitarbeiter des Vorhabens wissen, wer zur Kontroll- und wer zur Maßnahmengruppe gehört. umfangreiche Primärdatenerhebungen erfordern. Hier ist eine sorgfältige Abwägung des Kosten-NutzenVerhältnisses notwendig. So werden in der Literatur nur wenige groß angelegte Wirkungsevaluierungen zitiert. Einige Kritiker von RCT führen ethische Bedenken an – die zufällige Einteilung in zwei Gruppen, von denen nur eine von einer Maßnahme profitiert, sei nicht vertretbar. Position und Empfehlungen der Stabsstelle Monitoring & Evaluierung RCT sind ein wichtiger Ansatz in der Evaluierungspraxis, Wirkungen genauer zuzuschreiben – mit bestimmten Stärken, die andere Ansätze nicht bieten. In dieser Hinsicht besteht innerhalb der GIZ ein noch unausgeschöpftes Potenzial, das genutzt werden sollte, um den Nachweis der Wirksamkeit unserer Arbeit weiter zu verbessern. Dennoch bleiben die Anwendungsmöglichkeiten im GIZ-Kontext aufgrund der oben angeführten Charakteristika der Vorhaben (Art und Reichweite), die die Bildung einer Kontrollgruppe erschweren, verhindern oder aber nicht sinnvoll machen, eingeschränkt. Generell vertritt die Stabsstelle den Standpunkt, dass RCT anderen Designs nicht grundsätzlich überlegen sind, sondern nur eine von vielen möglichen Ansätzen bei Wirkungsevaluierungen darstellen. NONIE (Network of Networks on Impact Evaluation) hat in seiner Publikation Guidance on Impact Evaluation (2009) die Bedeutung rigoroser quantitativer Methoden für die kausale Zuschreibung von Wirkungen betont, empfiehlt aber die Nutzung eines Methodenmix, der die Stärken einer Reihe von quantitativen und qualitativen Methoden kombiniert. In der Literatur finden sich diesbzgl. viele Hinweise. So stellt beispielsweise Patton in seinem Buch Utilization Focused Evaluation (2008) ein umfassendes Menü verschiedener Evaluierungsdesigns vor, die für unterschiedliche Evaluierungsfragestellungen genutzt werden können. Ebenso befassen sich Bamberger/Rugh/Mabry in ihrer Publikation Real World Evaluation (2. Aufl. 2011) mit den Herausforderungen von Wirkungsevaluierungen bei Zeit- und Kosteneinschränkungen und Mangel an entscheidenden Daten. Auch die Stabsstelle Monitoring und Evaluierung hat erprobt, welches Konzept zur genaueren Messung von Wirkungen im Rahmen ihrer Unabhängigen Evaluierungen umsetzbar ist. Dabei stand dessen Alltagstauglichkeit unter Berücksichtigung der methodischen Anforderungen rigoroser Wirkungsevaluierungen im Fokus. So konnte ein Ansatz entwickelt werden, der in einem vertretbaren finanziellen und zeitlichen Rahmen auf Grundlage der Realitäten von GIZ-Vorhaben durchführbar ist. Darüber hinaus wird sich die Stabsstelle über die Durchführung von ex-ante Evaluierungen mit den notwendigen Voraussetzungen für RCT in der Planungsphase eines Vorhabens vertiefend befassen, mit dem Fach- und Methodenbereich prüfen, welche Vorhaben geeignet sind, um Pilot-RCT durchzuführen und die Vorhaben bei der Anwendung im Rahmen von dezentralen Evaluierungen beratend unterstützen. Hinsichtlich des Einsatzes von RCT in der GIZ empfiehlt die Stabsstelle Monitoring und Evaluierung: 1.) RCT sollten angewendet werden, wenn sie möglich, inhaltlich und strategisch sinnvoll und finanzierbar sind, eine generelle Anwendung wird nicht erwartet oder gar gefordert. Prinzipiell möglich sind RCT, wenn eine Kontrollgruppe zu Vorhabenbeginn gebildet wurde, die Maßnahme auf Individualebene abzielt und eine ausreichend große Anzahl der interessierenden Einheiten vorliegt, um adäquat statistische Auswertungen vornehmen zu können. Als sinnvoll erachten wir RCT vor allem für die Überprüfung der Wirksamkeit einzelner groß angelegter Interventionen, wenn diese aus dem Kontext des Gesamtvorhabens heraus isoliert betrachtet werden können. Hinsichtlich der in der Regel hohen Kosten und des personellen und zeitlichen Aufwandes ist eine strategische Auswahl der mittels RCT zu evaluierenden Vorhaben angeraten (z.B. bei neuen/innovativen Interventionen), wo im Laufe des Vorhabens mittels RCT überprüft werden kann, was wirkt und was nicht, und auf dieser Basis beispielsweise eine Entscheidung für ein scaling-up der entsprechenden Interventionen getroffen werden kann. Damit fungieren RCT nicht nur als Instrument zur Rechenschaftslegung nach Beendigung eines Vorhabens, sondern erfüllen die wichtige Funktion der evidenzbasierten Steuerung im laufenden Vorhaben. 2.) RCT können sehr gut die Frage beantworten, welche Interventionen funktionieren und welche nicht. Sie sollten aber in ein breiteres und möglichst hypothesengeleitetes Evaluierungsdesign eingebettet werden, das auch die Frage angeht, warum eine Intervention in einem spezifischen Kontext funktioniert oder nicht. Generell ist ein Methodenmix der Anwendung einzelner Methoden vorzuziehen, da unterschiedliche Methoden verschiedene Stärken und Schwächen haben. Daher sollten RCT möglichst in Kombination mit qualitativen Methoden angewendet werden (Beantwortung der Warum-Frage; Offenheit für unerwartete Wirkungen; Erfassung von schwer messbaren Wirkungen; Kontrolle von Spill-over-Effekten). 3.) Wo keine Kontrollgruppen zu Vorhabenbeginn festgelegt werden können bzw. eine randomisierte Auswahl nicht sinnvoll ist, sollte die Bildung von Vergleichsgruppen geprüft werden, damit später bei der Evaluierung ein quasi-experimentelles Design zur Anwendung kommen kann. Vergleichsgruppen werden über bestimmte Matchingverfahren „konstruiert“, um eine möglichst hohe Ähnlichkeit zur Maßnahmengruppe herzustellen. Quasi-experimentelle Designs können dann durchaus auch „robuste“ Daten generieren und evidenzbasiert Auskunft über die Wirkung von Interventionen geben. Erfolgt die Bildung einer Vergleichsgruppe nicht zu Beginn der Maßnahme, kann dies zum Zeitpunkt der Evaluierung nachgeholt werden, allerdings weitaus weniger adäquat, zudem muss dann mühsam und ebenso weniger akkurat deren Ausgangssituation (Baseline) rekonstruiert werden. 4.) Die Bedingungen zur Wirkungsmessung und generellen Evaluierbarkeit von Vorhaben werden schon in der Planungsphase gelegt: Bildung einer Vergleichs- oder Kontrollgruppe, Baseline-Survey für beide Gruppen, Implementierung eines M&E-Systems, das Zeitreihen erlaubt, um Veränderungen über die Zeit kontinuierlich feststellen zu können. Auf Basis dieser Rahmenbedingungen kann dann das adäquate Evaluierungsdesign gewählt werden. In der Prüfung und Planung von Vorhaben sollte auf die o.g. notwendigen Voraussetzungen zur späteren Generierung evidenzbasierter Aussagen zur Wirksamkeit mehr Aufmerksamkeit gelegt werden. 5.) Ethische Bedenken bei der Anwendung von RCT können mit einem sogenannten „Phasing-in“Verfahren relativiert werden: GIZ-Vorhaben arbeiten häufig in der ersten Phase in einer Pilotregion oder mit einer Pilotgruppe und in den folgenden Phasen soll es eine Erweiterung auf andere Regionen/Gruppen geben. Diese können zunächst als Kontrollgruppe fungieren, profitieren dann aber später selbst als Maßnahmenregion/-gruppe vom Vorhaben. Impressum Herausgeber: Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) GmbH Sitz der Gesellschaft: Bonn und Eschborn Erstellt durch: Dr. Stefanie Krapp, Sabine Dinges Stabsstelle Monitoring und Evaluierung Juni 2012 Kontakt: Dr. Sylvia Schweitzer, Sabine Dinges Dag-Hammarskjöld-Weg 1-5 65760 Eschborn, Deutschland T +49 (0) 61 96 / 79 - 2024 F +49 (0) 61 96 / 79 - 11 15 E [email protected] I www.giz.de Fazit Es wird nach wie vor wenige Situationen im GIZ-Kontext geben, wo RCT angewendet werden können bzw. methodisch machbar oder finanzierbar sind. Daher wird es weiterhin einen Bedarf an alternativen Ansätzen zur Wirkungsevaluierung geben. Wichtig dabei ist auszuloten, ob und wie eine kontrafaktische Situation hergestellt werden kann, um möglichst akkurat Wirkungen kausal attribuieren zu können. Darüber hinaus gibt es statistische Ansätze von Wirkungsevaluierungen, die kein kontrafaktisches Design verwenden und theoriebasierte Ansätze, die auf der generativen Sichtweise von Kausalität beruhen, um zu verstehen, wie und warum Programme funktionieren. Die Stabsstelle M&E wird diese Ansätze verstärkt erproben und ermutigt die Vorhaben, sich ebenso der Bandbreite an existierenden Wirkungsevaluierungsansätzen zu bedienen. Weiterführende Informationen - http://pooreconomics.com/ - http://www.realworldevaluation.org/ - http://www.giz.de/de/ueber_die_giz/97.html