GIZ 2012_Positionspapier RCT

Transcrição

GIZ 2012_Positionspapier RCT
Stabsstelle Monitoring und Evaluierung – Im Fokus
Wirkungsmessung mit experimentellen Designs
– und deren Anwendung in der GIZ
Randomisierte Kontrollstudien (Randomised Controlled Trials, RCT) zur Messung der Wirkung von Entwicklungsvorhaben erfahren derzeit große Aufmerksamkeit in der deutschen Presse und werden dort mit „Goldstandard“ in der Wirkungsevaluierung betitelt. Neu ist diese Debatte in Fachkreisen jedoch nicht. Die GIZ
und ihre Vorgängerorganisationen beschäftigen sich seit einigen Jahren mit RCT und deren Anwendungsmöglichkeiten bei der Evaluierung ihrer Vorhaben. Die Stabsstelle Monitoring & Evaluierung hat die Erfahrungen ausgewertet und unter Berücksichtigung der Realitäten der Vorhaben vor Ort Empfehlungen für den
möglichen Einsatz abgeleitet.
Wirkungsorientierung ist ein wichtiges Qualitätsmerkmal
der Arbeit der GIZ. Damit wir die Wirkungen unserer Arbeit zuverlässig und glaubwürdig nachweisen können, werden unsere Projekte und Programme regelmäßig evaluiert.
Dabei interessieren uns vor allem Antworten auf die Fragen:
Was wirkt, wie, warum und unter welchen Bedingungen?
Große Aufmerksamkeit in der deutschen Presse erfährt seit
2011 ein bestimmtes (experimentelles) Untersuchungsdesign
zur Wirkungsmessung: sog. randomisierte Kontrollstudien,
auch kontrollierte Zufallsexperimente genannt (Randomised
Controlled Trials, RCT). Insbesondere die Publikationen von
Abhijit V. Banerjee und Esther Duflo vom J-PAL1 haben
diese Diskussion befördert, die jedoch keineswegs neu ist,
sondern in internationalen und nationalen Evaluierungsfachkreisen in und über die Entwicklungszusammenarbeit
(EZ) hinaus seit Jahren geführt wird. RCT gelten dort als
ein wichtiger Ansatz, aber nicht (mehr) als der Goldstandard
für Wirkungsevaluierungen.
Dieses Papier stellt Möglichkeiten und Grenzen von RCT
vor dem Hintergrund der internationalen Debatte und unseren eigenen Erfahrungen dar und leitet Empfehlungen für
die Verwendung in der GIZ ab. Es richtet sich einerseits an
GIZ-Mitarbeiter, die sich mit Wirkungsmessung beschäftigen, dabei insbesondere an die Auftragsverantwortlichen,
die bereits zu Vorhabenbeginn die Voraussetzungen für
eine spätere Evaluierbarkeit (v.a. Wirkungszuschreibung)
schaffen müssen. Zum anderen informiert es die interessierte Öffentlichkeit über die Position der GIZ zur Anwendung
von RCT.
1
Abdul Latif Jameel Poverty Action Lab am MIT
Was sind RCT?
RCT beruhen auf der Grundidee, dass die Wirkung einer
Maßnahme dann festgestellt werden kann, wenn man weiß,
was ohne die Intervention passiert wäre (das sogenannte
„Kontrafaktische“). Hierzu wird die Gruppe, die an der
Maßnahme teilnimmt, mit einer Kontrollgruppe verglichen,
die nicht von der Intervention profitiert. Die Zuteilung zu
den beiden Gruppen erfolgt randomisiert, das heißt zufällig
vor Beginn der Intervention. So kann weitestgehend sichergestellt werden, dass Unterschiede, die man nach der Maßnahme feststellt, auch wirklich auf die Maßnahme und nicht
etwa auf andere Faktoren zurückzuführen sind.
Potenziale und Stärken von RCT
Evaluierungen müssen sich mit der Frage auseinandersetzen, ob andere Faktoren als die Intervention für die festgestellten Wirkungen verantwortlich sein könnten. Geber
können nicht rückblickend einschätzen, was ohne ihre Intervention geschehen wäre. Auch der Vergleich von Personen, die von einer Maßnahme profitierten, mit solchen, die
nicht von ihr betroffen waren, liefert diese Erkenntnis nicht,
denn es muss die Ähnlichkeit bzw. Nicht-Ähnlichkeit zwischen den beiden Gruppen berücksichtigt werden. Diese
Problematik versucht man mit RCT zu lösen: Durch die
randomisierte Selektion von Maßnahme- und Kontrollgruppe wird bereits vor Beginn der Intervention eine
kontrafaktische Situation gebildet, so dass die Unterschiede
über die Zeit ermittelt werden können.
Bei einzelnen und v.a. großangelegten Interventionen, bei
denen die Maßnahmen auf viele Einheiten abzielen (z.B.
Individuen, Haushalte, Schulen, Krankenhäuser, Unterneh-
men, Dörfer oder Distrikte), kann das Kontrafaktische am
besten gebildet werden.
indem man Ergebnisse eines Experiments in Afrika heranzieht.
Da aufgrund des Designs mit einer Kontrollgruppe, das die
Ähnlichkeit der beiden Gruppen sicherstellt, Alternativerklärungen für das Vorliegen oder den Umfang der gefundenen Wirkungen in der Maßnahmengruppe weitgehend ausgeschlossen werden können, wird für die gezogenen
Schlussfolgerungen ein hoher Grad an sogenannter interner
Validität angenommen.
Durch die Anwendung überwiegend quantitativer Methoden (v.a. standardisierte Befragungen) besteht die Gefahr,
die Wirklichkeit durch einen vorher stark eingeschränkten
Filter wahrzunehmen. Die Befragten können Aspekte, die
für sie besonders wichtig sind, unter Umständen gar nicht
ansprechen, wenn diese nicht vorher bereits in den Fragebogen aufgenommen wurden, was das Aufdecken von
unerwarteten Wirkungen erschwert oder sogar verhindert.
Das experimentelle Design ermöglicht es also, kausale Zusammenhänge aufzudecken und somit den Beitrag eines einzelnen Vorhabens bzw. einer Intervention zu messen. Die
statistische Analyse von surveybasierten Daten – wobei v.a.
ökonometrische Verfahren2 zum Einsatz kommen – wird
dabei als die Kernmethode betrachtet.
Ein RCT wurde 2010 im Auftrag der GTZ (Stabsstelle
Evaluierung) erstmals im Senegal angewendet, um die
Wirkungen der Verbreitung von verbesserten Herden zu
untersuchen. Durchgeführt wurde dieser Auftrag vom
Rheinisch-Westfälischen Institut für Wirtschaftsforschung (RWI). Dabei sollten Wirkungen auf den Feuerholzverbrauch, sowie auf Gesundheit, Zeitnutzung und
finanzielle Ausgaben eruiert werden. Zunächst wurden
253 Haushalte für die Baseline interviewt, dann wurden
ihnen per Los ein Herd (Zielgruppe) oder ein Sack Reis
(Kontrollgruppe) zugeteilt. Um die Nutzung der Herde
und eventuell technische Probleme bei der Nutzung zu
kontrollieren, wurden drei Zwischenerhebungen durchgeführt. Die Nutzung nach einem Jahr lag bei 87%.
Mittels standardisiertem Fragebogen wurden alle sozioökonomischen Dimensionen der Haushalte erfasst – mit
besonderem Fokus auf Brennstoffzugang und
-verbrauch sowie Kochverhalten – und trianguliert mit
Informationen aus semi-strukturierten Interviews mit
Schlüsselpersonen. Die Ergebnisse waren statistisch
signifikant: Der Feuerholzverbrauch sank um 30%, die
Kochdauer pro Tag um 70 Minuten, Augenreizungen
und Atemprobleme nahmen ab. Auf Basis dieser Ergebnisse erfolgt nun die weitere Verbreitung der Herde.
Da experimentelle (Labor-)Studien in der Wissenschaft eine
lange Tradition haben, ist das Design gut beschrieben und
etabliert. Es generiert „objektive“ Daten und erfreut sich
einer großen Glaubwürdigkeit.
Grenzen und Schwächen von RCT
Eine inhärente methodische Schwäche von RCT ist die
geringe externe Validität – das heißt es ist nicht klar, inwiefern die Ergebnisse aus einer Studie in einen anderen Kontext übertragbar sind. Dennoch wird von Seiten der Durchführer oft unzulässig verallgemeinert. Es kann jedoch bezweifelt werden, dass Probleme in Indien gelöst werden,
Die Ökonometrie ist ein Teilgebiet der Wirtschaftswissenschaften, das die
ökonomische Theorie sowie mathematische Methoden und statistische
Daten zusammenführt, um wirtschaftstheoretische Modelle empirisch zu
überprüfen und ökonomische Phänomene quantitativ zu analysieren.
2
Eine damit verwandte Kritik ist, dass mit vielen ökonometrischen Verfahren nicht analysiert werden kann, wie und
warum sich Wirkungen entfalten oder nicht entfalten (die
sog. “black box”). Sie können somit nicht bestimmen,
worauf das Ausbleiben intendierter Wirkungen zurückzuführen ist, z.B. auf Planungsfehler oder auf Implementierungsfehler. RCT bleiben damit häufig die Antwort auf die
Frage schuldig, warum etwas wirkt oder nicht wirkt.
Andere Herausforderungen beziehen sich auf die Umsetzbarkeit von RCT in der entwicklungspolitischen Evaluierungspraxis. Die wissenschaftliche Anforderung, dass Experimente "dreifachblind"3 bzw. zumindest „doppelblind“4
durchgeführt werden müssen, um valide Ergebnisse zu
produzieren, kann in der Evaluierungspraxis in der Regel
nicht erfüllt werden. Außerdem können sogenannte „Spillover“ (Übertragungs-)Effekte auf die Kontrollgruppe oft
nicht hinreichend kontrolliert werden.
Darüber hinaus machen bestimmte Charakteristika von
GIZ-Vorhaben die Anwendung von RCT oft unmöglich
oder sehr schwierig: Zielgruppen werden häufig bewusst
ausgewählt (beispielsweise besonders motivierte Personen)
und sind damit nicht ohne weiteres vergleichbar mit Personen, die nicht an einem Programm teilnehmen; viele Vorhaben arbeiten (auch) auf nationaler Ebene, wodurch oft alle
Menschen gleichzeitig von bestimmten Maßnahmen (z.B.
einer Gesetzesänderung) profitieren und keine Kontrollgruppe etabliert werden kann; ebenso lassen sich makroökonomische Fragen natürlich kaum mit Kontrollgruppen
beantworten; der hohe Komplexitätsgrad vieler Vorhaben
erschwert die Wirkungserfassung über die Ebene der einzelnen Interventionen hinaus und es ist umgekehrt nicht
immer sinnvoll, einzelne Interventionen isoliert zu betrachten; in einigen Sektoren ist die quantifizierte Messung von
Wirkungen schwieriger als in anderen (z.B. Good Governance vs. Berufsbildung). Das heißt in der Regel sind die
erforderlichen Voraussetzungen in den Vorhaben für ein
RCT gar nicht gegeben.
Zu bedenken sind auch die nicht unerheblichen Kosten von
RCT und der hohe Aufwand diese durchzuführen, da sie
3
Weder die Mitglieder der Maßnahme- und Kontrollgruppe, noch die
Mitarbeiter des Vorhabens, noch die evaluierenden Gutachter wissen, wer
zur Kontroll- und wer zur Maßnahmengruppe gehört.
4 Weder die Mitglieder der Maßnahme- und Kontrollgruppe, noch die
Mitarbeiter des Vorhabens wissen, wer zur Kontroll- und wer zur Maßnahmengruppe gehört.
umfangreiche Primärdatenerhebungen erfordern. Hier ist
eine sorgfältige Abwägung des Kosten-NutzenVerhältnisses notwendig. So werden in der Literatur nur
wenige groß angelegte Wirkungsevaluierungen zitiert.
Einige Kritiker von RCT führen ethische Bedenken an – die
zufällige Einteilung in zwei Gruppen, von denen nur eine
von einer Maßnahme profitiert, sei nicht vertretbar.
Position und Empfehlungen der Stabsstelle Monitoring & Evaluierung
RCT sind ein wichtiger Ansatz in der Evaluierungspraxis,
Wirkungen genauer zuzuschreiben – mit bestimmten Stärken, die andere Ansätze nicht bieten. In dieser Hinsicht
besteht innerhalb der GIZ ein noch unausgeschöpftes Potenzial, das genutzt werden sollte, um den Nachweis der
Wirksamkeit unserer Arbeit weiter zu verbessern. Dennoch
bleiben die Anwendungsmöglichkeiten im GIZ-Kontext
aufgrund der oben angeführten Charakteristika der Vorhaben (Art und Reichweite), die die Bildung einer Kontrollgruppe erschweren, verhindern oder aber nicht sinnvoll
machen, eingeschränkt.
Generell vertritt die Stabsstelle den Standpunkt, dass
RCT anderen Designs nicht grundsätzlich überlegen
sind, sondern nur eine von vielen möglichen Ansätzen
bei Wirkungsevaluierungen darstellen. NONIE (Network of Networks on Impact Evaluation) hat in seiner
Publikation Guidance on Impact Evaluation (2009) die Bedeutung rigoroser quantitativer Methoden für die kausale Zuschreibung von Wirkungen betont, empfiehlt aber die Nutzung eines Methodenmix, der die Stärken einer Reihe von
quantitativen und qualitativen Methoden kombiniert. In der
Literatur finden sich diesbzgl. viele Hinweise. So stellt beispielsweise Patton in seinem Buch Utilization Focused Evaluation (2008) ein umfassendes Menü verschiedener Evaluierungsdesigns vor, die für unterschiedliche Evaluierungsfragestellungen genutzt werden können. Ebenso befassen sich
Bamberger/Rugh/Mabry in ihrer Publikation Real World
Evaluation (2. Aufl. 2011) mit den Herausforderungen von
Wirkungsevaluierungen bei Zeit- und Kosteneinschränkungen und Mangel an entscheidenden Daten.
Auch die Stabsstelle Monitoring und Evaluierung hat erprobt, welches Konzept zur genaueren Messung von Wirkungen im Rahmen ihrer Unabhängigen Evaluierungen
umsetzbar ist. Dabei stand dessen Alltagstauglichkeit unter
Berücksichtigung der methodischen Anforderungen rigoroser Wirkungsevaluierungen im Fokus. So konnte ein Ansatz
entwickelt werden, der in einem vertretbaren finanziellen
und zeitlichen Rahmen auf Grundlage der Realitäten von
GIZ-Vorhaben durchführbar ist. Darüber hinaus wird sich
die Stabsstelle über die Durchführung von ex-ante Evaluierungen mit den notwendigen Voraussetzungen für RCT in
der Planungsphase eines Vorhabens vertiefend befassen, mit
dem Fach- und Methodenbereich prüfen, welche Vorhaben
geeignet sind, um Pilot-RCT durchzuführen und die Vorhaben bei der Anwendung im Rahmen von dezentralen Evaluierungen beratend unterstützen.
Hinsichtlich des Einsatzes von RCT in der GIZ empfiehlt
die Stabsstelle Monitoring und Evaluierung:
1.) RCT sollten angewendet werden, wenn sie möglich,
inhaltlich und strategisch sinnvoll und finanzierbar
sind, eine generelle Anwendung wird nicht erwartet
oder gar gefordert.
Prinzipiell möglich sind RCT, wenn eine Kontrollgruppe zu
Vorhabenbeginn gebildet wurde, die Maßnahme auf Individualebene abzielt und eine ausreichend große Anzahl der
interessierenden Einheiten vorliegt, um adäquat statistische
Auswertungen vornehmen zu können.
Als sinnvoll erachten wir RCT vor allem für die Überprüfung
der Wirksamkeit einzelner groß angelegter Interventionen,
wenn diese aus dem Kontext des Gesamtvorhabens heraus
isoliert betrachtet werden können.
Hinsichtlich der in der Regel hohen Kosten und des personellen und zeitlichen Aufwandes ist eine strategische Auswahl der
mittels RCT zu evaluierenden Vorhaben angeraten (z.B. bei
neuen/innovativen Interventionen), wo im Laufe des Vorhabens mittels RCT überprüft werden kann, was wirkt und
was nicht, und auf dieser Basis beispielsweise eine Entscheidung für ein scaling-up der entsprechenden Interventionen getroffen werden kann. Damit fungieren RCT nicht nur
als Instrument zur Rechenschaftslegung nach Beendigung
eines Vorhabens, sondern erfüllen die wichtige Funktion
der evidenzbasierten Steuerung im laufenden Vorhaben.
2.) RCT können sehr gut die Frage beantworten, welche
Interventionen funktionieren und welche nicht. Sie sollten
aber in ein breiteres und möglichst hypothesengeleitetes
Evaluierungsdesign eingebettet werden, das auch die Frage
angeht, warum eine Intervention in einem spezifischen
Kontext funktioniert oder nicht. Generell ist ein Methodenmix der Anwendung einzelner Methoden vorzuziehen,
da unterschiedliche Methoden verschiedene Stärken und
Schwächen haben. Daher sollten RCT möglichst in
Kombination mit qualitativen Methoden angewendet
werden (Beantwortung der Warum-Frage; Offenheit für
unerwartete Wirkungen; Erfassung von schwer messbaren
Wirkungen; Kontrolle von Spill-over-Effekten).
3.) Wo keine Kontrollgruppen zu Vorhabenbeginn festgelegt werden können bzw. eine randomisierte Auswahl nicht
sinnvoll ist, sollte die Bildung von Vergleichsgruppen
geprüft werden, damit später bei der Evaluierung ein quasi-experimentelles Design zur Anwendung kommen kann.
Vergleichsgruppen werden über bestimmte Matchingverfahren „konstruiert“, um eine möglichst hohe Ähnlichkeit
zur Maßnahmengruppe herzustellen. Quasi-experimentelle
Designs können dann durchaus auch „robuste“ Daten generieren und evidenzbasiert Auskunft über die Wirkung von
Interventionen geben. Erfolgt die Bildung einer Vergleichsgruppe nicht zu Beginn der Maßnahme, kann dies zum
Zeitpunkt der Evaluierung nachgeholt werden, allerdings
weitaus weniger adäquat, zudem muss dann mühsam und
ebenso weniger akkurat deren Ausgangssituation (Baseline)
rekonstruiert werden.
4.) Die Bedingungen zur Wirkungsmessung und generellen
Evaluierbarkeit von Vorhaben werden schon in der Planungsphase gelegt: Bildung einer Vergleichs- oder Kontrollgruppe, Baseline-Survey für beide Gruppen, Implementierung eines M&E-Systems, das Zeitreihen erlaubt, um Veränderungen über die Zeit kontinuierlich feststellen zu können. Auf Basis dieser Rahmenbedingungen kann dann das
adäquate Evaluierungsdesign gewählt werden. In der Prüfung und Planung von Vorhaben sollte auf die o.g.
notwendigen Voraussetzungen zur späteren Generierung evidenzbasierter Aussagen zur Wirksamkeit mehr
Aufmerksamkeit gelegt werden.
5.) Ethische Bedenken bei der Anwendung von RCT
können mit einem sogenannten „Phasing-in“Verfahren relativiert werden: GIZ-Vorhaben arbeiten
häufig in der ersten Phase in einer Pilotregion oder mit einer
Pilotgruppe und in den folgenden Phasen soll es eine Erweiterung auf andere Regionen/Gruppen geben. Diese können
zunächst als Kontrollgruppe fungieren, profitieren dann
aber später selbst als Maßnahmenregion/-gruppe vom Vorhaben.
Impressum
Herausgeber:
Deutsche Gesellschaft für
Internationale Zusammenarbeit (GIZ) GmbH
Sitz der Gesellschaft:
Bonn und Eschborn
Erstellt durch:
Dr. Stefanie Krapp, Sabine Dinges
Stabsstelle Monitoring und Evaluierung
Juni 2012
Kontakt:
Dr. Sylvia Schweitzer, Sabine Dinges
Dag-Hammarskjöld-Weg 1-5
65760 Eschborn, Deutschland
T +49 (0) 61 96 / 79 - 2024
F +49 (0) 61 96 / 79 - 11 15
E [email protected]
I www.giz.de
Fazit
Es wird nach wie vor wenige Situationen im GIZ-Kontext
geben, wo RCT angewendet werden können bzw. methodisch machbar oder finanzierbar sind. Daher wird es weiterhin einen Bedarf an alternativen Ansätzen zur Wirkungsevaluierung geben. Wichtig dabei ist auszuloten, ob und wie
eine kontrafaktische Situation hergestellt werden kann, um
möglichst akkurat Wirkungen kausal attribuieren zu können.
Darüber hinaus gibt es statistische Ansätze von Wirkungsevaluierungen, die kein kontrafaktisches Design verwenden
und theoriebasierte Ansätze, die auf der generativen Sichtweise von Kausalität beruhen, um zu verstehen, wie und
warum Programme funktionieren. Die Stabsstelle M&E
wird diese Ansätze verstärkt erproben und ermutigt die
Vorhaben, sich ebenso der Bandbreite an existierenden
Wirkungsevaluierungsansätzen zu bedienen.
Weiterführende Informationen
- http://pooreconomics.com/
- http://www.realworldevaluation.org/
- http://www.giz.de/de/ueber_die_giz/97.html