Die Gewichtung multipler patientenrelevanter Endpunkte
Transcrição
Die Gewichtung multipler patientenrelevanter Endpunkte
Universität Bayreuth Rechts- und Wirtschaftswissenschaftliche Fakultät Wirtschaftswissenschaftliche Diskussionspapiere Die Gewichtung multipler patientenrelevanter Endpunkte – Ein methodischer Vergleich von Conjoint Analyse und Analytic Hierarchy Process unter Berücksichtigung des Effizienzgrenzenkonzepts des IQWiG Katja Neidhardt1, Timo Wasmuth2 und Andreas Schmid3 Diskussionspapier 02-12 Februar 2012 ISSN 1611-3837 © 2012 by Katja Neidhardt, Timo Wasmuth and Andreas Schmid. All rights reserved. Any reproduction, publication and reprint in the form of a different publication, whether printed or produced electronically, in whole or in part, is permitted only with the explicit written authorization of the authors. 1 Katja Neidhardt, Novartis Pharma GmbH, Roonstr.25, D-90429 Nürnberg Timo Wasmuth, Novartis Pharma GmbH, Roonstr. 25, D-90429 Nürnberg 3 Andreas Schmid, Lehrstuhl VWL III, insb. Finanzwissenschaft, Prof. Ulrich, Rechts- und Wirtschaftswissenschaftliche Fakultät, Universität Bayreuth, D-95440 Bayreuth 2 Prioritizing multiple patient-relevant endpoints – A methodological comparison of Conjoint Analysis and Analytic Hierarchy Process considering IQWiG`s efficiency frontier concept by Katja Neidhardt, Timo Wasmuth and Andreas Schmid Abstract The Institute for Quality and Efficiency in Health Care (IQWiG) in Germany evaluates benefits/harms and economical implications of medical interventions to support decisions of the Federal Joint Committee and the National Association of Statutory Health Insurance Funds. IQWiG has developed the efficiency frontier concept to determine a maximum reimbursable price for pharmaceuticals. Benefits/harms and costs are evaluated for each patient-relevant endpoint but methodological problems arise with the presence of multiple patient-relevant endpoints because recommendations for a maximum reimbursable price will likely be imprecise. With Conjoint Analysis and Analytic Hierarchy Process, two powerful tools from marketing science and decision analysis are currently discussed as approaches to aggregate multiple patient-relevant endpoints. This paper describes both approaches and compares them with respect to the methodological challenges of aggregating multiple patient-relevant endpoints. JEL-Classification: C18, I19 Keywords: IQWiG, health economic evaluation, efficiency frontier, multiple patientrelevant endpoints, Conjoint Analysis, Analytic Hierarchy Process Corresponding author: Katja Neidhardt Novartis Pharma GmbH Roonstraße 25 90429 Nürnberg Email: [email protected] Inhaltsverzeichnis Abbildungsverzeichnis ................................................................................................................................. III Tabellenverzeichnis ..................................................................................................................................... III Abkürzungsverzeichnis ................................................................................................................................ IV 1 EINLEITUNG ..................................................................................................................... 1 1.1 Problemstellung ................................................................................................................. 1 1.2 Zielsetzung und Vorgehensweise ........................................................................................ 2 2 DIE ENDPUNKTGEWICHTUNG IM RAHMEN DER KOSTEN-NUTZENBEWERTUNG DES IQWIG ............................................................................................. 2 2.1 Die Methodik des IQWiG zur Kosten-Nutzen-Bewertung .................................................... 2 2.2 Multiple patientenrelevante Endpunkte im Rahmen der IQWiG-Methodik ........................ 4 2.2.1 Die Endpunktdiskussion vor dem Hintergrund der IQWiG-Nutzenbewertung ......................... 4 2.2.2 Die Existenz multipler patientenrelevanter Endpunkte als methodische Herausforderung im Rahmen der IQWiG-Methodik .................................................................................................. 6 2.2.3 2.3 3 Die Lösungsvorschläge des IQWiG für die Endpunktgewichtung.............................................. 8 Entwurf eines Kriterienkatalogs zur Bewertung der Lösungsvorschläge ............................. 9 METHODEN FÜR DIE ENDPUNKTGEWICHTUNG .............................................. 13 3.1 Überblick zu den Methoden der multiattributiven Präferenzmessung ..............................13 3.2 Die Conjoint Analyse .........................................................................................................15 3.2.1 Methodische Grundlagen und Hintergründe .......................................................................... 15 3.2.2 Ablaufschritte der Traditionellen Conjoint Analyse ................................................................ 16 3.2.3 Die Choice-Based Conjoint Analyse als Variante der Conjoint Analyse .................................. 19 3.2.4 Stärken und Schwächen der Conjoint-Analyse ....................................................................... 21 3.2.5 Anwendungsgebiete im Gesundheitswesen ........................................................................... 22 I 3.3 Der Analytic Hierarchy Process ..........................................................................................23 3.3.1 Methodische Grundlagen und Hintergünde ........................................................................... 23 3.3.2 Ablaufschritte des Analytic Hierarchy Process ........................................................................ 24 3.3.3 Stärken und Schwächen des Analytic Hierarchy Process ........................................................ 30 3.3.4 Anwendungsgebiete im Gesundheitswesen ........................................................................... 33 4 CA UND AHP – EIN VERGLEICH IM KONTEXT DER IQWIG-METHODIK ..... 33 4.1 Allgemeiner theoretischer Methodenvergleich .................................................................33 4.1.1 Gemeinsamkeiten ................................................................................................................... 33 4.1.2 Unterschiede ........................................................................................................................... 34 4.1.3 Zusammenfassende Darstellung des allgemeinen theoretischen Methodenvergleichs ........ 35 4.2 Empirischer Methodenvergleich ........................................................................................36 4.2.1 Literaturübersicht zu empirischen Vergleichsstudien ............................................................. 36 4.2.2 Kritik an den empirischen Vergleichsstudien .......................................................................... 38 4.3 Theoretischer Methodenvergleich unter Verwendung des Kriterienkatalogs ....................38 4.3.1 Zur Bewertung von Conjoint Analyse und Analytic Hierarchy Process ................................... 38 4.3.2 Zusammenfassende Darstellung des theoretischen Methodenvergleichs unter Verwendung des Kriterienkatalogs .............................................................................................................. 42 4.3.3 5 Limitationen der Bewertung anhand des Kriterienkatalogs ................................................... 43 ZUSAMMENFASSUNG UND FAZIT ........................................................................... 44 Literaturverzeichnis .................................................................................................................................... 47 II Abbildungsverzeichnis ABBILDUNG 1: DARSTELLUNG DER THEORETISCHEN EFFIZIENZGRENZE .................................................... 4 ABBILDUNG 2: PATIENTENRELEVANTE ENDPUNKTE IM RAHMEN DER IQWIG-METHODIK ....................... 6 ABBILDUNG 3: KRITERIENKATALOG FÜR DIE BEWERTUNG VON CA UND AHP ........................................... 9 ABBILDUNG 4: VORGEHENSWEISE DEKOMPOSITIONELLER UND KOMPOSITIONELLER VERFAHREN ....... 14 ABBILDUNG 5: ÜBERSICHT ZU DEN METHODEN DER MULTIATTRIBUTIVEN PRÄFERENZMESSUNG ........ 15 ABBILDUNG 6: ABLAUFSCHRITTE DER TCA ................................................................................................ 16 ABBILDUNG 7: ABLAUFSCHRITTE DES AHP ............................................................................................... 24 ABBILDUNG 8: VOLLSTÄNDIGE HIERARCHIE MIT EINER HIERARCHIEEBENE ............................................. 26 Tabellenverzeichnis TABELLE 1: METHODEN DER MULTIATTRIBUTIVEN PRÄFERENZMESSUNG .............................................. 14 TABELLE 2: ZUSAMMENFASSUNG DER STÄRKEN UND SCHWÄCHEN DER CA ........................................... 22 TABELLE 3: NEUN-PUNKTE-BEWERTUNGSSKALA NACH SAATY ................................................................ 26 TABELLE 4: ZUSAMMENFASSUNG DER STÄRKEN UND SCHWÄCHEN DES AHP ........................................ 32 TABELLE 5: ZUSAMMENFASSUNG DES ALLGEMEINEN THEORETISCHEN METHODENVERGLEICHS .......... 35 TABELLE 6: ZUSAMMENFASSUNG DES EMPIRISCHEN METHODENVERGLEICHS IN BEZUG AUF DIE PROGNOSEVALIDITÄT ............................................................................................................ 37 TABELLE 7: ZUSAMMENFASSUNG DES METHODENVERGLEICHS UNTER VERWENDUNG DES KRITERIENKATALOGS ............................................................................................................. 42 III Abkürzungsverzeichnis Abb. ………………………………….. Abbildung Abs. …………………………………… Absatz AHP …………………………………… Analytic Hierarchy Process al. ……………………………………… alii bzw. ………………………………….. beziehungsweise CA …………………………………….. Conjoint Analyse CBCA …………………………………. Choice-Based Conjoint Analyse C.R. ………………………………….… Consistency Ratio C.R.H. ………………………………… Consistency Ratio of the Hierarchy DCE …………………………………… Discrete-Choice Experiment d. h. …………………………………… das heißt evtl. …………………………………… eventuell f. ……………………………………….. folgende G-BA ………………………………….. Gemeinsamer Bundesausschuss GKV …………………………………… Gesetzliche Krankenversicherung GKV-Spitzenverband …………. Spitzenverband Bund der Gesetzlichen Krankenversicherungen GKV-WSG ………………………….. Gesetz zur Stärkung des Wettbewerbs in der Gesetzlichen Krankenversicherung Hrsg. …………………………………. Herausgeber i. d. R. ……………………………….. in der Regel IQWiG ……………………………..… Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen MONONOVA ……………………… Monotonic Analysis of Variance OLS ……………………………………. Ordinary Least Squares QALY …………………………………. Quality Adjusted Life Year S. ………………………………………..Seite SGB V ………………………………… Sozialgesetzbuch, Fünftes Buch sog. …………………………………… sogenannt Tab. ………………………………….. Tabelle TCA …………………………………… Traditionelle Conjoint Analyse u. a. ………………………………….. unter anderem/ und andere u. U. ………………………………….. unter Umständen vgl. ……………………………………. vergleiche z. B. ………………………………...… zum Beispiel IV 1 Einleitung 1.1 Problemstellung Bis zum Jahr 2007 fehlte in Deutschland ein gesetzlich legitimiertes Instrument zur Bewertung von Kosten und Nutzen medizinischer Leistungen. Mit dem Inkrafttreten des Gesetzes zur Stärkung des Wettbewerbs in der Gesetzlichen Krankenversicherung (GKV-WSG) im April 2007 wurde der Gemeinsame Bundesausschuss (G-BA) dazu ermächtigt, das Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG) mit einer Kosten-Nutzen-Bewertung von Arzneimitteln zu beauftragen, um Empfehlungen für den Spitzenverband Bund der Gesetzlichen Krankenversicherungen (GKV-Spitzenverband) zur Festsetzung eines Erstattungshöchstbetrages zu erarbeiten. Durch das im Januar 2011 in Kraft getretene Gesetz zur Neuordnung des Arzneimittelmarktes in der gesetzlichen Krankenversicherung (Arzneimittelmarktneuordnungsgesetz, AMNOG) wurden die Preisfestsetzung von Arzneimitteln und die Rolle der KostenNutzen-Bewertung des IQWiG neu geregelt. Für die Bewertung von Verhältnissen zwischen Nutzen und Kosten der im Rahmen der GKV erbrachten Leistungen schlägt das IQWiG die Analyse der Effizienzgrenze vor. Dabei wird das Kosten-Nutzen-Verhältnis der zu bewertenden Intervention endpunktspezifisch mit dem Kosten-Nutzen-Verhältnis aller versorgungsrelevanten Therapieoptionen innerhalb des Indikationsgebietes verglichen. Die Existenz multipler patientenrelevanter Endpunkte kann die Ermittlung eines eindeutigen Erstattungshöchstbetrages jedoch zu einer methodischen Herausforderung machen. Auf Wunsch des Entscheidungsträgers ist es Aufgabe des IQWiG, multiple Endpunkte zu einem einzigen interpretationsfähigen Nutzenmaß zu aggregieren, um einen eindeutigen Erstattungshöchstbetrag durch die Berechnung eines kalkulatorischen Mischhöchstbetrages zu ermitteln. Jedoch ist bislang unklar, welcher Algorithmus bei der Aggregation multipler Nutzenparameter angewendet werden soll. Das IQWiG prüft mit Conjoint Analyse (CA) und Analytic Hierarchy Process (AHP) zwei Methoden der multiattributiven Präferenzmessung hinsichtlich ihrer Verwertbarkeit für die Priorisierung und Gewichtung multipler patientenrelevanter Endpunkte. Der methodische Vergleich von CA und AHP unter 1 Berücksichtigung der Methodik des IQWiG steht im Mittelpunkt dieser Arbeit.4 1.2 Zielsetzung und Vorgehensweise Mit diesem Diskussionspapier soll ein erster Überblick über die methodischen Besonderheiten der vom IQWiG geprüften Verfahren für die Gewichtung multipler patientenrelevanter Endpunkte gegeben werden. Dabei ist zu klären, ob sich aus einem methodischen Vergleich von CA und AHP unter Berücksichtigung der Methodik des IQWiG Hinweise für die Vorziehenswürdigkeit einer der beiden Methoden ableiten lassen. CA und AHP werden dazu auf theoretischer und empirischer Basis miteinander verglichen und anhand eines Kriterienkatalogs, der wesentliche methodische Anforderungen zusammenfasst, die sich aus den gesetzlichen Vorgaben, der IQWiG-Methodik und allgemeinen Anforderungen an wissenschaftliches Vorgehen ergeben, hinsichtlich ihrer Eignung zur Endpunktgewichtung im Rahmen des Effizienzgrenzenkonzepts bewertet. 2 Die Endpunktgewichtung im Rahmen der Kosten-Nutzen- Bewertung des IQWiG 2.1 Die Methodik des IQWiG zur Kosten-Nutzen-Bewertung Zur Erfüllung der gesetzlich festgelegten Aufgaben hat das IQWiG in Zusammenarbeit mit internationalen Experten eine Methodik zur Bewertung von Verhältnissen zwischen Nutzen und Kosten im System der deutschen GKV entwickelt, die nach mehrjähriger und teils kontroverser Diskussion mit der Fachöffentlichkeit im Oktober 2009 in einem verbindlichen Methodenpapier veröffentlicht wurde. Im Mittelpunkt der Methodik des IQWiG steht die Analyse der Effizienzgrenze, die als grundlegendes methodisches Konstrukt aus den bisher von der Versichertengemeinschaft der GKV akzeptierten Relationen zwischen Kosten und Nutzen hergeleitet wird. Dabei wird die Effizienz der zu bewertenden medizinischen Intervention endpunktspezifisch mit dem bereits bestehenden Effizienzniveau aller versorgungsrelevanten Therapiealternativen des Indikationsgebietes verglichen (vgl. IQWiG (2009a), S. 15), d. h. für jeden patientenrelevanten Endpunkt wird eine eigene Effizienzgrenze analysiert. Ziel der Analyse ist die Differenzierung zwischen effizienten und ineffizienten medizinischen Interventionen 4 Dieses Diskussionspapier beruht in wesentlichen Teilen auf der Abschlussarbeit von Frau Dipl.-GÖ Katja Neidhardt, die dem Prüfungsamt der Rechts- und Wirtschaftswissenschaftlichen Fakultät der Universität Bayreuth am 4. Mai 2010 vorgelegt wurde. 2 und die Ableitung eines Erstattungshöchstbetrages, der den patientenrelevanten Zusatznutzen bzw. geringeren Schaden der zu bewertenden Intervention angemessen vergütet. Dem GKV-Spitzenverband soll die Analyse der Effizienzgrenze wichtige Informationen über das derzeitige Effizienzniveau innerhalb des Indikationsgebietes liefern und als fundierte Entscheidungsgrundlage für die Festsetzung eines Erstattungshöchstbetrages dienen. Voraussetzung der Kosten-Nutzen-Bewertung ist der in der Nutzenbewertung belegte patientenrelevante Zusatznutzen oder geringere Schaden der zu bewertenden medizinischen Intervention (vgl. IQWiG (2009a), S. 14f.). Die krankheitsbezogenen Nettokosten pro Patient werden für jede relevante Therapieoption innerhalb des Indikationsgebietes entsprechend des deutschen Versorgungskontextes ermittelt (vgl. IQWiG (2009a), S. 21-25), wobei das IQWiG bei der Ermittlung der Kosten die Perspektive der Versichertengemeinschaft der GKV einnimmt (vgl. IQWiG (2009a), S. 3). Für die Ermittlung von Kosten und Nutzen können Modellierungstechniken Anwendung finden (vgl. IQWiG (2009a), S. 28), deren Ergebnisse aufgrund von Unsicherheit in den Daten durch Sensitivitätsanalysen abgesichert werden müssen (vgl. IQWiG (2009a), S. 29). Zur graphischen Darstellung der Effizienzgrenze wird der Nutzen der versorgungsrelevanten Therapieoptionen den ermittelten Nettokosten endpunktspezifisch gegenübergestellt (vgl. IQWiG (2009a), S. 32). Dazu wird jede relevante Therapieoption in die Kosten-Nutzen-Ebene eines Koordinatensystems mit den Achsenbeschriftungen ‚Nettokosten pro Patient’ auf der horizontalen Achse und ‚Nutzen’ auf der vertikalen Achse eingezeichnet (vgl. Abb. 1). Durch die Effizienzgrenze wird die Kosten-Nutzen-Ebene in zwei Areale eingeteilt, die es ermöglicht, die zu bewertende medizinische Intervention durch deren relative Position in der Ebene als effizienter, gleich oder weniger effizient (Punkte 1, 2 und 5) als die bereits existierenden effizienten Vergleichstherapien zu klassifizieren, die auf der Effizienzgrenze liegen (Punkte 3, 4 und 6). Aus Sicht des IQWiG erscheint der Preis für die zu bewertende medizinische Intervention dann als angemessen, wenn sich durch die Anwendung der Intervention das bestehende Effizienzniveau innerhalb des Indikationsgebietes nicht verschlechtert (vgl. IQWiG (2009a), S. viii). 3 Abbildung 1: Darstellung der theoretischen Effizienzgrenze (Quelle: Eigene Darstellung nach IQWiG (2009a), S. 34) Die zu bewertende medizinische Intervention ist effizienter als die bereits bestehenden Interventionen des Indikationsgebietes, wenn sie oberhalb der Effizienzgrenze eingezeichnet wird. In diesem Fall besteht keine Notwendigkeit zur Einschränkung der Erstattungsfähigkeit durch die Festsetzung eines Erstattungshöchstbetrages. Da die Anwendung der Intervention zu einem höheren Effizienzniveau im betrachteten Indikationsgebiet führt, ist eine entsprechende Anpassung der Effizienzgrenze erforderlich (vgl. IQWiG (2009a), S. 32). Liegt die zu bewertende Intervention im Gegensatz dazu unterhalb der Effizienzgrenze, so kann die Erstattung im Rahmen der GKV durch die Festsetzung eines Erstattungshöchstpreises eingeschränkt werden, da die Intervention weniger effizient ist als die sich auf der Effizienzgrenze befindenden Vergleichstherapien. Zur Ableitung des Erstattungshöchstbetrages wird der Abschnitt mit dem höchsten Nutzenniveau der ermittelten Effizienzgrenze linear extrapoliert (vgl. Mühlbacher et al. (2009a), S. 1). Dabei ist zu beachten, dass der Preis nicht direkt aus der graphischen Darstellung auf der Kostenachse abgelesen werden kann, sondern aus den berechneten Durchschnittsnettokosten pro Patient herzuleiten ist (vgl. IQWiG (2009a), S. viii). 2.2 Multiple patientenrelevante Endpunkte im Rahmen der IQWiG-Methodik 2.2.1 Die Endpunktdiskussion vor dem Hintergrund der IQWiG-Nutzenbewertung Nach den gesetzlichen Vorschriften des SGB V gehört es zu den Aufgaben der GKV, für den Erhalt und die Wiederherstellung der Gesundheit der Versicherten zu sorgen (gem. § 1 Satz 1 SGB V). Jedoch existiert keine allgemeingültige Definition des Begriffes Gesundheit (vgl. Oberender et al. (2005), S. 12; Schöffski (2008), S. 323). Um die Aus4 wirkungen medizinischer Interventionen auf die Gesundheit abschätzen zu können, ist es notwendig, Gesundheitseffekte quantitativ zu erfassen (vgl. Mühlhauser und Müller (2009), S. 34). Zur Bewertung der Wirksamkeit und Verträglichkeit von Arzneimitteln werden im Rahmen klinischer Studien Prüfvariablen anhand eindeutiger medizinischer Auswahlkriterien prospektiv im Prüfplan der Studie festgelegt, um die durch die zu analysierende medizinische Intervention hervorgerufenen Effekte auf die Gesundheit zu beurteilen. Diese eindeutig definierten Zielgrößen, die diskriminierend für den Effekt der Behandlung sind, werden als Endpunkte bezeichnet (vgl. Mazur (2003), S. 149). Das IQWiG definiert Endpunkte als Zielgrößen, die alle Veränderungen des Gesundheitszustandes erfassen, die durch eine Krankheit oder eine Behandlung hervorgerufen werden (vgl. IQWiG (2009a), S. 53). Dabei ist ein Endpunkt patientenrelevant, wenn er Auskunft darüber gibt, „wie ein Patient fühlt, seine Funktionen und Aktivitäten wahrnehmen kann oder überlebt“ (IQWiG (2009a), S. 51). Der Nutzen einer medizinischen Intervention wird im Rahmen der Methodik des IQWiG als „kausal begründeter positiver Effekt […] einer medizinischen Intervention auf patientenrelevante Endpunkte bezeichnet“ (IQWiG (2009a), S. 13). Zum Nachweis eines patientenrelevanten Zusatznutzens bzw. geringeren Schadens einer medizinischen Intervention kommen im Rahmen der IQWiG-Methodik ausschließlich patientenrelevante Endpunkte zur Anwendung, wobei vorrangig „Endpunkte berücksichtigt werden, die zuverlässig und direkt konkrete Änderungen des Gesundheitszustandes abbilden“ (IQWiG (2009a), S. 51). Zur Identifikation patientenrelevanter Endpunkte konsultiert das IQWiG laut aktuellem Methodenpapier zur Nutzenbewertung betroffene Patienten, Patientenvertretungs- und/oder Verbraucherorganisationen (vgl. IQWiG (2011), S. 31f.). Bei der Bewertung des Nutzens hat das IQWiG gem. § 35b Abs. 1 Satz 4 SGB V „insbesondere die Verbesserung des Gesundheitszustandes, eine Verkürzung der Krankheitsdauer, eine Verlängerung der Lebensdauer, eine Verringerung der Nebenwirkungen sowie eine Verbesserung der Lebensqualität“ angemessen zu berücksichtigen. Das IQWiG fasst die gesetzlich vorgegebenen patientenrelevanten Zielgrößen in drei Dimensionen zusammen (vgl. Abb. 2), indem es zwischen klinischen Maßen, Respondermaßen5 und aggregierten Maßen unterscheidet (vgl. IQWiG (2009a), S. 18f.). Zu den 5 Respondermaße geben die Wahrscheinlichkeit wieder, dass ein Patient das a priori definierte Therapieziel erreicht (vgl. IQWiG (2009a), S. 19). 5 klinischen Maßen gehören Mortalität, Morbidität, gesundheitsbezogene Lebensqualität und valide Surrogatparameter. Existieren mehrere klinische Maße, so wird für jeden patientenrelevanten Endpunkt eine eigene Effizienzgrenze erstellt. Für die Erstellung einer einzigen Effizienzgrenze bedarf es der Ermittlung aggregierter Maße. Abbildung 2: Patientenrelevante Endpunkte im Rahmen der IQWiG-Methodik (Quelle: Eigene Darstellung) 2.2.2 Die Existenz multipler patientenrelevanter Endpunkte als methodische Herausforderung im Rahmen der IQWiG-Methodik Je nach Indikation treten verschiedene Endpunkte in den Vordergrund, die den patientenrelevanten Nutzen beeinflussen. Um den medizinischen Nutzen einer Intervention vollständig zu bewerten, müssen daher alle patientenrelevanten Endpunkte berücksichtigt werden (vgl. Sawicki (2006), S. 17). Zur Erfassung der mehrdimensionalen Wirkungen einer medizinischen Intervention sind verschiedene Nutzenkonzepte entwickelt worden (vgl. Breyer et al. (2005), S. 25f.). Jedoch steht das IQWiG nutzwertbasierten Aggregationsmaßen wie dem QALY-Konzept im Rahmen eines indikationsübergreifenden Vergleiches aufgrund methodischer und ethischer Mängel kritisch gegenüber (vgl. IQWiG (2009a), S. 4). Wie bereits erwähnt wurde, erfordert die Existenz multipler patientenrelevanter Endpunkte die Analyse multipler Effizienzgrenzen. Ebenso müssen mehrere Effizienzgrenzen analysiert werden, wenn die zu bewertende Intervention für verschiedene Indikationen zugelassen ist. Auch eine Kombination beider Sachverhalte wäre denkbar.6 Um zu einer Entscheidung über die Höhe des Erstattungshöchstbetrages zu kommen, müssen die verschiedenen Effizienzgrenzen entsprechend interpretiert werden. Bei der 6 Im Folgenden soll ausschließlich auf den Fall der Existenz multipler patientenrelevanter Endpunkte eingegangen werden. Liegen mehrere Indikationsgebiete vor, so sieht das IQWiG ein ähnliches Vorgehen vor (vgl. IQWiG (2009a), S. 44). 6 Analyse multipler Effizienzgrenzen kann es je nach Position der zu bewertenden Intervention in der Kosten-Nutzen-Ebene zu divergierenden Ergebnissen hinsichtlich der relativen Effizienz der zu bewertenden Intervention kommen, denn die Position der Therapiealternativen in der Kosten-Nutzen-Ebene variiert z. B. in Abhängigkeit von der Wirksamkeit der Intervention in Bezug auf den jeweils betrachteten Endpunkt. So wäre es denkbar, dass die zu bewertende Intervention bei einer Effizienzgrenze als effizient und bei einer anderen als ineffizient klassifiziert wird, sodass auf der Basis der Analyse mehrerer Effizienzgrenzen u. U. nicht beurteilt werden kann, ob die Festsetzung eines Erstattungshöchstbetrages erforderlich wäre oder nicht. Ebenso können in Abhängigkeit von der Position der zu bewertenden Intervention in der Kosten-Nutzen-Ebene aus der Analyse verschiedener Effizienzgrenzen unterschiedliche Erstattungshöchstbeträge für ein und dieselbe medizinische Intervention abgeleitet werden, die damit endpunktspezifisch variieren. Das Ziel der Kosten-Nutzen-Bewertung des IQWiG, einen angemessenen und eindeutigen Erstattungshöchstbetrag für eine medizinische Intervention als Empfehlung für den GKV-Spitzenverband festzulegen, kann in einem solchen Fall nicht erreicht werden. Dem GKV-Spitzenverband stehen dann zwei Optionen zur Verfügung. Zum einen kann er pragmatisch denjenigen Preis als angemessen für den zusätzlichen Nutzen bzw. geringeren Schaden einer medizinischen Intervention annehmen, der „nicht zu einer Verschlechterung der Effizienz in derjenigen Effizienzgrenze mit der geringsten Effizienz führt“ (IQWiG (2009a), S. 44). Diese Vorgehensweise wäre jedoch kritisch zu hinterfragen, da die Relevanz der Endpunkte aus Patientensicht auf diese Weise vollkommen unberücksichtigt bleibt. Zum anderen kann er bei Existenz multipler patientenrelevanter Endpunkte das IQWiG damit beauftragen, durch Gewichtung der verschiedenen Nutzen- und Schadenaspekte eine einzige Effizienzgrenze zu erstellen, um mit Hilfe der Gewichte die aus der Analyse multipler Effizienzgrenzen resultierenden Erstattungshöchstbeträge zu einem eindeutigen ‚kalkulatorischen Mischhöchstbetrag’ zusammenzufassen (vgl. IQWiG (2009a), S. 19f.).7 Aggregierte Nutzenmaße dienen daher bei Existenz multipler patientenrelevanter Endpunkte der Erstellung einer einzigen Effizienz7 Die Gewichtung von Endpunkten spielt insbesondere dann eine große Rolle, wenn sich die zu bewertenden Interventionen hinsichtlich ihrer Effekte auf verschiedene patientenrelevante Endpunkte unterscheiden, sodass eine Aussage zur Effizienz der Interventionen nur getroffen werden kann, wenn die Bedeutung der jeweiligen Endpunkte bekannt ist (vgl. Scheibler et al. (2010), S. 237f.). 7 grenze. Jedoch steht bislang noch nicht fest, auf welcher methodischen Basis eine Gewichtung multipler patientenrelevanter Endpunkte im Rahmen der Kosten-NutzenBewertung des IQWiG erfolgen soll. Ebenso ist unklar, inwiefern die Präferenzen der Patienten bei der Endpunktgewichtung berücksichtigt werden sollen. Eine zentrale methodische Fragestellung im Rahmen der IQWiG-Methodik ist damit bislang unbeantwortet geblieben. 2.2.3 Die Lösungsvorschläge des IQWiG für die Endpunktgewichtung Die methodische Herausforderung der Bewertung des Nutzens einer medizinischen Intervention bei Existenz multipler patientenrelevanter Endpunkte liegt in der Ermittlung eines Nutzenmaßes, das alle patientenrelevanten Nutzen- und Schadenaspekte zu einem kardinalen Nutzenindex aggregiert. Zum einen können indikationsübergreifende aggregierte Nutzenmaße Anwendung finden, soweit in einer Indikation noch keine spezifischen aggregierten Nutzenmaße entwickelt wurden. Jedoch akzeptiert das IQWiG das indikationsübergreifende Nutzenmaß des QALY-Konzepts nur im Rahmen eines indikationsspezifischen Vergleichs, wenn die zu bewertende Intervention eine lebensverlängernde Wirkung hat, die zu Lasten der Lebensqualität geht (vgl. IQWiG (2009a), S. 19). Zum anderen können indikationsspezifische aggregierte Nutzenmaße verwendet werden. Dies sollte vor allem bei Interventionen durchgeführt werden, deren Gesundheitseffekte spezifisch für eine bestimmte Indikation sind und die mittels der bereits entwickelten indikationsübergreifenden Nutzenmaße nicht angemessen abgebildet werden können (vgl. IQWiG (2008), S. 22). Das IQWiG setzt dabei auf die Entwicklung indikationsspezifischer aggregierter Nutzenmaße, die dem QALY-Konzept und anderen präferenzbasierten Instrumenten überlegen sind. Da die Entwicklung indikationsspezifischer aggregierter Nutzenmaße besonders aufwendig ist, sucht das IQWiG nun nach einem allgemeinen Algorithmus, mit dem verschiedene Endpunkte indikationsspezifisch zu einem kardinalskalierten Nutzenmaß aggregiert werden können. CA und AHP wurden dem IQWiG im Stellungnahmeverfahren zum Methodenentwurf vom 16. März 2009 als mögliche Verfahren zur Endpunktgewichtung vorgeschlagen (vgl. Mühlbacher et al. (2009b); Hipp (2009)) und im Rahmen zweier Pilotstudien hinsichtlich deren Verwertbarkeit für die Endpunktgewichtung im Rahmen der IQWiGMethodik empirisch überprüft (vgl. IQWiG (2009a), S. 20). Die Ergebnisse der Pilotstu8 dien sollen im Anschluss an das Methodenpapier vom 12. Oktober 2009 publiziert werden (vgl. IQWiG (2009b), S.37), auf deren Basis eine Entscheidung zwischen beiden Methoden gefällt werden soll. Bislang wurden die Ergebnisse nicht auf der Internetseite des IQWiG veröffentlicht. 2.3 Entwurf eines Kriterienkatalogs zur Bewertung der Lösungsvorschläge Unter Berücksichtigung der Methodik des IQWiG werden CA und AHP hinsichtlich deren Eignung zur Gewichtung von multiplen patientenrelevanten Endpunkten anhand eines Kriterienkatalogs bewertet. Aufgegliedert nach den gesetzlichen Vorgaben, den Anforderungen aus der IQWiG-Methodik und allgemeinen Anforderungen an wissenschaftliches Vorgehen werden die Kriterien im Folgenden entwickelt und erläutert (vgl. Abb. 3). Abbildung 3: Kriterienkatalog für die Bewertung von CA und AHP (Quelle: Eigene Darstellung) A.) Gesetzliche Vorgaben A.1.) Transparenz Gem. § 35b Abs. 1 Satz 6 SGB V hat das IQWiG bei der Erstellung von Methoden und Kriterien und bei der Durchführung von Bewertungen eine hohe Verfahrenstransparenz zu gewährleisten. Neben der gesetzlich vorgeschriebenen Transparenz des Verfahrens spielt auch die Transparenz der angewendeten Methoden eine Rolle. Dies gilt vor allem für die Ermittlung eines aggregierten Nutzenmaßes, da bei unzureichender Transparenz des Gewichtungsverfahrens grundsätzlich die Gefahr besteht, dass die Ergebnisse durch den Anwender beeinflusst werden. Methoden, die zur Aggregation 9 verschiedener Nutzenaspekte Anwendung finden, sollten daher transparent in ihrer Durchführung und für Außenstehende nachvollziehbar sein. Die Transparenz des Verfahrens hat einen entscheidenden Einfluss auf die Akzeptanz des Verfahrens (vgl. Hipp (2009), S. 99) und stellt damit ein wesentliches Anforderungskriterium an eine Methode zur Endpunktgewichtung dar. A.2.) International etabliertes Verfahren der Gesundheitsökonomie Dem IQWiG obliegt es, eine Methodik für die Bewertung von Nutzen und Kosten von Arzneimitteln im System der deutschen GKV zu erarbeiten, wobei es gem. § 35b Abs. 1 Satz 5 und § 139a Abs. 4 Satz 1 SGB V zu gewährleisten hat, dass die international anerkannten Standards der Gesundheitsökonomie beachtet werden. Eine im Rahmen der Kosten-Nutzen-Bewertung des IQWiG für die Gewichtung von Endpunkten verwendete Methode sollte daher ein international etabliertes und akzeptiertes Verfahren der Gesundheitsökonomie darstellen. B.) Anforderungen aus der IQWiG-Methodik B.1.) Approximative Kardinalität des aggregierten Nutzenmaßes Für die Analyse der Effizienzgrenze werden die ermittelten Nutzenmaße aller versorgungsrelevanten medizinischen Interventionen eines Indikationsgebietes in ein Koordinatensystem übertragen und den dazugehörigen Kosten gegenübergestellt. Um Kosten und Nutzen zueinander ins Verhältnis setzen und aussagekräftig interpretieren zu können, muss der ermittelte Nutzen zumindest annähernd kardinalskaliert sein (vgl. IQWiG (2009a), S. 17).8 Dabei nimmt das IQWiG verhältnisskalierte Nutzenmaße als annähernd kardinalskaliert an. Sollte der klinische Nutzen einer medizinischen Intervention nicht bereits kardinalskaliert sein, so ist er in ein solches Maß zu überführen (vgl. IQWiG (2009a), S. 32). Ein Nutzenmaß ist kardinalskaliert, wenn „zwei als gleich groß anzusehende Zuwachsbeträge auch tatsächlich einem gleich großen Zuwachs beim Nutzen entsprechen“ (IQWiG (2009a), S. 17). Im Gegensatz zu ordinalskalierten Nutzenmaßen, bei denen nur Rangreihungen bestimmter Zielgrößen angegeben werden können, ist es mit Hilfe kardinalskalierter Nutzenmaße möglich, auch die Abstände zwischen den Nutzenmaßen zu erfassen (vgl. Schöffski (2008), S. 332; Wagener (1983), 8 Dass die Verwendung eines ‚annähernd’ kardinalskalierten Nutzenmaßes ausreicht, begründet das IQWiG damit, dass das Nutzenmaß lediglich in dem Definitionsbereich, der für die Bewertung der Kosten-Nutzen-Relation relevant ist, den Anforderungen einer Kardinalskalierung genügen müsse (vgl. IQWiG (2009a), S. 17). 10 S. VII). Die approximative Kardinalskalierung des Nutzenmaßes stellt eine Grundvoraussetzung für die Verwendung des Nutzenmaßes im Rahmen des Effizienzgrenzenkonzepts des IQWiG dar. Nur bei kardinalskalierten Nutzenmaßen kann angenommen werden, dass zwei gleich große Nutzenzuwächse mit gleich großen Zunahmen der Zahlungsbereitschaft einhergehen, worauf die Extrapolation der Effizienzgrenze beruht (vgl. John (2009), S. 10). Eine Methode, die zur Endpunktgewichtung angewendet werden soll, muss daher die Ermittlung eines kardinalskalierten aggregierten Nutzenmaßes sicherstellen können. B.2.) Flexibilität Das IQWiG geht bei der Bewertung der Kosten-Nutzen-Verhältnisse medizinischer Interventionen indikationsspezifisch vor (vgl. IQWiG (2009a), S. 2). Soweit noch keine indikationsspezifischen aggregierten Nutzenmaße in einer Indikation entwickelt wurden, sollen die in dieser Arbeit betrachteten Methoden zur Ermittlung aggregierter Nutzenmaße eingesetzt werden. Die Verfahren müssen daher besonders flexibel in ihrer Anwendung sein, um in verschiedenen Indikationen zur Endpunktgewichtung angewendet zu werden, denn jede Indikation stellt spezifische Anforderungen an die Methode zur Ermittlung aggregierter Nutzenmaße (vgl. IQWiG (2008), S. 21). B.3.) Möglichkeit zur Aggregation der Präferenzen Für das Ziel der Gewichtung multipler patientenrelevanter Endpunkte ist es von Bedeutung, Aussagen über die Präferenzen einer Mehrzahl von betroffenen Personen treffen zu können, da die Endpunktgewichtung als Entscheidung von Einzelpersonen kritisch zu hinterfragen ist. Daher sollte die Methode eine verlässliche Aggregation individueller Präferenzen ermöglichen. C.). Allgemeine wissenschaftliche Anforderungen C.1.) Nutzentheoretische Fundierung Für die Durchführung konsistenter ökonomischer Bewertungen bedarf es methodischer Ansätze, die in der ökonomischen Theorie verankert sind (vgl. Telser (2002), S. 5). Kritisch zu prüfen wäre daher der Versuch, auf der Basis eines unklaren nutzentheoretischen Konstrukts patientenrelevante Endpunkte für die Ermittlung eines aggregierten Nutzenmaßes zu gewichten, sodass es aus wissenschaftlicher Sicht erforderlich sein kann, dass die Endpunktgewichtung mit Hilfe einer nutzentheoretisch fundier11 ten Methode erfolgt. Unter Umständen könnte ein aggregiertes Nutzenmaß, das nicht auf einer fundierten nutzentheoretischen Basis ermittelt wurde, nicht die entsprechende Akzeptanz der beteiligten Akteure finden. C.2.) Erfüllung von Gütekriterien Bei jeder empirischen Untersuchung beeinflusst die Qualität des Messvorgangs die Aussagefähigkeit der Ergebnisse (vgl. Himme (2009b), S. 485). Zur Beurteilung der Messqualität dienen die Gütekriterien Objektivität, Reliabilität und Validität, wobei vor allem die Validität eine wichtige Rolle spielt. Die Validität macht eine Aussage darüber, ob mit einem Messinstrument tatsächlich das gemessen wird, was gemessen werden soll. Dabei kann zwischen Inhalts-, Kriteriums- und Konvergenzvalidität unterschieden werden (vgl. Himme (2009b), S. 491-496).9 Mit Hilfe der Kriteriumsvalidität wird beispielsweise beurteilt, wie gut die Ergebnisse einer Methode mit einem auf andere Weise gemessenen Kriterium korrelieren (vgl. Himme (2009b), S. 492). Erfolgt die Messung des Kriteriums zu einem späteren Zeitpunkt, so spricht man von der Prognosevalidität, mit der eine Aussage darüber getroffen wird, inwiefern mit Hilfe der Ergebnisse der Methode ein in der Zukunft liegendes Ereignis vorhergesagt werden kann. Im Rahmen der Präferenzmessung ist die Prognosevalidität definiert als die Fähigkeit einer Methode, die wahren Präferenzen eines Probanden zu offenbaren und die (Kauf)Entscheidungen auf der Basis der analytisch ermittelten Bedeutungsgewichte von Produkteigenschaften und deren Ausprägungen vorherzusagen (vgl. Scholl et al. (2005), S. 771). C.3.) Wirtschaftlichkeit und Praktikabilität Wirtschaftlichkeit und Praktikabilität stellen wichtige Nebengütekriterien eines Messinstruments dar (vgl. Himme (2009b), S. 486). Eine Methode mit besonders aufwendigem Studiendesign kann das dem IQWiG für die jeweilige Bewertung zur Verfügung stehende Budget überschreiten, sodass bei der Durchführung von Kosten-NutzenBewertungen auf die Erfüllung von Wirtschaftlichkeits- und Praktikabilitätskriterien geachtet werden muss. 9 Ein alternatives Validitätskonzept unterscheidet zwischen interner und externer Validität (vgl. Telser (2002), S. 102). 12 C.4.) Vollständigkeit der Bewertung Zur vollständigen Bewertung des Nutzens einer medizinischen Intervention müssen alle patientenrelevanten Endpunkte berücksichtigt werden (vgl. Sawicki (2006), S. 17). Mit Hilfe einer Methode, die zur Gewichtung multipler patientenrelevanter Endpunkte im Rahmen der IQWiG-Methodik angewendet wird, muss daher sichergestellt werden, dass alle als patientenrelevant identifizierten Endpunkte beachtet werden können. Durch die unzureichende Berücksichtigung relevanter Parameter kann es zu verzerrten Ergebnissen kommen (vgl. Helm et al. (2008), S. 250). Eine aufgrund methodischer Restriktionen erforderliche selektive Auswahl der Endpunkte würde eine willkürliche Priorisierung bedeuten, die es zu vermeiden gilt. Sollte eine Methode bei einer großen Anzahl zu gewichtender Endpunkte zu wenig validen Ergebnissen führen, so kann dies ein Indikator für eine mangelhafte Eignung zur Endpunktgewichtung im Rahmen der IQWiG-Methodik sein. 3 Methoden für die Endpunktgewichtung 3.1 Überblick zu den Methoden der multiattributiven Präferenzmessung Fasst man Produkte als Bündel nutzenstiftender Eigenschaften auf (vgl. Böhler und Scigliano (2009), S. 101), so können zur Ermittlung von Teilnutzenwerten der Eigenschaften und deren einzelnen Ausprägungen Methoden der multiattributiven Präferenzmessung zum Einsatz kommen (vgl. Sattler (2006), S. 156). Präferenzen werden dabei als Ausmaß für die Vorziehenswürdigkeit eines Objektes bezeichnet, das zur Erklärung von (Kauf-) Entscheidungen Verwendung findet (vgl. Baier und Brusch (2009), S. 3). Multiattributive Methoden der Präferenzmessung finden in zahlreichen wissenschaftlichen Disziplinen Anwendung und spielen in den Wirtschaftswissenschaften vor allem im Marketing und in der Entscheidungstheorie eine wichtige Rolle (vgl. Mulye (1998), S. 263; Helm et al. (2003), S. 1). Geht es im Marketing um das gewinnmaximale Design eines Produkts bzw. einer Dienstleistung, so steht bei der Entscheidungstheorie die Auswahl einer optimalen Alternative aus einem Alternativen-Set im Vordergrund. In beiden Fällen müssen die Präferenzen der Kunden bzw. der Entscheidungsträger ermittelt werden, wobei sich für jedes Anwendungsgebiet unterschiedliche methodische Ansätze zur Präferenzmessung herausgebildet haben. CA und AHP können als wichtige Vertreter der multiattributiven Präferenzmessverfahren genannt werden (vgl. 13 Tab. 1). Anwendungsgebiet Marketing Design eines nutzenmaximalen Produkts bzw. einer Dienstleistung Gewinnmaximierung Nachbildung und Messung von Präferenzen der Konsumenten Entscheidungstheorie Auswahl einer optimalen Häufige Fragestellung Alternative Ziel der Präferenzerhebung Nutzenmaximierung Methodische Nachbildung und Messung von Herausforderung Präferenzen des Entscheidungsträgers Beispiel Conjoint Analyse Analytic Hierarchy Process Tabelle 1: Methoden der multiattributiven Präferenzmessung (Quelle: Eigene Darstellung nach Helm et al. (2003), S. 1) Green und Srinivasan ((1990), S. 9) unterscheiden dekompositionelle, kompositionelle sowie hybride Methoden der multiattributiven Präferenzmessung. Die unterschiedliche Vorgehensweise kompositioneller und dekompositioneller Verfahren der multiattributiven Präferenzmessung spielt im Rahmen dieser Arbeit eine zentrale Rolle. Während die dekompositionellen Verfahren von der globalen Gesamtbewertung eines Produktes bzw. einer Dienstleistung ausgehen und daraus Rückschlüsse auf die Teilnutzenwerte einzelner Eigenschaften und deren Ausprägungen ziehen, setzen die kompositionellen Verfahren bei einer direkten Bewertung der Eigenschaften und deren Ausprägungen an und fassen die Ergebnisse zu einem Gesamtwert zusammen, um zu einer Aussage bezüglich der relativen Wichtigkeit der Stimuli zu gelangen (vgl. Abb. 4). Abbildung 4: Vorgehensweise dekompositioneller und kompositioneller Verfahren (Quelle: Eigene Darstellung nach Skiera und Gensler (2002a), S. 200) Sattler unterscheidet bei den dekompositionellen Methoden Revealed-PreferenceAnsätze, bei denen die Präferenzen aus dem realen Verhalten abgeleitet werden, von den Stated-Preference-Ansätzen, bei denen die Präferenzen durch Befragungen erhoben werden (vgl. Sattler (2006), S. 157f.). Verschiedene Varianten der CA, wie die Traditionelle CA (TCA), die Choice-Based CA (CBCA), die Limit CA und die Hierarchische CA setzen eine bestimmte Präferenzstruktur als gegeben voraus und lassen sich als Stated-Preference-Ansätze im Rahmen der dekompositionellen Verfahren einordnen 14 (vgl. Abb. 5). Adaptive CA und Golden CA stellen hybride Vertreter dar. Der AHP ist neben der Self-Explicated-Methode und dem Swing-Verfahren als kompositionelles Verfahren einzuordnen. Abbildung 5: Übersicht zu den Methoden der multiattributiven Präferenzmessung (Quelle: Eigene Darstellung nach Sattler (2006), S. 156) CA und AHP werden als wichtige Vertreter dekompositioneller und kompositioneller Verfahren der multiattributiven Präferenzmessung im Folgenden ausführlich dargestellt. 3.2 Die Conjoint Analyse 3.2.1 Methodische Grundlagen und Hintergründe Nach Green und Wind ((1975), S. 108) wurde das methodische Konzept des ‚Conjoint Measurement’ im Jahr 1964 von Luce und Tukey als axiomatisches Verfahren der mathematischen Psychologie konzipiert (vgl. Luce und Tukey (1964)). Eine anwendungsorientierte Übertragung der Methode auf das Marketing erfolgte erstmals durch Green und Rao im Jahr 1971 (vgl. Green und Srinivasan (1978), S. 103). Heute gilt die CA als das am häufigsten eingesetzte Verfahren der empirischen Marktforschung zur Erhebung von Konsumentenpräferenzen (vgl. Skiera und Gensler (2002a), S. 200; Green et al. (2001), S. 57).10 Auch wenn der Begriff der Conjoint Analyse eine geschlossene Methodik vermuten lässt, so handelt es sich dabei um eine Vielzahl verschiedener Verfahrensansätze, die sich zum Teil erheblich voneinander unterscheiden (vgl. Teichert et al. (2008), S. 653). Eine einheitliche Definition des Begriffes der CA existiert nicht. Die CA ist ein dekompositionelles Verfahren, bei dem auf der Basis empirisch erhobener Gesamtnutzenwerte die Teilnutzenbeiträge einzelner Eigenschaften bzw. deren Ausprägungen zum Ge10 Für einen Überblick über die Anwendungsgebiete der CA siehe Green und Wind (1975), S. 112; Weiber und Rosendahl (1997), S. 107 sowie Baier und Brusch (2009), S. 8f. 15 samtnutzen unter der Annahme eines Präferenzmodells ermittelt werden (vgl. Backhaus et al. (2006) S. 558). Anhand von globalen Präferenzurteilen wird daher auf die Bedeutungsgewichte einzelner a priori festgelegter Eigenschaftsausprägungen geschlossen, die systematisch zwischen den verschiedenen Stimuli verändert werden (vgl. Sattler (2006), S. 158f.). Für die Beurteilung der Stimuli müssen von den Probanden Trade-Offs vorgenommen werden, die Hinweise auf die Präferenzen geben. Ziel der CA ist die Schätzung von Teilnutzenwerten für einzelne Eigenschaften und deren Ausprägungen, die konsistent mit den geäußerten globalen Präferenzen der Befragten bezüglich der zur Auswahl stehenden Objekte sind (vgl. Green und Srinivasan (1978), S. 104). Trotz teilweise erheblicher Unterschiede folgen die verschiedenen Varianten der CA im Wesentlichen den Ablaufschritten einer ‚klassischen’ traditionellen CA (vgl. Weiber und Mühlhaus (2009), S. 43). Im Folgenden wird diese in Anlehnung an Backhaus et al. ((2006), S. 561-583) erläutert. 3.2.2 Ablaufschritte der Traditionellen Conjoint Analyse Bei der Durchführung der TCA kann zwischen Datenerhebungs- und Datenauswertungsphase unterschieden werden (vgl. Abb. 6). Zwischen den einzelnen Ablaufschritten gibt es vielfältige Interdependenzen, sodass eine isolierte Betrachtung der einzelnen Schritte in der praktischen Durchführung vermieden werden sollte (vgl. Weiber und Rosendahl (1997), S. 107). Abbildung 6: Ablaufschritte der TCA (Quelle: Eigene Darstellung nach Backhaus et al. (2006), S. 561) Datenerhebung a. Auswahl der Eigenschaften und Eigenschaftsausprägungen Die in das Erhebungsdesign aufzunehmenden Eigenschaften und deren Ausprägungen sollten insbesondere folgenden Anforderungen genügen (vgl. Backhaus et al. (2006), 16 S. 562f.): Relevanz der Eigenschaften aus Probandensicht, Realisierbarkeit der Eigenschaftsausprägungen, Unabhängigkeit der Eigenschaften bei additivem Präferenzmodell, Vorliegen einer kompensatorischen Beziehung zwischen den Eigenschaftsausprägungen, d. h. keine Ausschlusskriterien (sog. ‚K.O.-Kriterien’) sowie Begrenzbarkeit der Eigenschaften und deren Ausprägungen.11 Mit zunehmender Anzahl der Eigenschaften und Eigenschaftsausprägungen wächst die Menge zu bewertender Stimuli exponentiell an, sodass deren Auswahl restriktiv gehandhabt werden muss (vgl. Backhaus et al. (2006), S. 563). Um die Probanden bei der ganzheitlichen Bewertungsaufgabe nicht kognitiv zu überfordern, sollte die Anzahl zu bewertender Eigenschaften auf maximal sechs begrenzt werden (vgl. Green und Srinivasan (1978), S. 108). b. Festlegung des Erhebungsdesigns Bei der Festlegung des Erhebungsdesigns durch den Untersuchenden geht es um die Definition und die Bestimmung der Anzahl der zu bewertenden Stimuli (vgl. Skiera und Gensler (2002a), S. 201f.). Beim Full-Profile-Ansatz werden die Produktalternativen vollständig bewertet, indem alle Eigenschaften mit jeweils einer Ausprägung vom Probanden zu beurteilen sind. Von einem vollständigen Design spricht man, wenn alle möglichen Kombinationen der Eigenschaften und deren Ausprägungen von den Probanden bewertet werden sollen (vgl. Skiera und Gensler (2002a), S. 202). Ist eine große Anzahl an Eigenschaften und Eigenschaftsausprägungen identifiziert worden, so kann die Verwendung eines reduzierten (sog. fraktionierten) Erhebungsdesigns erforderlich sein, bei dem nur eine Teilmenge der möglichen Stimuli betrachtet wird, um den Untersuchungsaufwand zu minimieren und eine kognitive Überforderung der Probanden zu vermeiden (vgl. Backhaus et al. (2006), S. 579). c. Bewertung der Stimuli Nachdem das Erhebungsdesign vom Untersuchenden festgelegt wurde, können die Probanden gebeten werden, eine Bewertung der Stimuli entsprechend der individuellen Präferenzen vorzunehmen. Dabei können mit dem Bilden einer Rangreihe sowie dem paarweisen Vergleich aller Stimuli ordinalskalierte Ordnungen aus der Bewertung resultieren. Im Gegensatz dazu spielt bei der Bewertung anhand einer Rating-Skala auch die Stärke der Präferenzen eine Rolle, was zu einer intervallskalierten Ordnung 11 Für einen Überblick zu Verfahren der Ermittlung relevanter Eigenschaften und deren Ausprägungen siehe Weiber und Mühlhaus (2009), S. 50. 17 führt. Bei der CBCA werden die Stimuli mittels diskreter Auswahlentscheidungen von den Probanden bewertet (vgl. Kapitel 3.2.3). Datenauswertung d. Schätzung der Nutzenfunktion Nach der Bewertung der Stimuli werden individuelle, probandenspezifische Nutzenfunktionen geschätzt, um die Teilnutzenwerte aus den Präferenzurteilen abzuleiten.12 Die Teilnutzenwerte werden derart ermittelt, dass die beobachteten ganzheitlichen Beurteilungen der Stimuli mit minimalem Fehler wiedergegeben werden können. Häufig wird ein additives Präferenzmodell unterstellt, bei dem sich der Gesamtnutzen eines Stimulus aus der Summe der Teilnutzenwerte der einzelnen Eigenschaftsausprägungen zusammensetzt (vgl. Backhaus et al. (2006), S. 572). Dabei wird unterstellt, dass derjenige Stimulus vom Probanden bevorzugt wird, der sich aus der Summe der maximalen Teilnutzenwerte einer jeden Eigenschaft zusammensetzt (vgl. Backhaus et al. (2006), S. 580). Zur Schätzung der individuellen Nutzenfunktionen können zahlreiche statistische Verfahren angewendet werden.13 Die Schätzung der Teilnutzenwerte erfolgt dabei in Abhängigkeit des unterstellten Präferenzstrukturmodells und des Messniveaus der Daten. Mit Hilfe der geschätzten, probandenspezifischen Nutzenfunktionen können dimensionslose, intervallskalierte Teilnutzenwerte für die Eigenschaften und deren Ausprägungen berechnet werden, die aufgrund subjektiver Skalen mit jeweils individuellen Nullpunkten jedoch weder interpersonell verglichen noch absolut im Sinn ihrer Wichtigkeit interpretiert werden können (vgl. Skiera und Gensler (2002b), S. 258f.). Dazu müssen die Teilnutzenwerte durch Normierung auf das gleiche Skalenniveau gebracht werden (vgl. Backhaus et al. (2006), S. 580). Durch die Berechnung von Bedeutungsgewichten kann eine Normierung individueller Teilnutzenwerte erfolgen, indem die Spannweite der geschätzten Teilnutzenwerte einer Eigenschaft, die sich aus der Differenz zwischen dem maximalen und minimalen Teilnutzenwert aller Ausprägungen einer Eigenschaft berechnet, durch die aufsummierten Spannweiten aller Eigenschaften dividiert wird (vgl. Skiera und Gensler (2002b), 260). Die Bedeutungsgewichte geben Auskunft über die relative Wichtigkeit einzelner Eigenschaften und deren 12 Im Gegensatz zur TCA ist es bei der CBCA aufgrund der zu geringen Anzahl an Auswahlentscheidungen je Proband i. d. R. nicht möglich, individuelle Nutzenfunktionen zu schätzen (vgl. Backhaus et al. (2006), S. 612). 13 Für einen Überblick siehe Green und Srinivasan (1978), S. 112-114 sowie Tscheulin (1992), S. 46. 18 Ausprägungen und können zwischen den Probanden verglichen werden (vgl. Skiera und Gensler (2002b), S. 259f.). e. Aggregation der individuellen Teilnutzenwerte Die TCA liefert Informationen zu den individuellen Präferenzen eines einzelnen Probanden (vgl. Backhaus et al. (2006), S. 559). Häufig ist jedoch die Präferenzstruktur einer Gruppe von Personen von Interesse, was die Aggregation der individuellen Nutzenwerte erforderlich macht. Nach Backhaus et al. lassen sich die einzelnen normierten Teilnutzenbeiträge für jede Eigenschaftsausprägung durch Bildung des Mittelwertes aggregieren (vgl. Backhaus et al. (2006), S. 582). 3.2.3 Die Choice-Based Conjoint Analyse als Variante der Conjoint Analyse Zwei wesentliche Kritikpunkte an der TCA haben zur Entwicklung neuer conjointanalytischer Ansätze beigetragen (vgl. Skiera und Gensler (2002a), S. 200). Zum einen kann nur eine sehr begrenzte Anzahl an Eigenschaften und Eigenschaftsausprägungen bei der Präferenzermittlung berücksichtigt werden, da eine zu große Anzahl zu bewertender Stimuli zu einer Überforderung der Probanden führt. Zum anderen entspricht die Bewertung der Stimuli in Form von Rankings und Ratings nicht der realen Entscheidungssituation eines Konsumenten, der beispielsweise eine (Kauf-) Entscheidung trifft. Im Folgenden wird mit der CBCA14 eine Variante der CA beschrieben, die die zuletzt genannte Schwäche der TCA überwindet. Die CBCA unterscheidet sich in der Bewertung der Stimuli, der theoretischen Fundierung und der Schätzung der Teilnutzenwerte grundlegend von den anderen conjoint-analytischen Ansätzen. Im Gegensatz zur TCA werden die Probanden bei der CBCA darum gebeten, aus Choice-Sets, die sich aus Stimuli mit verschiedenen Eigenschaftsausprägungen zusammensetzen, die aus ihrer Sicht jeweils nutzenmaximale Alternative zu wählen. Bei der CBCA werden daher diskrete Auswahlentscheidungen zwischen den Stimuli getroffen, um Rückschlüsse auf die Teilnutzenwerte einzelner Eigenschaften und deren Ausprägungen zu ziehen (vgl. Himme (2009a), S. 286). Durch die Präferenzäußerung in Form der diskreten Auswahlentscheidung kann die Realitätsnähe der Präferenzerfassung im Vergleich zur TCA erhöht werden, was durch die Verwendung von Nicht14 In der Literatur werden die Begriffe CBCA und DCE oftmals synonym verwendet (vgl. Mühlbacher et al. (2009b), S. 66; Ijzerman et al. (2008), S. 266), sodass im Rahmen dieser Arbeit mit der CBCA das für die Endpunktgewichtung vorgeschlagene DCE gemeint ist. 19 Wahlmöglichkeiten innerhalb der Choice-Sets noch verbessert wird (vgl. Gensler (2006), S. 254). Eine der Stärken der CBCA ist ihre Fundierung in der mikroökonomischen Entscheidungstheorie. In den gängigen Spezifikationen gehen sie konform mit der ‚Random Utility Theory’, die auf einen nutzenmaximierenden Entscheider abstellt (vgl. Train (2009), S. 14-17). Einen wesentlichen Beitrag insbesondere hinsichtlich der ökonometrischen Umsetzung lieferte McFadden (1974). Der als latente Zufallsvariable definierte Nutzen setzt sich dabei aus einer deterministischen und einer stochastischen Komponente zusammen. Der deterministische Term gibt die Bewertungen der Eigenschaften und deren Ausprägungen wieder, wohingegen der stochastische Term alle sonstigen Einflussfaktoren modelliert, die auf die Auswahlentscheidung einwirken (vgl. Backhaus et al. (2006), S. 611). Gründe, weshalb der Nutzen für den Untersuchenden eine Zufallsvariable darstellt, können z. B. Messfehler, mögliche Fehlspezifikationen der Nutzenfunktion, nicht beobachtbare Heterogenität und Variationen in den Präferenzen sowie nicht berücksichtigte Eigenschaften und deren Ausprägungen sein (vgl. Gensler (2006), S. 255). Die bei der CBCA zu treffende diskrete Auswahlentscheidung stellt dabei den deterministischen Term dar, der den Nutzen eines Gutes aufgrund unvollständiger Information jedoch nicht vollkommen erfassen kann (vgl. Mühlbacher et al. (2009a), S. 1). Um alle entscheidungsrelevanten Einflussfaktoren zu berücksichtigen, werden bei der CBCA stochastische Nutzenfunktionen geschätzt. Deren probabilistischer Term bildet alle nicht im deterministischen Term definierten, jedoch entscheidungsrelevanten Faktoren ab (vgl. Mühlbacher et al. (2009), S. 1). Der Nutzenbeitrag einer Eigenschaftsausprägung ist damit als latente Zufallsvariable aufzufassen, sodass Wahrscheinlichkeitsaussagen für die diskreten Auswahlentscheidungen getroffen werden können (vgl. Himme (2009a), S. 288). Auf der Basis der aggregierten Auswahlentscheidungen können die Teilnutzenwerte über ein Logit- oder Probitmodell mit Hilfe der MaximumLikelihood-Methode geschätzt werden. Neben der Schätzung der Nutzenfunktion erfordert dies auch die Ermittlung einer Funktion für die Auswahlwahrscheinlichkeit eines bestimmten Stimulus in Abhängigkeit vom Gesamtnutzen (vgl. Himme (2009a), 20 S. 288).15 3.2.4 Stärken und Schwächen der Conjoint-Analyse Mit Hilfe der CA wird versucht, die real ablaufenden Entscheidungsprozesse nicht aufgrund einer isolierten Beurteilung einzelner Objekteigenschaften und deren Ausprägungen, sondern durch die vergleichende Beurteilung alternativer Objekte in ihrer Gesamtheit abzubilden. Laut Büschken kann das reale Entscheidungsverhalten auf diese Weise deutlich besser abgebildet werden (vgl. Büschken (1994), S. 73). Durch die Simulation von Auswahlentscheidungen bei der CBCA kann der Realitätsgrad der Bewertung im Vergleich zur TCA, bei der die Objekte durch ein Ranking oder Rating bewertet werden, erhöht werden (vgl. Gensler (2006), S. 254). Aufgrund der realitätsnahen Bewertung der Stimuli ist die Bewertungsaufgabe für die Probanden vor allem bei der CBCA eingängig und intuitiv lösbar. Jedoch hat die ganzheitliche Bewertung den Nachteil, dass die Probanden bei einer Vielzahl zu bewertender Eigenschaften schnell kognitiv überfordert werden. Häufig vereinfachen die Probanden die Bewertungsaufgabe, indem sie weniger relevante Kriterien in ihrer Beurteilung ignorieren, was zu einer Verzerrung der ermittelten Bedeutungsgewichte führen kann. Ab einer bestimmten Anzahl zu bewertender Eigenschaften führt die CA daher nicht mehr zu validen Ergebnissen, wobei Green und Srinivasan davon ausgehen, dass bereits ab sechs zu bewertenden Eigenschaften eine kognitive Überforderung der Probanden eintreten kann (vgl. Green und Srinivasan (1978), S. 108). Die TCA kann daher nur bei einfach gestalteten Alternativen mit einer geringen Anzahl an Eigenschaften Anwendung finden (vgl. Böhler und Scigliano (2009), S. 111). Gleiches gilt für die CBCA (vgl. Gensler (2006), S. 256). Häufig wird bei der CA ein additives Teilnutzenmodell unterstellt. Durch die Annahme eines nicht-linearen Teilnutzenmodells können auch Interdependenzen zwischen den einzelnen Eigenschaften modelliert werden, was den Anwendungsbereich der CA erweitert. Dies kann erforderlich sein, wenn die Eigenschaften nicht vollständig unabhängig voneinander definiert werden können. Nachteil des vielfältigen conjointanalytischen Instrumentariums ist jedoch, dass es selbst Experten schwer fällt, den Überblick über die verschiedenen Ansätze zu behalten (vgl. Carroll und Green (1995), S. 389). Die Wahl einer bestimmten Variante und des Schätzalgorithmus sind daher 15 Für eine einführende Darstellung zur Schätzung der sog. Bewertungs- und Verknüpfungsfunktion siehe Gensler (2006), S. 255-258. 21 zum Teil schwer nachvollziehbar. Grundsätzlich stellt die CA ein anspruchsvolles Design zur Präferenzerfassung dar, sodass fundierte Methodenkenntnisse nötig sind, um die Verfahren adäquat anzuwenden. Vor allem die CBCA stellt hohe Anforderungen an die Methodenkompetenz der Untersuchenden (vgl. Orme (2006), S. 110). Die ermittelten Bedeutungsgewichte der CA sind häufig intervallskalierte, dimensionslose Koeffizienten, die erst nach weiteren Gewichtungsschritten interpretiert und miteinander verglichen werden können, da sie sich auf unterschiedlichen Intervallskalen befinden. Stärken Schwächen Realitätsnahe Bewertung durch ganzheitli- Schnelle kognitive Überforderung der Prochen Bewertungsprozess, insb. bei CBCA banden durch holistischen Bewertungsansatz, sodass häufig nur bis zu sechs Eigenschaften Intuitiv lösbare Bewertungsaufgabe bewertet werden können Conjoint-analytisches Instrumentarium be Anspruchsvolles Studiendesign insbesondere sonders vielfältig der CBCA, das fundierte Methodenkenntnisse Nutzentheoretische Fundierung der CBCA erfordert Standardsoftware verfügbar Aggregation individueller Präferenzen mög- Intervallskalenniveau der Teilnutzenwerte lich Tabelle 2: Zusammenfassung der Stärken und Schwächen der CA (Quelle: Eigene Darstellung) 3.2.5 Anwendungsgebiete im Gesundheitswesen Bereits Green und Srinivasan ((1978), S. 116) weisen darauf hin, dass die CA auch für Entscheidungen im öffentlichen Sektor geeignet ist und nennen beispielhaft die Planung der primärärztlichen Versorgung in ländlichen Gebieten. Neben der Ermittlung von Konsumentenpräferenzen für eher klassische Produkte können mit Hilfe der CA auch Präferenzen von Patienten für komplexe Sachverhalte ermittelt werden. So untersucht bspw. Becker (2006) Flexibilisierungsmöglichkeiten im Krankenversicherungsmarkt. Die CA kann jedoch auch zur Anwendung kommen, um neben den klinischen Outcomes andere Aspekte der medizinischen Versorgung aus Patientensicht zu evaluieren, wie z. B. Wartezeiten vor der Behandlung, Entfernung der Klinik zum Wohnort oder die Qualifikation des medizinischen Personals (vgl. Ryan (2004), S. 360). In der Gesundheitsökonomie wird die CA seit Mitte der 1990er Jahre angewendet (vgl. Telser (2002), S. 38). Seitdem hat sich die CA vor allem in Form der CBCA als Ansatz zur Ermittlung von Patientenpräferenzen etablieren können (vgl. Bartelmes et al. (2009), S. 34). Für ausführliche Übersichten zur mittlerweile umfangreichen Literatur sei auf Ryan und Gerard (2003), Guttmann et al. (2009) und Bekker-Grob et al. (2012) verwiesen. 22 3.3 Der Analytic Hierarchy Process 3.3.1 Methodische Grundlagen und Hintergünde Der AHP nach Saaty ((1977), (1980)) gehört heute zu den am häufigsten eingesetzten Methoden zur Lösung komplexer und unstrukturierter Entscheidungsprobleme und findet vor allem in den USA und in Asien Anwendung (vgl. Meixner und Haas (2009), S. 157). In Deutschland konnte sich der AHP bislang noch nicht als Entscheidungsunterstützungstool durchsetzen. Der AHP ist ein Prozess, mit dessen Hilfe komplexe Entscheidungen hierarchisch strukturiert werden, um zu einer optimalen und rational nachvollziehbaren Entscheidung zu gelangen (vgl. Meixner und Haas (2009), S. 159). Dabei werden mögliche Einflussgrößen und Lösungsalternativen eines Entscheidungsproblems im Hinblick auf ein bestimmtes Ziel erfasst und in einer hierarchischen Struktur gegliedert. Ziel des AHP ist die Ermittlung eines Gewichtungsvektors, der die Bedeutung der einzelnen Lösungsalternativen für das Entscheidungsproblem widerspiegelt. Die Bewertung der Einflussgrößen und Lösungsalternativen erfolgt durch Paarvergleichsurteile, die mit Hilfe eines mathematischen Verfahrens zu Gesamturteilen verdichtet werden. Eine Rangreihung der Lösungsalternativen entsprechend der berechneten Prioritäten kann dem Entscheidungsträger als Grundlage für die Entscheidung dienen. Multikriterielle Entscheidungsprobleme sind durch die Notwendigkeit zur simultanen Optimierung mehrerer Zielfunktionen gekennzeichnet, wobei der Entscheidungsträger häufig zwischen verschiedenen Alternativen abwägen muss (vgl. Hanne (2001), S. 1). Da aufgrund der Begrenztheit menschlicher Informationsverarbeitungskapazität und Entscheidungsrationalität nur eine bestimmte Anzahl an Einflussfaktoren simultan in den Entscheidungsfindungsprozess einbezogen werden kann, besteht die Gefahr, dass wichtige Teilaspekte nur unzureichend berücksichtigt werden (vgl. von Nitzsch (1993), S. 111). Der AHP dient vor diesem komplexen Hintergrund der Auswahl einer aus Sicht des Anwenders optimalen Lösungsalternative unter der Berücksichtigung aller relevanter Informationen. Die Einsatzmöglichkeiten des AHP sind aufgrund der Flexibilität der Methode entsprechend vielfältig, sodass der AHP bereits auf zahlreiche ökonomische, politische und soziale Fragestellungen angewendet wurde (vgl. Saaty und Vargas (2001), S. 24). 23 3.3.2 Ablaufschritte des Analytic Hierarchy Process Die wichtigsten Schritte bei der Durchführung eines AHP werden im Folgenden kurz dargestellt (vgl. Abb. 7).16 Abbildung 7: Ablaufschritte des AHP (Quelle: Eigene Darstellung nach Meixner und Haas (2009), S. 187) Datenerhebung a. Definition der Entscheidungssituation Bei der Definition der Entscheidungssituation geht es neben der Festlegung des Entscheidungsziels vor allem um die vollständige Erfassung relevanter Einflussgrößen sowie möglicher Lösungsalternativen (vgl. Meixner und Haas (2009), S. 159). Die Einflussgrößen stellen Kriterien dar, anhand derer die Lösungsalternativen in Hinblick auf ihre Eignung zur Zielerreichung bewertet werden. Dabei bildet die Definition der Entscheidungssituation die Grundlage für den mit der Hierarchie darzustellenden Entscheidungsprozess und hat entscheidenden Einfluss auf die Aussagekraft der abzuleitenden Entscheidungsempfehlung. Bleiben relevante Einflussgrößen oder mögliche Lösungsalternativen an dieser Stelle unberücksichtigt, so kann der AHP nur zu einer suboptimalen Entscheidungsempfehlung führen. b. Strukturierung der Einflussfaktoren und Erstellen der Hierarchie Die relevanten Einflussfaktoren sind in einem nächsten Schritt hierarchisch zu strukturieren, wobei die Hierarchie flexibel an das jeweilige Entscheidungsproblem angepasst werden kann. Bei der Erstellung der Hierarchie sind dennoch zwei Formvorschriften zu 16 Für eine detaillierte Darstellung siehe z. B. Saaty ((1980); (1990a); (1994); (2008)) oder Zahedi (1986). 24 beachten (vgl. Gerber (1996), S. 29): das festgelegte Entscheidungsziel ist stets auf der obersten Hierarchieebene zu platzieren und die möglichen Lösungsalternativen sind stets auf der untersten Hierarchieebene einzuordnen. Die zwischen dem Entscheidungsziel und den Lösungsalternativen liegenden Hierarchieebenen können in ihrer Anzahl und ihrer Ausgestaltung in Abhängigkeit von der Entscheidungssituation frei gewählt werden. Sollte eine Hierarchieebene nicht ausreichen, so kann diese durch die Bildung von Subkriterien weiter aufgegliedert werden. Dabei ist zu beachten, dass die Kriterien einer Hierarchieebene stets die der darüber liegenden Ebene beeinflussen und gleichzeitig von denen der darunter liegenden Ebene beeinflusst werden (vgl. Meixner und Haas (2009), S. 159). Ebenso sollten sich die Kriterien derselben Hierarchieebene nicht gegenseitig beeinflussen (vgl. Haedrich et al. (1986), S. 121). Mit zunehmender Anzahl an Hierarchieelementen steigt die Anzahl durchzuführender Paarvergleiche überproportional an (vgl. Nauck (1983), S. 18).17 Nach Saaty ((1990a), S. 20) sollten maximal neun Elemente auf einer Hierarchieebene festgelegt werden, um die bewertende(n) Person(en) nicht kognitiv zu überfordern. Die Strukturierung der relevanten Einflussfaktoren in einer Hierarchie dient der Analyse der komplexen Entscheidungssituation und führt durch das Aufteilen des Entscheidungsproblems in überschaubare Teilaspekte zu einer Reduktion der Komplexität (vgl. Gerber (1996), S. 29). Bei der Erstellung einer Hierarchie kann zwischen vollständigen und nicht vollständigen Hierarchien unterschieden werden. Bei einer vollständigen Hierarchie (vgl. Abb. 8) steht jedes Hierarchieelement mit jedem Element der übergeordneten Hierarchieebene in einer Beziehung, wohingegen die Hierarchieelemente bei einer nicht vollständigen Hierarchie nicht mit jedem Element der jeweils übergeordneten Hierarchiestufe verbunden sind. 17 Sind bei einer 3x3-Matrix nur drei Paarvergleiche durchzuführen, so müssen bei einer 9x9-Matrix bereits 36 Paarvergleiche durchgeführt werden (vgl. Nauck (1983), S. 18). Die Anzahl der durchzuführenden Paarvergleiche kann in Abhängigkeit der Anzahl der Elemente n einer Matrix mit n (n - 1)/2 berechnet werden (vgl. Saaty (1994), S. 13). 25 Abbildung 8: Vollständige Hierarchie mit einer Hierarchieebene (Quelle: Eigene Darstellung nach Saaty und Vargas (2001), S. 3) c. Bewertung der Hierarchieelemente Zur Bewertung der Einflussgrößen und Lösungsalternativen werden basierend auf der Hierarchie sog. Bewertungsmatrizen erstellt, deren Dimension und Verknüpfungen untereinander jeweils von der Struktur der Hierarchie abhängen (vgl. Gerber (1996), S. 30). Die Bewertung der Hierarchieelemente erfolgt dann im Paarvergleich, indem stets zwei Hierarchieelemente einer Ebene in Bezug auf das jeweils übergeordnete Element bewertet werden (vgl. Gerber (1996), S. 30). Für jede Hierarchieebene ist eine Bewertungsmatrix hinsichtlich jeden Elements der nächsthöheren Hierarchieebene zu erstellen (vgl. Haedrich et al. (1986), S. 123). Da die Bewertungen Ausgangspunkte der mathematischen Lösung des AHP sind, müssen diese numerisch ausgedrückt werden (vgl. Gerber (1996), S. 30). Saaty ((1980), S. 54) schlägt dazu eine Neun-PunkteBewertungsskala vor (vgl. Tab. 3). Skalenwert Definition ⅟9 Absolut dominiert. 1 Gleiche Bedeutung. 3 Etwas größere Bedeutung. 5 Erheblich größere Bedeutung. 7 Sehr viel größere Bedeutung. 9 Absolut dominierend. Interpretation Zwischen beiden Elementen existiert in Bezug auf das nächsthöhere Hierarchieelement der kleinstmögliche Bedeutungsunterschied. Beide Elemente haben die gleiche Bedeutung in Bezug auf das nächsthöhere Hierarchieelement. Erfahrung und Einschätzung sprechen für eine etwas größere Bedeutung eines Elements im Vergleich zu einem anderen. Erfahrung und Einschätzung sprechen für eine erheblich größere Bedeutung eines Elements im Vergleich zu einem anderen. Eine sehr viel größere Bedeutung eines Elements hat sich in der Vergangenheit klar gezeigt. Zwischen beiden Elementen existiert in Bezug auf das nächsthöhere Hierarchieelement der größtmögliche Bedeutungsunterschied. 2, 4, 6, 8 Zwischenwerte Wird ein Hierarchieelement i mit einem bestimmten Skalenwert bewertet, wenn es Reziprokmit j verglichen wird, dann wird j mit dem reziproken Skalenwert bewertet, wenn es werte mit i verglichen wird. Tabelle 3: Neun-Punkte-Bewertungsskala nach Saaty (Quelle: Eigene Darstellung nach Haedrich et al. (1986), S. 123) 26 Sollte ein umgekehrtes Bedeutungsverhältnis zwischen den zu vergleichenden Hierarchieelementen bestehen, so können die Reziprokwerte verwendet werden. Dem Probanden ist es möglich, alle Skalenwerte zwischen ⅟9 und 9 anzugeben (vgl. Saaty (1990a), S. 16). Trotz der differenzierten Abstufungen der Neun-Punkte- Bewertungsskala ist jedoch nicht jede Beurteilung möglich (vgl. von Nitzsch (1993), S. 112). Auf den Hauptdiagonalen der Bewertungsmatrizen steht per Annahme eine ‚1’, da ein Hierarchieelement im Vergleich zu sich selbst stets als ‚gleich bedeutend’ bewertet wird (vgl. Nauck (1983), S. 30). Durch die Bildung der entsprechenden Reziprokwerte für die untere Matrixhälfte kann die Bewertungsmatrix vervollständigt werden (vgl. Meixner und Haas (2009), S. 195). Datenauswertung d. Berechnung der relativen Gewichte der Hierarchieelemente Nach der Bewertung der einzelnen Hierarchieelemente werden die relativen Wichtigkeiten der Kriterien und Lösungsalternativen in Bezug auf das jeweils übergeordnete Hierarchieelement aus den Paarvergleichsmatrizen abgeleitet. Mathematisch können die relativen Gewichte mit Hilfe der Eigenwertmethode berechnet werden, indem derjenige Eigenvektor mit dem größten Eigenwert λmax ermittelt wird (vgl. Saaty (1980), S. 17).18 Zur Ermittlung von λmax wird die Paarvergleichsmatrix solange mit sich selbst multipliziert, bis die Vektorfolge gegen den zum maximalen Eigenwert gehörenden Eigenvektor konvergiert (vgl. Nauck (1983), S. 37). Die quadrierte Matrix muss dabei stets normalisiert werden, damit die berechneten Werte zueinander in Beziehung gesetzt werden können (vgl. Saaty (1980), S. 179). Die Eigenvektoren werden normalisiert, indem die Summe der in ihnen enthaltenen Bedeutungsgewichte gleich Eins gesetzt wird (vgl. Tscheulin (1992), S. 55). Dazu werden die Zeilenwerte der quadrierten Matrix durch die jeweilige Spaltensumme dividiert, sodass die Summe der Bedeutungsgewichte je Spalte gleich Eins ist. Die auf diese Weise normalisierten Werte werden anschließend zeilenweise aufsummiert und durch die Anzahl der Spaltenelemente der Bewertungsmatrix geteilt. Die dadurch berechnete durchschnittliche Zeilensumme gibt die relativen Gewichte in Form eines Gewichtungsvektors wieder, wobei die Summe aller Gewichte des normalisierten Vektors Eins ergibt (vgl. Meixner und Haas 18 Der zum maximalen Eigenwert gehörende Eigenvektor gibt als Gewichtungsvektor die gesuchten relativen Gewichte wieder (vgl. Saaty (1980), S. 19). Für eine detaillierte Erläuterung der Berechnung der Gewichte mit Hilfe der Eigenwertmethode siehe Saaty (1980), S. 49-51 und S. 258-263. 27 (2009), S. 197). Dieser Prozess wird solange wiederholt, bis sich die berechneten relativen Gewichte nur noch in Höhe eines vorab festgelegten Wertes von denen der zuvor potenzierten Matrix unterscheiden (vgl. Saaty (1980), S. 179; Saaty (1990a), S. 19). Dabei nehmen die Differenzen zwischen den berechneten relativen Gewichten mit zunehmender Potenz der Bewertungsmatrix ab, sodass man sich den tatsächlichen Werten immer weiter annähert (vgl. Meixner und Haas (2009), S. 206). e. Konsistenzprüfung der Paarvergleichsbewertungen Die Konsistenz der Bewertungen einer Paarvergleichsmatrix stellt ein wesentliches Qualitätskriterium für die abgeleiteten relativen Gewichte dar (vgl. Meixner und Haas (2009), S. 206). Zur Messung der Konsistenz einer Bewertungsmatrix kann der maximale Eigenwert herangezogen werden (vgl. Saaty (1980), S. 21). Bei einer vollkommen konsistenten Bewertungsmatrix entspricht die Anzahl der Spaltenelemente n des gesuchten Eigenvektors dem maximalen Eigenwert λmax, ansonst ist λmax > n (vgl. Saaty (1977), S. 234). Je stärker die Abweichung zwischen λmax und n ist, desto größer ist die Inkonsistenz der Bewertungsmatrix. Dabei ist zu beachten, dass die Konsistenz der Bewertungen von der Größe der Bewertungsmatrix abhängt, da mit zunehmender Anzahl der Elemente des gesuchten Eigenvektors die Anzahl durchzuführender Paarvergleiche zunimmt und die Wahrscheinlichkeit für die Abgabe inkonsistenter Beurteilungen steigt (vgl. Gerber (1996), S. 30). Um die Größe der Paarvergleichsmatrizen entsprechend zu berücksichtigen, schlägt Saaty die Berechnung des Konsistenzmaßes (‚Consistency Ratio‘, C.R.) vor (vgl. Saaty (1980), S. 51). Eine Bewertungsmatrix kann als ausreichend konsistent angesehen werden, wenn C.R. < 0,1 ist (vgl. Saaty (1980), S. 21). Genügen die Konsistenzmaße dieser Anforderung nicht, so sind die Hierarchieelemente erneut durch Paarvergleiche zu bewerten (vgl. Gerber (1996), S. 30). In bestimmten Fällen kann die Existenz inkonsistenter Bewertungen auch eine vollständige Überarbeitung der Hierarchie erforderlich machen. f. Berechnung der Gewichtungsvektoren über die gesamte Hierarchie Nachdem die relativen Gewichte der einzelnen Hierarchieelemente ermittelt und die dazugehörigen Konsistenzmaße überprüft wurden, können die Gewichtungsvektoren miteinander verrechnet werden, um zu einer Gesamtaussage hinsichtlich der Relevanz der Lösungsalternativen (unterste Ebene der Hierarchie) für die Zielerreichung (oberste Ebene der Hierarchie) zu kommen. Es sei darauf hingewiesen, dass die in Schritt d.) 28 berechneten Gewichtungsvektoren nur die relativen Gewichte der jeweiligen Hierarchieelemente in Bezug auf das nächsthöhere Element wiedergeben. Um zu den relativen Gewichten der Lösungsalternativen hinsichtlich des Entscheidungszieles zu gelangen, müssen die Eigenvektoren der verschiedenen Hierarchieebenen miteinander gewichtet werden (vgl. Tscheulin (2000), S. 586). Die berechneten lokalen Gewichte werden dazu in globale Gewichte umgewandelt (vgl. Saaty (1994), S. 16). Ausgehend vom Entscheidungsziel werden die Gewichtungsvektoren über alle Hierarchieebenen hinweg bis zur untersten Ebene der Hierarchie mit dem relativen Gewicht des jeweils übergeordneten Hierarchieelements multipliziert (vgl. Gerber (1996), S. 31). Der auf diese Weise berechnete Gewichtungsvektor stellt die Lösung des AHP dar und gibt Auskunft darüber, mit welchem Gewicht die Lösungsalternativen aus der subjektiven Sicht des Anwenders zur Zielerreichung beitragen (vgl. Gerber (1996), S. 31). g. Konsistenzprüfung des Modells und Sensitivitätsanalyse Zur Überprüfung der Konsistenz des Modells schlägt Saaty die Berechnung der ‚Consistency Ratio of the Hierarchy’ (C.R.H.) vor, die sich als durchschnittliches Konsistenzmaß aus den mit den relativen Gewichten der Bewertungsmatrizen bewerteten Konsistenzindices berechnet (vgl. Saaty (1980), S. 83f.). Um das Modell als ausreichend konsistent zu bezeichnen, sollte die C.R.H. < 0,1 sein. Im Rahmen der Sensitivitätsanalyse wird untersucht, inwiefern sich kontinuierliche Änderungen der relativen Gewichte auf die Reihenfolge der Lösungsalternativen auswirken. Sie gibt damit an wie stabil die Ergebnisse des AHP sind (vgl. Meixner und Haas (2009), S. 231). Die Instabilität der Ergebnisse kann eine Überprüfung des gesamten AHP nach sich ziehen. Aufgrund des hohen Rechenaufwandes erfolgen Sensitivitätsanalysen häufig mit Sofware- Unterstützung (z. B. Expert Choice). Wurde ein konsistentes und stabiles Ergebnis ermittelt, können die Lösungsalternativen anhand ihrer relativen Gewichte beurteilt werden. Neben der Erstellung einer Rangfolge der Lösungsalternativen kann dabei auch eine Aussage zu deren Zielerreichungsgrad abgeleitet werden (vgl. Gerber (1996), S. 31). Die Ergebnisse des AHP müssen dabei jeweils im Kontext der Entscheidungssituation interpretiert werden (vgl. Gerber (1996), S. 31). Im Fall einer diskreten Auswahlentscheidung wird diejenige Lösungsalternative mit dem größten Gewicht gewählt. Bei einer Entscheidung zur Ressourcenallokation werden dagegen alle Lösungsalternativen entsprechend ihrer relati29 ven Wichtigkeiten berücksichtigt. Bei der Interpretation der Gewichte ist stets darauf zu achten, dass es sich dabei um die Ergebnisse subjektiver Einschätzungen der Anwender handelt, die sowohl durch die Strukturierung und Bewertung der Hierarchieelemente, als auch durch die Auswahl der relevanten Einflussfaktoren und möglichen Lösungsalternativen einen entscheidenden Einfluss auf das Ergebnis des AHP haben (vgl. Meixner und Haas (2009), S. 237). h. Evtl. Aggregation der Gewichte für Gruppenentscheidung Beim AHP können individuelle Bewertungen mehrerer Personen in den Entscheidungsprozess integriert werden (vgl. Meixner und Haas (2009), S. 261-266). Zur Verdichtung der Einzelbewertungen findet häufig der geometrische Mittelwert Anwendung. Zusätzlich können die einzelnen Bewertungen dem Mitspracherecht der bewertenden Personen entsprechend gewichtet werden (vgl. Tscheulin (2000), S. 602). 3.3.3 Stärken und Schwächen des Analytic Hierarchy Process Der AHP eignet sich als Entscheidungsunterstützungstool vor allem für komplexe Entscheidungssituationen, in denen der Entscheidungsträger über eine umfangreiche Informationsbasis verfügt, diese jedoch aufgrund seiner begrenzten kognitiven Fähigkeiten nicht verarbeiten kann. Mit Hilfe des AHP kann das Entscheidungsproblem gelöst werden, indem es zunächst in seine Bestandteile zerlegt und hierarchisch strukturiert wird. Dadurch wird die Komplexität reduziert und der Anwender in die Lage versetzt, das Entscheidungsproblem auf Ebene der einzelnen Teilaspekte zu lösen. Die hierarchische Struktur kann flexibel an die jeweilige Entscheidungssituation angepasst werden, sodass der AHP auf eine Vielzahl von Entscheidungsproblemen angewendet werden kann und sich durch ein besonders breites Anwendungsgebiet auszeichnet. Zusätzlich trägt auch die Verwendung der Neun-Punkte-Bewertungsskala zur Erweiterung der Anwendungsmöglichkeiten des AHP bei, da neben quantitativen auch qualitative Einflussfaktoren berücksichtigt werden können. Ein weiterer Vorteil des AHP ist, dass Gruppenentscheidungen durch Ergebnisverdichtung abgeleitet werden können. Um die Qualität der Ergebnisse zu überprüfen, kann die Widerspruchsfreiheit der Bewertungen mittels Konsistenztests und die Stabilität der Ergebnisse durch Sensitivitätsanalysen überprüft werden. Auf der anderen Seite weist der AHP zahlreiche theoretische und methodische Schwä30 chen auf. So werden die Ergebnisse des AHP auf Basis subjektiver Beurteilungen mathematisch hergeleitet. Sie stellen damit Bedeutungsgewichte dar, die der jeweilige Anwender den Lösungsalternativen hinsichtlich deren Beitrags zur Erreichung des Entscheidungsziels beimisst. Die Ergebnisse des AHP sind damit nur scheinbar objektiv, da diese die subjektiven Einschätzungen des Anwenders wiedergeben. Hinsichtlich der Neun-Punkte-Bewertungsskala kritisiert von Nitzsch, dass nicht jede real mögliche Bewertung mit Hilfe der Skala wiedergegeben werden kann (vgl. von Nitzsch (1993), S. 112), sodass die Neun-Punkte-Bewertungsskala selbst zu inkonsistenten Bewertungen führen kann (vgl. Dyer und Wendell (1985), S. 9f.). Ebenso wird die Stabilität der Ergebnisse des AHP angezweifelt (vgl. z. B. Dyer und Wendell (1985); Dyer (1990a); von Nitzsch (1993)). Kritisiert wird, dass es unter bestimmten Voraussetzungen zu einer Umkehr der Rangreihung von Lösungsalternativen kommen kann (sog. ‚Rank Reversal’), wenn (irrelevante) Lösungsalternativen hinzugefügt oder entfernt werden.19 Dyer und Wendell ((1985), S. 2f.) heben dabei kritisch hervor, dass der AHP eine grundlegende Annahme an die Rationalität verletzt, indem die Ergebnisse abhängig von irrelevanten Lösungsalternativen sein können und ziehen daraus den Schluss, dass die Resultate des AHP willkürlich sind. Die Autoren zeigen, dass die Ursache der Rangfolgenumkehr in der mathematischen Vorgehensweise des AHP bei der Ermittlung der relativen Gewichtungen im Rahmen der Eigenwertmethode liegt (vgl. Dyer und Wendell (1985), S. 17) und nicht durch zusätzlich gewonnene Informationen begründet werden kann, die z. B. durch das Hinzufügen neuer Lösungsalternativen in den Entscheidungsfindungsprozess aufgenommen werden (vgl. Dyer und Wendell (1985), S. 19). Rank Reversals widersprechen daher den Anforderungen an rationales Verhalten (vgl. von Nitzsch (1993), S. 115). Von Nitzsch schlussfolgert daraus, dass „der AHP kein Verfahren ist, das eine verlässliche Entscheidungshilfe garantiert“ (von Nitzsch (1993), S. 116).20 Der AHP basiert auf den Axiomen der Nutzentheorie, jedoch wird unter der Berücksichtigung der Schwierigkeiten einer präzisen Präferenzbeurteilung durch die Anwender auf die restriktiven Annahmen der Konsistenz und Transitivität 19 Im Fall zweier Lösungsalternativen A und B könnte Alternative A beispielsweise B vorgezogen werden, während sich nach dem Hinzufügen der (irrelevanten) Lösungsalternative C die Rangfolge zwischen beiden ändert und nun B der Alternative A vorgezogen wird (vgl. von Nitzsch (1993), S. 114). 20 Für eine ausführliche Darstellung dieser Diskussion siehe Dyer ((1990a); (1990b)) und Saaty (1990b). 31 der Präferenzäußerungen verzichtet (vgl. Scholl et al. (2005), S. 763).21 Aufgrund der weniger strengen Annahmen hinsichtlich der Präferenzstruktur werden beim AHP irrationale Entscheidungen nicht als falsche Entscheidungen identifiziert (vgl. Saaty und Vargas (2001), S. 12). Wesentliche Anforderungen der ökonomischen Nutzentheorie werden damit nicht erfüllt, sodass der AHP nutzentheoretisch als nicht fundiert gilt. Bei der dem AHP zugrunde liegenden Theorie handelt es sich um eine deskriptive Theorie, die von der normativen Nutzentheorie abzugrenzen ist (vgl. Saaty (1990b), S. 260).22 Als allgemeiner Kritikpunkt am kompositionellen Vorgehen des AHP sei noch erwähnt, dass die reale Entscheidungssituation durch die Paarvergleichsurteile nicht adäquat abgebildet werden kann. Wie gezeigt werden konnte, weist der AHP zahlreiche theoretische und methodische Schwächen auf. Dennoch konnte sich das Verfahren bislang erfolgreich etablieren, da die Methode den Anforderungen der Praxis durch die einfache und flexible Anwendung gerecht wird. Tscheulin ((2000), S. 604) weist darauf hin, dass der AHP trotz seiner ausschließlich analytischen Funktion eine qualitative Verbesserung der Entscheidungsfindung ermöglichen kann. Stärken Schwächen Einfaches und leicht verständliches Entschei- Abhängigkeit der Ergebnisse von den subjekdungsunterstützungstool zur Lösung kompletiven Einschätzungen der Anwender xer Entscheidungsprobleme Nur scheinbar objektive Ergebnisse Breites Anwendungsgebiet durch hohe Flexi- Begrenzte Durchführbarkeit von Bewertunbilität gen mit Hilfe der Neun-Punkte Komplexitätsreduktion durch Dekomposition Bewertungsskala und hierarchische Strukturierung des kom- Mangelnde Stabilität der Ergebnisse durch plexen Entscheidungsproblems Rank Reversals bei Hinzufügen bzw. Entfernen (irrelevanter) Lösungsalternativen Berücksichtigung sowohl quantitativer als auch qualitativer Einflussfaktoren mit Hilfe Keine nutzentheoretische Fundierung der Neun-Punkte-Bewertungsskala Bewertung durch Paarvergleiche entspricht Integrierte Konsistenz- und Stabilitätsprüfung nicht der realen Entscheidungssituation bei Softwareunterstützung Verdichtung der Ergebnisse zu Gruppenentscheidungen möglich Tabelle 4: Zusammenfassung der Stärken und Schwächen des AHP (Quelle: Eigene Darstellung) 21 Nach Saaty ((1990c), S. 158) können aus einer positiven und reziproken nxn-Matrix, deren Elemente Paarvergleichsbewertungen wiedergeben, Prioritäten mit Hilfe der Eigenwertmethode abgeleitet werden, indem der Eigenvektor mit dem größten Eigenwert ermittelt wird. Dieses mathematische Theorem stellt die theoretische Basis des AHP dar (vgl. Meixner und Haas (2009), S. 204). 22 Die deskriptive Theorie versucht, das reale Geschehen systematisch zu erfassen, zu ordnen und zu beschreiben, wohingegen die normative Theorie Empfehlungen ableitet, um eine Aussage abzuleiten, wie etwas sein sollte. 32 3.3.4 Anwendungsgebiete im Gesundheitswesen Bereits bei Saaty (1980) lassen sich Beispiele für Anwendungen des AHP auf Fragestellungen im Gesundheitswesen finden. So analysiert Saaty mit Hilfe des AHP mögliche Einflussfaktoren auf das individuelle Wohlbefinden (vgl. Saaty (1980), S. 44-46) und bewertet potentielle Maßnahmen zur Kostensenkung in Krankenhäusern (vgl. Saaty (1980), S. 151-155). Dolan et al. (1989) wenden den AHP erstmals zur medizinischen Entscheidungsfindung an und zeigen damit, dass der AHP ein vielversprechendes Instrument im Rahmen der partizipativen Entscheidungsfindung ist. Einen Überblick über mögliche Anwendungsgebiete des AHP auf medizinische und gesundheitsökonomische Fragestellungen geben Liberatore und Nydick (2008). Die Autoren zeigen, dass Publikationen zum AHP im Gesundheitswesen etwa seit Mitte der 1990er Jahre stark zugenommen haben. Hauptsächlich wird der AHP in den Bereichen der Diagnostik, Patientenpartizipation, Behandlung, Organtransplantation, Auswahl und Bewertung von Gesundheitstechnologien, Personaleinsatzplanung und der Gesundheitspolitik angewendet. Zusammenfassend kann festgehalten werden, dass der AHP aufgrund der vielfältigen Anwendungen auf medizinische und gesundheitsökonomische Fragestellungen ein vielversprechendes Instrument zur multikriteriellen Entscheidungsunterstützung im Gesundheitswesen darstellt. 4 CA und AHP – Ein Vergleich im Kontext der IQWiG-Methodik 4.1 Allgemeiner theoretischer Methodenvergleich 4.1.1 Gemeinsamkeiten CA und AHP leiten die Bedeutungsgewichte einzelner Eigenschaften und deren Ausprägungen aus subjektiven Präferenz- und Prioritätsurteilen her. Mit Hilfe beider Verfahren können die Präferenzen einzelner Individuen23 ermittelt und zu Gruppenergebnissen aggregiert werden. Um Interaktionseffekte zwischen den zu bewertenden Eigenschaften im Rahmen des additiven Nutzenmodells zu vermeiden, sind beide Verfahren nur bei voneinander unabhängigen Eigenschaften zuverlässig anwendbar (vgl. Helm et al. (2003), S. 12), die sowohl bei der CA als auch beim AHP a priori bekannt sein müssen. Die Anfänge beider Methoden reichen zurück bis in die 1960er und 23 Bei der CBCA kann häufig keine Individualanalyse durchgeführt werden. 33 1970er Jahre, sodass zahlreiche Studien und methodische Beiträge veröffentlicht wurden. Auch wurden CA und AHP bereits auf zahlreiche medizinische und gesundheitsökonomische Fragestellungen angewendet und gelten als vielversprechende Ansätze. Zuletzt kann die Durchführung beider Methoden Software-gestützt erfolgen. 4.1.2 Unterschiede Als ein wesentlicher Unterschied zwischen CA und AHP ist die differenzierte Vorgehensweise bei der Ermittlung der Präferenzen und damit die Unterscheidung zwischen dekompositionellen und kompositionellen Verfahren der multiattributiven Präferenzmessung zu nennen. Während die CA die Teilnutzenwerte einzelner Eigenschaften und deren Ausprägungen aus globalen Gesamtbeurteilungen herleitet, bestimmt der AHP die Bedeutungsgewichte potenzieller Lösungsalternativen durch die Komposition mittels in Paarvergleichen erfassten Prioritätsurteilen. Die unterschiedliche Vorgehensweise der CA als dekompositionellem Ansatz auf der einen Seite und des AHP als kompositionellem Ansatz auf der anderen Seite hat zahlreiche Implikationen für die Strukturierung des Entscheidungsproblems und die Datenerhebung beider Methoden. Bei der CA werden Stimuli als Bündel von Eigenschaften im Rahmen von Rankings, Ratings oder diskreten Auswahlentscheidungen bewertet, wohingegen die Eigenschaften und deren Ausprägungen beim AHP einzeln im Paarvergleich in Bezug auf das jeweils nächsthöhere Hierarchieelement bewertet werden. Der Bewertungsvorgang weist daher bei der CA einen höheren Realitätsgrad auf als beim AHP, insbesondere wenn, wie bei der CBCA, diskrete Auswahlentscheidungen getroffen werden, die reale (Kauf-) Entscheidungen simulieren. Die ganzheitliche Bewertung der Stimuli hat jedoch den Nachteil, dass die Anzahl der Eigenschaften und deren Ausprägungen im Vergleich zum AHP stärker begrenzt ist, da mit zunehmender Anzahl zu bewertender Eigenschaften die Gefahr der kognitiven Überforderung der Probanden steigt. Andererseits bedarf die Präferenzerhebung mittels AHP zu Beginn der Befragung einer ausführlichen Erklärung, da sonst die Gefahr besteht, dass Probanden die Bewertungsaufgabe anhand der Neun-Punkte-Bewertungsskala nicht verstehen, wohingegen diese bei der CA intuitiv lösbar ist. In den vergangenen Jahren wurde das Instrumentarium zur Schätzung der Teilnutzenwerte bei der CA ständig erweitert, sodass heute eine Vielzahl an Schätzverfahren für die Ermittlung der Bedeutungsgewichte zur Verfügung steht, wohingegen 34 für den AHP bislang nur wenige Alternativen zur Eigenwertmethode existieren (vgl. Tscheulin (1992), S. 153). Im Gegensatz zum AHP, bei dem die Anwender Feedback zur Konsistenz der Prioritätsurteile und zur Stabilität der Ergebnisse erhalten, gibt es bei der CA keine äquivalente Möglichkeit zur Überprüfung der Ergebnisse (vgl. Mulye (1998), S. 270). 4.1.3 Zusammenfassende Darstellung des allgemeinen theoretischen Methodenvergleichs CA und AHP unterscheiden sich grundlegend in ihrer Vorgehensweise bei der Ermittlung von Präferenzen. Darauf aufbauend lassen sich vielfältige weitere Unterschiede ableiten, aber auch einige Gemeinsamkeiten erkennen. Die Ergebnisse des theoretischen Methodenvergleichs werden in Tabelle 5 zusammengefasst. Methodischer Ansatz Grundannahmen Bewertungsprozess Realitätsgrad Nutzenmodell Flexibilität hinsichtlich der Nutzen/Wertfunktion Zielobjekt/Befragte Skalenniveau des Inputs Skalenniveau des Outputs Schätzverfahren Interpretation der Bedeutungsgewichte Feedback während des Bewertungsprozesses Kognitiver Stress für die Probanden TCA AHP Dekompositionell Eigenschaften unabhängig voneinander; alle Kombinationen der Eigenschaftsausprägungen möglich Ganzheitliche Bewertung der Stimuli Hoch, aber Bewertungsaufgabe zum Teil komplex Additives Teilnutzenmodell Hoch. Verschiedene Nutzenfunktionen möglich Marktsegment auf der Basis eines individuellen Kunden Ordinal- oder intervallskaliert Intervallskaliert z. B. OLS, MONONOVA Teilnutzenwert einer Eigenschaftsausprägung Kompositionell Nicht möglich Eigenschaften unabhängig voneinander Paarweise Vergleiche von Lösungsalternativen und Kriterien Weniger realitätsnah, aber einfache Bewertungsaufgabe Gewichtetes additives Modell Gering. Nur additive Wertfunktionen möglich Einzelner Entscheidungsträger oder Gruppe Intervallskaliert Verhältnisskaliert z. B. Eigenwertmethode Relative Bedeutung einer Alternative für die Zielerreichung Konsistenzprüfung und Sensitivitätsanalyse möglich Hoch. Steigt mit zunehmender Gering Anzahl an Eigenschaften Wenige, aber komplexe BewerViele, aber einfache PaarvergleiBefragungsumfang tungen vollständiger Stimuli che Bis zu 6 Eigenschaften mit 2-4 Viele Eigenschaften möglich mit Anwendungsbeschränkungen Ausprägungen bis zu 9 Ausprägungen Anwendung im Marketing Hoch Vergleichsweise gering Tabelle 5: Zusammenfassung des allgemeinen theoretischen Methodenvergleichs (Quelle: Eigene Darstellung nach Mulye (1998), S. 269 sowie Helm et al. (2003), S. 12) Da beide Verfahren spezifische Vor- und Nachteile aufweisen, kann aus dem theoretischen Methodenvergleich a priori nicht abgeleitet werden, welche Methode zu bes35 seren Ergebnissen führt. Diese Fragestellung ist im Rahmen empirischer Vergleichsstudien zu untersuchen. 4.2 Empirischer Methodenvergleich 4.2.1 Literaturübersicht zu empirischen Vergleichsstudien Auf die Notwendigkeit empirischer Vergleichsstudien von CA und AHP wurde bereits im Jahr 1980 hingewiesen (vgl. Wind und Saaty (1980), S. 657). In der Zwischenzeit wurden zahlreiche empirische Vergleichsstudien durchgeführt, die zeigen konnten, dass CA und AHP zu formal ähnlichen Ergebnisse führen, obwohl sie bei der Ermittlung der Präferenzen nach völlig unterschiedlichen Prinzipien vorgehen. Die empirischen Vergleichsstudien zeigen, dass sich TCA und AHP zur Ermittlung von Präferenzen eignen, jedoch kann auf der Basis der bislang publizierten Studien nicht abgeleitet werden, welche der beiden Methoden zu besseren Ergebnissen führt. Für eine differenzierte Betrachtung schlagen Helm et al. (2004) eine Unterscheidung hinsichtlich der Komplexität der Bewertungsaufgabe24 und der Kenntnisse der Probanden bezüglich der Methoden der multiattributiven Präferenzmessung vor (vgl. Tabelle 6). Helm et al. zeigen, dass Vorkenntnisse der Probanden bezüglich der Methoden der multiattributiven Präferenzmessung und der Komplexitätsgrad der Bewertungsaufgabe in Form der Anzahl der zu bewertenden Eigenschaften die Prognosevalidität25 von CA und AHP beeinflussen können (vgl. Helm et al. (2004), S. 18f.). Weist die Bewertungsaufgabe einen geringen Komplexitätsgrad auf, so führt die TCA tendenziell zu besseren Ergebnissen, wohingegen der AHP bei komplexen Bewertungsaufgaben dominiert (vgl. Helm (2004), S. 19). 24 Die Komplexität der Bewertungsaufgabe bezieht sich auf die Anzahl der zu bewertenden Eigenschaften. Häufig wird von einer komplexen Bewertungsaufgabe gesprochen, wenn mehr als sechs Eigenschaften von den Probanden zu bewerten sind (vgl. Green und Srinivasan (1978), S. 108). 25 Zur Relevanz der prognostischen Validität siehe Green und Srinivasan (1978), S. 104. 36 Ja Kenntnisse der Pro- Komplexität der Bewertungsaufgabe Hoch Gering Mulye (1998): Zweite Studie Schoemaker und Waid (1982) AHP geringfügig besser als TCA TCA geringfügig besser als AHP Helm et al. (2003) AHP geringfügig besser als TCA banden in den Methoden der Nein Mulye (1998): Erste Studie TCA und AHP liefern ähnliche Ergebnisse Helm et al. (2004): Erste Studie TCA geringfügig besser als AHP Helm et al. (2004): Zweite Studie TCA bedeutend besser als AHP Tscheulin (1992) TCA geringfügig besser als AHP bei hypothetischen Produkten; attributiven TCA und AHP gleich gut bei realen PräferenzProdukten; AHP besser als TCA, wenn Bewermessung tungsaufgabe durch Probanden verstanden Tabelle 6: Zusammenfassung des empirischen Methodenvergleichs in Bezug auf die Prognosevalidität (Quelle: Eigene Darstellung nach Helm et al. (2004), S. 18) multi- Die TCA sollte demnach gewählt werden, wenn davon auszugehen ist, dass die Probanden keine Kenntnisse in den Methoden der Präferenzmessung besitzen und/oder die Bewertungsaufgabe aufgrund weniger zu bewertender Eigenschaften nur einen geringen Komplexitätsgrad aufweist. Im Gegensatz dazu sollte die Wahl auf den AHP fallen, wenn die Probanden mit den Methoden der Präferenzmessung, insbesondere mit der Vorgehensweise der Bewertung anhand der Neun-Punkte-Bewertungsskala beim AHP vertraut sind, und die Bewertungsaufgabe aufgrund einer Vielzahl zu bewertender Eigenschaften besonders komplex ist.26 Die Darstellung kann jedoch nur als erster Anhaltspunkt bei der Wahl zwischen beiden Methoden dienen. Dabei sollte beachtet werden, dass der negative Einfluss fehlender Methodenkenntnisse der Probanden beim AHP leicht überwunden werden kann, indem den Probanden vor Durchführung der Bewertung die Besonderheiten der Bewertungsaufgabe beim AHP erklärt werden. Im Gegensatz dazu kann der Nachteil der TCA hinsichtlich der prognostischen Validität bei komplexen Bewertungsaufgaben aufgrund der ganzheitlichen Bewertung der Stimuli nicht überwunden werden. 26 Die Bewertungsaufgabe des AHP ist mit einem erhöhten Erklärungsbedarf verbunden. Hat der Proband die Bewertungsaufgabe verstanden, so fällt der Paarvergleich beim AHP i. d. R. leichter als die ganzheitliche Bewertung bei der CA, was insbesondere in komplexen Bewertungssituationen zum Tragen kommt. 37 4.2.2 Kritik an den empirischen Vergleichsstudien Die Aussagekraft der bislang durchgeführten empirischen Studien ist beschränkt, da vorrangig Varianten von CA und AHP miteinander verglichen wurden, die sich auf vielfältige Weise ähnlich sind (vgl. Helm et al. (2003), S. 2; Tscheulin (1992), S. 74). So dominiert die TCA als Vertreterin des conjoint-analytischen Instrumentariums die empirischen Vergleichsstudien, wohingegen die weiter entwickelten Varianten, wie z. B. die CBCA oder die Adaptive CA bislang nur eine untergeordnete Rolle spielen. Im Vergleich zur Grundform einer Methode führt die weiterentwickelte Variante jedoch häufig zu besseren Ergebnissen, was bei den bislang durchgeführten empirischen Studien unberücksichtigt geblieben ist. 4.3 Theoretischer Methodenvergleich unter Verwendung des Kriterienkatalogs 4.3.1 Zur Bewertung von Conjoint Analyse und Analytic Hierarchy Process Der in Kapitel 2.3 aufgestellte Kriterienkatalog wird im Folgenden zur Bewertung der CA und des AHP hinsichtlich deren Eignung zur Gewichtung multipler patientenrelevanter Endpunkte im Rahmen des Effizienzgrenzenkonzepts des IQWiG angewendet, wobei die Argumentation in Bezug auf das conjoint-analytische Instrumentarium anhand der CBCA erfolgt. A.) Gesetzliche Vorgaben A.1.) Transparenz Die Erstellung der Choice Sets und die Wahl des Schätzverfahrens bei der CBCA stellen hohe Anforderungen an die Methodenkompetenz der beteiligten Akteure, um die Ermittlung der Teilnutzenwerte bei der CBCA nachvollziehen zu können. Im Gegensatz dazu stellt der AHP ein weniger anspruchsvolles Studiendesign dar. Die hierarchische Strukturierung des Entscheidungsproblems trägt zur Übersichtlichkeit und besseren Nachvollziehbarkeit der Präferenzermittlung bei und mit der Eigenwertmethode steht ein etabliertes Verfahren zur Ermittlung der Bedeutungsgewichte zur Verfügung. Hinsichtlich der Transparenz der Methode könnte argumentiert werden, dass die Endpunktgewichtung mittels AHP für Außenstehende transparenter erfolgen kann als mit der CBCA. 38 A.2.) International etabliertes Verfahren der Gesundheitsökonomie Wie in Kapitel 3.2.5 und 3.3.4 gezeigt werden konnte, wurden CBCA und AHP bereits auf zahlreiche medizinische und gesundheitsökonomische Fragestellungen angewendet und gelten als vielversprechende Methoden auf diesen Gebieten. Beide Methoden könnten daher konsistent zu den gesetzlichen Vorgaben als international etablierte Verfahren der Gesundheitsökonomie bezeichnet werden. B.) Anforderungen aus der IQWiG-Methodik B.1.) Approximative Kardinalität des aggregierten Nutzenmaßes Die Kardinalskalierung stellt eine grundlegende Anforderung an das Nutzenmaß im Rahmen des Effizienzgrenzenkonzepts des IQWiG dar. Grundsätzlich können die geschätzten Parameter der latenten Nutzenfunktion bei der CBCA aufgrund von Interdependenzen und unterschiedlichen Skalen, die der diskreten Auswahlentscheidung zu Grunde liegen, nicht direkt verglichen werden (vgl. Mühlbacher et al. (2009b), S. 75). Zusätzlich ist fraglich, ob die geschätzten Parameter der Eigenschaftsausprägungen als Bedeutungsgewichte der Eigenschaften bzw. der Endpunkte interpretiert werden können. Eine Kardinalskalierung der Teilnutzenwerte kann daher bei der CBCA nicht per se angenommen werden. Mühlbacher et al. gehen jedoch davon aus, dass die Kardinalskalierung der Nutzenmaße durch ein ‚optimales Studiendesign‘ sichergestellt werden kann, bei dem eine vergleichbare Skala die Interpretation der geschätzten Koeffizienten als relative Wichtigkeiten der Endpunkte ermöglicht (vgl. Mühlbacher et al. (2009b), S. 76). Im Gegensatz zur CBCA ist es mit Hilfe des AHP grundsätzlich möglich, verhältnisskalierte Bedeutungsgewichte zu ermitteln (vgl. Saaty (1990a), S. 25), die das IQWiG als kardinalskaliert akzeptiert (vgl. IQWiG (2009a), S. 17). B.2.) Flexibilität Aufgrund der ganzheitlichen Bewertung der Stimuli ist das Anwendungsgebiet der CBCA auf Indikationen mit einer geringen Anzahl patientenrelevanter Endpunkte beschränkt. Auf Basis der bislang vorliegenden empirischen Studien wird davon ausgegangen, dass maximal sechs zu bewertende Eigenschaften in das Studiendesgin aufgenommen werden können (vgl. Kapitel 4.2). Sollten in einem Indikationsgebiet mehr als sechs patientenrelevante Endpunkte identifiziert worden sein, so kann die CBCA in diesem Indikationsgebiet evtl. nicht zuverlässig zur Endpunktgewichtung angewendet werden. Ebenso stellt die CBCA hohe Anforderungen an ein ‚optimales Studiendesign‘, 39 um die Kardinalskalierung der Nutzenmaße sicherzustellen. Fraglich ist dabei, ob ein solches optimales Studiendesign der CBCA in allen Indikationsgebieten und unter Berücksichtigung aller patientenrelevanter Endpunkte erstellt werden kann. Im Gegensatz dazu ist es beim AHP möglich, eine Vielzahl von Endpunkten zu berücksichtigen, sodass der AHP auch bei Indikationen Anwendung finden kann, in denen mehr als sechs patientenrelevante Endpunkte identifiziert worden sind. Des Weiteren ist das Studiendesign des AHP weniger anspruchsvoll als das der CBCA, da die hierarchische Strukturierung des AHP flexibel an das jeweilige Entscheidungsproblem angepasst werden kann. Die Restriktion auf eine geringe Anzahl zu bewertender Endpunkte und die hohen Anforderungen an das Studiendesgin schränken das Anwendungsgebiet der CBCA ein. Es ist daher anzunehmen, dass der AHP im Rahmen der Endpunktgewichtung flexibler eingesetzt werden kann als die CBCA. B.3.) Möglichkeit zur Aggregation der Präferenzen In den Kapiteln 3.2.2 und 3.3.2 wurde dargelegt, dass sowohl die CBCA als auch der AHP die Ermittlung aggregierter Nutzenmaße ermöglichen. Folglich ist die Berücksichtigung der Präferenzen einer Vielzahl von Personen bei beiden Methoden grundsätzlich gewährleistet. C.). Allgemeine wissenschaftliche Anforderungen C.1.) Nutzentheoretische Fundierung Wie in Kapitel 3.2.3 gezeigt wurde, ist die CBCA nutzentheoretisch fundiert. Bei der dem AHP zugrunde liegenden Theorie handelt es sich um eine deskriptive Theorie, die von der normativen Nutzentheorie abzugrenzen ist (vgl. Saaty (1990b), S. 260). Der AHP lässt inkonsistente und intransitive Präferenzen zu und stellt daher weniger restriktive Annahmen an die Präferenzstruktur der Individuen als die CBCA. Aufgrund der mangelnden nutzentheoretischen Fundierung kann die Anwendung des AHP zur Endpunktgewichtung im Rahmen des Effizienzgrenzenkonzepts kritisch hinterfragt werden, da das aggregierte Nutzenmaß auf einem unklaren nutzentheoretischen Konstrukt ermittelt werden würde. C.2.) Erfüllung von Gütekriterien Mit den bislang publizierten empirischen Vergleichsstudien zwischen CA und AHP, die sich vorrangig auf den Vergleich von TCA und AHP bezogen haben, konnte gezeigt 40 werden, dass beide Verfahren zur Präferenzermittlung geeignet sind. Hinsichtlich der prognostischen Validität hat sich eine leichte Überlegenheit des AHP gezeigt, wenn die Bewertungsaufgabe komplex war und die Probanden über ausreichende Methodenkenntnisse verfügten (vgl. Kapitel 4.2.2). C.3.) Wirtschaftlichkeit und Praktikabilität Die CBCA stellt ein aufwendiges Studiendesign dar, bei der eine hinreichend große empirische Studie durchgeführt werden muss, um statistisch signifikante Koeffizienten zu schätzen. Im Gegensatz dazu genügt beim AHP fundiertes Wissen über den konventionellen AHP, da bereits mit dieser Methode verhältnisskalierte Bedeutungsgewichte ermittelt werden können. Die Durchführung des AHP im Rahmen der Endpunktgewichtung erscheint damit weniger aufwendig als die Erstellung eines ‚optimalen Designs‘ bei der CBCA wie von Mühlbacher et al. (2009b) beschrieben. Theoretisch könnte die Endpunktgewichtung mit Hilfe des AHP auch auf den Bewertungen einer einzigen Person basieren, sodass beim AHP nicht zwangsläufig eine umfangreiche Studie durchgeführt werden muss.27 Hinsichtlich der Erstellung des Studiendesigns ist daher damit zu rechnen, dass die Durchführung der CBCA aufwendiger ist als die des AHP. C.4.) Vollständigkeit der Bewertung Bei der Ermittlung eines aggregierten Nutzenmaßes muss gewährleistet sein, dass alle patientenrelevanten Endpunkte in den Gewichtungsprozess integriert werden können, um Verzerrungen der Ergebnisse aufgrund der Nichtberücksichtigung relevanter Aspekte zu vermeiden. Wie bereits erwähnt, kann die Zuverlässigkeit der Ergebnisse der CA bei komplexen Bewertungsaufgaben mit einer Vielzahl zu bewertender Eigenschaften nicht sichergestellt werden. Im Gegensatz dazu eignet sich der AHP besser als die CA bei komplexen Bewertungsaufgaben, die sich durch eine Vielzahl zu bewertender Eigenschaften auszeichnen. Durch die hierarchische Strukturierung können zahlreiche patientenrelevante Endpunkte bei der Gewichtung berücksichtigt werden, sodass eine Verzerrung der Ergebnisse durch die Nichtberücksichtigung patientenrelevanter Aspekte aufgrund der Limitationen der Methode reduziert werden kann. 27 Die Ermittlung eines aggregierten Nutzenmaßes auf der Basis der Präferenzstruktur weniger betroffener Personen muss jedoch kritisch hinterfragt werden aufgrund der möglicherweise fehlenden Repräsentativität für die Gesamtpopulation. 41 4.3.2 Zusammenfassende Darstellung des theoretischen Methodenvergleichs unter Verwendung des Kriterienkatalogs Die Ergebnisse des methodischen Vergleichs von CBCA und AHP unter Verwendung der im zweiten Kapitel beschriebenen Kriterien werden in Tabelle 7 zusammengefasst. Dabei zeigt sich ein differenziertes Bild zur Verwertbarkeit beider Methoden im Rahmen der Methodik des IQWiG. Während in einigen Kategorien beide Verfahren die Anforderungen erfüllen, unterscheiden sie sich in anderen grundlegend. So gelten beide Methoden als international etablierte Verfahren der Gesundheitsökonomie und bieten dem Entscheidungsträger die Möglichkeit, die Präferenzen einer Vielzahl von Personen bei der Endpunktgewichtung zu berücksichtigen. Auf der anderen Seite zeigen sich bedeutende Unterschiede vor allem bei der Ermittlung des approximativ kardinalskalierten Nutzenmaßes und der nutzentheoretischen Fundierung. Kriterium CBCA AHP A.1.) Transparenz A.2.) International etabliertes Verfahren der Gesundheitsökonomie B.1.) Approximative Kardinalität des aggregierten Nutzenmaßes B.2.) Flexibilität B.3.) Möglichkeit zur Aggregation der Präferenzen C.1.) Nutzentheoretische Fundierung C.2.) Erfüllung von Gütekriterien C.3.) Wirtschaftlichkeit und Praktikabilität C.4.) Vollständigkeit der Bewertung +++ +++ +++ + - + +++ + + +++ --++ + + Erläuterung: + Kriterium erfüllt (+ + + = starker Hinweis, + = schwacher Hinweis) - Kriterium nicht erfüllt (- - - = starker Hinweis, - = schwacher Hinweis) Tabelle 7: Zusammenfassung des Methodenvergleichs unter Verwendung des Kriterienkatalogs (Quelle: Eigene Darstellung) Hinsichtlich der Entscheidung zwischen beiden Methoden kann auf der Basis der Bewertungen anhand des Kriterienkatalogs gezeigt werden, dass der Entscheidungsträger zwischen der Erfüllung theoretischer und praktischer Kriterien abzuwägen hat. Zwar stellt die CBCA aufgrund ihrer nutzentheoretischen Fundierung ein aus theoretischer Sicht besonders gut geeignetes Verfahren zur Endpunktgewichtung dar, jedoch ist der Anwendungsbereich der Methode aufgrund der nicht gesicherten Kardinalität des Nutzenmaßes, des aufwendigen Studiendesigns und der geringen Anzahl möglicher zu bewertender Endpunkte begrenzt. Mit dem AHP steht im Gegensatz dazu eine besonders praktikable und flexibel einsetzbare Methode zur Verfügung, mit deren Hilfe approximativ kardinalskalierte Nutzenmaße ermittelt werden können und die auch bei komplexen Bewertungsproblemen mit einer Vielzahl zu bewertender Eigenschaften 42 zuverlässige Ergebnisse liefert. Jedoch stellt die unzureichende nutzentheoretische Fundierung des AHP eine bedeutende Schwachstelle dar und bedarf daher einer kritischen Würdigung. Eine Empfehlung, welche der beiden Methoden zur Gewichtung der Endpunkte Anwendung finden sollte, kann auf der Basis des Kriterienkatalogs nicht abschließend abgeleitet werden, da bislang unklar ist, welche Kriterien aus Sicht des IQWiG bzw. des Entscheidungsträgers relevant sind. Sollte die nutzentheoretische Fundierung der Methode bei der Endpunktgewichtung eine entscheidende Rolle spielen, so kann eine Empfehlung hinsichtlich der Verwendung der CBCA abgeleitet werden. Steht dagegen die Praktikabilität und weitreichende Anwendbarkeit der Methode im Vordergrund, so wäre die Anwendung des AHP zu empfehlen. 4.3.3 Limitationen der Bewertung anhand des Kriterienkatalogs Die in Kapitel 4.3.1 vorgenommene Bewertung von CA und AHP hinsichtlich ihrer Eignung zur Gewichtung multipler patientenrelevanter Endpunkte anhand des aufgestellten Kriterienkatalogs ist aus folgenden Gründen limitiert. Erstens wurden die verwendeten Kriterien nicht vom Entscheidungsträger verifiziert, sodass unklar ist, ob die ausgewählten Kriterien für die Wahl der Methode zur Endpunktgewichtung relevant sind. Zweitens war es nicht möglich, die Kriterien nach ihrer relativen Bedeutung für den Entscheidungsträger zu gewichten. Aus diesem Grund kann auf Basis des Kriterienkatalogs keine endgültige Empfehlung hinsichtlich der Wahl zwischen CA und AHP abgegeben werden. Drittens sind für einige Kriterien lediglich Tendenzaussagen möglich, wie z. B. für die Transparenz, die Flexibilität, die Wirtschaftlichkeit und Praktikabilität. So könnte man die vorgenommen Bewertungen kritisch diskutieren, z. B. ob die Durchführung des AHP in jedem Fall ressourcenschonender sei als die der CBCA. Zuletzt muss bedacht werden, dass die Kriterien zum Teil nicht überschneidungsfrei definiert wurden. So basiert die negative Bewertung der CBCA anhand des Kriteriums der Vollständigkeit der Bewertung auf der Vermutung, dass diese eine vergleichsweise schlechte prognostische Validität bei komplexen Bewertungsaufgaben aufweist und daher nicht alle patientenrelevanten Endpunkte berücksichtigt werden können. Dieser Aspekt wurde jedoch zum Teil bereits bei der Bewertung anhand der Gütekriterien berücksichtigt, sodass es hier aufgrund der nicht überschneidungsfreien 43 Definition der Kriterien zu einer überproportional negativen Bewertung der CBCA hinsichtlich der Eignung zur Endpunktgewichtung gekommen ist. 5 Zusammenfassung und Fazit Mit der Bewertung beider Methoden anhand eines Kriterienkatalogs konnte gezeigt werden, dass weder CA noch AHP alle Anforderungen erfüllen, die an eine Methode zur Endpunktgewichtung im Rahmen des Effizienzgrenzenkonzepts unter Berücksichtigung der gesetzlichen Vorgaben, der IQWiG-Methodik und der allgemeinen Anforderungen an wissenschaftliches Vorgehen zu stellen sind. Dabei ist deutlich geworden, dass die Entscheidung zwischen beiden Methoden ein Abwägen zwischen der Erfüllung theoretischer und praktischer Anforderungen notwendig macht. Stellt die CBCA aufgrund der nutzentheoretischen Fundierung das aus wissenschaftlich-theoretischer Sicht anzuwendende Verfahren dar, so bietet der AHP unter Praktikabilitätsaspekten entscheidende Vorteile. Jedoch muss bei der CBCA noch dargelegt werden, wie die Ermittlung kardinalskalierter Nutzenmaße sichergestellt werden kann. Im Gegensatz dazu bedarf es beim AHP noch einer fundierten wissenschaftlichen Begründung, um die Ermittlung aggregierter Nutzenmaße auf Basis eines unklaren nutzentheoretischen Konstrukts zu rechtfertigen. Solange nicht geklärt ist, wie multiple patientenrelevante Endpunkte gewichtet und zu einem kardinalskalierten Nutzenmaß aggregiert werden können, muss die Eignung des vom IQWiG vorgeschlagenen Effizienzgrenzenkonzepts zur Ermittlung eines eindeutigen und angemessenen Erstattungshöchstbetrages für Arzneimittel in Frage gestellt werden. Da die Relevanz einzelner Kriterien aus Sicht des Entscheidungsträgers jedoch nicht bekannt ist, kann auf Basis der Bewertung anhand des verwendeten Kriterienkatalogs keine eindeutige Empfehlung hinsichtlich der Entscheidung zwischen beiden Methoden abgeleitet werden. Zusätzlich bleibt abzuwarten, zu welchen Ergebnissen die vom IQWiG in Auftrag gegebenen Pilotstudien kommen und welche Schlussfolgerungen daraus für die Wahl zwischen CA und AHP gezogen werden können. Schließlich bedarf die endgültige Bewertung der Eignung beider Verfahren zur Gewichtung multipler patientenrelevanter Endpunkte der Durchführung empirischer Vergleichsstudien, die beide Methoden gezielt im Hinblick auf die Fragestellung der Verwertbarkeit zur Endpunktgewichtung im Rahmen der IQWiG-Methodik überprüfen. Dies sollte vorzugswei44 se innerhalb einer Indikation durchgeführt werden, um die Vergleichbarkeit der Ergebnisse beider Ansätze zu gewährleisten. In den bislang durchgeführten Pilotstudien wurde die Chance versäumt, beide Methoden innerhalb einer Indikation zu vergleichen und Aussagen zu den Gütekriterien abzuleiten. Bis diese Forschungsfrage abschließend geklärt werden kann, bedarf es weiterer umfangreicher empirischer Studien, die beide Ansätze hinsichtlich ihrer Verwertbarkeit für die Endpunktgewichtung im Rahmen des Effizienzgrenzenkonzepts untersuchen. 45 Erläuterung zu potentiellen Interessenskonflikten im Sinne der Uniform Requirements for Manuscripts Submitted to Biomedical Journals des International Committee of Medical Journal Editors: Im Sinne der Uniform Requirements for Manuscripts Submitted to Biomedical Journals besteht ein Interessenskonflikt dann, wenn ein Autor finanzielle oder persönliche Beziehungen hat, die dazu geeignet sind, die Inhalte des eingereichten Manuskripts zu beeinflussen. Dies können finanzielle Verbindungen sein wie zum Beispiel Beschäftigungsverhältnisse. Auch wenn kein potentieller Interessenskonflikt besteht, so ist dies anzugeben. Hiermit erklären die Autoren, dass folgende finanzielle Verbindung besteht: TW und KN sind Beschäftigte der Novartis Pharma GmbH, Nürnberg. 46 Literaturverzeichnis Backhaus, K., Erichson, B., Plinke, W. und Weiber, R. (2006), Multivariate Analysemethoden, Eine anwendungsorientierte Einführung, 11. Aufl., Springer-Verlag, Berlin u.a. Baier, D. und Brusch, M. (2009), Erfassung von Kundenpräferenzen für Produkte und Dienstleistungen, in: Baier, D. und Brusch, M. (Hrsg.), Conjointanalyse, Methoden – Anwendungen – Praxisbeispiele, Springer-Verlag, Berlin u. a., S. 3-17. Becker, K. (2006), Flexibilisierungsmöglichkeiten in der Krankenversicherung, Kovač, Hamburg. Bekker-Grob, E. W. de, Ryan, M. und Gerard, K. (2012), Discrete choice experiments in health economics: a review of the literature, in: Health Economics, 21(1), S. 145– 172. Böhler, H. und Scigliano, D. (2009), Traditionelle Conjointanalyse, in: Baier, D. und Brusch, M. (Hrsg.), Conjointanalyse, Methoden – Anwendungen – Praxisbeispiele, Springer-Verlag, Berlin u. a., S. 101-112. Breyer, F., Zweifel, P. und Kifmann, M. (2005), Gesundheitsökonomik, 5., überarb. Aufl., Springer-Verlag, Berlin u. a. Büschken, J. (1994), Conjoint Analyse, in: Tomczak, T. und Reinecke, S. (Hrsg.), Marktforschung, St. Gallen, S. 72-89. Carroll, J. D. und Green, P. E. (1995), Psychometric methods in marketing research: Part I, Conjoint analysis, A guest editorial for the Journal of Marketing Research, in: Journal of Marketing Research, 32(4), S. 385-391. Dolan, J. G., Isselhardt, B. J. und Cappuccio, J. D. (1989), The analytic hierarchy process in medical decision making, in: Medical Decision Making, 9(1), S. 40-50. Dyer, J. S. und Wendell, R. E. (1985), A critique of the analytic hierarchy process, Working Paper 84/85-4-24, Department of Management, Graduate School of Business at the University of Texas at Austin. Dyer, J. S. (1990a), Remarks on the analytic hierarchy process, in: Management Science, 36(3), S. 249-258. Dyer, J. S. (1990b), A clarification of “remarks on the analytic hierarchy process”, in: Management Science, 36(3), S. 274-275. Gensler, S. (2006), Ermittlung von Präferenzen für Produkteigenschaften mit Hilfe der Choice-Based Conjoint Analyse (Teil 1), in: Wirtschaftswissenschaftliches Studium, 35(5), S. 254-258. 47 Gerber, H.-J. (1996), Analytischer Hierarchieprozess (AHP), in: Schulte, C. (Hrsg.), Lexikon des Controlling, Oldenbourg Verlag, München u. a., S. 28-31. Green, P. E. und Rao, V. R. (1971), Conjoint measurement for quantifying judgmental data, in: Journal of Marketing Research, 8(3), S. 335-363. Green, P. E. und Wind, Y. (1975), New way to measure consumers’ judgments, in: Havard Business Review, 53(4), S. 107-117. Green, P. E. und Srinivasan, V. (1978), Conjoint analysis in consumer research: Issues and outlook, in: The Journal of Consumer Research, 5(2), S. 103-123. Green, P. E. und Srinivasan, V. (1990), Conjoint analysis in marketing: New developments with implications for research and practice, in: Journal of Marketing, 54(4), S. 3-19. Green, P. E., Krieger, A. M. und Wind, Y. (2001), Thirty years of conjoint analysis, Reflections and prospects, in: Interfaces, 31(3), S. 56-73. Guttmann, R., Castle, R. und Fiebig, D. G. (2009), Use of Discrete Choice Experiments in health economics:, An update of the literature, CHERE Working Paper, Nr. 2009/2, University of Technology Sydney, Sydney. Haedrich, G., Kuß, A. und Kreilkamp, E. (1986), Der Analytic Hierarchy Process, Ein neues Hilfsmittel zur Analyse und Entwicklung von Unternehmens- und Marketingstrategien, in: Wirtschaftswissenschaftliches Studium, 3(3), S. 120-126. Hanne, T. (2001), Intelligent strategies for meta multiple criteria decision making, Dissertation, Kluwer Academic Publishers, Boston u. a. Helm, R., Manthey, L., Scholl, A. und Steiner, M. (2003), Empirical evaluation of preference elicitation techniques from marketing and decision analysis, Jenaer Schriften zur Wirtschaftswissenschaft, Heft 2/2003. Helm, R., Steiner, M., Scholl, A. und Manthey, L. (2004), A comparative empirical study on common methods for measuring preferences, Jenaer Schriften zur Wirtschaftswissenschaft, Heft 20/2004. Helm, R., Steiner, M., Scholl, A. und Manthey, L. (2008), A comparative empirical study on common methods for measuring preferences, in: International Journal of Management and Decision Making, 9(3), S. 242-265. Himme, A. (2009a), Conjoint-Analysen, in: Albers, S., Klapper, D., Konradt, U., Walter, A. und Wolf, J. (Hrsg.), Methodik der empirischen Forschung, 3. Aufl., Gabler Verlag, Wiesbaden, S. 283-298. 48 Himme, A. (2009b), Gütekriterien der Messung: Reliabilität, Validität und Generalisierbarkeit, in: Albers, S., Klapper, D., Konradt, U., Walter, A. und Wolf, J. (Hrsg.), Methodik der empirischen Forschung, 3. Aufl., Gabler Verlag, Wiesbaden, S. 485500. Hipp, W. M. (2009), Stellungnahme der saproma Healthcare Consulting & Management GbR, in: IQWiG – Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (Hrsg.), Dokumentation der Stellungnahmen zum „Entwurf einer Methodik für die Bewertung von Verhältnissen zwischen Nutzen und Kosten im System der deutschen gesetzlichen Krankenversicherung Version 2.0“, Version 1.0 vom 12.10.2009, S. 97-109. Ijzerman, M. J., van Til, J. A. und Snoek, G. J. (2008), Comparison of two multi-criteria decision techniques for eliciting treatment preferences in people with neurological disorders, in: The Patient, 1(4), S. 265-272. IQWiG – Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (Hrsg.) (2008), Würdigung der Stellungnahmen zur „Methodik für die Bewertung von Verhältnissen zwischen Nutzen und Kosten im System der deutschen gesetzlichen Krankenversicherung Version 1.0“ vom 09.10.2008. IQWiG – Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (Hrsg.) (2009a), Allgemeine Methoden zur Bewertung von Verhältnissen zwischen Nutzen und Kosten, Version 1.0 vom 12.10.2009. IQWiG – Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (Hrsg.) (2009b), Würdigung der Stellungnahmen zum „Entwurf einer Methodik für die Bewertung von Verhältnissen zwischen Nutzen und Kosten im System der deutschen gesetzlichen Krankenversicherung Version 2.0, Version 1.0 vom 12.10.2009. IQWiG – Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (Hrsg.) (2011), Allgemeine Methoden, Version 4.0 vom 23.09.2009. John, J. (2009), Neue Wege in der Kosten-Nutzen-Bewertung in der Medizin?, Anmerkungen zum Methodenvorschlag des Instituts für Qualität und Wirtschaftlichkeit im Gesundheitswesen, in: Wissenschaftsforum in Gesundheit und Gesellschaft, 9(1), S. 7-14. Liberatore, M. J. und Nydick, R. L. (2008), The analytic hierarchy process in medical and health care decision making: A literature review, in: European Journal of Operational Research, 189(1), S. 194-207. Luce, R. D. und Tukey, J. W. (1964), Simultaneous conjoint measurement: A new type of fundamental measurement, in: Journal of Mathematical Psychology, 1(1), S. 127. 49 Mazur, D., Schug, B., Elze, M., Blume, H. (2003), Planung, Durchführung und Auswertung klinischer Studien, in: Jaehde, U., Radziwill, R., Mühlebach, S. und Schunack, W. (Hrsg.), Lehrbuch der klinischen Pharmazie, 2. Aufl., Wissenschaftliche Verlagsgesellschaft mbH, Stuttgart, S. 141-163. McFadden, D. (1974), Conditional logit analysis of qualitative choice behavior, in: Zarembka, P. (Hrsg.), Frontiers in Econometrics, Academic Press, New York, S. 105142. Meixner, O. und Haas, R. (2009), Wissensmanagement und Entscheidungsunterstützung, 2. Aufl., Wien. Mühlbacher, A. C., Bethge, S. und Tockhorn, A. (2009a), Entscheidungen auf Basis von Effizienzgrenzen: Berücksichtigung von Patientenpräferenzen, in: Public Health Forum, 17(3), S. 1-3. Mühlbacher, A. C., Bethge, S. und Tockhorn, A. (2009b), Stellungnahme zum IQWiGMethodenvorschlag, in: IQWiG – Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (Hrsg.), Dokumentation der Stellungnahmen zum „Entwurf einer Methodik für die Bewertung von Verhältnissen zwischen Nutzen und Kosten im System der deutschen gesetzlichen Krankenversicherung Version 2.0“, Version 1.0 vom 12.10.2009, S. 62-79. Mühlhauser, I. und Müller, H. (2009), Patientenrelevante Endpunkte und patientreported outcomes in klinischer Forschung und medizinischer Praxis, in: Klusen, N., Fließgarten, A. und Nebling, T. (Hrsg.), Informiert und selbstbestimmt, Der mündige Bürger als mündiger Patient, Beiträge zum Gesundheitsmanagement, Bd. 24, Nomos Verlag, Baden-Baden, S. 34-65. Mulye, R. (1998), An empirical comparison of three variants of the AHP and two variants of conjoint analysis, in: Journal of Behavioral Decision Making, 11(4), S. 263280. Nauck, A. (1983), Der Analytic Hierarchy Process, Ein Entscheidungshilfsmittel für die Praxis, Theoretische Grundlagen, Anwendungsmöglichkeiten und Computerprogramm, Freie wissenschaftliche Arbeit zur Erlangung des Grades eines Diplomkaufmanns. Oberender, P. O., Ecker, T. und Zerth, J. (2005), Grundelemente der Gesundheitsökonomie, 2. Aufl., Verlag P.C.O., Bayreuth. Orme, B. K. (2006), Getting started with conjoint analysis: Strategies for product design and pricing research, Research Publishers LLC, Madison. Ryan, M. und Gerard, K. (2003), Using discrete choice experiments to value health programmes: current practice and future research reflections, in: Applied Health Economics and Health Policy, 2(1), S. 55–64. 50 Ryan, M. (2004), Discrete choice experiments in health care: NICE should consider using them for patient centred evaluations of technologies, in: British Medical Journal, 328(7436), S. 360-361. Saaty, T. L. (1977), A scaling method for priorities in hierarchical structures, in: Journal of Mathematical Psychology, 15(3), S. 234-281. Saaty, T. L. (1980), The Analytic Hierarchy Process, Planning, Priority Setting, Resource Allocation, McGraw-Hill International Book Company, New York u. a. Saaty, T. L. (1990a), How to make a decision: The analytic hierarchy process, in: European Journal of Operational Research, 48(1), S. 9-26. Saaty, T. L. (1990b), An exposition of the AHP in reply to the paper “Remarks on the analytic hierarchy process”, in: Management Science, 36(3), S. 259-268. Saaty, T. L. (1990c), Eigenvector and logarithmic least squares, in: European Journal of Operational Research, 48(1), S. 156-160. Saaty, T. L. (1994), Fundamentals of decision making and priority theory with the analytic hierarchy process, Analytic Hierarchy Process Series, Bd. 6, RWS Publications, Pittsburgh. Saaty, T. L. und Vargas, L. G. (2001), Models, methods, concepts & applications of the analytic hierarchy process, International series in operations research & management science, Bd. 34, Kluwer Academic Publishers, Boston u. a. Saaty, T. L. (2008), Decision making with the analytic hierarchy process, in: International Journal of Services Sciences, 1(1), S. 83-98. Sattler, H. (2006), Methoden zur Messung von Präferenzen für Innovationen, in: Zeitschrift für betriebswirtschaftliche Forschung, Sonderheft 54, S. 154-176. Sawicki, P. T. (2006), Patientenrelevante Endpunkte – Stand der Diskussion im Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), in: Deutsche Medizinische Wochenschrift, 131(1), S. 16-20. Scheibler, F., Finger, R. P., Großelfinger, R. und Dintsios, C.-M. (2010), Patientenberichtete und patientengewichtete Endpunkte in der Augenheilkunde, in: Der Ophthalmologe, 107(3), S. 235-240. Schoemaker, P. J. H. und Waid, C. C. (1982), An experimental comparison of different approaches to determining weights in additive utility models, in: Management Science, 28(2), S. 182-196. Schöffski, O. (2008), Lebensqualität als Ergebnisparameter in gesundheitsökonomischen Studien, in: Schöffski, O. und Schulenburg, J.-M. Graf v. d. (Hrsg.), Gesundheitsökonomische Evaluationen, 3. Aufl., Springer-Verlag, Berlin u. a., S. 321-334. 51 Scholl, A., Manthey, L., Helm, R. und Steiner, M. (2005), Solving multiattribute design problems with analytic hierarchy process and conjoint analysis: An empirical comparison, in: European Journal of Operational Research, 164(3), S. 760-777. Skiera, B. und Gensler, S. (2002a), Berechnung von Nutzenfunktionen und Marktsimulationen mit Hilfe der Conjoint-Analyse (Teil 1), in: Wirtschaftswissenschaftliches Studium, 31(4), S. 200-206. Skiera, B. und Gensler, S. (2002b), Berechnung von Nutzenfunktionen und Marktsimulationen mit Hilfe der Conjoint-Analyse (Teil 2), in: Wirtschaftswissenschaftliches Studium, 31(5), S. 258-263. Teichert, T., Sattler, H. und Völckner, F. (2008), Traditionelle Verfahren der ConjointAnalyse, in: Herrmann, A., Homburg, C. und Klarmann, M. (Hrsg.), Handbuch Marktforschung, 3. Aufl., Gabler Verlag, Wiesbaden, S. 651-685. Telser, H. (2002), Nutzenmessung im Gesundheitswesen: Die Methode der DiscreteChoice-Experimente, Verlag Dr. Kovac, Hamburg. Train, K. E. (2009), Discrete choice methods with simulation, Cambridge Univ. Press, Cambridge. Tscheulin, D. K. (1992), Optimale Produktgestaltung, Erfolgsprognose mit Analytic Hierarchy Process und Conjoint-Analyse, Neue betriebswirtschaftliche Forschung, Bd. 94, Gabler Verlag, Wiesbaden. Tscheulin, D. K. (2000), Analytic Hierarchy Process, in: Herrmann, A. und Homburg, C. (Hrsg.), Marktforschung, Methoden – Anwendungen – Praxisbeispiele, 2. Aufl., Gabler Verlag, Wiesbaden, S. 579-606. Von Nitzsch, R. (1993), Analytic Hierarchy Process und Multiattributive Werttheorie im Vergleich, in: Wirtschaftswissenschaftliches Studium, 22(3), S. 111-116. Wagener, M. (1983), Kardinalität in der Nutzentheorie, in: Mathematical systems in economics, Bd. 81, Verlagsgruppe Athenäum/Hain/Hanstein, Königstein. Weiber, R. und Rosendahl, T. (1997), Anwendungsprobleme der Conjoint-Analyse, in: Marketing Zeitschrift für Forschung und Praxis, 19(2), S. 107-118. Weiber, R. und Mühlhaus, D. (2009), Auswahl von Eigenschaften und Ausprägungen bei der Conjointanalyse, in: Baier, D. und Brusch, M. (Hrsg.), Conjointanalyse, Methoden – Anwendungen – Praxisbeispiele, Springer-Verlag, Berlin u. a., S. 43-58. Wind, Y. und Saaty, T. L. (1980), Marketing applications of the analytic hierarchy process, in: Management Science, 26(7), S. 641-658. Zahedi, F. (1986), The analytic hierarchy process – A survey of the method and its applications, in: Interfaces, 16(4), S. 96-108. 52 Universität Bayreuth Rechts- und Wirtschaftswissenschaftliche Fakultät Wirtschaftswissenschaftliche Diskussionspapiere Zuletzt erschienene Papiere:* 01-12 Herz, Bernhard Hohberger, Stefan Fiscal Policy, Monetary Regimes and Current Account Dynamics 07-11 Hild, Alexandra Herz, Bernhard Bauer, Christian Structured Eurobonds 06-11 Reinhard Kunz, Herbert Woratschek, James Santomier Sport Media Content on Mobile Devices: Identification and Analysis of Motivational Demand Factors 05-11 Schneider, Udo Ulrich, Volker Voting on Redistribution 04-11 Drescher, Christian Reviewing Excess Liquidity Measures. A Comparison for Asset Markets 03-11 Pfarr, Christian Ulrich, Volker Discrete-Choice-Experimente zur Ermittlung der Präferenzen für Umverteilung 02-11 Pfarr, Christian Schmid, Andreas Schneider, Udo Reporting Heterogeneity in Self-Assessed Health among Elderly Europeans: The Impact of Mental and Physical Health Status 01-11 Pfarr, Christian Schneider, Udo Choosing between subsidized or unsubsidized private pension schemes: a random parameters bivariate probit analysis 09-10 Kunz, Reinhard Woratschek, Herbert Strelow, Marcel Future Opportunities and Threats in a Fragmented Sport Media World - Trends and Strategic Implications for Sport Media Enterprises 08-10 Drescher, Christian Herz, Bernhard Measuring Monetary Conditions in US Asset Markets. A Market Specific Approach 07-10 Woratschek, Herbert Popp, Bastian Branded Communities as an Alternative Branding Concept to Brand communities: The Case of a German Football Community 06-10 Woratschek, Herbert Horbel, Chris Popp, Bastian Extending the Service-Profit Chain: The Role of Identification and Co-Creation 05-10 Pfarr, Christian Schneider, Brit S. Schneider, Udo Ulrich, Volker I feel good! Gender differences and reporting heterogeneity in * self-assessed health Weitere Diskussionspapiere finden Sie unter http://www.fiwi.uni-bayreuth.de/de/research/Working_Paper_Series/index.html