„Data Mining im SAP® Business Intelligence 7.0“
Transcrição
„Data Mining im SAP® Business Intelligence 7.0“
1 Einleitung Diplomarbeit Thema: ® „Data Mining im SAP Business Intelligence 7.0“ An der Fachhochschule Dortmund im Fachbereich Informatik erstellte Diplomarbeit im Studiengang Wirtschaftsinformatik zur Erlangung des Grades Diplom-Informatiker (FH) von Dennis Halboth geboren am 13.12.1981 (Matr.-Nr.: 7064539) Betreuung: Prof. Dr. Engels Dortmund, 15.03.2009 -1- Markenrechtlicher Hinweis Markenrechtlicher Hinweis Die in dieser Arbeit wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenzeichen usw. können auch ohne besondere Kennzeichnung geschützte Marken sein und als solche den gesetzlichen Bestimmungen unterliegen. Sämtliche in dieser Arbeit abgedruckten Bildschirmabzüge unterliegen dem Urheberrecht © des jeweiligen Herstellers. SAP, R/3, mySAP ERP, ABAP, BAPI, SAP Business Warehouse (BW), SAP Customer Relationship Management (CRM), SAP Netweaver, SAP Business Intelligence (BI) und ABAP sind Marken oder eingetragene Marken der SAP AG, Deutschland. Microsoft, Microsoft Windows, Microsoft Office, Visio, Word, Excel sind Marken oder eingetragene Marken der Microsoft Corp., USA. -2- Kurzfassung Kurzfassung Die vorliegende Diplomarbeit befasst sich mit dem Data Mining im SAP Business Intelligence 7.0 (SAP BI 7.0) sowie den Funktionen und möglichen Einsatzgebieten in der Versorgerindustrie. Vorausgegangen ist die Projektarbeit über den Analyse-ProzessDesigner (APD), in der dieses, auch für das Data Mining benötigte Tool ausführlich in seinen Möglichkeiten beschrieben wurde. Es wird erläutert, warum Data Mining bei den stetig steigenden Datenmengen immer bedeutender für den Erfolg von Unternehmen und zur Schaffung von Wettbewerbsvorteilen wird und warum diese Technologie bereits umfassend in vielen Unternehmen für strategische und operative Entscheidungen eingesetzt wird. Ingesamt wird deutlich, dass die Data-Mining-Lösung im SAP BI 7.0 einen guten Reifegrad erreicht hat. Die wichtigsten und bekanntesten Verfahren wurden stabil und sinnvoll implementiert und können durch die einfache und intuitive Bedienung schnell eingesetzt werden. Die nahtlose Integration in das Business Warehouse (BW) erlaubt nicht nur den Zugriff auf das zentrale Metadata-Respository, sondern auch auf alle Datenquellen- und Datenziele des BW. So ist das Data Mining sofort und ohne zusätzliche Anschaffungskosten einsatzbereit. Dennoch gibt es weiteres Verbesserungspotential. So müssen einige „Kinderkrankheiten“, je nach Patchlevel des Systems, mit Hilfe von Hinweisen behoben werden. Andernfalls werden ggf. Diagramme nicht korrekt angezeigt oder es kommt in spezifischen Situationen zu Programmabbrüchen. Die nicht lineare Regression arbeitet im Gegensatz zu den anderen implementieren Data-Mining-Verfahren äußerst instabil, so dass der Einsatz nach aktuellem Stand nicht zu empfehlen ist. Zusätzliche Erweiterungen und Verbesserungen sind im Bereich der Ergebnisdarstellung möglich, wenngleich sie in der aktuellen Form durchaus als ausreichend angesehen werden kann. Es wird gezeigt, dass Data Mining keine Geheimwissenschaft mehr ist. Dennoch basiert der erfolgreiche Einsatz des Data Mining nicht nur auf verschiedenen Voraussetzungen bezüglich Datenmanagement und Datenqualität, sondern auch auf Detailwissen im Hinblick auf die Konfiguration der Modelle sowie Know-How und Domänenwissen zur Beurteilung der Güte der erzielten Ergebnisse. Außerdem wird klar, dass Prozessmodelle äußerst hilfreiche Instrumente für die schrittweise und gezielte Durchführung von Data-MiningAnwendungen sind, um effektiv zu brauchbaren, interessanten und neuen Erkenntnissen zu gelangen. Die Einsatzgebiete des Data Mining sind vielfältig. Viele der beispielhaft beschriebenen Einsatzszenarien lassen sich mit unterschiedlichen Methoden und Konfigurationen durchführen. Oftmals ist der Einsatz mehrerer Data-Mining-Verfahren innerhalb eines Analyseprozesses nötig, um die gewünschten Ergebnisse erzielen zu können. Anhand einer exemplarischen Fallstudie mit realen Daten erfolgt die Durchführung einer Data-Mining-Anwendung unter Berücksichtigung eines ausgewählten Prozessmodells. -3- Abstract Abstract The present thesis deals with Data Mining in SAP Business Intelligence 7.0 (SAP BI 7.0) supplemented with the functions and the application areas in the utilities industry. The preceded project work was based on the Analyse-Process-Designer (APD). This tool, which is also required for Data Mining, was described and its possibilities were characterised. This work explains why Data Mining is (in the ever-increasing volume of data) very important for the success of companies and for creating competitive advantages, and why this technology already had and is being contributed in many companies for strategic and operational decisions. Overall it will be made clear that the Data Mining solution in SAP BI 7.0 has reached a good degree of maturity and stability. The most important and well-known techniques were stable and meaningful implemented and can be used quickly by the simple and intuitive handling. The seamless full integration into the Business Warehouse (BW) not only allows the access to the central Metadata Repository, but also to all data sources and data targets of the BW. Thus the Data Mining can be used immediately and without any additional costs of purchase. However, there is potential for further improvement. Thus some “teething problems”, depending on the patch level of the system, can occur. If the system is not patched, maybe diagrams are not properly displayed or in specific situations programs are terminating. The non-linear regression works (in contrast to the other implemented Data Mining processes) extremely unstable, so that the use is currently not recommended. Other possible extensions and improvements are possible in the field of results presentation, although this can be considered to be sufficient in the current form. It is shown that Data Mining is no more a secret science. However, the successful deployment of Data Mining not only bases on different requirements relative to data management and data quality, but also detailed knowledge regarding to the configuration of the models and know-how and even domain knowledge to assess the quality of the results achieved. It is also made clear that process models are an useful instrument for the gradual and targeted implementation of data mining applications to arrive at new, useful and interesting conclusions and insights. The application areas of data mining are manifold. Many of the examples describing the implementation scenarios can be performed with different Data Mining methods and configurations. Often the use of multiple Data Mining procedures in an analysis process is needed to achieve the desired results. Based on an exemplary case study with real data, the implementation of a Data Mining application is done, regarding to a selected process model. -4- Inhaltsverzeichnis Inhaltsverzeichnis 1 1.1 Einleitung .................................................................... 8 Beschreibung der Thematik .......................................... 8 1.1.1 evu.it GmbH ..................................................................................... 9 1.2 1.3 1.4 Zielsetzung der Arbeit ................................................. 10 Abgrenzung ................................................................ 10 Eingesetzte Software .................................................. 11 2 2.1 2.2 2.3 2.4 2.5 2.6 Einführung Data Mining ........................................... 12 Data Mining................................................................. 12 Knowledge Discovery in Databases ........................... 14 Übersicht der Data-Mining-Verfahren ......................... 15 OLAP vs. Data Mining................................................. 18 Voraussetzungen für erfolgreiches Data Mining ......... 20 Prozessmodelle .......................................................... 21 2.6.1 2.6.2 2.6.3 2.6.4 CRISP-Prozess ............................................................................. 22 Fayyad-Prozess............................................................................. 24 Säuberlich-Prozess ....................................................................... 25 Bewertung ..................................................................................... 26 3 3.1 3.2 3.3 3.4 3.5 Data-Mining-Workbench........................................... 27 DM-Workbench vs. APD-Workbench .......................... 27 Aufbau der DM-Workbench ........................................ 28 Anlegen eines DM-Modells ......................................... 29 Weitere Funktionen ..................................................... 31 Automatisierungen ...................................................... 32 3.5.1 3.5.2 Hintergrundverarbeitung ................................................................ 32 Prozessketten ................................................................................ 34 4 4.1 Data-Mining-Verfahren im SAP BI 7.0 ..................... 36 Clusteranalyse ............................................................ 36 4.1.1 4.1.2 4.1.3 4.1.4 Beispiele in der Versorgerbranche ................................................ 37 Mathematische Grundlagen .......................................................... 39 Umsetzung im SAP BI 7.0 ............................................................. 43 Bewertung ..................................................................................... 49 4.2 ABC-Analyse .............................................................. 50 4.2.1 4.2.2 4.2.3 4.2.4 Beispiele in der Versorgerbranche ................................................ 51 Mathematische Grundlagen .......................................................... 52 Umsetzung im SAP BI 7.0 ............................................................. 53 Bewertung ..................................................................................... 56 -5- Inhaltsverzeichnis -6- 4.3 Scoring-Verfahren ....................................................... 57 4.3.1 4.3.2 4.3.3 4.3.4 Beispiele in der Versorgerbranche ................................................ 57 Mathematische Grundlagen .......................................................... 58 Umsetzung im SAP BI 7.0 ............................................................. 59 Bewertung ..................................................................................... 63 4.4 Assoziationsanalyse ................................................... 64 4.4.1 4.4.2 4.4.3 4.4.4 Beispiele in der Versorgerbranche ................................................ 65 Mathematische Grundlagen .......................................................... 66 Umsetzung im SAP BI 7.0 ............................................................. 69 Bewertung ..................................................................................... 74 4.5 Entscheidungsbaum ................................................... 75 4.5.1 4.5.2 4.5.3 4.5.4 Beispiele in der Versorgerbranche: ............................................... 76 Mathematische Grundlagen .......................................................... 78 Umsetzung im SAP BI 7.0 ............................................................. 79 Bewertung ..................................................................................... 86 4.6 Regressionsanalyse ................................................... 87 4.6.1 4.6.2 4.6.3 4.6.4 Beispiele in der Versorgerbranche ................................................ 88 Mathematische Grundlagen .......................................................... 88 Umsetzung im SAP BI 7.0 ............................................................. 91 Bewertung ..................................................................................... 95 4.7 Kombination verschiedener Verfahren ........................ 96 4.7.1 Beispiele in der Versorgerbranche ................................................ 96 4.8 Implementierung weiterer Verfahren ........................... 99 5 5.1 Fallstudie „Kündigungsprävention“ ..................... 100 Business Understanding ........................................... 100 5.1.1 5.1.2 5.1.3 Determine Business Objectives .................................................. 100 Assess Situation .......................................................................... 101 Determine Data Mining Goals ..................................................... 101 5.2 Data Understanding .................................................. 102 5.2.1 5.2.2 5.2.3 5.2.4 Collect Initial Data........................................................................ 102 Describe Data .............................................................................. 102 Explore Data ................................................................................ 104 Verify Data Quality....................................................................... 104 5.3 Data Preparation ....................................................... 104 5.3.1 5.3.2 Select Data .................................................................................. 104 Clean, Construct, Integrate, Format Data ................................... 106 5.4 Modeling ................................................................... 109 5.4.1 5.4.2 5.4.3 5.4.4 Select Modeling Technique ......................................................... 109 Generate Test Design ................................................................. 109 Build Model .................................................................................. 110 Assess Model .............................................................................. 116 5.5 Evaluation ................................................................. 118 5.5.1 Evaluate Results.......................................................................... 118 Inhaltsverzeichnis 5.5.2 Determine Next Steps ................................................................. 120 5.6 Deployment............................................................... 120 5.6.1 5.6.2 Plan Deployment ......................................................................... 120 Review Project ............................................................................. 121 6 6.1 6.2 6.3 Abschluss ................................................................ 123 Zusammenfassung ................................................... 123 Fazit .......................................................................... 124 Ausblick .................................................................... 125 7 7.1 7.2 7.3 Anhang .................................................................... 127 Erläuterungen zu den Hinweisen .............................. 127 A selection of useful ISU-Tables ............................... 128 Abbildungen und Listings zur Fallstudie.................... 129 7.3.1 7.3.2 Collect Initial Data........................................................................ 129 Clean, Construct, Integrate, Format Data ................................... 131 8 Abkürzungsverzeichnis.......................................... 136 9 Abbildungsverzeichnis........................................... 137 10 Tabellenverzeichnis ................................................ 141 11 Formelverzeichnis .................................................. 142 12 Listingverzeichnis .................................................. 143 13 Quellenverzeichnis ................................................. 144 14 Glossar .................................................................... 148 15 Eidesstattliche Erklärung ....................................... 154 16 Erklärung ................................................................. 155 17 Stichwortverzeichnis .............................................. 156 -7- 1 Einleitung 1 Einleitung 1.1 Beschreibung der Thematik Die Neuregelung des Energiewirtschaftsgesetzes (EnWG) im Jahre 1998 und das „Zweite Gesetz zur Neuregelung des Energiewirtschaftsrechtes“ 2005 führten zu tiefgreifenden Veränderungen in der Versorgerbranche. Die erzwungene Öffnung und Liberalisierung des Marktes führte, wie in kaum einer anderen Branche, zu einer drastischen Steigerung der Konkurrenzsituation und damit zu wirtschaftlichem Handeln. Die verstärkte Nutzung der operativen ERP-Systeme (Enterprise Resource Planning) und damit auch der enorme Anstieg der Datenmengen, in diesem ohnehin datenintensiven Industriezweig, waren die Folge, so dass zunehmend Data-Warehouse-Lösungen eingesetzt wurden.1 Die Verarbeitung, vor allem aber die Analyse der Daten zur Schaffung eines Wettbewerbsvorteils, wird zunehmend bedeutender für den Erfolg eines Unternehmens. Dies ist der Ansatzpunkt für das Data Mining. Data Mining ist jedoch keine neue Technologie. Die ersten Entwicklungen gab es bereits in den 70er Jahren, in denen Data-Mining-Verfahren entwickelt wurden, um die in der Forschung entstandenen Hypothesen zu bestätigen oder zu widerlegen. In den 80er Jahren wurde dann zunehmend versucht, Zusammenhänge und Abhängigkeiten zwischen Daten mit Hilfe des Data Mining zu identifizieren. Der Durchbruch des Data Mining erfolgte jedoch erst mit dem flächendeckenden Einsatz von großen Datenbanken in Unternehmen sowie der enormen Steigerung der Rechenleistung bei gleichzeitigem Verfall der Kosten für die entsprechenden Systeme. Mit den weiterhin stetig steigenden Datenmengen der Unternehmen gewinnt das Data Mining zunehmend an Bedeutung. »Der Data-Mining-Ansatz verspricht, als Instrument des Informationsmanagements, ein wirkungsvolles Hilfsmittel zur [Entdeckung und] Filterung relevanter Informationen zu sein.«2 Trotz der langen Entwicklungsgeschichte wurde das Data Mining vielfach als „Hexenwerk“ oder „Geheimwissenschaft“ angesehen: »[...] Analyseverfahren, die Unternehmen bisher unerkannte Zusammenhänge in ihren Geschäftsinformationen aufzeigen sollen, umgibt die Aura einer Geheimwissenschaft, die 1 [Projektarbeit, 2008] S.8 2 [Küppers, 1999] S.30 -8- 1 Einleitung nur Spezialisten beherrschen. Doch die Zeiten ändern sich. Data Mining wird strategisch und tatsächlich genutzt«1 Der Markt der Data-Mining-Produkte wächst rasant und entsprechendes Fachpersonal wird händeringend gesucht. An Hochschulen (nicht nur an der Fachhochschule Dortmund) finden vermehrt Data-Mining-Seminare statt und auch Schulungen erfreuen sich zunehmender Beliebtheit. So verwundert es nicht, dass auch SAP die Zeichen der Zeit erkannt hat und seit längerem die Entwicklung der Data-Mining-Lösung innerhalb ihrer Systeme forciert. »Das Spektrum an Verfahren, die Möglichkeiten zum modulübergreifenden Einsatz und die Integration in grafische Entwicklungswerkzeuge haben in SAP [BI 7.0] einen vorläufigen Höhepunkt erreicht.«2 Die Basis für den Einsatz von Data Mining im SAP BI 7.0 wurde bereits in der vorangegangen Projektarbeit gelegt, indem das vorbereitende Werkzeug, der AnalyseProzess-Designer, mit seinen Funktionen und Einsatzgebieten ausführlich beschrieben wurde. In dieser Diplomarbeit gilt es nun die Möglichkeiten zu erörtern und zu bewerten, die im Rahmen des Data Mining im SAP BI 7.0 zur Verfügung stehen. 1.1.1 evu.it GmbH3 Die Durchführung dieser Diplomarbeit erfolgt in Zusammenarbeit mit der Firma evu.it GmbH. Sie ist ein international tätiges Beratungsunternehmen für die Ver- und Entsorgungswirtschaft, die öffentliche Verwaltung sowie den öffentlichen Personennahverkehr. Mit ihrem Hauptsitz in Dortmund sowie weiteren Standorten in Kiel, Mannheim, Nürtingen und Rostock, bietet die evu.it GmbH ein breites Angebot an Beratungs- und Entwicklungsleistungen mit Schwerpunkt auf die Produkte SAP sowie Microsoft Dynamics NAV. Die Geschäftsbereiche der evu.it GmbH gliedern sich wie folgt: ■ Enterprise Solution Consulting ■ Billing ■ Business Intelligence ■ Customer Relationship Management ■ Energy Data Management ■ Enterprise Resource Planning ■ Public Sector ■ Development Die evu.it GmbH ist eine 100%ige Tochter der rku.it GmbH in Herne. Das Leistungsangebot der rku.it GmbH umfasst neben der Bereitstellung von Anwendungssystemen und deren 1 [Computerwoche, 2007] 2 [KiVa, 2007] S.12 3 [EVU-IT, 2008] -9- 1 Einleitung individueller Anpassung auch das Hosting von Systemen im rku.it-Rechenzentrum. Umfangreiche Schulungsprogramme und umfassender Support runden das Leistungsspektrum ab. 1.2 Zielsetzung der Arbeit Das Ziel dieser Arbeit ist es, die Möglichkeiten, Funktionen und Einsatzgebiete der DataMining-Lösung im SAP BI 7.0 zu erörtern und zu beschreiben. Zu diesem Zweck sollen zunächst die Grundlagen des Data Mining behandelt werden, indem die verschiedenen Begrifflichkeiten definiert und voneinander abgegrenzt werden. Zusätzlich soll ein erster, allgemeiner Überblick über die Data-Mining-Verfahren geschaffen sowie die Voraussetzungen und Vorgehensweisen für erfolgreiches Data Mining bestimmt werden. Um das Data Mining im SAP BI 7.0 durchführen zu können ist es notwendig, das Werkzeug, die sogenannte Data-Mining-Workbench, näher kennen zu lernen. Daher soll der Aufbau und die Funktionsweise der Data-Mining-Workbench sowie die Verbindung und das Zusammenspiel zur Analyse-Prozess-Designer-Workbench dargestellt werden. Der Großteil der Arbeit soll sich anschließend mit den verschiedenen im SAP BI 7.0 implementierten Data-Mining-Verfahren beschäftigen. Dabei soll erörtert werden, wie die Techniken generell arbeiten und wie sie im SAP BI 7.0 umgesetzt worden sind. Die dafür benötigten mathematischen Kenntnisse, die zum Verständnis und zur Konfiguration von Bedeutung sind, sollen anschaulich beschrieben werden. Zusätzlich sollen Beispiele genannt werden, in denen das jeweilige Verfahren in der Versorgerbranche sinnvoll eingesetzt werden kann. Abschließend soll die Umsetzung des Verfahrens im SAP BI 7.0 bewertet und Verbesserungspotentiale aufgezeigt werden. Den Abschluss dieser Arbeit soll eine praxisorientierte Fallstudie mit Bezug zur Versorgerindustrie bilden, die nach einem ausgewählten Vorgehensmodell schrittweise durchgeführt und beschrieben wird. 1.3 Abgrenzung Der Analyse-Prozess-Designer wurde bezüglich der Funktionsweise, der Bedienung, den Einsatzgebieten und der Integration in das Business Warehouse bereits ausführlich in der vorangegangen Projektarbeit beschrieben, ebenso wie der gesamte ETL-Prozess (Extraktion, Transformation, Laden) der Datenbeschaffung sowie das Objektkonzept und der Datenfluss. Somit wird die Projektarbeit als Grundlage für diese Diplomarbeit verstanden und einzelne Teilaspekte werden nicht erneut dargestellt.1 Data Mining ist ein sehr komplexes Themengebiet, das einem stetigen Wandel unterliegt und in dem die vielen unterschiedlichen Data-Mining-Verfahren ständig weiter- oder neuentwickelt werden. In dieser Arbeit sollen jedoch nur die im SAP BI 7.0 implementierten 1 - 10 - [Projektarbeit, 2008] passim 1 Einleitung Verfahren erläutert und dargestellt werden. Eine Gesamtübersicht über alle aktuellen DataMining-Techniken ist an dieser Stelle nicht zu leisten1 und in Anbetracht der Zielsetzung auch nicht sinnvoll. Bei der Beschreibung der Data-Mining-Verfahren im SAP BI 7.0 liegt der Schwerpunkt in der Anwendung und nicht in der mathematischen Herleitung. Daher wird versucht, den mathematischen Exkurs auf das Nötigste zu beschränken, indem lediglich diejenigen Aspekte mathematisch erläutert werden, die für das Verständnis, den Ablauf und die Konfiguration des jeweiligen Modells von Bedeutung sind.2 1.4 Eingesetzte Software Die offiziellen Produktbezeichnungen von SAP sind recht unübersichtlich. Bis zu der Version 3.3 wird das System als „SAP Business Information Warehouse“ bezeichnet. Die Bezeichnung des Nachfolgers lautet „SAP Netweaver 2004“. Das in dieser Arbeit verwendete System trägt die offizielle Bezeichnung „SAP Netweaver 7.0“ oder „SAP Neatweaver 2004s“ oder „SAP BI 7.0“. Das neueste derzeit verfügbare System ist „SAP Netweaver 7.1“. Im Rahmen dieser Diplomarbeit wird ausschließlich und einheitlich die Bezeichnung „SAP BI 7.0“ für das verwendete System benutzt, da sich dieser Begriff, neben der inoffiziellen Bezeichnung „BW 7.0“, in der Praxis durchgesetzt hat. Folgende SAP-Systeme kommen zum Einsatz: ■ SAP BI 7.0 Testsystem der rku.it und evu.it ■ SAP R/3 mit IS-U (Industry Solution for Utilities)-Modul (Spiegelung eines Produktivsystems; Stand Mai 2008) ■ SAP BW 3.5 Produktivsystem mit der vollständigen Verkaufsstatistik ■ SAP GUI 640 mit Business Explorer (BEx Analyzer, BEx Query Designer) Die gesamte Ausarbeitung und damit auch die Umsetzung erfolgt im BI 7.0-Testsystem. Die anderen Systeme werden lediglich für die Datenbeschaffung im Rahmen der Fallstudie benötigt. 1 Weiterführende Informationen siehe [Küppers, 1999] passim, [Petersohn, 2005] passim 2 Weiterführende Informationen siehe [Petersohn, 2005] passim, [Sachs, 1992] passim - 11 - 2 Einführung Data Mining 2 Einführung Data Mining Im Mittelpunkt des folgenden Kapitels steht die Definition, Erläuterung und Abgrenzung des Data Mining und Knowledge Discovery in Databases (KDD) sowie ihre Einordnung im Gesamtkomplex des Business Intelligence (BI). Nach einer einführenden Darstellung der grundlegenden Aufgaben, Ziele und Potentiale, folgt eine kategorisierte Übersicht der verschiedenen Data-Mining-Verfahren. Anschließend werden die wesentlichen Unterschiede zwischen den beiden Analysemethoden OLAP (Online Analytical Processing) und Data Mining herausgearbeitet. Den Abschluss dieser Einführung bildet die Darstellung verschiedener Prozess-Modelle, die den Ablauf eines Data-Mining-Prozesses ganzheitlich beschreiben. 2.1 Data Mining Der rasante Anstieg der IT-Systeme in allen Unternehmensbereichen führt seit den 90er Jahren in allen Branchen zu immer größeren und unübersichtlicheren Datenbeständen. Jeder Kontakt eines Kunden mit einem Unternehmen führt zu einer Vielzahl an Informationen, die erhoben, gespeichert und verwaltet werden müssen. Beginnend bei dem Abschluss eines Vertrages mit einem Dienstleistungsunternehmen, über den täglichen Einkauf im Supermarkt, bis hin zur Nutzung des Internets, werden Unmengen von Daten gespeichert, die nicht nur persönliche oder geschäftliche Informationen enthalten, sondern auch Vorgänge und Verhalten einzelner Personen oder Gruppen beschreiben. Mit Hilfe der Analyse dieses Datenmaterials erhoffen sich Unternehmen zunehmend den entscheidenden Wettbewerbsvorteil gegenüber der Konkurrenz. Der englische Begriff “Mining” stammt aus dem Bergbau und kann mit „Abbau“ oder „Gewinnung“ übersetzt werden. Das englische Verb „to mine sth.“ bedeutet soviel wie „etwas abbauen“, „etwas fördern“ oder „in etwas graben“. Diese Übersetzungen geben im Zusammenhang mit den bereits genannten Ausführungen einen ersten anschaulichen Eindruck, welches die Ziele des Data Mining sind. Ähnlich wie im Bergbau ist es die Aufgabe des Data Mining die „nuggets“ zu finden; genauer gesagt die „knowlegde nuggets“.1 Dabei erschwert es das stetig steigende Datenvolumen, diese neuen, interessanten und für ein Unternehmen bedeutenden Informationen zu extrahieren. Das Wissen, das aus diesen Informationen gewonnen werden kann, unterstützt die Entscheidungsträger in einem Unternehmen bei allen strategischen, taktischen und operativen Entscheidungen. 1 - 12 - [Cubeserv, 2008] 2 Einführung Data Mining Die meisten Entscheidungen in einem Unternehmen werden in Unwissenheit über die Konsequenzen und Entwicklungen in der Zukunft getroffen. So werden beispielsweise Lagerbestände gekauft oder verkauft, ohne zu wissen wie sich die zukünftige Preisentwicklung gestaltet oder es werden Kredite vergeben, ohne Aussagen über das zukünftige Verhalten der Kunden machen zu können. Unternehmerische Entscheidungen werden demnach oft unter dem Aspekt der Unsicherheit und Ungewissheit getroffen.1 Da nach wie vor der „Blick in die Zukunft“ nicht möglich ist, werden Daten der Vergangenheit verwendet, um Entscheidungen über die Zukunft zu treffen. Dabei wird davon ausgegangen, dass Muster der Vergangenheit („Meier war bisher immer pünktlich“) auch den Mustern der Zukunft entsprechen („Meier ist auch morgen wieder pünktlich“). Diesen grundsätzlichen Gedankengang verfolgen auch die verschiedenen Verfahren des Data Mining. Das heißt, auf Basis der vorhandenen Daten werden neue, nicht triviale Informationen gewonnen, die für ein Unternehmen von besonderer Bedeutung sein können und zukünftige Entscheidungen unterstützen. »Data mining is the process of discovering meaningful new correlations, patterns and trends by "mining" large amounts of stored data using pattern recognition technologies, as well as statistical and mathematical techniques.«2 Die Entwicklungsgeschichte3 des Data Mining ist in Abbildung 1 veranschaulicht: Abbildung 1: Entwicklungsgeschichte Data Mining 1 [Kandel et al., 2001] Preface 2 [AsSi, 2002] 3 In Anlehnung an [Doug, 2008] 4 In Anlehnung an [BW380, 2005] S.7 4 - 13 - 2 Einführung Data Mining 2.2 Knowledge Discovery in Databases Im Zusammenhang mit Data Mining wird oftmals der Begriff Knowledge Discovery in Databases als Synonym verwendet. Über diese Betrachtungsweise herrscht jedoch noch immer Uneinigkeit, was folgende Definition deutlich macht: »Data Mining ist ein Teilschritt des KDD-Prozesses, der aus bestimmten Algorithmen besteht, die in akzeptabler Rechenzeit aus einer vorgegebenen Datenbasis eine Menge von Mustern liefern«1 Demnach ist das Data Mining nur ein Teilschritt, der sich mit der eigentlichen Datenanalyse beschäftigt, während der gesamte KDD-Prozess als übergreifender Prozess des Data Mining verstanden wird, dem auch die Vorbereitung und Konsolidierung der Daten sowie die Bewertung und Interpretation der Ergebnisse zugeordnet werden.2 »Knowledge Discovery in Databases bezeichnet den nicht-trivialen Prozess der Identifikation valider, neuartiger, potentiell nützlicher und klar verständlicher Muster in Daten.«3 Diese Abgrenzung zwischen Data Mining und KDD sowie die Einordnung beider Begriffe in den Kontext des Business Intelligence ist in Abbildung 2 dargestellt: Abbildung 2: Einordnung BI, KDD und DM 4 Es wird deutlich, dass sowohl der KDD-, als auch der Data-Mining-Prozess lediglich Teilprozesse innerhalb des Gesamtkomplex Business Intelligence sind. Das Data Mining ist nach der o.g. Definition wiederum nur ein Teilschritt innerhalb des Knowledge Discovery in Databases. - 14 - 1 [Säuberlich, 2000] 2 [KiVa, 2007] S.19 3 [Fayyad et al., 1996] S.6 4 In Anlehnung an [KiVa, 2007] S.21 2 Einführung Data Mining Dieser Versuch der Präzisierung, der historisch getrennt voneinander gewachsenen Begriffe, ist durchaus sinnvoll und verständlich, jedoch zeigt sich, dass diese Trennung in der Praxis nicht angewandt wird. Folgende Gründe können dafür genannt werden:1 ■ Data Mining als Überbegriff für eine Sammlung und Kombination von verschiedenen Verfahren zu verstehen reicht kaum aus, um dafür einen neuen Begriff zu definieren. ■ Die Vorstellung in „Datenbergwerken“ nach Informationen „zu graben“ ist wohl eingängiger und anschaulicher als „Wissen zu entdecken“. ■ »Die ergänzenden Prozeßschritte, die […] aus Data-Mining-Methoden den KDD-Prozeß bilden, nämlich die Vor- und Nachbearbeitung sowie die Tatsache, dass ein iteratives Vorgehen nötig ist, könnten somit leicht als notwendiges aber nicht begriffsbestimmendes Beiwerk betrachtet werden.«2 Aus den genannten Gründen werden im weiteren Verlauf der Arbeit die Begriffe Knowledge Discovery und Data Mining synonym verwendet. 2.3 Übersicht der Data-Mining-Verfahren In der Literatur gibt es viele verschiedene Ansätze, die versuchen, die Vielzahl an Methoden des Data Mining zu strukturieren. Beispielsweise werden alle Methoden auf nur einer Ebene (der Verfahren) verteilt.3 Alternativ werden zwei Ebenen4 verwendet (Verfahren und Techniken bzw. Aufgaben und Methoden) oder sogar drei Ebenen5 (primäre Ziele, Methoden, Algorithmen). Im Folgenden wird ein Ansatz mit zwei Ebenen gewählt. Die erste Ebene wird als Aufgaben, die zweite als Methoden (oder Verfahren) bezeichnet. Den folgenden Aufgaben können die einzelnen Methoden zugewiesen werden: ■ Segmentierung ■ Klassifikation ■ Prognose ■ Abhängigkeitsanalyse ■ Abweichungsanalyse Segmentierung Bei der Segmentierung werden Objekte in sinnvolle und interessante Gruppen und Klassen aufgeteilt. Die Gruppen sind dabei im Vorfeld nicht bekannt. Anhand der gemeinsamen Eigenschaften der Objekte werden sie in die neu entstandenen Gruppen eingeordnet. Ein Beispiel für die Segmentierung sind die Bezeichnungen Yuppies (young urban professionals) 1 [Küppers, 1999] S.24 2 ebd. 3 [ChaGlu, 1998] S.301ff 4 [Schinzer, 1999], [AlNi, 2000] S.9ff 5 [Fayyad et al., 1996] S.1ff - 15 - 2 Einführung Data Mining oder Dinks (double income no kids).1 Mit Hilfe der Segmentierung sind beispielsweise gezielte Marketingaktionen möglich. Oftmals ist die Segmentierung nur ein Teilschritt im gesamten Data-Mining-Analyseprozess, denn kleinere, homogene Teilmengen können zumeist besser analysiert werden. Beispielsweise erschwert die Betrachtung aller Kunden das Erkennen von Mustern im weiteren Verlauf des Data-Mining-Prozess. Die Einschränkung in Abhängigkeit von den gewählten Zielsetzungen, auf z.B. alle besonders wertvollen Kunden oder alle Kunden mit schlechter Zahlungsmoral, ist zumeist sinnvoller. Klassifikation Die Klassifikation dient der Zuordnung von Objekten zu Klassen, die im Vorfeld definiert worden sind. Das bedeutet, wenn die Eigenschaften des Objekts mit denen der Klasse übereinstimmen, wird dieses Objekt der Klasse zugewiesen. Die Klassen besitzen dabei oftmals beschreibende Namen, z.B. „guter Kunde“, „schlechter Kunde“. Die Zuordnung der Objekte kann zumeist über Regeln ausgedrückt werden (z.B. „wenn Einkommen > 3000 dann ist es ein guter Kunde“). Dabei wird mit einer Trainingsmenge (z.B. die bekannten „guten Kunden“) ein Modell erzeugt, das später neue, bisher unbekannte Objekte den Klassen zuordnen kann. Dieses Modell wird auch Klassifikator genannt. »Klassifikation ist eines der wichtigsten Data Mining Ziele, weil sich viele Anwendungsprobleme darauf abbilden lassen.«2 Die Bildung der Klassen kann auch mit Hilfe der Segmentierung durchgeführt werden, um so Gruppierungen erzeugen zu können, die zuvor nicht bekannt sind. Prognose Die Prognose (oder Vorhersage) ist in ihrer Zielsetzung sehr eng mit der Klassifikation verknüpft. Auch die Klassifikation erlaubt die Vorhersage unbekannter Merkmalswerte. Dabei werden jedoch eher symbolische Werte vorhergesagt (z.B. „guter Kunde“), während in der Prognose stetige Werte erzeugt werden (z.B. Umsatz im nächsten Monat). Aufgrund ihrer engen Verbindung, werden die Methoden beider Aufgaben oftmals unter einem Begriff zusammengefasst.3 Abhängigkeitsanalyse Die Abhängigkeitsanalyse versucht Beziehungen zwischen verschiedenen Merkmalen von Objekten aufzudecken. Dabei können entweder feste Zeitpunkte (z.B. „fettarme Milch wird häufig zusammen mit fettarmen Joghurt gekauft“), verschiedene Zeitpunkte (z.B. „5-6 Monate nach Kauf einer Digitalkamera werden oftmals digitale Videokameras gekauft“) - 16 - 1 [AlNi, 2000] S.10 2 [Nakhaeizdaeh, 1998] S.8 3 [Säuberlich, 2000] 2 Einführung Data Mining oder Zeitverläufe (z.B. bei verschiedenen Aktienkursen) betrachtet werden. Mit Hilfe der Abhängigkeiten kann demnach die Wahrscheinlichkeit für das Eintreten einer bestimmten Merkmalsausprägung berechnet werden. Abweichungsanalyse Die Abweichungsanalyse bildet das Gegenstück zur Abhängigkeitsanalyse. Es werden dabei die Objekte identifiziert, die nicht mit den Regelmäßigkeiten der meisten anderen Objekte übereinstimmen und sich so nicht in ein vorhandenes Muster einordnen lassen. Ziel dabei ist es, die Gründe für die Abweichung festzustellen (z.B. warum die Umsätze ähnlicher Produkte unterschiedlich stark gestiegen sind). Die Abweichungs- und die Abhängigkeitsanalyse werden vielfach unter einem Begriff zusammengefasst. In der Literatur existieren noch weitere Aufgaben des Data Mining. Dies ist darin begründet, dass viele der Data-Mining-Methoden eng miteinander verbunden sind (z.B. im Bereich der Prognose und der Klassifikation) und sich deshalb nicht eindeutig einem Aufgabentyp zuordnen lassen. Oftmals werden Methoden (z.B. Regressionsanalyse) auch als Bestandteil der Statistik angesehen und nicht als Aufgabengruppe genannt oder sie sind zu trivial (z.B. Datenzusammenfassung) um als eigene Aufgabe definiert zu werden.1 Da oftmals erst die Kombination verschiedener Verfahren (z.B. Segmentierung und anschließend eine Abhängigkeitsanalyse auf die einzelnen Segmente) zu einem brauchbaren Ergebnis führt, ist die eindeutige Kategorisierung der Methoden schwierig. Zu allen genannten Aufgaben gibt es hunderte von verschiedenen Data-Mining-Methoden und deren Varianten. Im Fokus dieser Arbeit stehen jedoch die folgenden im SAP BI 7.0 implementierten Techniken: ■ Assoziationsanalyse ■ Clusteranalyse ■ ABC-Analyse ■ Scoringanalyse ■ Entscheidungsbaum ■ Regressionsanalyse Wie diese Methoden in eine mögliche Struktur2 gebracht werden können, ist in Abbildung 3 dargestellt. 1 [AlNi, 2000] S.10 2 Basierend auf einem Vorschlag von [Säuberlich, 2000] - 17 - 2 Einführung Data Mining 1 Abbildung 3: Einordnung der Data-Mining-Methoden Wie bereits erläutert, sind die Aufgaben Prognose und Klassifikation ebenso wie die Abhängigkeits- und die Abweichungsanalyse sehr eng miteinander verknüpft. Aus diesem Grund wurden sie in der Darstellung in einer Aufgabe zusammengefasst. Die zusätzlich genannten, aber nicht im SAP BI 7.0 implementierten Methoden werden im weiteren Verlauf nicht näher erläutert.2 Zusätzlich zur Einteilung in Aufgaben, ist eine Unterscheidung zwischen überwachtem und unüberwachtem Lernen möglich. Beim überwachten Lernen wird das Data-Mining-Modell zunächst mit bekannten Ausprägungen trainiert. Lauten die Zielvariablen beispielweise „kreditwürdig“ und „nicht kreditwürdig“, dann werden zunächst alle bekannten kreditwürdigen Kunden an das Modell übergeben. Dieses „lernt“ aus den gegebenen Objekten, was die Eigenschaften eines kreditwürdigen Kunden sind. Anschließend kann so bei einem neuen Kunden vorhergesagt werden, ob dieser kreditwürdig ist. Beim unüberwachten Lernen muss das Data-Mining-Verfahren eine Lösung finden, ohne dass zuvor anhand vorgegebener Daten „gelernt“ werden kann. Beispielsweise muss bei der Clusteranalyse das Verfahren selbst entscheiden, welche Gruppen und Klassen von Objekten aufgrund ihrer Eigenschaften gebildet werden können. 2.4 OLAP vs. Data Mining OLAP ist, wie auch das Data Mining, einer der Bestandteile der Business Intelligence- oder Data Warehouse-Anwendungen. Es beschreibt ein multidimensionales Datenhaltungskonzept, mit dem umfangreiche Geschäftsanalysen möglich sind. Die zu analysierenden Quelldaten, die sich zumeist in relationalen (eindimensionalen) Datenbanktabellen befinden, werden dabei in einen mehrdimensionalen Datenwürfel abgelegt (z.B. mit den Dimensionen Produkt, Zeit, Region etc.). Dieser kann anschließend aus verschiedenen Sichten betrachtet werden, indem z.B. einzelne Elemente und Schichten des Würfels gedreht, ausgeblendet, erweitert oder ausgetauscht werden.3 - 18 - 1 In Anlehnung an [KiVa, 2007] S.27 2 Weiterführende Informationen siehe Literatur aus Abschnitt 13 3 Weiterführende Informationen siehe [AlNi, 2000] S.14ff, [Nakhaeizdaeh, 1998] S.44 2 Einführung Data Mining Die wesentlichen Unterschiede zwischen OLAP und Data Mining werden in Abbildung 4 veranschaulicht: Abbildung 4: OLAP vs. Data Mining 1 Der größte Unterschied zwischen beiden Anwendungen liegt darin, dass OLAP den hypothesengestützten Analysemethoden zugeordnet wird. Das bedeutet, dass bereits im Vorfeld konkrete Fragestellungen definiert werden müssen, die anschließend durch die Analyse bestätigt oder abgelehnt werden. Es handelt sich demnach um ein nutzergesteuertes Top-Down-Verfahren, in dem die Dimensionen bekannt und die Daten vorstrukturiert sind. Im Gegensatz dazu kann das Data Mining als datengesteuerter Bottom-Up-Ansatz betrachtet werden, in dem der Anwender durch die Hypothesenfreiheit die Ergebnisse weniger beeinflusst. Nur so kann das Data Mining zu Ergebnissen und Erkenntnissen führen die zuvor gar nicht in Erwägung gezogen wurden. Im Gegensatz zum OLAP, wo der Anwender in Kombination mit dem Analysewerkzeug die entscheidende Position einnimmt, betrachtet das Data Mining selbständig die Daten und versucht daraus Zusammenhänge, Muster und Trends zu erkennen. »Bildlich gesprochen bedeutet dies, dass Unternehmen, die nur die vergangenheitsbasierte OLAP-Technologie zur Datenanalyse anwenden, in einem Auto zu ihrer Orientierung nur den Rückspiegel benutzen. Im Gegensatz dazu blicken Unternehmen mit einem erfolgreichen Data-Mining-Ansatz zusätzlich auch durch die Frontscheibe des Autos und erhalten so eine vorausschauende, zukunftsorientierte Perspektive auf ihre Kunden und Geschäftsvorfälle.«2 OLAP und Data Mining sind dabei jedoch keine gegensätzlichen, sich ausschließenden Ansätze, sondern ergänzen sich und führen bei gemeinsamer Nutzung zu Synergieeffekten. So werden Data-Mining-Techniken oftmals im Vorfeld der OLAP-Analyse eingesetzt, um z.B. Informationen bereitzustellen, die gar nicht oder nur durch eine umfangreichere Interaktion des Anwenders mit dem OLAP-Werkzeug ersichtlich geworden wären. 1 In Anlehnung an [CubeServ, 2008] 2 [CubeServ, 2008] - 19 - 2 Einführung Data Mining 2.5 Voraussetzungen für erfolgreiches Data Mining Data Mining ist kein geheimnisvolles Hexenwerk, das aus dem „Nichts“ Zusammenhänge, Muster und Trends erkennt und nur von wenigen Experten verstanden werden kann. Es reicht andererseits aber auch nicht aus, eine Data-Mining-Software zu installieren und zu hoffen, dass dies allein schon zu vollkommen neuen Informationen und Wissen führt, welches dem Unternehmen einen Wettbewerbsvorteil gegenüber der Konkurrenz verschafft. Für ein erfolgreiches Data Mining sind vielmehr einige Voraussetzungen zu schaffen1: ■ Business Understanding Das Hintergrundwissen für Abläufe und Prozesse im Unternehmen mit Bezug auf die Zielsetzungen des Data Mining sind von entscheidender Bedeutung. Nur mit den entsprechenden Kenntnissen können die richtigen Daten und das ideale Data-MiningVerfahren sowie dessen Konfiguration ausgewählt werden. Darüber hinaus ist auch nur so die Validierung der Ergebnisse möglich. ■ Problembewusstsein Im Zusammenhang mit dem Business Understanding ist auch das detaillierte Problembewusstsein wichtig. Nur wenn man verstanden hat was die Zielsetzungen bzw. die Probleme sind, kann die Aufgabenstellung effizient und korrekt gelöst werden. ■ Kenntnisse über die Data-Mining-Verfahren Zunächst muss ein grundlegendes Verständnis über die Data-Mining-Verfahren vorhanden sein, um eine geeignete Methode auswählen zu können. Zusätzlich sollten die Kenntnisse soweit ausgeprägt sein, dass die einzustellenden Parameter und deren Auswirkungen auf die Ergebnisse des Data-Mining-Prozess bekannt sind. ■ Akzeptanz der Endanwender Generell hängt der Erfolg von IT-Systemen und Anwendungen in erster Linie von der Akzeptanz der Endanwender ab. Dies ist insbesondere auch beim Data Mining der Fall. Dabei muss das Endergebnis verständlich und die Durchführung in kurzer Zeit möglich sein. Außerdem sollten die Ergebnisse neue, noch nicht bekannte Sachverhalte beschreiben. ■ Hohe Datenqualität Einer der entscheidenden Faktoren für den Erfolg des Data Mining ist die Qualität der Daten. Nur auf Basis einer hohen Datenqualität können aussagekräftige Analysen und Auswertungen durchgeführt werden. Wenn fehlerhafte, doppelte, inkonsistente oder anderweitig qualitativ minderwertige Daten vorliegen, führt das Data Mining zu fehlerhaften Aussagen und damit zu falschen operativen oder strategischen Entscheidungen („garbage in – garbage out“). 1 - 20 - [KiVa, 2007] S.30ff 2 Einführung Data Mining Um eine möglichst hohe Datenqualität erreichen zu können sind bei der sogenannten Datenbereinigung verschiedene Aspekte zu beachten: □ Fehlende Werte Oftmals ist es möglich, dass Feldern kein Wert zugewiesen wird. Wird dies jedoch bei der Verwendung von z.B. einem Klassifikationsverfahren nicht berücksichtigt, kann dies zu unerwarteten Ergebnissen führen. □ Unvollständige Daten Die Daten werden in der Regel aus verschiedenen Quellsystemen auf der Ebene des SAP BW konsolidiert. Oftmals stimmen die Anforderungen an die Daten im operativen System jedoch nicht mit den Anforderungen an die Daten im Data-MiningProzess überein. Daher kann es passieren, dass die für das Data Mining benötigten Daten nicht zur Verfügung stehen, wodurch alternative Lösungen nötig sind. □ Veränderungen der Daten im Zeitverlauf Es gilt zu bedenken, ob die Daten in der Vergangenheit immer auf demselben Weg erzeugt oder berechnet wurden. Insbesondere bei Kennzahlen ist dies oft nicht der Fall. Die Problematik wird jedoch teilweise auf Ebene des Business Warehouse durch die Entfernung von Synonymen (unterschiedliche Feldnamen mit gleichem Inhalt) und Homonymen (gleicher Feldname bei unterschiedlichem Inhalt) entschärft. □ Fehlerhafte Daten Insbesondere bei der manuellen Eingabe von Daten kommt es im Datenbestand eines Unternehmens oftmals zu Fehlern (Tippfehler, Eingaben im falschen Feld etc.). Das Korrigieren dieser fehlerhaften Daten ist ein sehr aufwändiger Prozess. Jedoch können sich solche Fehler drastisch auf die Ergebnisse des Data Mining auswirken. ■ Gesunden Menschenverstand einsetzen Neben dem detaillierten Wissen über die Abläufe im Unternehmen sowie einem ausgeprägten Problemverständnis ist der gesunde Menschenverstand in jedem Schritt des Data Mining anzuwenden. Deshalb werden die Zwischen- und Endergebnisse des Data Mining nicht blind übernommen, sondern mit Wissen und Verstand überprüft. 2.6 Prozessmodelle Um eine möglichst hohe Qualität des Data-Mining-Prozess gewährleisten zu können, sind verschiedene Prozessmodelle entstanden, die eine schrittweise Durchführung unter Berücksichtigung der o.g. Voraussetzungen für ein erfolgreiches Data Mining erlauben. Die bekanntesten Modelle werden im Folgenden näher erläutert.1 Im Fokus steht dabei das CRISP-DM-Modell (Cross Industrie Process for Data Mining), da dieses als Grundlage für die Durchführung der Fallstudie verwendet wird. 1 [KiVa, 2007] S.22ff - 21 - 2 Einführung Data Mining 2.6.1 CRISP-Prozess1 Das CRISP-DM-Modell ist das Ergebnis eines Projektes, das im Jahr 1998 von den Unternehmen Teradata, SPSS, Daimler-Chrysler und OHRA gestartetet wurde. Ziel war es, ein generisches, branchen- und softwareunabhängiges Verfahren für die Durchführung von Data-Mining-Projekten zu schaffen. Das gesamte Prozessmodell ist hierarchisch aufgebaut. 2 Abbildung 5: Hierarchie des CRISP-Prozesses In der obersten Ebene befinden sich die sogenannten Phasen (phases). Jede Phase umfasst mehrere generische Aufgaben (generic tasks). Diese befinden sich in der zweiten Ebene der Hierarchie und besitzen eine gewisse Allgemeingültigkeit, unabhängig von der jeweiligen Data-Mining-Zielsetzung. Sie umfassen den kompletten Prozess des Data Mining mit all seinen möglichen Anwendungen. Darüber hinaus sollen sie auch für zukünftige Entwicklungen und neue Data-Mining-Methoden anwendbar sein. Die dritte Ebene umfasst die spezialisierten Aufgaben (specialised tasks). Sie beschreiben detailliert das konkrete Vorgehen in den jeweiligen Situationen und in Abhängigkeit von der Data-Mining-Aufgabe. Sowohl die generischen als auch die spezialisierten Aufgaben sind in einer definierten und idealisierten Reihenfolge angegeben. In der Praxis kann es jedoch vorkommen, dass einzelne Schritte wiederholt werden oder zu vorherigen Schritten zurückgesprungen wird. Die vierte und letzte Ebene der Vorgänge (process instances) beschreibt schließlich alle Aktionen, Entscheidungen und Ergebnisse des Data-Mining-Prozesses, die in der jeweiligen Situation durchgeführt, entschieden und festgehalten werden. - 22 - 1 [CRISP, 1999] passim 2 In Anlehung an [CRISP, 1999] S.6 2 Einführung Data Mining 1 Abbildung 6: CRISP-DM-Prozessmodell Im Folgenden werden die Phasen (erste Ebene der Hierarchie), die das CRISP-DM-Modell auf höchster Abstraktionsebene beschreiben (siehe Abbildung 6), noch etwas näher erläutert. Business Understanding Bevor ein Problem gelöst werden kann, muss es verstanden worden sein. Aus diesem Grund sollen in der ersten Phase des CRISP-DM-Prozesses alle Vorgänge, Ziele und Anforderungen verstanden und aus der Business-Sicht betrachtet werden. Zusätzlich wird ein erster vorläufiger Plan erstellt, mit dem die definierten Ziele erreicht werden sollen. Data Understanding Im nächsten Schritt sollen die Daten “verstanden” werden. Dies umfasst nicht nur die generelle Datenauswahl und die erste Überprüfung der Datenqualität, sondern auch das Untersuchen von Teilmengen, um so ein Verständnis für die inhaltliche Bedeutung der Daten zu erlangen. Oftmals ist auch ein Schritt zurück zum Business Understanding nötig, um die Vorgänge und Prozesse im Unternehmen im Zusammenhang mit den Daten besser verstehen zu können. Data Preparation In der Phase Data Preparation werden die Daten für das Data-Mining-Modell aufbereitet. Dabei werden die benötigten Tabellen und Felder selektiert und alle fehlerhaften, unvollständigen oder anderweitig verschmutzten Daten korrigiert. Denn nur auf Basis von qualitativ hochwertigen Daten können erfolgreiche und korrekte Analysen und Berechnungen durchgeführt werden. Die ersten drei Schritte sind von entscheidender Bedeutung für den gesamten Data-MiningProzess und sollten mit entsprechend viel Sorgfalt durchgeführt werden. Aus diesem Grund verbrauchen diese Phasen in der Regel auch einen Großteil der zur Verfügung stehenden Ressourcen. 1 In Anlehnung an [CRISP, 1999] S.9 - 23 - 2 Einführung Data Mining Modeling Im folgenden Schritt Modeling werden die Data-Mining-Verfahren sowie deren individuelle Konfiguration mittels Parameter ausgewählt. Oftmals werden verschiedene Verfahren mit jeweils mehreren unterschiedlichen Parametereinstellungen für dieselbe Problemstellung verwendet. Daher ist die Rückkehr zur Phase der Data Preparation oftmals nötig, um die Daten für die Data-Mining-Techniken individuell vorzubereiten. Evaluation In dieser Phase werden die berechneten Ergebnisse sorgfältig geprüft. Dabei muss im Zusammenspiel mit dem Business Understanding kontrolliert werden, ob die definierten Ziele erreicht worden sind und ob bestimmte Problemstellungen noch gar nicht oder nur unzureichend beleuchtet wurden. Nur korrekte Ergebnisse, die die Zielvorgaben erfüllen, werden an die letzte Phase Deployment weitergereicht. Deployment Im Deployment werden die neu gewonnenen Informationen aufbereitet und verteilt, um sie in eine für den Anwender verständliche Form zu bringen (z.B. als Report oder als dynamische Variable). Oftmals wird dieser Schritt durch den Kunden selbst durchgeführt. Dabei ist es jedoch von Bedeutung, dem Kunden alle Schritte zu vermitteln, die notwendig sind, um den maximalen Nutzen aus den erzeugten Modellen und Informationen zu gewinnen. Wie aus den Ausführungen deutlich wird, handelt es sich bei dem CRISP-Prozess um einen zyklischen und iterativen Lösungsansatz, der den gesamten Data-Mining-Prozess in Teilprobleme zergliedert und aufgrund der Abhängigkeiten der einzelnen Phasen keine starre Abfolge der Prozesse und Aufgaben vorschreibt. 2.6.2 Fayyad-Prozess Das Prozessmodell von Fayyad et al. ist zwar in der Abfolge der Schritte festgelegt, erlaubt jedoch an jeder Stelle die Rückkopplung zu den vorangegangenen Prozessen (siehe Abbildung 7). So ist eine stetige Korrektur und Überprüfung der Zwischenergebnisse möglich. Abbildung 7: Fayyad et al. Prozessmodell 1 - 24 - In Anlehnung an [Fayyad et al., 1996] S.1ff 1 2 Einführung Data Mining Bei der Auswahl der Daten werden aus dem gesamten Datenpool diejenigen Daten selektiert, die für das Data Mining relevant sind. Bei der Aufbereitung werden die ausgewählten Daten bereinigt, d.h. es werden z.B. fehlerhafte Werte entfernt oder korrigiert, Duplikate aussortiert oder fehlende Werte ergänzt. Im nächsten Schritt der Transformation werden die Daten so auf- und vorbereitet, dass sie dem jeweiligen Data-Mining-Verfahren übergeben werden können. Im Schritt Data Mining erfolgt dann die Auswahl des geeigneten Verfahrens sowie dessen Umsetzung. Die Interpretation und Evaluation hat zur Aufgabe, die berechneten Ergebnisse des Data Mining zu validieren. Sollten die Ergebnisse fehlerhaft sein, werden die entsprechenden Schritte im Prozess korrigiert und anschließend wiederholt. Sind die Ergebnisse korrekt, werden sie in eine für den Anwender verständliche und geeignete Form gebracht, um so die neuen Informationen und das daraus abgeleitete Wissen festhalten und interpretieren zu können. 2.6.3 Säuberlich-Prozess Wie aus der Darstellung der verschiedenen Modelle deutlich wird, ähneln sich die einzelnen Schritte aller Prozesse inhaltlich sehr stark. Mit dem allgemeinen KDD-Prozess von Säuberlich (siehe Abbildung 8) wurde versucht, diesem Gedanken Rechnung zu tragen, indem verschiedene Prozessmodelle, die in der Literatur zu finden sind, in einem Modell zusammengefasst wurden. 1 Abbildung 8: Allgemeiner KDD-Prozess von Säuberlich Der erste Schritt Task Analysis umfasst die Definition der Anforderungen und Ziele an den Analyseprozess. Dabei wird das grundlegende Verständnis geschaffen, um die Aufgabenstellung optimal lösen zu können. Im Preprocessing finden die Datenkonsolidierung und –bereinigung statt. Die Daten werden so in eine geeignete Form gebracht und schließlich dem Data Mining übergeben. Anschließend erfolgt eine Überprüfung und Validierung der Ergebnisse im Postprocessing. Zuletzt können dann die Ergebnisse im Deployment ein- und umgesetzt werden. Wie sich die verschiedenen Prozessmodelle aus der Literatur in dieses allgemeine KDDProzessmodell von Säuberlich einordnen lassen, zeigt Abbildung 9. 1 In Anlehnung an [Säuberlich, 2000] - 25 - 2 Einführung Data Mining 1 Abbildung 9: Allgemeiner KDD-Prozess von Säuberlich 2.6.4 Bewertung Wie beschrieben, ähneln sich viele Data-Mining-Prozessmodelle sowohl in ihrer Abfolge der einzelnen Schritte, als auch in ihrer inhaltlichen Ausprägung. Daher ist es schwierig, eine abschließende Beurteilung durchzuführen. Da sich das CRISP-DM-Prozessmodell jedoch durch seine Flexibilität, den generischen Ansatz sowie die detaillierte Dokumentation2 von den anderen Modellen abhebt, dient es im weiteren Verlauf dieser Arbeit als Grundlage für die Durchführung der Fallstudie. Generell ist der Einsatz von Prozessmodellen sehr zu empfehlen. Nur so können plötzlich auftretende Fehler oder falsche Ergebnisse und damit auch zusätzliche Kosten schon im Vorfeld verhindert oder zumindest minimiert werden. - 26 - 1 In Anlehnung an [GaSäu, 1999] 2 Weiterführende Informationen siehe [CRSIP, 1999] 3 Data-Mining-Workbench 3 Data-Mining-Workbench Die Data-Mining-Workbench ist zusammen mit der APD-Workbench die zentrale Umgebung für die Durchführung von Data-Mining-Aufgaben. Im folgenden Abschnitt findet zunächst eine Abgrenzung zwischen APD- und DM-Workbench statt. Anschließend werden der grundsätzliche Aufbau sowie die Funktionen der Data-Mining-Workbench dargestellt und beschrieben. Darüber hinaus wird die Hintergrundverarbeitung sowie eine mögliche Automatisierung von Data-Mining-Modellen mit Hilfe von Prozessketten erläutert.1 3.1 DM-Workbench vs. APD-Workbench Die Data-Mining-Workbench dient der Verwaltung und Konfiguration von Data-MiningModellen im SAP BI 7.0. Im Gegensatz dazu wird die APD-Workbench für die Vorbereitung der Daten, die Befüllung des Data-Mining-Modells mit den Eingangsdaten sowie für die Ablage der Berechnungsergebnisse und damit für den gesamten Workflow rund um den Data-Mining-Prozess verwendet. In wieweit die Verwendung der APDWorkbench ohne Data-Mining-Verfahren sinnvoll ist, wurde bereits detailliert in der vorangegangenen Projektarbeit2 beschrieben. Die Data-Mining-Workbench wird demnach nur für die Teilschritte zum Anlegen oder Verwalten der Data-Mining-Modelle verwendet. Mit ihr können beispielsweise neue Modelle angelegt und in ihren Parametern individuell konfiguriert werden. Die APDWorkbench ist für alle Prozesse des Data-Mining rund um das eigentliche Modell zuständig, und startet somit auch den Analyseprozess und damit das Data Mining. Dieser Zusammenhang sowie die Funktionen des Analyse-Prozess-Designers werden in Abbildung 10 noch einmal unter Berücksichtigung des allgemeinen KDD-Prozesses3 dargestellt. Im Preprocessing werden die Funktionalitäten des Business Warehouse und der APDWorkbench dazu verwendet, den ETL-Prozess effektiv und transparent umzusetzen, um so dem Data Mining die auf- und vorbereiteten Eingangsdaten für die Berechnungen zur Verfügung zu stellen. Im Data Mining wird dann die DM-Workbench für das Anlegen und Verwalten der verschiedenen Verfahren genutzt. Im Postprocessing können einerseits die APD-Workbench, andererseits die Möglichkeiten des Reportings verwendet werden, um die 1 In Anlehnung an [KiVa, 2007] S.123ff 2 [Projektarbeit, 2008] passim 3 Siehe Abschnitt 2.6.3 Säuberlich-Prozess - 27 - 3 Data-Mining-Workbench Ergebnisse des Data Mining abzulegen und sie dem Anwender in einer geeigneten Form präsentieren zu können. 1 Abbildung 10: APD- und DM-Workbench-Funktionen im KDD-Prozess 3.2 Aufbau der DM-Workbench Der Aufruf der Transaktion RSDMWB startet die Data-Mining-Workbench und bietet eine hierarchische Übersicht über die im SAP BI 7.0 implementierten Data-Mining-Verfahren sowie deren Einordnung in die verschiedenen Aufgabentypen2 des Data Mining. Abbildung 11: Aufbau DM-Workbench - 28 - 1 In Anlehnung an [KiVa, 2007] S.26 2 Siehe Abschnitt 2.3 Übersicht der Data-Mining-Verfahren 3 Data-Mining-Workbench Die Hierarchie ist wie folgt aufgebaut: In der obersten Ebene befinden sich die verschiedenen Aufgabentypen (z.B. Klassifikation). In der darunterliegenden zweiten Ebene sind alle im SAP BI 7.0 implementierten Data-Mining-Verfahren (z.B. Entscheidungsbaum) dem Aufgabentyp zugeordnet. Beim Anlegen eines neuen Modells erscheint dieses dann unterhalb des entsprechenden Data-Mining-Verfahrens. Zusätzlich hat man aus dieser Übersicht heraus die Möglichkeit, den Monitor (zur Überprüfung der Verarbeitungsvorgänge bei der Durchführung von Analyseprozessen) aufzurufen oder über eine Schaltfläche zum Analyseprozessdesigner zurückzukehren. Alle weiteren Funktionen zum Anlegen und Verwalten der Data-Mining-Methoden werden in den folgenden Abschnitten detailliert erläutert. 3.3 Anlegen eines DM-Modells Das Kontextmenü in der zweiten Hierarchieebene der DM-Workbench erlaubt das Anlegen von Modellen zu dem ausgewählten Data-Mining-Verfahren. Abbildung 12: Modell in der DM-Workbench anlegen Beim Anlegen von neuen Modellen gibt es zunächst drei Optionen: ■ Manuell Bei der manuellen Anlage von Modellen werden alle Angaben zu den Feldern und Parametern vom Benutzer angegeben. Es werden keinerlei Vorgaben durch das System gemacht. ■ Modell als Vorlage verwenden Diese Option erlaubt das Anlegen eines neuen Modells auf Grundlage eines schon vorhandenen Modells. Dabei wird eine Kopie der Vorlage erstellt, dessen Einstellungen anschließend verändert werden können. - 29 - 3 Data-Mining-Workbench ■ Modellfeldauswahl BW Query Die dritte Möglichkeit ist die Verwendung einer Query als Grundlage für die Definition der Felder der Eingabedaten. Jedoch werden dabei nur die Strukturen und nicht die eigentlichen (Ergebnis-)Daten der Query übernommen. Die Versorgung des Modells mit den Eingangsdaten erfolgt, wie bereits erwähnt, in der APD-Workbench. Anschließend erscheint die Übersicht über alle Datenfelder, die als Eingangsdaten für das Data-Mining-Modell verwendet werden sollen. Abbildung 13: DM-Workbench - Definition Datenfelder Über die Registerkarten Felder und Parameter können entsprechend die Eingabedaten für das Verfahren definiert, bzw. die für dieses Modell und dem zugrunde liegenden DataMining-Verfahren spezifischen Parameter konfiguriert werden. Bei der Definition der Datenfelder muss ein Wertetyp angegeben werden. Dabei sind folgende Wertetypen möglich: ■ Stetig Der Wertetyp stetig wird dann gewählt, wenn es sich bei den Daten um kontinuierliche, nicht abzählbare Werte handelt, z.B. Einkommen oder Umsatz. ■ Diskret Als diskret werden Daten bezeichnet die nur eine bestimmte Anzahl an Ausprägungen und Werten annehmen, z.B. Kundentyp (guter Kunde/schlechter Kunde), Altersklassen oder Tariftypen etc. ■ Schlüsselfeld Schlüsselfelder werden zur Identifikation eines Datensatzes benötigt. Die Werte eines oder mehrerer Schlüsselfelder müssen eindeutig sein. Die detaillierte Beschreibung aller Parameter der verschiedenen Data-Mining-Methoden erfolgt in den entsprechenden Abschnitten von Kapitel 4 Data-Mining-Verfahren im SAP BI 7.0. - 30 - 3 Data-Mining-Workbench 3.4 Weitere Funktionen Abbildung 14: Weitere Funktion in der DM-Workbench Über das Kontextmenu des bereits vorhandenen Data-Mining-Modells in der untersten Hierarchieebene der DM-Workbench können weitere nützliche Funktionen aufgerufen werden. Sie werden im Folgenden kurz erläutert. ■ Anzeigen Erlaubt das Anzeigen des ausgewählten Modells. ■ Ändern Ermöglicht das Anzeigen des ausgewählten Modells im Änderungsmodus. ■ Prüfen Mit dieser Funktion wird das Modell auf Fehler oder Inkonsistenzen geprüft. ■ Aktivieren Erlaubt das Aktivieren des Data-Mining-Modells. Erst nach dem Aktivieren kann das Modell verwendet werden. War das Modell schon einmal aktiviert und wurden Berechnungen durchgeführt, muss es zunächst zurückgesetzt (Löschen der Modelldaten) werden. ■ Zurücksetzen Beim Zurücksetzen werden die Daten, die zum Training des Modells verwendet wurden, gelöscht. Werden Änderungen an einem Modell durchgeführt und findet keine Rücksetzung statt, kommt es zu Vorhersageergebnissen, die noch auf der alten Konfiguration und den entsprechenden Trainingsergebnissen vor den Änderungen beruhen. ■ Löschen Beim Löschen wird das gesamte Modell mit allen Trainingsergebnisdaten, Zwischenberechnungen etc. gelöscht. - 31 - 3 Data-Mining-Workbench ■ Verwendungsnachweis Ähnlich wie in allen SAP-Systemen, erlaubt die Funktion Verwendungsnachweis das Anzeigen aller Analyseprozesse, die das ausgewählte Modell verwenden. So kann z.B. vor dem Löschen eines Modells geprüft werden, ob dieses an anderer Stelle noch verwendet wird. ■ Modellergebnisse anzeigen Anzeigen der Ergebnisse der Data-Mining-Berechnung in grafischer Form (z.B. Tabellen, Diagramme usw.). Die Art der Darstellung ist dabei erneut von dem verwendeten DataMining-Verfahren abhängig. Die Modellergebnisse können jedoch auch innerhalb der APD-Workbench abgerufen werden. Ein Umweg über die DM-Workbench ist nicht notwendig. ■ Vorhersagesimulation Die Vorhersagesimulation ermöglicht das Testen von bereits trainierten Modellen. So kann geprüft werden, ob die Ergebnisse (mit neuen Daten) mit den erwarteten Ergebnissen übereinstimmen. ■ Als PMML exportieren PMML (Predictive Model Markup Language) ist ein XML-ähnliches Format zur Abspeicherung von Clustering- oder Entscheidungsbaummodellen. Diese so exportierten Modelle können in andere Anwendungen und Systeme leicht importiert und verwendet werden. 3.5 Automatisierungen In der vorangegangen Projektarbeit1 und den bisherigen Abschnitten wurde erläutert, wie ein Analyseprozess (mit oder ohne Data-Mining-Techniken) manuell gestartet werden kann. Eine Automatisierung der regelmäßig wiederkehrenden Aufgaben (z.B. tägliche Aktualisierungen) wäre wünschenswert. Im SAP BI 7.0 existieren jedoch noch keine zufriedenstellenden Möglichkeiten alle Facetten eines Analyseprozesses (bei der Verwendung von Data Mining) vollständig zu automatisieren. Im Folgenden werden dennoch Möglichkeiten diskutiert, wie die Prozesse der Datenbewirtschaftung unter Berücksichtigung spezifischer Anforderungen zumindest teilweise automatisiert werden können, um so den Arbeitsaufwand nach dem Einrichten und Testen der Modelle zu minimieren. 3.5.1 Hintergrundverarbeitung Die Hintergrundverarbeitung hat sich seit vielen Jahren in den verschiedenen SAPAnwendungen bewährt. Mit ihr können Verarbeitungsprozesse innerhalb des SAP-Systems automatisiert werden. 1 - 32 - [Projektarbeit, 2008] 3 Data-Mining-Workbench In Bezug auf das Starten von Analyseprozessen gibt es innerhalb der APD-Workbench zunächst zwei grundsätzliche Möglichkeiten: ■ Ausführen Dieser manuelle Startvorgang führt den Analyseprozess umgehend aus. Dabei ist jedoch während der gesamten Durchführung eine Verbindung zu dem Client notwendig, von dem der Prozess gestartet wurde. Bricht die Verbindung ab oder wird der Rechner ausgeschaltet, endet auch die Ausführung des Analyseprozesses. Vor allem bei Analyseprozessen die eine unbekannte oder längere Ausführungszeit besitzen, ist demnach von dieser Möglichkeit abzusehen. ■ Job einplanen Generell sollte die Durchführung von Analyseprozessen grundsätzlich mit der Hintergrundverarbeitung und der Einplanung als Job stattfinden. Auch wenn der Analyseprozess sofort gestartet werden soll, ist dies mit Hilfe der Hintergrundverarbeitung möglich. Zusätzlich steht eine Vielzahl an Optionen zur Verfügung, den Job selbstständig und auch regelmäßig automatisiert zu starten (zeitpunktbezogen oder periodisch nach Datum und Uhrzeit, nach einem Ereignis, nach der Ausführung eines anderen Jobs etc.).1 Abbildung 15: Hintergrundverarbeitung Existieren beispielsweise zwei zusammenhängende Analyseprozesse (einer der das Modell trainiert, ein anderer der mit Hilfe des trainierten Modells eine Vorhersage erzeugt), so können diese z.B. periodisch (wöchentlich) aktualisiert und gestartet werden. Jedoch gilt es zu bedenken, dass der zweite Prozess erst nach Beendigung des ersten gestartet werden kann, da dieser abhängig von den Trainingsergebnissen ist. Indem der zweite Prozess zeitlich so versetzt gestartet wird, dass der erste Prozess sicher beendet ist, kann das Problem gelöst werden. 1 Weiterführende Informationen siehe [SAPBibHV, 2008] - 33 - 3 Data-Mining-Workbench Flexibler kann man die Automatisierung dadurch gestalten, dass Ereignisse verwendet werden, die zum Ausführen der Analyseprozesse führen. Hierbei würde der erste Analyseprozess nach einem zu definierenden Ereignis gestartet. Mit der Funktion Nach Job wird der zweite Analyseprozess erst dann gestartet, wenn der erste beendet ist. Nachteil ist jedoch, dass der zweite Prozess nur einmalig mit der Funktion nach Job eingeplant werden kann. Bei nochmaliger Ausführung müsste der zweite Prozess erneut geplant werden. Ein Lösungsansatz um diese Problematik zu entschärfen ist die Verwendung von ABAPProgrammen (Advanced Business Application Programming). Benötigt wird dafür je ein Programm für das Starten der beiden Analyseprozesse sowie ein Rahmenprogramm, das die zeitliche Abhängigkeit berücksichtigt und dafür sorgt, dass der zweite Prozess erst nach erfolgreicher Beendigung des ersten Prozesses erfolgt. Dieses ABAP-Rahmenprogramm kann dann mit Hilfe der Hintergrundverarbeitung (regelmäßig) gestartet werden.1 Es existiert im Zusammenhang mit der wiederholten Ausführung von Analyseprozessen, die Modelle trainieren, ein weiteres schwerwiegendes Problem. Bei der mehrfachen Ausführung werden die zuvor berechneten Trainingsergebnisse nicht gelöscht. Daher folgt bei einem erneuten Versuch eine Fehlermeldung, dass das Modell bereits trainiert ist und vor dem neuen Training zurückgesetzt werden muss.2 Jedoch existiert im SAP-Standard in der Hintergrundverarbeitung keine Funktion für diesen Vorgang. So kann auch an dieser Stelle nur die Implementierung eines eigenen ABAP-Programms zum Zurücksetzen des Modells weiterhelfen. 3.5.2 Prozessketten Eine weitere Möglichkeit der Automatisierung ist mit Hilfe der Prozessketten denkbar.3 »Eine Prozesskette ist eine Reihe von Prozessen, die im Hintergrund eingeplant auf einen Event warten. Einige dieser Prozesse lösen einen eigenen Event aus, der wiederum andere Prozesse starten kann.«4 In der Prozesskettenpflege (siehe Abbildung 16) können somit auch komplexe Abläufe unter Berücksichtigung verschiedener Verläufe grafisch modelliert werden. Prozessketten werden nicht nur für den Ladeprozess von Daten aus einem Quellsystem in das Business Warehouse verwendet, sondern auch für eine Vielzahl weiterer Prozesse, die regelmäßig auftreten. Dementsprechend ist es auch mit Hilfe von Prozessketten möglich, die Prozesse rund um das Data Mining zu automatisieren. So könnte beispielweise ein beliebiger Startprozess gewählt werden (z.B. periodisch nach einem definierten Ereignis), um den Data-Mining-Prozess zu starten. Leider existieren keine Prozesstypen für die Verwendung von APD- oder DM-Modellen, so dass auch hier wieder ein Umweg über ABAP-Programme notwendig ist. - 34 - 1 Weiterführende Informationen siehe [KiVa, 2007] S.137ff 2 Siehe auch Abschnitt 3.4 Weitere Funktionen 3 Weiterführende Informationen siehe [SAPBibPK, 2008] 4 [BW310, 2005] S.324 3 Data-Mining-Workbench Es gilt jedoch auch bei den Prozessketten zu berücksichtigen, dass es nur mittels Eigenprogrammierung möglich ist, bereits trainierte Modelle zurückzusetzen. Dieses zu implementierende ABAP-Programm muss dann in der Prozesskette vor den Programmen zur Durchführung des Data Mining eingebunden werden. Abbildung 16: Beispiel einer Prozesskette - 35 - 4 Data-Mining-Verfahren im SAP BI 7.0 4 Data-Mining-Verfahren im SAP BI 7.0 In den folgenden Abschnitten werden alle im SAP BI 7.0 implementierten Data-MiningVerfahren ausführlich erläutert. Nach einer kurzen allgemeinen Einführung werden Beispiele und Einsatzszenarien vorgestellt, in denen die entsprechenden Data-Mining-Methoden in der Versorgungsindustrie verwendet werden können. Anschließend werden kurz die mathematisch-statistischen Grundlagen vermittelt, die für das Verständnis der jeweiligen Verfahren von Bedeutung sind. Darauf folgt die Beschreibung, wie das Verfahren im SAP BI 7.0 umgesetzt wurde. Abschließend wird die Implementierung im SAP BI 7.0 bewertet und Verbesserungspotentiale aufgezeigt. 4.1 Clusteranalyse Die Clusteranalyse ist eines der bedeutendsten Data-Mining-Verfahren und wird in der Wissenschaft und Medizin, vor allem jedoch im Marketing und in der Betriebswirtschaft, angewandt. »Unter dem Begriff Clusteranalyse [...] sind Verfahren aus dem Gebiet der multivarianten Statistik zusammengefasst, die auf objektivem und automatisiertem Wege eine i.allg. ungeordnete und umfangreiche Objektmenge in kleinere, homogene Teilmengen einteilen.«1 Das Clustering wird dazu verwendet, ähnliche Daten in zuvor unbekannte Cluster zu gruppieren. Anschließend ist es möglich, neue Daten in die nun vorhandenen Gruppen des Modells einzuordnen. Es wurde also ein Modell erzeugt, das nicht nur Gemeinsamkeiten von Daten erkennt und zusammenfasst, sondern auch erlaubt Vorhersagen zu erzeugen. Um diese abstrakten Beschreibungen zu konkretisieren, soll im Folgenden das Clustering zunächst anhand eines sehr einfachen Beispiels dargestellt werden. So gibt es in diesem Beispiel (siehe Abbildung 17) verschiedenfarbige Kisten, die zunächst aufgrund ihrer Farbe segmentiert werden sollen. Abbildung 17: einfaches Beispiel einer Clusteranalyse 1 - 36 - [Nakhaeizdaeh, 1998] S.109 4 Data-Mining-Verfahren im SAP BI 7.0 Dieser sehr einfache Ansatz zeigt ein Clustering, das auch manuell ohne die Verwendung von Data-Mining-Techniken durchgeführt werden kann. In der Regel sind die Anwendungsfälle des Clustering jedoch deutlich komplexer und ohne Unterstützung von ITSystemen nicht mehr möglich. So könnte das Beispiel in der Form erweitert werden, dass die Segmentierung der Kisten nicht nur anhand ihrer Farbe, sondern auch aufgrund der Breite, Höhe, Tiefe, Volumen, Zustand und dem Inhalt (mit wiederum einer Vielzahl an Attributen) erfolgen soll. Wie dann die Zuordnung der Kisten zu Clustern aussehen würde, kann nicht mehr so einfach beantwortet werden. Ein weiteres einführendes Beispiel aus Sicht der Betriebswirtschaft stellt die PortfolioAnalyse dar. Abbildung 18: Beispiel Clusteranalyse – Portfolio-Analyse Hier werden Produkte anhand ihrer Eigenschaften (Gewinn, Wachstumspotential und Umsatz) in Kategorien und Gruppen eingeteilt. Auch dieses Beispiel lässt sich um viele weitere Attribute ergänzen, wenn eine gezielte Analyse der Produktstrukturen notwendig ist. Vielfach wird das Clustering im Marketing im Bereich der Kunden- und Marktsegmentierung verwendet. Beispielsweise können so Marketingaktionen sehr gezielt für spezifische Kundensegmente durchgeführt oder Produkte besser an Kundenwünsche angepasst werden. Clustering kann auch mehrfach durchgeführt werden. Beispielsweise können Kunden zunächst anhand ihres Verhaltens (z.B. Kaufverhalten) gruppiert und anschließend die einzelnen Segmente nach demographischen Aspekten (Alter, Einkommen, Ort) „geclustert“ werden. 4.1.1 Beispiele in der Versorgerbranche Die folgenden Beispiele sollen einen ersten Überblick schaffen, welche Möglichkeiten dem Anwender in der Versorgungsindustrie mit Hilfe der Clusteranalyse zur Verfügung stehen. Wie auch bei den nachfolgenden Erläuterungen zu den anderen Verfahren, erfolgt an dieser Stelle keine detaillierte Betrachtung, ob die genannten Beispiele mit den zur Verfügung stehenden Daten realisierbar sind oder ob andere Daten zugekauft werden oder erweitert werden müssen. Diese Analyse des Datenmaterials ist bereits einer der entscheidenden - 37 - 4 Data-Mining-Verfahren im SAP BI 7.0 Vorgänge innerhalb des Data-Mining-Prozesses1 und kann deshalb an dieser Stelle nicht für jedes Beispiel durchgeführt werden. Detaillierte Kundensegmentierung Mit Hilfe der Clusteranalyse können neue, detaillierte Kundengruppen definiert werden. So kann es in vielerlei Hinsicht sinnvoll sein, weitere Kundenarten zu entdecken, die weit über die übliche Einordnung in Tarifkunden, Sonderkunden, Dienstleistungskunden und Interessenten hinaus geht oder diese weiter verfeinert. Anhand der Eigenschaften von Kunden, ihrer Verbräuche, Umsätze, Zahlungsverhalten, Alter, Wohnort und ggf. unter Zuhilfenahme externer Daten (wie z.B. Arbeitslosen- oder Wohlstandsqoute), können Kundengruppen gefunden werden, die Gemeinsamkeiten aufweisen, für die es jedoch so noch keine Namen gibt. Anschließend ist eine gezielte Betrachtung dieser spezifischen, zuvor unbekannten Gruppen möglich. Kündigungsprävention Indem die Kundensegmente definiert werden, die aufgrund ihrer Eigenschaften oder ihres Verhaltens besonders kündigungsgefährdet sind, ist eine gezielte Marketingaktion mit besonderen Angeboten möglich. So können diese potentiell abwanderungswilligen Kunden eventuell weiter an das Unternehmen gebunden werden. Durch die gezielte Ansprache werden keine „schlafenden Hunde“ geweckt und Kosten gespart. Zudem ist es in der Regel wesentlich teurer, einen Neukunden zu gewinnen, als einen bestehenden Kunden weiter zu binden. Optimierung des Forderungsmanagement Durch Identifikation der Gruppe der zahlungsunwilligen Kunden können schon frühzeitig entsprechende Maßnahmen eingeleitet werden, um diese zur Zahlung zu bewegen. Auch eine entsprechende Vorhersage über das Zahlungsverhalten und die Bonität eines neuen Kunden ist so möglich. Verkauf weiterer Produkte2 Kampagnen zum Ausbau von Kundenbeziehungen sind um ein Vielfaches erfolgreicher, als die Gewinnung von Neukunden, da zwischen Kunde und Unternehmen schon eine gewisse Vertrauensbasis geschaffen wurde. Mit Hilfe der Clusteranalyse können Kunden segmentiert werden, die zusätzlich zu den vorhandenen noch an weiteren Produkten (z.B. zusätzlich zum Stromvertrag auch ein Gasvertrag) oder an höherwertigen Tarifen interessiert sein könnten. Verbesserung des Betriebsklimas Indem Verhaltensmuster und betriebliche Vorlieben von Mitarbeitern genauer analysiert werden, kann das Betriebsklima in einem Unternehmen deutlich verbessert werden. Diese - 38 - 1 Siehe auch Abschnitt 2.6 Prozessmodelle 2 [Küppers, 1999] S.133 4 Data-Mining-Verfahren im SAP BI 7.0 Art der Clusteranalyse benötigt jedoch Daten, die in der Regel nicht oder nur indirekt in den vorhandenen Datenbanken abgelegt sind. Eine separate Aufnahme dieser „sozialen“ Daten der Mitarbeiter kann jedoch beispielsweise mit Hilfe einer Umfrage erfolgen. Optimierte Teambildung Ähnliche Ansätze wie bei der Verbesserung des Betriebsklimas sind auch bei der Optimierung von Teams denkbar. Durch die Analyse der Eigenschaften und Verhaltensweisen der Mitgliedern eines erfolgreichen Teams, können Rückschlüsse gezogen werden, wie ein ideales und optimiertes Team aufgebaut sein sollte (z.B. Teamgröße, Altersverteilung usw.), um Projekte effizient und erfolgreich durchzuführen. Automatisierung von Vorgängen1 Mit Hilfe der Clusteranalyse können häufig durchgeführte Vorgänge identifiziert werden. Diese oftmals wiederkehrenden Abläufe können anschließend ggf. automatisiert werden, um Kosten zu sparen (z.B. werden nach der Anlage eines Neukunden weitere Prozesse auf Basis der Kundendaten automatisiert durchgeführt). Anpassung der Produkte an die Kundenwünsche Mit Hilfe von Umfragen oder auf Grundlage des Verbräuche, Umsätze etc.) können die vorhandenen Vorstellungen und Wünsche des Kunden angepasst zufriedenheit und damit auch die Kundenbindung. Gewinnung von Neukunden. vorhandenen Datenmaterials (z.B. Produkte und Tarife besser an die werden. Dies erhöht die KundenDarüber hinaus erleichtert es die Prognose des Verbrauchs2 Durch die Analyse von Zeitreihen des Verbrauchs (Wasserverbrauch, Energieverbrauch usw.) ist es möglich, einzelne Abschnitte des Tages mit Hilfe der Clusteranalyse zu kategorisieren. Durch zusätzliche Daten z.B. bezüglich der Temperatur, Regendauer, Sonnenscheindauer können so, in Kombination mit der Wettervorhersage, Aussagen über den Verbrauch der kommenden Tage prognostiziert werden. Indem weitere Attribute, die den Verbrauch beeinflussen können, mit einbezogen werden, können die Aussagen weiter verfeinert werden. 4.1.2 Mathematische Grundlagen Um Data-Mining-Verfahren erfolgreich anwenden zu können, ist ein grundlegendes Verständnis über die Funktionsweise und die bedeutenden Begrifflichkeiten zwingend erforderlich. Nur so können die relevanten Parameter gezielt eingestellt und die daraus resultierenden Ergebnisse interpretiert werden. Da die detaillierte mathematische Betrachtung jedoch an dieser Stelle nicht zu leisten und für diese Arbeit auch nicht 1 [KiVa, 2007] S.151f 2 ebd. - 39 - 4 Data-Mining-Verfahren im SAP BI 7.0 entscheidend ist, werden im Folgenden (und auch in den entsprechenden Kapiteln der anderen Verfahren) die Grundlagen1 so wenig wie möglich, jedoch so viel wie nötig erläutert. Ähnlichkeit Wie aus den einführenden Beschreibungen deutlich wurde, ist es das Ziel der Clusteranalyse ähnliche Daten anhand ihrer Eigenschaften zu gruppieren. Um die Ähnlichkeit von Daten zu messen, gibt es verschiedene Möglichkeiten. An dieser Stelle wird die Vorgehensweise mit Hilfe einer Distanzfunktion näher erläutert. Als einfaches Beispiel dienen zunächst zwei Datenpunkte, die sich in einem zweidimensionalen Raum befinden. Ähnlich wie z.B. bei einer Portfolioanalyse (siehe Abbildung 18) kann hier die Ähnlichkeit von zwei Punkten (Daten) anhand ihrer Distanz bestimmt werden. Je näher sich die Punkte mit ihren zwei Ausprägungen zueinander befinden, desto größer ist ihre Ähnlichkeit. Für die Berechnung dieser Distanzen gibt es verschiedene Methoden, so z.B. die Manhattan-Distanz und die euklidische Distanz. Abbildung 19: Manhattan- und euklidische Distanz 2 Bei der Manhattan-Distanz wird davon ausgegangen, dass das Ziel nur durch rechtwinkeliges „Abbiegen“ erreicht werden kann (wie im Straßenverkehr von Manhattan). Daher berechnet sich die Distanz in der linken Abbildung wie folgt: dist(x, y) | a d bd | d (3 2,5) (3 2,5) (2,5 2) 0,5 0,5 0,5 1,5 Formel 1: Manhattan-Distanz Bei der euklidischen Distanz wird die direkte Gerade als kürzester Weg zwischen zwei Punkten betrachtet. - 40 - 1 In Anlehnung an [KiVa, 2007] S.152ff 2 In Anlehnung an [KiVa, 2007] S.153 4 Data-Mining-Verfahren im SAP BI 7.0 Daher berechnet sich in diesem Fall die Distanz wie folgt: n dist(x, y) (x d y d )² d 1 (3 2)² (3 2,5)² 1² 0,5² 1,118 Formel 2: euklidische Distanz In der Regel wird die Lp-Metrik verwendet, um die Ähnlichkeit von Informationen zu bestimmen. Sie entspricht dabei einer Verallgemeinerung der euklidischen Distanz: n dist(x, y) (x d p y d ) p , mit den Dimensionen d = {1, ..., n}. d 1 Formel 3: Lp-Metrik Da nicht nur zwei, sondern zumeist eine Vielzahl an Merkmalen die Daten charakterisieren, befindet man sich nicht in einer Ebene mit zwei Dimensionen sondern in einem n-dimensionalen Raum. Der zweite Aspekt, dem in der Lp-Metrik Rechnung getragen wird, ist die Berücksichtigung vieler verschiedener Distanzfunktionen für die Berechnung der Abstände. Daher werden nicht die ersten (Manhattan-Distanz) oder zweiten Potenzen (euklidische Distanz) und dazu korrespondierend die erste oder zweite Wurzel verwendet, sondern die p-te Potenz und die p-te Wurzel. Kompaktheit Der Begriff der Kompaktheit soll anhand eines Beispiels dargestellt werden, das im weiteren Verlauf der Erläuterung immer wieder verwendet wird. 1 Abbildung 20: Kompaktheit von Cluster 1 In Anlehnung an [KiVa, 2007] S.155 - 41 - 4 Data-Mining-Verfahren im SAP BI 7.0 In Abbildung 20 sind zwei verschiedene Cluster mit ihren Clusterzentren und jeweils sechs Datenpunkten dargestellt. Je enger die Datenpunkte in ihrer Gesamtheit am Clusterzentrum liegen, desto kompakter ist das Cluster. Aufgabe der Clusteranalyse ist es, die Datenpunkte so auf die Cluster aufzuteilen, dass eine bestmögliche Kompaktheit aller Cluster erzielt wird. »Die Zielsetzung einer Clusteranalyse ist also die Minimierung der Summe der Kennzahlen Kompaktheit aller Cluster, womit im Optimum automatisch die Clusterzerlegung gefunden wird, bei der eine Verbesserung durch eine Umordnung von Elementen in ein anderes Cluster nicht mehr möglich ist.«1 Die Kompaktheit eines Clusters lässt sich wie folgt definieren: n (x dk cdk )p Komp(k) = xk d 1 mit dem Mittelwert cdk 1 nk x dk k mit n k = Anzahl der Datenpunkte im Cluster k Formel 4: Kompaktheit Die Formel beschreibt die Summe aller Abstände der Datenpunkte zum Clusterzentrum. Dabei wird die p-te Potenz verwendet, um große Distanzen überproportional und gewichtet in das Gesamtergebnis einfließen zu lassen. Abbildung 20 verdeutlicht diesen Sachverhalt. Das Cluster links in der Abbildung erreicht durch Summierung der Abstände der Datenpunkte zum Clusterzentrum einen Gesamtwert von 6. Auch das Cluster rechts in der Abbildung erreicht diesen Wert, obwohl es nicht so kompakt ist. Durch die Potenzierung bekommen größere Distanzen zum Clustermittelpunkt eine entsprechend höhere Gewichtung. In bestimmten Situationen kann es auch sinnvoll sein die relative Kompaktheit zu berechnen. Wenn man beispielsweise links in der Abbildung 20 weitere Datenpunkte mit der Distanz 1 einfügt, steigt der Wert der Kompaktheit und das Cluster gilt somit als weniger kompakt. Indem der Wert der Kompaktheit durch die Anzahl der Datenpunkte eines Clusters dividiert wird, erhält man die relative Kompaktheit und umgeht diese Problematik. 1 - 42 - [KiVa, 2007] S.155 4 Data-Mining-Verfahren im SAP BI 7.0 4.1.3 Umsetzung im SAP BI 7.0 k-means-Algorithmus Die Implementierung der Clusteranalyse im SAP BI 7.0 basiert auf der sogenannten k-means-Methode. Der Ablauf lässt sich wie folgt beschreiben: ■ Schritt 1: Initialisierung Zufällige Zuordnung der Objekte (Informationen) zu k Cluster ■ Schritt 2: Berechnung Berechnung des Clusterzentrums für jedes Cluster ■ Schritt 3: Zuordnung Berechnung der Entfernungen der Objekte zu den Clusterzentren sowie Zuordnung aller Objekte zu dem nächstgelegenen Zentrum. ■ Schritt 4: Wiederholung Falls sich die Zuordnung von Objekten zu den Clustern geändert hat, weiter mit Schritt 2, ansonsten endet der Vorgang Anhand der folgenden Abbildung wird der Ablauf noch einmal verdeutlicht. Abbildung 21: Ablauf der Clusteranalyse (k-means) Im Schritt A (siehe Abbildung 21) werden einer definierten Anzahl an Clustern die Informationen (Objekte) zufällig zugeordnet. Dies kann auch weitaus unstrukturierter geschehen, als dies in der Abbildung dargestellt ist. Schritt B berechnet die Clusterzentren für jedes Cluster. In Schritt C werden dann die Distanzen zwischen den einzelnen Objekten und den Clusterzentren ermittelt. Zusätzlich werden die Objekte dem jeweils nächsten Clusterzentrum und damit dem jeweiligen Cluster zugeordnet. In dem Beispiel wechseln zwei Objekte dadurch ihre Zugehörigkeit zu einem Cluster. Anschließend werden erneut die - 43 - 4 Data-Mining-Verfahren im SAP BI 7.0 neuen Clusterzentren auf Grundlage der veränderten Situation berechnet. Die Vorgänge werden solange wiederholt bis es zu keinen neuen Zuordnungen mehr kommt. Konfiguration der Clusteranalyse Wie Data-Mining-Modelle angelegt werden können und welche Möglichkeiten dem Anwender in diesem Zusammenhang zur Verfügung stehen, wurde bereits in den vorangegangenen Abschnitten behandelt.1 Im Folgenden werden die spezifischen Einstellungen und Parameter zur Konfiguration der Clusteranalyse im SAP BI 7.0 erläutert. Nachdem ein Modell zur Clusteranalyse angelegt wurde, stehen dem Anwender die Registerkarten Felder und Parameter zur Konfiguration des Modells zur Verfügung. Abbildung 22: Clusteranalyse - Feldkonfiguration In der Feldkonfiguration werden die Datenfelder des Modells mit Name, Beschreibung und dem zugrundeliegenden InfoObject2 definiert. Im Feld Wertetyp muss angegeben werden, ob es sich dabei um stetige oder diskrete Daten handelt oder ob das Feld als Schlüsselfeld definiert werden soll.3 Die Spalten Parameter (nicht zu verwechseln mit der Registerkarte Parameter) und Werte erlauben eine individuelle Variation des Modells, was insbesondere bei der späteren Verfeinerung und Optimierung des Modells interessant wird. Im Dialogfeld für die Parameter eines Feldes kann zum Einen ein Gewichtungsfaktor angegeben werden. Dadurch wirken sich die Daten dieses Feldes entsprechend dem Faktor höher auf die Bildung der Cluster aus. »Dieser Effekt ist vergleichbar mit einer Kamera, bei der wir einstellen können, welcher Bereich in einem Bildausschnitt besonders scharf und klar aufgenommen werden - 44 - 1 Siehe Abschnitt 3.3 Anlegen eines DM-Modells 2 Weiterführende Informationen siehe [Projektarbeit, 2008] S.16ff 3 Siehe Abschnitt 3.3 Anlegen eines DM-Modells 4 Data-Mining-Verfahren im SAP BI 7.0 soll.«1 Zum Anderen kann ein Vorschlagswert definiert werden, der dann verwendet wird, wenn in der Spalte Werte, einzelne Werte und Bereiche als fehlend markiert werden. Mit Hilfe des Dialogfensters aus der Spalte Werte ergeben sich, wie bereits angedeutet, weitere Konfigurationsmöglichkeiten. So können dort Werte und Wertbereiche aussortiert und diskretisiert werden, d.h. Bereiche aus einem stetigen Datenfeld werden wie bei einem diskreten Feld an das Modell übergeben. Alternativ können auch einzelne Werte mit einer individuellen Gewichtung versehen werden. Abbildung 23: Clusteranalyse - Parameterkonfiguration In der Registerkarte Parameter werden die Einstellungen vorgenommen, die sich nicht nur auf einzelne Felder beziehen, sondern das Modell als Ganzes betreffen. So wird hier beispielsweise die Anzahl der Cluster definiert. Diese Angabe ist für den k-meansAlgorithmus2 besonders wichtig und hat auch einen entscheidenden Einfluss auf die Ergebnisse des Data-Minings. Darüber hinaus kann über die maximale Anzahl eindeutiger Werte gesteuert werden, wie viele unterschiedliche Ausprägungen ein als diskret definiertes Feld besitzen darf. Wird fälschlicherweise eine Vielzahl an unterschiedlichen Werten als diskret übergeben, hat dies massive Auswirkungen auf die Gesamtperformance. Dieses Abbruchkritierium schützt den Anwender vor dieser Problematik, indem bei der Überschreitung der definierten Anzahl das Feld für die Berechnung nicht weiter berücksichtigt wird. Zuletzt lässt sich über den Anteil der Segmentwechsel festlegen, wann die Clusteranalyse vorzeitig beendet werden soll. Wenn beispielsweise 100 Datensätze vorliegen und der Anteil der Segmentwechsel mit 0,150 angegeben wird, endet die Wiederholung der Schritte des k-means-Verfahrens sobald weniger als 15% (also 15 Datensätze) einem anderen Cluster zugeordnet werden. 1 [KiVa, 2007] S.160f 2 Siehe Abschnitt 4.1.3 k-means-Algorithmus - 45 - 4 Data-Mining-Verfahren im SAP BI 7.0 Nachdem das Data-Mining-Modell in der DM-Workbench gespeichert und aktiviert wurde, kann die Clusteranalyse durchgeführt werden. Dazu muss jedoch zunächst ein Analyseprozess (siehe Abbildung 24) angelegt werden.1 Abbildung 24: Clusteranalyse - Analyseprozess Hierzu wird neben der Datenquelle das Datenziel Clusteranalyse verwendet. Die Clusteranalyse gibt es zusätzlich im Bereich der Transformationen. Diese wird jedoch ausschließlich für die Vorhersage mit Hilfe des Clustering verwendet. Die Voraussetzung dafür ist ein trainiertes Clustermodell, welches als Transformation zwischen einer Datenquelle und einem Datenziel abgelegt wird. Alternativ kann die Vorhersage für einzelne, manuell einzugebende Werte simuliert werden, ohne dass ein zusätzlicher Analyseprozess notwendig ist. Es wird deutlich, dass nicht nur die reine Segmentierung von Daten und deren anschließender Analyse zu interessanten und bedeutsamen Erkenntnissen führen können, sondern dass auch die Vorhersage ein wichtiges Instrument ist. Folgendes Beispiel veranschaulicht noch einmal die Möglichkeiten der Vorhersage auf Basis der Clusteranalyse: »Bei der Annahme eines Telefongesprächs wird automatisch die übermittelte Telefonnummer eines Kunden an eine Suchfunktion übergeben, die Kundendaten werden gelesen und die Zuordnung zu einem Marktsegment wird automatisch abgefragt. Dem Call-CenterMitarbeiter wird innerhalb von Sekundenbruchteilen angezeigt, ob es sich bei dem Anrufer um einen „guten“ oder „schlechten“ Kunden handelt – und diese Information ist bereits vorhanden, noch bevor das Gespräch durch den Call-Center-Mitarbeiter angenommen worden ist.«2 - 46 - 1 Weiterführende Informationen zum Anlegen eines Analyseprozesses siehe [Projektarbeit, 2007] 2 [KiVa, 2007] S.176 4 Data-Mining-Verfahren im SAP BI 7.0 Analyse der Modellergebnisse Die Analyse der Modellergebnisse ist ein weiterer, umfangreicher Abschnitt des DataMining-Prozesses, der an dieser Stelle nicht vollständig dargestellt werden kann.1 Daher werden die Möglichkeiten der Ergebnisanalyse nur kurz erläutert. Folgende Diagramme und Anzeigen in Bezug auf die Ergebnisse der Clusteranalyse sind im SAP BI 7.0 möglich: ■ Einflussdiagramm Grafische Darstellung über die Anzahl der Datensätze je Cluster und dem Einfluss der einzelnen Felder auf die Bildung der Cluster. Abbildung 25: Clusteranalyse – Einflussdiagramm ■ grafische Verteilung der Werte Darstellung wie die Werte und damit die Eigenschaften der Cluster verteilt sind. Abbildung 26: Clusteranalyse – grafische Verteilung der Werte ■ Verteilung der Attribute als Tabellen Tabellarische Übersicht über die Anzahl der verschiedenen Merkmalsausprägungen in dem jeweiligen Cluster. Abbildung 27: Clusteranalyse – Verteilung der Werte als Tabelle 1 Weiterführende Informationen siehe [KiVa, 2007] S.169ff - 47 - 4 Data-Mining-Verfahren im SAP BI 7.0 ■ grafische Verteilung der Attribute Grafische Darstellung der oben genannten tabellarischen Übersicht. Abbildung 28: Clusteranalyse – grafische Verteilung der Werte ■ Informationen zu den Entfernungen zwischen und innerhalb der Cluster Grafische Darstellung bezüglich der Entfernungen und damit der Kompaktheit1 und Homogenität zwischen und innerhalb der Cluster. Abbildung 29: Clusteranalyse – grafische Darstellung der Entfernungen Kommt es innerhalb von einzelnen Clustern zu vergleichsweise hohen Entfernungen, sollte über eine veränderte Konfiguration der Modellparameter nachgedacht werden (z.B. Erhöhung der Anzahl der Cluster), um so die Kompaktheit der Cluster weiter zu optimieren. ■ Clustertexte anpassen An dieser Stelle können individuelle Namen für die Cluster vergeben werden, um diese für die Analyse und Auswertung verständlicher zu machen. Zumeist wird ein „inhaltlicher“ Name vergeben, der das Cluster aufgrund seiner Eigenschaften und Datensätze beschreibt. ■ Vorhersagesimulation Durch die manuelle Eingabe von Werten kann auf Grundlage des Modells vorhergesagt werden, welchem Cluster dieser Datensatz zugeordnet wird. Abbildung 30: Clusteranalyse – Vorhersagesimulation 1 - 48 - Siehe Abschnitt 4.1.2 Mathematische Grundlagen 4 Data-Mining-Verfahren im SAP BI 7.0 4.1.4 Bewertung Der im SAP BI 7.0 verwendete k-means-Algorithmus ist die am meisten verbreitete Clustermethode, da sie nach einem einfachen Prinzip aufgebaut ist, effizient arbeitet und gute Ergebnisse liefert. In der folgenden Tabelle sind die wesentlichen Vor- und Nachteile gegenübergestellt: Stärken Schwächen einfaches Prinzip und daher populär ggf. unterschiedliche Ergebnisse in Abhängigkeit von den Startpositionen der Cluster schnell und effizient (geringe Anzahl an Iterationen) Problematisch bei Rauschen und Ausreißern, da alle Datenpunkte zur Berechnung des Zentrums einfließen „quick´n´dirty“ – liefert fast immer gute Ergebnisse liefert nicht zwangsläufig das globale Optimum Anzahl der Cluster muss im Vorfeld definiert werden Tabelle 1: Stärken und Schwächen des k-means-Algorithmus Einige der Schwächen können allein dadurch umgangen werden, dass die Clusteranalyse wiederholt gestartet und anschließend überprüft wird, ob der Algorithmus aufgrund der zufälligen Initialisierung1 ein anderes Ergebnis liefert. Zum Gebiet der Clusteranalyse wird eine Vielzahl von Verfahren gezählt, die in verschiedene Kategorien und Unterkategorien (partitionierende Verfahren, hierarchische Verfahren, neuronale Netze, Optimierungsverfahren usw.) eingeteilt sind. Detaillierte Betrachtungen und Vergleiche zum (partitionierenden) k-means-Algorithmus sind an dieser Stelle nicht zu leisten.2 Besonders interessant im Bereich der Clusteranalyse sind jedoch die neuronalen Netze z.B. der Kategorie SOM (Self Organizing Maps) sowie die evolutionären Algorithmen als Optimierungsverfahren zur Minimierung der Distanzen.3 Es bleibt abschließend festzuhalten, dass die Implementierung des k-means-Algorithmus zur Berechnung der Clusteranalyse als bisher einzige Möglichkeit im SAP BI 7.0 richtig und sinnvoll ist. Eine Erweiterung um zusätzliche Methoden der Clusterbildung ist jedoch in der Zukunft wünschenswert. 1 Siehe Abschnitt 4.1.3 k-means-Algorithmus 2 Weiterführende Informationen siehe [Nakhaeizadeh, 1998] S.225ff, [Küppers, 1999] S.51ff, [Pertersohn, 20005] S.73ff sowie die umfangreiche Literatur im Abschnitt 13 Quellenverzeichnis 3 Weiterführende Informationen siehe [AlNi, 2000] S.69ff, S.199ff, [KiVa, 2007] S.281ff, [Pertersohn, 20005] S.73ff - 49 - 4 Data-Mining-Verfahren im SAP BI 7.0 4.2 ABC-Analyse Die ABC-Analyse ist ein einfaches Verfahren, dessen Grundüberlegungen 1906 von Vilfredo Pareto festgehalten wurden, als er eine Formel aufstellte, die das Ungleichgewicht bei der Vermögensverteilung in seinem Land darstellte (20% der Bevölkerung besitzen 80% des Vermögens). Neben den Begriffen ABC- oder Pareto-Analyse wird das Konzept vielfach auch als Juran-Prinzip oder 80/20-Regel bezeichnet. Unabhängig von der Namensgebung basiert das Prinzip immer auf dem gleichen Konzept. Es werden die »vital few« von den »trivial many« getrennt und mit einem Schlüssel (z.B. A, B oder C) versehen.1 Dieses Verfahren kann in vielfacher Weise angewandt werden, sei es für die Segmentierung von Kunden, Lieferanten, Märkten, Produkten usw. Das Ergebnis einer Kundensegmentierung könnte beispielsweise lauten: ■ Klasse A: 20% der Kunden generieren 50% des Erlöses ■ Klasse B: 30% der Kunden generieren 30% des Erlöses ■ Klasse C: 50% der Kunden generieren 20% des Erlöses Somit werden die wichtigen von den unwichtigen Kunden (oder Produkten, Märkten, Lieferanten etc.) getrennt und können entsprechend behandelt werden. Der Unterschied zur Clusteranalyse liegt bei der ABC-Analyse in der Betrachtung von univariat verteilten Variablen, d.h. es wird nur eine Variable isoliert betrachtet, ohne Berücksichtigung von Abhängigkeiten zu anderen Variablen. Bei dem Clustering spricht man von multivariat verteilten Variablen.2 Dadurch ist die ABC-Analyse wesentlich einfacher und performanter durchzuführen, jedoch bezüglich der Klassifikationskriterien deutlich eingeschränkt. Es gibt verschiedene Ansätze der Erweiterung der ABC-Analyse. Beispielsweise können die Informationen aus mehreren Variablen in einer Kennzahl gebündelt werden (z.B. Umsatz und Kosten zu Deckungsbeitrag). Darüber hinaus können die Daten schon im Vorfeld anhand bestimmter Kriterien (z.B. Land, Region, Kreis) gruppiert werden, um anschließend für jede Gruppe eine separate ABC-Analyse durchzuführen. Eine weitere Möglichkeit ist, die ABC-Analyse mehrfach durchzuführen, wie in Abbildung 31 dargestellt. Dort werden in einem ersten Schritt zunächst die Klassen A, B und C (z.B. nach Umsatz) ermittelt und anschließend für jede dieser Klassen eine erneute ABC-Analyse mit einer anderen Variablen (z.B. Erlös) durchgeführt. So können aus den 3 bereits bestehenden Klassen insgesamt 9 detailliertere Klassen gebildet werden. - 50 - 1 [Juran, 2008] 2 [KiVa, 2007] S.178 4 Data-Mining-Verfahren im SAP BI 7.0 1 Abbildung 31: Zweifache ABC-Analyse 4.2.1 Beispiele in der Versorgerbranche Die Einsatzgebiete der ABC-Analyse sind vielfältig. In einem ersten Überblick sind in der Versorgerbranche folgende Beispiele denkbar: Kundensegmentierung nach Ertrag Hierbei werden dem Kunden einerseits die Erlöse aus Verbrauch, Grundgebühren und der Nutzung anderer Dienste (ggf. auch für verschiedene Sparten), andererseits die durch ihn anteilig entstandenen Kosten (Verbrauchskosten, Netzkosten, Wartungskosten, Abrechnungskosten usw.) zugeordnet. Anschließend werden die Deckungsbeiträge aufsteigend sortiert. Das Ergebnis ist zumeist eine Kurve, deren Steigung im Verlauf abnimmt. Die Einteilung in die ABC-Klassen wird zu Beginn festgelegt, jedoch anschließend in einem iterativen Prozess optimiert und angepasst. Als Ergebnis kann beispielsweise die Kundenbetreuung hinsichtlich einer Ertragssteigerung verändert werden. Produkt- und Tarifsegmentierung Auch bei den Produkten und Tarifen kann anhand von definierten Kriterien eine ABCAnalyse durchgeführt werden. So kann z.B. das Produkt- und Tarifportfolio optimiert, gezielt erweitert oder bereinigt werden. Häufigste Fehler Welches sind die häufigsten Fehler sowohl im Unternehmen selbst, als auch z.B. bei der Installation, Ablesung oder Abrechnung beim Kunden? Welche Kosten entstehen dadurch? Welche Fehler verursachen die meisten Kosten? Diese und viele anderen Fragen können in diesem Zusammenhang mit Hilfe der ABC-Analyse beantwortet werden. Die Betrachtung der wirtschaftlich bedeutendsten Fehler kann so zu einer deutlichen Senkung der Kosten führen. 1 In Anlehnung an [KiVa, 2007] S.178 - 51 - 4 Data-Mining-Verfahren im SAP BI 7.0 Kundensegmentierung nach Forderungen Ähnlich wie in den vorangegangenen Beispielen könnte eine ABC-Analyse der Kunden auf Grundlage der Forderungen durchgeführt werden. So werden diejenigen Kunden identifiziert, bei denen es sich lohnt gezielte Anreize zur Zahlung zu schaffen. Kostenstellenanalyse Auch im Bereich der Kostenstellen sind viele verschiedene ABC-Analysen, wie sie bereits beschrieben wurden, denkbar. Grundsätzlich ist es mit der ABC-Analyse möglich, nicht nur das „Wichtige“ vom „Unwichtigen“ zu trennen und die Wirtschaftlichkeit zu steigern, sondern auch Rationalisierungsschwerpunkte zu setzen und unnötige Anstrengungen zu vermeiden. 4.2.2 Mathematische Grundlagen Als mathematische Grundlage für die ABC-Analyse dient die Verteilungsfunktion der Pareto-Verteilung. Sie ist wie folgt definiert: F(x) 1 x0 x k mit x 0 , k > 0 und x 0 > x Formel 5: Pareto-Verteilung Der typische Verlauf der Funktion ist in Abbildung 32 dargestellt. Abbildung 32: Pareto-Verteilung In diesem Beispiel erzeugt in der Klasse A ein Mengenanteil von 15% schon 70% des Wertanteils. In der zweiten Klasse B ist dieses Verhältnis schon weniger ausgeprägt und in der letzten Klasse erzeugen 65% nur ca. 10% des Wertes. Die Grenzen der Klassen werden dabei im Idealfall in einem iterativen Prozess optimiert. - 52 - 4 Data-Mining-Verfahren im SAP BI 7.0 4.2.3 Umsetzung im SAP BI 7.0 Ablauf der ABC-Analyse Zunächst soll der grundsätzliche Ablauf der ABC-Analyse kurz erläutert werden. In Abbildung 33 wird beispielhaft eine ABC-Analyse der Tarife, klassifiziert nach der Kennzahl Umsatz, durchgeführt. 1 Abbildung 33: ABC-Analyse Im ersten Schritt werden die Objekte (oder Datensätze) anhand des Kriteriums Umsatz absteigend sortiert. Die Reihenfolge wird in der Spalte Rang festgehalten. Anschließend wird die Anzahl der Objekte kumuliert und zusätzlich ihr prozentualer Anteil an der Gesamtanzahl berechnet. Daraufhin werden auch die Umsätze kumuliert und ebenfalls als prozentualer Anteil am Gesamtumsatz angegeben. Zuletzt erfolgt die Zuordnung der Klassen in Abhängigkeit von dem kumulierten Kriterium in Prozent. In diesem Beispiel werden alle Tarife die bis zu 65% des Gesamtumsatzes generieren der Klasse A zugeordnet. Alle Tarife die weitere 25% des Umsatzes erzeugen, gehören zu Klasse B. Die restlichen 10% des Gesamtumsatzes sind Tarife der Klasse C. Im SAP BI 7.0 gibt es zu der beispielhaft genannten Variante (Bewertung anhand des kumulierten Kriteriums in %) noch drei weitere Möglichkeiten, die Klassifizierung und damit die Einteilung in die Klassen A, B und C vorzunehmen. Diese Alternativen werden im weiteren Verlauf an gegebener Stelle näher erläutert. 1 In Anlehnung an [KiVa, 2007] S.181 - 53 - 4 Data-Mining-Verfahren im SAP BI 7.0 Konfiguration der ABC-Analyse Zuerst muss in der DM-Workbench das Data-Mining-Modell der Kategorie ABC-Analyse erzeugt und konfiguriert werden. Dafür stehen nach Angabe des Namens und der Bezeichnung des Modells die zwei Registerkarten Felder und Parameter zur Verfügung. Abbildung 34: ABC-Analyse – Feldkonfiguration Bei der Feldkonfiguration werden alle Felder mit den zugrunde liegenden InfoObjects angegeben, die in die Berechnung der ABC-Analyse einbezogen werden sollen. Dabei muss zu jedem Feld ein Wertetyp angegeben werden. Folgende Möglichkeiten stehen in diesem Zusammenhang zur Auswahl: ■ Classification Criterium Das Klassifikationskriterium ist das Feld, anhand dessen die Objekte den entsprechenden Klassen zugeordnet werden. Dabei kann nur ein Feld als Klassifikationskriterium definiert werden. ■ Classified Object Gibt das Objekt an, das die Einstufung in die Klassen erhält. Dabei ist es irrelevant, ob ein oder mehrere Felder diesen Wertetyp erhalten. ■ Grouping Attribute Das Gruppierungsattribut erlaubt die Klassifizierung nach Untergruppen. Wird ein Feld als Gruppierungsattribut angegeben, wird für jede Ausprägung des Feldes eine eigene ABC-Analyse durchgeführt. So kann beispielsweise direkt für jede Region, jedes Produkt oder jeden Tarif eine separate ABC-Analyse durchgeführt werden. - 54 - 4 Data-Mining-Verfahren im SAP BI 7.0 Die Konfiguration der Registerkarte Parameter ist in der folgenden Abbildung dargestellt: Abbildung 35: ABC-Analyse – Parameterkonfiguration In der Parameterkonfiguration werden zum Einen die Klassen definiert sowie deren Wertintervall angegeben. Zusätzlich muss die Intervallart konfiguriert werden (offen, rechts offen, links offen, geschlossen). Wichtig für die ABC-Analyse ist die Festlegung, wie klassifiziert werden soll. Dazu stehen insgesamt vier Möglichkeiten zur Verfügung. Entweder es werden absolute Werte verwendet oder relative, kumulierte Prozentwerte. Beide Varianten lassen sich mit den Werten des Klassifikationskriteriums (z.B. Umsatz) oder der Anzahl des zu klassifizierenden Objekts (z.B. Kunden) kombinieren. So können beispielsweise der Klasse A alle Objekte mit den kumulierten Werten zwischen 1000 und 2000 zugeordnet werden oder mit den absoluten Werten 300 bis 400 oder auch die ersten 20% oder die ersten 50 Datensätze in der berechneten Rangfolge. Nachdem das DM-Modell gespeichert und aktiviert wurde, kann der dazugehörige APDProzess erstellt werden. Hierbei sind keine besonderen Einstellungen nötig. Es müssen lediglich die aus der Datenquelle zur Verfügung stehenden Felder denen des ABC-Modells zugeordnet werden. Abbildung 36: ABC-Analyse – Analyseprozess - 55 - 4 Data-Mining-Verfahren im SAP BI 7.0 Analyse der Modellergebnisse Zur Anzeige der Ergebnisse stehen zwei Möglichkeiten zur Verfügung. Abbildung 37: ABC-Analyse – Ergebnisdarstellung Zum Einen werden Analysen in der bereits bekannten grafischen Form präsentiert. Zusätzlich werden die wichtigsten statistischen Informationen angezeigt. Alternativ können die Ergebnisse in Form einer Tabelle, wie auch bei der Speicherung im Datenziel, dargestellt werden. 4.2.4 Bewertung Die ABC-Analyse ist bereits seit vielen Jahren im R/3-System (z.B. im Logistikinformationssystem) integriert. Im BI 7.0 im Zusammenhang mit den Data-MiningVerfahren wurde das Werkzeug jedoch bezüglich des Funktionsumfangs und der Benutzerfreundlichkeit deutlich verbessert. Ingesamt ist die ABC-Analyse ein sehr einfaches, aber sehr effektives und bekanntes Verfahren, das in vielen Einsatzbereichen Anwendung findet. Die Vor- und Nachteile der ABC-Analyse sind in der folgenden Tabelle festgehalten. Stärken Schwächen Eingrenzung der wesentlichen Faktoren und dadurch geringer Aufwand und performante Durchführung Grobe Einteilung in definierte Klassen und keine Berücksichtigung von Abhängigkeiten Einfaches und populäres Verfahren Fokussierung auf ein einzelnes (oder kombiniertes) Kriterium Sehr gute Darstellung der Ergebnisse möglich Erweiterbar durch nacheinander geschachtelte ABCAnalysen Tabelle 2: Stärken und Schwächen der ABC-Analyse In der betrieblichen Praxis kann die ABC-Analyse durch weitere Verfahren (wie z.B. die XYZ- sowie die GMK-Analyse) erweitert werden. Dies ist im SAP BI 7.0 standardmäßig nicht vorgesehen. In der Regel wird die ABC-Analyse jedoch ohnehin für vorbereitende Zwecke oder schnelle Analysen verwendet. - 56 - 4 Data-Mining-Verfahren im SAP BI 7.0 4.3 Scoring-Verfahren Das Scoring ist eines der bekanntesten Verfahren zur Bewertung von Datensätzen. Es wird in vielfacher Weise im alltäglichen Leben eingesetzt und ist sehr populär, da es (zumindest in der grundlegenden Anwendung) leicht verstanden werden kann. Wie aus dem Namen des Verfahrens schon ersichtlich wird, sollen Daten mit Hilfe von Punkten bewertet werden. Dabei werden verschiedene Daten mit unterschiedlicher Gewichtung „bepunktet“ und anschließend zu einem Scorewert verrechnet. So lassen sich beispielsweise Kunden mit einer Vielzahl an unterschiedlichen Kundenattributen in einem Gesamtwert (z.B. Wert des Kunden für das Unternehmen) zusammenfassen und vergleichen. Im Alltag wird dieses Prinzip in vielen Bereichen eingesetzt, z.B. bei der Vergabe von Krediten. Ob ein Kunde kreditwürdig ist oder nicht, hängt von vielen verschiedenen Faktoren ab, die eine unterschiedliche Gewichtung besitzen. Letztendlich ist aber der Gesamtscorewert entscheidend, der aussagt, ob an den Kunden ein Kredit vergeben wird. Ein weiteres, einfaches Beispiel ist die Berechnung der Durchschnittsnote des Studiums. Während das Grundstudium in geringerem Maße in die Gesamtnote einfließt, haben das Hauptstudium und die Diplomarbeit im Verhältnis eine höhere Gewichtung. Vielfach erfolgt eine Bewertung auf Basis eines Scoring-Verfahrens auch unbewusst und intuitiv. Möchte man beispielsweise ein Auto kaufen und dieses mit einem anderen vergleichen, werden die Merkmale gewichtet. Einem bestimmten Ausstattungsmerkmal wird dabei eventuell eine höhere Gewichtung zuteil, wohingegen andere Merkmale von geringerer Bedeutung sind. Wenngleich in diesem Beispiel kein Scorewert im Sinne einer numerischen Größe berechnet wird, ist das Prinzip dennoch dasselbe. 4.3.1 Beispiele in der Versorgerbranche Das Scoring ist, wie bereits beschrieben, ein recht einfaches Verfahren, das ohne große mathematische Kenntnisse zugänglich ist. Im Folgenden werden verschiedene Beispiele erläutert, in denen das Scoring als Data-Mining-Verfahren sinnvoll eingesetzt werden kann. Kundenbewertung Eine mögliche Anwendung der Scoring-Analyse in der Versorgungsindustrie ist das Erzeugen eines Kundenindex in Abhängigkeit von dem Wert des Kunden für das Unternehmen. So können Kunden von einem Versorger beispielsweise sowohl Strom, als auch Gas beziehen. Jedoch ist der Gewinn für das Unternehmen in der Sparte Gas ggf. höher als in der Sparte Strom. Aus diesem Grund sind Kunden mit hohem Gasverbrauch (im Verhältnis zum Stromverbrauch) besonders wichtig. Diesen Gedanken kann man mit einer entsprechenden Gewichtung berücksichtigen. Zusätzlich können weitere Attribute, wie die Umsätze der vergangenen Monate, die Inanspruchnahme von zusätzlichen Dienstleistungen usw. mit einer individuellen Gewichtung einbezogen werden, um schließlich den Gesamtwert eines Kunden zu ermitteln. Anhand dieses Wertes kann z.B. eine Intensivierung der Beziehungen zu den wertvollen Kunden gezielt durchgeführt werden. - 57 - 4 Data-Mining-Verfahren im SAP BI 7.0 Werbescoring Mit Hilfe der Scoring-Technik können auch Werbekampagnen gezielt durchgeführt werden, indem beispielsweise die Kaufkraft oder das Ansprechverhalten auf entsprechende Werbekampagnen berechnet wird. Die Ergebnisse erlauben dann Aussagen darüber, welche Personen für welche Produkte auf welchem Weg beworben werden sollten. Call-Center Ein weiteres mögliches Szenario für eine Scoring-Analyse ist die Einstufung der Anrufer in einem Call-Center, um so anhand verschiedener Kriterien die Anrufer in der Warteschlange zu sortieren. Diejenigen Kunden die für das Unternehmen eine besondere Bedeutung haben, können so direkt angesprochen werden, wohingegen „Nörgler“ und „Daueranrufer“ länger in der Warteschlange verweilen. Optimierung des Forderungsmanagement Wie auch schon bei der Clusteranalyse ist es mit den Mitteln des Scoring-Verfahrens möglich, die Zahlungsfähigkeit und Zahlungswilligkeit eines Kunden vorherzusagen. Dabei fließen verschiedene Merkmale mit unterschiedlicher Gewichtung in einen Gesamtwert des Kunden ein. So können Neukunden oder potentiell zahlungsunwillige Kunden zu einer schnellen Zahlung bewegt oder auf ein anderes Zahlungsverfahren umgestellt werden. Mitarbeiterranking Nicht nur die Kunden, sondern auch die eigenen Mitarbeiter des Unternehmens können mit Hilfe des Scoring bewertet werden. So können Mitarbeiter, die für den Erfolg des Unternehmens von besonderer Bedeutung sind, identifiziert und anschließend ihre Bindung zum Unternehmen intensiviert werden. 4.3.2 Mathematische Grundlagen Im SAP BI 7.0 ist lediglich die additive Berechnung durch Summieren der Teilbewertungen möglich. Daher lässt sich der mathematische Ansatz sehr einfach wie folgt darstellen: f (x1 ,..., x n ) w1f1 (x1 ) ... w n f n (x n ) , mit x i = zu bewertendes Merkmal i w i = Gewicht des i-ten Merkmals fi (x i ) = Bewertungsfunktion des i-ten Merkmals 1 Formel 6: Additives Scoring-Verfahren 1 - 58 - [KiVa, 2007] S.196 4 Data-Mining-Verfahren im SAP BI 7.0 4.3.3 Umsetzung im SAP BI 7.0 Ablauf des Scoring Der Ablauf des Scoring im SAP BI 7.0 ist in Abbildung 38 dargestellt und nachfolgend beschrieben. 1 Abbildung 38: Ablauf Scoring-Verfahren Wie aus der Abbildung deutlich wird, gibt es zwei Gewichtungsgrößen, die den Gesamtscorewert beeinflussen. Die Gewichtung der ersten Ebene legt die Bedeutung eines Merkmals innerhalb des gesamten Modells fest. In dem dargestellten Beispiel ergeben die einzelnen Gewichtungen der ersten Ebene in Summe 1. Dies dient der Übersichtlichkeit, ist jedoch nicht zwingend erforderlich. Die Gewichtung in der zweiten Ebene, die sogenannte Partialgewichtung, erlaubt es die einzelnen Werte eines Merkmals mit individuellen Gewichtungen zu versehen, wodurch ein detailliertes Score-Verfahren möglich wird. Oft ist es nicht sinnvoll, für jeden Wert eine eigene Gewichtung zu vergeben. Daher ist es auch möglich, eine Gewichtung linear zum entsprechenden Wert zu definieren. Konfiguration des Scoring Vor dem Anlegen und Konfigurieren des Scoring-Modells müssen zunächst ein paar Begrifflichkeiten in der DM-Workbench korrigiert bzw. eingeordnet werden. Oftmals werden die Data-Mining-Verfahren Regressionsanalyse und Weighted Scoring (hier als Scoring bezeichnet) unter dem Begriff Approximation zusammengefasst. Wie in der Abbildung 39 zu sehen ist, wurde diese Hierarchie auch in der DM-Workbench verwendet. 1 In Anlehnung an [BW380, 2005] S.182 - 59 - 4 Data-Mining-Verfahren im SAP BI 7.0 Abbildung 39: Fehlerhafte Bezeichnungen in der DM-Workbench Nicht gelungen ist jedoch die Bezeichnung der einzelnen Approximationsverfahren. Die Regressionsanalyse wird als Scoring bezeichnet, wohingegen das Weighted Scoring keine Bezeichnung besitzt. Anhand des technischen Namens lassen sich beide Verfahren jedoch eindeutig unterscheiden. Im ersten Schritt der Scoring-Analyse muss ein entsprechendes Modell erzeugt und konfiguriert werden. Anschließend stehen dem Anwender, wie bei den anderen Verfahren auch, die Registerkarten Felder und Parameter zur Konfiguration des gesamten Modells sowie die Spalte Parameter zur individuellen Konfiguration der einzelnen Felder zur Verfügung. In der Registerkarte Parameter kann lediglich der Standard-Scorewert festgelegt werden, der bei fehlenden Daten oder bei der Behandlung von Ausreißern verwendet wird. In der Registerkarte Felder werden, wie bereits bekannt, alle benötigten Meta-Informationen angegeben. Zusätzlich wird festgelegt, ob es sich bei den Daten in dem jeweiligen Feld um stetige oder diskrete Daten handelt oder ob dieses Feld als eindeutiges Schlüsselfeld definiert werden soll. In Abhängigkeit von dem gewählten Wertetyp stehen zum Teil unterschiedliche Konfigurationsmöglichkeiten durch die Spalte Parameter zur Verfügung. Im Folgenden werden deshalb die einzelnen Parameter für stetige und für diskrete Datenfelder näher erläutert. Schlüsselfelder können nicht weiter konfiguriert werden. Abbildung 40: Konfiguration von stetigen Datenfeldern - 60 - 4 Data-Mining-Verfahren im SAP BI 7.0 In der Parameterkonfiguration für das jeweilige Feld kann auf der Registerkarte Werte zunächst die Gewichtung des Feldes im Kontext des gesamten Modells (d.h. die Gewichtung auf erster Ebene) definiert werden. Anschließend können die Partialgewichte für spezifische Werte eingestellt werden. Bei stetigen Datenfeldern geschieht dies im Normalfall stückweise linear, d.h. die Werte die rechts und links von den gewählten Schwellenwerten liegen, werden durch lineare Interpolation bestimmt. Alternativ werden durch Aktivieren der Option Funktion stückweise konstant die Werte der linken oder rechten Schwellenwerte bis zum nächsten Schwellenwert übernommen. Die genannten Möglichkeiten bezüglich der Partialgewichtungen sind in Abbildung 41 noch einmal dargestellt: 1 Abbildung 41: Möglichkeiten der Partialgewichtung Darüber hinaus kann zur Beschleunigung und Vereinfachung der Partialgewichtung über die entsprechende Option das Partialgewicht so konfiguriert werden, dass es identisch zum Schwellenwert ist. Mit Hilfe der Registerkarte Behandlung von Ausreißern können Regeln für diejenigen Werte konfiguriert werden, die (weit) außerhalb der normalen Intervalle liegen. Folgende Möglichkeiten stehen in diesem Zusammenhang zur Verfügung: ■ Bearbeitung abbrechen ■ Datensatz ignorieren ■ Standard-Scorewert zuweisen ■ Konstante Extrapolation ■ Extrapolation Die Begriffe sind bis auf die beiden zuletzt genannten weitestgehend selbsterklärend. Konstante Extrapolation bedeutet, dass Werte außerhalb des Wertebereiches den nächstgelegenen Grenzwert des Intervalls als Konstante zugeordnet bekommen. Bei der Extrapolation wird der Wert auf Basis der Datenpunkte des Intervalls linear geschätzt. 1 In Anlehnung an [KiVa, 2007] S.199 - 61 - 4 Data-Mining-Verfahren im SAP BI 7.0 Zuletzt kann mit Hilfe der Registerkarte Behandlung fehlender Werte festgelegt werden, wie mit fehlenden Werten verfahren wird. Dazu wird zunächst definiert, was ein fehlender Wert ist (z.B. 0 oder Initial). Anschließend stehen folgende Möglichkeiten zur Auswahl: ■ Bearbeitung abbrechen ■ Datensatz ignorieren ■ Standard-Scorewert zuweisen ■ Ersetzen durch Für diskrete Datenfelder verhält sich die Konfiguration der Parameter bis auf wenige Ausnahmen sehr ähnlich. Abbildung 42: Scoring – erweiterte Feldkonfiguration Auf der Registerkarte Werte kann wahlweise für jeden diskreten Wert oder jedes beliebige Intervall ein Partialgewicht zugeordnet werden. Optionen wie bei den stetigen Datenfeldern stehen bei diskreten Datenfeldern nicht zur Verfügung. Es kann jedoch für nicht eingetragene Werte ein Standard-Partialgewicht vergeben werden. Bei der Behandlung von Ausreißern fehlen die Möglichkeiten der Extrapolation. Die Möglichkeiten auf der Registerkarte Behandlung fehlender Werte ist bei stetigen und diskreten Feldern identisch. Nachdem das Scoring-Modell gespeichert und aktiviert wurde, kann es in einem Analyseprozess verwendet werden.1 Abbildung 43: Scoring – Analyseprozess 1 - 62 - ggf. muss. der SAP-Hinweis 1139804 installiert werden (weiterführende Informationen siehe Abschnitt 7.1 Erläuterungen zu den Hinweisen) 4 Data-Mining-Verfahren im SAP BI 7.0 Analyse der Modellergebnisse Die Ergebnisse des Scoring können wahlweise grafisch im APD oder tabellarisch in Abhängigkeit vom gewählten Datenziel betrachtet werden. Abbildung 44: Scoring – Tabellarische Darstellung der Ergebnisse 4.3.4 Bewertung Die grundsätzlichen Vor- und Nachteile des Scoring sind in der folgenden Tabelle festgehalten. Stärken Schwächen einfaches und performantes Verfahren subjektive Erfahrungen werden nicht berücksichtigt ohne mathematischen Hintergrund zu verstehen Auswahl von Daten intuitiv einsetzbar Verwendung eines Teils der vorhandenen Daten... standardisierte Bewertung (objektiv nachvollziehbar) ... und daher beschränkte Aussagekraft Tabelle 3: Stärken und Schwächen des Scoring Grundsätzlich gibt es drei Schwierigkeiten bei der Verwendung von Scoring-Verfahren1: ■ Auswahl der Merkmale Welche Merkmale sollen in die Berechnung des Scorewertes einfließen? ■ Gleichbleibende Qualität der ausgewählten Merkmale Wie werden die Daten erfasst und ist deren Bedeutung, Relevanz und Erfassung auch zukünftig immer gleich? ■ Gewichtung der Merkmale Wie werden die Gewichtungen der ersten und zweiten Ebene festgelegt? Zusammenfassend bleibt festzuhalten, dass das Scoring in verschiedenen Einsatzszenarien sehr schnell und nachvollziehbar gute Ergebnisse liefert. Im SAP BI 7.0 ist ausschließlich ein additives Scoring möglich, was jedoch als weitestgehend ausreichend betrachtet werden kann. Alternativ kann das vorhandene Scoring durch eine ABAP-Transformation erweitert werden. 1 [KiVa, 2007] S.194 - 63 - 4 Data-Mining-Verfahren im SAP BI 7.0 4.4 Assoziationsanalyse »Möchten Sie Schnitzel mit Sauerkraut oder einen Burger mit Pommes frites?«1 Um solche oder andere Abhängigkeiten der Form „Kunden die A gekauft haben, haben auch B und C gekauft“ automatisch erkennen zu können, bedient man sich der Methoden der Assoziationsanalyse. Im Ergebnis werden auf Grundlage häufig gemeinsam auftretender Objekte in einem Datenbestand Regeln generiert, die diese Zusammenhänge beschreiben. »Die Assoziationsanalyse ist eine Data-Mining-Methode, die verborgene Muster, Korrelationen oder Kausalstrukturen in Positionen oder Objekten entdeckt«2 Die grundsätzlichen Überlegungen in Bezug auf die Assoziationsanalyse entstanden durch die Einführung der Scanner-Technologie in Supermärkten.3 So werden seitdem alle während eines Einkaufs erworbenen Produkte zusammen erfasst und können anschließend auf Zusammenhänge hin analysiert werden. Aus diesem Grund wird die Assoziationsanalyse oftmals auch als Warenkorb- oder Affinitätsanalyse bezeichnet. In dieser Arbeit werden jedoch nicht diese durch das Marketing geprägten Begriffe verwendet, sondern die allgemeine Bezeichnung Assoziationsanalyse. Dennoch liegen die häufigsten Anwendungsgebiete auch heute noch im Bereich des Marketing oder Vertrieb. So können auf Basis der geprüften Assoziationsregeln Maßnahmen ergriffen werden, um beispielsweise Produkte die oft zusammen gekauft werden nebeneinander zu platzieren oder gemeinsam zu bewerben. In diesem Zusammenhang wird oft der Begriff Cross-Selling verwendet. Auch die Ladengestaltung, der Personaleinsatz oder die Sortimentspolitik können mit Hilfe der Assoziationsanalyse verbessert werden.4 Dabei müssen jedoch nicht zwangsläufig Abhängigkeiten zwischen Objekten an sich betrachtet werden, sondern es können auch Analysen bezüglich anderer Merkmale wie Preise, Mengen, Farben, Varianten usw. durchgeführt werden. Darüber hinaus können die Produkte auch in Kategorien zusammengefasst werden, um so Zusammenhänge auf einer höheren Abstraktionsebene entdecken zu können. Wenn beispielsweise Brot und Milch oft zusammen gekauft werden, dann spielt es zunächst keine Rolle um welche Sorte Brot oder Milch welchen Herstellers es sich handelt. Oftmals erschwert die zu detaillierte Betrachtung der Daten auch das Auffinden von Assoziationsregeln. Aber nicht nur im Marketing oder Vertrieb wird die Assoziationsanalyse häufig verwendet. Auch in allen anderen Unternehmensbereichen kann der Einsatz dieser Data-Mining-Technik sinnvoll sein. So können beispielsweise Beziehungen zwischen Fehlern oder Fehlerarten in Produkten oder Systemen erkannt werden. Oder im Gesundheitswesen kann analysiert - 64 - 1 [BW380, 2005] S.48 2 ebd. S.49 3 Ursprünglich wurde das Verfahren jedoch von Mathematikern mit wissenschaftlichem Hintergrund entwickelt 4 [AlNi, 2000] S.101 4 Data-Mining-Verfahren im SAP BI 7.0 werden, welche Nebenwirkungen bei der Einnahme von einem oder mehreren Medikamenten entstehen. Das grundsätzliche Prinzip der Assoziationsanalyse am Beispiel einer Warenkorbanalyse ist in Abbildung 45 noch einmal dargestellt. Abbildung 45: Grundsätzlicher Ablauf der Assoziationsanalyse 4.4.1 Beispiele in der Versorgerbranche Um die bisherigen Erläuterungen zu ergänzen, werden nachfolgend einige Beispiele aus der Versorgerindustrie genannt, in denen die Assoziationsanalyse sinnvoll eingesetzt werden kann. Cross-Selling Das meistgenannte Beispiel für eine Assoziationsanalyse ist das Cross-Selling. Wenn bekannt ist welche Produkte von Kunden zusammen gekauft werden, können diese bei Werbekampagnen, Telefonaktionen oder auf Websites gemeinsam präsentiert und angeboten werden. In der Versorgerbranche wäre es so möglich, diejenigen Kunden zu identifizieren die sich neben der Stromversorgung auch für die Gasversorgung interessieren könnten. Auch zusätzliche Dienstleistungen oder bestimmte Tarife könnten so gezielt angeboten werden. Störungsanalyse Bei der Analyse von Störungen oder anderen Problemen kann festgestellt werden, welche Fehler sich aufeinander beziehen oder ob es eine Abhängigkeit zwischen bestimmten persönlichen, örtlichen oder technischen Merkmalen und einer Störung oder Störungsart gibt. - 65 - 4 Data-Mining-Verfahren im SAP BI 7.0 Kunden-Produkt-Analyse Mit Hilfe der Assoziationsanalyse kann herausgefunden werden, welcher Kunde welches Produkt am wahrscheinlichsten kaufen wird. Diese Informationen können für die Mitarbeiter eines Call-Centers oder für die gezielte Durchführung von Kampagnen von Bedeutung sein. Systemoptimierung Auch in Bezug auf IT-Systeme (oder auch BI-Systeme) kann die Zuverlässigkeit und Stabilität sowie die Performanz gesteigert werden, indem auf Grundlage von Protokolldaten festgestellt wird, welche Ereignisse oder Zustände zu Engpässen oder Fehlern führen. Clickstream-Analysen Auf Websites kann das Verhalten von Benutzern analysiert und vorhergesagt werden, indem mit der Assoziationsanalyse beispielsweise festgestellt wird, dass Kunden die sich den Bereich Kontakt anschauen, vielfach auch den Bereich Kundencenter betrachten. So kann die Gestaltung der Website mit Hilfe einer verbesserten Navigation, z.B. mit Links optimiert werden. Zusätzlich können so gezielt Banner mit Produkten oder Dienstleistungen präsentiert oder Fragebögen und Gewinnspiele angeboten werden. Für die Analyse des Verhaltens von Anwendern im Internet hat sich mittlerweile ein eigenständiger Bereich, das sogenannte Web-Mining, herausgebildet, in dem die DataMining-Verfahren für die Anwendung im Internet optimiert und erweitert wurden. 4.4.2 Mathematische Grundlagen Im SAP BI 7.0 ist der Apriori-Algorithmus für die Anwendung der Assoziationsanalyse implementiert. Um den Ablauf verstehen zu können, müssen zunächst einige Begriffe zur formalen Beschreibung des Algorithmus erläutert werden.1 Item Als Item wird ein Objekt der Gesamtmenge bezeichnet, z.B. ein bestimmtes Produkt. Die Menge aller Items ist dementsprechend wie folgt definiert: I i1 ,i 2 ,...,i m Formel 7: Menge aller Items 1 - 66 - In Anlehnung an [Petersohn, 2005] S.102ff, [AlNi, 2000] S.102ff 4 Data-Mining-Verfahren im SAP BI 7.0 Transaktion Als Transaktion wird ein Geschäftsvorfall bezeichnet, beispielsweise der Einkauf. Die Menge aller Einkäufe ist dementsprechend wie folgt definiert: D T1 ,T2 ,...,Tn mit T I Formel 8: Menge aller Transaktionen Eine Transaktion ist dabei eine Teilmenge von Items. Itemset Als Itemset bezeichnet man eine Teilmenge der Objekte aus einem Geschäftsvorfall, z.B. eine Teilmenge der Produkte aus einem Einkauf. X ist eine Menge von Items mit X T Formel 9: Itemset Mit Hilfe des Itemsets kann im späteren Verlauf die Anzahl der Transaktionen gezählt werden, in dem das Itemset enthalten ist, z.B. wie viele Einkäufe enthalten die Items Mozzarella und Tomate. Die Größe des Itemset wird über die Anzahl der darin enthaltenen Items definiert. Ein Itemset der Größe k (d.h. mit k Elementen) wird als k-Itemset bezeichnet. Assoziationsregel Eine Assoziationsregel, in der Form „wenn A gekauft wird, wird auch B gekauft“ lässt sich wie folgt als Implikation beschreiben: X Y mit X, Y T und X Y Formel 10: Assoziationsregel X stellt dabei die führende Position (Prämisse) und Y die abhängige Position (Konklusion) dar. Beide Positionen müssen verschieden sein und dürfen nicht die gleichen Objekte enthalten, da eine Aussage der Form „wenn Mozzarella gekauft wird, wird auch Mozzarella gekauft“ nicht sinnvoll ist. Support Als Support wird der Anteil der Transaktionen bezeichnet, die das Itemset also die Menge X enthalten. Damit ist es ein Maß und Gütekritierium für die Beurteilung einer Assoziationsregel. support(X) = | T D|X T | |D| Formel 11: Support - 67 - 4 Data-Mining-Verfahren im SAP BI 7.0 Der oben definierte relative Support wird berechnet, indem die Anzahl der Transaktionen die das Itemset enthalten, durch die Anzahl der Menge aller Transaktionen dividiert wird. Der Support einer Assoziationsregel lässt sich entsprechend wie folgt darstellen: support (X Y) = support (X Y) = | T D|X Y T | |D| Formel 12: Support einer Assoziationsregel Der Support einer Assoziationsregel gibt an, wie wahrscheinlich es ist, dass die Regel in Bezug auf alle Transaktionen eintritt. Konfidenz Neben dem Support ist die Konfidenz ein weiteres Gütekriterium für die Stärke der Assoziationsregel. Die Konfidenz berechnet dabei die Wahrscheinlichkeit, dass nach der Prämisse (führende Position) auch die Konklusion (abhängige Position) eintritt. Das Ergebnis der Konfidenz könnte beispielsweise sein, dass in 75% aller Transaktionen, in denen Mozzarella gekauft wird, auch Tomaten erworben werden. Die Konfidenz lässt sich wie folgt definieren: confidence (X Y) = | T D|X | T D|X Y T | T | = support(X Y) support(X) Formel 13: Konfidenz Berechnet wird demnach der Anteil der Transaktionen die X und Y enthalten (Support von X und Y), im Verhältnis zum Anteil der Transaktionen die nur X enthalten (Support von X). Lift Als drittes Bewertungskriterium für eine Assoziationsregel wird der Lift verwendet. Ein Lift von 2 sagt beispielsweise aus, dass Produkt Y (Tomaten), in den Transaktionen mit Produkt X (Mozzarella), doppelt so häufig vertreten ist, wie in den gesamten Transaktionen. Oder anders ausgedrückt: Wenn ein Kunde Mozzarella kauft, ist die Wahrscheinlichkeit, dass auch Tomaten gekauft werden, doppelt so hoch, als wenn er keinen Mozzarella kauft. lift (X Y) = support(X Y) confidence(X Y) = support(X) support(Y) support(Y) Formel 14: Lift - 68 - 4 Data-Mining-Verfahren im SAP BI 7.0 4.4.3 Umsetzung im SAP BI 7.0 Apriori-Algorithmus Im SAP BI 7.0 wurde der Apriori-Algorithmus, entwickelt im IBM Almaden Forschungszentrum, implementiert. Dabei handelt es sich um die klassische Variante und nicht um die erweiterten Versionen.1 Der grundsätzliche Ablauf des Apriori-Algorithmus ist in zwei Schritte unterteilt:2 ■ Schritt 1: Bestimmung der large Itemsets Im ersten Prozess werden die häufigen, sogenannten large Itemsets ermittelt. Dafür werden alle Itemsets gesucht, für deren Transaktionen der Support höher ist als eine definierte (Mindest-)Schranke. Dieser minimale Support muss bei der Konfiguration des Modells angegeben werden. Der Aufwand und die Rechenzeit für die Berechnung aller möglichen Itemkombination wären jedoch extrem hoch. Aus diesem Grund wird folgende Monotonie-Eigenschaft genutzt: „Jede Teilmenge eines auftretenden Itemsets muss selbst auch häufig sein“. So wird zunächst die Häufigkeit der Itemsets mit einem Element berechnet. Ist deren Support geringer als der Mindestsupport werden sie aussortiert. Anschließend werden alle Itemsets mit zwei Elementen berechnet. Da im Vorfeld ggf. schon einige Items aussortiert wurden, müssen nicht mehr alle Kombinationen mit zwei Items berechnet werden. Dieser Vorgang wird bis zur k-ten Iteration wiederholt. Die Anzahl der Iterationsschritte kann in der Konfiguration des Modells über die Anzahl der führenden und abhängigen Positionen angegeben werden. In Abbildung 46 ist die iterative Berechnung der large Itemsets noch einmal dargestellt. Abbildung 46: Iterative Berechnung der large Itemsets 1 1 Weiterführende Informationen siehe Abschnitt 4.4.4 Bewertung und [Petersohn, 2005] S.107ff 2 [KiVa, 2007] S.211 - 69 - 4 Data-Mining-Verfahren im SAP BI 7.0 ■ Schritt 2: Bestimmung der Assoziationsregeln Auf Grundlage der Itemsets wird für jede Teilmenge eine Assoziationsregel erzeugt. Besteht ein Itemset beispielsweise aus den Produkten A, B und C gibt es insgesamt zwölf Assoziationsregeln (A→B / A→C / B→A / B→C / C→B / C→A / A→B,C usw.). Um nur die stärksten Assoziationsregeln zu bestimmen muss in der Konfiguration des Modells eine minimale Konfidenz definiert werden. Zusätzlich kann auch der Liftfaktor zur Bestimmung der stärksten Assoziationsregeln herangezogen werden Wie die erläuterten Modellparameter (minimaler Support, minimale Konfidenz, minimaler Liftfaktor, Anzahl führender Positionen, Anzahl abhängiger Positionen) in der Konfiguration eingestellt werden können, wird im folgenden Abschnitt erläutert. Konfiguration der Assoziationsanalyse Die Vorgehensweise bei der Konfiguration der Assoziationsanalyse ist in den ersten Schritten (bei der Anlage des Modells sowie beim Einfügen von Feldern) identisch zu den bisher erläuterten Verfahren. Abbildung 47: Assoziationsanalyse - Feldkonfiguration Ebenfalls muss der Wertetyp für jedes Feld angegeben werden. Dabei stehen folgende Typen zur Auswahl: ■ Position Der Wertetyp Position kennzeichnet das Datenfeld, in dem die Items abgelegt sind. In diesem Feld (z.B. Produkte) wird dementsprechend nach Abhängigkeiten und Zusammenhängen innerhalb der Daten gesucht. Es darf nur ein Modellfeld mit dem Wertetyp Position angegeben werden. ■ Transaktion Das Feld, das als Transaktion gekennzeichnet ist, ermöglicht die Zuordnung der Items zu einer Transaktion. Beispiele für eine Transaktionsnummer können Einkaufswagennummer, Kundenauftragsnummer, Kundennummer, Sitzungsnummer oder andere beliebig generierte Nummern sein. Es können auch mehrere Felder den Wertetyp Transaktion zugewiesen bekommen. 1 - 70 - In Anlehnung an [KiVa, 2007] S.213 4 Data-Mining-Verfahren im SAP BI 7.0 ■ Gewichtung der Transaktion Mit Hilfe dieses Wertetyps kann die Gewichtung der Transaktion beeinflusst werden, um so den Support von Items zu verändern. In Abbildung 48 ist der Einfluss der Gewichtung auf den Support dargestellt und beschrieben. Abbildung 48: Gewichtung der Transaktion 1 Mit Hilfe der Gewichtung ist es beispielsweise möglich, die umsatzstärkeren Transaktionen höher zu gewichten, indem die Preise der Produkte mit dem Wertetyp Gewichtung der Transaktion gekennzeichnet werden. Auf der Registerkarte Parameter stehen folgende weitere Konfigurationsmöglichkeiten zur Verfügung: ■ Minimaler Support ■ Minimale Konfidenz ■ Minimaler Liftfaktor ■ Maximale Anzahl führender Positionen ■ Maximale Anzahl abhängiger Positionen Der Einfluss dieser Parameter wurde bereits in den vorangegangen Abschnitten ausführlich dargestellt. 1 In Anlehnung an [BW380, 2005] S.62 - 71 - 4 Data-Mining-Verfahren im SAP BI 7.0 Nach der Aktivierung des konfigurierten Modells kann dieses in einem Analyseprozess verwendet werden. Abbildung 49: Assoziationsanalyse – Analyseprozess Analyse der Modellergebnisse Je nach Datenbestand und Konfiguration des Modells, können eine unüberschaubare Anzahl an Assoziationsregeln generiert werden. Zur Unterstützung der Auswertung der Ergebnisse wird ein Filter angeboten (siehe Abbildung 50), der die Menge der Regeln entsprechend den vorgenommenen Einstellungen eingrenzt. Abbildung 50: Assoziationsanalyse - Filtern der Ergebnisse Für die Anzeige der Ergebnisse1 der Assoziationsanalyse stehen verschiedene Möglichkeiten zur Auswahl. So werden die gefunden Assoziationsregeln zunächst alphabetisch sortiert dargestellt (Gittersicht siehe Abbildung 51). Mit Hilfe der Angaben bezüglich Support, Konfidenz und Lift können die Regeln beurteilt werden. 1 - 72 - ggf. müssen die SAP Hinweise 1085264 und 999344 installiert werden (weiterführende Informationen siehe Abschnitt 7.1 Erläuterungen zu den Hinweisen) 4 Data-Mining-Verfahren im SAP BI 7.0 Abbildung 51: Assoziationsanalyse – Anzeige der Assoziationsregeln In einer alternativen Ansicht werden die Regeln absteigend nach Support, Konfidenz und Liftfaktor sortiert und dargestellt (Baumsicht siehe Abbildung 52). Abbildung 52: Assoziationsanalyse – Alternative Anzeige der Regeln Zusätzlich können die großen Positionskombinationen angezeigt werden (siehe Abbildung 53). In dieser Ansicht werden die Itemets aufsteigend nach ihrer Kardinalität sortiert. Zusätzlich wird der Support angegeben. Wie zuvor, lässt sich auch hier zwischen der Gitterund der Baumsicht wechseln. Abbildung 53: Assoziationsanalyse – Anzeige der Itemsets - 73 - 4 Data-Mining-Verfahren im SAP BI 7.0 4.4.4 Bewertung Die grundlegenden Vor- und Nachteile der Assoziationsanalyse sind in der folgenden Tabelle dargestellt: Stärken Schwächen Effizienz Es muss geprüft werden, ob die Ergebnisse korrekt und nicht trivial oder uninteressant sind Laufzeit und Performanz Auswahl der interessanten und starken Regeln bei großen Regelmengen schwierig Arbeitet auch mit sehr umfangreichen Datenmengen Wahl der richtigen Aggregationsebene ist wichtig Leicht verständliche Ergebnisse Tabelle 4: Stärken und Schwächen der Assoziationsanalyse Der im SAP BI 7.0 verwendete Apriori-Algorithmus ist das klassische und am häufigsten implementierte Verfahren. Auch heute noch ist die Leistungsfähigkeit des Algorithmus in den meisten Anwendungsfällen ausreichend. »In einem Praxisproblem mit ca. 1 Mio. Datensätzen hat die Assoziationsanalyse auf einem aus Hardwaresicht klein dimensionierten SAP NetWeaver 2004s-System mit 4 GB Hauptspeicher für das Einlesen der Daten ca. drei Minuten benötigt und für die sukzessive Berechnung der Itemsets und Assoziationsregeln ca. fünf Sekunden. Diese kurze Laufzeit zeigt sowohl die Effizienz des Verfahrens selbst als auch die Implementierung in SAP NetWeaver 2004s.«1 Dennoch gibt es eine Vielzahl an weiterentwickelten Algorithmen, die zumeist jedoch auf dem klassischen Apriori-Algorithmus basieren und versuchen, die Datenbankscans zu minimieren (AprioriTid, AprioriHybrid, Parition, Dynamic Itemset Countin, Direct Hashing and Pruning u.a.)2. Der aktuell wohl beste Algorithmus zur Berechnung von Assoziationsregeln ist der FPGrowth-Algorihtmus3, der einen vollkommen anderen Ansatz wählt und dadurch nochmals wesentlich schneller arbeitet. Zusätzlich gibt es verschiedene Erweiterungen4 der normalen Assoziationsverfahren. Beispielsweise können mit Hilfe von Sequenzanalysen Zeiträume, und nicht wie bisher Zeitpunkte, betrachtet werden. Ein weiteres Beispiel sind quantitative Assoziationsregeln, die Aussagen ermöglichen, wie z.B. „Kunden, die 4 Hosen kaufen, erwerben mit einer Wahrscheinlichkeit von 70% auch 2 Gürtel“. Insgesamt besitzt die Assoziationsanalyse im SAP BI 7.0 einen guten Reifegrad und kann daher als stabil und zufriedenstellend bezeichnet werden. Wünschenswert sind jedoch die zusätzliche Implementierung neuer Algorithmen sowie eine verbesserte Darstellung der Ergebnisse, um die bedeutenden Regeln besser erkennen und bewerten zu können. - 74 - 1 [KiVa, 2007] S.221 2 Weiterführende Informationen siehe [Petersohn, 2005] S.101ff 3 ebd. S.120ff 4 ebd. S.126ff 4 Data-Mining-Verfahren im SAP BI 7.0 4.5 Entscheidungsbaum Bereits in den 60er Jahren wurden die ersten Verfahren zur Generierung von Entscheidungsbäumen entwickelt. Sie werden typischerweise zur Klassifikation von Daten eingesetzt und lassen sich wie folgt beschreiben: »[Entscheidungsbäume sind] ein Data-Mining-Werkzeug, das anhand von dazugehörigen Faktoren zum Entscheidungsprozess, mögliche Ereignisse von vorangegangenen Entscheidungen klassifiziert. Außerdem können Regeln entwickelt werden, um die Wahrscheinlichkeit eines zukünftigen Ereignisses vorherzusagen. Diese Regeln werden zum leichteren Verständnis in einer graphischen Baumstruktur dargestellt.«1 Anhand der Abbildung 54 lassen sich die grundsätzlichen Gedanken Entscheidungsbaumverfahren, am Beispiel der Kreditvergabe, näher beschreiben. zum Abbildung 54: Aufbau eines Entscheidungsbaumes Der grundsätzliche Gedanke bei der Verwendung des Entscheidungsbaumes ist das sukzessive Aufteilen (splitting) der Datenmenge zu homogeneren Gruppen bezüglich einer Klassifikationsvariablen.2 Das Ergebnis ist ein umgedrehter Baum, der sehr leicht abgelesen und interpretiert werden kann. Je tiefer man sich im dem Baum befindet, desto homogener sind die Daten, die sich in der gemeinsamen Gruppe befinden. In dem Beispiel für die Vergabe von Krediten lässt sich mit Hilfe eines solchen Baumes die Kreditwürdigkeit eines neuen Kunden hervorsagen, z.B. „ein Student der über 21 Jahre alt ist und ein jährliches Einkommen von mehr als 10.000 €, jedoch schlechte Noten im Studium hat, wird als nicht kreditwürdig eingestuft.“ Auch alle anderen Fälle lassen sich sehr intuitiv ablesen. 1 [BW380, 2005] S.84 2 [ChaGlu, 2006] S.268 - 75 - 4 Data-Mining-Verfahren im SAP BI 7.0 Ein Entscheidungsbaum besteht aus folgenden Elementen (siehe Abbildung 54): ■ Wurzel Das oberste Element in dem umgedrehten Baum ist die Wurzel. Von dort aus verzweigen alle weiteren Elemente des Baumes, d.h. alle Daten (oder Objekte) die klassifiziert werden sollen, können der Wurzel zugeordnet werden. ■ Knoten Die Knoten enthalten die „gesplitteten“ Teilmengen der Daten und dienen der weiteren Aufteilung anhand eines Attributs. ■ Kanten Die Kanten stellen die Ausprägungen des jeweiligen Attributs dar, anhand dessen die Daten im weiteren Verlauf aufgeteilt werden. ■ Split Der Begriff Split wird als Synonym für die Aufteilung der Daten in Abhängigkeit von den gegebenen Attributen und Werten verwendet. ■ Blätter Die Blätter stellen die unterste Ebene des Baumes dar und enthalten damit die kleinsten, jedoch homogensten Teilmengen. Die Ausprägung der Blätter wird für die Vorhersage verwendet. Um einen Entscheidungsbaum für Vorhersagen verwenden zu können, muss dieser zunächst generiert werden. Dies geschieht mit Hilfe von historischen Daten, die als Trainingsmenge bezeichnet werden.1 Die Einsatzgebiete des Entscheidungsbaumes sind sehr vielfältig. Sie können zur Vorhersage von Kunden- und Kaufverhalten verwendet oder für Kündigungsprävention, Marktsegmentierung, Betrugsanalyse oder die Optimierung von Kampagnen eingesetzt werden. 4.5.1 Beispiele in der Versorgerbranche: Zur weiterführenden Einleitung in die Möglichkeiten des Entscheidungsbaumes werden im Folgenden mögliche Beispiele aus der Versorgerindustrie dargestellt. Mitarbeiterfluktuation Anhand der Daten von Mitarbeitern, die das Unternehmen verlassen haben, kann ein Entscheidungsbaum generiert werden. Mit dessen Hilfe können Antworten auf die Fragen gefunden werden, warum Mitarbeiter kündigen oder wie man die Einstellung, Mitarbeiterbindung und Vergütung effektiv gestaltet, um erfolgreich zu sein. 1 - 76 - Weiterführende Informationen siehe Abschnitt 4.5.3 Umsetzung im SAP BI 7.0 4 Data-Mining-Verfahren im SAP BI 7.0 Gründe für Kaufentscheidung Wenn der Versorger weiß, aus welchen Gründen sich seine Kunden für ihn entschieden haben, kann er sein Produkt- und Tarifangebot weiter anpassen und sich besser von der Konkurrenz absetzen. Kundenprofil1 Anhand der örtlichen und persönlichen Merkmale von Kunden, lassen sich Gruppen bilden, die ähnliches Verhalten und Interessen aufweisen, wodurch die Bedürfnisse der bestehenden oder potentiell neuen Kunden besser angesprochen werden können. Kundensegmentierung Mit dem Entscheidungsbaumverfahren können die Kunden in zuvor unbekannte Gruppen segmentiert werden. So könnten Gruppen beispielsweise „Umsatzstarker Strom-Kunde mit sehr guter Zahlungsmoral“ oder „Langjähriger Gas-Kunde mit hohem Kündigungspotential“ genannt werden. Anschließend ist die gezielte Behandlung dieser Kundengruppen möglich, sei es bei der Werbung, dem Service oder der Pflege der Geschäftsbeziehung. Kündigungsprävention Indem die Eigenschaften der Kunden, die gekündigt haben, analysiert werden, können mit Hilfe eines Entscheidungsbaumes die Kunden herausgearbeitet werden, die ein hohes Kündigungspotential haben. So können insbesondere die für das Unternehmen wichtigen Kunden frühzeitig angesprochen und an das Unternehmen gebunden werden. Kundenprofitabilität2 Anhand der Merkmale, dem Verhalten und dem Verbrauch von Kunden, kann deren Profitabilität vorhergesagt werden. Dies ist auch schon möglich, bevor der Kunde den Vertrag abschließt. Optimierung von Marketingkampagnen3 Mit einem Entscheidungsbaum können die Ergebnisse von Marketingkampagnen in bestimmten Segmenten vorhergesagt werden (Rücklaufquote). Mit diesen Erkenntnissen können die Kampagnen in optimierter Form für bestimmte Zielgruppen durchgeführt werden. 1 [BW380, 2005] S.91 2 ebd. 3 ebd. - 77 - 4 Data-Mining-Verfahren im SAP BI 7.0 Forderungsmanagement Im Bereich des Forderungsmanagement können Auswertungen zu Zahlungsverhalten, Zahlungswegen und die Kombination von beidem durchgeführt werden. Beispielsweise können ähnlich wie bei den bereits genannten Beispielen, die Merkmale der Kunden mit schlechter oder guter Zahlungsmoral analysiert und vorhergesagt werden. Anschließend wird versucht, die Kunden mit schlechter Zahlungsmoral auf eine alternative Zahlart (z.B. Lastschrift) umzustellen, um den Cash-Flow zu optimieren. Störungsanalyse Durch die Analyse von Störungen mit Hilfe eines Entscheidungsbaumes können diese schon vor ihrem wahrscheinlichen Eintreten behoben werden. Wie aus den Beispielen deutlich wird, sind die Möglichkeiten zum Einsatz eines Entscheidungsbaumes sehr vielfältig und überschneiden sich auch häufig mit den möglichen Einsatzgebieten anderer Data-Mining-Verfahren. Die Schwierigkeit, und damit die Kunst, liegt in der Auswahl und der Konfiguration des richtigen Verfahrens, um optimale Ergebnisse zu erzielen. 4.5.2 Mathematische Grundlagen Die Berechnung des Entscheidungsbaumes erfolgt top-down. Bei dem umgedrehten Baum bedeutet dies, dass die Generierung mit der Wurzel startet und dann sukzessive durch Aufteilung der Daten (Split) erweitert wird.1 Um jedoch berechnen zu können, welcher Split mit welchem Attribut die größtmögliche Zerlegung bietet, werden die Kennzahlen Entropie und Informationsgewinn verwendet, die im Folgenden näher erläutert werden.2 Entropie Mit Hilfe der Entropie kann die Reinheit der Zerlegung berechnet werden. k E(T) pi log 2 p i , E(T) [0,1] i 1 mit T = Menge der Trainingsdaten, T1,T2,...,Tm = disjunkte Zerlegung von T in m Teilmengen pi = relative Häufigkeit der Klasse i in Ti Formel 15: Entropie Der Wert der Entropie liegt im Intervall zwischen 0 und 1. Der Wert 0 ergibt sich bei pi = 1. Man spricht dann von einer reinen Zerlegung, da sich alle Attribute mit dem gleichen Attributwert, zu 100% einer Klasse zuordnen lassen. Dies ist beispielsweise der Fall, wenn - 78 - 1 Weiterführende Informationen siehe Abschnitt 4.5.3 Umsetzung im SAP BI 7.0 2 In Anlehnung an [KiVa, 2007] S.229 4 Data-Mining-Verfahren im SAP BI 7.0 bei der Zerlegung anhand des Attributs Studiumsnote alle Studenten mit guten Noten als kreditwürdig und alle mit schlechten Noten als kreditunwürdig eingestuft werden. Der Wert 1 ergibt sich bei pi = 0,5. Dies ist entsprechend dann der Fall, wenn sich ein Attribut im Verhältnis 50:50 auf zwei Klassen aufteilt. Informationsgewinn Aufbauend auf die Entropie kann der Informationsgewinn berechnet werden, um mehrere Splits miteinander zu vergleichen. m I(T, A) E(T) i | Ti | E(Ti ) 1 |T| mit T = Menge der Trainingsdaten, T1,T2,...,Tm = disjunkte Zerlegung von T in m Teilmengen A = Attribut, das für den Split verwendet wird Formel 16: Informationsgewinn Dabei wird zusätzlich das Verhältnis zwischen Teilmenge und Ausgangsmenge in die Berechnung mit einbezogen. Je größer die Teilmenge ist, umso stärker ist der Einfluss der Entropie auf die Kennzahl Informationsgewinn. Ein Beispiel für den Vergleich von Splits zur Auswahl der Attribute wird im späteren Verlauf des folgenden Abschnitts dargestellt. 4.5.3 Umsetzung im SAP BI 7.0 Ablauf des Entscheidungsbaumes Das Data-Mining mit Entscheidungsbäumen wird in drei, durch die sogenannte Windowtechnik1 optimierte Phasen unterteilt.2 ■ Phase 1: Training Zunächst wird eine Teilmenge (z.B. 15%) aus den vorhandenen Daten ausgewählt. Mit Hilfe dieser Teilmenge, dem sogenannten Trainingsset, wird ein Baum generiert, der die Muster in den historischen Daten möglichst gut abbildet. ■ Phase 2: Bewertung (optional) Die übrigen Daten, die nicht in dem Trainingsset enthalten sind, werden als sogenanntes Generalisierungsset für die Bewertung des erzeugten Baumes verwendet. So kann die Genauigkeit des Baumes berechnet werden, da Daten verwendet werden, bei denen das Ergebnis bekannt ist. Nur wenn alle Daten korrekt klassifiziert wurden, endet die Bewertung und der Baum wird als endgültig angesehen. Andernfalls werden die als falsch eingestuften Daten zusätzlich in das Trainingsset aufgenommen und daraus ein neuer, 1 [Jafar-Shaghaghi, 1994] S.111 2 [Petersohn, 2005] S.137, [BW380, 2005] S.87 - 79 - 4 Data-Mining-Verfahren im SAP BI 7.0 verbesserter Baum generiert. Diese Schritte werden so oft wiederholt, bis der Baum vollständig korrekt ist oder eine definierte Genauigkeit besitzt. Diese zweite Phase der Bewertung wird vielfach auch als optional angesehen und muss nicht zwingend durchgeführt werden, denn es kann je nach Datenbestand auch sinnvoll sein diesen Schritt zu überspringen.1 ■ Phase 3: Vorhersage Nachdem der Baum generiert und als ausreichend bewertet wurde, können Vorhersagen erzeugt werden. Aufgrund der Attribute des Datensatzes wird der Baum durchlaufen und schließlich das vorherzusagende Feld befüllt. In Abbildung 55 sind die beschriebenen Phasen noch einmal dargestellt: Abbildung 55: Entscheidungsbaum-Phasen Die Konstruktion des Entscheidungsbaumes erfolgt top-down, beginnend mit der Wurzel. Dabei wird der Baum sukzessive anhand der Attribute aufgespannt, bis eine definierte Blattebene erreicht ist. Welche Attribute in welcher Reihenfolge verwendet werden, und welches Attribut die Wurzel bildet, wird mit Hilfe des Informationsgewinns2 berechnet. In Abbildung 56 wird beispielhaft das Entscheidungsbaumes, berechnet und bewertet. - 80 - erste Split, also die Wurzel 1 Weiterführende Informationen siehe Abschnitt 4.5.3 Konfiguration des Entscheidungsbaumes 2 Siehe Formel 15: Entropie und Formel 16: Informationsgewinn eines 4 Data-Mining-Verfahren im SAP BI 7.0 Abbildung 56: Berechnung des (ersten) Split im Entscheidungsbaum 1 Wie aus der Darstellung deutlich wird, werden zunächst die Entropiewerte berechnet, zum Einen für den nächsthöheren Knoten (in diesem Fall die Wurzel), zum Anderen für alle Ausprägungen der zur Verfügung stehenden Attribute. Mit Hilfe dieser Entropiewerte kann anschließend der Informationsgewinn jedes Attributs errechnet werden. Der Vergleich zeigt, dass das Attribut Alter bzw. dessen Split den höchsten Informationsgewinn besitzt, wodurch Alter als Wurzel verwendet wird. Im Folgeschritt beginnt die oben dargestellte Berechnung für die neuen Teilmengen von vorne, wodurch der Baum schrittweise erweitert wird. 1 In Anlehnung an [KiVa, 2007] S.231 - 81 - 4 Data-Mining-Verfahren im SAP BI 7.0 Das Erzeugen von Entscheidungsbäumen ist jedoch nicht immer problemlos. Ein Entscheidungsbaum kann auch übertrainiert (oder überspezialisiert) werden, man spricht dann vom sogenannten Overfitting. Das bedeutet, dass der Baum zwar eine Genauigkeit von 100% bezüglich der Trainingsdaten, jedoch nicht bezüglich der gesamten Daten besitzt. Dies kann dadurch entstehen, dass die Trainingsdaten nicht korrekt ausgewählt wurden, d.h. sie sind in ihren Eigenschaften nicht repräsentativ für die Gesamtmenge oder enthalten ein Rauschen1. Durch das sogenannte Pruning kann das Overfitting des Entscheidungsbaumes verhindert werden. Dabei gibt es drei Möglichkeiten2: ■ Pruning vor der Entwicklung des Baumes Durch eine genaue Auswahl der Daten, die für das Training vorgesehen sind, können diejenigen Daten aussortiert werden, die ggf. zu Overfitting führen können. ■ Pruning während der Entwicklung des Baumes Indem die Generierung des Baumes nicht erst bei einer Genauigkeit von 100% abgebrochen wird, sondern beispielsweise schon bei der Quote von 95%, kann das Übertrainieren des Baumes vermieden werden. ■ Pruning nach der Entwicklung des Baumes Nachdem der Baum vollständig erzeugt wurde, ist eine Beschneidung von Teilen des Baumes möglich, indem einige Äste „zurückgeschnitten“ werden. Dadurch werden unnötige Kanten, Knoten und Blätter entfernt und der Baum möglichst klein gehalten. Konfiguration des Entscheidungsbaumes Nachdem das Modell angelegt wurde, folgt die Konfiguration, die nach dem gleichem Prinzip aufgebaut ist, wie bisher beschrieben. Abbildung 57: Entscheidungsbaum – Feldkonfiguration - 82 - 1 Das Rauschen beschreibt Fehler in Daten. Weiterführende Informationen siehe Abschnitt 14 Glossar 2 [Petersohn, 2005] S.138 4 Data-Mining-Verfahren im SAP BI 7.0 Auf der Registerkarte Felder werden die Merkmale mit ihrem jeweiligen Wertetyp (stetig, diskret oder Schlüsselfeld) angegeben. In der Spalte vorhersagbar wird das Feld gekennzeichnet, das „gelernt“ werden soll und im Entscheidungsbaum die Blätter repräsentiert. Die Konfigurationsmöglichkeiten der Spalten Parameter und Werte sind in der folgenden Abbildung dargestellt: Abbildung 58: Entscheidungsbaum – erweiterte Konfiguration Bei stetigen Datenfeldern ermöglicht es die Spalte Werte, mit Hilfe eines Dialogfensters (links in der Abbildung), stetige Werte zu diskretisieren. So können nach dem bekannten Prinzip Intervalle erzeugt werden, die die stetigen Werte bei der Modellverarbeitung ersetzen (z.B. Zuordnung eines 18-jährigen zu dem Intervall 10-20). Bei diskreten Datenfeldern können definierte Werte ignoriert oder als fehlend deklariert werden (Abbildung rechts). Bei fehlenden Werten wird der Vorschlagswert verwendet. Ist kein Vorschlagswert definiert, wird der Wert ignoriert. Bei der Konfiguration der Datenfelder erlaubt es die Spalte Parameter Nullwerte für die Verarbeitung zu berücksichtigen. Wird zusätzlich ein Vorschlagswert angegeben, wird dieser an Stelle des Nullwertes verwendet. Die Konfigurationsmöglichkeiten der Registerkarte Parameter sind in Abbildung 59 dargestellt. Im Bereich Trainingsprozess kann eine Stichprobe konfiguriert werden, um den Baum lediglich mit einem Teil der Trainingsdaten zu trainieren.1 Anschließend wird ein weiterer Teil der Trainingsdaten genutzt und auf den trainierten Baum angewendet. Die Daten, die nicht korrekt klassifiziert sind, werden der Trainingsmenge beigefügt und der Prozess beginnt von vorne. Es kann dabei die Größe der Stichprobe für den Einstieg und die maximale Stichprobe prozentual angegeben werden. Zusätzlich wird über die Anzahl der Versuche ein weiteres Abbruchkriterium geschaffen, das angibt, nach wie vielen Schritten die Generierung des Baumes beendet werden soll. 1 Dieser Prozess entspricht Phase 2 in Abbildung 55 - 83 - 4 Data-Mining-Verfahren im SAP BI 7.0 Abbildung 59: Entscheidungsbaum – Parameterkonfiguration Im Bereich Abbruchbedingungen wird das Pruning während der Erstellung des Baumes konfiguriert. So kann einerseits die Mindestanzahl an (Daten)Sätzen pro Blatt angegeben werden, die benötigt wird, um diesen Knoten weiter aufzuteilen. Andererseits kann die Genauigkeit definiert werden, bei der die Generierung des Entscheidungsbaumes endet. Mit Hilfe des Bereichs erweiterte Einstellungen kann die Relevanz von Modellfeldern geprüft werden, d.h. es werden alle unwichtigen Modellfelder, bezogen auf den Informationsgewinn, entfernt. Dadurch kann die Trainingszeit deutlich reduziert werden. Bei der Verwendung dieser Funktion können wahlweise ein Schwellenwert oder die besten n Modellfelder (jeweils in Bezug auf den Informationsgewinn) definiert werden. Zuletzt kann im Bereich Pruning die Beschneidung des Baumes nach seiner Generierung (Post-Pruning) konfiguriert werden, um den Baum kleiner und genauer zu machen und das Overfitting zu vermeiden. Beim erweiterten Pruning wird zusätzlich versucht, einen Knoten durch seinen Nachfolgeknoten zu ersetzen, um so eine höhere Genauigkeit zu erhalten. Es gilt jedoch zu berücksichtigen, dass insbesondere das erweiterte Pruning bei umfangreichen Datenmengen sehr zeitintensiv ist und zu einer hohen Laufzeit führen kann.1 Nachdem das Modell konfiguriert und aktiviert wurde, kann es in einem Analyseprozess verwendet werden (siehe Abbildung 60). Wie bei der Clusteranalyse muss auch der Entscheidungsbaum zunächst trainiert werden, bevor er für die Prognose verwendet werden kann. Aus diesem Grund gibt es auch hier den Entscheidungsbaum in der APD-Workbench als Datenziel (für das Training) und als Transformation (für die Vorhersage). 1 - 84 - Weiterführende Informationen siehe [BW380, 2005] S.102f 4 Data-Mining-Verfahren im SAP BI 7.0 Abbildung 60: Entscheidungsbaum – Analyseprozess Analyse der Modellergebnisse Folgende Möglichkeiten stehen bei der Anzeige und Analyse der Modellergebnisse zur Verfügung.1 ■ Netzplansicht Wie die folgende Abbildung verdeutlicht, wird der generierte Baum anschaulich dargestellt. Zu jedem Knoten können zusätzliche Informationen wie die Anzahl der Sätze oder die entsprechende Regel mit der dazugehörigen Wahrscheinlichkeit abgerufen werden. Abbildung 61: Entscheidungsbaum – Ergebnisse in der Netzplansicht ■ Baumsicht In der Baumsicht werden die Ergebnisse strukturiert (ähnlich einem Verzeichnisbaum) in Textform dargestellt. Abbildung 62: Entscheidungsbaum – Ergebnisse in der Baumsicht 1 ggf. muss der Hinweis 862637 installiert werden (weiterführende Informationen siehe Abschnitt 7.1 Erläuterungen zu den Hinweisen) - 85 - 4 Data-Mining-Verfahren im SAP BI 7.0 ■ Simulation Vorhersage Wie bei der Clusteranalyse können mit Hilfe der Vorhersagesimulation Ergebnisse auf Grundlage von manuell eingegeben Werten ermittelt werden. Abbildung 63: Entscheidungsbaum – Vorhersagesimulation 4.5.4 Bewertung In der folgenden Tabelle werden zunächst die grundlegenden Vor- und Nachteile des Entscheidungsbaumes als Data-Mining-Verfahren betrachtet: Stärken Schwächen Leistungsfähigkeit Können groß, komplex und dadurch unübersichtlich werden (kann durch Pruning und andere Parametereinstellungen verhindert werden) Intuitive visuelle Darstellung und dadurch sehr gut ablesbar und interpretierbar Tabelle 5: Stärken und Schwächen des Entscheidungsbaumes Zusammenfassend bleibt festzuhalten, dass der Entscheidungsbaum ein wichtiges und sehr leistungsfähiges Instrument zur Klassifizierung von Daten ist und aufgrund seiner einfachen und verständlichen Ergebnisdarstellung vielfach eingesetzt wird. Im SAP BI 7.0 wurde der Entscheidungsbaum sinnvoll und stabil umgesetzt und kann durch eine Vielzahl an Parametern konfiguriert und optimiert werden. Wünschenswert wären weitere, zusätzliche Algorithmen zur Generierung des Baumes sowie zum Pruning. 1 1 - 86 - Weiterführende Informationen siehe [Petersohn, 2005] S.139ff, S.148ff 4 Data-Mining-Verfahren im SAP BI 7.0 4.6 Regressionsanalyse Bei der Regressionsanalyse wird davon ausgegangen, dass es Zusammenhänge und Abhängigkeiten zwischen Daten gibt. Diese können linear oder nicht linear sein. Eine erste Beschreibung liefert die folgende Definition: »Ein Regressionsmodell ist ein Modell, mit dem eine abhängige, stetige Variable durch mehrere unabhängige Variablen erklärt wird.«1 Wenn beispielsweise ein Händler einen kausalen Zusammenhang zwischen Umsatz und Preis erkannt hat, kann er die vorhandenen Verkaufsdaten mit den jeweiligen Preisen mit Hilfe einer Regressionsanalyse erfassen, um so vorhersagen zu können, wie sich eine Preisänderung auf den Umsatz auswirkt. Abbildung 64: lineare und nicht lineare Regressionsanalyse Grundsätzlich kann zwischen einer linearen und einer nicht linearen Regressionsanalyse unterschieden werden (siehe Abbildung 64). Die lineare Analyse ist sehr einfach und kann schnell berechnet werden, jedoch geht dies ggf. zu Lasten der Ergebnisqualität, da immer von einem linearen Verlauf ausgegangen wird. Die nicht lineare Regressionsanalyse ist komplexer, liefert dafür allerdings genauere Ergebnisse. Leider ist die nicht lineare Regression im SAP BI 7.0 derart instabil implementiert, dass sie nicht sinnvoll eingesetzt werden kann, solange SAP keine Aktualisierung oder Fehlerkorrektur anbietet. Aus diesem Grund wird die nicht lineare Regression im weiteren Verlauf nicht näher betrachtet. Oftmals ist es jedoch möglich, eine nicht lineare Regressionsanalyse mittels einfacher Transformationen in eine lineare Regressionsanalyse zu überführen.2 Aus den bisherigen Ausführungen wird die Ähnlichkeit zwischen der Regressionsanalyse und anderen Klassifikationsverfahren, wie z.B. dem Entscheidungsbaum, deutlich. Der größte Unterschied liegt darin, dass die Regressionsanalyse (im Gegensatz zum Entscheidungsbaum) die Vorhersage von stetigen Variablen zum Ziel hat. 1 [Fahrmeir et al., 1996] S.93ff 2 Weiterführende Informationen siehe [KiVa, 2007] S.244, S.251f - 87 - 4 Data-Mining-Verfahren im SAP BI 7.0 Bei der Regressionsanalyse gilt es immer zu berücksichtigen, dass die Ergebnisse statistische und nicht kausale Zusammenhänge wiedergeben. Während man demnach davon ausgehen kann, dass beispielsweise mit steigender Außentemperatur der Gasverbrauch sinkt, gibt es keinen offensichtlichen kausalen Zusammenhang zwischen der Anzahl an Verkehrstoten und dem Umsatz von Kaffeemaschinen, auch wenn sich dies mit Hilfe der Regressionsanalyse so darstellen ließe. Die Auswahl der Variablen und Merkmale sowie die richtige Interpretation sind demnach entscheidend für den erfolgreichen Einsatz dieser Technik. 4.6.1 Beispiele in der Versorgerbranche Die Einsatzgebiete der Regressionsanalyse sind vielfältig. Im Folgenden werden einige Beispiele für die Versorgerbranche genannt, in denen der Einsatz der Regressionsanalyse sinnvoll erscheint. Kennzahlenanalyse Mit Hilfe der Regressionsanalyse kann der Einfluss verschiedener Merkmale auf den Umsatz oder auf andere Kennzahlen (z.B. Gewinn oder Verbrauch) ermittelt werden. So kann beispielsweise der Umsatz in Abhängigkeit von der Größe der Familie und dem durchschnittlichen Alter analysiert und anschließend für neue Kunden vorhergesagt werden. Umsatzänderung bei Preisänderung Die Regressionsanalyse kann den Anwender ebenso bei der Preisfindung unterstützen, indem berechnet wird, wie sich eine Preisänderung auf den Umsatz auswirkt. Erfolg von Werbemaßnahmen Bei der Analyse der Korrelation zwischen Werbemaßnahmen und Umsatz kann der Erfolg bestimmter Kampagnen in definierten Segmenten und Regionen festgestellt und damit auch vorhergesagt werden. Viele weitere Beispiele sind auf Grundlage des beschriebenen Prinzips vorstellbar. 4.6.2 Mathematische Grundlagen1 Abhängige und unabhängige Variablen Im Zusammenhang mit der Regressionsanalyse wird von sogenannten abhängigen und unabhängigen Variablen gesprochen. Bei den unabhängigen Variablen handelt es sich um Variablen, die jeden beliebigen Wert annehmen können. Die abhängige Variable ist eine Variable, die von den Werten der unabhängigen Variablen abhängt. Wenn z.B. der Umsatz in Abhängigkeit vom Preis betrachtet werden soll, handelt es bei dem Umsatz um die abhängige Variable und bei dem Preis um die unabhängige Variable. 1 - 88 - In Anlehnung an [KiVa, 2007] S.246ff 4 Data-Mining-Verfahren im SAP BI 7.0 Regressionsgerade Die abhängige Variable und damit die Regressionsgerade lässt sich in einem ersten Schritt wie folgt als Funktion beschreiben: ŷ a bx , mit ŷ = Schätzung der abhängigen Variablen, a = Schnittpunkt der Geraden mit der y-Achse, b = Steigung, x = unabhängige Variable Formel 17: Funktion zur Schätzung der abhängigen Variablen Um die ideale Regressionsgerade und a und b korrekt bestimmen zu können, sollte die Summe aller y-Abstände der Messpunkte zur Geraden minimal sein (die Berechnung erfolgt mit Hilfe der Methode der kleinsten Quadrate1). n (yi (a bx i )) 2 min! , mit i 1 yi = i-ter Wert der abhängigen Variablen, x i = i-ter Wert der unabhängigen Variablen Formel 18: Zielfunktion zur Bestimmung von a und b Durch die Quadrierung bekommen größere Abstände zur Geraden eine höhere Gewichtung und negative Abstände werden ausgeschlossen bzw. fließen als positiver Abstand in die Berechnung ein. Kennzahl R Mit Hilfe der Kennzahl R (Bestimmtheitsmaß oder Determinationskoeffizient) kann im SAP BI 7.0 die Güte einer Regressionsanalyse bestimmt werden. R2 1 (yi yˆ i ) 2 (yi y) 2 i , mit i ŷi = Schätzung der abhängigen Variable, y = arithmetisches Mittel aller abhängigen Variablen yi , (yi yˆ i ) = nicht erklärte Abweichung, (yi y) = Gesamtabweichung Formel 19: Bestimmtheitsmaß R Zum besseren Verständnis der Zerlegung der Abweichungen, die als Grundlage für die Berechnung der Kennzahl R verwendet wird, dient Abbildung 65. 1 Weiterführende Informationen siehe [Sachs, 1992] S.129, 502f, 560f - 89 - 4 Data-Mining-Verfahren im SAP BI 7.0 Abbildung 65: Zerlegung der Gesamtabweichung 1 Mit Hilfe der Kennzahl R wird demnach die Summe aller nicht erklärten Abweichungen ins Verhältnis zu allen Gesamtabweichungen gebracht, um so mit Hilfe der Bezugsgröße des arithmetischen Mittels aller abhängigen Variablen beurteilen zu können, ob die Regressionsgerade eine hohe Aussagekraft besitzt.2 Kennzahl I Im SAP BI 7.0 wurde eine zweite Kennzahl zur Bewertung der Güte der Regression implementiert. Sie ist wie folgt definiert: | yi yˆ i | i I 1 | yi | | yˆ i | , mit i yi = i-ter Wert der abhängigen Variablen, ŷi = Schätzung der abhängigen Variable, yi yˆ i = nicht erklärte Abweichung Formel 20: Kennzahl I Es lässt sich jedoch nicht erkennen, was der Sinn dieser Kennzahl sein soll. Im Gegensatz zum Bestimmtheitsmaß (Kennzahl R) ändert sich der Wert dieser Kennzahl in Abhängigkeit von der Position der Geraden mit ihren Messpunkten im Achsensystem. Das bedeutet, dass der Wert der Güte besser wird, wenn sich die Regressionsgerade im höheren Wertebereich - 90 - 1 In Anlehnung an [KiVa, 2007] S.249 2 Weiterführende Informationen siehe [Sachs, 1992] S.497f 4 Data-Mining-Verfahren im SAP BI 7.0 des Achsensystems befindet, selbst wenn die Abstände zu den Messpunkten sowie die Steigung der Geraden gleich bleibt. Somit ist ein objektiver Vergleich und damit eine Bewertung der Güte der Regression mit dieser Kennzahl nicht möglich. Aus diesem Grund wird von der Verwendung dieser Kennzahl bei der Analyse der Ergebnisse und der Optimierung des Modells abgeraten. 4.6.3 Umsetzung im SAP BI 7.0 Ablauf der Regressionsanalyse Ähnlich wie bei einigen der bereits vorgestellten Data-Mining-Techniken, muss das Regressionsmodell zunächst trainiert werden, um Vorhersagen machen zu können. Dieses Training erfolgt erneut mit ausgewählten historischen Daten. In der Praxis wird zudem häufig mehr als eine unabhängige Variable verwendet, um die Regressionsanalyse durchzuführen. Dabei handelt es sich vielfach um Variablen mit diskreten Werten, z.B. Altersklassen, Bundesland, Stadt, Familienstand usw., anhand derer die abhängige Variable (z.B. Umsatz) bestimmt werden soll. Man spricht in diesem Zusammenhang von der sogenannten multiplen Regression. Der Ablauf der Regressionsanalyse verändert sich dadurch jedoch nur dahingehend, dass für jeden Wert der diskreten Variablen eine Regressionsanalyse mit den restlichen stetigen, unabhängigen Variablen durchgeführt wird. Aus diesem Grund ist es im SAP BI 7.0 auch zwingend notwendig, mindestens eine stetige unabhängige Variable zu definieren.1 Abbildung 66 veranschaulicht den Sachverhalt der multiplen Regression. Abbildung 66: multiple Regression mit diskreten Variablen 2 In dem dargestellten Beispiel wird für jede Altersklasse eine Regressionsanalyse mit der unabhängigen Variable Einkommen und der abhängigen Variable Umsatz durchgeführt. 1 [KiVa, 2007] S.251 2 ebd. - 91 - 4 Data-Mining-Verfahren im SAP BI 7.0 Konfiguration der Regressionsanalyse Nachdem ein Modell für die Regressionsanalyse angelegt wurde, kann auf der Registerkarte Felder die Struktur der Eingangsdaten festgelegt werden. Abbildung 67: Regressionsanalyse – Feldkonfiguration Zusätzlich wird, wie bereits bekannt, der Wertetyp angegeben (stetig, diskret, Schlüsselfeld). Auch das Feld zur Vorhersage (also das Feld der unabhängigen Variablen) wird kenntlich gemacht. Die Konfiguration der einzelnen Felder über die Spalte Parameter ermöglicht das Einschränken von Werten, die Behandlung von Ausreißern und die Behandlung von fehlenden Werten. Die angebotenen Möglichkeiten zur Konfiguration entsprechen dabei genau denen der Scoring-Analyse, die bereits ausführlich beschrieben wurde.1 Abbildung 68: Regressionsanalyse – erweiterte Feldkonfiguration Mit Hilfe der Registerkarte Parameter werden die Einstellungen des gesamten Modells vorgenommen. 1 - 92 - Siehe Abschnitt 4.3.3 Umsetzung im SAP BI 7.0 4 Data-Mining-Verfahren im SAP BI 7.0 Abbildung 69: Regressionsanalyse – Parameterkonfiguration Zum Einen wird an dieser Stelle der Funktionstyp definiert (lineare oder nicht lineare Regression). Zum Anderen kann eine Mindestanzahl an Datensätzen angegeben werden, die erreicht werden muss, damit eine bestimmte Ausprägung einer diskreten Variablen verwendet wird. Enthält diese Ausprägung (z.B. Familienstand – Single) weniger als die angegebene Anzahl an Datensätzen, wird sie nicht weiter berücksichtigt. Zusätzlich kann der Standard-Score festgelegt werden, der bei fehlenden Werten und Ausreißern verwendet wird. Die Option Standard-Scorewert außerhalb trainierter Domäne zuweisen arbeitet wie folgt: Wenn sie aktiviert ist, werden alle Datensätze, die nicht im Bereich der trainierten Funktion liegen, während der Vorhersage mit dem StandardScorewert ausgegeben. Andernfalls wird eine Regression unabhängig von den diskreten Modellfeldern durchgeführt.1 Nach der Aktivierung des konfigurierten Modells, wird nach dem bekannten Prinzip ein Analyseprozess erstellt. Dabei ist darauf zu achten, dass für das Training zunächst die Regressionsanalyse aus dem Bereich der Datenziele verwendet wird (siehe Abbildung 70). Um Vorhersagen zu machen, bedient man sich anschließend der Regressionsanalyse aus dem Bereich der Transformationen. 1 Weiterführende Informationen siehe [BW380, 2005] S.193f - 93 - 4 Data-Mining-Verfahren im SAP BI 7.0 Abbildung 70: Regressionsanalyse – Analyseprozess Analyse der Modellergebnisse In der folgenden Abbildung sind die Darstellungen aus den verschiedenen Ansichten der Ergebnisanzeige zusammengefasst: Abbildung 71: Regressionsanalyse – Ergebnisse Neben der allgemeinen Verteilung der Werte und einigen statistischen Zahlen, sind die Kennzahlen zur Bewertung der Güte1 der Regressionsanalyse grafisch dargestellt. Anhand dieser Ergebnisse kann beurteilt werden, ob die aktuelle Konfiguration der Regressionsanalyse ausreichend ist oder ob zur Optimierung weitere Einstellungen vorgenommen werden müssen. Zusätzlich ist für jeden Wert der diskreten Felder das Ergebnis der Regressionsgeraden aufgelistet (Schnittpunkt mit der y-Achse und Steigung der Regressionsgeraden). 1 - 94 - Siehe Abschnitt 4.6.2 Mathematische Grundlagen 4 Data-Mining-Verfahren im SAP BI 7.0 4.6.4 Bewertung Die folgende Übersicht stellt die generellen Vor- und Nachteile der (linearen) Regressionsanalyse kurz dar: Stärken Schwächen weit verbreitet Erfasst im Falle der linearen Regression nur lineare Abhängigkeiten leicht verständliches Prinzip Großer Einfluss von schlechtem Datenmaterial oder fehlerhafter Konfiguration auf das Endergebnis Korrelation zwischen tatsächlichem Ergebnis und Vorhersage messbar Einfache, nachvollziehbare Ergebnisse Tabelle 6: Stärken und Schwächen der Regressionsanalyse Die Regressionsanalyse ist ein sehr bekanntes Verfahren, das insbesondere im kaufmännischen Bereich bereits vielfach eingesetzt wird. Im Gegensatz zu den meisten anderen im SAP BI 7.0 implementierten Verfahren, wurde die Regressionsanalyse bisher nicht optimal umgesetzt. Sie arbeitet sehr instabil, so dass bei der nicht linearen Regression nach aktuellem Stand sogar von der Anwendung abgeraten werden muss. Hier besteht konkreter Nachholbedarf seitens SAP. Auch die Darstellung der Ergebnisse könnte weiter optimiert werden, insbesondere in Bezug auf die Bewertung der Güte der Regression, um so noch einfacher feststellen zu können, ob das trainierte Modell für die Vorhersage ausreichend ist. Trotz der vielen Mängel und Kinderkrankheiten lassen sich einfache, lineare Regressionsanalysen gut und performant durchführen. - 95 - 4 Data-Mining-Verfahren im SAP BI 7.0 4.7 Kombination verschiedener Verfahren Wie die bisherigen Ausführungen zu den verschiedenen Data-Mining-Verfahren im SAP BI 7.0 gezeigt haben, gibt es eine Vielzahl an Beispielen und Einsatzgebieten, in denen die jeweilige Data-Mining-Technik sinnvoll und effizient eingesetzt werden kann. In der Praxis werden die verschiedenen Problemstellungen jedoch häufig durch die Kombination der verschiedenen Verfahren gelöst. Oftmals werden deshalb bestimmte Verfahren für die Vorbereitung der Daten oder für vorgelagerte Analysen verwendet, die wiederum als Grundlage und Eingangsdaten für weiterführende Data-Mining-Modelle eingesetzt werden. So sind nicht nur Ergebnisse und Analysen möglich, die wesentlich spezifischer, detaillierter und genauer sind, sondern es werden in vielfacher Hinsicht vollkommen neue Informationen geschaffen, die durch den Einsatz einer einzelnen DataMining-Technik so allein nicht hervorgebracht werden können. 4.7.1 Beispiele in der Versorgerbranche Im Folgenden werden Beispiele und Einsatzgebiete erläutert, die durch den sukzessiven Einsatz verschiedener Data-Mining-Verfahren möglich sind. Wie auch schon bei den Beispielen der jeweiligen Verfahren, soll dieser Überblick nur einen ersten Eindruck verschaffen und hat aufgrund der vielen Möglichkeiten keinen Anspruch auf Vollständigkeit. Forderungsmanagement Für ein Versorgungsunternehmen könnten beispielsweise folgende Fragen aus dem Bereich des Forderungsmanagement interessant sein: ■ Welche Kunden sind potentiell zahlungsunwillig? ■ Besteht ein Zusammenhang zwischen Zahlungsbereitschaft, Verbrauch, Zahlweise oder anderen Faktoren? ■ Welche zahlungsunwilligen Kunden können auf eine sichere Zahlweise (z.B. Lastschrift) umgestellt werden? Abbildung 72 veranschaulicht die einzelnen Schritte, die zur Lösung der oben genannten Problemstellung nötig sind: Abbildung 72: Gesamtbeispiel – Forderungsmanagement - 96 - 4 Data-Mining-Verfahren im SAP BI 7.0 Zu Beginn werden die Daten einem zuvor trainierten Entscheidungsbaum über die Zahlungsbereitschaft übergeben. Dieser ermöglicht nicht nur Aussagen über die Zusammenhänge zwischen verschiedenen Faktoren, die zur mangelnden Zahlungsbereitschaft führen, sondern berechnet in diesem Beispiel auch die prozentuale Wahrscheinlichkeit, ob die übergebenen Kunden zahlungswillig sind oder nicht. Die zahlungsunwilligen Kunden werden an einen weiteren, zuvor trainierten Entscheidungsbaum übergeben, der die Wahrscheinlichkeit berechnet, ob ein Kunde einer alternativen Zahlweise offen gegenüber steht. So können die Kunden mit einer in der Zukunft potentiell schlechten Zahlungsmoral gezielt auf eine für das Unternehmen sicherere Zahlweise umgestellt werden. Erweiterung der Kundenbeziehungen Ein weiteres Beispiel ist der Ausbau der Kundenbeziehungen. Folgende Fragen stehen dabei im Vordergrund: ■ Welche Bestandskunden sind an einer zusätzlichen Versorgung (z.B. Gas- oder Wasservertrag zum vorhanden Stromvertrag) potentiell interessiert? ■ Welche Umsatzsteigerungen lassen sich mit diesen potentiellen Interessenten erzielen? Abbildung 73: Gesamtbeispiel – Erweiterung der Kundenbeziehungen Im ersten Schritt wird auf Basis der Stamm- und Bewegungsdaten der Kunden eine Clusteranalyse durchgeführt, die idealerweise im Ergebnis jeweils ein Cluster für jede Spartenkombination darstellt. Mit Hilfe dieser trainierten Clusteranalyse können die Wahrscheinlichkeiten berechnet werden, ob ein Kunde zusätzlich an weiteren Versorgungsleistungen interessiert ist. Mit Hilfe von Regressionsanalysen, die die Zusammenhänge zwischen den Umsätzen der verschiedenen Sparten darstellen, können die potentiell zusätzlichen Umsätze bei erfolgreichem Vertragsabschluss berechnet werden. Kündigungsanalyse der wichtigsten Kunden Mit Hilfe der folgenden Anwendung könnten die unten aufgeführten Fragestellungen schrittweise beantwortet werden: ■ Welche sind meine wichtigsten Kunden? ■ Wie hoch ist die Wahrscheinlichkeit bei meinen wichtigsten Kunden, dass sie in einem definierten Zeitfenster kündigen? ■ Wie hoch sind die Umsatzeinbußen in der Zukunft, die durch die Kündigung (mit einer Wahrscheinlichkeit von x%) der wichtigsten Kunden entstehen? - 97 - 4 Data-Mining-Verfahren im SAP BI 7.0 Abbildung 74: Gesamtbeispiel – Kündigungsanalyse Zunächst werden die Umsatzzahlen (oder andere Kennzahlen) des Kunden aus den verschiedenen Sparten (Strom, Gas, Wasser) in einem Gesamtscorewert des Kunden verrechnet. Dies geschieht mit Hilfe des Scoring-Verfahrens und individuellen Gewichtungen. Auf Grundlage des Gesamtwertes wird eine ABC-Analyse durchgeführt, die die wichtigsten Kunden identifiziert. Anschließend werden alle A-Kunden an den zuvor trainierten Entscheidungsbaum für die Kündigungswahrscheinlichkeit übergeben. Alle Kunden mit einer Kündigungswahrscheinlichkeit von z.B. mindestens 75% werden an eine zuvor trainierte Regressionsanalyse weitergereicht, die auf Grundlage von Vergangenheitswerten den zukünftigen Umsatz der Kunden berechnet. Dieser Umsatz entspricht dann den Einbußen, die das Unternehmen mit einer Wahrscheinlichkeit von mindestens 75% haben wird, wenn nicht entsprechende Maßnahmen getroffen werden, um die abwanderungswilligen Kunden weiter an das Unternehmen zu binden. - 98 - 4 Data-Mining-Verfahren im SAP BI 7.0 4.8 Implementierung weiterer Verfahren Neben den vorgestellten und im SAP BI 7.0 implementierten Verfahren gibt es in der Theorie (aber auch in der Praxis) viele weitere Data-Mining-Methoden, die in gewissen Konstellationen und für bestimmte Anforderungen bessere Ergebnisse bei kürzeren Laufzeiten versprechen. Der faire Vergleich gestaltet sich zwar schwierig1, dennoch gibt es Erfahrungswerte die zeigen, welche Data-Mining-Anwendungen für gewisse Problemstellungen bevorzugt verwendet werden sollten. Durchaus interessante Ansätze, die bisher nicht im SAP BI 7.0 berücksichtigt wurden, bieten die evolutionären Algorithmen mit ihren verschiedenen Varianten, z.B. den genetischen Algorithmen oder den Mutations-Selektions-Verfahren (mit wiederum verschiedenen Implementierungen wie Simulated Annealing, Threshold Accepting oder die SintflutMethode) oder die Klasse der neuronalen Netze (z.B. Hopfield-Netz, Multi-LayerPerzeptron oder Self Organizing Maps). Eine detaillierte Betrachtung dieser Data-MiningMethoden kann an dieser Stelle nicht geleistet werden2, jedoch kann es sinnvoll sein, im SAP BI 7.0 derartige oder andere Verfahren selbst umzusetzen, solange seitens SAP keine Erweiterung stattfindet. Je nach Verfahren ist der programmiertechnische Aufwand zur Umsetzung von neuen DataMining-Techniken relativ gering. Lediglich die Implementierung einer geeigneten Ergebnisdarstellung kann zu einem erhöhten Mehraufwand führen. Leider ist der APD auf die Eigenprogrammierung von Data-Mining-Verfahren nicht ideal vorbereitet. Die Integration ist aktuell lediglich über die ABAP-Transformation möglich. Mit Hilfe dieser Transformation kann ein Funktionsbaustein (der den ABAP-Code des DataMining-Verfahrens enthält) aufgerufen werden, um die Eingangsdaten in die berechneten Ausgangsdaten zu transformieren und anschließend in einem Datenziel abzulegen. Der APD kann jedoch ideal dafür genutzt werden, um das neu erstellte Verfahren mit mehreren Personen intensiv zu testen. Erste Ansätze zur Implementierung neuer Data-Mining-Verfahren im SAP BI 7.0 mit Hilfe von ABAP wurden bereits geleistet.3 Dennoch sind nicht nur exaktes Wissen über die Funktionsweise und den Ablauf des Verfahrens, sondern auch tiefergehende ABAPKenntnisse und Überlegungen zu Laufzeit und Performanz notwendig, um ein Data-MiningVerfahren selbst zu entwickeln und so umzusetzen, dass es zu brauchbaren und korrekten Ergebnissen führt, die in der Praxis verwendet werden können. 1 Weiterführende Informationen siehe [Nakhaeizadeh, 1998] S.225ff 2 Weiterführende Informationen siehe [Petersohn, 2005] passim, [KiVa, 2007] S.281ff, [Nakhaeizadeh, 1998] passim sowie die umfangreiche Literatur im Abschnitt 13 3 Weiterführende Informationen siehe [KiVa, 2007] S.281ff, 343ff - 99 - 5 Fallstudie „Kündigungsprävention“ 5 Fallstudie „Kündigungsprävention“ Die bisherigen Ergebnisse bezüglich des Data Mining im SAP BI 7.0 sollen in der nun folgenden Fallstudie möglichst praxisnah und anhand realer Daten beispielhaft umgesetzt werden. Die Realisierung erfolgt unter weitestgehender Berücksichtigung des CRISP-DMProzessmodells1. Soweit in diesem Beispiel möglich, wird versucht, die einzelnen Teilschritte des CRISP-Prozesses anzuwenden, ohne jedoch den Umfang dieser Arbeit aus den Augen zu verlieren. Da es sich um eine praxisnahe Umsetzung, und nicht um ein echtes Kundenprojekt handelt, werden einige Prozessschritte nicht so detailliert oder gar nicht behandelt, da die in der Praxis vorkommenden Gegebenheiten an dieser Stelle nicht vorzufinden sind und auch nicht erfunden werden sollen. So werden Teilschritte, wie z.B. der Projektplan, die Aufgabenbeschreibung der beteiligten Personen, die Beschreibung spezifischer Begriffe, die Risikoeinschätzung oder das „Deployment“ ausgelassen oder nur oberflächlich beschrieben, ohne erneut die Gründe dafür zu nennen. 5.1 Business Understanding 5.1.1 Determine Business Objectives Die Öffnung der Energiemärkte führte zu einer weitreichenden Veränderung des Marktes. War früher der lokale Energieanbieter für die Versorgung zuständig, kann der Kunde heute frei zwischen den Energieversorgungsunternehmen wählen. Kundenorientierung und Kundenbindung, die zuvor wenig Beachtung fanden, sind stark in den Fokus gerückt. Durch die steigenden Energiepreise reagieren Kunden zunehmend empfindlich auf Preissteigerungen sowie Preisunterschiede zwischen den verschiedenen Versorgern. Insgesamt ist die Wechselbereitschaft in den letzten Jahren extrem angestiegen. Da die Gewinnung von Neukunden in der Regel mit einem höheren Aufwand verbunden ist, gewinnt die Bindung von bestehenden, jedoch potentiell abwanderungswilligen Kunden zunehmend an Bedeutung. Aus der Geschäftsperspektive ist daher die Bindung von (kündigungsgefährdeten) Kunden als Hauptziel zu nennen, das mit dieser Data-Mining-Fallstudie erreicht werden soll. Als Erfolgskriterien können die Reduzierung der Kündigungen auf einen definierten Prozentsatz sowie die Ermittlung von Indikatoren für eine Kündigung genannt werden. 1 - 100 - Siehe Abschnitt 2.6.1 CRISP-Prozess 5 Fallstudie „Kündigungsprävention“ 5.1.2 Assess Situation Alle benötigten Begrifflichkeiten aus dem Bereich des Data Mining sowie die verwendeten Hard- und Softwaresysteme (Quellsysteme und BI-Systeme)1, wurden bereits ausführlich in den vorangegangenen Abschnitten dieser Arbeit beschrieben. Außer dem Autor dieser Arbeit sind lediglich die Mitarbeiter aus dem Center BI sowie CRM und EDM beteiligt, jedoch nur in beratender Form bei IS-U spezifischen Fragestellungen. Die Beschreibung besonderer Annahmen und Einschränkungen bezüglich der Datenqualität, der Datengröße, dem Datenzugriff oder den Daten selbst, erfolgt bei Bedarf in den entsprechenden Teilschritten. Aus den bereits genannten Gründen wird außerdem auf die Darstellung und Problemlösung möglicher Risiken oder anderer Eventualitäten verzichtet. Beispielhaft soll im Folgenden unter Berücksichtigung verschiedener Annahmen der monetäre Nutzen beschrieben werden: ■ Annahmen □ Von den vorhandenen 200.000 Kunden werden 10.000 Kunden mit einer erhöhten Abwanderungswahrscheinlichkeit identifiziert und gezielt mit Hilfe einer Marketingkampagne angesprochen. Dabei entstehen Kosten in Höhe von 3 € pro ausgewähltem Kunden. □ Jeder fünfte dieser Kunden kann weiter an das Unternehmen gebunden werden. □ Der durchschnittliche Umsatz eines Kunden beträgt 700 € pro Jahr. ■ Nutzen □ Diese vereinfachten Annahmen führen zu einer Umsatzsteigerung von 1,37 Mio € pro Jahr. Auch aus dieser beispielhaften Berechnung wird schnell deutlich, welches (Umsatz-) Potential in Kunden steckt, die durch einfache und gezielte Maßnahmen von ihrer Kündigung abgehalten werden können. Die Kosten für die Data-Mining-Umsetzung sind im Verhältnis zum Nutzen von geringer Bedeutung und auch die Anschaffungskosten entfallen, da die Data-Mining-Lösung bereits im SAP BI 7.0 integriert ist. 5.1.3 Determine Data Mining Goals Folgende Ziele dieser Fallstudie aus der Data-Mining-Sicht sind zu nennen: ■ Vorhersage der Kündigungswahrscheinlichkeit eines ausgewählten Kunden. ■ Identifizierung der Indikatoren und Einflüsse, die auf eine Kündigung hinweisen. Ein mögliches Erfolgskriterium für die Data-Mining-Zielsetzungen ist die Vorhersagegenauigkeit bzw. die prozentuale Angabe der Vorhersagefehler. 1 Siehe Abschnitt 1.4 Eingesetzte Software - 101 - 5 Fallstudie „Kündigungsprävention“ 5.2 Data Understanding 5.2.1 Collect Initial Data Für die Datenbeschaffung werden zwei Systeme verwendet. Das erste System stellt eine Spiegelung eines produktiven R/3-Systems mit IS-U Modul dar. In diesem System können die vorhandenen Daten auf Tabellenebene betrachtet und mittels Dateiexport extrahiert werden. Da die benötigten Daten sehr spezifisch sind und nicht mittels Business Content in das BI 7.0 Testsystem geladen werden können und darüber hinaus das Anlegen eigener, generischer DataSources im Rahmen der Diplomarbeit nicht zugelassen ist, durchlaufen die Daten zunächst nicht den normalen ETL-Prozess des Business Warehouse, sondern werden mittels CSV-Dateien eingebunden und im APD weiter vorbereitet. Das zweite System ist ein produktives BW 3.5 System, da nur dieses eine vollständig geladene Verkaufsstatistik enthält, aus der eine Vielzahl an Daten erhoben werden können. Der Datenexport erfolgt per Query und anschließend erneut mittels CSV-Datei. Die weitere Verarbeitung findet im APD statt. Tabelle 7 gibt eine Übersicht über die für dieses Projekt benötigten und vorhandenen Daten. 5.2.2 Describe Data Im Folgenden werden die nicht eindeutigen Felder aus Tabelle 7 kurz erläutert. Alle anderen ausgewählten Attribute sind weitestgehend selbsterklärend und bedürfen daher keiner weiteren Erläuterung. ■ Männlich (beinhaltet ein X wenn Geschäftspartner männlich ist) ■ Weiblich (beinhaltet ein X wenn Geschäftspartner weiblich ist) ■ Geschäftspartnertyp (unterscheidet zwischen Einzelpersonen, Wohngemeinschaften etc.) ■ Mahnzähler (Zählt die Mahnungen zu einem definierten Vorfall) ■ Anzahl Mahnungen (Enthält die Anzahl aller jemals aufgetretenen Mahnungen) ■ Durchschn. Betrag/Menge (Betrag/Menge pro Monat in Bezug auf die Vetragsmonate) ■ Kündigungskennzeichen (Enthält ein J bei Kündigern, und ein N bei aktiven Kunden) Auf die detaillierte Darstellung der Datentypen, -längen und -formate wird an dieser Stelle verzichtet. Durch die vielen vorhandenen Konvertierungsroutinen im SAP BI 7.0 sind der Datentyp und die Formatierung der Daten nicht entscheidend. Lediglich die Länge der angelegten InfoObjects muss ausreichend sein, um die Quelldaten korrekt aufnehmen zu können. - 102 - 5 Fallstudie „Kündigungsprävention“ Beschreibung Herkunft Selektionskriterien Feldauswahl Kündiger (identifiziert über Wechselbelege) Tabelle EIDESWTDOC Wechseltyp = 01 (Lieferantenwechsel) Geschäftspartner Wechselsicht = 03 (Alter Lieferant) Neuer Lieferant Alter Anbieter = 000092LIEF (spez. STW) Status = 01 (ok)1 Aktive Kunden (identifiziert über aktuelle Veträge) Kontenfindungsmerkmal = 01 (Tarifkunden) Tabelle EVER Geschäftspartner Anbieter = 000092LIEF (spez. STW) fakturierender Anbieter = 000092LIEF (spez. STW) Auszugsdatum = 31.12.9999 (nur aktive Verträge)2 Stammdaten zum Geschäftspartner Geschäftspartner Tabelle BUT000 Geburtsdatum Weiblich Männlich Nationalität Stammdaten und Kennzahlen aus der Verkaufsstatistik Kalenderjahr = 2005 – 2008 Query auf vollständige Geschäftspartner = Mehrfachauswahl über Verkaufsstatistik 3 Variable Über die Variable werden alle zuvor ausgewählten aktiven Kunden und Kündiger übergeben. So werden die Merkmale und Kennzahlen direkt den Geschäftspartnern zugeorndet. Geschäftspartner Menge Arbeit Betrag Gesamt Abgerechnete Vertragsmonate Geschäftspartnertyp Vorname Nachname Region Regionalstruktur Ort Ortsteil Strasse Tarif Angelegt am Mahnungen Tabelle FKKMAKO Weitere berechnete Daten Berechnung im APD Sparte = 01 (Strom) Geschäftspartner Mahnzähler Alter Anzahl Mahnungen Geschlecht Kunde seit Durchschn. Betrag Durchschn. Menge Vergleich Betrag 2006/2007 Kündigungskennzeichen Tabelle 7: Collect Initial Data Report 1 Siehe Anhang 7.3.1 - Abbildung 95, Abbildung 96, Abbildung 97 und Abbildung 98 2 Siehe Anhang 7.3.1 - Abbildung 99 und Abbildung 100 3 Siehe Anhang 7.3.1 - Abbildung 101 - 103 - 5 Fallstudie „Kündigungsprävention“ 5.2.3 Explore Data Bei einer ersten oberflächlichen Untersuchung der Daten wird deutlich, dass sowohl die Mengen, als auch die Beträge der meisten Kunden von Jahr zu Jahr ansteigen. Dies ist zwar bezüglich der Beträge aufgrund der Preisentwicklung in den letzten Jahren nicht weiter verwunderlich, jedoch bezüglich der Mengen auffällig. Diese erste Besonderheit sollte bei der Modellierung sowie Auswertung der Ergebnisse ggf. berücksichtigt werden. Außerdem ist erkennbar, dass die meisten Kündiger zu einem bestimmten neuen Versorger wechseln. Wie diesbezüglich die Verteilung auf welche Versorger erfolgt, könnte ein weiteres Ziel sein, das mit Hilfe des Data Mining näher betrachtet werden kann. Auf weiterführende, detaillierte statistische Auswertungen wird an dieser Stelle verzichtet. 5.2.4 Verify Data Quality Die Datenqualität ist einer der entscheidenden Faktoren für die erfolgreiche Anwendung einer Data-Mining-Lösung. In Tabelle 8 sind die wesentlichen Ergebnisse der Qualitätsüberprüfung festgehalten. Felder in denen keinerlei Qualitätsprobleme zu finden sind werden nicht aufgeführt. 5.3 Data Preparation 5.3.1 Select Data Ein Großteil der Datenselektion fand, wie bereits beschrieben, in der „Inital Data Collection“ statt, indem bereits an dieser Stelle die zu extrahierenden Daten anhand verschiedener Selektionskriterien eingeschränkt wurden. Bei der Überprüfung der Datenqualität wurde festgestellt, dass die Felder Nationalität und Region aufgrund ihrer Inhalte keine Relevanz und damit keinen Einfluss auf das spätere Modell besitzen. Darüber hinaus werden die Felder Vorname, Nachname und Strasse nicht an das Data-Mining-Modell übergeben. Sie dienen lediglich der genauen Identifikation der Kunden. Die Selektion der Kunden die gekündigt haben, wurde auf Grundlage der Wechselbelege durchgeführt. Da die Möglichkeiten des Versorgerwechsels erst ab dem Jahre 2007 intensiv genutzt wurden, ergibt sich in diesem Zeitraum eine Anzahl von ca. 3000 Wechselbelegen (eingeschränkt auf die Sparte Strom). Diese werden vollständig für das Data-Mining-Modell verwendet. Im Gegensatz dazu erfolgte die Auswahl der Kunden, die noch aktiv sind, auf Basis der aktuellen Verträge. Da die Anzahl der aktiven Verträge deutlich höher liegt, fand hier eine zufällige Selektion auf Basis von gleichmäßigen Intervallen statt, so dass vor der Vorbereitung der Daten ähnlich viele aktive Kunden den inaktiven Kunden gegenüberstanden. - 104 - 5 Fallstudie „Kündigungsprävention“ Feld Problem Lösung Tarif Aus der Verkaufsstatistik werden dem Geschäftspartner alle Tarife des gewählten Zeitraums zugeordnet. Im Hinblick auf die Data-Mining-Zielsetzung ist jedoch immer nur der letzte gewählte Tarif von Bedeutung. Unnötige Datensätze der alten Tarife mit Hilfe der Transformation Filter im APD entfernen. Betrag/Menge Nicht in allen der Jahre 2005-2008 sind Mengen und Beträge zu einem Geschäftspartner vorhanden (z.B. wenn Kunde erst seit 2006 beim Versorger ist) Konfiguration des Data-Mining-Modells, so dass Nullwerte nicht berücksichtigt werden. Betrag/Menge Beträge und Mengen beziehen sich auf die abgerechneten Vertragsmonate und sind so nicht vergleichbar Berechnung der durchschnittlichen Monatswerte in Abhängigkeit von den abgerechneten Vertragsmonaten mit Hilfe der Transformation Formel Betrag/Menge Negative Beträge und abgerechnete Vertragsmonate > 20 vorhanden Aussortieren der kompletten Datensätze, die das entsprechende Problem beinhalten, mit Hilfe der Transformation Filter. Geburtsdatum fehlende Einträge Bei fehlenden Geburtsdaten Einfügen von 0 im Feld Alter mit Hilfe der Transformation ABAP-Routine (die zur Berechnung des Alters verwendet wird). Geburtsdatum/Alter Wenn Geburtsdatum vorhanden, dann überproportional von älteren Kunden. Bei Verwendung des Merkmals Alter im Modell, Berücksichtung dieser Problematik bei der Analyse der Ergebnisse. Mahnungen Mehrere Einträge zu einem Geschäftspartner vorhanden. Aggregation auf Geschäftspartnerebene durch Summation der Mahnzähler (Transformation Aggregation). Angelegt am Keine Kundendaten älter als 4 Jahre (möglicherweise aufgrund einer Migration bzw. eines Datenimports) Berücksichtigung bei der Auswertung der Ergebnisse. Nationalität fehlende Einträge und 95% der vorhandenen Einträge = DE Merkmal ist unbedeutend und wird entfernt. Geschlecht Aufteilung in Männlich und Weiblich mit dem Kennzeichen X unvorteilhaft für das Modell. Einfügen des Feldes Geschlecht mit den Ausprägungen W, M und U (für unbekannt) und Berechnung der Werte mit Hilfe der Transformation ABAPRoutine. Dubletten Identische Datensätze vorhanden Entfernen von Dubletten mit Hilfe der Transformation Aggregation (ohne Aggregationsverhalten) Kündigungskennzeichen Nach Zusammenführung von aktiven Kunden und Kündigern keine Unterscheidung zwischen den beiden Gruppen mehr möglich. Einfügen eines Kündigungskennzeichen (J oder N) vor der Vereinigung der beiden Gruppen mit Hilfe der Transformation Formel. Region Da sich die vorhandenen Daten auf ein spezifisches Stadtwerk beziehen, lautet die Region immer NRW Merkmal ist unbedeutend und wird entfernt. Keine Berücksichtigung der 0 im Modell. Tabelle 8: Data Quality Report - 105 - 5 Fallstudie „Kündigungsprävention“ Schon vor der Modellierung und Durchführung wird deutlich, dass die vorhandenen Daten ggf. nicht ausreichend sein könnten, um sehr gute Ergebnisse zu erzielen. Die Einbindung und der Zukauf von externen Daten könnten im weiteren Verlauf als notwendig betrachtet werden. Durch diese zusätzlichen Daten wäre es zudem möglich, die Datenqualität weiter zu erhöhen (z.B. in Bezug auf das Geburtsdatum oder die Nationalität). Im Rahmen dieser Arbeit kann auf derartige Möglichkeiten jedoch nicht zurückgegriffen werden. 5.3.2 Clean, Construct, Integrate, Format Data Diese eigentlich getrennt voneinander durchgeführten Schritte des CRISP-DM-Prozess werden, aus Gründen der Übersichtlichkeit und um redundante Beschreibungen und Erläuterungen zu den Vorgängen zu vermeiden, in einem Analyseprozess zusammen durchgeführt. Eine Übersicht über den Analyseprozess zur Bereinigung und Vorbereitung der Daten ist in Abbildung 75 dargestellt.1 Die einzelnen, nummerierten Schritte werden im Folgenden kurz erläutert.2 ■ Schritt 01 Im ersten Schritt werden die Daten der Geschäftspartner, die gekündigt haben (inkl. aller Attribute aus der Verkaufsstatistik), dem Analyseprozess zur Verfügung gestellt. ■ Schritt 02 In den Daten befinden sich zu diesem Zeitpunkt noch alle Tarife, die dem Kunden im Zeitraum 2005-2008 zugeordnet waren. In das Modell soll nur der letzte Tarif (vor der Kündigung) einbezogen werden. Daher werden in diesem Schritt mit Hilfe der Transformation Filter die nicht benötigten Einträge entfernt. ■ Schritt 03 Um im späteren Verlauf die Kündiger weiterhin identifizieren und das Modell trainieren zu können, wird mit Hilfe der Transformation Formel ein neues Feld gekündigt eingefügt, das für die Kündiger den Wert J enthält. ■ Schritt 04 In diesem Schritt werden die Kennzahlen aus der Verkaufsstatistik (Mengen und Beträge aus dem Jahr 2005) mit Hilfe der Transformation Verknüpfung durch einen Left-OuterJoin den Geschäftspartnern zugeordnet. Durch den Left-Outer-Join bleiben die Felder leer, wenn zu einem Geschäftspartner in dem gewählten Jahr keine Kennzahlen vorhanden sind. ■ Schritt 05-07 Wie in Schritt 4 werden nun alle Kennzahlen aus den Jahren 2006-2008 den Geschäftspartnern zugeordnet, soweit dies möglich ist. - 106 - 1 Eine vergrößerte Darstellung befindet sich in Abschnitt 7.3.2 Anhang - Abbildung 102 2 Für detaillierte Informationen zu den einzelnen Transformationstypen und möglichen Parametereinstellungen siehe [Projektarbeit, 2008] S.34ff, S54ff 5 Fallstudie „Kündigungsprävention“ Abbildung 75: Kündigungsprävention – Analyseprozess ■ Schritte 08-14 Die Schritte 8 bis 14 entsprechen den Schritten 1 bis 7, mit dem Unterschied, dass nun die Daten der aktiven Kunden (und nicht der Kündiger) betrachtet und vorbereitet werden. ■ Schritt 15 In diesem Vorgang werden die Kündiger über die Transformation Union mit den aktiven Kunden zusammengeführt. Dies vereinfacht die nachfolgenden Prozesse, da diese alle Geschäftspartner betreffen und so zusammen durchgeführt werden können. ■ Schritt 16 Um die Datenqualität zu verbessern, werden in diesem Schritt alle Datensätze mit negativen Beträgen sowie abgerechneten Vertragsmonaten größer als 20 aussortiert. ■ Schritt 17 Schritt 17 berechnet mit Hilfe der Transformation Formel die monatlichen Werte bezüglich Betrag und Menge für jedes Jahr auf Grundlage der abgerechneten Vertragsmonate. ■ Schritt 18 Anschließend werden nicht mehr benötigte Felder mit der Transformation Spalten ausblenden entfernt. - 107 - 5 Fallstudie „Kündigungsprävention“ ■ Schritt 19 Schritt 19 entfernt die vorhandenen Dubletten. Dies geschieht unter Zuhilfenahme der Transformation Aggregation. Diese „Zweckentfremdung“ wird möglich, indem kein Aggregationsverhalten für die Felder ausgewählt wird. ■ Schritt 20 Mit Hilfe einer ABAP-Routine wird die Anzahl der Jahre berechnet, die der Kunde bei dem Versorger unter Vertrag steht.1 ■ Schritt 21 Daraufhin werden die Mahndaten dem Analyseprozess zur Verfügung gestellt und anschließend die Mahnzähler (die Anzahl der Mahnungen) für jeden Geschäftspartner mit Hilfe der Transformation Aggregation summiert. ■ Schritt 22 Schritt 22 verknüpft die Mahndaten mit den vorhandenen Geschäftspartnern. Dies geschieht erneut mittels Left-Outer-Join. ■ Schritt 23 Da in Schritt 23 der Betragsanstieg zwischen den Jahren 2006 und 2007 berechnet werden soll, werden alle Datensätze mit negativen Beträgen aus 2006 entfernt. ■ Schritt 24 Durch die Transformation Formel wird anschließend der bereits angesprochene Betragsanstieg berechnet. ■ Schritt 25 Nun werden weitere Attribute der Geschäftspartner (männlich, weiblich) zur Verfügung gestellt... ■ Schritt 26 ... und anschließend mit den vorhandenen Daten verknüpft (Left-Outer-Join). ■ Schritt 27 Der vorletzte Schritt der Datenvorbereitung und -bereinigung ermittelt durch eine ABAPRoutine auf Grundlage des Geburtsdatums das Alter, und auf Basis der Einträge aus den Feldern männlich/weiblich das Geschlecht.2 Diese neuen Attribute werden in die zusätzlichen Spalten Alter und Geschlecht aufgenommen. ■ Schritt 28 Abschließend werden die transformierten und bereinigten Daten in ein Datenziel (hier Flatfile) abgelegt, um sie so, sehr einfach in den nachfolgenden Analyseprozessen verwenden zu können. Das Ergebnis dieses Analyseprozesses auf Tabellenebene ist in Abbildung 1033 zu sehen. - 108 - 1 Siehe Anhang 7.3.2 - Listing 1 2 Siehe Anhang 7.3.2 - Listing 2 3 Siehe Anhang 7.3.2 5 Fallstudie „Kündigungsprävention“ 5.4 Modeling 5.4.1 Select Modeling Technique Aufgrund der Zielsetzungen dieser Fallstudie bietet sich für die Durchführung im SAP BI 7.0 zunächst der Entscheidungsbaum als Data-Mining-Technik an. Mit dieser Technik kann vorhergesagt werden, mit welcher Wahrscheinlichkeit ein Geschäftspartner kündigen wird. Zusätzlich wird die Clusteranalyse angewandt. So können gegebenenfalls zusätzliche Informationen bezüglich der Indikatoren ermittelt oder die Ergebnisse aus dem Entscheidungsbaum verifiziert werden. 5.4.2 Generate Test Design Bei der Anwendung des Entscheidungsbaumes ist es zunächst sinnvoll, die vorhandene Datenmenge in eine Trainingsmenge und eine Testmenge aufzuteilen. Die Trainingsmenge wird automatisch mit Hilfe der Stichprobenfunktionalität innerhalb des Data-MiningModells erzeugt. So wird eine definierte Anzahl an prozentualen Stichproben erzeugt (z.B. 40% der Datenmenge). Die beste Stichprobe wird anschließend für das Training des Entscheidungsbaumes verwendet. Um das Modell des Entscheidungsbaumes bewerten zu können, wird ein separater Analyseprozess verwendet (siehe Abbildung 76). Innerhalb dieses Prozesses wird dann die Testmenge (die alle vorbereiteten Daten umfasst) verwendet und durch den trainierten Entscheidungsbaum geschickt. Im Analyseprozess wird dabei die Transformation Entscheidungsbaum verwendet, jedoch im Bewertungsmodus. Abbildung 76: Kündigungsprävention – Bewertung - 109 - 5 Fallstudie „Kündigungsprävention“ Anschließend können anhand einer Bewertungsmatrix der Alpha- und Beta-Fehler sowie die Gesamtgenauigkeit des Modells analysiert werden, um so eine Einschätzung der Güte des erzeugten Modells vornehmen zu können. Ein Beispiel einer Bewertungsmatrix ist in Abbildung 77 dargestellt. Abbildung 77: Kündigungsprävention – Fehlermatrix Für die Clusteranalyse werden zunächst alle vorhandenen Datensätze verwendet. Eine spezifische Aufteilung wie beim Entscheidungsbaum erfolgt nicht. 5.4.3 Build Model Für den Entscheidungsbaum werden zwei Konfigurationen erstellt, zwischen denen je nach Zielsetzung und je nach Kontext der Kundenbindungsmaßnahmen gewechselt werden kann. Bezüglich der Clusteranalyse gibt es eine finale Parameterkonfiguration. Entscheidungsbaum (1) In Abbildung 78 ist zunächst die Felddefinition dargestellt. In Bezug auf die Mengen und Beträge werden nur die Daten aus 2007 verwendet, weil diese für nahezu alle Geschäftspartner vorhanden sind, da der Großteil der Wechselbelege und damit der Kündiger aus diesem Jahr stammen. Das Feld Geschäftspartner wird als Schlüsselfeld konfiguriert. Die übrigen Felder werden in Abhängigkeit von ihren Inhalten als stetig oder diskret definiert. Das Feld gekündigt stellt das Vorhersagefeld dar. - 110 - 5 Fallstudie „Kündigungsprävention“ Abbildung 78: Kündigungsprävention – E-Baumkonfiguration (1) In der Parameterkonfiguration der einzelnen Felder werden keine Einstellungen vorgenommen (siehe Abbildung 79), da Nullwerte in allen Feldern nicht berücksichtigt werden sollen. Abbildung 79: Kündigungsprävention – E-Baumkonfiguration (2) Darüber hinaus findet keinerlei Diskretisierung statt. Wie sich bei der Analyse der Ergebnisse gezeigt hat, verschlechtert eine manuelle Diskretisierung stetiger Werte grundsätzlich die Qualität dieses Modells. Aus diesem Grund wird die Wertekonfiguration der einzelnen Felder lediglich dazu verwendet, um einzelne Wertebereiche auszuschließen oder Ausreißer zu entfernen. Abbildung 80: Kündigungsprävention – E-Baumkonfiguration (3) Aufgrund der Berechnung des Alters bei der Vorbereitung der Daten, wurde bei fehlendem Geburtsdatum eines Geschäftspartners eine 0 im Feld Alter eingetragen. Diese sollen jedoch nicht in das Modell einfließen und werden durch die entsprechende Konfiguration (siehe Abbildung 80) bei der Generierung des Entscheidungsbaums ignoriert. - 111 - 5 Fallstudie „Kündigungsprävention“ Abbildung 81: Kündigungsprävention – E-Baumkonfiguration (4) Im Verlauf der Modellierung hat sich zudem gezeigt, dass Ausreißer im Feld Betrag negativ auf die Qualität des Modells auswirken. Sie werden durch eine entsprechende Konfiguration (siehe Abbildung 81) ignoriert. Abbildung 82: Kündigungsprävention – E-Baumkonfiguration (5) Das Feld Geschlecht besitzt die drei möglichen Ausprägungen M (männlich), W (weiblich) und U (unbekannt). Alle Werte des Typs U werden ignoriert (siehe Abbildung 82), da sie keinen Mehrwert für das Modell darstellen. Abbildung 83: Kündigungsprävention – E-Baumkonfiguration (6) Die Konfiguration der Gesamtmodellparameter ist in Abbildung 83 dargestellt. - 112 - 5 Fallstudie „Kündigungsprävention“ Dabei wurden folgenden Einstellungen vorgenommen: ■ Stichprobe verwenden Um eine Trainingsmenge automatisch zu erstellen, wird die Stichprobenfunktionalität verwendet. Dabei wurden ein Mindestanteil von 50% sowie ein Maximalanteil von 60% der Gesamtdaten definiert. Die Angaben erwiesen sich als zielführend, um bei der relativ geringen Datenmenge dennoch einen möglichst qualitativ hochwertigen Entscheidungsbaum generieren zu können, und gleichzeitig ein Overfitting1 zu vermeiden. Die Anzahl der Stichprobenversuche wurde auf 5 festgelegt. ■ Abbruchbedingungen Bezüglich der Abbruchbedingungen erwies es sich als vorteilhaft, die Mindestanzahl an Datensätzen pro Blatt auf 10 sowie die Genauigkeit der jeweiligen Ebene auf 95% festzulegen. ■ Erweiterte Einstellungen Die Prüfung der Relevanz der Modellfelder wurde nicht verwendet, da die gleichen Ergebnisse durch das Pruning erzielt wurden. ■ Pruning In dieser ersten Konfiguration wird das Pruning nicht verwendet.2 Entscheidungsbaum (2) Die zweite Konfiguration der Parameter des Entscheidungsbaumes unterscheidet sich von der ersten ausschließlich in der Verwendung des Pruning (siehe Abbildung 84). Alle weiteren Parameter und Feldkonfigurationen sind identisch mit der oben beschriebenen ersten Konfiguration. Die Unterschiede in den Ergebnissen dieser beiden Modellkonfigurationen werden in Abschnitt 5.4.4 näher erläutert. Abbildung 84: Kündigungsprävention – E-Baumkonfiguration (7) 1 Siehe Abschnitt 4.5.3 Entscheidungsbaum - Umsetzung im SAP BI 7.0 2 Die Auswirkungen werden in Abschnitt 5.4.4 erläutert. - 113 - 5 Fallstudie „Kündigungsprävention“ Clusteranalyse Die Felder in der Clusteranalyse unterscheiden sich zunächst nicht von denen des Entscheidungsbaumes (siehe Abbildung 85) Abbildung 85: Kündigungsprävention – Clusterkonfiguration (1) In der Feldparameterkonfiguration werden keine Einstellungen vorgenommen (siehe Abbildung 86), da Gruppierungen und Gewichtungen für dieses Fallbeispiel nicht sinnvoll sind. Abbildung 86: Kündigungsprävention – Clusterkonfiguration (2) Um die Ergebnisse der Clusteranalyse im weiteren Verlauf besser analysieren und interpretieren zu können, wird in der Wertekonfiguration aller stetigen Felder eine geeignete Diskretisierung vorgenommen (siehe Abbildung 87). Nicht definierte Bereiche werden ignoriert. Daher ist eine zusätzliche Konfiguration wie bei dem Entscheidungsbaum, für z.B. Ausreißer, nicht nötig. - 114 - 5 Fallstudie „Kündigungsprävention“ Abbildung 87: Kündigungsprävention – Clusterkonfiguration (3) In der Konfiguration der Gesamtmodellparameter wird die Anzahl der Cluster auf 2 gesetzt. Durch den großen Einfluss des Feldes gekündigt können so zwei Cluster gebildet werden, die nahezu vollständig aus entweder aktiven Kunden oder Kündigern bestehen. Dies erlaubt den einfachen Vergleich der Eigenschaften dieser beiden Gruppierungen und vereinfacht damit die Analyse der Ergebnisse im Hinblick auf die Data-Mining-Zielsetzung. Abbildung 88: Kündigungsprävention – Clusterkonfiguration (4) - 115 - 5 Fallstudie „Kündigungsprävention“ Die maximale Anzahl an eindeutigen Werten wird auf 50 erhöht, da sonst z.B. die Tarife, aufgrund der Anzahl an diskreten Ausprägungen, nicht verwendet werden. Die Anzahl der Iterationen wird auf 10 gesetzt. Bei der kurzen Laufzeit und der nicht allzu großen Datenmenge, führt dies nicht zu Performance-Einbußen. Bei allen weiteren Parametern wird die Standardkonfiguration nicht verändert. 5.4.4 Assess Model Die Qualität bzw. die Genauigkeit der Modelle wird im Falle des Entscheidungsbaumes mit Hilfe der Fehlermatrix analysiert. Das Clustermodell wird mit Hilfe der Entfernungen und der Kompaktheit beurteilt. Im Folgenden werden die Unterschiede zwischen den beiden Konfigurationen des Entscheidungsbaumes, sowie die generelle Güte und Qualität aller Modelle bewertet und erläutert. Entscheidungsbaum (1) Die Vorhersagegenauigkeit des Modells für den Entscheidungsbaum liegt bei ca. 73% (siehe Abbildung 89). Wünschenswert wäre eine Genauigkeit von über 90%, jedoch ist dieser Wert in dem konkreten Beispiel der Kündigungsprävention, mit den vorhandenen Daten nicht zu erreichen. Für diese spezielle Fallstudie bedarf es weiterer, insbesondere „persönlicher“ Daten. Diese zusätzlichen Daten sind im IS-U so nicht zu finden oder nicht gepflegt. Daher könnte es sinnvoll sein, die Vorhersagegenauigkeit des Modells mit Hilfe externer (Markt)Daten zu verbessern. So könnten beispielsweise Daten über das Wohlstandsniveau, Arbeitslosenzahlen, Bildungsniveau, Konsumverhalten usw. von einem entsprechenden Anbieter erworben und eingebunden werden. Im Rahmen dieser Diplomarbeit ist dies nicht möglich. Abbildung 89: Kündigungsprävention – Fehlermatrix 1 - 116 - 5 Fallstudie „Kündigungsprävention“ Entscheidungsbaum (2) Der einzige Unterschied zwischen den beiden Konfigurationen des Entscheidungsbaumes liegt in der Anwendung des Pruning. Das Ergebnis ist ein vereinfachter Baum, der zwar eine ähnliche Vorhersagegenauigkeit, jedoch unterschiedliche Alpha- und Beta-Fehler1 besitzt (siehe Abbildung 90). So führt das Pruning dazu, dass der prozentuale Fehleranteil bezüglich des Alpha-Fehlers sinkt. Im Gegenzug steigt dafür der Beta-Fehler. Abbildung 90: Kündigungsprävention – Fehlermatrix 2 Je nach Ausgangslage und weiterem Vorgehen kann es durchaus sinnvoll sein, den AlphaFehler auf Kosten des Beta-Fehlers zu senken. Denn insgesamt kann es in diesem Beispiel als kritischer angesehen werden, wenn ein Kunde kündigt, obwohl das Gegenteil prognostiziert wurde, als dass ein Kunde nicht kündigt, obwohl dies so vorausgesagt war. Zwar führt der erhöhte Beta-Fehler damit zu „sinnlosen“ Ausgaben z.B. bei einer Kampagne zur Kundenbindung, jedoch sind die Einbußen aufgrund verlorener Kunden deutlich höher einzuschätzen. Durch die Variation der Stichprobengrößen lässt sich auf Wunsch die Diskrepanz zwischen den beiden Fehlerarten bei gleichbleibender Gesamtvorhersagegenauigkeit weiter erhöhen. Clusteranalyse Wie Abbildung 91 verdeutlicht, sind die durchschnittlichen Entfernungen innerhalb des Clusters ausreichend gering. Trotz der maximalen Entfernungen tendiert der Durchschnitt in Richtung der minimalen Entfernungen. Jedoch wird an dieser Stelle auch deutlich, dass das Datenmaterial weiter verbessert werden kann (durch z.B. externe Daten), um die Homogenität der Cluster zu optimieren. 1 Siehe Abschnitt 14 Glossar - 117 - 5 Fallstudie „Kündigungsprävention“ Abbildung 91: Kündigungsprävention – Entfernungen 5.5 Evaluation 5.5.1 Evaluate Results Da bei der ersten Konfiguration des Entscheidungsbaumes kein Pruning durchgeführt wird, entsteht ein recht großer und unüberschaubarer Entscheidungsbaum. Das Pruning in der zweiten Konfiguration beschneidet den Baum sinnvoll, so dass ein Modell entsteht, das wesentlich einfacher analysiert und interpretiert werden kann (siehe Abbildung 92). Wie die Ergebnisse zeigen, bleibt dabei die Vorhersagegenauigkeit nahezu gleich. Abbildung 92: Kündigungsprävention – Ergebnisse (Pruning) Ein Ausschnitt aus dem „geprunten“ Entscheidungsbaum ist in Abbildung 93 zu sehen. Der Entscheidungsbaum kann bezüglich der Zielsetzungen in zweierlei Hinsicht verwendet werden: Zum Einen kann für Kunden die Wahrscheinlichkeit für eine Abwanderung vorhergesagt werden kann. Zum Anderen ermöglicht die Analyse der Splits, die Indikatoren und Eigenschaften zu erkennen, die zu einer Kündigung führen können. - 118 - 5 Fallstudie „Kündigungsprävention“ Abbildung 93: Kündigungsprävention – Ausschnitt Entscheidungsbaum Um diese Eigenschaften und Frühindikatoren zu bestätigen und zu erweitern, wurde zusätzlich die Clusteranalyse durchgeführt. Einen Ausschnitt aus den Ergebnissen zeigt Abbildung 94. Abbildung 94: Kündigungsprävention – Ausschnitt Clusteranalyse Die wesentlichen Erkenntnisse und Ergebnisse der Modelle bezüglich der Eigenschaften der Kunden, die eine höhere Kündigungswahrscheinlichkeit besitzen, werden in Tabelle 9 beschrieben. Indikator Beschreibung Alter Kunden zwischen 30 und 50 Jahren besitzen die größte Kündigungswahrscheinlichkeit. Betrag Je höher der Betrag, desto Kündigungswahrscheinlichkeit. Geschlecht Männer kündigen deutlich häufiger als Frauen. Mahnungen Je höher die Anzahl der Mahnungen, desto niedriger die Kündigungswahrscheinlichkeit. Menge Je höher die verbrauchte Menge, desto höher die Kündigungswahrscheinlichkeit. Tarif Die Tarife haben den größten Einfluss auf die Kündigungswahrscheinlichkeit. Lediglich beim Tarif Allg. Haushalt ist eine nähere Untersuchung notwendig. höher die Tabelle 9: Ergebnisse Kündigungsprävention - 119 - 5 Fallstudie „Kündigungsprävention“ Die anderen, nicht genannten Modellfelder besitzen keinen eindeutigen Einfluss auf die Kündigungswahrscheinlichkeit eines Geschäftspartners, bzw. lassen sich auf Basis des vorhandenen Datenmaterials nicht endgültig bewerten. 5.5.2 Determine Next Steps An dieser Stelle gilt es, das weitere Vorgehen zu planen. Die möglichen Folgeschritte sind in Tabelle 10 beschrieben und im Rahmen der aktuellen Situation (Diplomarbeit) bewertet. Tätigkeit Durchführung Begründung Externe Daten einbinden und wiederholen der Prozesse nein Einkauf von externen Daten im Rahmen der Diplomarbeit nicht möglich. Auf Grundlage der vorhandenen Kennzahlen und Merkmale können weitere Daten berechnet und konstruiert werden, z.B. Preisanstiege zwischen den verschiedenen Jahren, Inkassoverfahren, Bonität usw. nein Die wichtigsten Kennzahlen und Merkmale wurden bereits erzeugt und verwendet. Weitere Fachabteilungen bezüglich geeigneter Daten befragen und Wiederholung der Prozesse nein Umfang der Diplomarbeit berücksichtigen. Fallstudie beenden und zum Deployment übergehen ja Ergebnisse im Rahmen der Diplomarbeit zufriedenstellend und ausreichend, wenngleich für die Praxis weiter verbesserungswürdig. Tabelle 10: Kündigungsprävention – Nächste Schritte 5.6 Deployment 5.6.1 Plan Deployment Die Verwendung der Ergebnisse des Data Mining durch den Endbenutzer kann auf verschiedene Arten erfolgen. Während die Analyse der Eigenschaften der Kündiger ein Prozess ist, der nur durch Betrachten und Auswerten der Ergebnisse im SAP BI 7.0 möglich ist, kann die Auswertung der Kündigungswahrscheinlichkeit eines spezifischen Kunden auch durch Anwender erfolgen, die keine BW- oder BI-Experten sind und auch keinen Zugriff zum System oder zum APD besitzen. Eine mögliche Variante ist dabei die Realisierung eines Web Templates. Mit Hilfe des BEx Web Application Designers kann ohne Programmierkenntnisse eine Web-Oberfläche geschaffen werden, die eine Auswertung der Kündigungswahrscheinlichkeit eines Kunden ermöglicht. Durch das Web Item Simulation Vohersage werden Vorhersageergebnisse (aus einer Clusteranalyse oder einem Entscheidungsbaum) integriert. Mit weiteren Daten und Diagrammen angereichert, kann das Web Template zu einem Web Cockpit erweitert werden. So kann der Anwender nicht nur die Kündigungswahrscheinlichkeit selbst - 120 - 5 Fallstudie „Kündigungsprävention“ berechnen, sondern auch weiterführende Informationen integriert und übersichtlich angezeigt bekommen.1 Eine weitere Möglichkeit ist die Integration der Ergebnisse in die Verkaufsstatistik. Im Business Content und damit auch in allen produktiven Verkaufsstatistiken ist bereits ein Feld mit dem Namen Vorhersagefeld vorhanden. Durch einen entsprechenden Upload der Ergebnisse aller Kunden in die Verkaufsstatistik, können mit Hilfe einer angepassten Query die entsprechenden Ergebnisse der Kündigungswahrscheinlichkeit ausgegeben werden. Im Unterschied zur ersten Variante sind die Ergebnisse dann jedoch statisch abgespeichert und werden nicht dynamisch ermittelt. In beiden Fällen können mittels Prozessketten und Delta-Verfahren die Aktualität und Genauigkeit des Modells gewährleistet werden, indem in regelmäßigen Abständen die neuen oder veränderten Daten aus dem Quellsystem geladen und die Modelle auf dieser Grundlage neu generiert werden. Bei der Verwendung der Verkaufsstatistik erfolgt dann eine erneute Bewertung aller Kunden mit anschließendem Upload in die Statistik. Werden Web Templates verwendet, ist dieser Schritt, wie bereits beschrieben, nicht notwendig, da die Ergebnisse dynamisch mit Hilfe des trainierten Modells berechnet werden. Es gibt noch eine Vielzahl weitere Optionen, wie z.B. die Verwendung von Flatfiles oder die Funktion Simulation Vorhersage in der DM-Workbench. Die naheliegenden Verwendungsmöglichkeiten wurden jedoch bereits beschrieben, weshalb auf weiterführende Erläuterungen verzichtet wird. Die Verwendung der Ergebnisse, beispielsweise im Rahmen einer Marketing- oder Kundenbindungskampagne, wird an dieser Stelle nicht näher behandelt. 5.6.2 Review Project Insgesamt kommt dieses Fallbeispiel zu einem befriedigenden Ergebnis. Einige interessante Kündigungsindikatoren konnten erfasst werden und die Berechnung der Kündigungswahrscheinlichkeit wurde realisiert. Dennoch erreicht der Entscheidungsbaum insgesamt bisher nur eine Genauigkeit von 73%. Wünschenswert wären Werte im Bereich von 90%. Darüber hinaus wären weitere Erkenntnisse bezüglich der Indikatoren und Einflüsse auf das Kündigungsverhalten interessant. Es wurde jedoch schon sehr früh in dem Projekt deutlich, dass das vorhandene Datenmaterial für diese sehr spezifische und „persönliche“ Data-Mining-Anwendung der Kündigungsanalyse nicht ausreicht, um sehr gute und sehr genaue Ergebnisse erzielen zu können. Um dieses Fallbeispiel weiter zu entwickeln, bedarf es zusätzlicher Daten, die aus der aktuellen Einschätzung nur durch Zukauf externer Daten zu beschaffen sind. Durch die Analyse des vorhandenen Datenmaterials im IS-U während dieses Projekts wurde jedoch auch deutlich, dass für andere Data-Mining-Anwendungen die Daten durchaus als ausreichend anzusehen sind. 1 Weiterführende Informationen siehe [BW380, 2005] S.272ff - 121 - 5 Fallstudie „Kündigungsprävention“ Für die nächsten Projekte im Bereich des Data Mining sollten außerdem folgende Erfahrungen aus diesem Projekt berücksichtigt werden: ■ Die Data-Mining-Technik Entscheidungsbaum ist für diese Art der Vorhersagen ideal geeignet. Die Alternative mittels Clusteranalyse ist jedoch gut, um Ergebnisse zu verifizieren oder tiefergehende Analyse (z.B. bezüglich Indikatoren und Einflüsse) durchzuführen. ■ Wenn möglich, sollte das Datenmaterial sehr genau auf Eignung geprüft und ggf. schon im Vorfeld zusätzliche interne oder externe Daten beschafft werden. ■ Personen aus verschiedenen Fachabteilungen einbinden, da so ggf. Hinweise oder zusätzliche Daten verwendet werden können, um die Modelle zu optimieren. ■ Veränderungen der Parameter sollten grundsätzlich und in jedem Schritt dokumentiert werden, da ansonsten schnell der Überblick über die Veränderungen verloren werden kann. - 122 - 6 Abschluss 6 Abschluss 6.1 Zusammenfassung Im Rahmen der Projektarbeit1 wurden im Vorfeld bereits die wichtigen Grundlagen für diese Diplomarbeit geschaffen. Dabei wurden die Funktionen und Einsatzgebiete des AnalyseProzess-Designers detailliert dargestellt. Aufbauend auf der Projektarbeit stand in dieser Diplomarbeit das Data-Mining im SAP BI 7.0 unter Zuhilfenahme des APD im Fokus. In einer kurzen Einführung wurden die wesentlichen Begriffe des Data Mining und Knowledge Discovery in Databases erläutert sowie eine Einordnung in den Gesamtkomplex des Business Intelligence vorgenommen. Zusätzlich wurde eine Übersicht über die DataMining-Verfahren erarbeitet und versucht, diese in geeignete Kategorien einzuordnen. Weiterhin fand eine generelle Abgrenzung zwischen OLAP und Data-Mining statt und es wurden die Voraussetzungen genannt, die für ein erfolgreiches Data-Mining von entscheidender Bedeutung sind. Die Einführung wurde anschließend mit einer Darstellung und Bewertung von verschiedenen Data-Mining-Prozessmodellen abgeschlossen. Im darauffolgenden Kapitel wurde der Aufbau und die Funktionsweise der Data-MiningWorkbench im SAP BI 7.0 erläutert. Dabei wurden die Unterschiede zwischen der DM- und der APD-Workbench deutlich, indem nicht nur die grundlegenden Funktionen zum Anlegen eines Data-Mining-Modells dargestellt, sondern auch alle weiteren Funktionalitäten sowie die Möglichkeiten der Automatisierung erörtert wurden. Im Fokus dieser Arbeit standen jedoch die verschiedenen Data-Mining-Verfahren, die im SAP BI 7.0 implementiert worden sind. So wurden Clusteranalyse, ABC-Analyse, ScoringVerfahren, Assoziationsanalyse, Entscheidungsbaum und Regressionsanalyse im Rahmen ihrer Implementierung im SAP BI 7.0 ausführlich beschrieben. Dabei wurden zu jedem Verfahren Anwendungsbeispiele in der Versorgungsindustrie, die wichtigsten mathematischen Grundlagen sowie die Umsetzung und der Ablauf im SAP BI 7.0 dargestellt. Abschließend wurde jedes Verfahren mit seinen Vor- und Nachteilen bewertet und mögliche Verbesserungspotentiale aufgezeigt. Zum Ende dieses Kapitels wurden noch die Kombination von verschiedenen Data-Mining-Techniken sowie die mögliche Implementierung eigener Verfahren beschrieben. Abschließend wurde anhand einer Fallstudie mit realen Daten beispielhaft die praktische Umsetzung unter Berücksichtigung des CRISP-DM-Prozessmodells dargestellt. 1 [Projektarbeit, 2008] passim - 123 - 6 Abschluss 6.2 Fazit Insgesamt fällt das Fazit über das Data Mining im SAP BI 7.0 positiv aus, wenngleich weiteres Verbesserungspotential vorhanden ist. So stehen bei einer abschließenden Gesamtbewertung die stabilen und sinnvollen Implementierungen sowie die (kostenlose) Integration im Business Warehouse, einigen Kinderkrankheiten und wünschenswerten Erweiterungen gegenüber. Einen detaillierten Gesamtüberblick über das Data-Mining im SAP BI 7.0 liefert die folgende tabellarische Übersicht: Stärken Schwächen Alle wichtigen Data-Mining Techniken vorhanden einige Kinderkrankheiten (fehlerhafte Darstellung, Programmabbrüche), die mit Hilfe von Hinweisen korrigiert werden müssen (je nach Patchlevel des eingesetzten Systems) Sinnvolle Implementierung von ausgereiften Data-MiningTechniken Weitere Verfahren, wie evolutionäre Algorithmen oder neuronale Netze, und die Auswahl von alternativen Algorithmen nicht implementiert Stabiles Arbeiten möglich Automatisierung erschwert durch fehlende automatische Rücksetzungsfunktion der Modelle und schlechte Anbindung an die Prozessketten Data-Mining als kostenloser Zusatz zum Business Warehouse Nicht lineare Regressionsanalyse instabil Sofort einsatzbereit In Teilbereichen Ergebnisdarstellung erweiterbar Kombination von verschiedenen Data-Mining-Techniken innerhalb eines Prozesses möglich Anbindung an das SAP Business Warehouse Verwendung des einheitlichen Metadata-Repository Einfache Bedienung Transparente Darstellung Tabelle 11: Stärken und Schwächen des Data-Mining im SAP BI 7.0 Es bleibt festzuhalten, dass die wichtigsten Verfahren implementiert wurden, so dass mit Hilfe des Data Mining im SAP BI 7.0 nahezu alle Aufgaben aus den verschiedenen Anforderungsbereichen gut und effizient gelöst werden können. Vielfach stellt sich nicht die Frage, ob im SAP BI 7.0 ein geeignetes Verfahren zur Verfügung steht, sondern welches der implementierten Verfahren für die Lösung verwendet werden sollte. Die Wahl der richtigen Data-Mining-Technik und die zielführende Konfiguration ist daher mitentscheidend für den erfolgreichen Einsatz, da viele Problemstellungen auf unterschiedliche Weise gelöst werden können. Daher ist Data Mining auch keine Anwendung, die „out of the box“ genutzt werden kann. Vielmehr sind Know-How über die Data-Mining-Verfahren und Domänen-Wissen ein absolutes Muss. Denn irgendwelche Ergebnisse werden immer generiert. Die Beurteilung, ob die richtigen Daten ausgewählt wurden, ob die Datenqualität ausreichend ist und insbesondere, ob die Ergebnisse korrekt, anforderungsbezogen, neu und interessant sind, kann nur von Personen erfolgen, die sich mit der Thematik des Data Mining auseinander gesetzt haben. Sind die Modelle jedoch aufgebaut und bewertet, kann das Data Mining in die verschiedensten Geschäftsprozesse integriert werden, ohne das spezielles Wissen notwendig ist. - 124 - 6 Abschluss Generell empfiehlt sich die Verwendung von Prozessmodellen bei der Durchführung von Data-Mining-Anwendungen. Auch wenn in der Praxis derartige Vorgehensmodelle generell eher skeptisch betrachtet werden, sind sie insbesondere bei erstmaliger Durchführung eines Data-Mining-Projekts sehr hilfreich für den schrittweisen und kontrollierten Ablauf. Der anfängliche Mehraufwand mündet sehr schnell in einer deutlichen Zeit- und Kostenersparnis, da die wichtigsten Aspekte bei der Modellierung und Durchführung immer Berücksichtigung finden. Fehler, deren Beseitigungsaufwand sich im Verlaufe eines Projektes multipliziert, werden damit von vornherein minimiert. Das Data Mining im SAP BI 7.0 ist sicher noch nicht so umfangreich und komplex wie bei anderen auf dem Markt erhältlichen Spezialprogrammen. Dafür besitzen die Unternehmen, die SAP BI 7.0 einsetzen schon jetzt ein stabiles Tool, das effizientes und gutes Data Mining ermöglicht, ohne dass zusätzliche Anschaffungskosten entstehen. Die intuitive Bedienung, die transparente Darstellung von komplexeren Analyseprozessen mit mehreren Data-MiningVerfahren sowie die nahtlose Anbindung an das Business Warehouse, mit allen daraus resultierenden Funktionen, sind deutliche Vorteile. Insgesamt sind mit dem Data-Mining im SAP BI 7.0 die ersten Schritte in die richtige Richtung gemacht worden. Es gibt jedoch auch noch weiteres Verbesserungspotential, so dass in naher Zukunft mit entsprechenden Erweiterungen zu rechnen ist. 6.3 Ausblick Diese Diplomarbeit bildet, genau wie die vorausgehende Projektarbeit, in vielfacher Hinsicht die Grundlage für weiterführende oder ergänzende Arbeiten und Projekte sowie für eine mögliche Erweiterung des Angebotsportfolios der evu.it GmbH im Bereich Business Intelligence. Folgende, auf diese Arbeit aufbauende Themengebiete, die im Rahmen zukünftiger Projektund Diplomarbeiten realisiert werden könnten, sind vorstellbar: ■ Implementierung von Data-Mining-Verfahren Wie bereits beschrieben, ist die Implementierung anderer Verfahren im SAP BI 7.0 mit Hilfe von ABAP (Objects) möglich. So könnte eine Eigenprogrammierung spezieller Data-Mining-Verfahren und -Algorithmen für bestimmte Anforderungen sinnvoll sein, solange diese seitens SAP noch nicht in das Data Mining integriert worden sind. ■ Programmentwicklung zur Automatisierung von Data-Mining-Vorgängen Die Automatisierung von wiederkehrenden Aufgaben ist im Bereich des Data Mining bisher nur unzureichend gelöst. Um die beschriebene Problematik1 im Bereich der Hintergrundverarbeitung sowie bei den Prozessketten zu entschärfen, wäre eine Implementierung von z.B. Rahmenprogrammen für APD-Prozesse oder das Zurücksetzen von Data-Mining-Modellen denkbar. 1 Siehe Abschnitt 3.5 Automatisierungen - 125 - 6 Abschluss ■ Web Applications für Data Mining Mit Hilfe der SAP BW Web Templates1 können Vorhersagesimulationen und die Ergebnisdarstellung verschiedener Data-Mining-Verfahren interaktiv im Browser durchgeführt werden. So ist die Gestaltung sowie die Einbindung des Data Mining in die Web-Templates ein weiteres mögliches Themenfeld für anknüpfende Arbeiten. ■ Anwendung des Data Mining im CRM Mit Hilfe des CRM Intelligence Connector2 kann das Data Mining in das CRM integriert werden. So könnte beispielsweise ein Call-Center-Mitarbeiter im CRM-System innerhalb von Sekunden kundenspezifische Ergebnisse auf Basis des Data Mining erhalten, indem das Data Mining als integraler Bestandteil der Geschäftsprozesse verstanden wird. ■ Anbindung externer Systeme und Modelle In der APD-Workbench existiert bereits eine Schnittstelle zur Anbindung von DataMining-Lösung von Drittanbietern. Die Softwareauswahl, Modellrealisierung sowie der Import von (trainierten) Data-Mining-Modellen sind mögliche, interessante Aufgaben in diesem Themenbereich. Um die aus dieser Diplomarbeit gewonnen Ergebnisse für die evu.it GmbH aus unternehmerischer Sicht einsetzen zu können, wird in naher Zukunft ein Workshop für Kunden und Interessenten aus der Versorgerbranche vorbereitet und durchgeführt. So sollen die Versorger von den neuen Analysetechniken mit Hilfe des APD (Projektarbeit) und den zukunftsweisenden Technologien des Data Mining (Diplomarbeit) überzeugt werden. Da das Data Mining ein (erneut) stark aufstrebender Markt ist, wird es interessant sein zu beobachten, wie sich das Data Mining im SAP BI 7.0 und den Nachfolgeversionen auf allen Ebenen des Business Warehouse und anderen SAP-Systemen weiterentwickelt. Frei nach dem Motto: »Data is a burden – information is an asset«3 - 126 - 1 Weiterführende Informationen siehe [BW380, 2005] S.271ff 2 Weiterführende Informationen siehe [BW380, 2005] S.292ff 3 [Küppers, 1999] S.8 7 Anhang 7 Anhang 7.1 Erläuterungen zu den Hinweisen Hinweise werden in den SAP-Systemen verwendet um Informationen und Tipps für den korrekten Umgang mit den Systemen zu vermitteln oder um kleinere Programmfehler mit Hilfe von Support Packages zu beheben. Auch im Bereich des Data Mining gibt es je nach Releasestand des Systems noch kleinere Probleme, die zu Programmabbrüchen, fehlerhaften Berechnungen oder unvollständigen Ergebnisdarstellungen führen können. Bei der Suche nach Hinweisen, die ein spezifisches Problem betreffen, muss jedoch darauf geachtet werden, dass der Support-Level des Support-Packages höher ist als der Support-Level des Systems, da andernfalls die vorgenommenen Korrekturen bereits im System enthalten sind. Im Folgenden werden nur die für diese Arbeit notwendigen Hinweise kurz erläutert (SystemReleasestand 70015): ■ SAP Hinweis 1139804 – APD Laufzeitfehler ASSERTION_FAILED Der Fehler, der durch diesen Hinweis behoben wird, tritt im Zusammenhang mit der Verwendung der ABC-Analyse innerhalb eines Analyseprozesses auf. So kann es unter gewissen Umständen zu einem Laufzeitfehler kommen, der zu einem Programmabbruch führt. ■ SAP Hinweis 862637 – Ergebnisdarstellung Entscheidungsbaum Beim erstmaligen Aufruf der Visualisierung des Entscheidungsbaumes kommt es zu einem Problem mit der Initialisierung der Netzwerkformatierungstabellen. Dies führt zu der Fehlermeldung „Standardtyp 0 in Kantengruppe INST nicht vorhanden“, wodurch der Entscheidungsbaum grafisch nicht dargestellt werden kann. Dieser Hinweis erläutert den Lösungsweg zur Korrektur des Fehlers. ■ SAP Hinweis 1085264 – Assoziationsregeln werden nicht angezeigt Wenn in der Ergebnisdarstellung der Assoziationsanalyse die erzeugten Assoziationsregeln nicht angezeigt werden, sollte dieser Hinweis eingespielt werden. ■ SAP Hinweis 999344 – APD Laufzeitfehler CONVT_OVERFLOW Durch einen Überlauf bei der Konvertierung von Gleit- und Dezimaldatentypen kann es zu einem Laufzeitfehler kommen, der zusätzlich zu fehlerhaften Berechnungen bezüglich der Konfidenz und dem Support der einzelnen Assoziationsregeln führt. Wie erwähnt, kann es je nach Releasestand notwendig sein, weitere Hinweise einzuspielen. Über das SAP-Support-Portal können die benötigen Hinweise komfortabel gesucht werden. - 127 - 7 Anhang 7.2 A selection of useful ISU-Tables Vgl. [Lapa, 2008] - 128 - 7 Anhang 7.3 Abbildungen und Listings zur Fallstudie 7.3.1 Collect Initial Data Abbildung 95: Collect Initial Data – Wechselbelegselektion Abbildung 96: Collect Initial Data – Wechselsicht Abbildung 97: Collect Initial Data – Wechseltyp - 129 - 7 Anhang Abbildung 98: Collect Initial Data – Wechselstatus Abbildung 99: Collect Initial Data – Vertrag Abbildung 100: Collect Initial Data – Kontenfindungsmerkmal Abbildung 101: Collect Initial Data – Query Verkaufsstatistik - 130 - 7 Anhang 7.3.2 Clean, Construct, Integrate, Format Data Abbildung 102: Datenvorbereitung - Analyseprozess - 131 - 7 Anhang REPORT RSAN_WB_ROUTINE_TEMP_REPORT . TYPES: BEGIN OF y_group_fields , BPARTNER TYPE /BI0/OIBPARTNER , /BIC/Z_BPTYP TYPE /BIC/OIZ_BPTYP , /BIC/Z_BPVNAME TYPE /BIC/OIZ_BPVNAME , /BIC/Z_BPNNAME TYPE /BIC/OIZ_BPNNAME , /BIC/Z_REGSTRU TYPE /BIC/OIZ_REGSTRU , /BIC/Z_ORT TYPE /BIC/OIZ_ORT , /BIC/Z_ORTTEIL TYPE /BIC/OIZ_ORTTEIL , /BIC/Z_TARIF TYPE /BIC/OIZ_TARIF , KUENDIGUNG TYPE /BIC/OIZ_KUENDIG , MENGE08 TYPE /BIC/OIZ_MENGE8 , MENGE07 TYPE /BIC/OIZ_MENGE7 , MENGE06 TYPE /BIC/OIZ_MENGE6 , MENGE05 TYPE /BIC/OIZ_MENGE5 , BETRAG08 TYPE /BIC/OIZ_BETRAG8 , BETRAG07 TYPE /BIC/OIZ_BETRAG7 , BETRAG06 TYPE /BIC/OIZ_BETRAG6 , BETRAG05 TYPE /BIC/OIZ_BETRAG5 , END OF y_group_fields . TYPES: BEGIN OF y_source_fields , /BIC/Z_CREATE TYPE /BIC/OIZ_CREATE , END OF y_source_fields . TYPES: yt_source_fields TYPE STANDARD TABLE OF y_source_fields . TYPES: BEGIN OF y_target_fields , KUNDESEIT TYPE /BIC/OIZ_KSEIT , END OF y_target_fields . TYPES: yt_target_fields TYPE STANDARD TABLE OF y_target_fields . FORM compute_data_transformation USING is_group TYPE y_group_fields it_source TYPE yt_source_fields ir_context TYPE REF TO if_rsan_rt_routine_context EXPORTING et_target TYPE yt_target_fields . *--------- Begin of transformation code ----------------------------DATA: ls_source TYPE y_source_fields, ls_target TYPE y_target_fields. LOOP AT it_source INTO ls_source. ls_target-KUNDESEIT = 2009 - ls_source-/BIC/Z_CREATE+6(4). MOVE-CORRESPONDING ls_source TO ls_target. APPEND ls_target TO et_target. ENDLOOP. *---------- End of transformation code -----------------------------ENDFORM. Listing 1: ABAP Routine – Berechnung Kunde seit - 132 - 7 Anhang REPORT RSAN_WB_ROUTINE_TEMP_REPORT . TYPES: BEGIN OF y_group_fields , BPARTNER TYPE /BI0/OIBPARTNER , /BIC/Z_BPTYP TYPE /BIC/OIZ_BPTYP , /BIC/Z_BPVNAME TYPE /BIC/OIZ_BPVNAME , /BIC/Z_BPNNAME TYPE /BIC/OIZ_BPNNAME , /BIC/Z_REGSTRU TYPE /BIC/OIZ_REGSTRU , /BIC/Z_ORT TYPE /BIC/OIZ_ORT , /BIC/Z_ORTTEIL TYPE /BIC/OIZ_ORTTEIL , /BIC/Z_TARIF TYPE /BIC/OIZ_TARIF , KUENDIGUNG TYPE /BIC/OIZ_KUENDIG , MENGE08 TYPE /BIC/OIZ_MENGE8 , MENGE07 TYPE /BIC/OIZ_MENGE7 , MENGE06 TYPE /BIC/OIZ_MENGE6 , MENGE05 TYPE /BIC/OIZ_MENGE5 , BETRAG08 TYPE /BIC/OIZ_BETRAG8 , BETRAG07 TYPE /BIC/OIZ_BETRAG7 , BETRAG06 TYPE /BIC/OIZ_BETRAG6 , BETRAG05 TYPE /BIC/OIZ_BETRAG5 , KUNDESEIT TYPE /BIC/OIZ_KSEIT , /BIC/Z_MAZAE TYPE /BIC/OIZ_MAZAE , VGL0607 TYPE /BIC/OIZ_VGL67 , END OF y_group_fields . TYPES: BEGIN OF y_source_fields , Z_BIRTHDT TYPE /BIC/OIZ_BIRTHDT , Z_BPFRAU TYPE /BIC/OIZ_BPFRAU , Z_BPMANN TYPE /BIC/OIZ_BPMANN , END OF y_source_fields . TYPES: yt_source_fields TYPE STANDARD TABLE OF y_source_fields . TYPES: BEGIN OF y_target_fields , GESCHLECHT TYPE /BIC/OIZ_GESCH , ALTER TYPE /BIC/OIZ_BPALTER , END OF y_target_fields . TYPES: yt_target_fields TYPE STANDARD TABLE OF y_target_fields . *---------- Begin of type definitions ------------------------------*TYPES: ... *----------- End of type definitions -------------------------------FORM compute_data_transformation USING is_group TYPE y_group_fields it_source TYPE yt_source_fields - 133 - 7 Anhang ir_context TYPE REF TO if_rsan_rt_routine_context EXPORTING et_target TYPE yt_target_fields . *--------- Begin of transformation code ----------------------------DATA: ls_source TYPE y_source_fields, ls_target TYPE y_target_fields. LOOP AT it_source INTO ls_source. IF ls_source-Z_BIRTHDT+6(4) EQ '0000'. ls_target-ALTER = 0. ELSE. ls_target-ALTER = 2008 - ls_source-Z_BIRTHDT+6(4). ENDIF. IF ls_source-Z_BPMANN EQ 'X' AND ls_source-Z_BPFRAU EQ SPACE. ls_target-GESCHLECHT = 'M'. ELSEIF ls_source-Z_BPMANN EQ SPACE AND ls_source-Z_BPFRAU EQ 'X'. ls_target-GESCHLECHT = 'F'. ELSE. ls_target-GESCHLECHT = 'U'. ENDIF. MOVE-CORRESPONDING ls_source TO ls_target. APPEND ls_target TO et_target. ENDLOOP. *---------- End of transformation code -----------------------------ENDFORM. Listing 2: ABAP Routine – Berechnung Alter und Geschlecht - 134 - 7 Anhang Abbildung 103: Datenvorbereitung - Ergebnismenge - 135 - 8 Abkürzungsverzeichnis 8 Abkürzungsverzeichnis - 136 - ABAP Advanced Business Application Programming APD Analyse-Prozess-Designer ASCII American Standard Code for Information Interchange DM Data Mining DTP Datentransferprozess BI Business Intelligence BW Business Warehouse CRISP-DM Cross Industry Process for Data Mining CRM Customer Relationship Management CSV Comma Seperated Value DSO Data Store Object EDM Energy Data Management EnWG Energiewirtschaftsgesetz ERP Enterprise Resource Planning ETL Extraktion, Transformation und Laden GUI Graphical User Interface IS-U Industry Solution for Utilities IT Informationstechnologie KDD Knowledge Discovery in Databases ODS Operational Data Store OLAP Online Analytical Processing PMML Predictive Model Markup Language SAP Software Anwendungen und Programme STW Stadtwerke SOM Self Organizing Maps XML Extensible Markup Language 9 Abbildungsverzeichnis 9 Abbildungsverzeichnis Abbildung 1: Entwicklungsgeschichte Data Mining .................................. 13 Abbildung 2: Einordnung BI, KDD und DM ............................................. 14 Abbildung 3: Einordnung der Data-Mining-Methoden .............................. 18 Abbildung 4: OLAP vs. Data Mining ......................................................... 19 Abbildung 5: Hierarchie des CRISP-Prozesses .......................................... 22 Abbildung 6: CRISP-DM-Prozessmodell................................................... 23 Abbildung 7: Fayyad et al. Prozessmodell ................................................. 24 Abbildung 8: Allgemeiner KDD-Prozess von Säuberlich .......................... 25 Abbildung 9: Allgemeiner KDD-Prozess von Säuberlich .......................... 26 Abbildung 10: APD- und DM-Workbench-Funktionen im KDD-Prozess 28 Abbildung 11: Aufbau DM-Workbench ..................................................... 28 Abbildung 12: Modell in der DM-Workbench anlegen ............................. 29 Abbildung 13: DM-Workbench - Definition Datenfelder .......................... 30 Abbildung 14: Weitere Funktion in der DM-Workbench .......................... 31 Abbildung 15: Hintergrundverarbeitung .................................................... 33 Abbildung 16: Beispiel einer Prozesskette ................................................. 35 Abbildung 17: einfaches Beispiel einer Clusteranalyse ............................. 36 Abbildung 18: Beispiel Clusteranalyse – Portfolio-Analyse ...................... 37 Abbildung 19: Manhattan- und euklidische Distanz .................................. 40 Abbildung 20: Kompaktheit von Cluster .................................................... 41 Abbildung 21: Ablauf der Clusteranalyse (k-means) ................................. 43 Abbildung 22: Clusteranalyse - Feldkonfiguration .................................... 44 Abbildung 23: Clusteranalyse - Parameterkonfiguration ........................... 45 Abbildung 24: Clusteranalyse - Analyseprozess ........................................ 46 Abbildung 25: Clusteranalyse – Einflussdiagramm ................................... 47 Abbildung 26: Clusteranalyse – grafische Verteilung der Werte ............... 47 - 137 - 9 Abbildungsverzeichnis Abbildung 27: Clusteranalyse – Verteilung der Werte als Tabelle ............ 47 Abbildung 28: Clusteranalyse – grafische Verteilung der Werte ............... 48 Abbildung 29: Clusteranalyse – grafische Darstellung der Entfernungen . 48 Abbildung 30: Clusteranalyse – Vorhersagesimulation ............................. 48 Abbildung 31: Zweifache ABC-Analyse.................................................... 51 Abbildung 32: Pareto-Verteilung ............................................................... 52 Abbildung 33: ABC-Analyse ..................................................................... 53 Abbildung 34: ABC-Analyse – Feldkonfiguration..................................... 54 Abbildung 35: ABC-Analyse – Parameterkonfiguration ........................... 55 Abbildung 36: ABC-Analyse – Analyseprozess ........................................ 55 Abbildung 37: ABC-Analyse – Ergebnisdarstellung ................................. 56 Abbildung 38: Ablauf Scoring-Verfahren .................................................. 59 Abbildung 39: Fehlerhafte Bezeichnungen in der DM-Workbench ........... 60 Abbildung 40: Konfiguration von stetigen Datenfeldern ........................... 60 Abbildung 41: Möglichkeiten der Partialgewichtung................................. 61 Abbildung 42: Scoring – erweiterte Feldkonfiguration .............................. 62 Abbildung 43: Scoring – Analyseprozess................................................... 62 Abbildung 44: Scoring – Tabellarische Darstellung der Ergebnisse .......... 63 Abbildung 45: Grundsätzlicher Ablauf der Assoziationsanalyse ............... 65 Abbildung 46: Iterative Berechnung der large Itemsets ............................. 69 Abbildung 47: Assoziationsanalyse - Feldkonfiguration ........................... 70 Abbildung 48: Gewichtung der Transaktion .............................................. 71 Abbildung 49: Assoziationsanalyse – Analyseprozess............................... 72 Abbildung 50: Assoziationsanalyse - Filtern der Ergebnisse ..................... 72 Abbildung 51: Assoziationsanalyse – Anzeige der Assoziationsregeln ..... 73 Abbildung 52: Assoziationsanalyse – Alternative Anzeige der Regeln ..... 73 Abbildung 53: Assoziationsanalyse – Anzeige der Itemsets ...................... 73 Abbildung 54: Aufbau eines Entscheidungsbaumes .................................. 75 Abbildung 55: Entscheidungsbaum-Phasen ............................................... 80 Abbildung 56: Berechnung des (ersten) Split im Entscheidungsbaum ...... 81 Abbildung 57: Entscheidungsbaum – Feldkonfiguration ........................... 82 Abbildung 58: Entscheidungsbaum – erweiterte Konfiguration ................ 83 - 138 - 9 Abbildungsverzeichnis Abbildung 59: Entscheidungsbaum – Parameterkonfiguration .................. 84 Abbildung 60: Entscheidungsbaum – Analyseprozess ............................... 85 Abbildung 61: Entscheidungsbaum – Ergebnisse in der Netzplansicht ..... 85 Abbildung 62: Entscheidungsbaum – Ergebnisse in der Baumsicht .......... 85 Abbildung 63: Entscheidungsbaum – Vorhersagesimulation..................... 86 Abbildung 64: lineare und nicht lineare Regressionsanalyse ..................... 87 Abbildung 65: Zerlegung der Gesamtabweichung ..................................... 90 Abbildung 66: multiple Regression mit diskreten Variablen ..................... 91 Abbildung 67: Regressionsanalyse – Feldkonfiguration ............................ 92 Abbildung 68: Regressionsanalyse – erweiterte Feldkonfiguration ........... 92 Abbildung 69: Regressionsanalyse – Parameterkonfiguration ................... 93 Abbildung 70: Regressionsanalyse – Analyseprozess ................................ 94 Abbildung 71: Regressionsanalyse – Ergebnisse ....................................... 94 Abbildung 72: Gesamtbeispiel – Forderungsmanagement ......................... 96 Abbildung 73: Gesamtbeispiel – Erweiterung der Kundenbeziehungen .... 97 Abbildung 74: Gesamtbeispiel – Kündigungsanalyse ................................ 98 Abbildung 75: Kündigungsprävention – Analyseprozess ........................ 107 Abbildung 76: Kündigungsprävention – Bewertung ................................ 109 Abbildung 77: Kündigungsprävention – Fehlermatrix ............................. 110 Abbildung 78: Kündigungsprävention – E-Baumkonfiguration (1) ......... 111 Abbildung 79: Kündigungsprävention – E-Baumkonfiguration (2) ......... 111 Abbildung 80: Kündigungsprävention – E-Baumkonfiguration (3) ......... 111 Abbildung 81: Kündigungsprävention – E-Baumkonfiguration (4) ......... 112 Abbildung 82: Kündigungsprävention – E-Baumkonfiguration (5) ........ 112 Abbildung 83: Kündigungsprävention – E-Baumkonfiguration (6) ......... 112 Abbildung 84: Kündigungsprävention – E-Baumkonfiguration (7) ......... 113 Abbildung 85: Kündigungsprävention – Clusterkonfiguration (1) .......... 114 Abbildung 86: Kündigungsprävention – Clusterkonfiguration (2) .......... 114 Abbildung 87: Kündigungsprävention – Clusterkonfiguration (3) .......... 115 Abbildung 88: Kündigungsprävention – Clusterkonfiguration (4) .......... 115 Abbildung 89: Kündigungsprävention – Fehlermatrix 1 .......................... 116 Abbildung 90: Kündigungsprävention – Fehlermatrix 2 .......................... 117 - 139 - 9 Abbildungsverzeichnis Abbildung 91: Kündigungsprävention – Entfernungen ............................ 118 Abbildung 92: Kündigungsprävention – Ergebnisse (Pruning)................ 118 Abbildung 93: Kündigungsprävention – Ausschnitt Entscheidungsbaum 119 Abbildung 94: Kündigungsprävention – Ausschnitt Clusteranalyse ........ 119 Abbildung 95: Collect Initial Data – Wechselbelegselektion................... 129 Abbildung 96: Collect Initial Data – Wechselsicht .................................. 129 Abbildung 97: Collect Initial Data – Wechseltyp ..................................... 129 Abbildung 98: Collect Initial Data – Wechselstatus................................. 130 Abbildung 99: Collect Initial Data – Vertrag ........................................... 130 Abbildung 100: Collect Initial Data – Kontenfindungsmerkmal ............. 130 Abbildung 101: Collect Initial Data – Query Verkaufsstatistik ............... 130 Abbildung 102: Datenvorbereitung - Analyseprozess .............................. 131 Abbildung 103: Datenvorbereitung - Ergebnismenge .............................. 135 - 140 - 10 Tabellenverzeichnis 10 Tabellenverzeichnis Tabelle 1: Stärken und Schwächen des k-means-Algorithmus ................... 49 Tabelle 2: Stärken und Schwächen der ABC-Analyse ............................... 56 Tabelle 3: Stärken und Schwächen des Scoring ......................................... 63 Tabelle 4: Stärken und Schwächen der Assoziationsanalyse ...................... 74 Tabelle 5: Stärken und Schwächen des Entscheidungsbaumes .................. 86 Tabelle 6: Stärken und Schwächen der Regressionsanalyse ....................... 95 Tabelle 7: Collect Initial Data Report ....................................................... 103 Tabelle 8: Data Quality Report ................................................................. 105 Tabelle 9: Ergebnisse Kündigungsprävention .......................................... 119 Tabelle 10: Kündigungsprävention – Nächste Schritte ............................. 120 Tabelle 11: Stärken und Schwächen des Data-Mining im SAP BI 7.0 ..... 124 - 141 - 11 Formelverzeichnis 11 Formelverzeichnis Formel 1: Manhattan-Distanz ..................................................................... 40 Formel 2: euklidische Distanz .................................................................... 41 Formel 3: Lp-Metrik .................................................................................... 41 Formel 4: Kompaktheit ............................................................................... 42 Formel 5: Pareto-Verteilung ....................................................................... 52 Formel 6: Additives Scoring-Verfahren ..................................................... 58 Formel 7: Menge aller Items ....................................................................... 66 Formel 8: Menge aller Transaktionen ......................................................... 67 Formel 9: Itemset ........................................................................................ 67 Formel 10: Assoziationsregel ..................................................................... 67 Formel 11: Support ..................................................................................... 67 Formel 12: Support einer Assoziationsregel ............................................... 68 Formel 13: Konfidenz ................................................................................. 68 Formel 14: Lift ............................................................................................ 68 Formel 15: Entropie .................................................................................... 78 Formel 16: Informationsgewinn ................................................................. 79 Formel 17: Funktion zur Schätzung der abhängigen Variablen ................. 89 Formel 18: Zielfunktion zur Bestimmung von a und b ............................... 89 Formel 19: Bestimmtheitsmaß R ................................................................ 89 Formel 20: Kennzahl I ................................................................................ 90 - 142 - 12 Listingverzeichnis 12 Listingverzeichnis Listing 1: ABAP Routine – Berechnung Kunde seit ................................ 132 Listing 2: ABAP Routine – Berechnung Alter und Geschlecht ................ 134 - 143 - 13 Quellenverzeichnis 13 Quellenverzeichnis Literatur [AlNi, 2000] P. Alpar, J. Niedereichholz Data Mining im praktischen Einsatz – Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung; Vieweg Verlag, Braunschweig/Wiesbaden 2000; 1. Auflage; ISBN 3-528-05748-3 [ChaGlu, 1998] P. Chamoni; P. Gluchowski Analytische Informationssysteme Springer Verlag, Berlin u.a. 1998; ISBN 978-3540658436 [ChaGlu, 2006] P. Chamoni; P. Gluchowski Analytische Informationssysteme – Business Intelligence-Technologien und -Anwendungen Springer Verlag, Berlin 2006; 3. Auflage; ISBN 3-540-29286-1 [Fahrmeir et al., 1996] L. Fahrmeir, H. Kaufmann, C. Kredler Regressionsanalyse; In: L. Fahrmeir, A. Hamerle, G. Tutz Multivariante statistische Verfahren 2. Auflage, Berlin, New York, 1996 [Fayyad et al., 1996] U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy; Advances in Knowledge Discovery and Data Mining Menlo Park 1996 [GaSäu, 1999] W. Gaul, F. Säuberlich; Classification and Positioning of Data Mining Tools in: Gaul, W. / Locarek-Junge, H. (Hrsg.) Classification in the Information Age; Springer-Verlag, Berlin,Heidelberg 1999; ISBN 3-5406-5855-6 [Jafar-Shaghaghi, 1994] F. Jafar-Shaghaghi Maschinelles Lernen, Neuronale Netze und Statistische Lernverfahren zur Klassifikation und Prognose Shaker-Verlag, 1994; ISBN 3-8265-1111-5 - 144 - 13 Quellenverzeichnis [Kandel et al., 2001] Dr. A. Kandel, Dr. M. Last, Dr. H. Bunke; Data Mining and Computational Intelligence Physica-Verlag, Heidelberg/New York 2001; ISBN 3-7908-1371-0 [KeJa, 2002] H. Keller, J. Jacobitz; ABAP Objects Referenz; Galileo Press; Bonn 2002; 1 .Auflage; ISBN 3-934358-61-6 [KeKr, 2001] H. Keller, S. Krüger; ABAP Objects – Einführung in die SAP-Programmierung; Galileo Press; Bonn 2001; 2. Auflage; ISBN 3-89842-147-3 [KiVa, 2007] Dr. M. Kießwetter, D. Vahlkamp; Data Mining in SAP Netweaver BI; Galileo Press; Bonn 2007; 1. Auflage; ISBN 978-3-89842-850-7 [Küppers, 1999] B. Küppers; Data Mining in der Praxis – Ein Ansatz zur Nutzung der Potentiale von Data Mining im betrieblichen Umfeld; Peter Lang GmbH; Frankfurt am Main 1999; ISBN 3-631-34106-7 Europäische Hochschulschriften, Reihe 5, Volks- und Betriebswirtschaft, Bd. 2373; Zugl: Graz, Univ., Diss., 1998 [Mehrwald, 2007] C. Mehrwald; Datawarehousing mit SPA BW 7 – BI in SAP Netweaver 2004s; dpunkt.verlag GmbH; Heidelberg 2007; 4. Auflage; ISBN 978-3-89864-460-0 [Nakhaeizdaeh, 1998] Prof. Dr. G. Nakhaeizdaeh; Data Mining – Theoretische Aspekte und Anwendungen Physica-Verlag, Heidelberg 1998; ISBN 3-7908-1053-3 [Petersohn, 2005] H. Petersohn; Data Mining – Verfahren, Prozesse, Anwendungsarchitektur Oldenbourg Verlag, München 2005; ISBN 3-486-57715-8 [Sachs, 1992] L. Sachs; Angewandte Statistik – Anwendung statistischer Methoden; Springer-Verlag, Berlin/Heidelberg 1992; 7. Auflage; ISBN 3-540-52085-6 [Säuberlich, 2000] F. Säuberlich KDD und Data Mining als Hilfsmittel zur Entscheidungsunterstützung Peter Lang GmbH, Frankfurt 2000; ISBN 9-783-63136735-3 [Schinzer, 1999] H. Schinzer Data Warehouse und Data Mining – Marktführende Produkte im Vergleich 2. Auflage, Vahlen 1999 - 145 - 13 Quellenverzeichnis SAP-Unterlagen [BW310, 2005] BW310; Data Warehousing; SAP Schulungsunterlagen Teilnehmerhandbuch Version 2005/Q1; Materialnummer: 50071081; SAP AG [BW380, 2005] BW380 – SAP Business Intelligence – Analyseprozesse und Data Mining; Schulungsunterlagen Teilnehmerhandbuch; 2005/Q1; Materialnummer 50072606 Online-Quellen [AsSi, 2002] C. Ashby, J. Simms; Data Mining-Research Brief; in L. Schmidt-Thieme: Data Mining and Web Mining; http://www.informatik.uni-freiburg.de/cgnm/lehre/wm-02w/webmining-1.pdf (03.06.2008; 19:45) [Computerwoche, 2007] S. Alexander; Zweiter Frühling für Data Mining; http://www.computerwoche.de/index.cfm?pid=746&pk=590688 (02.06.2008, 16:15) [CRISP, 1999] P. Chapman, J. Clinton, T. Khabaza, T. Reinartz, R. Wirth The CRISP-DM Process Model Discussion Paper; 03/1999 http://www.spss.it/download/pub-paper.pdf (16.06.2008; 11.45) [Cubeserv, 2008] Data Mining mit dem SAP Business Information Warehouse - Knowledge Discovery in Databases (KDD) http://www.cubeserv.com/fachartikel/data_mining_kdd.html (02.06.2008, 16:10) [Doug, 2008] A. Dough Data Mining http://www.eco.utexas.edu/~norman/BUS.FOR/course.mat/Alex (15.06.2008; 10:37) [EVU-IT, 2008] evu.it Website: Unternehmen http://www.evu-it.de/front_content.php?idcat=31 (01.06.2008, 10:35) [Juran, 2008] Juran Institute, Inc., Southbury, CT, U.S.A http://juran.com/ (28.05.2008, 14:00) [Lapa, 2008] Marcin Lapa; Utility and SAP Consultant; http://marcinlapa.com (06.06.2008, 13:19) [SAPBibHV, 2008] SAP-Online-Dokumentation Hintergrundverarbeitung http://help.sap.com/saphelp_nw70/helpdata/DE/74/08703713bf277ee10000009b38f8cf/ frameset.htm (20.06.2008, 10:00) - 146 - 13 Quellenverzeichnis [SAPBibPK, 2008] SAP-Online-Dokumentation Prozessketten http://help.sap.com/saphelp_nw70/helpdata/DE/8f/c08b3baaa59649e10000000a11402f/ frameset.htm (20.06.2008, 10:30) Weitere Quellen [Projektarbeit, 2008] Analyse-Prozess-Designer – Funktionen und Einsatzgebiete im SAP Business Warehouse D. Halboth, vorausgehende Projektarbeit an der Fachhochschule Dortmund - 147 - 14 Glossar 14 Glossar Hier finden Sie kurze Erläuterungen zu den wichtigsten Fachbegriffen. Die Begriffe sind alphabetisch aufsteigend geordnet. Das Zeichen weist auf einen ebenfalls im Glossar aufgeführten Begriff hin. ABAP Die Advanced Business Application Programming (ABAP) ist eine von entwickelte Programmiersprache für die Entwicklung im SAP Umfeld. SAP ABAP Objects ABAP Objects ist eine Erweiterung von ABAP um die Elemente der objektorientierten Programmierung (außer Mehrfachvererbung und Überladen von Methoden). Abhängigkeitsanalyse Die Abhängigkeitsanalyse versucht Beziehungen zwischen verschiedenen Merkmalen von Objekten aufzudecken (z.B. „Kunden die A kaufen, kaufen auch B“). Abweichungsanalyse Die Abweichungsanalyse bildet das Gegenstück zur Abhängigkeitsanalyse. Es werden dabei die Objekte identifiziert, die nicht mit den Regelmäßigkeiten der meisten anderen Objekte übereinstimmen und sich so nicht in ein vorhandenes Muster einordnen lassen. Administrator Workbench Die Administrator Workbench ist das zentrale Element innerhalb des SAP Business Warehouse zur Modellierung von Data-Warehousing-Prozessen. Mit ihr können alle Prozesse der Datenbeschaffung, -haltung und –verarbeitung gesteuert, überwacht und gepflegt werden. Alpha- und Beta-Fehler Alpha- und Beta-Fehler beschreiben die unterschiedlichen möglichen Fehlerarten eines Vorhersagemodells mit zwei Ausprägungen. Wird beispielsweise Nein vorhergesagt obwohl das richtige Ergebnis Ja ist, spricht man vom Alpha-Fehler. Wird Ja vorhergesagt obwohl das richtige Ergebnis Nein ist, spricht man vom Beta-Fehler. APD Der Analyse-Prozess-Designer ist das Werkzeug im SAP BW zur Erzeugung und Verwaltung von Analyseprozessen sowie das vorbereitende Tool für das Data Mining. APD-Workbench Die APD-Workbench ist die grafische Benutzeroberfläche des Analyse-ProzessDesigners und stellt dem Anwender die Funktionalitäten zur Modellierung und Durchführung analytischer Prozesse zur Verfügung. - 148 - 14 Glossar Bestimmtheitsmaß (Kennzahl R) Mit Hilfe der Kennzahl R wird die Summe aller nicht erklärten Abweichungen ins Verhältnis zu allen Gesamtabweichungen gebracht, um so mit Hilfe der Bezugsgröße des arithmetischen Mittels aller abhängigen Variablen beurteilen zu können, ob die Regressionsgerade eine hohe Aussagekraft besitzt. Business Intelligence Business Intelligence ist der Sammelbegriff für alle Systeme und Prozesse, die Daten sammeln, auswerten und als nützliche Informationen für die Entscheidungsträger zur Verfügung stellen. Business (Information) Warehouse Das Business Warehouse ist die Data Warehouse-Lösung von SAP. CRISP-DM Das CRISP-DM-Modell ist das Ergebnis eines Projektes, das im Jahr 1998 von den Unternehmen Teradata, SPSS, DaimlerChrysler und OHRA gestartetet wurde. Ziel war es, ein generisches, branchen- und softwareunabhängiges Verfahren für die Durchführung von Data-Mining-Projekten zu schaffen. CRM Das Customer Relationship Management bezeichnet die Dokumentation, Verwaltung und Pflege von Kundenbeziehungen, die für den Vertrieb und das Marketing von besonderer Bedeutung sind. Data Mining Mit Hilfe des Data Mining sollen neue, nicht triviale Informationen mit Hilfe von mathematisch-statistischen Verfahren ermittelt werden. D.h., es wird automatisiert nach Mustern in den vorhandenen Daten gesucht, um so die operativen, taktischen oder strategischen Entscheidungen in einem Unternehmen unterstützen zu können. Data-Mining-Workbench Die Data-Mining-Workbench ist eine Benutzeroberfläche zur Erstellung und Verwaltung von Data-Mining-Modellen. Data Warehouse Ein Data Warehouse ist das konsolidierte Datenlager eines Unternehmens, das sich aus vielen verschiedenen Quellen zusammensetzen kann. Die Daten im Data Warehouse werden in erster Linie für analytische Auswertungen genutzt. Diskrete Werte Als diskret werden Daten bezeichnet, die nur eine bestimmte Anzahl an Ausprägungen und Werten annehmen, z.B. Kundentyp (guter Kunde/schlechter Kunde), Altersklassen oder Tariftypen etc. Drag&Drop Durch Betätigen der linken Maustaste lassen sich grafische Objekte „Ziehen und Fallenlassen“. Das Drag&Drop-Verfahren stellt somit eine Art der Bedienung von grafischen Benutzeroberflächen dar. - 149 - 14 Glossar Entropie Mit Hilfe der Entropie kann die Reinheit der Zerlegung bei der Generierung von Entscheidungsbäumen berechnet werden. ERP-System Enterprise Resource Planning Systeme unterstützen das Unternehmen mit Hilfe komplexer Anwendungssoftware bei der Ressourcenplanung und –verteilung. ETL ETL ist die Abkürzung für Extraktion, Transformation und Laden. Sie bezeichnet den Datenkonsolidierungs- und Datenladeprozess bei der Datenbeschaffung. Extrapolation Bei der Extrapolation wird ein Wert auf Basis der Datenpunkte des Intervalls linear geschätzt. Konstante Extrapolation bedeutet, dass Werte außerhalb des Wertebereiches den nächstgelegenen Grenzwert des Intervalls als Konstante zugeordnet bekommen. Hintergrundverarbeitung Die Hintergrundverarbeitung ermöglicht das Automatisieren von Routineaufgaben sowie die Optimierung der Systemleistung durch geeignete Ressourcenverteilung. InfoProvider Ein InfoProvider ist ein Sammelbegriff für diejenigen Datenziele, auf deren Datenbestand Analysen und Queries durchgeführt werden können und die als Quelle für weitere Prozesse zur Verfügung stehen. Informationsgewinn Aufbauend auf die Entropie kann der Informationsgewinn berechnet werden, um mehrere Splits beim Erzeugen von Entscheidungsbäumen miteinander zu vergleichen. IS-U Die Branchenkomponente Versorgungsindustrie dient innerhalb von SAP Utilities der Verwaltung und Abrechnung von Kunden. Item Als Item wird ein Objekt der Gesamtmenge bezeichnet, z.B. ein bestimmtes Produkt aus einem Supermarkt. Itemset Als Itemset bezeichnet man eine Teilmenge der Objekte aus einem Geschäftsvorfall, z.B. eine Teilmenge der Produkte aus einem Einkauf. k-means-Algorithmus Die Implementierung der Clusteranalyse im SAP BI 7.0 basiert auf der sogenannten k-means-Methode, die sich in vier Schritte unterteilen lässt: Schritt 1: Initialisierung Schritt 2: Berechnung Schritt 3: Zuordnung Schritt 4: Wiederholung - 150 - 14 Glossar KDD Knowledge Discovery in Databases wird oftmals als Synonym für Data Mining verwendet. Bei einer genaueren Präzisierung ist das Data Mining jedoch nur ein Teilschritt im KDD-Prozess, der zusätzlich alle Schritte der Datenvorbereitung sowie der Datenauswertung und Beurteilung enthält. Klassifikation Die Klassifikation dient der Zuordnung von Objekten zu Klassen, die im Vorfeld definiert worden sind. Konfidenz Neben dem Support ist die Konfidenz ein weiteres Gütekriterium für die Stärke der Assoziationsregel. Die Konfidenz berechnet dabei die Wahrscheinlichkeit, dass nach der Prämisse auch die Konklusion eintritt. Lift Als weiteres Bewertungskriterium für eine Assoziationsregel (neben Support und Konfidenz) wird der Lift verwendet. Ein Lift von 2 sagt beispielsweise aus, dass Produkt Y, in den Transaktionen mit Produkt X, doppelt so häufig vertreten ist, wie in den gesamten Transaktionen. Metadata Repository Das Metadata Repository verwaltet und bietet den zentralen Zugriff auf alle Metadaten (Eigenschaften und Verknüpfungen von Objekten) im SAP Business Warehouse. Metadaten Als Metadaten werden Daten bezeichnet, die Informationen über Daten beinhalten und so z.B. die Eigenschaften von Daten beschreiben. Multivariat verteilte Variablen Wenn die Abhängigkeiten zwischen Variablen in die Berechnung einfließen, spricht man von multivariat verteilten Variablen (im Gegensatz zu univariat verteilten Variablen). Netweaver Netweaver ist die serviceorientierte Anwendungsplattform von SAP. OLAP Das Online Analytical Processing gehört im Bereich des Business Intelligence zu den hypothesengestützten Analysemethoden. Dabei können die zugrundeliegenden Daten multidimensional betrachtet und analysiert werden, um zu entscheidungsunterstützenden Ergebnissen zu gelangen. Overfitting Ein Entscheidungsbaum kann auch übertrainiert (oder überspezialisiert) werden, man spricht dann vom sogenannten Overfitting. Das bedeutet, dass der Baum zwar eine Genauigkeit von 100% bezüglich der Trainingsdaten, jedoch nicht bezüglich der gesamten Daten besitzt. - 151 - 14 Glossar Partialgewichtung Die sogenannte Partialgewichtung erlaubt es, die einzelnen Werte eines Merkmals mit individuellen Gewichtungen zu versehen, wodurch ein detailliertes Score-Verfahren möglich wird. PMML PMML (Predictive Model Markup Language) ist ein XML-ähnliches Format zur Abspeicherung von Clustering- oder Entscheidungsbaummodellen. Prognose Die Prognose (oder Vorhersage) ist in ihrer Zielsetzung sehr eng mit der Klassifikation verknüpft. Auch die Klassifikation erlaubt die Vorhersage unbekannter Merkmalswerte. Dabei werden jedoch eher symbolische Werte vorhergesagt (z.B. „guter Kunde“), während in der Prognose stetige Werte erzeugt werden (z.B. Umsatz im nächsten Monat). Prozessketten Mit Hilfe von Prozessketten können Abläufe automatisiert werden. So wird die Prozesskette nach Eintreten eines definierten Ergebnisses gestartet und löst verschiedene aufeinander folgende Prozesse aus, die im Business Warehouse durchgeführt werden sollen. Pruning Durch das sogenannte Pruning kann das verhindert werden. Overfitting des Entscheidungsbaumes Query Als Query bezeichnet man eine Abfrage, die auf einem InfoProvider durchgeführt wird, um Analysen durchzuführen oder Berichte zu erzeugen. Rauschen Beschreibt Fehler in Daten. SAP Die SAP AG ist einer der weltweit größten Softwarehersteller. Ihre Produkte decken alle Geschäftsprozesse eines Unternehmens ab und richten sich in erste Linie an mittelständische oder große Kunden. Segmentierung Bei der Segmentierung werden Objekte in sinnvolle und interessante Gruppen und Klassen aufgeteilt. Die Gruppen sind dabei im Vorfeld nicht bekannt. Anhand der gemeinsamen Eigenschaften der Objekte werden sie in die neu entstandenen Gruppen eingeordnet. Split Als Split wird das Aufspalten der Daten bei der Generierung von Entscheidungsbäumen bezeichnet. Stetige Werte Der Wertetyp stetig wird dann gewählt, wenn es sich bei den Daten um kontinuierliche, nicht abzählbare Werte handelt, z.B. Einkommen oder Umsatz. - 152 - 14 Glossar Support Als Support wird der Anteil der Transaktionen bezeichnet, die das Itemset enthalten. Der Support ist somit ein Maß und Gütekritierium für die Beurteilung einer Assoziationsregel. Transaktion Als Transaktion wird ein Geschäftsvorfall bezeichnet, beispielsweise der Einkauf. Transportanschluss Mit Hilfe des Transportanschlusses können komplette Strukturen von einem System in ein anderes übertragen werden (z.B. von einem Test- in Produktivsystem). Univariat verteilte Variablen Bei univariat verteilten Variablen wird nur eine Variable isoliert betrachtet, ohne Berücksichtigung von Abhängigkeiten zu anderen Variablen (im Gegensatz zu multivariat verteilten Variablen). Versionierung Das Versionierungssystem von SAP erlaubt die Unterscheidung u.a. zwischen aktiven, modifizierten und inaktiven Versionen von Objekten und Bestandteilen des SAPSystems. Dadurch ist es zum Beispiel möglich, Objekte zu verändern und zu speichern, ohne dass das System durch die Änderungen beeinflusst wird. Vorhersage Siehe Prognose. Vorhersagesimulation Die Vorhersagesimulation ermöglicht das Testen von bereits trainierten Modellen. So kann manuell geprüft werden, ob die Ergebnisse (mit neuen Daten) mit den erwarteten Ergebnissen übereinstimmen. - 153 - 15 Eidesstattliche Erklärung 15 Eidesstattliche Erklärung Gemäß § 26 (1) der DPO erkläre ich an Eides statt, dass ich die vorliegende Arbeit selbständig angefertigt habe. Ich habe mich keiner fremden Hilfe bedient und keine anderen, als die angegebenen Quellen und Hilfsmittel benutzt. Alle Stellen, die wörtlich oder sinngemäß veröffentlichten oder nicht veröffentlichten Schriften und anderen Quellen entnommen sind, habe ich als solche kenntlich gemacht. Diese Arbeit hat in gleicher oder ähnlicher Form noch keiner Prüfungsbehörde vorgelegen. Dortmund, den 15.03.2009 ______________________________ (Dennis Halboth) - 154 - 16 Erklärung 16 Erklärung Mir ist bekannt, dass nach § 156 StGB bzw. § 163 StGB eine falsche Versicherung an Eides Statt bzw. eine fahrlässige falsche Versicherung an Eides Statt mit Freiheitsstrafe bis zu drei Jahren bzw. bis zu einem Jahr oder mit Geldstrafe bestraft werden kann. Dortmund, den 15.03.2009 ______________________________ (Dennis Halboth) - 155 - 17 Stichwortverzeichnis 17 Stichwortverzeichnis -AA selection of useful ISU-Tables 138 Abbildungsverzeichnis 148 ABC-Analyse Bewertung 61 Konfiguration 59 Modellergebnisse 61 ABC-Analyse 55 Ablauf 58 Beispiele in der Versorgerbranche 56 Mathematische Grundlagen 57 mehrfach 55 Umsetzung im SAP BI 7.0 58 Abgrenzung 12 Abhängige und unabhängige Variablen 96 Abhängigkeitsanalyse 19 Abkürzungsverzeichnis 147 Abschluss 133 Abstract 5 Abweichungen 97 Abweichungsanalyse 19 Ähnlichkeit 44 Anhang 137 Apriori-Algorithmus 75 Assess Model 126 Assess Situation 109 Assoziationsanalyse Bewertung 81 Konfiguration 76 Mathematische Grundlagen 72 Modellergebnisse 79 Umsetzung im SAP BI 7.0 75 Assoziationsanalyse 70 Beispiele in der Versorgerbranche 71 Assoziationsregel 73 Ausblick 135 Automatisierungen 36 -BBaumsicht 80, 92 Bestimmtheitsmaß 97 - 156 - Blätter 83 Build Model 119 Business Understanding 26, 108 -CClassification Criterium 59 Classified Object 59 Clean Data 115, 141 Clusteranalyse 40 Beispiele in der Versorgerbranche 42 Bewertung 54 Konfiguration 49 Mathematische Grundlagen 44 Modellergebnisse 52 Umsetzung im SAP BI 7.0 48 Collect Initial Data 110, 139 Construct Data 115, 141 CRISP-Prozess 25, 108 -DData Mining 14 Einführung 14 Entwicklungsgeschichte 15 Übersicht der Verfahren 18 Voraussetzungen 23 Data Preparation 26, 113 Data Understanding 26, 110 Data-Mining-Verfahren 34, 40 Data-Mining-Workbench 30 Anlegen eines DM-Modells 32 Aufbau 31 Unterschiede APD-Workbench 30 Weitere Funktionen 35 Datenqualität 23 Deployment 27, 130 Describe Data 110 Determinationskoeffizient 97 Determine Business Objectives 108 Determine Data Mining Goals 110 Determine Next Steps 130 Distanzfunktion 44 17 Stichwortverzeichnis -EEinflussdiagramm 52 Eingesetzte Software 12 Einleitung 9 Entropie 85 Entscheidungsbaum Ablauf 86 Bewertung 93 Konfiguration 89 Modellergebnisse 92 Umsetzung im SAP BI 7.0 86 Entscheidungsbaum 82 Beispiele in der Versorgerbranche 83 Mathematische Grundlagen 85 euklidischen Distanz 45 Evaluate Results 128 Evaluation 27, 128 evu.it GmbH Geschäftsbereiche 11 evu.it GmbH 10 Explore Data 113 -FFallstudie 108 Fayyad-Prozess 27 Fazit 134 Format Data 115, 141 -GGenerate Test Design 118 Gittersicht 79 Glossar 159 Grouping Attribute 59 -HHintergrundverarbeitung 36 Hinweise 137 -IImplementierung weiterer Verfahren 107 Informationsgewinn 86 Inhaltsverzeichnis 6 Integrate Data 115, 141 Item 72 Itemset 73 -KKanten 83 KDD 17 Kennzahl I 98 Kennzahl R 97 Klassifikation 18 k-means-Algorithmus 48 Knoten 83 Knowledge Discovery in Databases 16 Kombination verschiedener Verfahren 104 Kompaktheit 45 Konfidenz 74 Kündigungsprävention 108 Analyseprozess 116 Kurzfassung 4 -LLift 74 Lp-Metrik 45 -MManhattan-Distanz 45 Markenrechtlicher Hinweis 3 Modeling 27, 118 multiple Regression 99 -NNetzplansicht 92 -OOLAP 21 Overfitting 89 -PPareto-Verteilung 57 Plan Deployment 130 Prognose 19 Prozessketten 38 Prozessmodelle 24 Pruning 89 -QQuellenverzeichnis 155 -RRegressionsanalyse Ablauf 98 Beispiele in der Versorgerbranche 95 Bewertung 102 Konfiguration 99 Mathematische Grundlagen 96, 102 Modellergebnisse 101 nicht linear 94 Umsetzung im SAP BI 7.0 98 Regressionsanalyse 94 linear 94 Regressionsgerade 96 - 157 - 17 Stichwortverzeichnis Review Project 131 rku.it 11 Support 73 Systeme 13 -SSäuberlich-Prozess 28 Scoring Ablauf 64 Bewertung 68 Gewichtungen 64 Konfiguration 64 Mathematische Grundlagen 63 Modellergebnisse 68 Umsetzung im SAP BI 7.0 64 Scoring Beispiele in der Versorgerbranche 62 Scoring-Verfahren 62 Segmentierung 18 Select Data 113 Select Modeling Technique 118 Sperrvermerk 2 Split 83 -TThematik 9 Transaktion 73 - 158 - -Uüberwachtes Lernen 21 unüberwachtes Lernen 21 -VVerify Data Quality 113 Vorhersage 19 Vorhersagesimulation 53, 93 -WWurzel 83 -ZZielsetzung der Arbeit 11 Zusammenfassung 133