„Data Mining im SAP® Business Intelligence 7.0“

Transcrição

1 Einleitung
Diplomarbeit
Thema:
®
„Data Mining im SAP
Business Intelligence 7.0“
An der Fachhochschule Dortmund
im Fachbereich Informatik
erstellte Diplomarbeit
im Studiengang Wirtschaftsinformatik
zur Erlangung des Grades
Diplom-Informatiker (FH) von
Dennis Halboth
geboren am 13.12.1981
(Matr.-Nr.: 7064539)
Betreuung: Prof. Dr. Engels
Dortmund, 15.03.2009
-1-
Markenrechtlicher Hinweis
Markenrechtlicher Hinweis
Die in dieser Arbeit wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenzeichen usw.
können auch ohne besondere Kennzeichnung geschützte Marken sein und als solche den
gesetzlichen Bestimmungen unterliegen. Sämtliche in dieser Arbeit abgedruckten
Bildschirmabzüge unterliegen dem Urheberrecht © des jeweiligen Herstellers.
SAP, R/3, mySAP ERP, ABAP, BAPI, SAP Business Warehouse (BW), SAP Customer
Relationship Management (CRM), SAP Netweaver, SAP Business Intelligence (BI) und
ABAP sind Marken oder eingetragene Marken der SAP AG, Deutschland.
Microsoft, Microsoft Windows, Microsoft Office, Visio, Word, Excel sind Marken oder
eingetragene Marken der Microsoft Corp., USA.
-2-
Kurzfassung
Kurzfassung
Die vorliegende Diplomarbeit befasst sich mit dem Data Mining im SAP Business
Intelligence 7.0 (SAP BI 7.0) sowie den Funktionen und möglichen Einsatzgebieten in der
Versorgerindustrie. Vorausgegangen ist die Projektarbeit über den Analyse-ProzessDesigner (APD), in der dieses, auch für das Data Mining benötigte Tool ausführlich in
seinen Möglichkeiten beschrieben wurde.
Es wird erläutert, warum Data Mining bei den stetig steigenden Datenmengen immer
bedeutender für den Erfolg von Unternehmen und zur Schaffung von Wettbewerbsvorteilen
wird und warum diese Technologie bereits umfassend in vielen Unternehmen für
strategische und operative Entscheidungen eingesetzt wird.
Ingesamt wird deutlich, dass die Data-Mining-Lösung im SAP BI 7.0 einen guten Reifegrad
erreicht hat. Die wichtigsten und bekanntesten Verfahren wurden stabil und sinnvoll
implementiert und können durch die einfache und intuitive Bedienung schnell eingesetzt
werden. Die nahtlose Integration in das Business Warehouse (BW) erlaubt nicht nur den
Zugriff auf das zentrale Metadata-Respository, sondern auch auf alle Datenquellen- und
Datenziele des BW. So ist das Data Mining sofort und ohne zusätzliche Anschaffungskosten
einsatzbereit.
Dennoch gibt es weiteres Verbesserungspotential. So müssen einige „Kinderkrankheiten“, je
nach Patchlevel des Systems, mit Hilfe von Hinweisen behoben werden. Andernfalls werden
ggf. Diagramme nicht korrekt angezeigt oder es kommt in spezifischen Situationen zu
Programmabbrüchen. Die nicht lineare Regression arbeitet im Gegensatz zu den anderen
implementieren Data-Mining-Verfahren äußerst instabil, so dass der Einsatz nach aktuellem
Stand nicht zu empfehlen ist. Zusätzliche Erweiterungen und Verbesserungen sind im
Bereich der Ergebnisdarstellung möglich, wenngleich sie in der aktuellen Form durchaus als
ausreichend angesehen werden kann.
Es wird gezeigt, dass Data Mining keine Geheimwissenschaft mehr ist. Dennoch basiert der
erfolgreiche Einsatz des Data Mining nicht nur auf verschiedenen Voraussetzungen
bezüglich Datenmanagement und Datenqualität, sondern auch auf Detailwissen im Hinblick
auf die Konfiguration der Modelle sowie Know-How und Domänenwissen zur Beurteilung
der Güte der erzielten Ergebnisse. Außerdem wird klar, dass Prozessmodelle äußerst
hilfreiche Instrumente für die schrittweise und gezielte Durchführung von Data-MiningAnwendungen sind, um effektiv zu brauchbaren, interessanten und neuen Erkenntnissen zu
gelangen.
Die Einsatzgebiete des Data Mining sind vielfältig. Viele der beispielhaft beschriebenen
Einsatzszenarien lassen sich mit unterschiedlichen Methoden und Konfigurationen
durchführen. Oftmals ist der Einsatz mehrerer Data-Mining-Verfahren innerhalb eines
Analyseprozesses nötig, um die gewünschten Ergebnisse erzielen zu können.
Anhand einer exemplarischen Fallstudie mit realen Daten erfolgt die Durchführung einer
Data-Mining-Anwendung unter Berücksichtigung eines ausgewählten Prozessmodells.
-3-
Abstract
Abstract
The present thesis deals with Data Mining in SAP Business Intelligence 7.0 (SAP BI 7.0)
supplemented with the functions and the application areas in the utilities industry. The
preceded project work was based on the Analyse-Process-Designer (APD). This tool, which
is also required for Data Mining, was described and its possibilities were characterised.
This work explains why Data Mining is (in the ever-increasing volume of data) very
important for the success of companies and for creating competitive advantages, and why
this technology already had and is being contributed in many companies for strategic and
operational decisions.
Overall it will be made clear that the Data Mining solution in SAP BI 7.0 has reached a good
degree of maturity and stability. The most important and well-known techniques were stable
and meaningful implemented and can be used quickly by the simple and intuitive handling.
The seamless full integration into the Business Warehouse (BW) not only allows the access
to the central Metadata Repository, but also to all data sources and data targets of the BW.
Thus the Data Mining can be used immediately and without any additional costs of purchase.
However, there is potential for further improvement. Thus some “teething problems”,
depending on the patch level of the system, can occur. If the system is not patched, maybe
diagrams are not properly displayed or in specific situations programs are terminating. The
non-linear regression works (in contrast to the other implemented Data Mining processes)
extremely unstable, so that the use is currently not recommended. Other possible extensions
and improvements are possible in the field of results presentation, although this can be
considered to be sufficient in the current form.
It is shown that Data Mining is no more a secret science. However, the successful
deployment of Data Mining not only bases on different requirements relative to data
management and data quality, but also detailed knowledge regarding to the configuration of
the models and know-how and even domain knowledge to assess the quality of the results
achieved. It is also made clear that process models are an useful instrument for the gradual
and targeted implementation of data mining applications to arrive at new, useful and
interesting conclusions and insights.
The application areas of data mining are manifold. Many of the examples describing the
implementation scenarios can be performed with different Data Mining methods and
configurations. Often the use of multiple Data Mining procedures in an analysis process is
needed to achieve the desired results.
Based on an exemplary case study with real data, the implementation of a Data Mining
application is done, regarding to a selected process model.
-4-
Inhaltsverzeichnis
Inhaltsverzeichnis
1
1.1
Einleitung .................................................................... 8
Beschreibung der Thematik .......................................... 8
1.1.1
evu.it GmbH ..................................................................................... 9
1.2
1.3
1.4
Zielsetzung der Arbeit ................................................. 10
Abgrenzung ................................................................ 10
Eingesetzte Software .................................................. 11
2
2.1
2.2
2.3
2.4
2.5
2.6
Einführung Data Mining ........................................... 12
Data Mining................................................................. 12
Knowledge Discovery in Databases ........................... 14
Übersicht der Data-Mining-Verfahren ......................... 15
OLAP vs. Data Mining................................................. 18
Voraussetzungen für erfolgreiches Data Mining ......... 20
Prozessmodelle .......................................................... 21
2.6.1
2.6.2
2.6.3
2.6.4
CRISP-Prozess ............................................................................. 22
Fayyad-Prozess............................................................................. 24
Säuberlich-Prozess ....................................................................... 25
Bewertung ..................................................................................... 26
3
3.1
3.2
3.3
3.4
3.5
Data-Mining-Workbench........................................... 27
DM-Workbench vs. APD-Workbench .......................... 27
Aufbau der DM-Workbench ........................................ 28
Anlegen eines DM-Modells ......................................... 29
Weitere Funktionen ..................................................... 31
Automatisierungen ...................................................... 32
3.5.1
3.5.2
Hintergrundverarbeitung ................................................................ 32
Prozessketten ................................................................................ 34
4
4.1
Data-Mining-Verfahren im SAP BI 7.0 ..................... 36
Clusteranalyse ............................................................ 36
4.1.1
4.1.2
4.1.3
4.1.4
Beispiele in der Versorgerbranche ................................................ 37
Mathematische Grundlagen .......................................................... 39
Umsetzung im SAP BI 7.0 ............................................................. 43
Bewertung ..................................................................................... 49
4.2
ABC-Analyse .............................................................. 50
4.2.1
4.2.2
4.2.3
4.2.4
Bewertung ..................................................................................... 56
-5-
Inhaltsverzeichnis
-6-
4.3
Scoring-Verfahren ....................................................... 57
4.3.1
4.3.2
4.3.3
4.3.4
Bewertung ..................................................................................... 63
4.4
Assoziationsanalyse ................................................... 64
4.4.1
4.4.2
4.4.3
4.4.4
Bewertung ..................................................................................... 74
4.5
Entscheidungsbaum ................................................... 75
4.5.1
4.5.2
4.5.3
4.5.4
Beispiele in der Versorgerbranche: ............................................... 76
Bewertung ..................................................................................... 86
4.6
Regressionsanalyse ................................................... 87
4.6.1
4.6.2
4.6.3
4.6.4
Bewertung ..................................................................................... 95
4.7
Kombination verschiedener Verfahren ........................ 96
4.7.1
4.8
Implementierung weiterer Verfahren ........................... 99
5
5.1
Fallstudie „Kündigungsprävention“ ..................... 100
Business Understanding ........................................... 100
5.1.1
5.1.2
5.1.3
Determine Business Objectives .................................................. 100
Assess Situation .......................................................................... 101
Determine Data Mining Goals ..................................................... 101
5.2
Data Understanding .................................................. 102
5.2.1
5.2.2
5.2.3
5.2.4
Collect Initial Data........................................................................ 102
Describe Data .............................................................................. 102
Explore Data ................................................................................ 104
Verify Data Quality....................................................................... 104
5.3
Data Preparation ....................................................... 104
5.3.1
5.3.2
Select Data .................................................................................. 104
Clean, Construct, Integrate, Format Data ................................... 106
5.4
Modeling ................................................................... 109
5.4.1
5.4.2
5.4.3
5.4.4
Select Modeling Technique ......................................................... 109
Generate Test Design ................................................................. 109
Build Model .................................................................................. 110
Assess Model .............................................................................. 116
5.5
Evaluation ................................................................. 118
5.5.1
Evaluate Results.......................................................................... 118
Inhaltsverzeichnis
5.5.2
Determine Next Steps ................................................................. 120
5.6
Deployment............................................................... 120
5.6.1
5.6.2
Plan Deployment ......................................................................... 120
Review Project ............................................................................. 121
6
6.1
6.2
6.3
Abschluss ................................................................ 123
Zusammenfassung ................................................... 123
Fazit .......................................................................... 124
Ausblick .................................................................... 125
7
7.1
7.2
7.3
Anhang .................................................................... 127
Erläuterungen zu den Hinweisen .............................. 127
A selection of useful ISU-Tables ............................... 128
Abbildungen und Listings zur Fallstudie.................... 129
7.3.1
7.3.2
Collect Initial Data........................................................................ 129
Clean, Construct, Integrate, Format Data ................................... 131
8
Abkürzungsverzeichnis.......................................... 136
9
Abbildungsverzeichnis........................................... 137
10
Tabellenverzeichnis ................................................ 141
11
Formelverzeichnis .................................................. 142
12
Listingverzeichnis .................................................. 143
13
Quellenverzeichnis ................................................. 144
14
Glossar .................................................................... 148
15
Eidesstattliche Erklärung ....................................... 154
16
Erklärung ................................................................. 155
17
Stichwortverzeichnis .............................................. 156
-7-
1 Einleitung
1 Einleitung
1.1 Beschreibung der Thematik
Die Neuregelung des Energiewirtschaftsgesetzes (EnWG) im Jahre 1998 und das „Zweite
Gesetz zur Neuregelung des Energiewirtschaftsrechtes“ 2005 führten zu tiefgreifenden
Veränderungen in der Versorgerbranche. Die erzwungene Öffnung und Liberalisierung des
Marktes führte, wie in kaum einer anderen Branche, zu einer drastischen Steigerung der
Konkurrenzsituation und damit zu wirtschaftlichem Handeln. Die verstärkte Nutzung der
operativen ERP-Systeme (Enterprise Resource Planning) und damit auch der enorme
Anstieg der Datenmengen, in diesem ohnehin datenintensiven Industriezweig, waren die
Folge, so dass zunehmend Data-Warehouse-Lösungen eingesetzt wurden.1
Die Verarbeitung, vor allem aber die Analyse der Daten zur Schaffung eines
Wettbewerbsvorteils, wird zunehmend bedeutender für den Erfolg eines Unternehmens. Dies
ist der Ansatzpunkt für das Data Mining.
Data Mining ist jedoch keine neue Technologie. Die ersten Entwicklungen gab es bereits in
den 70er Jahren, in denen Data-Mining-Verfahren entwickelt wurden, um die in der
Forschung entstandenen Hypothesen zu bestätigen oder zu widerlegen. In den 80er Jahren
wurde dann zunehmend versucht, Zusammenhänge und Abhängigkeiten zwischen Daten mit
Hilfe des Data Mining zu identifizieren. Der Durchbruch des Data Mining erfolgte jedoch
erst mit dem flächendeckenden Einsatz von großen Datenbanken in Unternehmen sowie der
enormen Steigerung der Rechenleistung bei gleichzeitigem Verfall der Kosten für die
entsprechenden Systeme. Mit den weiterhin stetig steigenden Datenmengen der
Unternehmen gewinnt das Data Mining zunehmend an Bedeutung.
»Der Data-Mining-Ansatz verspricht, als Instrument des Informationsmanagements, ein
wirkungsvolles Hilfsmittel zur [Entdeckung und] Filterung relevanter Informationen zu
sein.«2
Trotz der langen Entwicklungsgeschichte wurde das Data Mining vielfach als „Hexenwerk“
oder „Geheimwissenschaft“ angesehen:
»[...] Analyseverfahren, die Unternehmen bisher unerkannte Zusammenhänge in ihren
Geschäftsinformationen aufzeigen sollen, umgibt die Aura einer Geheimwissenschaft, die
1
[Projektarbeit, 2008] S.8
2
[Küppers, 1999] S.30
-8-
1 Einleitung
nur Spezialisten beherrschen. Doch die Zeiten ändern sich. Data Mining wird strategisch
und tatsächlich genutzt«1
Der Markt der Data-Mining-Produkte wächst rasant und entsprechendes Fachpersonal wird
händeringend gesucht. An Hochschulen (nicht nur an der Fachhochschule Dortmund) finden
vermehrt Data-Mining-Seminare statt und auch Schulungen erfreuen sich zunehmender
Beliebtheit. So verwundert es nicht, dass auch SAP die Zeichen der Zeit erkannt hat und seit
längerem die Entwicklung der Data-Mining-Lösung innerhalb ihrer Systeme forciert.
»Das Spektrum an Verfahren, die Möglichkeiten zum modulübergreifenden Einsatz und die
Integration in grafische Entwicklungswerkzeuge haben in SAP [BI 7.0] einen vorläufigen
Höhepunkt erreicht.«2
Die Basis für den Einsatz von Data Mining im SAP BI 7.0 wurde bereits in der
vorangegangen Projektarbeit gelegt, indem das vorbereitende Werkzeug, der AnalyseProzess-Designer, mit seinen Funktionen und Einsatzgebieten ausführlich beschrieben
wurde. In dieser Diplomarbeit gilt es nun die Möglichkeiten zu erörtern und zu bewerten, die
im Rahmen des Data Mining im SAP BI 7.0 zur Verfügung stehen.
1.1.1 evu.it GmbH3
Die Durchführung dieser Diplomarbeit erfolgt in Zusammenarbeit mit der Firma evu.it
GmbH. Sie ist ein international tätiges Beratungsunternehmen für die Ver- und
Entsorgungswirtschaft,
die
öffentliche
Verwaltung
sowie
den
öffentlichen
Personennahverkehr. Mit ihrem Hauptsitz in Dortmund sowie weiteren Standorten in Kiel,
Mannheim, Nürtingen und Rostock, bietet die evu.it GmbH ein breites Angebot an
Beratungs- und Entwicklungsleistungen mit Schwerpunkt auf die Produkte SAP sowie
Microsoft Dynamics NAV.
Die Geschäftsbereiche der evu.it GmbH gliedern sich wie folgt:
■ Enterprise Solution Consulting
■ Billing
■ Business Intelligence
■ Customer Relationship Management
■ Energy Data Management
■ Enterprise Resource Planning
■ Public Sector
■ Development
Die evu.it GmbH ist eine 100%ige Tochter der rku.it GmbH in Herne. Das Leistungsangebot
der rku.it GmbH umfasst neben der Bereitstellung von Anwendungssystemen und deren
1
[Computerwoche, 2007]
2
[KiVa, 2007] S.12
3
[EVU-IT, 2008]
-9-
1 Einleitung
individueller Anpassung auch das Hosting von Systemen im rku.it-Rechenzentrum.
Umfangreiche Schulungsprogramme und umfassender Support runden das Leistungsspektrum ab.
1.2 Zielsetzung der Arbeit
Das Ziel dieser Arbeit ist es, die Möglichkeiten, Funktionen und Einsatzgebiete der DataMining-Lösung im SAP BI 7.0 zu erörtern und zu beschreiben.
Zu diesem Zweck sollen zunächst die Grundlagen des Data Mining behandelt werden, indem
die verschiedenen Begrifflichkeiten definiert und voneinander abgegrenzt werden. Zusätzlich
soll ein erster, allgemeiner Überblick über die Data-Mining-Verfahren geschaffen sowie die
Voraussetzungen und Vorgehensweisen für erfolgreiches Data Mining bestimmt werden.
Um das Data Mining im SAP BI 7.0 durchführen zu können ist es notwendig, das Werkzeug,
die sogenannte Data-Mining-Workbench, näher kennen zu lernen. Daher soll der Aufbau und
die Funktionsweise der Data-Mining-Workbench sowie die Verbindung und das
Zusammenspiel zur Analyse-Prozess-Designer-Workbench dargestellt werden.
Der Großteil der Arbeit soll sich anschließend mit den verschiedenen im SAP BI 7.0
implementierten Data-Mining-Verfahren beschäftigen. Dabei soll erörtert werden, wie die
Techniken generell arbeiten und wie sie im SAP BI 7.0 umgesetzt worden sind. Die dafür
benötigten mathematischen Kenntnisse, die zum Verständnis und zur Konfiguration von
Bedeutung sind, sollen anschaulich beschrieben werden. Zusätzlich sollen Beispiele genannt
werden, in denen das jeweilige Verfahren in der Versorgerbranche sinnvoll eingesetzt
werden kann. Abschließend soll die Umsetzung des Verfahrens im SAP BI 7.0 bewertet und
Verbesserungspotentiale aufgezeigt werden.
Den Abschluss dieser Arbeit soll eine praxisorientierte Fallstudie mit Bezug zur
Versorgerindustrie bilden, die nach einem ausgewählten Vorgehensmodell schrittweise
durchgeführt und beschrieben wird.
1.3 Abgrenzung
Der Analyse-Prozess-Designer wurde bezüglich der Funktionsweise, der Bedienung, den
Einsatzgebieten und der Integration in das Business Warehouse bereits ausführlich in der
vorangegangen Projektarbeit beschrieben, ebenso wie der gesamte ETL-Prozess (Extraktion,
Transformation, Laden) der Datenbeschaffung sowie das Objektkonzept und der Datenfluss.
Somit wird die Projektarbeit als Grundlage für diese Diplomarbeit verstanden und einzelne
Teilaspekte werden nicht erneut dargestellt.1
Data Mining ist ein sehr komplexes Themengebiet, das einem stetigen Wandel unterliegt und
in dem die vielen unterschiedlichen Data-Mining-Verfahren ständig weiter- oder
neuentwickelt werden. In dieser Arbeit sollen jedoch nur die im SAP BI 7.0 implementierten
1
- 10 -
[Projektarbeit, 2008] passim
1 Einleitung
Verfahren erläutert und dargestellt werden. Eine Gesamtübersicht über alle aktuellen DataMining-Techniken ist an dieser Stelle nicht zu leisten1 und in Anbetracht der Zielsetzung
auch nicht sinnvoll.
Bei der Beschreibung der Data-Mining-Verfahren im SAP BI 7.0 liegt der Schwerpunkt in
der Anwendung und nicht in der mathematischen Herleitung. Daher wird versucht, den
mathematischen Exkurs auf das Nötigste zu beschränken, indem lediglich diejenigen
Aspekte mathematisch erläutert werden, die für das Verständnis, den Ablauf und die
Konfiguration des jeweiligen Modells von Bedeutung sind.2
1.4 Eingesetzte Software
Die offiziellen Produktbezeichnungen von SAP sind recht unübersichtlich. Bis zu der
Version 3.3 wird das System als „SAP Business Information Warehouse“ bezeichnet. Die
Bezeichnung des Nachfolgers lautet „SAP Netweaver 2004“. Das in dieser Arbeit
verwendete System trägt die offizielle Bezeichnung „SAP Netweaver 7.0“ oder „SAP
Neatweaver 2004s“ oder „SAP BI 7.0“. Das neueste derzeit verfügbare System ist „SAP
Netweaver 7.1“.
Im Rahmen dieser Diplomarbeit wird ausschließlich und einheitlich die Bezeichnung „SAP
BI 7.0“ für das verwendete System benutzt, da sich dieser Begriff, neben der inoffiziellen
Bezeichnung „BW 7.0“, in der Praxis durchgesetzt hat.
Folgende SAP-Systeme kommen zum Einsatz:
■ SAP BI 7.0 Testsystem der rku.it und evu.it
■ SAP R/3 mit IS-U (Industry Solution for Utilities)-Modul
(Spiegelung eines Produktivsystems; Stand Mai 2008)
■ SAP BW 3.5 Produktivsystem mit der vollständigen Verkaufsstatistik
■ SAP GUI 640 mit Business Explorer (BEx Analyzer, BEx Query Designer)
Die gesamte Ausarbeitung und damit auch die Umsetzung erfolgt im BI 7.0-Testsystem. Die
anderen Systeme werden lediglich für die Datenbeschaffung im Rahmen der Fallstudie
benötigt.
1
Weiterführende Informationen siehe [Küppers, 1999] passim, [Petersohn, 2005] passim
2
Weiterführende Informationen siehe [Petersohn, 2005] passim, [Sachs, 1992] passim
- 11 -
2 Einführung Data Mining
Im Mittelpunkt des folgenden Kapitels steht die Definition, Erläuterung und Abgrenzung des
Data Mining und Knowledge Discovery in Databases (KDD) sowie ihre Einordnung im
Gesamtkomplex des Business Intelligence (BI). Nach einer einführenden Darstellung der
grundlegenden Aufgaben, Ziele und Potentiale, folgt eine kategorisierte Übersicht der
verschiedenen Data-Mining-Verfahren. Anschließend werden die wesentlichen Unterschiede
zwischen den beiden Analysemethoden OLAP (Online Analytical Processing) und Data
Mining herausgearbeitet. Den Abschluss dieser Einführung bildet die Darstellung
verschiedener Prozess-Modelle, die den Ablauf eines Data-Mining-Prozesses ganzheitlich
beschreiben.
2.1 Data Mining
Der rasante Anstieg der IT-Systeme in allen Unternehmensbereichen führt seit den 90er
Jahren in allen Branchen zu immer größeren und unübersichtlicheren Datenbeständen. Jeder
Kontakt eines Kunden mit einem Unternehmen führt zu einer Vielzahl an Informationen, die
erhoben, gespeichert und verwaltet werden müssen. Beginnend bei dem Abschluss eines
Vertrages mit einem Dienstleistungsunternehmen, über den täglichen Einkauf im
Supermarkt, bis hin zur Nutzung des Internets, werden Unmengen von Daten gespeichert,
die nicht nur persönliche oder geschäftliche Informationen enthalten, sondern auch Vorgänge
und Verhalten einzelner Personen oder Gruppen beschreiben. Mit Hilfe der Analyse dieses
Datenmaterials erhoffen sich Unternehmen zunehmend den entscheidenden Wettbewerbsvorteil gegenüber der Konkurrenz.
Der englische Begriff “Mining” stammt aus dem Bergbau und kann mit „Abbau“ oder
„Gewinnung“ übersetzt werden. Das englische Verb „to mine sth.“ bedeutet soviel wie
„etwas abbauen“, „etwas fördern“ oder „in etwas graben“. Diese Übersetzungen geben im
Zusammenhang mit den bereits genannten Ausführungen einen ersten anschaulichen
Eindruck, welches die Ziele des Data Mining sind.
Ähnlich wie im Bergbau ist es die Aufgabe des Data Mining die „nuggets“ zu finden;
genauer gesagt die „knowlegde nuggets“.1 Dabei erschwert es das stetig steigende
Datenvolumen, diese neuen, interessanten und für ein Unternehmen bedeutenden
Informationen zu extrahieren. Das Wissen, das aus diesen Informationen gewonnen werden
kann, unterstützt die Entscheidungsträger in einem Unternehmen bei allen strategischen,
taktischen und operativen Entscheidungen.
1
- 12 -
[Cubeserv, 2008]
Die meisten Entscheidungen in einem Unternehmen werden in Unwissenheit über die
Konsequenzen und Entwicklungen in der Zukunft getroffen. So werden beispielsweise
Lagerbestände gekauft oder verkauft, ohne zu wissen wie sich die zukünftige
Preisentwicklung gestaltet oder es werden Kredite vergeben, ohne Aussagen über das
zukünftige Verhalten der Kunden machen zu können. Unternehmerische Entscheidungen
werden demnach oft unter dem Aspekt der Unsicherheit und Ungewissheit getroffen.1
Da nach wie vor der „Blick in die Zukunft“ nicht möglich ist, werden Daten der
Vergangenheit verwendet, um Entscheidungen über die Zukunft zu treffen. Dabei wird
davon ausgegangen, dass Muster der Vergangenheit („Meier war bisher immer pünktlich“)
auch den Mustern der Zukunft entsprechen („Meier ist auch morgen wieder pünktlich“).
Diesen grundsätzlichen Gedankengang verfolgen auch die verschiedenen Verfahren des Data
Mining. Das heißt, auf Basis der vorhandenen Daten werden neue, nicht triviale
Informationen gewonnen, die für ein Unternehmen von besonderer Bedeutung sein können
und zukünftige Entscheidungen unterstützen.
»Data mining is the process of discovering meaningful new correlations, patterns and trends
by "mining" large amounts of stored data using pattern recognition technologies, as well as
statistical and mathematical techniques.«2
Die Entwicklungsgeschichte3 des Data Mining ist in Abbildung 1 veranschaulicht:
Abbildung 1: Entwicklungsgeschichte Data Mining
1
[Kandel et al., 2001] Preface
2
[AsSi, 2002]
3
In Anlehnung an [Doug, 2008]
4
In Anlehnung an [BW380, 2005] S.7
4
- 13 -
2.2 Knowledge Discovery in Databases
Im Zusammenhang mit Data Mining wird oftmals der Begriff Knowledge Discovery in
Databases als Synonym verwendet. Über diese Betrachtungsweise herrscht jedoch noch
immer Uneinigkeit, was folgende Definition deutlich macht:
»Data Mining ist ein Teilschritt des KDD-Prozesses, der aus bestimmten Algorithmen
besteht, die in akzeptabler Rechenzeit aus einer vorgegebenen Datenbasis eine Menge von
Mustern liefern«1
Demnach ist das Data Mining nur ein Teilschritt, der sich mit der eigentlichen Datenanalyse
beschäftigt, während der gesamte KDD-Prozess als übergreifender Prozess des Data Mining
verstanden wird, dem auch die Vorbereitung und Konsolidierung der Daten sowie die
Bewertung und Interpretation der Ergebnisse zugeordnet werden.2
»Knowledge Discovery in Databases bezeichnet den nicht-trivialen Prozess der
Identifikation valider, neuartiger, potentiell nützlicher und klar verständlicher Muster in
Daten.«3
Diese Abgrenzung zwischen Data Mining und KDD sowie die Einordnung beider Begriffe in
den Kontext des Business Intelligence ist in Abbildung 2 dargestellt:
Abbildung 2: Einordnung BI, KDD und DM
4
Es wird deutlich, dass sowohl der KDD-, als auch der Data-Mining-Prozess lediglich
Teilprozesse innerhalb des Gesamtkomplex Business Intelligence sind. Das Data Mining ist
nach der o.g. Definition wiederum nur ein Teilschritt innerhalb des Knowledge Discovery in
Databases.
- 14 -
1
[Säuberlich, 2000]
2
[KiVa, 2007] S.19
3
[Fayyad et al., 1996] S.6
4
In Anlehnung an [KiVa, 2007] S.21
Dieser Versuch der Präzisierung, der historisch getrennt voneinander gewachsenen Begriffe,
ist durchaus sinnvoll und verständlich, jedoch zeigt sich, dass diese Trennung in der Praxis
nicht angewandt wird. Folgende Gründe können dafür genannt werden:1
■ Data Mining als Überbegriff für eine Sammlung und Kombination von verschiedenen
Verfahren zu verstehen reicht kaum aus, um dafür einen neuen Begriff zu definieren.
■ Die Vorstellung in „Datenbergwerken“ nach Informationen „zu graben“ ist wohl
eingängiger und anschaulicher als „Wissen zu entdecken“.
■ »Die ergänzenden Prozeßschritte, die […] aus Data-Mining-Methoden den KDD-Prozeß
bilden, nämlich die Vor- und Nachbearbeitung sowie die Tatsache, dass ein iteratives
Vorgehen nötig ist, könnten somit leicht als notwendiges aber nicht begriffsbestimmendes
Beiwerk betrachtet werden.«2
Aus den genannten Gründen werden im weiteren Verlauf der Arbeit die Begriffe Knowledge
Discovery und Data Mining synonym verwendet.
2.3 Übersicht der Data-Mining-Verfahren
In der Literatur gibt es viele verschiedene Ansätze, die versuchen, die Vielzahl an Methoden
des Data Mining zu strukturieren. Beispielsweise werden alle Methoden auf nur einer Ebene
(der Verfahren) verteilt.3 Alternativ werden zwei Ebenen4 verwendet (Verfahren und
Techniken bzw. Aufgaben und Methoden) oder sogar drei Ebenen5 (primäre Ziele,
Methoden, Algorithmen). Im Folgenden wird ein Ansatz mit zwei Ebenen gewählt.
Die erste Ebene wird als Aufgaben, die zweite als Methoden (oder Verfahren) bezeichnet.
Den folgenden Aufgaben können die einzelnen Methoden zugewiesen werden:
■ Segmentierung
■ Klassifikation
■ Prognose
■ Abhängigkeitsanalyse
■ Abweichungsanalyse
Segmentierung
Bei der Segmentierung werden Objekte in sinnvolle und interessante Gruppen und Klassen
aufgeteilt. Die Gruppen sind dabei im Vorfeld nicht bekannt. Anhand der gemeinsamen
Eigenschaften der Objekte werden sie in die neu entstandenen Gruppen eingeordnet. Ein
Beispiel für die Segmentierung sind die Bezeichnungen Yuppies (young urban professionals)
1
2
ebd.
3
[ChaGlu, 1998] S.301ff
4
[Schinzer, 1999], [AlNi, 2000] S.9ff
5
[Fayyad et al., 1996] S.1ff
- 15 -
oder Dinks (double income no kids).1 Mit Hilfe der Segmentierung sind beispielsweise
gezielte Marketingaktionen möglich.
Oftmals ist die Segmentierung nur ein Teilschritt im gesamten Data-Mining-Analyseprozess,
denn kleinere, homogene Teilmengen können zumeist besser analysiert werden.
Beispielsweise erschwert die Betrachtung aller Kunden das Erkennen von Mustern im
weiteren Verlauf des Data-Mining-Prozess. Die Einschränkung in Abhängigkeit von den
gewählten Zielsetzungen, auf z.B. alle besonders wertvollen Kunden oder alle Kunden mit
schlechter Zahlungsmoral, ist zumeist sinnvoller.
Klassifikation
Die Klassifikation dient der Zuordnung von Objekten zu Klassen, die im Vorfeld definiert
worden sind. Das bedeutet, wenn die Eigenschaften des Objekts mit denen der Klasse
übereinstimmen, wird dieses Objekt der Klasse zugewiesen. Die Klassen besitzen dabei
oftmals beschreibende Namen, z.B. „guter Kunde“, „schlechter Kunde“. Die Zuordnung der
Objekte kann zumeist über Regeln ausgedrückt werden (z.B. „wenn Einkommen > 3000
dann ist es ein guter Kunde“).
Dabei wird mit einer Trainingsmenge (z.B. die bekannten „guten Kunden“) ein Modell
erzeugt, das später neue, bisher unbekannte Objekte den Klassen zuordnen kann. Dieses
Modell wird auch Klassifikator genannt.
»Klassifikation ist eines der wichtigsten Data Mining Ziele, weil sich viele Anwendungsprobleme darauf abbilden lassen.«2
Die Bildung der Klassen kann auch mit Hilfe der Segmentierung durchgeführt werden, um
so Gruppierungen erzeugen zu können, die zuvor nicht bekannt sind.
Prognose
Die Prognose (oder Vorhersage) ist in ihrer Zielsetzung sehr eng mit der Klassifikation
verknüpft. Auch die Klassifikation erlaubt die Vorhersage unbekannter Merkmalswerte.
Dabei werden jedoch eher symbolische Werte vorhergesagt (z.B. „guter Kunde“), während
in der Prognose stetige Werte erzeugt werden (z.B. Umsatz im nächsten Monat).
Aufgrund ihrer engen Verbindung, werden die Methoden beider Aufgaben oftmals unter
einem Begriff zusammengefasst.3
Abhängigkeitsanalyse
Die Abhängigkeitsanalyse versucht Beziehungen zwischen verschiedenen Merkmalen von
Objekten aufzudecken. Dabei können entweder feste Zeitpunkte (z.B. „fettarme Milch wird
häufig zusammen mit fettarmen Joghurt gekauft“), verschiedene Zeitpunkte (z.B. „5-6
Monate nach Kauf einer Digitalkamera werden oftmals digitale Videokameras gekauft“)
- 16 -
1
[AlNi, 2000] S.10
2
[Nakhaeizdaeh, 1998] S.8
3
[Säuberlich, 2000]
oder Zeitverläufe (z.B. bei verschiedenen Aktienkursen) betrachtet werden. Mit Hilfe der
Abhängigkeiten kann demnach die Wahrscheinlichkeit für das Eintreten einer bestimmten
Merkmalsausprägung berechnet werden.
Abweichungsanalyse
Die Abweichungsanalyse bildet das Gegenstück zur Abhängigkeitsanalyse. Es werden dabei
die Objekte identifiziert, die nicht mit den Regelmäßigkeiten der meisten anderen Objekte
übereinstimmen und sich so nicht in ein vorhandenes Muster einordnen lassen. Ziel dabei ist
es, die Gründe für die Abweichung festzustellen (z.B. warum die Umsätze ähnlicher
Produkte unterschiedlich stark gestiegen sind).
Die Abweichungs- und die Abhängigkeitsanalyse werden vielfach unter einem Begriff
zusammengefasst.
In der Literatur existieren noch weitere Aufgaben des Data Mining. Dies ist darin begründet,
dass viele der Data-Mining-Methoden eng miteinander verbunden sind (z.B. im Bereich der
Prognose und der Klassifikation) und sich deshalb nicht eindeutig einem Aufgabentyp
zuordnen lassen. Oftmals werden Methoden (z.B. Regressionsanalyse) auch als Bestandteil
der Statistik angesehen und nicht als Aufgabengruppe genannt oder sie sind zu trivial (z.B.
Datenzusammenfassung) um als eigene Aufgabe definiert zu werden.1 Da oftmals erst die
Kombination verschiedener Verfahren (z.B. Segmentierung und anschließend eine
Abhängigkeitsanalyse auf die einzelnen Segmente) zu einem brauchbaren Ergebnis führt, ist
die eindeutige Kategorisierung der Methoden schwierig.
Zu allen genannten Aufgaben gibt es hunderte von verschiedenen Data-Mining-Methoden
und deren Varianten. Im Fokus dieser Arbeit stehen jedoch die folgenden im SAP BI 7.0
implementierten Techniken:
■ Assoziationsanalyse
■ Clusteranalyse
■ ABC-Analyse
■ Scoringanalyse
■ Entscheidungsbaum
■ Regressionsanalyse
Wie diese Methoden in eine mögliche Struktur2 gebracht werden können, ist in Abbildung 3
dargestellt.
1
[AlNi, 2000] S.10
2
Basierend auf einem Vorschlag von [Säuberlich, 2000]
- 17 -
1
Abbildung 3: Einordnung der Data-Mining-Methoden
Wie bereits erläutert, sind die Aufgaben Prognose und Klassifikation ebenso wie die
Abhängigkeits- und die Abweichungsanalyse sehr eng miteinander verknüpft. Aus diesem
Grund wurden sie in der Darstellung in einer Aufgabe zusammengefasst. Die zusätzlich
genannten, aber nicht im SAP BI 7.0 implementierten Methoden werden im weiteren Verlauf
nicht näher erläutert.2
Zusätzlich zur Einteilung in Aufgaben, ist eine Unterscheidung zwischen überwachtem und
unüberwachtem Lernen möglich. Beim überwachten Lernen wird das Data-Mining-Modell
zunächst mit bekannten Ausprägungen trainiert. Lauten die Zielvariablen beispielweise
„kreditwürdig“ und „nicht kreditwürdig“, dann werden zunächst alle bekannten
kreditwürdigen Kunden an das Modell übergeben. Dieses „lernt“ aus den gegebenen
Objekten, was die Eigenschaften eines kreditwürdigen Kunden sind. Anschließend kann so
bei einem neuen Kunden vorhergesagt werden, ob dieser kreditwürdig ist.
Beim unüberwachten Lernen muss das Data-Mining-Verfahren eine Lösung finden, ohne
dass zuvor anhand vorgegebener Daten „gelernt“ werden kann. Beispielsweise muss bei der
Clusteranalyse das Verfahren selbst entscheiden, welche Gruppen und Klassen von Objekten
aufgrund ihrer Eigenschaften gebildet werden können.
2.4 OLAP vs. Data Mining
OLAP ist, wie auch das Data Mining, einer der Bestandteile der Business Intelligence- oder
Data Warehouse-Anwendungen. Es beschreibt ein multidimensionales Datenhaltungskonzept, mit dem umfangreiche Geschäftsanalysen möglich sind. Die zu analysierenden
Quelldaten, die sich zumeist in relationalen (eindimensionalen) Datenbanktabellen befinden,
werden dabei in einen mehrdimensionalen Datenwürfel abgelegt (z.B. mit den Dimensionen
Produkt, Zeit, Region etc.). Dieser kann anschließend aus verschiedenen Sichten betrachtet
werden, indem z.B. einzelne Elemente und Schichten des Würfels gedreht, ausgeblendet,
erweitert oder ausgetauscht werden.3
- 18 -
1
2
Weiterführende Informationen siehe Literatur aus Abschnitt 13
3
Weiterführende Informationen siehe [AlNi, 2000] S.14ff, [Nakhaeizdaeh, 1998] S.44
Die wesentlichen Unterschiede zwischen OLAP und Data Mining werden in Abbildung 4
veranschaulicht:
Abbildung 4: OLAP vs. Data Mining
1
Der größte Unterschied zwischen beiden Anwendungen liegt darin, dass OLAP den
hypothesengestützten Analysemethoden zugeordnet wird. Das bedeutet, dass bereits im
Vorfeld konkrete Fragestellungen definiert werden müssen, die anschließend durch die
Analyse bestätigt oder abgelehnt werden. Es handelt sich demnach um ein nutzergesteuertes
Top-Down-Verfahren, in dem die Dimensionen bekannt und die Daten vorstrukturiert sind.
Im Gegensatz dazu kann das Data Mining als datengesteuerter Bottom-Up-Ansatz betrachtet
werden, in dem der Anwender durch die Hypothesenfreiheit die Ergebnisse weniger
beeinflusst. Nur so kann das Data Mining zu Ergebnissen und Erkenntnissen führen die
zuvor gar nicht in Erwägung gezogen wurden. Im Gegensatz zum OLAP, wo der Anwender
in Kombination mit dem Analysewerkzeug die entscheidende Position einnimmt, betrachtet
das Data Mining selbständig die Daten und versucht daraus Zusammenhänge, Muster und
Trends zu erkennen.
»Bildlich gesprochen bedeutet dies, dass Unternehmen, die nur die vergangenheitsbasierte
OLAP-Technologie zur Datenanalyse anwenden, in einem Auto zu ihrer Orientierung nur
den Rückspiegel benutzen.
Im Gegensatz dazu blicken Unternehmen mit einem erfolgreichen Data-Mining-Ansatz
zusätzlich auch durch die Frontscheibe des Autos und erhalten so eine vorausschauende,
zukunftsorientierte Perspektive auf ihre Kunden und Geschäftsvorfälle.«2
OLAP und Data Mining sind dabei jedoch keine gegensätzlichen, sich ausschließenden
Ansätze, sondern ergänzen sich und führen bei gemeinsamer Nutzung zu Synergieeffekten.
So werden Data-Mining-Techniken oftmals im Vorfeld der OLAP-Analyse eingesetzt, um
z.B. Informationen bereitzustellen, die gar nicht oder nur durch eine umfangreichere
Interaktion des Anwenders mit dem OLAP-Werkzeug ersichtlich geworden wären.
1
In Anlehnung an [CubeServ, 2008]
2
[CubeServ, 2008]
- 19 -
2.5 Voraussetzungen für erfolgreiches Data Mining
Data Mining ist kein geheimnisvolles Hexenwerk, das aus dem „Nichts“ Zusammenhänge,
Muster und Trends erkennt und nur von wenigen Experten verstanden werden kann. Es
reicht andererseits aber auch nicht aus, eine Data-Mining-Software zu installieren und zu
hoffen, dass dies allein schon zu vollkommen neuen Informationen und Wissen führt,
welches dem Unternehmen einen Wettbewerbsvorteil gegenüber der Konkurrenz verschafft.
Für ein erfolgreiches Data Mining sind vielmehr einige Voraussetzungen zu schaffen1:
■ Business Understanding
Das Hintergrundwissen für Abläufe und Prozesse im Unternehmen mit Bezug auf die
Zielsetzungen des Data Mining sind von entscheidender Bedeutung. Nur mit den
entsprechenden Kenntnissen können die richtigen Daten und das ideale Data-MiningVerfahren sowie dessen Konfiguration ausgewählt werden. Darüber hinaus ist auch nur
so die Validierung der Ergebnisse möglich.
■ Problembewusstsein
Im Zusammenhang mit dem Business Understanding ist auch das detaillierte
Problembewusstsein wichtig. Nur wenn man verstanden hat was die Zielsetzungen bzw.
die Probleme sind, kann die Aufgabenstellung effizient und korrekt gelöst werden.
■ Kenntnisse über die Data-Mining-Verfahren
Zunächst muss ein grundlegendes Verständnis über die Data-Mining-Verfahren
vorhanden sein, um eine geeignete Methode auswählen zu können. Zusätzlich sollten die
Kenntnisse soweit ausgeprägt sein, dass die einzustellenden Parameter und deren
Auswirkungen auf die Ergebnisse des Data-Mining-Prozess bekannt sind.
■ Akzeptanz der Endanwender
Generell hängt der Erfolg von IT-Systemen und Anwendungen in erster Linie von der
Akzeptanz der Endanwender ab. Dies ist insbesondere auch beim Data Mining der Fall.
Dabei muss das Endergebnis verständlich und die Durchführung in kurzer Zeit möglich
sein. Außerdem sollten die Ergebnisse neue, noch nicht bekannte Sachverhalte
beschreiben.
■ Hohe Datenqualität
Einer der entscheidenden Faktoren für den Erfolg des Data Mining ist die Qualität der
Daten. Nur auf Basis einer hohen Datenqualität können aussagekräftige Analysen und
Auswertungen durchgeführt werden. Wenn fehlerhafte, doppelte, inkonsistente oder
anderweitig qualitativ minderwertige Daten vorliegen, führt das Data Mining zu
fehlerhaften Aussagen und damit zu falschen operativen oder strategischen
Entscheidungen („garbage in – garbage out“).
1
- 20 -
[KiVa, 2007] S.30ff
Um eine möglichst hohe Datenqualität erreichen zu können sind bei der sogenannten
Datenbereinigung verschiedene Aspekte zu beachten:
□ Fehlende Werte
Oftmals ist es möglich, dass Feldern kein Wert zugewiesen wird. Wird dies jedoch bei
der Verwendung von z.B. einem Klassifikationsverfahren nicht berücksichtigt, kann
dies zu unerwarteten Ergebnissen führen.
□ Unvollständige Daten
Die Daten werden in der Regel aus verschiedenen Quellsystemen auf der Ebene des
SAP BW konsolidiert. Oftmals stimmen die Anforderungen an die Daten im
operativen System jedoch nicht mit den Anforderungen an die Daten im Data-MiningProzess überein. Daher kann es passieren, dass die für das Data Mining benötigten
Daten nicht zur Verfügung stehen, wodurch alternative Lösungen nötig sind.
□ Veränderungen der Daten im Zeitverlauf
Es gilt zu bedenken, ob die Daten in der Vergangenheit immer auf demselben Weg
erzeugt oder berechnet wurden. Insbesondere bei Kennzahlen ist dies oft nicht der
Fall. Die Problematik wird jedoch teilweise auf Ebene des Business Warehouse durch
die Entfernung von Synonymen (unterschiedliche Feldnamen mit gleichem Inhalt) und
Homonymen (gleicher Feldname bei unterschiedlichem Inhalt) entschärft.
□ Fehlerhafte Daten
Insbesondere bei der manuellen Eingabe von Daten kommt es im Datenbestand eines
Unternehmens oftmals zu Fehlern (Tippfehler, Eingaben im falschen Feld etc.). Das
Korrigieren dieser fehlerhaften Daten ist ein sehr aufwändiger Prozess. Jedoch können
sich solche Fehler drastisch auf die Ergebnisse des Data Mining auswirken.
■ Gesunden Menschenverstand einsetzen
Neben dem detaillierten Wissen über die Abläufe im Unternehmen sowie einem
ausgeprägten Problemverständnis ist der gesunde Menschenverstand in jedem Schritt des
Data Mining anzuwenden. Deshalb werden die Zwischen- und Endergebnisse des Data
Mining nicht blind übernommen, sondern mit Wissen und Verstand überprüft.
2.6 Prozessmodelle
Um eine möglichst hohe Qualität des Data-Mining-Prozess gewährleisten zu können, sind
verschiedene Prozessmodelle entstanden, die eine schrittweise Durchführung unter
Berücksichtigung der o.g. Voraussetzungen für ein erfolgreiches Data Mining erlauben. Die
bekanntesten Modelle werden im Folgenden näher erläutert.1 Im Fokus steht dabei das
CRISP-DM-Modell (Cross Industrie Process for Data Mining), da dieses als Grundlage für
die Durchführung der Fallstudie verwendet wird.
1
[KiVa, 2007] S.22ff
- 21 -
2.6.1 CRISP-Prozess1
Das CRISP-DM-Modell ist das Ergebnis eines Projektes, das im Jahr 1998 von den
Unternehmen Teradata, SPSS, Daimler-Chrysler und OHRA gestartetet wurde. Ziel war es,
ein generisches, branchen- und softwareunabhängiges Verfahren für die Durchführung von
Data-Mining-Projekten zu schaffen.
Das gesamte Prozessmodell ist hierarchisch aufgebaut.
2
Abbildung 5: Hierarchie des CRISP-Prozesses
In der obersten Ebene befinden sich die sogenannten Phasen (phases). Jede Phase umfasst
mehrere generische Aufgaben (generic tasks). Diese befinden sich in der zweiten Ebene der
Hierarchie und besitzen eine gewisse Allgemeingültigkeit, unabhängig von der jeweiligen
Data-Mining-Zielsetzung. Sie umfassen den kompletten Prozess des Data Mining mit all
seinen möglichen Anwendungen. Darüber hinaus sollen sie auch für zukünftige
Entwicklungen und neue Data-Mining-Methoden anwendbar sein.
Die dritte Ebene umfasst die spezialisierten Aufgaben (specialised tasks). Sie beschreiben
detailliert das konkrete Vorgehen in den jeweiligen Situationen und in Abhängigkeit von der
Data-Mining-Aufgabe.
Sowohl die generischen als auch die spezialisierten Aufgaben sind in einer definierten und
idealisierten Reihenfolge angegeben. In der Praxis kann es jedoch vorkommen, dass einzelne
Schritte wiederholt werden oder zu vorherigen Schritten zurückgesprungen wird.
Die vierte und letzte Ebene der Vorgänge (process instances) beschreibt schließlich alle
Aktionen, Entscheidungen und Ergebnisse des Data-Mining-Prozesses, die in der jeweiligen
Situation durchgeführt, entschieden und festgehalten werden.
- 22 -
1
[CRISP, 1999] passim
2
In Anlehung an [CRISP, 1999] S.6
1
Abbildung 6: CRISP-DM-Prozessmodell
Im Folgenden werden die Phasen (erste Ebene der Hierarchie), die das CRISP-DM-Modell
auf höchster Abstraktionsebene beschreiben (siehe Abbildung 6), noch etwas näher
erläutert.
Business Understanding
Bevor ein Problem gelöst werden kann, muss es verstanden worden sein. Aus diesem Grund
sollen in der ersten Phase des CRISP-DM-Prozesses alle Vorgänge, Ziele und
Anforderungen verstanden und aus der Business-Sicht betrachtet werden. Zusätzlich wird ein
erster vorläufiger Plan erstellt, mit dem die definierten Ziele erreicht werden sollen.
Data Understanding
Im nächsten Schritt sollen die Daten “verstanden” werden. Dies umfasst nicht nur die
generelle Datenauswahl und die erste Überprüfung der Datenqualität, sondern auch das
Untersuchen von Teilmengen, um so ein Verständnis für die inhaltliche Bedeutung der Daten
zu erlangen. Oftmals ist auch ein Schritt zurück zum Business Understanding nötig, um die
Vorgänge und Prozesse im Unternehmen im Zusammenhang mit den Daten besser verstehen
zu können.
Data Preparation
In der Phase Data Preparation werden die Daten für das Data-Mining-Modell aufbereitet.
Dabei werden die benötigten Tabellen und Felder selektiert und alle fehlerhaften,
unvollständigen oder anderweitig verschmutzten Daten korrigiert. Denn nur auf Basis von
qualitativ hochwertigen Daten können erfolgreiche und korrekte Analysen und
Berechnungen durchgeführt werden.
Die ersten drei Schritte sind von entscheidender Bedeutung für den gesamten Data-MiningProzess und sollten mit entsprechend viel Sorgfalt durchgeführt werden. Aus diesem Grund
verbrauchen diese Phasen in der Regel auch einen Großteil der zur Verfügung stehenden
Ressourcen.
1
In Anlehnung an [CRISP, 1999] S.9
- 23 -
Modeling
Im folgenden Schritt Modeling werden die Data-Mining-Verfahren sowie deren individuelle
Konfiguration mittels Parameter ausgewählt. Oftmals werden verschiedene Verfahren mit
jeweils mehreren unterschiedlichen Parametereinstellungen für dieselbe Problemstellung
verwendet. Daher ist die Rückkehr zur Phase der Data Preparation oftmals nötig, um die
Daten für die Data-Mining-Techniken individuell vorzubereiten.
Evaluation
In dieser Phase werden die berechneten Ergebnisse sorgfältig geprüft. Dabei muss im
Zusammenspiel mit dem Business Understanding kontrolliert werden, ob die definierten
Ziele erreicht worden sind und ob bestimmte Problemstellungen noch gar nicht oder nur
unzureichend beleuchtet wurden. Nur korrekte Ergebnisse, die die Zielvorgaben erfüllen,
werden an die letzte Phase Deployment weitergereicht.
Deployment
Im Deployment werden die neu gewonnenen Informationen aufbereitet und verteilt, um sie in
eine für den Anwender verständliche Form zu bringen (z.B. als Report oder als dynamische
Variable). Oftmals wird dieser Schritt durch den Kunden selbst durchgeführt. Dabei ist es
jedoch von Bedeutung, dem Kunden alle Schritte zu vermitteln, die notwendig sind, um den
maximalen Nutzen aus den erzeugten Modellen und Informationen zu gewinnen.
Wie aus den Ausführungen deutlich wird, handelt es sich bei dem CRISP-Prozess um einen
zyklischen und iterativen Lösungsansatz, der den gesamten Data-Mining-Prozess in
Teilprobleme zergliedert und aufgrund der Abhängigkeiten der einzelnen Phasen keine starre
Abfolge der Prozesse und Aufgaben vorschreibt.
2.6.2 Fayyad-Prozess
Das Prozessmodell von Fayyad et al. ist zwar in der Abfolge der Schritte festgelegt, erlaubt
jedoch an jeder Stelle die Rückkopplung zu den vorangegangenen Prozessen (siehe
Abbildung 7). So ist eine stetige Korrektur und Überprüfung der Zwischenergebnisse
möglich.
Abbildung 7: Fayyad et al. Prozessmodell
1
- 24 -
In Anlehnung an [Fayyad et al., 1996] S.1ff
1
Bei der Auswahl der Daten werden aus dem gesamten Datenpool diejenigen Daten selektiert,
die für das Data Mining relevant sind. Bei der Aufbereitung werden die ausgewählten Daten
bereinigt, d.h. es werden z.B. fehlerhafte Werte entfernt oder korrigiert, Duplikate aussortiert
oder fehlende Werte ergänzt. Im nächsten Schritt der Transformation werden die Daten so
auf- und vorbereitet, dass sie dem jeweiligen Data-Mining-Verfahren übergeben werden
können. Im Schritt Data Mining erfolgt dann die Auswahl des geeigneten Verfahrens sowie
dessen Umsetzung. Die Interpretation und Evaluation hat zur Aufgabe, die berechneten
Ergebnisse des Data Mining zu validieren. Sollten die Ergebnisse fehlerhaft sein, werden die
entsprechenden Schritte im Prozess korrigiert und anschließend wiederholt. Sind die
Ergebnisse korrekt, werden sie in eine für den Anwender verständliche und geeignete Form
gebracht, um so die neuen Informationen und das daraus abgeleitete Wissen festhalten und
interpretieren zu können.
2.6.3 Säuberlich-Prozess
Wie aus der Darstellung der verschiedenen Modelle deutlich wird, ähneln sich die einzelnen
Schritte aller Prozesse inhaltlich sehr stark. Mit dem allgemeinen KDD-Prozess von
Säuberlich (siehe Abbildung 8) wurde versucht, diesem Gedanken Rechnung zu tragen,
indem verschiedene Prozessmodelle, die in der Literatur zu finden sind, in einem Modell
zusammengefasst wurden.
1
Abbildung 8: Allgemeiner KDD-Prozess von Säuberlich
Der erste Schritt Task Analysis umfasst die Definition der Anforderungen und Ziele an den
Analyseprozess. Dabei wird das grundlegende Verständnis geschaffen, um die
Aufgabenstellung optimal lösen zu können. Im Preprocessing finden die
Datenkonsolidierung und –bereinigung statt. Die Daten werden so in eine geeignete Form
gebracht und schließlich dem Data Mining übergeben. Anschließend erfolgt eine
Überprüfung und Validierung der Ergebnisse im Postprocessing. Zuletzt können dann die
Ergebnisse im Deployment ein- und umgesetzt werden.
Wie sich die verschiedenen Prozessmodelle aus der Literatur in dieses allgemeine KDDProzessmodell von Säuberlich einordnen lassen, zeigt Abbildung 9.
1
In Anlehnung an [Säuberlich, 2000]
- 25 -
1
Abbildung 9: Allgemeiner KDD-Prozess von Säuberlich
2.6.4 Bewertung
Wie beschrieben, ähneln sich viele Data-Mining-Prozessmodelle sowohl in ihrer Abfolge der
einzelnen Schritte, als auch in ihrer inhaltlichen Ausprägung. Daher ist es schwierig, eine
abschließende Beurteilung durchzuführen.
Da sich das CRISP-DM-Prozessmodell jedoch durch seine Flexibilität, den generischen
Ansatz sowie die detaillierte Dokumentation2 von den anderen Modellen abhebt, dient es im
weiteren Verlauf dieser Arbeit als Grundlage für die Durchführung der Fallstudie.
Generell ist der Einsatz von Prozessmodellen sehr zu empfehlen. Nur so können plötzlich
auftretende Fehler oder falsche Ergebnisse und damit auch zusätzliche Kosten schon im
Vorfeld verhindert oder zumindest minimiert werden.
- 26 -
1
In Anlehnung an [GaSäu, 1999]
2
Weiterführende Informationen siehe [CRSIP, 1999]
3 Data-Mining-Workbench
Die Data-Mining-Workbench ist zusammen mit der APD-Workbench die zentrale
Umgebung für die Durchführung von Data-Mining-Aufgaben. Im folgenden Abschnitt findet
zunächst eine Abgrenzung zwischen APD- und DM-Workbench statt. Anschließend werden
der grundsätzliche Aufbau sowie die Funktionen der Data-Mining-Workbench dargestellt
und beschrieben. Darüber hinaus wird die Hintergrundverarbeitung sowie eine mögliche
Automatisierung von Data-Mining-Modellen mit Hilfe von Prozessketten erläutert.1
3.1 DM-Workbench vs. APD-Workbench
Die Data-Mining-Workbench dient der Verwaltung und Konfiguration von Data-MiningModellen im SAP BI 7.0. Im Gegensatz dazu wird die APD-Workbench für die
Vorbereitung der Daten, die Befüllung des Data-Mining-Modells mit den Eingangsdaten
sowie für die Ablage der Berechnungsergebnisse und damit für den gesamten Workflow
rund um den Data-Mining-Prozess verwendet. In wieweit die Verwendung der APDWorkbench ohne Data-Mining-Verfahren sinnvoll ist, wurde bereits detailliert in der
vorangegangenen Projektarbeit2 beschrieben.
Die Data-Mining-Workbench wird demnach nur für die Teilschritte zum Anlegen oder
Verwalten der Data-Mining-Modelle verwendet. Mit ihr können beispielsweise neue
Modelle angelegt und in ihren Parametern individuell konfiguriert werden. Die APDWorkbench ist für alle Prozesse des Data-Mining rund um das eigentliche Modell zuständig,
und startet somit auch den Analyseprozess und damit das Data Mining.
Dieser Zusammenhang sowie die Funktionen des Analyse-Prozess-Designers werden in
Abbildung 10 noch einmal unter Berücksichtigung des allgemeinen KDD-Prozesses3
dargestellt.
Im Preprocessing werden die Funktionalitäten des Business Warehouse und der APDWorkbench dazu verwendet, den ETL-Prozess effektiv und transparent umzusetzen, um so
dem Data Mining die auf- und vorbereiteten Eingangsdaten für die Berechnungen zur
Verfügung zu stellen. Im Data Mining wird dann die DM-Workbench für das Anlegen und
Verwalten der verschiedenen Verfahren genutzt. Im Postprocessing können einerseits die
APD-Workbench, andererseits die Möglichkeiten des Reportings verwendet werden, um die
1
In Anlehnung an [KiVa, 2007] S.123ff
2
3
Siehe Abschnitt 2.6.3 Säuberlich-Prozess
- 27 -
Ergebnisse des Data Mining abzulegen und sie dem Anwender in einer geeigneten Form
präsentieren zu können.
1
Abbildung 10: APD- und DM-Workbench-Funktionen im KDD-Prozess
3.2 Aufbau der DM-Workbench
Der Aufruf der Transaktion RSDMWB startet die Data-Mining-Workbench und bietet eine
hierarchische Übersicht über die im SAP BI 7.0 implementierten Data-Mining-Verfahren
sowie deren Einordnung in die verschiedenen Aufgabentypen2 des Data Mining.
Abbildung 11: Aufbau DM-Workbench
- 28 -
1
2
Siehe Abschnitt 2.3 Übersicht der Data-Mining-Verfahren
Die Hierarchie ist wie folgt aufgebaut: In der obersten Ebene befinden sich die
verschiedenen Aufgabentypen (z.B. Klassifikation). In der darunterliegenden zweiten Ebene
sind alle im SAP BI 7.0 implementierten Data-Mining-Verfahren (z.B. Entscheidungsbaum)
dem Aufgabentyp zugeordnet. Beim Anlegen eines neuen Modells erscheint dieses dann
unterhalb des entsprechenden Data-Mining-Verfahrens.
Zusätzlich hat man aus dieser Übersicht heraus die Möglichkeit, den Monitor (zur
Überprüfung der Verarbeitungsvorgänge bei der Durchführung von Analyseprozessen)
aufzurufen oder über eine Schaltfläche zum Analyseprozessdesigner zurückzukehren.
Alle weiteren Funktionen zum Anlegen und Verwalten der Data-Mining-Methoden werden
in den folgenden Abschnitten detailliert erläutert.
3.3 Anlegen eines DM-Modells
Das Kontextmenü in der zweiten Hierarchieebene der DM-Workbench erlaubt das Anlegen
von Modellen zu dem ausgewählten Data-Mining-Verfahren.
Abbildung 12: Modell in der DM-Workbench anlegen
Beim Anlegen von neuen Modellen gibt es zunächst drei Optionen:
■ Manuell
Bei der manuellen Anlage von Modellen werden alle Angaben zu den Feldern und
Parametern vom Benutzer angegeben. Es werden keinerlei Vorgaben durch das System
gemacht.
■ Modell als Vorlage verwenden
Diese Option erlaubt das Anlegen eines neuen Modells auf Grundlage eines schon
vorhandenen Modells. Dabei wird eine Kopie der Vorlage erstellt, dessen Einstellungen
anschließend verändert werden können.
- 29 -
■ Modellfeldauswahl BW Query
Die dritte Möglichkeit ist die Verwendung einer Query als Grundlage für die Definition
der Felder der Eingabedaten. Jedoch werden dabei nur die Strukturen und nicht die
eigentlichen (Ergebnis-)Daten der Query übernommen. Die Versorgung des Modells mit
den Eingangsdaten erfolgt, wie bereits erwähnt, in der APD-Workbench.
Anschließend erscheint die Übersicht über alle Datenfelder, die als Eingangsdaten für das
Data-Mining-Modell verwendet werden sollen.
Abbildung 13: DM-Workbench - Definition Datenfelder
Über die Registerkarten Felder und Parameter können entsprechend die Eingabedaten für
das Verfahren definiert, bzw. die für dieses Modell und dem zugrunde liegenden DataMining-Verfahren spezifischen Parameter konfiguriert werden.
Bei der Definition der Datenfelder muss ein Wertetyp angegeben werden. Dabei sind
folgende Wertetypen möglich:
■ Stetig
Der Wertetyp stetig wird dann gewählt, wenn es sich bei den Daten um kontinuierliche,
nicht abzählbare Werte handelt, z.B. Einkommen oder Umsatz.
■ Diskret
Als diskret werden Daten bezeichnet die nur eine bestimmte Anzahl an Ausprägungen
und Werten annehmen, z.B. Kundentyp (guter Kunde/schlechter Kunde), Altersklassen
oder Tariftypen etc.
■ Schlüsselfeld
Schlüsselfelder werden zur Identifikation eines Datensatzes benötigt. Die Werte eines
oder mehrerer Schlüsselfelder müssen eindeutig sein.
Die detaillierte Beschreibung aller Parameter der verschiedenen Data-Mining-Methoden
erfolgt in den entsprechenden Abschnitten von Kapitel 4 Data-Mining-Verfahren im SAP BI
7.0.
- 30 -
3.4 Weitere Funktionen
Abbildung 14: Weitere Funktion in der DM-Workbench
Über das Kontextmenu des bereits vorhandenen Data-Mining-Modells in der untersten
Hierarchieebene der DM-Workbench können weitere nützliche Funktionen aufgerufen
werden. Sie werden im Folgenden kurz erläutert.
■ Anzeigen
Erlaubt das Anzeigen des ausgewählten Modells.
■ Ändern
Ermöglicht das Anzeigen des ausgewählten Modells im Änderungsmodus.
■ Prüfen
Mit dieser Funktion wird das Modell auf Fehler oder Inkonsistenzen geprüft.
■ Aktivieren
Erlaubt das Aktivieren des Data-Mining-Modells. Erst nach dem Aktivieren kann das
Modell verwendet werden. War das Modell schon einmal aktiviert und wurden
Berechnungen durchgeführt, muss es zunächst zurückgesetzt (Löschen der Modelldaten)
werden.
■ Zurücksetzen
Beim Zurücksetzen werden die Daten, die zum Training des Modells verwendet wurden,
gelöscht. Werden Änderungen an einem Modell durchgeführt und findet keine
Rücksetzung statt, kommt es zu Vorhersageergebnissen, die noch auf der alten
Konfiguration und den entsprechenden Trainingsergebnissen vor den Änderungen
beruhen.
■ Löschen
Beim Löschen wird das gesamte Modell mit allen Trainingsergebnisdaten, Zwischenberechnungen etc. gelöscht.
- 31 -
■ Verwendungsnachweis
Ähnlich wie in allen SAP-Systemen, erlaubt die Funktion Verwendungsnachweis das
Anzeigen aller Analyseprozesse, die das ausgewählte Modell verwenden. So kann z.B.
vor dem Löschen eines Modells geprüft werden, ob dieses an anderer Stelle noch
verwendet wird.
■ Modellergebnisse anzeigen
Anzeigen der Ergebnisse der Data-Mining-Berechnung in grafischer Form (z.B. Tabellen,
Diagramme usw.). Die Art der Darstellung ist dabei erneut von dem verwendeten DataMining-Verfahren abhängig.
Die Modellergebnisse können jedoch auch innerhalb der APD-Workbench abgerufen
werden. Ein Umweg über die DM-Workbench ist nicht notwendig.
■ Vorhersagesimulation
Die Vorhersagesimulation ermöglicht das Testen von bereits trainierten Modellen. So
kann geprüft werden, ob die Ergebnisse (mit neuen Daten) mit den erwarteten
Ergebnissen übereinstimmen.
■ Als PMML exportieren
PMML (Predictive Model Markup Language) ist ein XML-ähnliches Format zur
Abspeicherung von Clustering- oder Entscheidungsbaummodellen. Diese so exportierten
Modelle können in andere Anwendungen und Systeme leicht importiert und verwendet
werden.
3.5 Automatisierungen
In der vorangegangen Projektarbeit1 und den bisherigen Abschnitten wurde erläutert, wie ein
Analyseprozess (mit oder ohne Data-Mining-Techniken) manuell gestartet werden kann.
Eine Automatisierung der regelmäßig wiederkehrenden Aufgaben (z.B. tägliche
Aktualisierungen) wäre wünschenswert. Im SAP BI 7.0 existieren jedoch noch keine
zufriedenstellenden Möglichkeiten alle Facetten eines Analyseprozesses (bei der
Verwendung von Data Mining) vollständig zu automatisieren. Im Folgenden werden
dennoch Möglichkeiten diskutiert, wie die Prozesse der Datenbewirtschaftung unter
Berücksichtigung spezifischer Anforderungen zumindest teilweise automatisiert werden
können, um so den Arbeitsaufwand nach dem Einrichten und Testen der Modelle zu
minimieren.
3.5.1 Hintergrundverarbeitung
Die Hintergrundverarbeitung hat sich seit vielen Jahren in den verschiedenen SAPAnwendungen bewährt. Mit ihr können Verarbeitungsprozesse innerhalb des SAP-Systems
automatisiert werden.
1
- 32 -
[Projektarbeit, 2008]
In Bezug auf das Starten von Analyseprozessen gibt es innerhalb der APD-Workbench
zunächst zwei grundsätzliche Möglichkeiten:
■ Ausführen
Dieser manuelle Startvorgang führt den Analyseprozess umgehend aus. Dabei ist jedoch
während der gesamten Durchführung eine Verbindung zu dem Client notwendig, von
dem der Prozess gestartet wurde. Bricht die Verbindung ab oder wird der Rechner
ausgeschaltet, endet auch die Ausführung des Analyseprozesses.
Vor allem bei Analyseprozessen die eine unbekannte oder längere Ausführungszeit
besitzen, ist demnach von dieser Möglichkeit abzusehen.
■ Job einplanen
Generell sollte die Durchführung von Analyseprozessen grundsätzlich mit der
Hintergrundverarbeitung und der Einplanung als Job stattfinden. Auch wenn der
Analyseprozess sofort gestartet werden soll, ist dies mit Hilfe der Hintergrundverarbeitung möglich. Zusätzlich steht eine Vielzahl an Optionen zur Verfügung, den Job
selbstständig und auch regelmäßig automatisiert zu starten (zeitpunktbezogen oder
periodisch nach Datum und Uhrzeit, nach einem Ereignis, nach der Ausführung eines
anderen Jobs etc.).1
Abbildung 15: Hintergrundverarbeitung
Existieren beispielsweise zwei zusammenhängende Analyseprozesse (einer der das Modell
trainiert, ein anderer der mit Hilfe des trainierten Modells eine Vorhersage erzeugt), so
können diese z.B. periodisch (wöchentlich) aktualisiert und gestartet werden. Jedoch gilt es
zu bedenken, dass der zweite Prozess erst nach Beendigung des ersten gestartet werden kann,
da dieser abhängig von den Trainingsergebnissen ist. Indem der zweite Prozess zeitlich so
versetzt gestartet wird, dass der erste Prozess sicher beendet ist, kann das Problem gelöst
werden.
1
Weiterführende Informationen siehe [SAPBibHV, 2008]
- 33 -
Flexibler kann man die Automatisierung dadurch gestalten, dass Ereignisse verwendet
werden, die zum Ausführen der Analyseprozesse führen. Hierbei würde der erste
Analyseprozess nach einem zu definierenden Ereignis gestartet. Mit der Funktion Nach Job
wird der zweite Analyseprozess erst dann gestartet, wenn der erste beendet ist. Nachteil ist
jedoch, dass der zweite Prozess nur einmalig mit der Funktion nach Job eingeplant werden
kann. Bei nochmaliger Ausführung müsste der zweite Prozess erneut geplant werden.
Ein Lösungsansatz um diese Problematik zu entschärfen ist die Verwendung von ABAPProgrammen (Advanced Business Application Programming). Benötigt wird dafür je ein
Programm für das Starten der beiden Analyseprozesse sowie ein Rahmenprogramm, das die
zeitliche Abhängigkeit berücksichtigt und dafür sorgt, dass der zweite Prozess erst nach
erfolgreicher Beendigung des ersten Prozesses erfolgt. Dieses ABAP-Rahmenprogramm
kann dann mit Hilfe der Hintergrundverarbeitung (regelmäßig) gestartet werden.1
Es existiert im Zusammenhang mit der wiederholten Ausführung von Analyseprozessen, die
Modelle trainieren, ein weiteres schwerwiegendes Problem. Bei der mehrfachen Ausführung
werden die zuvor berechneten Trainingsergebnisse nicht gelöscht. Daher folgt bei einem
erneuten Versuch eine Fehlermeldung, dass das Modell bereits trainiert ist und vor dem
neuen Training zurückgesetzt werden muss.2 Jedoch existiert im SAP-Standard in der
Hintergrundverarbeitung keine Funktion für diesen Vorgang. So kann auch an dieser Stelle
nur die Implementierung eines eigenen ABAP-Programms zum Zurücksetzen des Modells
weiterhelfen.
3.5.2 Prozessketten
Eine weitere Möglichkeit der Automatisierung ist mit Hilfe der Prozessketten denkbar.3
»Eine Prozesskette ist eine Reihe von Prozessen, die im Hintergrund eingeplant auf einen
Event warten. Einige dieser Prozesse lösen einen eigenen Event aus, der wiederum andere
Prozesse starten kann.«4
In der Prozesskettenpflege (siehe Abbildung 16) können somit auch komplexe Abläufe
unter Berücksichtigung verschiedener Verläufe grafisch modelliert werden. Prozessketten
werden nicht nur für den Ladeprozess von Daten aus einem Quellsystem in das Business
Warehouse verwendet, sondern auch für eine Vielzahl weiterer Prozesse, die regelmäßig
auftreten. Dementsprechend ist es auch mit Hilfe von Prozessketten möglich, die Prozesse
rund um das Data Mining zu automatisieren.
So könnte beispielweise ein beliebiger Startprozess gewählt werden (z.B. periodisch nach
einem definierten Ereignis), um den Data-Mining-Prozess zu starten. Leider existieren keine
Prozesstypen für die Verwendung von APD- oder DM-Modellen, so dass auch hier wieder
ein Umweg über ABAP-Programme notwendig ist.
- 34 -
1
Weiterführende Informationen siehe [KiVa, 2007] S.137ff
2
Siehe auch Abschnitt 3.4 Weitere Funktionen
3
Weiterführende Informationen siehe [SAPBibPK, 2008]
4
[BW310, 2005] S.324
Es gilt jedoch auch bei den Prozessketten zu berücksichtigen, dass es nur mittels
Eigenprogrammierung möglich ist, bereits trainierte Modelle zurückzusetzen. Dieses zu
implementierende ABAP-Programm muss dann in der Prozesskette vor den Programmen zur
Durchführung des Data Mining eingebunden werden.
Abbildung 16: Beispiel einer Prozesskette
- 35 -
4 Data-Mining-Verfahren im SAP BI 7.0
In den folgenden Abschnitten werden alle im SAP BI 7.0 implementierten Data-MiningVerfahren ausführlich erläutert. Nach einer kurzen allgemeinen Einführung werden Beispiele
und Einsatzszenarien vorgestellt, in denen die entsprechenden Data-Mining-Methoden in der
Versorgungsindustrie verwendet werden können. Anschließend werden kurz die
mathematisch-statistischen Grundlagen vermittelt, die für das Verständnis der jeweiligen
Verfahren von Bedeutung sind. Darauf folgt die Beschreibung, wie das Verfahren im SAP
BI 7.0 umgesetzt wurde. Abschließend wird die Implementierung im SAP BI 7.0 bewertet
und Verbesserungspotentiale aufgezeigt.
4.1 Clusteranalyse
Die Clusteranalyse ist eines der bedeutendsten Data-Mining-Verfahren und wird in der
Wissenschaft und Medizin, vor allem jedoch im Marketing und in der Betriebswirtschaft,
angewandt.
»Unter dem Begriff Clusteranalyse [...] sind Verfahren aus dem Gebiet der multivarianten
Statistik zusammengefasst, die auf objektivem und automatisiertem Wege eine i.allg.
ungeordnete und umfangreiche Objektmenge in kleinere, homogene Teilmengen einteilen.«1
Das Clustering wird dazu verwendet, ähnliche Daten in zuvor unbekannte Cluster zu
gruppieren. Anschließend ist es möglich, neue Daten in die nun vorhandenen Gruppen des
Modells einzuordnen. Es wurde also ein Modell erzeugt, das nicht nur Gemeinsamkeiten von
Daten erkennt und zusammenfasst, sondern auch erlaubt Vorhersagen zu erzeugen.
Um diese abstrakten Beschreibungen zu konkretisieren, soll im Folgenden das Clustering
zunächst anhand eines sehr einfachen Beispiels dargestellt werden. So gibt es in diesem
Beispiel (siehe Abbildung 17) verschiedenfarbige Kisten, die zunächst aufgrund ihrer Farbe
segmentiert werden sollen.
Abbildung 17: einfaches Beispiel einer Clusteranalyse
1
- 36 -
[Nakhaeizdaeh, 1998] S.109
Dieser sehr einfache Ansatz zeigt ein Clustering, das auch manuell ohne die Verwendung
von Data-Mining-Techniken durchgeführt werden kann. In der Regel sind die
Anwendungsfälle des Clustering jedoch deutlich komplexer und ohne Unterstützung von ITSystemen nicht mehr möglich. So könnte das Beispiel in der Form erweitert werden, dass die
Segmentierung der Kisten nicht nur anhand ihrer Farbe, sondern auch aufgrund der Breite,
Höhe, Tiefe, Volumen, Zustand und dem Inhalt (mit wiederum einer Vielzahl an Attributen)
erfolgen soll. Wie dann die Zuordnung der Kisten zu Clustern aussehen würde, kann nicht
mehr so einfach beantwortet werden.
Ein weiteres einführendes Beispiel aus Sicht der Betriebswirtschaft stellt die PortfolioAnalyse dar.
Abbildung 18: Beispiel Clusteranalyse – Portfolio-Analyse
Hier werden Produkte anhand ihrer Eigenschaften (Gewinn, Wachstumspotential und
Umsatz) in Kategorien und Gruppen eingeteilt. Auch dieses Beispiel lässt sich um viele
weitere Attribute ergänzen, wenn eine gezielte Analyse der Produktstrukturen notwendig ist.
Vielfach wird das Clustering im Marketing im Bereich der Kunden- und Marktsegmentierung verwendet. Beispielsweise können so Marketingaktionen sehr gezielt für
spezifische Kundensegmente durchgeführt oder Produkte besser an Kundenwünsche
angepasst werden.
Clustering kann auch mehrfach durchgeführt werden. Beispielsweise können Kunden
zunächst anhand ihres Verhaltens (z.B. Kaufverhalten) gruppiert und anschließend die
einzelnen Segmente nach demographischen Aspekten (Alter, Einkommen, Ort) „geclustert“
werden.
4.1.1 Beispiele in der Versorgerbranche
Die folgenden Beispiele sollen einen ersten Überblick schaffen, welche Möglichkeiten dem
Anwender in der Versorgungsindustrie mit Hilfe der Clusteranalyse zur Verfügung stehen.
Wie auch bei den nachfolgenden Erläuterungen zu den anderen Verfahren, erfolgt an dieser
Stelle keine detaillierte Betrachtung, ob die genannten Beispiele mit den zur Verfügung
stehenden Daten realisierbar sind oder ob andere Daten zugekauft werden oder erweitert
werden müssen. Diese Analyse des Datenmaterials ist bereits einer der entscheidenden
- 37 -
Vorgänge innerhalb des Data-Mining-Prozesses1 und kann deshalb an dieser Stelle nicht für
jedes Beispiel durchgeführt werden.
Detaillierte Kundensegmentierung
Mit Hilfe der Clusteranalyse können neue, detaillierte Kundengruppen definiert werden. So
kann es in vielerlei Hinsicht sinnvoll sein, weitere Kundenarten zu entdecken, die weit über
die übliche Einordnung in Tarifkunden, Sonderkunden, Dienstleistungskunden und
Interessenten hinaus geht oder diese weiter verfeinert. Anhand der Eigenschaften von
Kunden, ihrer Verbräuche, Umsätze, Zahlungsverhalten, Alter, Wohnort und ggf. unter
Zuhilfenahme externer Daten (wie z.B. Arbeitslosen- oder Wohlstandsqoute), können
Kundengruppen gefunden werden, die Gemeinsamkeiten aufweisen, für die es jedoch so
noch keine Namen gibt. Anschließend ist eine gezielte Betrachtung dieser spezifischen,
zuvor unbekannten Gruppen möglich.
Kündigungsprävention
Indem die Kundensegmente definiert werden, die aufgrund ihrer Eigenschaften oder ihres
Verhaltens besonders kündigungsgefährdet sind, ist eine gezielte Marketingaktion mit
besonderen Angeboten möglich. So können diese potentiell abwanderungswilligen Kunden
eventuell weiter an das Unternehmen gebunden werden. Durch die gezielte Ansprache
werden keine „schlafenden Hunde“ geweckt und Kosten gespart. Zudem ist es in der Regel
wesentlich teurer, einen Neukunden zu gewinnen, als einen bestehenden Kunden weiter zu
binden.
Optimierung des Forderungsmanagement
Durch Identifikation der Gruppe der zahlungsunwilligen Kunden können schon frühzeitig
entsprechende Maßnahmen eingeleitet werden, um diese zur Zahlung zu bewegen. Auch eine
entsprechende Vorhersage über das Zahlungsverhalten und die Bonität eines neuen Kunden
ist so möglich.
Verkauf weiterer Produkte2
Kampagnen zum Ausbau von Kundenbeziehungen sind um ein Vielfaches erfolgreicher, als
die Gewinnung von Neukunden, da zwischen Kunde und Unternehmen schon eine gewisse
Vertrauensbasis geschaffen wurde. Mit Hilfe der Clusteranalyse können Kunden segmentiert
werden, die zusätzlich zu den vorhandenen noch an weiteren Produkten (z.B. zusätzlich zum
Stromvertrag auch ein Gasvertrag) oder an höherwertigen Tarifen interessiert sein könnten.
Verbesserung des Betriebsklimas
Indem Verhaltensmuster und betriebliche Vorlieben von Mitarbeitern genauer analysiert
werden, kann das Betriebsklima in einem Unternehmen deutlich verbessert werden. Diese
- 38 -
1
Siehe auch Abschnitt 2.6 Prozessmodelle
2
[Küppers, 1999] S.133
Art der Clusteranalyse benötigt jedoch Daten, die in der Regel nicht oder nur indirekt in den
vorhandenen Datenbanken abgelegt sind. Eine separate Aufnahme dieser „sozialen“ Daten
der Mitarbeiter kann jedoch beispielsweise mit Hilfe einer Umfrage erfolgen.
Optimierte Teambildung
Ähnliche Ansätze wie bei der Verbesserung des Betriebsklimas sind auch bei der
Optimierung von Teams denkbar. Durch die Analyse der Eigenschaften und Verhaltensweisen der Mitgliedern eines erfolgreichen Teams, können Rückschlüsse gezogen werden,
wie ein ideales und optimiertes Team aufgebaut sein sollte (z.B. Teamgröße,
Altersverteilung usw.), um Projekte effizient und erfolgreich durchzuführen.
Automatisierung von Vorgängen1
Mit Hilfe der Clusteranalyse können häufig durchgeführte Vorgänge identifiziert werden.
Diese oftmals wiederkehrenden Abläufe können anschließend ggf. automatisiert werden, um
Kosten zu sparen (z.B. werden nach der Anlage eines Neukunden weitere Prozesse auf Basis
der Kundendaten automatisiert durchgeführt).
Anpassung der Produkte an die Kundenwünsche
Mit Hilfe von Umfragen oder auf Grundlage des
Verbräuche, Umsätze etc.) können die vorhandenen
Vorstellungen und Wünsche des Kunden angepasst
zufriedenheit und damit auch die Kundenbindung.
Gewinnung von Neukunden.
vorhandenen Datenmaterials (z.B.
Produkte und Tarife besser an die
werden. Dies erhöht die KundenDarüber hinaus erleichtert es die
Prognose des Verbrauchs2
Durch die Analyse von Zeitreihen des Verbrauchs (Wasserverbrauch, Energieverbrauch
usw.) ist es möglich, einzelne Abschnitte des Tages mit Hilfe der Clusteranalyse zu
kategorisieren. Durch zusätzliche Daten z.B. bezüglich der Temperatur, Regendauer,
Sonnenscheindauer können so, in Kombination mit der Wettervorhersage, Aussagen über
den Verbrauch der kommenden Tage prognostiziert werden. Indem weitere Attribute, die
den Verbrauch beeinflussen können, mit einbezogen werden, können die Aussagen weiter
verfeinert werden.
4.1.2 Mathematische Grundlagen
Um Data-Mining-Verfahren erfolgreich anwenden zu können, ist ein grundlegendes
Verständnis über die Funktionsweise und die bedeutenden Begrifflichkeiten zwingend
erforderlich. Nur so können die relevanten Parameter gezielt eingestellt und die daraus
resultierenden Ergebnisse interpretiert werden. Da die detaillierte mathematische
Betrachtung jedoch an dieser Stelle nicht zu leisten und für diese Arbeit auch nicht
1
[KiVa, 2007] S.151f
2
ebd.
- 39 -
entscheidend ist, werden im Folgenden (und auch in den entsprechenden Kapiteln der
anderen Verfahren) die Grundlagen1 so wenig wie möglich, jedoch so viel wie nötig
erläutert.
Ähnlichkeit
Wie aus den einführenden Beschreibungen deutlich wurde, ist es das Ziel der Clusteranalyse
ähnliche Daten anhand ihrer Eigenschaften zu gruppieren. Um die Ähnlichkeit von Daten zu
messen, gibt es verschiedene Möglichkeiten. An dieser Stelle wird die Vorgehensweise mit
Hilfe einer Distanzfunktion näher erläutert.
Als einfaches Beispiel dienen zunächst zwei Datenpunkte, die sich in einem
zweidimensionalen Raum befinden. Ähnlich wie z.B. bei einer Portfolioanalyse (siehe
Abbildung 18) kann hier die Ähnlichkeit von zwei Punkten (Daten) anhand ihrer Distanz
bestimmt werden. Je näher sich die Punkte mit ihren zwei Ausprägungen zueinander
befinden, desto größer ist ihre Ähnlichkeit. Für die Berechnung dieser Distanzen gibt es
verschiedene Methoden, so z.B. die Manhattan-Distanz und die euklidische Distanz.
Abbildung 19: Manhattan- und euklidische Distanz
2
Bei der Manhattan-Distanz wird davon ausgegangen, dass das Ziel nur durch
rechtwinkeliges „Abbiegen“ erreicht werden kann (wie im Straßenverkehr von Manhattan).
Daher berechnet sich die Distanz in der linken Abbildung wie folgt:
dist(x, y)
| a d bd |
d
(3 2,5) (3 2,5) (2,5 2)
0,5 0,5 0,5
1,5
Formel 1: Manhattan-Distanz
Bei der euklidischen Distanz wird die direkte Gerade als kürzester Weg zwischen zwei
Punkten betrachtet.
- 40 -
1
2
Daher berechnet sich in diesem Fall die Distanz wie folgt:
n
dist(x, y)
(x d
y d )²
d 1
(3 2)² (3 2,5)²
1² 0,5²
1,118
Formel 2: euklidische Distanz
In der Regel wird die Lp-Metrik verwendet, um die Ähnlichkeit von Informationen zu
bestimmen. Sie entspricht dabei einer Verallgemeinerung der euklidischen Distanz:
n
dist(x, y)
(x d
p
y d ) p , mit den Dimensionen d = {1, ..., n}.
d 1
Formel 3: Lp-Metrik
Da nicht nur zwei, sondern zumeist eine Vielzahl an Merkmalen die Daten charakterisieren,
befindet man sich nicht in einer Ebene mit zwei Dimensionen sondern in einem
n-dimensionalen Raum. Der zweite Aspekt, dem in der Lp-Metrik Rechnung getragen wird,
ist die Berücksichtigung vieler verschiedener Distanzfunktionen für die Berechnung der
Abstände. Daher werden nicht die ersten (Manhattan-Distanz) oder zweiten Potenzen
(euklidische Distanz) und dazu korrespondierend die erste oder zweite Wurzel verwendet,
sondern die p-te Potenz und die p-te Wurzel.
Kompaktheit
Der Begriff der Kompaktheit soll anhand eines Beispiels dargestellt werden, das im weiteren
Verlauf der Erläuterung immer wieder verwendet wird.
1
Abbildung 20: Kompaktheit von Cluster
1
- 41 -
In Abbildung 20 sind zwei verschiedene Cluster mit ihren Clusterzentren und jeweils sechs
Datenpunkten dargestellt. Je enger die Datenpunkte in ihrer Gesamtheit am Clusterzentrum
liegen, desto kompakter ist das Cluster.
Aufgabe der Clusteranalyse ist es, die Datenpunkte so auf die Cluster aufzuteilen, dass eine
bestmögliche Kompaktheit aller Cluster erzielt wird.
»Die Zielsetzung einer Clusteranalyse ist also die Minimierung der Summe der Kennzahlen
Kompaktheit aller Cluster, womit im Optimum automatisch die Clusterzerlegung gefunden
wird, bei der eine Verbesserung durch eine Umordnung von Elementen in ein anderes
Cluster nicht mehr möglich ist.«1
Die Kompaktheit eines Clusters lässt sich wie folgt definieren:
n
(x dk cdk )p
Komp(k) =
xk d 1
mit dem Mittelwert cdk
1
nk
x dk
k
mit n k = Anzahl der Datenpunkte im Cluster k
Formel 4: Kompaktheit
Die Formel beschreibt die Summe aller Abstände der Datenpunkte zum Clusterzentrum.
Dabei wird die p-te Potenz verwendet, um große Distanzen überproportional und gewichtet
in das Gesamtergebnis einfließen zu lassen. Abbildung 20 verdeutlicht diesen Sachverhalt.
Das Cluster links in der Abbildung erreicht durch Summierung der Abstände der
Datenpunkte zum Clusterzentrum einen Gesamtwert von 6. Auch das Cluster rechts in der
Abbildung erreicht diesen Wert, obwohl es nicht so kompakt ist. Durch die Potenzierung
bekommen größere Distanzen zum Clustermittelpunkt eine entsprechend höhere
Gewichtung.
In bestimmten Situationen kann es auch sinnvoll sein die relative Kompaktheit zu berechnen.
Wenn man beispielsweise links in der Abbildung 20 weitere Datenpunkte mit der Distanz 1
einfügt, steigt der Wert der Kompaktheit und das Cluster gilt somit als weniger kompakt.
Indem der Wert der Kompaktheit durch die Anzahl der Datenpunkte eines Clusters dividiert
wird, erhält man die relative Kompaktheit und umgeht diese Problematik.
1
- 42 -
[KiVa, 2007] S.155
4.1.3 Umsetzung im SAP BI 7.0
k-means-Algorithmus
Die Implementierung der Clusteranalyse im SAP BI 7.0 basiert auf der sogenannten
k-means-Methode. Der Ablauf lässt sich wie folgt beschreiben:
■ Schritt 1: Initialisierung
Zufällige Zuordnung der Objekte (Informationen) zu k Cluster
■ Schritt 2: Berechnung
Berechnung des Clusterzentrums für jedes Cluster
■ Schritt 3: Zuordnung
Berechnung der Entfernungen der Objekte zu den Clusterzentren sowie Zuordnung aller
Objekte zu dem nächstgelegenen Zentrum.
■ Schritt 4: Wiederholung
Falls sich die Zuordnung von Objekten zu den Clustern geändert hat, weiter mit Schritt 2,
ansonsten endet der Vorgang
Anhand der folgenden Abbildung wird der Ablauf noch einmal verdeutlicht.
Abbildung 21: Ablauf der Clusteranalyse (k-means)
Im Schritt A (siehe Abbildung 21) werden einer definierten Anzahl an Clustern die
Informationen (Objekte) zufällig zugeordnet. Dies kann auch weitaus unstrukturierter
geschehen, als dies in der Abbildung dargestellt ist. Schritt B berechnet die Clusterzentren
für jedes Cluster. In Schritt C werden dann die Distanzen zwischen den einzelnen Objekten
und den Clusterzentren ermittelt. Zusätzlich werden die Objekte dem jeweils nächsten
Clusterzentrum und damit dem jeweiligen Cluster zugeordnet. In dem Beispiel wechseln
zwei Objekte dadurch ihre Zugehörigkeit zu einem Cluster. Anschließend werden erneut die
- 43 -
neuen Clusterzentren auf Grundlage der veränderten Situation berechnet. Die Vorgänge
werden solange wiederholt bis es zu keinen neuen Zuordnungen mehr kommt.
Konfiguration der Clusteranalyse
Wie Data-Mining-Modelle angelegt werden können und welche Möglichkeiten dem
Anwender in diesem Zusammenhang zur Verfügung stehen, wurde bereits in den
vorangegangenen Abschnitten behandelt.1 Im Folgenden werden die spezifischen
Einstellungen und Parameter zur Konfiguration der Clusteranalyse im SAP BI 7.0 erläutert.
Nachdem ein Modell zur Clusteranalyse angelegt wurde, stehen dem Anwender die
Registerkarten Felder und Parameter zur Konfiguration des Modells zur Verfügung.
Abbildung 22: Clusteranalyse - Feldkonfiguration
In der Feldkonfiguration werden die Datenfelder des Modells mit Name, Beschreibung und
dem zugrundeliegenden InfoObject2 definiert. Im Feld Wertetyp muss angegeben werden, ob
es sich dabei um stetige oder diskrete Daten handelt oder ob das Feld als Schlüsselfeld
definiert werden soll.3
Die Spalten Parameter (nicht zu verwechseln mit der Registerkarte Parameter) und Werte
erlauben eine individuelle Variation des Modells, was insbesondere bei der späteren
Verfeinerung und Optimierung des Modells interessant wird. Im Dialogfeld für die
Parameter eines Feldes kann zum Einen ein Gewichtungsfaktor angegeben werden. Dadurch
wirken sich die Daten dieses Feldes entsprechend dem Faktor höher auf die Bildung der
Cluster aus. »Dieser Effekt ist vergleichbar mit einer Kamera, bei der wir einstellen können,
welcher Bereich in einem Bildausschnitt besonders scharf und klar aufgenommen werden
- 44 -
1
Siehe Abschnitt 3.3 Anlegen eines DM-Modells
2
Weiterführende Informationen siehe [Projektarbeit, 2008] S.16ff
3
Siehe Abschnitt 3.3 Anlegen eines DM-Modells
soll.«1 Zum Anderen kann ein Vorschlagswert definiert werden, der dann verwendet wird,
wenn in der Spalte Werte, einzelne Werte und Bereiche als fehlend markiert werden.
Mit Hilfe des Dialogfensters aus der Spalte Werte ergeben sich, wie bereits angedeutet,
weitere Konfigurationsmöglichkeiten. So können dort Werte und Wertbereiche aussortiert
und diskretisiert werden, d.h. Bereiche aus einem stetigen Datenfeld werden wie bei einem
diskreten Feld an das Modell übergeben. Alternativ können auch einzelne Werte mit einer
individuellen Gewichtung versehen werden.
Abbildung 23: Clusteranalyse - Parameterkonfiguration
In der Registerkarte Parameter werden die Einstellungen vorgenommen, die sich nicht nur
auf einzelne Felder beziehen, sondern das Modell als Ganzes betreffen. So wird hier
beispielsweise die Anzahl der Cluster definiert. Diese Angabe ist für den k-meansAlgorithmus2 besonders wichtig und hat auch einen entscheidenden Einfluss auf die
Ergebnisse des Data-Minings. Darüber hinaus kann über die maximale Anzahl eindeutiger
Werte gesteuert werden, wie viele unterschiedliche Ausprägungen ein als diskret definiertes
Feld besitzen darf. Wird fälschlicherweise eine Vielzahl an unterschiedlichen Werten als
diskret übergeben, hat dies massive Auswirkungen auf die Gesamtperformance. Dieses
Abbruchkritierium schützt den Anwender vor dieser Problematik, indem bei der
Überschreitung der definierten Anzahl das Feld für die Berechnung nicht weiter
berücksichtigt wird. Zuletzt lässt sich über den Anteil der Segmentwechsel festlegen, wann
die Clusteranalyse vorzeitig beendet werden soll. Wenn beispielsweise 100 Datensätze
vorliegen und der Anteil der Segmentwechsel mit 0,150 angegeben wird, endet die
Wiederholung der Schritte des k-means-Verfahrens sobald weniger als 15% (also 15
Datensätze) einem anderen Cluster zugeordnet werden.
1
[KiVa, 2007] S.160f
2
Siehe Abschnitt 4.1.3 k-means-Algorithmus
- 45 -
Nachdem das Data-Mining-Modell in der DM-Workbench gespeichert und aktiviert wurde,
kann die Clusteranalyse durchgeführt werden. Dazu muss jedoch zunächst ein
Analyseprozess (siehe Abbildung 24) angelegt werden.1
Abbildung 24: Clusteranalyse - Analyseprozess
Hierzu wird neben der Datenquelle das Datenziel Clusteranalyse verwendet. Die
Clusteranalyse gibt es zusätzlich im Bereich der Transformationen. Diese wird jedoch
ausschließlich für die Vorhersage mit Hilfe des Clustering verwendet. Die Voraussetzung
dafür ist ein trainiertes Clustermodell, welches als Transformation zwischen einer
Datenquelle und einem Datenziel abgelegt wird. Alternativ kann die Vorhersage für
einzelne, manuell einzugebende Werte simuliert werden, ohne dass ein zusätzlicher
Analyseprozess notwendig ist.
Es wird deutlich, dass nicht nur die reine Segmentierung von Daten und deren
anschließender Analyse zu interessanten und bedeutsamen Erkenntnissen führen können,
sondern dass auch die Vorhersage ein wichtiges Instrument ist. Folgendes Beispiel
veranschaulicht noch einmal die Möglichkeiten der Vorhersage auf Basis der Clusteranalyse:
»Bei der Annahme eines Telefongesprächs wird automatisch die übermittelte Telefonnummer
eines Kunden an eine Suchfunktion übergeben, die Kundendaten werden gelesen und die
Zuordnung zu einem Marktsegment wird automatisch abgefragt. Dem Call-CenterMitarbeiter wird innerhalb von Sekundenbruchteilen angezeigt, ob es sich bei dem Anrufer
um einen „guten“ oder „schlechten“ Kunden handelt – und diese Information ist bereits
vorhanden, noch bevor das Gespräch durch den Call-Center-Mitarbeiter angenommen
worden ist.«2
- 46 -
1
Weiterführende Informationen zum Anlegen eines Analyseprozesses siehe [Projektarbeit, 2007]
2
[KiVa, 2007] S.176
Analyse der Modellergebnisse
Die Analyse der Modellergebnisse ist ein weiterer, umfangreicher Abschnitt des DataMining-Prozesses, der an dieser Stelle nicht vollständig dargestellt werden kann.1 Daher
werden die Möglichkeiten der Ergebnisanalyse nur kurz erläutert.
Folgende Diagramme und Anzeigen in Bezug auf die Ergebnisse der Clusteranalyse sind im
SAP BI 7.0 möglich:
■ Einflussdiagramm
Grafische Darstellung über die Anzahl der Datensätze je Cluster und dem Einfluss der
einzelnen Felder auf die Bildung der Cluster.
Abbildung 25: Clusteranalyse – Einflussdiagramm
■ grafische Verteilung der Werte
Darstellung wie die Werte und damit die Eigenschaften der Cluster verteilt sind.
Abbildung 26: Clusteranalyse – grafische Verteilung der Werte
■ Verteilung der Attribute als Tabellen
Tabellarische Übersicht über die Anzahl der verschiedenen Merkmalsausprägungen in
dem jeweiligen Cluster.
Abbildung 27: Clusteranalyse – Verteilung der Werte als Tabelle
1
Weiterführende Informationen siehe [KiVa, 2007] S.169ff
- 47 -
■ grafische Verteilung der Attribute
Grafische Darstellung der oben genannten tabellarischen Übersicht.
Abbildung 28: Clusteranalyse – grafische Verteilung der Werte
■ Informationen zu den Entfernungen zwischen und innerhalb der Cluster
Grafische Darstellung bezüglich der Entfernungen und damit der Kompaktheit1 und
Homogenität zwischen und innerhalb der Cluster.
Abbildung 29: Clusteranalyse – grafische Darstellung der Entfernungen
Kommt es innerhalb von einzelnen Clustern zu vergleichsweise hohen Entfernungen,
sollte über eine veränderte Konfiguration der Modellparameter nachgedacht werden (z.B.
Erhöhung der Anzahl der Cluster), um so die Kompaktheit der Cluster weiter zu
optimieren.
■ Clustertexte anpassen
An dieser Stelle können individuelle Namen für die Cluster vergeben werden, um diese
für die Analyse und Auswertung verständlicher zu machen. Zumeist wird ein
„inhaltlicher“ Name vergeben, der das Cluster aufgrund seiner Eigenschaften und
Datensätze beschreibt.
■ Vorhersagesimulation
Durch die manuelle Eingabe von Werten kann auf Grundlage des Modells vorhergesagt
werden, welchem Cluster dieser Datensatz zugeordnet wird.
Abbildung 30: Clusteranalyse – Vorhersagesimulation
1
- 48 -
Siehe Abschnitt 4.1.2 Mathematische Grundlagen
4.1.4 Bewertung
Der im SAP BI 7.0 verwendete k-means-Algorithmus ist die am meisten verbreitete
Clustermethode, da sie nach einem einfachen Prinzip aufgebaut ist, effizient arbeitet und
gute Ergebnisse liefert. In der folgenden Tabelle sind die wesentlichen Vor- und Nachteile
gegenübergestellt:
Stärken
Schwächen
einfaches Prinzip und daher populär
ggf. unterschiedliche Ergebnisse in Abhängigkeit
von den Startpositionen der Cluster
schnell und effizient (geringe Anzahl an Iterationen)
Problematisch bei Rauschen und Ausreißern, da
alle Datenpunkte zur Berechnung des Zentrums
einfließen
„quick´n´dirty“ – liefert fast immer gute Ergebnisse
liefert nicht zwangsläufig das globale Optimum
Anzahl der Cluster muss im Vorfeld definiert werden
Tabelle 1: Stärken und Schwächen des k-means-Algorithmus
Einige der Schwächen können allein dadurch umgangen werden, dass die Clusteranalyse
wiederholt gestartet und anschließend überprüft wird, ob der Algorithmus aufgrund der
zufälligen Initialisierung1 ein anderes Ergebnis liefert.
Zum Gebiet der Clusteranalyse wird eine Vielzahl von Verfahren gezählt, die in
verschiedene Kategorien und Unterkategorien (partitionierende Verfahren, hierarchische
Verfahren, neuronale Netze, Optimierungsverfahren usw.) eingeteilt sind. Detaillierte
Betrachtungen und Vergleiche zum (partitionierenden) k-means-Algorithmus sind an dieser
Stelle nicht zu leisten.2 Besonders interessant im Bereich der Clusteranalyse sind jedoch die
neuronalen Netze z.B. der Kategorie SOM (Self Organizing Maps) sowie die evolutionären
Algorithmen als Optimierungsverfahren zur Minimierung der Distanzen.3
Es bleibt abschließend festzuhalten, dass die Implementierung des k-means-Algorithmus zur
Berechnung der Clusteranalyse als bisher einzige Möglichkeit im SAP BI 7.0 richtig und
sinnvoll ist. Eine Erweiterung um zusätzliche Methoden der Clusterbildung ist jedoch in der
Zukunft wünschenswert.
1
Siehe Abschnitt 4.1.3 k-means-Algorithmus
2
Weiterführende Informationen siehe [Nakhaeizadeh, 1998] S.225ff, [Küppers, 1999] S.51ff,
[Pertersohn, 20005] S.73ff sowie die umfangreiche Literatur im Abschnitt 13 Quellenverzeichnis
3
Weiterführende Informationen siehe [AlNi, 2000] S.69ff, S.199ff, [KiVa, 2007] S.281ff,
[Pertersohn, 20005] S.73ff
- 49 -
4.2 ABC-Analyse
Die ABC-Analyse ist ein einfaches Verfahren, dessen Grundüberlegungen 1906 von
Vilfredo Pareto festgehalten wurden, als er eine Formel aufstellte, die das Ungleichgewicht
bei der Vermögensverteilung in seinem Land darstellte (20% der Bevölkerung besitzen 80%
des Vermögens). Neben den Begriffen ABC- oder Pareto-Analyse wird das Konzept vielfach
auch als Juran-Prinzip oder 80/20-Regel bezeichnet. Unabhängig von der Namensgebung
basiert das Prinzip immer auf dem gleichen Konzept. Es werden die »vital few« von den
»trivial many« getrennt und mit einem Schlüssel (z.B. A, B oder C) versehen.1
Dieses Verfahren kann in vielfacher Weise angewandt werden, sei es für die Segmentierung
von Kunden, Lieferanten, Märkten, Produkten usw. Das Ergebnis einer Kundensegmentierung könnte beispielsweise lauten:
■ Klasse A: 20% der Kunden generieren 50% des Erlöses
■ Klasse B: 30% der Kunden generieren 30% des Erlöses
■ Klasse C: 50% der Kunden generieren 20% des Erlöses
Somit werden die wichtigen von den unwichtigen Kunden (oder Produkten, Märkten,
Lieferanten etc.) getrennt und können entsprechend behandelt werden.
Der Unterschied zur Clusteranalyse liegt bei der ABC-Analyse in der Betrachtung von
univariat verteilten Variablen, d.h. es wird nur eine Variable isoliert betrachtet, ohne
Berücksichtigung von Abhängigkeiten zu anderen Variablen. Bei dem Clustering spricht
man von multivariat verteilten Variablen.2 Dadurch ist die ABC-Analyse wesentlich
einfacher und performanter durchzuführen, jedoch bezüglich der Klassifikationskriterien
deutlich eingeschränkt.
Es gibt verschiedene Ansätze der Erweiterung der ABC-Analyse. Beispielsweise können die
Informationen aus mehreren Variablen in einer Kennzahl gebündelt werden (z.B. Umsatz
und Kosten zu Deckungsbeitrag). Darüber hinaus können die Daten schon im Vorfeld
anhand bestimmter Kriterien (z.B. Land, Region, Kreis) gruppiert werden, um anschließend
für jede Gruppe eine separate ABC-Analyse durchzuführen.
Eine weitere Möglichkeit ist, die ABC-Analyse mehrfach durchzuführen, wie in Abbildung
31 dargestellt. Dort werden in einem ersten Schritt zunächst die Klassen A, B und C (z.B.
nach Umsatz) ermittelt und anschließend für jede dieser Klassen eine erneute ABC-Analyse
mit einer anderen Variablen (z.B. Erlös) durchgeführt. So können aus den 3 bereits
bestehenden Klassen insgesamt 9 detailliertere Klassen gebildet werden.
- 50 -
1
[Juran, 2008]
2
[KiVa, 2007] S.178
1
Abbildung 31: Zweifache ABC-Analyse
Die Einsatzgebiete der ABC-Analyse sind vielfältig. In einem ersten Überblick sind in der
Versorgerbranche folgende Beispiele denkbar:
Kundensegmentierung nach Ertrag
Hierbei werden dem Kunden einerseits die Erlöse aus Verbrauch, Grundgebühren und der
Nutzung anderer Dienste (ggf. auch für verschiedene Sparten), andererseits die durch ihn
anteilig entstandenen Kosten (Verbrauchskosten, Netzkosten, Wartungskosten, Abrechnungskosten usw.) zugeordnet. Anschließend werden die Deckungsbeiträge aufsteigend
sortiert. Das Ergebnis ist zumeist eine Kurve, deren Steigung im Verlauf abnimmt. Die
Einteilung in die ABC-Klassen wird zu Beginn festgelegt, jedoch anschließend in einem
iterativen Prozess optimiert und angepasst. Als Ergebnis kann beispielsweise die
Kundenbetreuung hinsichtlich einer Ertragssteigerung verändert werden.
Produkt- und Tarifsegmentierung
Auch bei den Produkten und Tarifen kann anhand von definierten Kriterien eine ABCAnalyse durchgeführt werden. So kann z.B. das Produkt- und Tarifportfolio optimiert,
gezielt erweitert oder bereinigt werden.
Häufigste Fehler
Welches sind die häufigsten Fehler sowohl im Unternehmen selbst, als auch z.B. bei der
Installation, Ablesung oder Abrechnung beim Kunden? Welche Kosten entstehen dadurch?
Welche Fehler verursachen die meisten Kosten? Diese und viele anderen Fragen können in
diesem Zusammenhang mit Hilfe der ABC-Analyse beantwortet werden. Die Betrachtung
der wirtschaftlich bedeutendsten Fehler kann so zu einer deutlichen Senkung der Kosten
führen.
1
- 51 -
Kundensegmentierung nach Forderungen
Ähnlich wie in den vorangegangenen Beispielen könnte eine ABC-Analyse der Kunden auf
Grundlage der Forderungen durchgeführt werden. So werden diejenigen Kunden
identifiziert, bei denen es sich lohnt gezielte Anreize zur Zahlung zu schaffen.
Kostenstellenanalyse
Auch im Bereich der Kostenstellen sind viele verschiedene ABC-Analysen, wie sie bereits
beschrieben wurden, denkbar.
Grundsätzlich ist es mit der ABC-Analyse möglich, nicht nur das „Wichtige“ vom
„Unwichtigen“ zu trennen und die Wirtschaftlichkeit zu steigern, sondern auch
Rationalisierungsschwerpunkte zu setzen und unnötige Anstrengungen zu vermeiden.
Als mathematische Grundlage für die ABC-Analyse dient die Verteilungsfunktion der
Pareto-Verteilung. Sie ist wie folgt definiert:
F(x) 1
x0
x
k
mit x 0 , k > 0 und x 0 > x
Formel 5: Pareto-Verteilung
Der typische Verlauf der Funktion ist in Abbildung 32 dargestellt.
Abbildung 32: Pareto-Verteilung
In diesem Beispiel erzeugt in der Klasse A ein Mengenanteil von 15% schon 70% des
Wertanteils. In der zweiten Klasse B ist dieses Verhältnis schon weniger ausgeprägt und in
der letzten Klasse erzeugen 65% nur ca. 10% des Wertes. Die Grenzen der Klassen werden
dabei im Idealfall in einem iterativen Prozess optimiert.
- 52 -
Ablauf der ABC-Analyse
Zunächst soll der grundsätzliche Ablauf der ABC-Analyse kurz erläutert werden. In
Abbildung 33 wird beispielhaft eine ABC-Analyse der Tarife, klassifiziert nach der
Kennzahl Umsatz, durchgeführt.
1
Abbildung 33: ABC-Analyse
Im ersten Schritt werden die Objekte (oder Datensätze) anhand des Kriteriums Umsatz
absteigend sortiert. Die Reihenfolge wird in der Spalte Rang festgehalten. Anschließend wird
die Anzahl der Objekte kumuliert und zusätzlich ihr prozentualer Anteil an der
Gesamtanzahl berechnet. Daraufhin werden auch die Umsätze kumuliert und ebenfalls als
prozentualer Anteil am Gesamtumsatz angegeben. Zuletzt erfolgt die Zuordnung der Klassen
in Abhängigkeit von dem kumulierten Kriterium in Prozent. In diesem Beispiel werden alle
Tarife die bis zu 65% des Gesamtumsatzes generieren der Klasse A zugeordnet. Alle Tarife
die weitere 25% des Umsatzes erzeugen, gehören zu Klasse B. Die restlichen 10% des
Gesamtumsatzes sind Tarife der Klasse C.
Im SAP BI 7.0 gibt es zu der beispielhaft genannten Variante (Bewertung anhand des
kumulierten Kriteriums in %) noch drei weitere Möglichkeiten, die Klassifizierung und
damit die Einteilung in die Klassen A, B und C vorzunehmen. Diese Alternativen werden im
weiteren Verlauf an gegebener Stelle näher erläutert.
1
- 53 -
Konfiguration der ABC-Analyse
Zuerst muss in der DM-Workbench das Data-Mining-Modell der Kategorie ABC-Analyse
erzeugt und konfiguriert werden. Dafür stehen nach Angabe des Namens und der
Bezeichnung des Modells die zwei Registerkarten Felder und Parameter zur Verfügung.
Abbildung 34: ABC-Analyse – Feldkonfiguration
Bei der Feldkonfiguration werden alle Felder mit den zugrunde liegenden InfoObjects
angegeben, die in die Berechnung der ABC-Analyse einbezogen werden sollen. Dabei muss
zu jedem Feld ein Wertetyp angegeben werden. Folgende Möglichkeiten stehen in diesem
Zusammenhang zur Auswahl:
■ Classification Criterium
Das Klassifikationskriterium ist das Feld, anhand dessen die Objekte den entsprechenden
Klassen zugeordnet werden. Dabei kann nur ein Feld als Klassifikationskriterium
definiert werden.
■ Classified Object
Gibt das Objekt an, das die Einstufung in die Klassen erhält. Dabei ist es irrelevant, ob
ein oder mehrere Felder diesen Wertetyp erhalten.
■ Grouping Attribute
Das Gruppierungsattribut erlaubt die Klassifizierung nach Untergruppen. Wird ein Feld
als Gruppierungsattribut angegeben, wird für jede Ausprägung des Feldes eine eigene
ABC-Analyse durchgeführt. So kann beispielsweise direkt für jede Region, jedes Produkt
oder jeden Tarif eine separate ABC-Analyse durchgeführt werden.
- 54 -
Die Konfiguration der Registerkarte Parameter ist in der folgenden Abbildung dargestellt:
Abbildung 35: ABC-Analyse – Parameterkonfiguration
In der Parameterkonfiguration werden zum Einen die Klassen definiert sowie deren
Wertintervall angegeben. Zusätzlich muss die Intervallart konfiguriert werden (offen, rechts
offen, links offen, geschlossen).
Wichtig für die ABC-Analyse ist die Festlegung, wie klassifiziert werden soll. Dazu stehen
insgesamt vier Möglichkeiten zur Verfügung. Entweder es werden absolute Werte verwendet
oder relative, kumulierte Prozentwerte. Beide Varianten lassen sich mit den Werten des
Klassifikationskriteriums (z.B. Umsatz) oder der Anzahl des zu klassifizierenden Objekts
(z.B. Kunden) kombinieren. So können beispielsweise der Klasse A alle Objekte mit den
kumulierten Werten zwischen 1000 und 2000 zugeordnet werden oder mit den absoluten
Werten 300 bis 400 oder auch die ersten 20% oder die ersten 50 Datensätze in der
berechneten Rangfolge.
Nachdem das DM-Modell gespeichert und aktiviert wurde, kann der dazugehörige APDProzess erstellt werden. Hierbei sind keine besonderen Einstellungen nötig. Es müssen
lediglich die aus der Datenquelle zur Verfügung stehenden Felder denen des ABC-Modells
zugeordnet werden.
Abbildung 36: ABC-Analyse – Analyseprozess
- 55 -
Zur Anzeige der Ergebnisse stehen zwei Möglichkeiten zur Verfügung.
Abbildung 37: ABC-Analyse – Ergebnisdarstellung
Zum Einen werden Analysen in der bereits bekannten grafischen Form präsentiert.
Zusätzlich werden die wichtigsten statistischen Informationen angezeigt. Alternativ können
die Ergebnisse in Form einer Tabelle, wie auch bei der Speicherung im Datenziel, dargestellt
werden.
4.2.4 Bewertung
Die ABC-Analyse ist bereits seit vielen Jahren im R/3-System (z.B. im Logistikinformationssystem) integriert. Im BI 7.0 im Zusammenhang mit den Data-MiningVerfahren wurde das Werkzeug jedoch bezüglich des Funktionsumfangs und der
Benutzerfreundlichkeit deutlich verbessert.
Ingesamt ist die ABC-Analyse ein sehr einfaches, aber sehr effektives und bekanntes
Verfahren, das in vielen Einsatzbereichen Anwendung findet.
Die Vor- und Nachteile der ABC-Analyse sind in der folgenden Tabelle festgehalten.
Stärken
Schwächen
Eingrenzung der wesentlichen Faktoren und dadurch
geringer Aufwand und performante Durchführung
Grobe Einteilung in definierte Klassen und keine
Berücksichtigung von Abhängigkeiten
Einfaches und populäres Verfahren
Fokussierung auf ein einzelnes (oder kombiniertes)
Kriterium
Sehr gute Darstellung der Ergebnisse möglich
Erweiterbar durch nacheinander geschachtelte ABCAnalysen
Tabelle 2: Stärken und Schwächen der ABC-Analyse
In der betrieblichen Praxis kann die ABC-Analyse durch weitere Verfahren (wie z.B. die
XYZ- sowie die GMK-Analyse) erweitert werden. Dies ist im SAP BI 7.0 standardmäßig
nicht vorgesehen. In der Regel wird die ABC-Analyse jedoch ohnehin für vorbereitende
Zwecke oder schnelle Analysen verwendet.
- 56 -
4.3 Scoring-Verfahren
Das Scoring ist eines der bekanntesten Verfahren zur Bewertung von Datensätzen. Es wird
in vielfacher Weise im alltäglichen Leben eingesetzt und ist sehr populär, da es (zumindest
in der grundlegenden Anwendung) leicht verstanden werden kann.
Wie aus dem Namen des Verfahrens schon ersichtlich wird, sollen Daten mit Hilfe von
Punkten bewertet werden. Dabei werden verschiedene Daten mit unterschiedlicher
Gewichtung „bepunktet“ und anschließend zu einem Scorewert verrechnet. So lassen sich
beispielsweise Kunden mit einer Vielzahl an unterschiedlichen Kundenattributen in einem
Gesamtwert (z.B. Wert des Kunden für das Unternehmen) zusammenfassen und vergleichen.
Im Alltag wird dieses Prinzip in vielen Bereichen eingesetzt, z.B. bei der Vergabe von
Krediten. Ob ein Kunde kreditwürdig ist oder nicht, hängt von vielen verschiedenen
Faktoren ab, die eine unterschiedliche Gewichtung besitzen. Letztendlich ist aber der
Gesamtscorewert entscheidend, der aussagt, ob an den Kunden ein Kredit vergeben wird. Ein
weiteres, einfaches Beispiel ist die Berechnung der Durchschnittsnote des Studiums.
Während das Grundstudium in geringerem Maße in die Gesamtnote einfließt, haben das
Hauptstudium und die Diplomarbeit im Verhältnis eine höhere Gewichtung. Vielfach erfolgt
eine Bewertung auf Basis eines Scoring-Verfahrens auch unbewusst und intuitiv. Möchte
man beispielsweise ein Auto kaufen und dieses mit einem anderen vergleichen, werden die
Merkmale gewichtet. Einem bestimmten Ausstattungsmerkmal wird dabei eventuell eine
höhere Gewichtung zuteil, wohingegen andere Merkmale von geringerer Bedeutung sind.
Wenngleich in diesem Beispiel kein Scorewert im Sinne einer numerischen Größe berechnet
wird, ist das Prinzip dennoch dasselbe.
Das Scoring ist, wie bereits beschrieben, ein recht einfaches Verfahren, das ohne große
mathematische Kenntnisse zugänglich ist. Im Folgenden werden verschiedene Beispiele
erläutert, in denen das Scoring als Data-Mining-Verfahren sinnvoll eingesetzt werden kann.
Kundenbewertung
Eine mögliche Anwendung der Scoring-Analyse in der Versorgungsindustrie ist das
Erzeugen eines Kundenindex in Abhängigkeit von dem Wert des Kunden für das
Unternehmen. So können Kunden von einem Versorger beispielsweise sowohl Strom, als
auch Gas beziehen. Jedoch ist der Gewinn für das Unternehmen in der Sparte Gas ggf. höher
als in der Sparte Strom. Aus diesem Grund sind Kunden mit hohem Gasverbrauch (im
Verhältnis zum Stromverbrauch) besonders wichtig. Diesen Gedanken kann man mit einer
entsprechenden Gewichtung berücksichtigen. Zusätzlich können weitere Attribute, wie die
Umsätze der vergangenen Monate, die Inanspruchnahme von zusätzlichen Dienstleistungen
usw. mit einer individuellen Gewichtung einbezogen werden, um schließlich den
Gesamtwert eines Kunden zu ermitteln. Anhand dieses Wertes kann z.B. eine Intensivierung
der Beziehungen zu den wertvollen Kunden gezielt durchgeführt werden.
- 57 -
Werbescoring
Mit Hilfe der Scoring-Technik können auch Werbekampagnen gezielt durchgeführt werden,
indem beispielsweise die Kaufkraft oder das Ansprechverhalten auf entsprechende
Werbekampagnen berechnet wird. Die Ergebnisse erlauben dann Aussagen darüber, welche
Personen für welche Produkte auf welchem Weg beworben werden sollten.
Call-Center
Ein weiteres mögliches Szenario für eine Scoring-Analyse ist die Einstufung der Anrufer in
einem Call-Center, um so anhand verschiedener Kriterien die Anrufer in der Warteschlange
zu sortieren. Diejenigen Kunden die für das Unternehmen eine besondere Bedeutung haben,
können so direkt angesprochen werden, wohingegen „Nörgler“ und „Daueranrufer“ länger in
der Warteschlange verweilen.
Optimierung des Forderungsmanagement
Wie auch schon bei der Clusteranalyse ist es mit den Mitteln des Scoring-Verfahrens
möglich, die Zahlungsfähigkeit und Zahlungswilligkeit eines Kunden vorherzusagen. Dabei
fließen verschiedene Merkmale mit unterschiedlicher Gewichtung in einen Gesamtwert des
Kunden ein. So können Neukunden oder potentiell zahlungsunwillige Kunden zu einer
schnellen Zahlung bewegt oder auf ein anderes Zahlungsverfahren umgestellt werden.
Mitarbeiterranking
Nicht nur die Kunden, sondern auch die eigenen Mitarbeiter des Unternehmens können mit
Hilfe des Scoring bewertet werden. So können Mitarbeiter, die für den Erfolg des
Unternehmens von besonderer Bedeutung sind, identifiziert und anschließend ihre Bindung
zum Unternehmen intensiviert werden.
Im SAP BI 7.0 ist lediglich die additive Berechnung durch Summieren der Teilbewertungen
möglich. Daher lässt sich der mathematische Ansatz sehr einfach wie folgt darstellen:
f (x1 ,..., x n ) w1f1 (x1 ) ... w n f n (x n ) , mit
x i = zu bewertendes Merkmal i
w i = Gewicht des i-ten Merkmals
fi (x i ) = Bewertungsfunktion des i-ten Merkmals
1
Formel 6: Additives Scoring-Verfahren
1
- 58 -
[KiVa, 2007] S.196
Ablauf des Scoring
Der Ablauf des Scoring im SAP BI 7.0 ist in Abbildung 38 dargestellt und nachfolgend
beschrieben.
1
Abbildung 38: Ablauf Scoring-Verfahren
Wie aus der Abbildung deutlich wird, gibt es zwei Gewichtungsgrößen, die den
Gesamtscorewert beeinflussen. Die Gewichtung der ersten Ebene legt die Bedeutung eines
Merkmals innerhalb des gesamten Modells fest. In dem dargestellten Beispiel ergeben die
einzelnen Gewichtungen der ersten Ebene in Summe 1. Dies dient der Übersichtlichkeit, ist
jedoch nicht zwingend erforderlich. Die Gewichtung in der zweiten Ebene, die sogenannte
Partialgewichtung, erlaubt es die einzelnen Werte eines Merkmals mit individuellen
Gewichtungen zu versehen, wodurch ein detailliertes Score-Verfahren möglich wird. Oft ist
es nicht sinnvoll, für jeden Wert eine eigene Gewichtung zu vergeben. Daher ist es auch
möglich, eine Gewichtung linear zum entsprechenden Wert zu definieren.
Konfiguration des Scoring
Vor dem Anlegen und Konfigurieren des Scoring-Modells müssen zunächst ein paar
Begrifflichkeiten in der DM-Workbench korrigiert bzw. eingeordnet werden.
Oftmals werden die Data-Mining-Verfahren Regressionsanalyse und Weighted Scoring (hier
als Scoring bezeichnet) unter dem Begriff Approximation zusammengefasst. Wie in der
Abbildung 39 zu sehen ist, wurde diese Hierarchie auch in der DM-Workbench verwendet.
1
- 59 -
Abbildung 39: Fehlerhafte Bezeichnungen in der DM-Workbench
Nicht gelungen ist jedoch die Bezeichnung der einzelnen Approximationsverfahren. Die
Regressionsanalyse wird als Scoring bezeichnet, wohingegen das Weighted Scoring keine
Bezeichnung besitzt. Anhand des technischen Namens lassen sich beide Verfahren jedoch
eindeutig unterscheiden.
Im ersten Schritt der Scoring-Analyse muss ein entsprechendes Modell erzeugt und
konfiguriert werden. Anschließend stehen dem Anwender, wie bei den anderen Verfahren
auch, die Registerkarten Felder und Parameter zur Konfiguration des gesamten Modells
sowie die Spalte Parameter zur individuellen Konfiguration der einzelnen Felder zur
Verfügung.
In der Registerkarte Parameter kann lediglich der Standard-Scorewert festgelegt werden, der
bei fehlenden Daten oder bei der Behandlung von Ausreißern verwendet wird.
In der Registerkarte Felder werden, wie bereits bekannt, alle benötigten Meta-Informationen
angegeben. Zusätzlich wird festgelegt, ob es sich bei den Daten in dem jeweiligen Feld um
stetige oder diskrete Daten handelt oder ob dieses Feld als eindeutiges Schlüsselfeld definiert
werden soll. In Abhängigkeit von dem gewählten Wertetyp stehen zum Teil unterschiedliche
Konfigurationsmöglichkeiten durch die Spalte Parameter zur Verfügung. Im Folgenden
werden deshalb die einzelnen Parameter für stetige und für diskrete Datenfelder näher
erläutert. Schlüsselfelder können nicht weiter konfiguriert werden.
Abbildung 40: Konfiguration von stetigen Datenfeldern
- 60 -
In der Parameterkonfiguration für das jeweilige Feld kann auf der Registerkarte Werte
zunächst die Gewichtung des Feldes im Kontext des gesamten Modells (d.h. die Gewichtung
auf erster Ebene) definiert werden.
Anschließend können die Partialgewichte für spezifische Werte eingestellt werden. Bei
stetigen Datenfeldern geschieht dies im Normalfall stückweise linear, d.h. die Werte die
rechts und links von den gewählten Schwellenwerten liegen, werden durch lineare
Interpolation bestimmt. Alternativ werden durch Aktivieren der Option Funktion stückweise
konstant die Werte der linken oder rechten Schwellenwerte bis zum nächsten Schwellenwert
übernommen. Die genannten Möglichkeiten bezüglich der Partialgewichtungen sind in
Abbildung 41 noch einmal dargestellt:
1
Abbildung 41: Möglichkeiten der Partialgewichtung
Darüber hinaus kann zur Beschleunigung und Vereinfachung der Partialgewichtung über die
entsprechende Option das Partialgewicht so konfiguriert werden, dass es identisch zum
Schwellenwert ist.
Mit Hilfe der Registerkarte Behandlung von Ausreißern können Regeln für diejenigen Werte
konfiguriert werden, die (weit) außerhalb der normalen Intervalle liegen.
Folgende Möglichkeiten stehen in diesem Zusammenhang zur Verfügung:
■ Bearbeitung abbrechen
■ Datensatz ignorieren
■ Standard-Scorewert zuweisen
■ Konstante Extrapolation
■ Extrapolation
Die Begriffe sind bis auf die beiden zuletzt genannten weitestgehend selbsterklärend.
Konstante Extrapolation bedeutet, dass Werte außerhalb des Wertebereiches den
nächstgelegenen Grenzwert des Intervalls als Konstante zugeordnet bekommen. Bei der
Extrapolation wird der Wert auf Basis der Datenpunkte des Intervalls linear geschätzt.
1
- 61 -
Zuletzt kann mit Hilfe der Registerkarte Behandlung fehlender Werte festgelegt werden, wie
mit fehlenden Werten verfahren wird. Dazu wird zunächst definiert, was ein fehlender Wert
ist (z.B. 0 oder Initial). Anschließend stehen folgende Möglichkeiten zur Auswahl:
■ Bearbeitung abbrechen
■ Datensatz ignorieren
■ Standard-Scorewert zuweisen
■ Ersetzen durch
Für diskrete Datenfelder verhält sich die Konfiguration der Parameter bis auf wenige
Ausnahmen sehr ähnlich.
Abbildung 42: Scoring – erweiterte Feldkonfiguration
Auf der Registerkarte Werte kann wahlweise für jeden diskreten Wert oder jedes beliebige
Intervall ein Partialgewicht zugeordnet werden. Optionen wie bei den stetigen Datenfeldern
stehen bei diskreten Datenfeldern nicht zur Verfügung. Es kann jedoch für nicht
eingetragene Werte ein Standard-Partialgewicht vergeben werden.
Bei der Behandlung von Ausreißern fehlen die Möglichkeiten der Extrapolation. Die
Möglichkeiten auf der Registerkarte Behandlung fehlender Werte ist bei stetigen und
diskreten Feldern identisch.
Nachdem das Scoring-Modell gespeichert und aktiviert wurde, kann es in einem
Analyseprozess verwendet werden.1
Abbildung 43: Scoring – Analyseprozess
1
- 62 -
ggf. muss. der SAP-Hinweis 1139804 installiert werden (weiterführende Informationen siehe
Abschnitt 7.1 Erläuterungen zu den Hinweisen)
Die Ergebnisse des Scoring können wahlweise grafisch im APD oder tabellarisch in
Abhängigkeit vom gewählten Datenziel betrachtet werden.
Abbildung 44: Scoring – Tabellarische Darstellung der Ergebnisse
4.3.4 Bewertung
Die grundsätzlichen Vor- und Nachteile des Scoring sind in der folgenden Tabelle
festgehalten.
Stärken
Schwächen
einfaches und performantes Verfahren
subjektive Erfahrungen werden nicht berücksichtigt
ohne mathematischen Hintergrund zu verstehen
Auswahl von Daten
intuitiv einsetzbar
Verwendung eines Teils der vorhandenen Daten...
standardisierte Bewertung (objektiv nachvollziehbar)
... und daher beschränkte Aussagekraft
Tabelle 3: Stärken und Schwächen des Scoring
Grundsätzlich gibt es drei Schwierigkeiten bei der Verwendung von Scoring-Verfahren1:
■ Auswahl der Merkmale
Welche Merkmale sollen in die Berechnung des Scorewertes einfließen?
■ Gleichbleibende Qualität der ausgewählten Merkmale
Wie werden die Daten erfasst und ist deren Bedeutung, Relevanz und Erfassung auch
zukünftig immer gleich?
■ Gewichtung der Merkmale
Wie werden die Gewichtungen der ersten und zweiten Ebene festgelegt?
Zusammenfassend bleibt festzuhalten, dass das Scoring in verschiedenen Einsatzszenarien
sehr schnell und nachvollziehbar gute Ergebnisse liefert. Im SAP BI 7.0 ist ausschließlich
ein additives Scoring möglich, was jedoch als weitestgehend ausreichend betrachtet werden
kann. Alternativ kann das vorhandene Scoring durch eine ABAP-Transformation erweitert
werden.
1
[KiVa, 2007] S.194
- 63 -
4.4 Assoziationsanalyse
»Möchten Sie Schnitzel mit Sauerkraut oder einen Burger mit Pommes frites?«1
Um solche oder andere Abhängigkeiten der Form „Kunden die A gekauft haben, haben auch
B und C gekauft“ automatisch erkennen zu können, bedient man sich der Methoden der
Assoziationsanalyse. Im Ergebnis werden auf Grundlage häufig gemeinsam auftretender
Objekte in einem Datenbestand Regeln generiert, die diese Zusammenhänge beschreiben.
»Die Assoziationsanalyse ist eine Data-Mining-Methode, die verborgene Muster,
Korrelationen oder Kausalstrukturen in Positionen oder Objekten entdeckt«2
Die grundsätzlichen Überlegungen in Bezug auf die Assoziationsanalyse entstanden durch
die Einführung der Scanner-Technologie in Supermärkten.3 So werden seitdem alle während
eines Einkaufs erworbenen Produkte zusammen erfasst und können anschließend auf
Zusammenhänge hin analysiert werden. Aus diesem Grund wird die Assoziationsanalyse
oftmals auch als Warenkorb- oder Affinitätsanalyse bezeichnet. In dieser Arbeit werden
jedoch nicht diese durch das Marketing geprägten Begriffe verwendet, sondern die
allgemeine Bezeichnung Assoziationsanalyse.
Dennoch liegen die häufigsten Anwendungsgebiete auch heute noch im Bereich des
Marketing oder Vertrieb. So können auf Basis der geprüften Assoziationsregeln Maßnahmen
ergriffen werden, um beispielsweise Produkte die oft zusammen gekauft werden
nebeneinander zu platzieren oder gemeinsam zu bewerben. In diesem Zusammenhang wird
oft der Begriff Cross-Selling verwendet. Auch die Ladengestaltung, der Personaleinsatz oder
die Sortimentspolitik können mit Hilfe der Assoziationsanalyse verbessert werden.4 Dabei
müssen jedoch nicht zwangsläufig Abhängigkeiten zwischen Objekten an sich betrachtet
werden, sondern es können auch Analysen bezüglich anderer Merkmale wie Preise, Mengen,
Farben, Varianten usw. durchgeführt werden. Darüber hinaus können die Produkte auch in
Kategorien zusammengefasst werden, um so Zusammenhänge auf einer höheren
Abstraktionsebene entdecken zu können. Wenn beispielsweise Brot und Milch oft zusammen
gekauft werden, dann spielt es zunächst keine Rolle um welche Sorte Brot oder Milch
welchen Herstellers es sich handelt. Oftmals erschwert die zu detaillierte Betrachtung der
Daten auch das Auffinden von Assoziationsregeln.
Aber nicht nur im Marketing oder Vertrieb wird die Assoziationsanalyse häufig verwendet.
Auch in allen anderen Unternehmensbereichen kann der Einsatz dieser Data-Mining-Technik
sinnvoll sein. So können beispielsweise Beziehungen zwischen Fehlern oder Fehlerarten in
Produkten oder Systemen erkannt werden. Oder im Gesundheitswesen kann analysiert
- 64 -
1
[BW380, 2005] S.48
2
ebd. S.49
3
Ursprünglich wurde das Verfahren jedoch von Mathematikern mit wissenschaftlichem Hintergrund
entwickelt
4
[AlNi, 2000] S.101
werden, welche Nebenwirkungen bei der Einnahme von einem oder mehreren
Medikamenten entstehen.
Das grundsätzliche Prinzip der Assoziationsanalyse am Beispiel einer Warenkorbanalyse ist
in Abbildung 45 noch einmal dargestellt.
Abbildung 45: Grundsätzlicher Ablauf der Assoziationsanalyse
Um die bisherigen Erläuterungen zu ergänzen, werden nachfolgend einige Beispiele aus der
Versorgerindustrie genannt, in denen die Assoziationsanalyse sinnvoll eingesetzt werden
kann.
Cross-Selling
Das meistgenannte Beispiel für eine Assoziationsanalyse ist das Cross-Selling. Wenn
bekannt ist welche Produkte von Kunden zusammen gekauft werden, können diese bei
Werbekampagnen, Telefonaktionen oder auf Websites gemeinsam präsentiert und angeboten
werden. In der Versorgerbranche wäre es so möglich, diejenigen Kunden zu identifizieren
die sich neben der Stromversorgung auch für die Gasversorgung interessieren könnten. Auch
zusätzliche Dienstleistungen oder bestimmte Tarife könnten so gezielt angeboten werden.
Störungsanalyse
Bei der Analyse von Störungen oder anderen Problemen kann festgestellt werden, welche
Fehler sich aufeinander beziehen oder ob es eine Abhängigkeit zwischen bestimmten
persönlichen, örtlichen oder technischen Merkmalen und einer Störung oder Störungsart
gibt.
- 65 -
Kunden-Produkt-Analyse
Mit Hilfe der Assoziationsanalyse kann herausgefunden werden, welcher Kunde welches
Produkt am wahrscheinlichsten kaufen wird. Diese Informationen können für die Mitarbeiter
eines Call-Centers oder für die gezielte Durchführung von Kampagnen von Bedeutung sein.
Systemoptimierung
Auch in Bezug auf IT-Systeme (oder auch BI-Systeme) kann die Zuverlässigkeit und
Stabilität sowie die Performanz gesteigert werden, indem auf Grundlage von Protokolldaten
festgestellt wird, welche Ereignisse oder Zustände zu Engpässen oder Fehlern führen.
Clickstream-Analysen
Auf Websites kann das Verhalten von Benutzern analysiert und vorhergesagt werden, indem
mit der Assoziationsanalyse beispielsweise festgestellt wird, dass Kunden die sich den
Bereich Kontakt anschauen, vielfach auch den Bereich Kundencenter betrachten. So kann die
Gestaltung der Website mit Hilfe einer verbesserten Navigation, z.B. mit Links optimiert
werden. Zusätzlich können so gezielt Banner mit Produkten oder Dienstleistungen
präsentiert oder Fragebögen und Gewinnspiele angeboten werden.
Für die Analyse des Verhaltens von Anwendern im Internet hat sich mittlerweile ein
eigenständiger Bereich, das sogenannte Web-Mining, herausgebildet, in dem die DataMining-Verfahren für die Anwendung im Internet optimiert und erweitert wurden.
Im SAP BI 7.0 ist der Apriori-Algorithmus für die Anwendung der Assoziationsanalyse
implementiert. Um den Ablauf verstehen zu können, müssen zunächst einige Begriffe zur
formalen Beschreibung des Algorithmus erläutert werden.1
Item
Als Item wird ein Objekt der Gesamtmenge bezeichnet, z.B. ein bestimmtes Produkt. Die
Menge aller Items ist dementsprechend wie folgt definiert:
I
i1 ,i 2 ,...,i m
Formel 7: Menge aller Items
1
- 66 -
In Anlehnung an [Petersohn, 2005] S.102ff, [AlNi, 2000] S.102ff
Transaktion
Als Transaktion wird ein Geschäftsvorfall bezeichnet, beispielsweise der Einkauf. Die
Menge aller Einkäufe ist dementsprechend wie folgt definiert:
D
T1 ,T2 ,...,Tn mit T
I
Formel 8: Menge aller Transaktionen
Eine Transaktion ist dabei eine Teilmenge von Items.
Itemset
Als Itemset bezeichnet man eine Teilmenge der Objekte aus einem Geschäftsvorfall, z.B.
eine Teilmenge der Produkte aus einem Einkauf.
X ist eine Menge von Items mit X
T
Formel 9: Itemset
Mit Hilfe des Itemsets kann im späteren Verlauf die Anzahl der Transaktionen gezählt
werden, in dem das Itemset enthalten ist, z.B. wie viele Einkäufe enthalten die Items
Mozzarella und Tomate.
Die Größe des Itemset wird über die Anzahl der darin enthaltenen Items definiert. Ein
Itemset der Größe k (d.h. mit k Elementen) wird als k-Itemset bezeichnet.
Assoziationsregel
Eine Assoziationsregel, in der Form „wenn A gekauft wird, wird auch B gekauft“ lässt sich
wie folgt als Implikation beschreiben:
X
Y mit X, Y
T und X
Y
Formel 10: Assoziationsregel
X stellt dabei die führende Position (Prämisse) und Y die abhängige Position (Konklusion)
dar. Beide Positionen müssen verschieden sein und dürfen nicht die gleichen Objekte
enthalten, da eine Aussage der Form „wenn Mozzarella gekauft wird, wird auch Mozzarella
gekauft“ nicht sinnvoll ist.
Support
Als Support wird der Anteil der Transaktionen bezeichnet, die das Itemset also die Menge X
enthalten. Damit ist es ein Maß und Gütekritierium für die Beurteilung einer
Assoziationsregel.
support(X) =
| T D|X
T |
|D|
Formel 11: Support
- 67 -
Der oben definierte relative Support wird berechnet, indem die Anzahl der Transaktionen die
das Itemset enthalten, durch die Anzahl der Menge aller Transaktionen dividiert wird.
Der Support einer Assoziationsregel lässt sich entsprechend wie folgt darstellen:
support (X
Y) = support (X
Y) =
| T D|X
Y
T |
|D|
Formel 12: Support einer Assoziationsregel
Der Support einer Assoziationsregel gibt an, wie wahrscheinlich es ist, dass die Regel in
Bezug auf alle Transaktionen eintritt.
Konfidenz
Neben dem Support ist die Konfidenz ein weiteres Gütekriterium für die Stärke der
Assoziationsregel. Die Konfidenz berechnet dabei die Wahrscheinlichkeit, dass nach der
Prämisse (führende Position) auch die Konklusion (abhängige Position) eintritt. Das
Ergebnis der Konfidenz könnte beispielsweise sein, dass in 75% aller Transaktionen, in
denen Mozzarella gekauft wird, auch Tomaten erworben werden. Die Konfidenz lässt sich
wie folgt definieren:
confidence (X
Y) =
| T D|X
| T D|X
Y
T |
T |
=
support(X Y)
support(X)
Formel 13: Konfidenz
Berechnet wird demnach der Anteil der Transaktionen die X und Y enthalten (Support von
X und Y), im Verhältnis zum Anteil der Transaktionen die nur X enthalten (Support von X).
Lift
Als drittes Bewertungskriterium für eine Assoziationsregel wird der Lift verwendet. Ein Lift
von 2 sagt beispielsweise aus, dass Produkt Y (Tomaten), in den Transaktionen mit Produkt
X (Mozzarella), doppelt so häufig vertreten ist, wie in den gesamten Transaktionen. Oder
anders ausgedrückt: Wenn ein Kunde Mozzarella kauft, ist die Wahrscheinlichkeit, dass auch
Tomaten gekauft werden, doppelt so hoch, als wenn er keinen Mozzarella kauft.
lift (X
Y) =
support(X Y)
confidence(X Y)
=
support(X) support(Y)
support(Y)
Formel 14: Lift
- 68 -
Apriori-Algorithmus
Im SAP BI 7.0 wurde der Apriori-Algorithmus, entwickelt im IBM Almaden Forschungszentrum, implementiert. Dabei handelt es sich um die klassische Variante und nicht um die
erweiterten Versionen.1
Der grundsätzliche Ablauf des Apriori-Algorithmus ist in zwei Schritte unterteilt:2
■ Schritt 1: Bestimmung der large Itemsets
Im ersten Prozess werden die häufigen, sogenannten large Itemsets ermittelt. Dafür
werden alle Itemsets gesucht, für deren Transaktionen der Support höher ist als eine
definierte (Mindest-)Schranke. Dieser minimale Support muss bei der Konfiguration des
Modells angegeben werden.
Der Aufwand und die Rechenzeit für die Berechnung aller möglichen Itemkombination
wären jedoch extrem hoch. Aus diesem Grund wird folgende Monotonie-Eigenschaft
genutzt: „Jede Teilmenge eines auftretenden Itemsets muss selbst auch häufig sein“. So
wird zunächst die Häufigkeit der Itemsets mit einem Element berechnet. Ist deren Support
geringer als der Mindestsupport werden sie aussortiert. Anschließend werden alle
Itemsets mit zwei Elementen berechnet. Da im Vorfeld ggf. schon einige Items aussortiert
wurden, müssen nicht mehr alle Kombinationen mit zwei Items berechnet werden. Dieser
Vorgang wird bis zur k-ten Iteration wiederholt. Die Anzahl der Iterationsschritte kann in
der Konfiguration des Modells über die Anzahl der führenden und abhängigen Positionen
angegeben werden.
In Abbildung 46 ist die iterative Berechnung der large Itemsets noch einmal dargestellt.
Abbildung 46: Iterative Berechnung der large Itemsets
1
1
Weiterführende Informationen siehe Abschnitt 4.4.4 Bewertung und [Petersohn, 2005] S.107ff
2
[KiVa, 2007] S.211
- 69 -
■ Schritt 2: Bestimmung der Assoziationsregeln
Auf Grundlage der Itemsets wird für jede Teilmenge eine Assoziationsregel erzeugt.
Besteht ein Itemset beispielsweise aus den Produkten A, B und C gibt es insgesamt zwölf
Assoziationsregeln (A→B / A→C / B→A / B→C / C→B / C→A / A→B,C usw.). Um
nur die stärksten Assoziationsregeln zu bestimmen muss in der Konfiguration des
Modells eine minimale Konfidenz definiert werden.
Zusätzlich kann auch der Liftfaktor zur Bestimmung der stärksten Assoziationsregeln
herangezogen werden
Wie die erläuterten Modellparameter (minimaler Support, minimale Konfidenz, minimaler
Liftfaktor, Anzahl führender Positionen, Anzahl abhängiger Positionen) in der Konfiguration
eingestellt werden können, wird im folgenden Abschnitt erläutert.
Konfiguration der Assoziationsanalyse
Die Vorgehensweise bei der Konfiguration der Assoziationsanalyse ist in den ersten
Schritten (bei der Anlage des Modells sowie beim Einfügen von Feldern) identisch zu den
bisher erläuterten Verfahren.
Abbildung 47: Assoziationsanalyse - Feldkonfiguration
Ebenfalls muss der Wertetyp für jedes Feld angegeben werden. Dabei stehen folgende Typen
zur Auswahl:
■ Position
Der Wertetyp Position kennzeichnet das Datenfeld, in dem die Items abgelegt sind. In
diesem Feld (z.B. Produkte) wird dementsprechend nach Abhängigkeiten und
Zusammenhängen innerhalb der Daten gesucht. Es darf nur ein Modellfeld mit dem
Wertetyp Position angegeben werden.
■ Transaktion
Das Feld, das als Transaktion gekennzeichnet ist, ermöglicht die Zuordnung der Items zu
einer Transaktion. Beispiele für eine Transaktionsnummer können Einkaufswagennummer, Kundenauftragsnummer, Kundennummer, Sitzungsnummer oder andere
beliebig generierte Nummern sein. Es können auch mehrere Felder den Wertetyp
Transaktion zugewiesen bekommen.
1
- 70 -
■ Gewichtung der Transaktion
Mit Hilfe dieses Wertetyps kann die Gewichtung der Transaktion beeinflusst werden, um
so den Support von Items zu verändern. In Abbildung 48 ist der Einfluss der Gewichtung
auf den Support dargestellt und beschrieben.
Abbildung 48: Gewichtung der Transaktion
1
Mit Hilfe der Gewichtung ist es beispielsweise möglich, die umsatzstärkeren
Transaktionen höher zu gewichten, indem die Preise der Produkte mit dem Wertetyp
Gewichtung der Transaktion gekennzeichnet werden.
Auf der Registerkarte Parameter stehen folgende weitere Konfigurationsmöglichkeiten zur
Verfügung:
■ Minimaler Support
■ Minimale Konfidenz
■ Minimaler Liftfaktor
■ Maximale Anzahl führender Positionen
■ Maximale Anzahl abhängiger Positionen
Der Einfluss dieser Parameter wurde bereits in den vorangegangen Abschnitten ausführlich
dargestellt.
1
- 71 -
Nach der Aktivierung des konfigurierten Modells kann dieses in einem Analyseprozess
verwendet werden.
Abbildung 49: Assoziationsanalyse – Analyseprozess
Je nach Datenbestand und Konfiguration des Modells, können eine unüberschaubare Anzahl
an Assoziationsregeln generiert werden. Zur Unterstützung der Auswertung der Ergebnisse
wird ein Filter angeboten (siehe Abbildung 50), der die Menge der Regeln entsprechend den
vorgenommenen Einstellungen eingrenzt.
Abbildung 50: Assoziationsanalyse - Filtern der Ergebnisse
Für die Anzeige der Ergebnisse1 der Assoziationsanalyse stehen verschiedene Möglichkeiten
zur Auswahl. So werden die gefunden Assoziationsregeln zunächst alphabetisch sortiert
dargestellt (Gittersicht siehe Abbildung 51). Mit Hilfe der Angaben bezüglich Support,
Konfidenz und Lift können die Regeln beurteilt werden.
1
- 72 -
ggf. müssen die SAP Hinweise 1085264 und 999344 installiert werden (weiterführende
Informationen siehe Abschnitt 7.1 Erläuterungen zu den Hinweisen)
Abbildung 51: Assoziationsanalyse – Anzeige der Assoziationsregeln
In einer alternativen Ansicht werden die Regeln absteigend nach Support, Konfidenz und
Liftfaktor sortiert und dargestellt (Baumsicht siehe Abbildung 52).
Abbildung 52: Assoziationsanalyse – Alternative Anzeige der Regeln
Zusätzlich können die großen Positionskombinationen angezeigt werden (siehe Abbildung
53). In dieser Ansicht werden die Itemets aufsteigend nach ihrer Kardinalität sortiert.
Zusätzlich wird der Support angegeben. Wie zuvor, lässt sich auch hier zwischen der Gitterund der Baumsicht wechseln.
Abbildung 53: Assoziationsanalyse – Anzeige der Itemsets
- 73 -
4.4.4 Bewertung
Die grundlegenden Vor- und Nachteile der Assoziationsanalyse sind in der folgenden
Tabelle dargestellt:
Stärken
Schwächen
Effizienz
Es muss geprüft werden, ob die Ergebnisse korrekt
und nicht trivial oder uninteressant sind
Laufzeit und Performanz
Auswahl der interessanten und starken Regeln bei
großen Regelmengen schwierig
Arbeitet auch mit sehr umfangreichen Datenmengen
Wahl der richtigen Aggregationsebene ist wichtig
Leicht verständliche Ergebnisse
Tabelle 4: Stärken und Schwächen der Assoziationsanalyse
Der im SAP BI 7.0 verwendete Apriori-Algorithmus ist das klassische und am häufigsten
implementierte Verfahren. Auch heute noch ist die Leistungsfähigkeit des Algorithmus in
den meisten Anwendungsfällen ausreichend.
»In einem Praxisproblem mit ca. 1 Mio. Datensätzen hat die Assoziationsanalyse auf einem
aus Hardwaresicht klein dimensionierten SAP NetWeaver 2004s-System mit 4 GB
Hauptspeicher für das Einlesen der Daten ca. drei Minuten benötigt und für die sukzessive
Berechnung der Itemsets und Assoziationsregeln ca. fünf Sekunden. Diese kurze Laufzeit
zeigt sowohl die Effizienz des Verfahrens selbst als auch die Implementierung in SAP
NetWeaver 2004s.«1
Dennoch gibt es eine Vielzahl an weiterentwickelten Algorithmen, die zumeist jedoch auf
dem klassischen Apriori-Algorithmus basieren und versuchen, die Datenbankscans zu
minimieren (AprioriTid, AprioriHybrid, Parition, Dynamic Itemset Countin, Direct Hashing
and Pruning u.a.)2. Der aktuell wohl beste Algorithmus zur Berechnung von
Assoziationsregeln ist der FPGrowth-Algorihtmus3, der einen vollkommen anderen Ansatz
wählt und dadurch nochmals wesentlich schneller arbeitet.
Zusätzlich gibt es verschiedene Erweiterungen4 der normalen Assoziationsverfahren.
Beispielsweise können mit Hilfe von Sequenzanalysen Zeiträume, und nicht wie bisher
Zeitpunkte, betrachtet werden. Ein weiteres Beispiel sind quantitative Assoziationsregeln,
die Aussagen ermöglichen, wie z.B. „Kunden, die 4 Hosen kaufen, erwerben mit einer
Wahrscheinlichkeit von 70% auch 2 Gürtel“.
Insgesamt besitzt die Assoziationsanalyse im SAP BI 7.0 einen guten Reifegrad und kann
daher als stabil und zufriedenstellend bezeichnet werden. Wünschenswert sind jedoch die
zusätzliche Implementierung neuer Algorithmen sowie eine verbesserte Darstellung der
Ergebnisse, um die bedeutenden Regeln besser erkennen und bewerten zu können.
- 74 -
1
[KiVa, 2007] S.221
2
Weiterführende Informationen siehe [Petersohn, 2005] S.101ff
3
ebd. S.120ff
4
ebd. S.126ff
4.5 Entscheidungsbaum
Bereits in den 60er Jahren wurden die ersten Verfahren zur Generierung von
Entscheidungsbäumen entwickelt. Sie werden typischerweise zur Klassifikation von Daten
eingesetzt und lassen sich wie folgt beschreiben:
»[Entscheidungsbäume sind] ein Data-Mining-Werkzeug, das anhand von dazugehörigen
Faktoren zum Entscheidungsprozess, mögliche Ereignisse von vorangegangenen
Entscheidungen klassifiziert. Außerdem können Regeln entwickelt werden, um die
Wahrscheinlichkeit eines zukünftigen Ereignisses vorherzusagen. Diese Regeln werden zum
leichteren Verständnis in einer graphischen Baumstruktur dargestellt.«1
Anhand der Abbildung 54 lassen sich die grundsätzlichen Gedanken
Entscheidungsbaumverfahren, am Beispiel der Kreditvergabe, näher beschreiben.
zum
Abbildung 54: Aufbau eines Entscheidungsbaumes
Der grundsätzliche Gedanke bei der Verwendung des Entscheidungsbaumes ist das
sukzessive Aufteilen (splitting) der Datenmenge zu homogeneren Gruppen bezüglich einer
Klassifikationsvariablen.2 Das Ergebnis ist ein umgedrehter Baum, der sehr leicht abgelesen
und interpretiert werden kann. Je tiefer man sich im dem Baum befindet, desto homogener
sind die Daten, die sich in der gemeinsamen Gruppe befinden. In dem Beispiel für die
Vergabe von Krediten lässt sich mit Hilfe eines solchen Baumes die Kreditwürdigkeit eines
neuen Kunden hervorsagen, z.B. „ein Student der über 21 Jahre alt ist und ein jährliches
Einkommen von mehr als 10.000 €, jedoch schlechte Noten im Studium hat, wird als nicht
kreditwürdig eingestuft.“ Auch alle anderen Fälle lassen sich sehr intuitiv ablesen.
1
[BW380, 2005] S.84
2
[ChaGlu, 2006] S.268
- 75 -
Ein Entscheidungsbaum besteht aus folgenden Elementen (siehe Abbildung 54):
■ Wurzel
Das oberste Element in dem umgedrehten Baum ist die Wurzel. Von dort aus verzweigen
alle weiteren Elemente des Baumes, d.h. alle Daten (oder Objekte) die klassifiziert
werden sollen, können der Wurzel zugeordnet werden.
■ Knoten
Die Knoten enthalten die „gesplitteten“ Teilmengen der Daten und dienen der weiteren
Aufteilung anhand eines Attributs.
■ Kanten
Die Kanten stellen die Ausprägungen des jeweiligen Attributs dar, anhand dessen die
Daten im weiteren Verlauf aufgeteilt werden.
■ Split
Der Begriff Split wird als Synonym für die Aufteilung der Daten in Abhängigkeit von den
gegebenen Attributen und Werten verwendet.
■ Blätter
Die Blätter stellen die unterste Ebene des Baumes dar und enthalten damit die kleinsten,
jedoch homogensten Teilmengen. Die Ausprägung der Blätter wird für die Vorhersage
verwendet.
Um einen Entscheidungsbaum für Vorhersagen verwenden zu können, muss dieser zunächst
generiert werden. Dies geschieht mit Hilfe von historischen Daten, die als Trainingsmenge
bezeichnet werden.1
Die Einsatzgebiete des Entscheidungsbaumes sind sehr vielfältig. Sie können zur Vorhersage
von Kunden- und Kaufverhalten verwendet oder für Kündigungsprävention, Marktsegmentierung, Betrugsanalyse oder die Optimierung von Kampagnen eingesetzt werden.
4.5.1 Beispiele in der Versorgerbranche:
Zur weiterführenden Einleitung in die Möglichkeiten des Entscheidungsbaumes werden im
Folgenden mögliche Beispiele aus der Versorgerindustrie dargestellt.
Mitarbeiterfluktuation
Anhand der Daten von Mitarbeitern, die das Unternehmen verlassen haben, kann ein
Entscheidungsbaum generiert werden. Mit dessen Hilfe können Antworten auf die Fragen
gefunden werden, warum Mitarbeiter kündigen oder wie man die Einstellung,
Mitarbeiterbindung und Vergütung effektiv gestaltet, um erfolgreich zu sein.
1
- 76 -
Weiterführende Informationen siehe Abschnitt 4.5.3 Umsetzung im SAP BI 7.0
Gründe für Kaufentscheidung
Wenn der Versorger weiß, aus welchen Gründen sich seine Kunden für ihn entschieden
haben, kann er sein Produkt- und Tarifangebot weiter anpassen und sich besser von der
Konkurrenz absetzen.
Kundenprofil1
Anhand der örtlichen und persönlichen Merkmale von Kunden, lassen sich Gruppen bilden,
die ähnliches Verhalten und Interessen aufweisen, wodurch die Bedürfnisse der bestehenden
oder potentiell neuen Kunden besser angesprochen werden können.
Kundensegmentierung
Mit dem Entscheidungsbaumverfahren können die Kunden in zuvor unbekannte Gruppen
segmentiert werden. So könnten Gruppen beispielsweise „Umsatzstarker Strom-Kunde mit
sehr guter Zahlungsmoral“ oder „Langjähriger Gas-Kunde mit hohem Kündigungspotential“
genannt werden. Anschließend ist die gezielte Behandlung dieser Kundengruppen möglich,
sei es bei der Werbung, dem Service oder der Pflege der Geschäftsbeziehung.
Kündigungsprävention
Indem die Eigenschaften der Kunden, die gekündigt haben, analysiert werden, können mit
Hilfe eines Entscheidungsbaumes die Kunden herausgearbeitet werden, die ein hohes
Kündigungspotential haben. So können insbesondere die für das Unternehmen wichtigen
Kunden frühzeitig angesprochen und an das Unternehmen gebunden werden.
Kundenprofitabilität2
Anhand der Merkmale, dem Verhalten und dem Verbrauch von Kunden, kann deren
Profitabilität vorhergesagt werden. Dies ist auch schon möglich, bevor der Kunde den
Vertrag abschließt.
Optimierung von Marketingkampagnen3
Mit einem Entscheidungsbaum können die Ergebnisse von Marketingkampagnen in
bestimmten Segmenten vorhergesagt werden (Rücklaufquote). Mit diesen Erkenntnissen
können die Kampagnen in optimierter Form für bestimmte Zielgruppen durchgeführt
werden.
1
[BW380, 2005] S.91
2
ebd.
3
ebd.
- 77 -
Forderungsmanagement
Im Bereich des Forderungsmanagement können Auswertungen zu Zahlungsverhalten,
Zahlungswegen und die Kombination von beidem durchgeführt werden. Beispielsweise
können ähnlich wie bei den bereits genannten Beispielen, die Merkmale der Kunden mit
schlechter oder guter Zahlungsmoral analysiert und vorhergesagt werden. Anschließend wird
versucht, die Kunden mit schlechter Zahlungsmoral auf eine alternative Zahlart (z.B.
Lastschrift) umzustellen, um den Cash-Flow zu optimieren.
Störungsanalyse
Durch die Analyse von Störungen mit Hilfe eines Entscheidungsbaumes können diese schon
vor ihrem wahrscheinlichen Eintreten behoben werden.
Wie aus den Beispielen deutlich wird, sind die Möglichkeiten zum Einsatz eines
Entscheidungsbaumes sehr vielfältig und überschneiden sich auch häufig mit den möglichen
Einsatzgebieten anderer Data-Mining-Verfahren. Die Schwierigkeit, und damit die Kunst,
liegt in der Auswahl und der Konfiguration des richtigen Verfahrens, um optimale
Ergebnisse zu erzielen.
Die Berechnung des Entscheidungsbaumes erfolgt top-down. Bei dem umgedrehten Baum
bedeutet dies, dass die Generierung mit der Wurzel startet und dann sukzessive durch
Aufteilung der Daten (Split) erweitert wird.1 Um jedoch berechnen zu können, welcher Split
mit welchem Attribut die größtmögliche Zerlegung bietet, werden die Kennzahlen Entropie
und Informationsgewinn verwendet, die im Folgenden näher erläutert werden.2
Entropie
Mit Hilfe der Entropie kann die Reinheit der Zerlegung berechnet werden.
k
E(T)
pi log 2 p i , E(T) [0,1]
i 1
mit T = Menge der Trainingsdaten,
T1,T2,...,Tm = disjunkte Zerlegung von T in m Teilmengen
pi = relative Häufigkeit der Klasse i in Ti
Formel 15: Entropie
Der Wert der Entropie liegt im Intervall zwischen 0 und 1. Der Wert 0 ergibt sich bei pi = 1.
Man spricht dann von einer reinen Zerlegung, da sich alle Attribute mit dem gleichen
Attributwert, zu 100% einer Klasse zuordnen lassen. Dies ist beispielsweise der Fall, wenn
- 78 -
1
Weiterführende Informationen siehe Abschnitt 4.5.3 Umsetzung im SAP BI 7.0
2
bei der Zerlegung anhand des Attributs Studiumsnote alle Studenten mit guten Noten als
kreditwürdig und alle mit schlechten Noten als kreditunwürdig eingestuft werden.
Der Wert 1 ergibt sich bei pi = 0,5. Dies ist entsprechend dann der Fall, wenn sich ein
Attribut im Verhältnis 50:50 auf zwei Klassen aufteilt.
Informationsgewinn
Aufbauend auf die Entropie kann der Informationsgewinn berechnet werden, um mehrere
Splits miteinander zu vergleichen.
m
I(T, A)
E(T)
i
| Ti |
E(Ti )
1 |T|
mit T = Menge der Trainingsdaten,
T1,T2,...,Tm = disjunkte Zerlegung von T in m Teilmengen
A = Attribut, das für den Split verwendet wird
Formel 16: Informationsgewinn
Dabei wird zusätzlich das Verhältnis zwischen Teilmenge und Ausgangsmenge in die
Berechnung mit einbezogen. Je größer die Teilmenge ist, umso stärker ist der Einfluss der
Entropie auf die Kennzahl Informationsgewinn.
Ein Beispiel für den Vergleich von Splits zur Auswahl der Attribute wird im späteren
Verlauf des folgenden Abschnitts dargestellt.
Ablauf des Entscheidungsbaumes
Das Data-Mining mit Entscheidungsbäumen wird in drei, durch die sogenannte
Windowtechnik1 optimierte Phasen unterteilt.2
■ Phase 1: Training
Zunächst wird eine Teilmenge (z.B. 15%) aus den vorhandenen Daten ausgewählt. Mit
Hilfe dieser Teilmenge, dem sogenannten Trainingsset, wird ein Baum generiert, der die
Muster in den historischen Daten möglichst gut abbildet.
■ Phase 2: Bewertung (optional)
Die übrigen Daten, die nicht in dem Trainingsset enthalten sind, werden als sogenanntes
Generalisierungsset für die Bewertung des erzeugten Baumes verwendet. So kann die
Genauigkeit des Baumes berechnet werden, da Daten verwendet werden, bei denen das
Ergebnis bekannt ist. Nur wenn alle Daten korrekt klassifiziert wurden, endet die
Bewertung und der Baum wird als endgültig angesehen. Andernfalls werden die als falsch
eingestuften Daten zusätzlich in das Trainingsset aufgenommen und daraus ein neuer,
1
[Jafar-Shaghaghi, 1994] S.111
2
[Petersohn, 2005] S.137, [BW380, 2005] S.87
- 79 -
verbesserter Baum generiert. Diese Schritte werden so oft wiederholt, bis der Baum
vollständig korrekt ist oder eine definierte Genauigkeit besitzt.
Diese zweite Phase der Bewertung wird vielfach auch als optional angesehen und muss
nicht zwingend durchgeführt werden, denn es kann je nach Datenbestand auch sinnvoll
sein diesen Schritt zu überspringen.1
■ Phase 3: Vorhersage
Nachdem der Baum generiert und als ausreichend bewertet wurde, können Vorhersagen
erzeugt werden. Aufgrund der Attribute des Datensatzes wird der Baum durchlaufen und
schließlich das vorherzusagende Feld befüllt.
In Abbildung 55 sind die beschriebenen Phasen noch einmal dargestellt:
Abbildung 55: Entscheidungsbaum-Phasen
Die Konstruktion des Entscheidungsbaumes erfolgt top-down, beginnend mit der Wurzel.
Dabei wird der Baum sukzessive anhand der Attribute aufgespannt, bis eine definierte
Blattebene erreicht ist. Welche Attribute in welcher Reihenfolge verwendet werden, und
welches Attribut die Wurzel bildet, wird mit Hilfe des Informationsgewinns2 berechnet.
In Abbildung 56 wird beispielhaft das
Entscheidungsbaumes, berechnet und bewertet.
- 80 -
erste
Split,
also
die
Wurzel
1
Weiterführende Informationen siehe Abschnitt 4.5.3 Konfiguration des Entscheidungsbaumes
2
Siehe Formel 15: Entropie und Formel 16: Informationsgewinn
eines
Abbildung 56: Berechnung des (ersten) Split im Entscheidungsbaum
1
Wie aus der Darstellung deutlich wird, werden zunächst die Entropiewerte berechnet, zum
Einen für den nächsthöheren Knoten (in diesem Fall die Wurzel), zum Anderen für alle
Ausprägungen der zur Verfügung stehenden Attribute. Mit Hilfe dieser Entropiewerte kann
anschließend der Informationsgewinn jedes Attributs errechnet werden. Der Vergleich zeigt,
dass das Attribut Alter bzw. dessen Split den höchsten Informationsgewinn besitzt, wodurch
Alter als Wurzel verwendet wird. Im Folgeschritt beginnt die oben dargestellte Berechnung
für die neuen Teilmengen von vorne, wodurch der Baum schrittweise erweitert wird.
1
- 81 -
Das Erzeugen von Entscheidungsbäumen ist jedoch nicht immer problemlos. Ein
Entscheidungsbaum kann auch übertrainiert (oder überspezialisiert) werden, man spricht
dann vom sogenannten Overfitting. Das bedeutet, dass der Baum zwar eine Genauigkeit von
100% bezüglich der Trainingsdaten, jedoch nicht bezüglich der gesamten Daten besitzt. Dies
kann dadurch entstehen, dass die Trainingsdaten nicht korrekt ausgewählt wurden, d.h. sie
sind in ihren Eigenschaften nicht repräsentativ für die Gesamtmenge oder enthalten ein
Rauschen1.
Durch das sogenannte Pruning kann das Overfitting des Entscheidungsbaumes verhindert
werden. Dabei gibt es drei Möglichkeiten2:
■ Pruning vor der Entwicklung des Baumes
Durch eine genaue Auswahl der Daten, die für das Training vorgesehen sind, können
diejenigen Daten aussortiert werden, die ggf. zu Overfitting führen können.
■ Pruning während der Entwicklung des Baumes
Indem die Generierung des Baumes nicht erst bei einer Genauigkeit von 100%
abgebrochen wird, sondern beispielsweise schon bei der Quote von 95%, kann das
Übertrainieren des Baumes vermieden werden.
■ Pruning nach der Entwicklung des Baumes
Nachdem der Baum vollständig erzeugt wurde, ist eine Beschneidung von Teilen des
Baumes möglich, indem einige Äste „zurückgeschnitten“ werden. Dadurch werden
unnötige Kanten, Knoten und Blätter entfernt und der Baum möglichst klein gehalten.
Konfiguration des Entscheidungsbaumes
Nachdem das Modell angelegt wurde, folgt die Konfiguration, die nach dem gleichem
Prinzip aufgebaut ist, wie bisher beschrieben.
Abbildung 57: Entscheidungsbaum – Feldkonfiguration
- 82 -
1
Das Rauschen beschreibt Fehler in Daten. Weiterführende Informationen siehe Abschnitt 14 Glossar
2
[Petersohn, 2005] S.138
Auf der Registerkarte Felder werden die Merkmale mit ihrem jeweiligen Wertetyp (stetig,
diskret oder Schlüsselfeld) angegeben. In der Spalte vorhersagbar wird das Feld
gekennzeichnet, das „gelernt“ werden soll und im Entscheidungsbaum die Blätter
repräsentiert.
Die Konfigurationsmöglichkeiten der Spalten Parameter und Werte sind in der folgenden
Abbildung dargestellt:
Abbildung 58: Entscheidungsbaum – erweiterte Konfiguration
Bei stetigen Datenfeldern ermöglicht es die Spalte Werte, mit Hilfe eines Dialogfensters
(links in der Abbildung), stetige Werte zu diskretisieren. So können nach dem bekannten
Prinzip Intervalle erzeugt werden, die die stetigen Werte bei der Modellverarbeitung ersetzen
(z.B. Zuordnung eines 18-jährigen zu dem Intervall 10-20).
Bei diskreten Datenfeldern können definierte Werte ignoriert oder als fehlend deklariert
werden (Abbildung rechts). Bei fehlenden Werten wird der Vorschlagswert verwendet. Ist
kein Vorschlagswert definiert, wird der Wert ignoriert.
Bei der Konfiguration der Datenfelder erlaubt es die Spalte Parameter Nullwerte für die
Verarbeitung zu berücksichtigen. Wird zusätzlich ein Vorschlagswert angegeben, wird dieser
an Stelle des Nullwertes verwendet.
Die Konfigurationsmöglichkeiten der Registerkarte Parameter sind in Abbildung 59
dargestellt. Im Bereich Trainingsprozess kann eine Stichprobe konfiguriert werden, um den
Baum lediglich mit einem Teil der Trainingsdaten zu trainieren.1 Anschließend wird ein
weiterer Teil der Trainingsdaten genutzt und auf den trainierten Baum angewendet. Die
Daten, die nicht korrekt klassifiziert sind, werden der Trainingsmenge beigefügt und der
Prozess beginnt von vorne. Es kann dabei die Größe der Stichprobe für den Einstieg und die
maximale Stichprobe prozentual angegeben werden. Zusätzlich wird über die Anzahl der
Versuche ein weiteres Abbruchkriterium geschaffen, das angibt, nach wie vielen Schritten
die Generierung des Baumes beendet werden soll.
1
Dieser Prozess entspricht Phase 2 in Abbildung 55
- 83 -
Abbildung 59: Entscheidungsbaum – Parameterkonfiguration
Im Bereich Abbruchbedingungen wird das Pruning während der Erstellung des Baumes
konfiguriert. So kann einerseits die Mindestanzahl an (Daten)Sätzen pro Blatt angegeben
werden, die benötigt wird, um diesen Knoten weiter aufzuteilen. Andererseits kann die
Genauigkeit definiert werden, bei der die Generierung des Entscheidungsbaumes endet.
Mit Hilfe des Bereichs erweiterte Einstellungen kann die Relevanz von Modellfeldern
geprüft werden, d.h. es werden alle unwichtigen Modellfelder, bezogen auf den
Informationsgewinn, entfernt. Dadurch kann die Trainingszeit deutlich reduziert werden. Bei
der Verwendung dieser Funktion können wahlweise ein Schwellenwert oder die besten n
Modellfelder (jeweils in Bezug auf den Informationsgewinn) definiert werden.
Zuletzt kann im Bereich Pruning die Beschneidung des Baumes nach seiner Generierung
(Post-Pruning) konfiguriert werden, um den Baum kleiner und genauer zu machen und das
Overfitting zu vermeiden. Beim erweiterten Pruning wird zusätzlich versucht, einen Knoten
durch seinen Nachfolgeknoten zu ersetzen, um so eine höhere Genauigkeit zu erhalten. Es
gilt jedoch zu berücksichtigen, dass insbesondere das erweiterte Pruning bei umfangreichen
Datenmengen sehr zeitintensiv ist und zu einer hohen Laufzeit führen kann.1
Nachdem das Modell konfiguriert und aktiviert wurde, kann es in einem Analyseprozess
verwendet werden (siehe Abbildung 60). Wie bei der Clusteranalyse muss auch der
Entscheidungsbaum zunächst trainiert werden, bevor er für die Prognose verwendet werden
kann. Aus diesem Grund gibt es auch hier den Entscheidungsbaum in der APD-Workbench
als Datenziel (für das Training) und als Transformation (für die Vorhersage).
1
- 84 -
Weiterführende Informationen siehe [BW380, 2005] S.102f
Abbildung 60: Entscheidungsbaum – Analyseprozess
Folgende Möglichkeiten stehen bei der Anzeige und Analyse der Modellergebnisse zur
Verfügung.1
■ Netzplansicht
Wie die folgende Abbildung verdeutlicht, wird der generierte Baum anschaulich
dargestellt. Zu jedem Knoten können zusätzliche Informationen wie die Anzahl der Sätze
oder die entsprechende Regel mit der dazugehörigen Wahrscheinlichkeit abgerufen
werden.
Abbildung 61: Entscheidungsbaum – Ergebnisse in der Netzplansicht
■ Baumsicht
In der Baumsicht werden die Ergebnisse strukturiert (ähnlich einem Verzeichnisbaum) in
Textform dargestellt.
Abbildung 62: Entscheidungsbaum – Ergebnisse in der Baumsicht
1
ggf. muss der Hinweis 862637 installiert werden (weiterführende Informationen siehe Abschnitt 7.1
Erläuterungen zu den Hinweisen)
- 85 -
■ Simulation Vorhersage
Wie bei der Clusteranalyse können mit Hilfe der Vorhersagesimulation Ergebnisse auf
Grundlage von manuell eingegeben Werten ermittelt werden.
Abbildung 63: Entscheidungsbaum – Vorhersagesimulation
4.5.4 Bewertung
In der folgenden Tabelle werden zunächst die grundlegenden Vor- und Nachteile des
Entscheidungsbaumes als Data-Mining-Verfahren betrachtet:
Stärken
Schwächen
Leistungsfähigkeit
Können groß, komplex und dadurch unübersichtlich
werden (kann durch Pruning und andere
Parametereinstellungen verhindert werden)
Intuitive visuelle Darstellung und dadurch sehr gut ablesbar
und interpretierbar
Tabelle 5: Stärken und Schwächen des Entscheidungsbaumes
Zusammenfassend bleibt festzuhalten, dass der Entscheidungsbaum ein wichtiges und sehr
leistungsfähiges Instrument zur Klassifizierung von Daten ist und aufgrund seiner einfachen
und verständlichen Ergebnisdarstellung vielfach eingesetzt wird.
Im SAP BI 7.0 wurde der Entscheidungsbaum sinnvoll und stabil umgesetzt und kann durch
eine Vielzahl an Parametern konfiguriert und optimiert werden. Wünschenswert wären
weitere, zusätzliche Algorithmen zur Generierung des Baumes sowie zum Pruning. 1
1
- 86 -
Weiterführende Informationen siehe [Petersohn, 2005] S.139ff, S.148ff
4.6 Regressionsanalyse
Bei der Regressionsanalyse wird davon ausgegangen, dass es Zusammenhänge und
Abhängigkeiten zwischen Daten gibt. Diese können linear oder nicht linear sein. Eine erste
Beschreibung liefert die folgende Definition:
»Ein Regressionsmodell ist ein Modell, mit dem eine abhängige, stetige Variable durch
mehrere unabhängige Variablen erklärt wird.«1
Wenn beispielsweise ein Händler einen kausalen Zusammenhang zwischen Umsatz und
Preis erkannt hat, kann er die vorhandenen Verkaufsdaten mit den jeweiligen Preisen mit
Hilfe einer Regressionsanalyse erfassen, um so vorhersagen zu können, wie sich eine
Preisänderung auf den Umsatz auswirkt.
Abbildung 64: lineare und nicht lineare Regressionsanalyse
Grundsätzlich kann zwischen einer linearen und einer nicht linearen Regressionsanalyse
unterschieden werden (siehe Abbildung 64). Die lineare Analyse ist sehr einfach und kann
schnell berechnet werden, jedoch geht dies ggf. zu Lasten der Ergebnisqualität, da immer
von einem linearen Verlauf ausgegangen wird. Die nicht lineare Regressionsanalyse ist
komplexer, liefert dafür allerdings genauere Ergebnisse.
Leider ist die nicht lineare Regression im SAP BI 7.0 derart instabil implementiert, dass sie
nicht sinnvoll eingesetzt werden kann, solange SAP keine Aktualisierung oder
Fehlerkorrektur anbietet. Aus diesem Grund wird die nicht lineare Regression im weiteren
Verlauf nicht näher betrachtet. Oftmals ist es jedoch möglich, eine nicht lineare
Regressionsanalyse mittels einfacher Transformationen in eine lineare Regressionsanalyse
zu überführen.2
Aus den bisherigen Ausführungen wird die Ähnlichkeit zwischen der Regressionsanalyse
und anderen Klassifikationsverfahren, wie z.B. dem Entscheidungsbaum, deutlich. Der
größte Unterschied liegt darin, dass die Regressionsanalyse (im Gegensatz zum
Entscheidungsbaum) die Vorhersage von stetigen Variablen zum Ziel hat.
1
[Fahrmeir et al., 1996] S.93ff
2
Weiterführende Informationen siehe [KiVa, 2007] S.244, S.251f
- 87 -
Bei der Regressionsanalyse gilt es immer zu berücksichtigen, dass die Ergebnisse statistische
und nicht kausale Zusammenhänge wiedergeben. Während man demnach davon ausgehen
kann, dass beispielsweise mit steigender Außentemperatur der Gasverbrauch sinkt, gibt es
keinen offensichtlichen kausalen Zusammenhang zwischen der Anzahl an Verkehrstoten und
dem Umsatz von Kaffeemaschinen, auch wenn sich dies mit Hilfe der Regressionsanalyse so
darstellen ließe. Die Auswahl der Variablen und Merkmale sowie die richtige Interpretation
sind demnach entscheidend für den erfolgreichen Einsatz dieser Technik.
Die Einsatzgebiete der Regressionsanalyse sind vielfältig. Im Folgenden werden einige
Beispiele für die Versorgerbranche genannt, in denen der Einsatz der Regressionsanalyse
sinnvoll erscheint.
Kennzahlenanalyse
Mit Hilfe der Regressionsanalyse kann der Einfluss verschiedener Merkmale auf den Umsatz
oder auf andere Kennzahlen (z.B. Gewinn oder Verbrauch) ermittelt werden. So kann
beispielsweise der Umsatz in Abhängigkeit von der Größe der Familie und dem
durchschnittlichen Alter analysiert und anschließend für neue Kunden vorhergesagt werden.
Umsatzänderung bei Preisänderung
Die Regressionsanalyse kann den Anwender ebenso bei der Preisfindung unterstützen, indem
berechnet wird, wie sich eine Preisänderung auf den Umsatz auswirkt.
Erfolg von Werbemaßnahmen
Bei der Analyse der Korrelation zwischen Werbemaßnahmen und Umsatz kann der Erfolg
bestimmter Kampagnen in definierten Segmenten und Regionen festgestellt und damit auch
vorhergesagt werden.
Viele weitere Beispiele sind auf Grundlage des beschriebenen Prinzips vorstellbar.
4.6.2 Mathematische Grundlagen1
Abhängige und unabhängige Variablen
Im Zusammenhang mit der Regressionsanalyse wird von sogenannten abhängigen und
unabhängigen Variablen gesprochen. Bei den unabhängigen Variablen handelt es sich um
Variablen, die jeden beliebigen Wert annehmen können. Die abhängige Variable ist eine
Variable, die von den Werten der unabhängigen Variablen abhängt. Wenn z.B. der Umsatz
in Abhängigkeit vom Preis betrachtet werden soll, handelt es bei dem Umsatz um die
abhängige Variable und bei dem Preis um die unabhängige Variable.
1
- 88 -
Regressionsgerade
Die abhängige Variable und damit die Regressionsgerade lässt sich in einem ersten Schritt
wie folgt als Funktion beschreiben:
ŷ a bx , mit
ŷ = Schätzung der abhängigen Variablen,
a = Schnittpunkt der Geraden mit der y-Achse,
b = Steigung,
x = unabhängige Variable
Formel 17: Funktion zur Schätzung der abhängigen Variablen
Um die ideale Regressionsgerade und a und b korrekt bestimmen zu können, sollte die
Summe aller y-Abstände der Messpunkte zur Geraden minimal sein (die Berechnung erfolgt
mit Hilfe der Methode der kleinsten Quadrate1).
n
(yi
(a bx i )) 2
min! , mit
i 1
yi = i-ter Wert der abhängigen Variablen,
x i = i-ter Wert der unabhängigen Variablen
Formel 18: Zielfunktion zur Bestimmung von a und b
Durch die Quadrierung bekommen größere Abstände zur Geraden eine höhere Gewichtung
und negative Abstände werden ausgeschlossen bzw. fließen als positiver Abstand in die
Berechnung ein.
Kennzahl R
Mit Hilfe der Kennzahl R (Bestimmtheitsmaß oder Determinationskoeffizient) kann im SAP
BI 7.0 die Güte einer Regressionsanalyse bestimmt werden.
R2 1
(yi
yˆ i ) 2
(yi
y) 2
i
, mit
i
ŷi = Schätzung der abhängigen Variable,
y = arithmetisches Mittel aller abhängigen Variablen yi ,
(yi yˆ i ) = nicht erklärte Abweichung,
(yi
y) = Gesamtabweichung
Formel 19: Bestimmtheitsmaß R
Zum besseren Verständnis der Zerlegung der Abweichungen, die als Grundlage für die
Berechnung der Kennzahl R verwendet wird, dient Abbildung 65.
1
Weiterführende Informationen siehe [Sachs, 1992] S.129, 502f, 560f
- 89 -
Abbildung 65: Zerlegung der Gesamtabweichung
1
Mit Hilfe der Kennzahl R wird demnach die Summe aller nicht erklärten Abweichungen ins
Verhältnis zu allen Gesamtabweichungen gebracht, um so mit Hilfe der Bezugsgröße des
arithmetischen Mittels aller abhängigen Variablen beurteilen zu können, ob die
Regressionsgerade eine hohe Aussagekraft besitzt.2
Kennzahl I
Im SAP BI 7.0 wurde eine zweite Kennzahl zur Bewertung der Güte der Regression
implementiert. Sie ist wie folgt definiert:
| yi
yˆ i |
i
I 1
| yi | | yˆ i |
, mit
i
yi = i-ter Wert der abhängigen Variablen,
ŷi = Schätzung der abhängigen Variable,
yi yˆ i = nicht erklärte Abweichung
Formel 20: Kennzahl I
Es lässt sich jedoch nicht erkennen, was der Sinn dieser Kennzahl sein soll. Im Gegensatz
zum Bestimmtheitsmaß (Kennzahl R) ändert sich der Wert dieser Kennzahl in Abhängigkeit
von der Position der Geraden mit ihren Messpunkten im Achsensystem. Das bedeutet, dass
der Wert der Güte besser wird, wenn sich die Regressionsgerade im höheren Wertebereich
- 90 -
1
2
Weiterführende Informationen siehe [Sachs, 1992] S.497f
des Achsensystems befindet, selbst wenn die Abstände zu den Messpunkten sowie die
Steigung der Geraden gleich bleibt. Somit ist ein objektiver Vergleich und damit eine
Bewertung der Güte der Regression mit dieser Kennzahl nicht möglich. Aus diesem Grund
wird von der Verwendung dieser Kennzahl bei der Analyse der Ergebnisse und der
Optimierung des Modells abgeraten.
Ablauf der Regressionsanalyse
Ähnlich wie bei einigen der bereits vorgestellten Data-Mining-Techniken, muss das
Regressionsmodell zunächst trainiert werden, um Vorhersagen machen zu können. Dieses
Training erfolgt erneut mit ausgewählten historischen Daten.
In der Praxis wird zudem häufig mehr als eine unabhängige Variable verwendet, um die
Regressionsanalyse durchzuführen. Dabei handelt es sich vielfach um Variablen mit
diskreten Werten, z.B. Altersklassen, Bundesland, Stadt, Familienstand usw., anhand derer
die abhängige Variable (z.B. Umsatz) bestimmt werden soll. Man spricht in diesem
Zusammenhang von der sogenannten multiplen Regression.
Der Ablauf der Regressionsanalyse verändert sich dadurch jedoch nur dahingehend, dass für
jeden Wert der diskreten Variablen eine Regressionsanalyse mit den restlichen stetigen,
unabhängigen Variablen durchgeführt wird. Aus diesem Grund ist es im SAP BI 7.0 auch
zwingend notwendig, mindestens eine stetige unabhängige Variable zu definieren.1
Abbildung 66 veranschaulicht den Sachverhalt der multiplen Regression.
Abbildung 66: multiple Regression mit diskreten Variablen
2
In dem dargestellten Beispiel wird für jede Altersklasse eine Regressionsanalyse mit der
unabhängigen Variable Einkommen und der abhängigen Variable Umsatz durchgeführt.
1
[KiVa, 2007] S.251
2
ebd.
- 91 -
Konfiguration der Regressionsanalyse
Nachdem ein Modell für die Regressionsanalyse angelegt wurde, kann auf der Registerkarte
Felder die Struktur der Eingangsdaten festgelegt werden.
Abbildung 67: Regressionsanalyse – Feldkonfiguration
Zusätzlich wird, wie bereits bekannt, der Wertetyp angegeben (stetig, diskret, Schlüsselfeld).
Auch das Feld zur Vorhersage (also das Feld der unabhängigen Variablen) wird kenntlich
gemacht.
Die Konfiguration der einzelnen Felder über die Spalte Parameter ermöglicht das
Einschränken von Werten, die Behandlung von Ausreißern und die Behandlung von
fehlenden Werten. Die angebotenen Möglichkeiten zur Konfiguration entsprechen dabei
genau denen der Scoring-Analyse, die bereits ausführlich beschrieben wurde.1
Abbildung 68: Regressionsanalyse – erweiterte Feldkonfiguration
Mit Hilfe der Registerkarte Parameter werden die Einstellungen des gesamten Modells
vorgenommen.
1
- 92 -
Siehe Abschnitt 4.3.3 Umsetzung im SAP BI 7.0
Abbildung 69: Regressionsanalyse – Parameterkonfiguration
Zum Einen wird an dieser Stelle der Funktionstyp definiert (lineare oder nicht lineare
Regression). Zum Anderen kann eine Mindestanzahl an Datensätzen angegeben werden, die
erreicht werden muss, damit eine bestimmte Ausprägung einer diskreten Variablen
verwendet wird. Enthält diese Ausprägung (z.B. Familienstand – Single) weniger als die
angegebene Anzahl an Datensätzen, wird sie nicht weiter berücksichtigt.
Zusätzlich kann der Standard-Score festgelegt werden, der bei fehlenden Werten und
Ausreißern verwendet wird. Die Option Standard-Scorewert außerhalb trainierter Domäne
zuweisen arbeitet wie folgt: Wenn sie aktiviert ist, werden alle Datensätze, die nicht im
Bereich der trainierten Funktion liegen, während der Vorhersage mit dem StandardScorewert ausgegeben. Andernfalls wird eine Regression unabhängig von den diskreten
Modellfeldern durchgeführt.1
Nach der Aktivierung des konfigurierten Modells, wird nach dem bekannten Prinzip ein
Analyseprozess erstellt. Dabei ist darauf zu achten, dass für das Training zunächst die
Regressionsanalyse aus dem Bereich der Datenziele verwendet wird (siehe Abbildung 70).
Um Vorhersagen zu machen, bedient man sich anschließend der Regressionsanalyse aus dem
Bereich der Transformationen.
1
Weiterführende Informationen siehe [BW380, 2005] S.193f
- 93 -
Abbildung 70: Regressionsanalyse – Analyseprozess
In der folgenden Abbildung sind die Darstellungen aus den verschiedenen Ansichten der
Ergebnisanzeige zusammengefasst:
Abbildung 71: Regressionsanalyse – Ergebnisse
Neben der allgemeinen Verteilung der Werte und einigen statistischen Zahlen, sind die
Kennzahlen zur Bewertung der Güte1 der Regressionsanalyse grafisch dargestellt. Anhand
dieser Ergebnisse kann beurteilt werden, ob die aktuelle Konfiguration der Regressionsanalyse ausreichend ist oder ob zur Optimierung weitere Einstellungen vorgenommen
werden müssen.
Zusätzlich ist für jeden Wert der diskreten Felder das Ergebnis der Regressionsgeraden
aufgelistet (Schnittpunkt mit der y-Achse und Steigung der Regressionsgeraden).
1
- 94 -
Siehe Abschnitt 4.6.2 Mathematische Grundlagen
4.6.4 Bewertung
Die folgende Übersicht stellt die generellen Vor- und Nachteile der (linearen) Regressionsanalyse kurz dar:
Stärken
Schwächen
weit verbreitet
Erfasst im Falle der linearen Regression nur lineare
Abhängigkeiten
leicht verständliches Prinzip
Großer Einfluss von schlechtem Datenmaterial oder
fehlerhafter Konfiguration auf das Endergebnis
Korrelation zwischen tatsächlichem Ergebnis und
Vorhersage messbar
Einfache, nachvollziehbare Ergebnisse
Tabelle 6: Stärken und Schwächen der Regressionsanalyse
Die Regressionsanalyse ist ein sehr bekanntes Verfahren, das insbesondere im
kaufmännischen Bereich bereits vielfach eingesetzt wird. Im Gegensatz zu den meisten
anderen im SAP BI 7.0 implementierten Verfahren, wurde die Regressionsanalyse bisher
nicht optimal umgesetzt. Sie arbeitet sehr instabil, so dass bei der nicht linearen Regression
nach aktuellem Stand sogar von der Anwendung abgeraten werden muss. Hier besteht
konkreter Nachholbedarf seitens SAP. Auch die Darstellung der Ergebnisse könnte weiter
optimiert werden, insbesondere in Bezug auf die Bewertung der Güte der Regression, um so
noch einfacher feststellen zu können, ob das trainierte Modell für die Vorhersage
ausreichend ist.
Trotz der vielen Mängel und Kinderkrankheiten lassen sich einfache, lineare Regressionsanalysen gut und performant durchführen.
- 95 -
4.7 Kombination verschiedener Verfahren
Wie die bisherigen Ausführungen zu den verschiedenen Data-Mining-Verfahren im SAP BI
7.0 gezeigt haben, gibt es eine Vielzahl an Beispielen und Einsatzgebieten, in denen die
jeweilige Data-Mining-Technik sinnvoll und effizient eingesetzt werden kann.
In der Praxis werden die verschiedenen Problemstellungen jedoch häufig durch die
Kombination der verschiedenen Verfahren gelöst. Oftmals werden deshalb bestimmte
Verfahren für die Vorbereitung der Daten oder für vorgelagerte Analysen verwendet, die
wiederum als Grundlage und Eingangsdaten für weiterführende Data-Mining-Modelle
eingesetzt werden. So sind nicht nur Ergebnisse und Analysen möglich, die wesentlich
spezifischer, detaillierter und genauer sind, sondern es werden in vielfacher Hinsicht
vollkommen neue Informationen geschaffen, die durch den Einsatz einer einzelnen DataMining-Technik so allein nicht hervorgebracht werden können.
Im Folgenden werden Beispiele und Einsatzgebiete erläutert, die durch den sukzessiven
Einsatz verschiedener Data-Mining-Verfahren möglich sind. Wie auch schon bei den
Beispielen der jeweiligen Verfahren, soll dieser Überblick nur einen ersten Eindruck
verschaffen und hat aufgrund der vielen Möglichkeiten keinen Anspruch auf Vollständigkeit.
Forderungsmanagement
Für ein Versorgungsunternehmen könnten beispielsweise folgende Fragen aus dem Bereich
des Forderungsmanagement interessant sein:
■ Welche Kunden sind potentiell zahlungsunwillig?
■ Besteht ein Zusammenhang zwischen Zahlungsbereitschaft, Verbrauch, Zahlweise oder
anderen Faktoren?
■ Welche zahlungsunwilligen Kunden können auf eine sichere Zahlweise (z.B. Lastschrift)
umgestellt werden?
Abbildung 72 veranschaulicht die einzelnen Schritte, die zur Lösung der oben genannten
Problemstellung nötig sind:
Abbildung 72: Gesamtbeispiel – Forderungsmanagement
- 96 -
Zu Beginn werden die Daten einem zuvor trainierten Entscheidungsbaum über die
Zahlungsbereitschaft übergeben. Dieser ermöglicht nicht nur Aussagen über die
Zusammenhänge zwischen verschiedenen Faktoren, die zur mangelnden Zahlungsbereitschaft führen, sondern berechnet in diesem Beispiel auch die prozentuale
Wahrscheinlichkeit, ob die übergebenen Kunden zahlungswillig sind oder nicht. Die
zahlungsunwilligen Kunden werden an einen weiteren, zuvor trainierten Entscheidungsbaum
übergeben, der die Wahrscheinlichkeit berechnet, ob ein Kunde einer alternativen Zahlweise
offen gegenüber steht. So können die Kunden mit einer in der Zukunft potentiell schlechten
Zahlungsmoral gezielt auf eine für das Unternehmen sicherere Zahlweise umgestellt werden.
Erweiterung der Kundenbeziehungen
Ein weiteres Beispiel ist der Ausbau der Kundenbeziehungen. Folgende Fragen stehen dabei
im Vordergrund:
■ Welche Bestandskunden sind an einer zusätzlichen Versorgung (z.B. Gas- oder Wasservertrag zum vorhanden Stromvertrag) potentiell interessiert?
■ Welche Umsatzsteigerungen lassen sich mit diesen potentiellen Interessenten erzielen?
Abbildung 73: Gesamtbeispiel – Erweiterung der Kundenbeziehungen
Im ersten Schritt wird auf Basis der Stamm- und Bewegungsdaten der Kunden eine
Clusteranalyse durchgeführt, die idealerweise im Ergebnis jeweils ein Cluster für jede
Spartenkombination darstellt. Mit Hilfe dieser trainierten Clusteranalyse können die
Wahrscheinlichkeiten berechnet werden, ob ein Kunde zusätzlich an weiteren
Versorgungsleistungen interessiert ist. Mit Hilfe von Regressionsanalysen, die die
Zusammenhänge zwischen den Umsätzen der verschiedenen Sparten darstellen, können die
potentiell zusätzlichen Umsätze bei erfolgreichem Vertragsabschluss berechnet werden.
Kündigungsanalyse der wichtigsten Kunden
Mit Hilfe der folgenden Anwendung könnten die unten aufgeführten Fragestellungen
schrittweise beantwortet werden:
■ Welche sind meine wichtigsten Kunden?
■ Wie hoch ist die Wahrscheinlichkeit bei meinen wichtigsten Kunden, dass sie in einem
definierten Zeitfenster kündigen?
■ Wie hoch sind die Umsatzeinbußen in der Zukunft, die durch die Kündigung (mit einer
Wahrscheinlichkeit von x%) der wichtigsten Kunden entstehen?
- 97 -
Abbildung 74: Gesamtbeispiel – Kündigungsanalyse
Zunächst werden die Umsatzzahlen (oder andere Kennzahlen) des Kunden aus den
verschiedenen Sparten (Strom, Gas, Wasser) in einem Gesamtscorewert des Kunden
verrechnet. Dies geschieht mit Hilfe des Scoring-Verfahrens und individuellen
Gewichtungen. Auf Grundlage des Gesamtwertes wird eine ABC-Analyse durchgeführt, die
die wichtigsten Kunden identifiziert. Anschließend werden alle A-Kunden an den zuvor
trainierten Entscheidungsbaum für die Kündigungswahrscheinlichkeit übergeben. Alle
Kunden mit einer Kündigungswahrscheinlichkeit von z.B. mindestens 75% werden an eine
zuvor trainierte Regressionsanalyse weitergereicht, die auf Grundlage von Vergangenheitswerten den zukünftigen Umsatz der Kunden berechnet. Dieser Umsatz entspricht dann den
Einbußen, die das Unternehmen mit einer Wahrscheinlichkeit von mindestens 75% haben
wird, wenn nicht entsprechende Maßnahmen getroffen werden, um die abwanderungswilligen Kunden weiter an das Unternehmen zu binden.
- 98 -
4.8 Implementierung weiterer Verfahren
Neben den vorgestellten und im SAP BI 7.0 implementierten Verfahren gibt es in der
Theorie (aber auch in der Praxis) viele weitere Data-Mining-Methoden, die in gewissen
Konstellationen und für bestimmte Anforderungen bessere Ergebnisse bei kürzeren
Laufzeiten versprechen. Der faire Vergleich gestaltet sich zwar schwierig1, dennoch gibt es
Erfahrungswerte die zeigen, welche Data-Mining-Anwendungen für gewisse Problemstellungen bevorzugt verwendet werden sollten.
Durchaus interessante Ansätze, die bisher nicht im SAP BI 7.0 berücksichtigt wurden, bieten
die evolutionären Algorithmen mit ihren verschiedenen Varianten, z.B. den genetischen
Algorithmen oder den Mutations-Selektions-Verfahren (mit wiederum verschiedenen
Implementierungen wie Simulated Annealing, Threshold Accepting oder die SintflutMethode) oder die Klasse der neuronalen Netze (z.B. Hopfield-Netz, Multi-LayerPerzeptron oder Self Organizing Maps). Eine detaillierte Betrachtung dieser Data-MiningMethoden kann an dieser Stelle nicht geleistet werden2, jedoch kann es sinnvoll sein, im
SAP BI 7.0 derartige oder andere Verfahren selbst umzusetzen, solange seitens SAP keine
Erweiterung stattfindet.
Je nach Verfahren ist der programmiertechnische Aufwand zur Umsetzung von neuen DataMining-Techniken relativ gering. Lediglich die Implementierung einer geeigneten
Ergebnisdarstellung kann zu einem erhöhten Mehraufwand führen.
Leider ist der APD auf die Eigenprogrammierung von Data-Mining-Verfahren nicht ideal
vorbereitet. Die Integration ist aktuell lediglich über die ABAP-Transformation möglich. Mit
Hilfe dieser Transformation kann ein Funktionsbaustein (der den ABAP-Code des DataMining-Verfahrens enthält) aufgerufen werden, um die Eingangsdaten in die berechneten
Ausgangsdaten zu transformieren und anschließend in einem Datenziel abzulegen. Der APD
kann jedoch ideal dafür genutzt werden, um das neu erstellte Verfahren mit mehreren
Personen intensiv zu testen.
Erste Ansätze zur Implementierung neuer Data-Mining-Verfahren im SAP BI 7.0 mit Hilfe
von ABAP wurden bereits geleistet.3 Dennoch sind nicht nur exaktes Wissen über die
Funktionsweise und den Ablauf des Verfahrens, sondern auch tiefergehende ABAPKenntnisse und Überlegungen zu Laufzeit und Performanz notwendig, um ein Data-MiningVerfahren selbst zu entwickeln und so umzusetzen, dass es zu brauchbaren und korrekten
Ergebnissen führt, die in der Praxis verwendet werden können.
1
Weiterführende Informationen siehe [Nakhaeizadeh, 1998] S.225ff
2
Weiterführende Informationen siehe [Petersohn, 2005] passim, [KiVa, 2007] S.281ff,
[Nakhaeizadeh, 1998] passim sowie die umfangreiche Literatur im Abschnitt 13
3
Weiterführende Informationen siehe [KiVa, 2007] S.281ff, 343ff
- 99 -
5 Fallstudie „Kündigungsprävention“
Die bisherigen Ergebnisse bezüglich des Data Mining im SAP BI 7.0 sollen in der nun
folgenden Fallstudie möglichst praxisnah und anhand realer Daten beispielhaft umgesetzt
werden.
Die Realisierung erfolgt unter weitestgehender Berücksichtigung des CRISP-DMProzessmodells1. Soweit in diesem Beispiel möglich, wird versucht, die einzelnen
Teilschritte des CRISP-Prozesses anzuwenden, ohne jedoch den Umfang dieser Arbeit aus
den Augen zu verlieren. Da es sich um eine praxisnahe Umsetzung, und nicht um ein echtes
Kundenprojekt handelt, werden einige Prozessschritte nicht so detailliert oder gar nicht
behandelt, da die in der Praxis vorkommenden Gegebenheiten an dieser Stelle nicht
vorzufinden sind und auch nicht erfunden werden sollen. So werden Teilschritte, wie z.B.
der Projektplan, die Aufgabenbeschreibung der beteiligten Personen, die Beschreibung
spezifischer Begriffe, die Risikoeinschätzung oder das „Deployment“ ausgelassen oder nur
oberflächlich beschrieben, ohne erneut die Gründe dafür zu nennen.
5.1 Business Understanding
5.1.1 Determine Business Objectives
Die Öffnung der Energiemärkte führte zu einer weitreichenden Veränderung des Marktes.
War früher der lokale Energieanbieter für die Versorgung zuständig, kann der Kunde heute
frei zwischen den Energieversorgungsunternehmen wählen. Kundenorientierung und
Kundenbindung, die zuvor wenig Beachtung fanden, sind stark in den Fokus gerückt. Durch
die steigenden Energiepreise reagieren Kunden zunehmend empfindlich auf Preissteigerungen sowie Preisunterschiede zwischen den verschiedenen Versorgern. Insgesamt ist
die Wechselbereitschaft in den letzten Jahren extrem angestiegen.
Da die Gewinnung von Neukunden in der Regel mit einem höheren Aufwand verbunden ist,
gewinnt die Bindung von bestehenden, jedoch potentiell abwanderungswilligen Kunden
zunehmend an Bedeutung.
Aus der Geschäftsperspektive ist daher die Bindung von (kündigungsgefährdeten) Kunden
als Hauptziel zu nennen, das mit dieser Data-Mining-Fallstudie erreicht werden soll.
Als Erfolgskriterien können die Reduzierung der Kündigungen auf einen definierten
Prozentsatz sowie die Ermittlung von Indikatoren für eine Kündigung genannt werden.
1
- 100 -
Siehe Abschnitt 2.6.1 CRISP-Prozess
5.1.2 Assess Situation
Alle benötigten Begrifflichkeiten aus dem Bereich des Data Mining sowie die verwendeten
Hard- und Softwaresysteme (Quellsysteme und BI-Systeme)1, wurden bereits ausführlich in
den vorangegangenen Abschnitten dieser Arbeit beschrieben.
Außer dem Autor dieser Arbeit sind lediglich die Mitarbeiter aus dem Center BI sowie CRM
und EDM beteiligt, jedoch nur in beratender Form bei IS-U spezifischen Fragestellungen.
Die Beschreibung besonderer Annahmen und Einschränkungen bezüglich der Datenqualität,
der Datengröße, dem Datenzugriff oder den Daten selbst, erfolgt bei Bedarf in den
entsprechenden Teilschritten.
Aus den bereits genannten Gründen wird außerdem auf die Darstellung und Problemlösung
möglicher Risiken oder anderer Eventualitäten verzichtet.
Beispielhaft soll im Folgenden unter Berücksichtigung verschiedener Annahmen der
monetäre Nutzen beschrieben werden:
■ Annahmen
□ Von den vorhandenen 200.000 Kunden werden 10.000 Kunden mit einer erhöhten
Abwanderungswahrscheinlichkeit identifiziert und gezielt mit Hilfe einer
Marketingkampagne angesprochen. Dabei entstehen Kosten in Höhe von 3 € pro
ausgewähltem Kunden.
□ Jeder fünfte dieser Kunden kann weiter an das Unternehmen gebunden werden.
□ Der durchschnittliche Umsatz eines Kunden beträgt 700 € pro Jahr.
■ Nutzen
□ Diese vereinfachten Annahmen führen zu einer
Umsatzsteigerung von 1,37 Mio € pro Jahr.
Auch aus dieser beispielhaften Berechnung wird schnell deutlich, welches (Umsatz-)
Potential in Kunden steckt, die durch einfache und gezielte Maßnahmen von ihrer
Kündigung abgehalten werden können. Die Kosten für die Data-Mining-Umsetzung sind im
Verhältnis zum Nutzen von geringer Bedeutung und auch die Anschaffungskosten entfallen,
da die Data-Mining-Lösung bereits im SAP BI 7.0 integriert ist.
5.1.3 Determine Data Mining Goals
Folgende Ziele dieser Fallstudie aus der Data-Mining-Sicht sind zu nennen:
■ Vorhersage der Kündigungswahrscheinlichkeit eines ausgewählten Kunden.
■ Identifizierung der Indikatoren und Einflüsse, die auf eine Kündigung hinweisen.
Ein mögliches Erfolgskriterium für die Data-Mining-Zielsetzungen ist die Vorhersagegenauigkeit bzw. die prozentuale Angabe der Vorhersagefehler.
1
Siehe Abschnitt 1.4 Eingesetzte Software
- 101 -
5.2 Data Understanding
5.2.1 Collect Initial Data
Für die Datenbeschaffung werden zwei Systeme verwendet. Das erste System stellt eine
Spiegelung eines produktiven R/3-Systems mit IS-U Modul dar. In diesem System können
die vorhandenen Daten auf Tabellenebene betrachtet und mittels Dateiexport extrahiert
werden. Da die benötigten Daten sehr spezifisch sind und nicht mittels Business Content in
das BI 7.0 Testsystem geladen werden können und darüber hinaus das Anlegen eigener,
generischer DataSources im Rahmen der Diplomarbeit nicht zugelassen ist, durchlaufen die
Daten zunächst nicht den normalen ETL-Prozess des Business Warehouse, sondern werden
mittels CSV-Dateien eingebunden und im APD weiter vorbereitet.
Das zweite System ist ein produktives BW 3.5 System, da nur dieses eine vollständig
geladene Verkaufsstatistik enthält, aus der eine Vielzahl an Daten erhoben werden können.
Der Datenexport erfolgt per Query und anschließend erneut mittels CSV-Datei. Die weitere
Verarbeitung findet im APD statt.
Tabelle 7 gibt eine Übersicht über die für dieses Projekt benötigten und vorhandenen Daten.
5.2.2 Describe Data
Im Folgenden werden die nicht eindeutigen Felder aus Tabelle 7 kurz erläutert. Alle anderen
ausgewählten Attribute sind weitestgehend selbsterklärend und bedürfen daher keiner
weiteren Erläuterung.
■ Männlich (beinhaltet ein X wenn Geschäftspartner männlich ist)
■ Weiblich (beinhaltet ein X wenn Geschäftspartner weiblich ist)
■ Geschäftspartnertyp (unterscheidet zwischen Einzelpersonen, Wohngemeinschaften etc.)
■ Mahnzähler (Zählt die Mahnungen zu einem definierten Vorfall)
■ Anzahl Mahnungen (Enthält die Anzahl aller jemals aufgetretenen Mahnungen)
■ Durchschn. Betrag/Menge (Betrag/Menge pro Monat in Bezug auf die Vetragsmonate)
■ Kündigungskennzeichen (Enthält ein J bei Kündigern, und ein N bei aktiven Kunden)
Auf die detaillierte Darstellung der Datentypen, -längen und -formate wird an dieser Stelle
verzichtet. Durch die vielen vorhandenen Konvertierungsroutinen im SAP BI 7.0 sind der
Datentyp und die Formatierung der Daten nicht entscheidend. Lediglich die Länge der
angelegten InfoObjects muss ausreichend sein, um die Quelldaten korrekt aufnehmen zu
können.
- 102 -
Beschreibung
Herkunft
Selektionskriterien
Feldauswahl
Kündiger (identifiziert
über Wechselbelege)
Tabelle
EIDESWTDOC
Wechseltyp = 01 (Lieferantenwechsel)
Geschäftspartner
Wechselsicht = 03 (Alter Lieferant)
Neuer Lieferant
Alter Anbieter = 000092LIEF (spez. STW)
Status = 01 (ok)1
Aktive Kunden
(identifiziert über
aktuelle Veträge)
Kontenfindungsmerkmal = 01 (Tarifkunden)
Tabelle
EVER
Geschäftspartner
Anbieter = 000092LIEF (spez. STW)
fakturierender Anbieter = 000092LIEF
(spez. STW)
Auszugsdatum = 31.12.9999
(nur aktive Verträge)2
Stammdaten zum
Geschäftspartner
Geschäftspartner
Tabelle
BUT000
Geburtsdatum
Weiblich
Männlich
Nationalität
Stammdaten und
Kennzahlen aus der
Verkaufsstatistik
Kalenderjahr = 2005 – 2008
Query auf
vollständige
Geschäftspartner = Mehrfachauswahl über
Verkaufsstatistik 3 Variable
Über die Variable werden alle zuvor
ausgewählten aktiven Kunden und Kündiger
übergeben. So werden die Merkmale und
Kennzahlen direkt den Geschäftspartnern
zugeorndet.
Geschäftspartner
Menge Arbeit
Betrag Gesamt
Abgerechnete
Vertragsmonate
Geschäftspartnertyp
Vorname
Nachname
Region
Regionalstruktur
Ort
Ortsteil
Strasse
Tarif
Angelegt am
Mahnungen
Tabelle
FKKMAKO
Weitere berechnete
Daten
Berechnung im
APD
Sparte = 01 (Strom)
Geschäftspartner
Mahnzähler
Alter
Anzahl Mahnungen
Geschlecht
Kunde seit
Durchschn. Betrag
Durchschn. Menge
Vergleich Betrag
2006/2007
Kündigungskennzeichen
Tabelle 7: Collect Initial Data Report
1
Siehe Anhang 7.3.1 - Abbildung 95, Abbildung 96, Abbildung 97 und Abbildung 98
2
Siehe Anhang 7.3.1 - Abbildung 99 und Abbildung 100
3
Siehe Anhang 7.3.1 - Abbildung 101
- 103 -
5.2.3 Explore Data
Bei einer ersten oberflächlichen Untersuchung der Daten wird deutlich, dass sowohl die
Mengen, als auch die Beträge der meisten Kunden von Jahr zu Jahr ansteigen. Dies ist zwar
bezüglich der Beträge aufgrund der Preisentwicklung in den letzten Jahren nicht weiter
verwunderlich, jedoch bezüglich der Mengen auffällig. Diese erste Besonderheit sollte bei
der Modellierung sowie Auswertung der Ergebnisse ggf. berücksichtigt werden.
Außerdem ist erkennbar, dass die meisten Kündiger zu einem bestimmten neuen Versorger
wechseln. Wie diesbezüglich die Verteilung auf welche Versorger erfolgt, könnte ein
weiteres Ziel sein, das mit Hilfe des Data Mining näher betrachtet werden kann.
Auf weiterführende, detaillierte statistische Auswertungen wird an dieser Stelle verzichtet.
5.2.4 Verify Data Quality
Die Datenqualität ist einer der entscheidenden Faktoren für die erfolgreiche Anwendung
einer Data-Mining-Lösung. In Tabelle 8 sind die wesentlichen Ergebnisse der Qualitätsüberprüfung festgehalten. Felder in denen keinerlei Qualitätsprobleme zu finden sind werden
nicht aufgeführt.
5.3 Data Preparation
5.3.1 Select Data
Ein Großteil der Datenselektion fand, wie bereits beschrieben, in der „Inital Data Collection“
statt, indem bereits an dieser Stelle die zu extrahierenden Daten anhand verschiedener
Selektionskriterien eingeschränkt wurden.
Bei der Überprüfung der Datenqualität wurde festgestellt, dass die Felder Nationalität und
Region aufgrund ihrer Inhalte keine Relevanz und damit keinen Einfluss auf das spätere
Modell besitzen. Darüber hinaus werden die Felder Vorname, Nachname und Strasse nicht
an das Data-Mining-Modell übergeben. Sie dienen lediglich der genauen Identifikation der
Kunden.
Die Selektion der Kunden die gekündigt haben, wurde auf Grundlage der Wechselbelege
durchgeführt. Da die Möglichkeiten des Versorgerwechsels erst ab dem Jahre 2007 intensiv
genutzt wurden, ergibt sich in diesem Zeitraum eine Anzahl von ca. 3000 Wechselbelegen
(eingeschränkt auf die Sparte Strom). Diese werden vollständig für das Data-Mining-Modell
verwendet. Im Gegensatz dazu erfolgte die Auswahl der Kunden, die noch aktiv sind, auf
Basis der aktuellen Verträge. Da die Anzahl der aktiven Verträge deutlich höher liegt, fand
hier eine zufällige Selektion auf Basis von gleichmäßigen Intervallen statt, so dass vor der
Vorbereitung der Daten ähnlich viele aktive Kunden den inaktiven Kunden
gegenüberstanden.
- 104 -
Feld
Problem
Lösung
Tarif
Aus der Verkaufsstatistik werden dem
Geschäftspartner alle Tarife des gewählten
Zeitraums zugeordnet. Im Hinblick auf die
Data-Mining-Zielsetzung ist jedoch immer nur
der letzte gewählte Tarif von Bedeutung.
Unnötige Datensätze der alten Tarife
mit Hilfe der Transformation Filter im
APD entfernen.
Betrag/Menge
Nicht in allen der Jahre 2005-2008 sind
Mengen und Beträge zu einem
Geschäftspartner vorhanden (z.B. wenn
Kunde erst seit 2006 beim Versorger ist)
Konfiguration des Data-Mining-Modells,
so dass Nullwerte nicht berücksichtigt
werden.
Betrag/Menge
Beträge und Mengen beziehen sich auf die
abgerechneten Vertragsmonate und sind so
nicht vergleichbar
Berechnung der durchschnittlichen
Monatswerte in Abhängigkeit von den
abgerechneten Vertragsmonaten mit
Hilfe der Transformation Formel
Betrag/Menge
Negative Beträge und abgerechnete
Vertragsmonate > 20 vorhanden
Aussortieren der kompletten
Datensätze, die das entsprechende
Problem beinhalten, mit Hilfe der
Transformation Filter.
Geburtsdatum
fehlende Einträge
Bei fehlenden Geburtsdaten Einfügen
von 0 im Feld Alter mit Hilfe der
Transformation ABAP-Routine (die zur
Berechnung des Alters verwendet wird).
Geburtsdatum/Alter
Wenn Geburtsdatum vorhanden, dann
überproportional von älteren Kunden.
Bei Verwendung des Merkmals Alter im
Modell, Berücksichtung dieser
Problematik bei der Analyse der
Ergebnisse.
Mahnungen
Mehrere Einträge zu einem Geschäftspartner
vorhanden.
Aggregation auf Geschäftspartnerebene
durch Summation der Mahnzähler
(Transformation Aggregation).
Angelegt am
Keine Kundendaten älter als 4 Jahre
(möglicherweise aufgrund einer Migration
bzw. eines Datenimports)
Berücksichtigung bei der Auswertung
der Ergebnisse.
Nationalität
fehlende Einträge und 95% der vorhandenen
Einträge = DE
Merkmal ist unbedeutend und wird
entfernt.
Geschlecht
Aufteilung in Männlich und Weiblich mit dem
Kennzeichen X unvorteilhaft für das Modell.
Einfügen des Feldes Geschlecht mit
den Ausprägungen W, M und U (für
unbekannt) und Berechnung der Werte
mit Hilfe der Transformation ABAPRoutine.
Dubletten
Identische Datensätze vorhanden
Entfernen von Dubletten mit Hilfe der
Transformation Aggregation (ohne
Aggregationsverhalten)
Kündigungskennzeichen
Nach Zusammenführung von aktiven Kunden
und Kündigern keine Unterscheidung
zwischen den beiden Gruppen mehr möglich.
Einfügen eines Kündigungskennzeichen
(J oder N) vor der Vereinigung der
beiden Gruppen mit Hilfe der
Transformation Formel.
Region
Da sich die vorhandenen Daten auf ein
spezifisches Stadtwerk beziehen, lautet die
Region immer NRW
Merkmal ist unbedeutend und wird
entfernt.
Keine Berücksichtigung der 0 im Modell.
Tabelle 8: Data Quality Report
- 105 -
Schon vor der Modellierung und Durchführung wird deutlich, dass die vorhandenen Daten
ggf. nicht ausreichend sein könnten, um sehr gute Ergebnisse zu erzielen. Die Einbindung
und der Zukauf von externen Daten könnten im weiteren Verlauf als notwendig betrachtet
werden. Durch diese zusätzlichen Daten wäre es zudem möglich, die Datenqualität weiter zu
erhöhen (z.B. in Bezug auf das Geburtsdatum oder die Nationalität). Im Rahmen dieser
Arbeit kann auf derartige Möglichkeiten jedoch nicht zurückgegriffen werden.
5.3.2 Clean, Construct, Integrate, Format Data
Diese eigentlich getrennt voneinander durchgeführten Schritte des CRISP-DM-Prozess
werden, aus Gründen der Übersichtlichkeit und um redundante Beschreibungen und
Erläuterungen zu den Vorgängen zu vermeiden, in einem Analyseprozess zusammen
durchgeführt.
Eine Übersicht über den Analyseprozess zur Bereinigung und Vorbereitung der Daten ist in
Abbildung 75 dargestellt.1 Die einzelnen, nummerierten Schritte werden im Folgenden kurz
erläutert.2
■ Schritt 01
Im ersten Schritt werden die Daten der Geschäftspartner, die gekündigt haben (inkl. aller
Attribute aus der Verkaufsstatistik), dem Analyseprozess zur Verfügung gestellt.
■ Schritt 02
In den Daten befinden sich zu diesem Zeitpunkt noch alle Tarife, die dem Kunden im
Zeitraum 2005-2008 zugeordnet waren. In das Modell soll nur der letzte Tarif (vor der
Kündigung) einbezogen werden. Daher werden in diesem Schritt mit Hilfe der
Transformation Filter die nicht benötigten Einträge entfernt.
■ Schritt 03
Um im späteren Verlauf die Kündiger weiterhin identifizieren und das Modell trainieren
zu können, wird mit Hilfe der Transformation Formel ein neues Feld gekündigt eingefügt,
das für die Kündiger den Wert J enthält.
■ Schritt 04
In diesem Schritt werden die Kennzahlen aus der Verkaufsstatistik (Mengen und Beträge
aus dem Jahr 2005) mit Hilfe der Transformation Verknüpfung durch einen Left-OuterJoin den Geschäftspartnern zugeordnet. Durch den Left-Outer-Join bleiben die Felder
leer, wenn zu einem Geschäftspartner in dem gewählten Jahr keine Kennzahlen
vorhanden sind.
■ Schritt 05-07
Wie in Schritt 4 werden nun alle Kennzahlen aus den Jahren 2006-2008 den
Geschäftspartnern zugeordnet, soweit dies möglich ist.
- 106 -
1
Eine vergrößerte Darstellung befindet sich in Abschnitt 7.3.2 Anhang - Abbildung 102
2
Für detaillierte Informationen zu den einzelnen Transformationstypen und möglichen
Parametereinstellungen siehe [Projektarbeit, 2008] S.34ff, S54ff
Abbildung 75: Kündigungsprävention – Analyseprozess
■ Schritte 08-14
Die Schritte 8 bis 14 entsprechen den Schritten 1 bis 7, mit dem Unterschied, dass nun die
Daten der aktiven Kunden (und nicht der Kündiger) betrachtet und vorbereitet werden.
■ Schritt 15
In diesem Vorgang werden die Kündiger über die Transformation Union mit den aktiven
Kunden zusammengeführt. Dies vereinfacht die nachfolgenden Prozesse, da diese alle
Geschäftspartner betreffen und so zusammen durchgeführt werden können.
■ Schritt 16
Um die Datenqualität zu verbessern, werden in diesem Schritt alle Datensätze mit
negativen Beträgen sowie abgerechneten Vertragsmonaten größer als 20 aussortiert.
■ Schritt 17
Schritt 17 berechnet mit Hilfe der Transformation Formel die monatlichen Werte
bezüglich Betrag und Menge für jedes Jahr auf Grundlage der abgerechneten Vertragsmonate.
■ Schritt 18
Anschließend werden nicht mehr benötigte Felder mit der Transformation Spalten
ausblenden entfernt.
- 107 -
■ Schritt 19
Schritt 19 entfernt die vorhandenen Dubletten. Dies geschieht unter Zuhilfenahme der
Transformation Aggregation. Diese „Zweckentfremdung“ wird möglich, indem kein
Aggregationsverhalten für die Felder ausgewählt wird.
■ Schritt 20
Mit Hilfe einer ABAP-Routine wird die Anzahl der Jahre berechnet, die der Kunde bei
dem Versorger unter Vertrag steht.1
■ Schritt 21
Daraufhin werden die Mahndaten dem Analyseprozess zur Verfügung gestellt und
anschließend die Mahnzähler (die Anzahl der Mahnungen) für jeden Geschäftspartner mit
Hilfe der Transformation Aggregation summiert.
■ Schritt 22
Schritt 22 verknüpft die Mahndaten mit den vorhandenen Geschäftspartnern. Dies
geschieht erneut mittels Left-Outer-Join.
■ Schritt 23
Da in Schritt 23 der Betragsanstieg zwischen den Jahren 2006 und 2007 berechnet
werden soll, werden alle Datensätze mit negativen Beträgen aus 2006 entfernt.
■ Schritt 24
Durch die Transformation Formel wird anschließend der bereits angesprochene
Betragsanstieg berechnet.
■ Schritt 25
Nun werden weitere Attribute der Geschäftspartner (männlich, weiblich) zur Verfügung
gestellt...
■ Schritt 26
... und anschließend mit den vorhandenen Daten verknüpft (Left-Outer-Join).
■ Schritt 27
Der vorletzte Schritt der Datenvorbereitung und -bereinigung ermittelt durch eine ABAPRoutine auf Grundlage des Geburtsdatums das Alter, und auf Basis der Einträge aus den
Feldern männlich/weiblich das Geschlecht.2 Diese neuen Attribute werden in die
zusätzlichen Spalten Alter und Geschlecht aufgenommen.
■ Schritt 28
Abschließend werden die transformierten und bereinigten Daten in ein Datenziel (hier
Flatfile) abgelegt, um sie so, sehr einfach in den nachfolgenden Analyseprozessen
verwenden zu können.
Das Ergebnis dieses Analyseprozesses auf Tabellenebene ist in Abbildung 1033 zu sehen.
- 108 -
1
Siehe Anhang 7.3.2 - Listing 1
2
Siehe Anhang 7.3.2 - Listing 2
3
Siehe Anhang 7.3.2
5.4 Modeling
5.4.1 Select Modeling Technique
Aufgrund der Zielsetzungen dieser Fallstudie bietet sich für die Durchführung im SAP BI
7.0 zunächst der Entscheidungsbaum als Data-Mining-Technik an. Mit dieser Technik kann
vorhergesagt werden, mit welcher Wahrscheinlichkeit ein Geschäftspartner kündigen wird.
Zusätzlich wird die Clusteranalyse angewandt. So können gegebenenfalls zusätzliche
Informationen bezüglich der Indikatoren ermittelt oder die Ergebnisse aus dem
Entscheidungsbaum verifiziert werden.
5.4.2 Generate Test Design
Bei der Anwendung des Entscheidungsbaumes ist es zunächst sinnvoll, die vorhandene
Datenmenge in eine Trainingsmenge und eine Testmenge aufzuteilen. Die Trainingsmenge
wird automatisch mit Hilfe der Stichprobenfunktionalität innerhalb des Data-MiningModells erzeugt. So wird eine definierte Anzahl an prozentualen Stichproben erzeugt (z.B.
40% der Datenmenge). Die beste Stichprobe wird anschließend für das Training des
Entscheidungsbaumes verwendet.
Um das Modell des Entscheidungsbaumes bewerten zu können, wird ein separater
Analyseprozess verwendet (siehe Abbildung 76). Innerhalb dieses Prozesses wird dann die
Testmenge (die alle vorbereiteten Daten umfasst) verwendet und durch den trainierten
Entscheidungsbaum geschickt. Im Analyseprozess wird dabei die Transformation
Entscheidungsbaum verwendet, jedoch im Bewertungsmodus.
Abbildung 76: Kündigungsprävention – Bewertung
- 109 -
Anschließend können anhand einer Bewertungsmatrix der Alpha- und Beta-Fehler sowie die
Gesamtgenauigkeit des Modells analysiert werden, um so eine Einschätzung der Güte des
erzeugten Modells vornehmen zu können. Ein Beispiel einer Bewertungsmatrix ist in
Abbildung 77 dargestellt.
Abbildung 77: Kündigungsprävention – Fehlermatrix
Für die Clusteranalyse werden zunächst alle vorhandenen Datensätze verwendet. Eine
spezifische Aufteilung wie beim Entscheidungsbaum erfolgt nicht.
5.4.3 Build Model
Für den Entscheidungsbaum werden zwei Konfigurationen erstellt, zwischen denen je nach
Zielsetzung und je nach Kontext der Kundenbindungsmaßnahmen gewechselt werden kann.
Bezüglich der Clusteranalyse gibt es eine finale Parameterkonfiguration.
Entscheidungsbaum (1)
In Abbildung 78 ist zunächst die Felddefinition dargestellt. In Bezug auf die Mengen und
Beträge werden nur die Daten aus 2007 verwendet, weil diese für nahezu alle
Geschäftspartner vorhanden sind, da der Großteil der Wechselbelege und damit der
Kündiger aus diesem Jahr stammen. Das Feld Geschäftspartner wird als Schlüsselfeld
konfiguriert. Die übrigen Felder werden in Abhängigkeit von ihren Inhalten als stetig oder
diskret definiert. Das Feld gekündigt stellt das Vorhersagefeld dar.
- 110 -
Abbildung 78: Kündigungsprävention – E-Baumkonfiguration (1)
In der Parameterkonfiguration der einzelnen Felder werden keine Einstellungen
vorgenommen (siehe Abbildung 79), da Nullwerte in allen Feldern nicht berücksichtigt
werden sollen.
Darüber hinaus findet keinerlei Diskretisierung statt. Wie sich bei der Analyse der
Ergebnisse gezeigt hat, verschlechtert eine manuelle Diskretisierung stetiger Werte
grundsätzlich die Qualität dieses Modells. Aus diesem Grund wird die Wertekonfiguration
der einzelnen Felder lediglich dazu verwendet, um einzelne Wertebereiche auszuschließen
oder Ausreißer zu entfernen.
Aufgrund der Berechnung des Alters bei der Vorbereitung der Daten, wurde bei fehlendem
Geburtsdatum eines Geschäftspartners eine 0 im Feld Alter eingetragen. Diese sollen jedoch
nicht in das Modell einfließen und werden durch die entsprechende Konfiguration (siehe
Abbildung 80) bei der Generierung des Entscheidungsbaums ignoriert.
- 111 -
Im Verlauf der Modellierung hat sich zudem gezeigt, dass Ausreißer im Feld Betrag negativ
auf die Qualität des Modells auswirken. Sie werden durch eine entsprechende Konfiguration
(siehe Abbildung 81) ignoriert.
Das Feld Geschlecht besitzt die drei möglichen Ausprägungen M (männlich), W (weiblich)
und U (unbekannt). Alle Werte des Typs U werden ignoriert (siehe Abbildung 82), da sie
keinen Mehrwert für das Modell darstellen.
Die Konfiguration der Gesamtmodellparameter ist in Abbildung 83 dargestellt.
- 112 -
Dabei wurden folgenden Einstellungen vorgenommen:
■ Stichprobe verwenden
Um eine Trainingsmenge automatisch zu erstellen, wird die Stichprobenfunktionalität
verwendet. Dabei wurden ein Mindestanteil von 50% sowie ein Maximalanteil von 60%
der Gesamtdaten definiert. Die Angaben erwiesen sich als zielführend, um bei der relativ
geringen Datenmenge dennoch einen möglichst qualitativ hochwertigen Entscheidungsbaum generieren zu können, und gleichzeitig ein Overfitting1 zu vermeiden.
Die Anzahl der Stichprobenversuche wurde auf 5 festgelegt.
■ Abbruchbedingungen
Bezüglich der Abbruchbedingungen erwies es sich als vorteilhaft, die Mindestanzahl an
Datensätzen pro Blatt auf 10 sowie die Genauigkeit der jeweiligen Ebene auf 95%
festzulegen.
■ Erweiterte Einstellungen
Die Prüfung der Relevanz der Modellfelder wurde nicht verwendet, da die gleichen
Ergebnisse durch das Pruning erzielt wurden.
■ Pruning
In dieser ersten Konfiguration wird das Pruning nicht verwendet.2
Die zweite Konfiguration der Parameter des Entscheidungsbaumes unterscheidet sich von
der ersten ausschließlich in der Verwendung des Pruning (siehe Abbildung 84). Alle
weiteren Parameter und Feldkonfigurationen sind identisch mit der oben beschriebenen
ersten Konfiguration. Die Unterschiede in den Ergebnissen dieser beiden Modellkonfigurationen werden in Abschnitt 5.4.4 näher erläutert.
1
Siehe Abschnitt 4.5.3 Entscheidungsbaum - Umsetzung im SAP BI 7.0
2
Die Auswirkungen werden in Abschnitt 5.4.4 erläutert.
- 113 -
Clusteranalyse
Die Felder in der Clusteranalyse unterscheiden sich zunächst nicht von denen des
Entscheidungsbaumes (siehe Abbildung 85)
Abbildung 85: Kündigungsprävention – Clusterkonfiguration (1)
In der Feldparameterkonfiguration werden keine Einstellungen vorgenommen (siehe
Abbildung 86), da Gruppierungen und Gewichtungen für dieses Fallbeispiel nicht sinnvoll
sind.
Um die Ergebnisse der Clusteranalyse im weiteren Verlauf besser analysieren und
interpretieren zu können, wird in der Wertekonfiguration aller stetigen Felder eine geeignete
Diskretisierung vorgenommen (siehe Abbildung 87). Nicht definierte Bereiche werden
ignoriert. Daher ist eine zusätzliche Konfiguration wie bei dem Entscheidungsbaum, für z.B.
Ausreißer, nicht nötig.
- 114 -
In der Konfiguration der Gesamtmodellparameter wird die Anzahl der Cluster auf 2 gesetzt.
Durch den großen Einfluss des Feldes gekündigt können so zwei Cluster gebildet werden,
die nahezu vollständig aus entweder aktiven Kunden oder Kündigern bestehen. Dies erlaubt
den einfachen Vergleich der Eigenschaften dieser beiden Gruppierungen und vereinfacht
damit die Analyse der Ergebnisse im Hinblick auf die Data-Mining-Zielsetzung.
- 115 -
Die maximale Anzahl an eindeutigen Werten wird auf 50 erhöht, da sonst z.B. die Tarife,
aufgrund der Anzahl an diskreten Ausprägungen, nicht verwendet werden.
Die Anzahl der Iterationen wird auf 10 gesetzt. Bei der kurzen Laufzeit und der nicht allzu
großen Datenmenge, führt dies nicht zu Performance-Einbußen.
Bei allen weiteren Parametern wird die Standardkonfiguration nicht verändert.
5.4.4 Assess Model
Die Qualität bzw. die Genauigkeit der Modelle wird im Falle des Entscheidungsbaumes mit
Hilfe der Fehlermatrix analysiert. Das Clustermodell wird mit Hilfe der Entfernungen und
der Kompaktheit beurteilt.
Im Folgenden werden die Unterschiede zwischen den beiden Konfigurationen des
Entscheidungsbaumes, sowie die generelle Güte und Qualität aller Modelle bewertet und
erläutert.
Die Vorhersagegenauigkeit des Modells für den Entscheidungsbaum liegt bei ca. 73% (siehe
Abbildung 89). Wünschenswert wäre eine Genauigkeit von über 90%, jedoch ist dieser
Wert in dem konkreten Beispiel der Kündigungsprävention, mit den vorhandenen Daten
nicht zu erreichen. Für diese spezielle Fallstudie bedarf es weiterer, insbesondere
„persönlicher“ Daten. Diese zusätzlichen Daten sind im IS-U so nicht zu finden oder nicht
gepflegt. Daher könnte es sinnvoll sein, die Vorhersagegenauigkeit des Modells mit Hilfe
externer (Markt)Daten zu verbessern. So könnten beispielsweise Daten über das
Wohlstandsniveau, Arbeitslosenzahlen, Bildungsniveau, Konsumverhalten usw. von einem
entsprechenden Anbieter erworben und eingebunden werden. Im Rahmen dieser
Diplomarbeit ist dies nicht möglich.
Abbildung 89: Kündigungsprävention – Fehlermatrix 1
- 116 -
Der einzige Unterschied zwischen den beiden Konfigurationen des Entscheidungsbaumes
liegt in der Anwendung des Pruning. Das Ergebnis ist ein vereinfachter Baum, der zwar eine
ähnliche Vorhersagegenauigkeit, jedoch unterschiedliche Alpha- und Beta-Fehler1 besitzt
(siehe Abbildung 90). So führt das Pruning dazu, dass der prozentuale Fehleranteil
bezüglich des Alpha-Fehlers sinkt. Im Gegenzug steigt dafür der Beta-Fehler.
Abbildung 90: Kündigungsprävention – Fehlermatrix 2
Je nach Ausgangslage und weiterem Vorgehen kann es durchaus sinnvoll sein, den AlphaFehler auf Kosten des Beta-Fehlers zu senken. Denn insgesamt kann es in diesem Beispiel
als kritischer angesehen werden, wenn ein Kunde kündigt, obwohl das Gegenteil
prognostiziert wurde, als dass ein Kunde nicht kündigt, obwohl dies so vorausgesagt war.
Zwar führt der erhöhte Beta-Fehler damit zu „sinnlosen“ Ausgaben z.B. bei einer Kampagne
zur Kundenbindung, jedoch sind die Einbußen aufgrund verlorener Kunden deutlich höher
einzuschätzen.
Durch die Variation der Stichprobengrößen lässt sich auf Wunsch die Diskrepanz zwischen
den beiden Fehlerarten bei gleichbleibender Gesamtvorhersagegenauigkeit weiter erhöhen.
Clusteranalyse
Wie Abbildung 91 verdeutlicht, sind die durchschnittlichen Entfernungen innerhalb des
Clusters ausreichend gering. Trotz der maximalen Entfernungen tendiert der Durchschnitt in
Richtung der minimalen Entfernungen. Jedoch wird an dieser Stelle auch deutlich, dass das
Datenmaterial weiter verbessert werden kann (durch z.B. externe Daten), um die
Homogenität der Cluster zu optimieren.
1
Siehe Abschnitt 14 Glossar
- 117 -
Abbildung 91: Kündigungsprävention – Entfernungen
5.5 Evaluation
5.5.1 Evaluate Results
Da bei der ersten Konfiguration des Entscheidungsbaumes kein Pruning durchgeführt wird,
entsteht ein recht großer und unüberschaubarer Entscheidungsbaum. Das Pruning in der
zweiten Konfiguration beschneidet den Baum sinnvoll, so dass ein Modell entsteht, das
wesentlich einfacher analysiert und interpretiert werden kann (siehe Abbildung 92). Wie die
Ergebnisse zeigen, bleibt dabei die Vorhersagegenauigkeit nahezu gleich.
Abbildung 92: Kündigungsprävention – Ergebnisse (Pruning)
Ein Ausschnitt aus dem „geprunten“ Entscheidungsbaum ist in Abbildung 93 zu sehen. Der
Entscheidungsbaum kann bezüglich der Zielsetzungen in zweierlei Hinsicht verwendet
werden: Zum Einen kann für Kunden die Wahrscheinlichkeit für eine Abwanderung
vorhergesagt werden kann. Zum Anderen ermöglicht die Analyse der Splits, die Indikatoren
und Eigenschaften zu erkennen, die zu einer Kündigung führen können.
- 118 -
Abbildung 93: Kündigungsprävention – Ausschnitt Entscheidungsbaum
Um diese Eigenschaften und Frühindikatoren zu bestätigen und zu erweitern, wurde
zusätzlich die Clusteranalyse durchgeführt. Einen Ausschnitt aus den Ergebnissen zeigt
Abbildung 94.
Abbildung 94: Kündigungsprävention – Ausschnitt Clusteranalyse
Die wesentlichen Erkenntnisse und Ergebnisse der Modelle bezüglich der Eigenschaften der
Kunden, die eine höhere Kündigungswahrscheinlichkeit besitzen, werden in Tabelle 9
beschrieben.
Indikator
Beschreibung
Alter
Kunden zwischen 30 und 50 Jahren besitzen die
größte Kündigungswahrscheinlichkeit.
Betrag
Je höher der Betrag, desto
Kündigungswahrscheinlichkeit.
Geschlecht
Männer kündigen deutlich häufiger als Frauen.
Mahnungen
Je höher die Anzahl der Mahnungen, desto
niedriger die Kündigungswahrscheinlichkeit.
Menge
Je höher die verbrauchte Menge, desto höher die
Kündigungswahrscheinlichkeit.
Tarif
Die Tarife haben den größten Einfluss auf die
Kündigungswahrscheinlichkeit. Lediglich beim Tarif
Allg. Haushalt ist eine nähere Untersuchung
notwendig.
höher
die
Tabelle 9: Ergebnisse Kündigungsprävention
- 119 -
Die anderen, nicht genannten Modellfelder besitzen keinen eindeutigen Einfluss auf die
Kündigungswahrscheinlichkeit eines Geschäftspartners, bzw. lassen sich auf Basis des
vorhandenen Datenmaterials nicht endgültig bewerten.
5.5.2 Determine Next Steps
An dieser Stelle gilt es, das weitere Vorgehen zu planen. Die möglichen Folgeschritte sind in
Tabelle 10 beschrieben und im Rahmen der aktuellen Situation (Diplomarbeit) bewertet.
Tätigkeit
Durchführung
Begründung
Externe Daten einbinden und wiederholen
der Prozesse
nein
Einkauf von externen Daten im Rahmen der
Diplomarbeit nicht möglich.
Auf Grundlage der vorhandenen
Kennzahlen und Merkmale können
weitere Daten berechnet und konstruiert
werden, z.B. Preisanstiege zwischen den
verschiedenen Jahren, Inkassoverfahren,
Bonität usw.
nein
Die wichtigsten Kennzahlen und Merkmale
wurden bereits erzeugt und verwendet.
Weitere Fachabteilungen bezüglich
geeigneter Daten befragen und
Wiederholung der Prozesse
nein
Umfang der Diplomarbeit berücksichtigen.
Fallstudie beenden und zum Deployment
übergehen
ja
Ergebnisse im Rahmen der Diplomarbeit
zufriedenstellend und ausreichend, wenngleich
für die Praxis weiter verbesserungswürdig.
Tabelle 10: Kündigungsprävention – Nächste Schritte
5.6 Deployment
5.6.1 Plan Deployment
Die Verwendung der Ergebnisse des Data Mining durch den Endbenutzer kann auf
verschiedene Arten erfolgen. Während die Analyse der Eigenschaften der Kündiger ein
Prozess ist, der nur durch Betrachten und Auswerten der Ergebnisse im SAP BI 7.0 möglich
ist, kann die Auswertung der Kündigungswahrscheinlichkeit eines spezifischen Kunden auch
durch Anwender erfolgen, die keine BW- oder BI-Experten sind und auch keinen Zugriff
zum System oder zum APD besitzen.
Eine mögliche Variante ist dabei die Realisierung eines Web Templates. Mit Hilfe des BEx
Web Application Designers kann ohne Programmierkenntnisse eine Web-Oberfläche
geschaffen werden, die eine Auswertung der Kündigungswahrscheinlichkeit eines Kunden
ermöglicht. Durch das Web Item Simulation Vohersage werden Vorhersageergebnisse (aus
einer Clusteranalyse oder einem Entscheidungsbaum) integriert. Mit weiteren Daten und
Diagrammen angereichert, kann das Web Template zu einem Web Cockpit erweitert
werden. So kann der Anwender nicht nur die Kündigungswahrscheinlichkeit selbst
- 120 -
berechnen, sondern auch weiterführende Informationen integriert und übersichtlich angezeigt
bekommen.1
Eine weitere Möglichkeit ist die Integration der Ergebnisse in die Verkaufsstatistik. Im
Business Content und damit auch in allen produktiven Verkaufsstatistiken ist bereits ein Feld
mit dem Namen Vorhersagefeld vorhanden. Durch einen entsprechenden Upload der
Ergebnisse aller Kunden in die Verkaufsstatistik, können mit Hilfe einer angepassten Query
die entsprechenden Ergebnisse der Kündigungswahrscheinlichkeit ausgegeben werden. Im
Unterschied zur ersten Variante sind die Ergebnisse dann jedoch statisch abgespeichert und
werden nicht dynamisch ermittelt.
In beiden Fällen können mittels Prozessketten und Delta-Verfahren die Aktualität und
Genauigkeit des Modells gewährleistet werden, indem in regelmäßigen Abständen die neuen
oder veränderten Daten aus dem Quellsystem geladen und die Modelle auf dieser Grundlage
neu generiert werden. Bei der Verwendung der Verkaufsstatistik erfolgt dann eine erneute
Bewertung aller Kunden mit anschließendem Upload in die Statistik. Werden Web
Templates verwendet, ist dieser Schritt, wie bereits beschrieben, nicht notwendig, da die
Ergebnisse dynamisch mit Hilfe des trainierten Modells berechnet werden.
Es gibt noch eine Vielzahl weitere Optionen, wie z.B. die Verwendung von Flatfiles oder die
Funktion Simulation Vorhersage in der DM-Workbench. Die naheliegenden Verwendungsmöglichkeiten wurden jedoch bereits beschrieben, weshalb auf weiterführende Erläuterungen
verzichtet wird.
Die Verwendung der Ergebnisse, beispielsweise im Rahmen einer Marketing- oder
Kundenbindungskampagne, wird an dieser Stelle nicht näher behandelt.
5.6.2 Review Project
Insgesamt kommt dieses Fallbeispiel zu einem befriedigenden Ergebnis. Einige interessante
Kündigungsindikatoren konnten erfasst werden und die Berechnung der Kündigungswahrscheinlichkeit wurde realisiert. Dennoch erreicht der Entscheidungsbaum insgesamt bisher
nur eine Genauigkeit von 73%. Wünschenswert wären Werte im Bereich von 90%. Darüber
hinaus wären weitere Erkenntnisse bezüglich der Indikatoren und Einflüsse auf das
Kündigungsverhalten interessant.
Es wurde jedoch schon sehr früh in dem Projekt deutlich, dass das vorhandene Datenmaterial
für diese sehr spezifische und „persönliche“ Data-Mining-Anwendung der Kündigungsanalyse nicht ausreicht, um sehr gute und sehr genaue Ergebnisse erzielen zu können. Um
dieses Fallbeispiel weiter zu entwickeln, bedarf es zusätzlicher Daten, die aus der aktuellen
Einschätzung nur durch Zukauf externer Daten zu beschaffen sind. Durch die Analyse des
vorhandenen Datenmaterials im IS-U während dieses Projekts wurde jedoch auch deutlich,
dass für andere Data-Mining-Anwendungen die Daten durchaus als ausreichend anzusehen
sind.
1
Weiterführende Informationen siehe [BW380, 2005] S.272ff
- 121 -
Für die nächsten Projekte im Bereich des Data Mining sollten außerdem folgende
Erfahrungen aus diesem Projekt berücksichtigt werden:
■ Die Data-Mining-Technik Entscheidungsbaum ist für diese Art der Vorhersagen ideal
geeignet. Die Alternative mittels Clusteranalyse ist jedoch gut, um Ergebnisse zu
verifizieren oder tiefergehende Analyse (z.B. bezüglich Indikatoren und Einflüsse)
durchzuführen.
■ Wenn möglich, sollte das Datenmaterial sehr genau auf Eignung geprüft und ggf. schon
im Vorfeld zusätzliche interne oder externe Daten beschafft werden.
■ Personen aus verschiedenen Fachabteilungen einbinden, da so ggf. Hinweise oder
zusätzliche Daten verwendet werden können, um die Modelle zu optimieren.
■ Veränderungen der Parameter sollten grundsätzlich und in jedem Schritt dokumentiert
werden, da ansonsten schnell der Überblick über die Veränderungen verloren werden
kann.
- 122 -
6 Abschluss
6 Abschluss
6.1 Zusammenfassung
Im Rahmen der Projektarbeit1 wurden im Vorfeld bereits die wichtigen Grundlagen für diese
Diplomarbeit geschaffen. Dabei wurden die Funktionen und Einsatzgebiete des AnalyseProzess-Designers detailliert dargestellt. Aufbauend auf der Projektarbeit stand in dieser
Diplomarbeit das Data-Mining im SAP BI 7.0 unter Zuhilfenahme des APD im Fokus.
In einer kurzen Einführung wurden die wesentlichen Begriffe des Data Mining und
Knowledge Discovery in Databases erläutert sowie eine Einordnung in den Gesamtkomplex
des Business Intelligence vorgenommen. Zusätzlich wurde eine Übersicht über die DataMining-Verfahren erarbeitet und versucht, diese in geeignete Kategorien einzuordnen.
Weiterhin fand eine generelle Abgrenzung zwischen OLAP und Data-Mining statt und es
wurden die Voraussetzungen genannt, die für ein erfolgreiches Data-Mining von
entscheidender Bedeutung sind. Die Einführung wurde anschließend mit einer Darstellung
und Bewertung von verschiedenen Data-Mining-Prozessmodellen abgeschlossen.
Im darauffolgenden Kapitel wurde der Aufbau und die Funktionsweise der Data-MiningWorkbench im SAP BI 7.0 erläutert. Dabei wurden die Unterschiede zwischen der DM- und
der APD-Workbench deutlich, indem nicht nur die grundlegenden Funktionen zum Anlegen
eines Data-Mining-Modells dargestellt, sondern auch alle weiteren Funktionalitäten sowie
die Möglichkeiten der Automatisierung erörtert wurden.
Im Fokus dieser Arbeit standen jedoch die verschiedenen Data-Mining-Verfahren, die im
SAP BI 7.0 implementiert worden sind. So wurden Clusteranalyse, ABC-Analyse, ScoringVerfahren, Assoziationsanalyse, Entscheidungsbaum und Regressionsanalyse im Rahmen
ihrer Implementierung im SAP BI 7.0 ausführlich beschrieben. Dabei wurden zu jedem
Verfahren Anwendungsbeispiele in der Versorgungsindustrie, die wichtigsten
mathematischen Grundlagen sowie die Umsetzung und der Ablauf im SAP BI 7.0
dargestellt. Abschließend wurde jedes Verfahren mit seinen Vor- und Nachteilen bewertet
und mögliche Verbesserungspotentiale aufgezeigt. Zum Ende dieses Kapitels wurden noch
die Kombination von verschiedenen Data-Mining-Techniken sowie die mögliche
Implementierung eigener Verfahren beschrieben.
Abschließend wurde anhand einer Fallstudie mit realen Daten beispielhaft die praktische
Umsetzung unter Berücksichtigung des CRISP-DM-Prozessmodells dargestellt.
1
- 123 -
6 Abschluss
6.2 Fazit
Insgesamt fällt das Fazit über das Data Mining im SAP BI 7.0 positiv aus, wenngleich
weiteres Verbesserungspotential vorhanden ist. So stehen bei einer abschließenden
Gesamtbewertung die stabilen und sinnvollen Implementierungen sowie die (kostenlose)
Integration im Business Warehouse, einigen Kinderkrankheiten und wünschenswerten
Erweiterungen gegenüber.
Einen detaillierten Gesamtüberblick über das Data-Mining im SAP BI 7.0 liefert die
folgende tabellarische Übersicht:
Stärken
Schwächen
Alle wichtigen Data-Mining Techniken vorhanden
einige Kinderkrankheiten (fehlerhafte Darstellung,
Programmabbrüche), die mit Hilfe von Hinweisen
korrigiert werden müssen (je nach Patchlevel des
eingesetzten Systems)
Sinnvolle Implementierung von ausgereiften Data-MiningTechniken
Weitere Verfahren, wie evolutionäre Algorithmen
oder neuronale Netze, und die Auswahl von
alternativen Algorithmen nicht implementiert
Stabiles Arbeiten möglich
Automatisierung
erschwert
durch
fehlende
automatische Rücksetzungsfunktion der Modelle
und schlechte Anbindung an die Prozessketten
Data-Mining als kostenloser Zusatz zum Business
Warehouse
Nicht lineare Regressionsanalyse instabil
Sofort einsatzbereit
In Teilbereichen Ergebnisdarstellung erweiterbar
Kombination von verschiedenen Data-Mining-Techniken
innerhalb eines Prozesses möglich
Anbindung an das SAP Business Warehouse
Verwendung des einheitlichen Metadata-Repository
Einfache Bedienung
Transparente Darstellung
Tabelle 11: Stärken und Schwächen des Data-Mining im SAP BI 7.0
Es bleibt festzuhalten, dass die wichtigsten Verfahren implementiert wurden, so dass mit
Hilfe des Data Mining im SAP BI 7.0 nahezu alle Aufgaben aus den verschiedenen
Anforderungsbereichen gut und effizient gelöst werden können. Vielfach stellt sich nicht die
Frage, ob im SAP BI 7.0 ein geeignetes Verfahren zur Verfügung steht, sondern welches der
implementierten Verfahren für die Lösung verwendet werden sollte. Die Wahl der richtigen
Data-Mining-Technik und die zielführende Konfiguration ist daher mitentscheidend für den
erfolgreichen Einsatz, da viele Problemstellungen auf unterschiedliche Weise gelöst werden
können. Daher ist Data Mining auch keine Anwendung, die „out of the box“ genutzt werden
kann. Vielmehr sind Know-How über die Data-Mining-Verfahren und Domänen-Wissen ein
absolutes Muss. Denn irgendwelche Ergebnisse werden immer generiert. Die Beurteilung, ob
die richtigen Daten ausgewählt wurden, ob die Datenqualität ausreichend ist und
insbesondere, ob die Ergebnisse korrekt, anforderungsbezogen, neu und interessant sind,
kann nur von Personen erfolgen, die sich mit der Thematik des Data Mining auseinander
gesetzt haben. Sind die Modelle jedoch aufgebaut und bewertet, kann das Data Mining in die
verschiedensten Geschäftsprozesse integriert werden, ohne das spezielles Wissen notwendig
ist.
- 124 -
6 Abschluss
Generell empfiehlt sich die Verwendung von Prozessmodellen bei der Durchführung von
Data-Mining-Anwendungen. Auch wenn in der Praxis derartige Vorgehensmodelle generell
eher skeptisch betrachtet werden, sind sie insbesondere bei erstmaliger Durchführung eines
Data-Mining-Projekts sehr hilfreich für den schrittweisen und kontrollierten Ablauf. Der
anfängliche Mehraufwand mündet sehr schnell in einer deutlichen Zeit- und Kostenersparnis,
da die wichtigsten Aspekte bei der Modellierung und Durchführung immer Berücksichtigung
finden. Fehler, deren Beseitigungsaufwand sich im Verlaufe eines Projektes multipliziert,
werden damit von vornherein minimiert.
Das Data Mining im SAP BI 7.0 ist sicher noch nicht so umfangreich und komplex wie bei
anderen auf dem Markt erhältlichen Spezialprogrammen. Dafür besitzen die Unternehmen,
die SAP BI 7.0 einsetzen schon jetzt ein stabiles Tool, das effizientes und gutes Data Mining
ermöglicht, ohne dass zusätzliche Anschaffungskosten entstehen. Die intuitive Bedienung,
die transparente Darstellung von komplexeren Analyseprozessen mit mehreren Data-MiningVerfahren sowie die nahtlose Anbindung an das Business Warehouse, mit allen daraus
resultierenden Funktionen, sind deutliche Vorteile.
Insgesamt sind mit dem Data-Mining im SAP BI 7.0 die ersten Schritte in die richtige
Richtung gemacht worden. Es gibt jedoch auch noch weiteres Verbesserungspotential, so
dass in naher Zukunft mit entsprechenden Erweiterungen zu rechnen ist.
6.3 Ausblick
Diese Diplomarbeit bildet, genau wie die vorausgehende Projektarbeit, in vielfacher Hinsicht
die Grundlage für weiterführende oder ergänzende Arbeiten und Projekte sowie für eine
mögliche Erweiterung des Angebotsportfolios der evu.it GmbH im Bereich Business
Intelligence.
Folgende, auf diese Arbeit aufbauende Themengebiete, die im Rahmen zukünftiger Projektund Diplomarbeiten realisiert werden könnten, sind vorstellbar:
■ Implementierung von Data-Mining-Verfahren
Wie bereits beschrieben, ist die Implementierung anderer Verfahren im SAP BI 7.0 mit
Hilfe von ABAP (Objects) möglich. So könnte eine Eigenprogrammierung spezieller
Data-Mining-Verfahren und -Algorithmen für bestimmte Anforderungen sinnvoll sein,
solange diese seitens SAP noch nicht in das Data Mining integriert worden sind.
■ Programmentwicklung zur Automatisierung von Data-Mining-Vorgängen
Die Automatisierung von wiederkehrenden Aufgaben ist im Bereich des Data Mining
bisher nur unzureichend gelöst. Um die beschriebene Problematik1 im Bereich der
Hintergrundverarbeitung sowie bei den Prozessketten zu entschärfen, wäre eine
Implementierung von z.B. Rahmenprogrammen für APD-Prozesse oder das Zurücksetzen
von Data-Mining-Modellen denkbar.
1
Siehe Abschnitt 3.5 Automatisierungen
- 125 -
6 Abschluss
■ Web Applications für Data Mining
Mit Hilfe der SAP BW Web Templates1 können Vorhersagesimulationen und die
Ergebnisdarstellung verschiedener Data-Mining-Verfahren interaktiv im Browser
durchgeführt werden. So ist die Gestaltung sowie die Einbindung des Data Mining in die
Web-Templates ein weiteres mögliches Themenfeld für anknüpfende Arbeiten.
■ Anwendung des Data Mining im CRM
Mit Hilfe des CRM Intelligence Connector2 kann das Data Mining in das CRM integriert
werden. So könnte beispielsweise ein Call-Center-Mitarbeiter im CRM-System innerhalb
von Sekunden kundenspezifische Ergebnisse auf Basis des Data Mining erhalten, indem
das Data Mining als integraler Bestandteil der Geschäftsprozesse verstanden wird.
■ Anbindung externer Systeme und Modelle
In der APD-Workbench existiert bereits eine Schnittstelle zur Anbindung von DataMining-Lösung von Drittanbietern. Die Softwareauswahl, Modellrealisierung sowie der
Import von (trainierten) Data-Mining-Modellen sind mögliche, interessante Aufgaben in
diesem Themenbereich.
Um die aus dieser Diplomarbeit gewonnen Ergebnisse für die evu.it GmbH aus
unternehmerischer Sicht einsetzen zu können, wird in naher Zukunft ein Workshop für
Kunden und Interessenten aus der Versorgerbranche vorbereitet und durchgeführt. So sollen
die Versorger von den neuen Analysetechniken mit Hilfe des APD (Projektarbeit) und den
zukunftsweisenden Technologien des Data Mining (Diplomarbeit) überzeugt werden.
Da das Data Mining ein (erneut) stark aufstrebender Markt ist, wird es interessant sein zu
beobachten, wie sich das Data Mining im SAP BI 7.0 und den Nachfolgeversionen auf allen
Ebenen des Business Warehouse und anderen SAP-Systemen weiterentwickelt. Frei nach
dem Motto:
»Data is a burden – information is an asset«3
- 126 -
1
2
3
7 Anhang
7 Anhang
7.1 Erläuterungen zu den Hinweisen
Hinweise werden in den SAP-Systemen verwendet um Informationen und Tipps für den
korrekten Umgang mit den Systemen zu vermitteln oder um kleinere Programmfehler mit
Hilfe von Support Packages zu beheben.
Auch im Bereich des Data Mining gibt es je nach Releasestand des Systems noch kleinere
Probleme, die zu Programmabbrüchen, fehlerhaften Berechnungen oder unvollständigen
Ergebnisdarstellungen führen können. Bei der Suche nach Hinweisen, die ein spezifisches
Problem betreffen, muss jedoch darauf geachtet werden, dass der Support-Level des
Support-Packages höher ist als der Support-Level des Systems, da andernfalls die
vorgenommenen Korrekturen bereits im System enthalten sind.
Im Folgenden werden nur die für diese Arbeit notwendigen Hinweise kurz erläutert (SystemReleasestand 70015):
■ SAP Hinweis 1139804 – APD Laufzeitfehler ASSERTION_FAILED
Der Fehler, der durch diesen Hinweis behoben wird, tritt im Zusammenhang mit der
Verwendung der ABC-Analyse innerhalb eines Analyseprozesses auf. So kann es unter
gewissen Umständen zu einem Laufzeitfehler kommen, der zu einem Programmabbruch
führt.
■ SAP Hinweis 862637 – Ergebnisdarstellung Entscheidungsbaum
Beim erstmaligen Aufruf der Visualisierung des Entscheidungsbaumes kommt es zu
einem Problem mit der Initialisierung der Netzwerkformatierungstabellen. Dies führt zu
der Fehlermeldung „Standardtyp 0 in Kantengruppe INST nicht vorhanden“, wodurch der
Entscheidungsbaum grafisch nicht dargestellt werden kann. Dieser Hinweis erläutert den
Lösungsweg zur Korrektur des Fehlers.
■ SAP Hinweis 1085264 – Assoziationsregeln werden nicht angezeigt
Wenn in der Ergebnisdarstellung der Assoziationsanalyse die erzeugten Assoziationsregeln nicht angezeigt werden, sollte dieser Hinweis eingespielt werden.
■ SAP Hinweis 999344 – APD Laufzeitfehler CONVT_OVERFLOW
Durch einen Überlauf bei der Konvertierung von Gleit- und Dezimaldatentypen kann es
zu einem Laufzeitfehler kommen, der zusätzlich zu fehlerhaften Berechnungen bezüglich
der Konfidenz und dem Support der einzelnen Assoziationsregeln führt.
Wie erwähnt, kann es je nach Releasestand notwendig sein, weitere Hinweise einzuspielen.
Über das SAP-Support-Portal können die benötigen Hinweise komfortabel gesucht werden.
- 127 -
7 Anhang
7.2 A selection of useful ISU-Tables
Vgl. [Lapa, 2008]
- 128 -
7 Anhang
7.3 Abbildungen und Listings zur Fallstudie
7.3.1 Collect Initial Data
Abbildung 95: Collect Initial Data – Wechselbelegselektion
Abbildung 96: Collect Initial Data – Wechselsicht
Abbildung 97: Collect Initial Data – Wechseltyp
- 129 -
7 Anhang
Abbildung 98: Collect Initial Data – Wechselstatus
Abbildung 99: Collect Initial Data – Vertrag
Abbildung 100: Collect Initial Data – Kontenfindungsmerkmal
Abbildung 101: Collect Initial Data – Query Verkaufsstatistik
- 130 -
7 Anhang
7.3.2 Clean, Construct, Integrate, Format Data
Abbildung 102: Datenvorbereitung - Analyseprozess
- 131 -
7 Anhang
REPORT RSAN_WB_ROUTINE_TEMP_REPORT .
TYPES: BEGIN OF y_group_fields ,
BPARTNER TYPE /BI0/OIBPARTNER ,
/BIC/Z_BPTYP TYPE /BIC/OIZ_BPTYP ,
/BIC/Z_BPVNAME TYPE /BIC/OIZ_BPVNAME ,
/BIC/Z_BPNNAME TYPE /BIC/OIZ_BPNNAME ,
/BIC/Z_REGSTRU TYPE /BIC/OIZ_REGSTRU ,
/BIC/Z_ORT TYPE /BIC/OIZ_ORT ,
/BIC/Z_ORTTEIL TYPE /BIC/OIZ_ORTTEIL ,
/BIC/Z_TARIF TYPE /BIC/OIZ_TARIF ,
KUENDIGUNG TYPE /BIC/OIZ_KUENDIG ,
MENGE08 TYPE /BIC/OIZ_MENGE8 ,
BETRAG08 TYPE /BIC/OIZ_BETRAG8 ,
END OF y_group_fields .
TYPES: BEGIN OF y_source_fields ,
/BIC/Z_CREATE TYPE /BIC/OIZ_CREATE ,
END OF y_source_fields .
TYPES: yt_source_fields TYPE STANDARD TABLE OF y_source_fields .
TYPES: BEGIN OF y_target_fields ,
KUNDESEIT TYPE /BIC/OIZ_KSEIT ,
END OF y_target_fields .
TYPES: yt_target_fields TYPE STANDARD TABLE OF y_target_fields .
FORM compute_data_transformation
USING
is_group TYPE y_group_fields
it_source TYPE yt_source_fields
ir_context TYPE REF TO if_rsan_rt_routine_context
EXPORTING et_target TYPE yt_target_fields .
*--------- Begin of transformation code ----------------------------DATA: ls_source TYPE y_source_fields,
ls_target TYPE y_target_fields.
LOOP AT it_source INTO ls_source.
ls_target-KUNDESEIT = 2009 - ls_source-/BIC/Z_CREATE+6(4).
MOVE-CORRESPONDING ls_source TO ls_target.
APPEND ls_target TO et_target.
ENDLOOP.
*---------- End of transformation code -----------------------------ENDFORM.
Listing 1: ABAP Routine – Berechnung Kunde seit
- 132 -
7 Anhang
REPORT RSAN_WB_ROUTINE_TEMP_REPORT .
TYPES: BEGIN OF y_group_fields ,
BPARTNER TYPE /BI0/OIBPARTNER ,
/BIC/Z_BPTYP TYPE /BIC/OIZ_BPTYP ,
/BIC/Z_BPVNAME TYPE /BIC/OIZ_BPVNAME ,
/BIC/Z_BPNNAME TYPE /BIC/OIZ_BPNNAME ,
/BIC/Z_REGSTRU TYPE /BIC/OIZ_REGSTRU ,
/BIC/Z_ORT TYPE /BIC/OIZ_ORT ,
/BIC/Z_ORTTEIL TYPE /BIC/OIZ_ORTTEIL ,
/BIC/Z_TARIF TYPE /BIC/OIZ_TARIF ,
KUENDIGUNG TYPE /BIC/OIZ_KUENDIG ,
KUNDESEIT TYPE /BIC/OIZ_KSEIT ,
/BIC/Z_MAZAE TYPE /BIC/OIZ_MAZAE ,
VGL0607 TYPE /BIC/OIZ_VGL67 ,
END OF y_group_fields .
TYPES: BEGIN OF y_source_fields ,
Z_BIRTHDT TYPE /BIC/OIZ_BIRTHDT ,
Z_BPFRAU TYPE /BIC/OIZ_BPFRAU ,
Z_BPMANN TYPE /BIC/OIZ_BPMANN ,
END OF y_source_fields .
TYPES: yt_source_fields TYPE STANDARD TABLE OF y_source_fields .
TYPES: BEGIN OF y_target_fields ,
GESCHLECHT TYPE /BIC/OIZ_GESCH ,
ALTER TYPE /BIC/OIZ_BPALTER ,
END OF y_target_fields .
TYPES: yt_target_fields TYPE STANDARD TABLE OF y_target_fields .
*---------- Begin of type definitions ------------------------------*TYPES: ...
*----------- End of type definitions -------------------------------FORM compute_data_transformation
USING
is_group TYPE y_group_fields
it_source TYPE yt_source_fields
- 133 -
7 Anhang
ir_context TYPE REF TO if_rsan_rt_routine_context
EXPORTING et_target TYPE yt_target_fields .
*--------- Begin of transformation code ----------------------------DATA: ls_source TYPE y_source_fields,
ls_target TYPE y_target_fields.
LOOP AT it_source INTO ls_source.
IF ls_source-Z_BIRTHDT+6(4) EQ '0000'.
ls_target-ALTER = 0.
ELSE.
ls_target-ALTER = 2008 - ls_source-Z_BIRTHDT+6(4).
ENDIF.
IF ls_source-Z_BPMANN EQ 'X' AND ls_source-Z_BPFRAU EQ SPACE.
ls_target-GESCHLECHT = 'M'.
ELSEIF ls_source-Z_BPMANN EQ SPACE AND ls_source-Z_BPFRAU EQ 'X'.
ls_target-GESCHLECHT = 'F'.
ELSE.
ls_target-GESCHLECHT = 'U'.
ENDIF.
MOVE-CORRESPONDING ls_source TO ls_target.
APPEND ls_target TO et_target.
ENDLOOP.
*---------- End of transformation code -----------------------------ENDFORM.
Listing 2: ABAP Routine – Berechnung Alter und Geschlecht
- 134 -
7 Anhang
Abbildung 103: Datenvorbereitung - Ergebnismenge
- 135 -
8 Abkürzungsverzeichnis
8 Abkürzungsverzeichnis
- 136 -
ABAP
Advanced Business Application Programming
APD
Analyse-Prozess-Designer
ASCII
American Standard Code for Information Interchange
DM
Data Mining
DTP
Datentransferprozess
BI
Business Intelligence
BW
Business Warehouse
CRISP-DM
Cross Industry Process for Data Mining
CRM
Customer Relationship Management
CSV
Comma Seperated Value
DSO
Data Store Object
EDM
Energy Data Management
EnWG
Energiewirtschaftsgesetz
ERP
Enterprise Resource Planning
ETL
Extraktion, Transformation und Laden
GUI
Graphical User Interface
IS-U
Industry Solution for Utilities
IT
Informationstechnologie
KDD
Knowledge Discovery in Databases
ODS
Operational Data Store
OLAP
Online Analytical Processing
PMML
Predictive Model Markup Language
SAP
Software Anwendungen und Programme
STW
Stadtwerke
SOM
Self Organizing Maps
XML
Extensible Markup Language
9 Abbildungsverzeichnis
Abbildung 1: Entwicklungsgeschichte Data Mining .................................. 13
Abbildung 2: Einordnung BI, KDD und DM ............................................. 14
Abbildung 3: Einordnung der Data-Mining-Methoden .............................. 18
Abbildung 4: OLAP vs. Data Mining ......................................................... 19
Abbildung 5: Hierarchie des CRISP-Prozesses .......................................... 22
Abbildung 6: CRISP-DM-Prozessmodell................................................... 23
Abbildung 7: Fayyad et al. Prozessmodell ................................................. 24
Abbildung 8: Allgemeiner KDD-Prozess von Säuberlich .......................... 25
Abbildung 9: Allgemeiner KDD-Prozess von Säuberlich .......................... 26
Abbildung 10: APD- und DM-Workbench-Funktionen im KDD-Prozess 28
Abbildung 11: Aufbau DM-Workbench ..................................................... 28
Abbildung 12: Modell in der DM-Workbench anlegen ............................. 29
Abbildung 13: DM-Workbench - Definition Datenfelder .......................... 30
Abbildung 14: Weitere Funktion in der DM-Workbench .......................... 31
Abbildung 15: Hintergrundverarbeitung .................................................... 33
Abbildung 16: Beispiel einer Prozesskette ................................................. 35
Abbildung 17: einfaches Beispiel einer Clusteranalyse ............................. 36
Abbildung 18: Beispiel Clusteranalyse – Portfolio-Analyse ...................... 37
Abbildung 19: Manhattan- und euklidische Distanz .................................. 40
Abbildung 20: Kompaktheit von Cluster .................................................... 41
Abbildung 21: Ablauf der Clusteranalyse (k-means) ................................. 43
Abbildung 22: Clusteranalyse - Feldkonfiguration .................................... 44
Abbildung 23: Clusteranalyse - Parameterkonfiguration ........................... 45
Abbildung 24: Clusteranalyse - Analyseprozess ........................................ 46
Abbildung 25: Clusteranalyse – Einflussdiagramm ................................... 47
Abbildung 26: Clusteranalyse – grafische Verteilung der Werte ............... 47
- 137 -
Abbildung 27: Clusteranalyse – Verteilung der Werte als Tabelle ............ 47
Abbildung 28: Clusteranalyse – grafische Verteilung der Werte ............... 48
Abbildung 29: Clusteranalyse – grafische Darstellung der Entfernungen . 48
Abbildung 30: Clusteranalyse – Vorhersagesimulation ............................. 48
Abbildung 31: Zweifache ABC-Analyse.................................................... 51
Abbildung 32: Pareto-Verteilung ............................................................... 52
Abbildung 33: ABC-Analyse ..................................................................... 53
Abbildung 34: ABC-Analyse – Feldkonfiguration..................................... 54
Abbildung 35: ABC-Analyse – Parameterkonfiguration ........................... 55
Abbildung 36: ABC-Analyse – Analyseprozess ........................................ 55
Abbildung 37: ABC-Analyse – Ergebnisdarstellung ................................. 56
Abbildung 38: Ablauf Scoring-Verfahren .................................................. 59
Abbildung 39: Fehlerhafte Bezeichnungen in der DM-Workbench ........... 60
Abbildung 40: Konfiguration von stetigen Datenfeldern ........................... 60
Abbildung 41: Möglichkeiten der Partialgewichtung................................. 61
Abbildung 42: Scoring – erweiterte Feldkonfiguration .............................. 62
Abbildung 43: Scoring – Analyseprozess................................................... 62
Abbildung 44: Scoring – Tabellarische Darstellung der Ergebnisse .......... 63
Abbildung 45: Grundsätzlicher Ablauf der Assoziationsanalyse ............... 65
Abbildung 46: Iterative Berechnung der large Itemsets ............................. 69
Abbildung 47: Assoziationsanalyse - Feldkonfiguration ........................... 70
Abbildung 48: Gewichtung der Transaktion .............................................. 71
Abbildung 49: Assoziationsanalyse – Analyseprozess............................... 72
Abbildung 50: Assoziationsanalyse - Filtern der Ergebnisse ..................... 72
Abbildung 51: Assoziationsanalyse – Anzeige der Assoziationsregeln ..... 73
Abbildung 52: Assoziationsanalyse – Alternative Anzeige der Regeln ..... 73
Abbildung 53: Assoziationsanalyse – Anzeige der Itemsets ...................... 73
Abbildung 54: Aufbau eines Entscheidungsbaumes .................................. 75
Abbildung 55: Entscheidungsbaum-Phasen ............................................... 80
Abbildung 56: Berechnung des (ersten) Split im Entscheidungsbaum ...... 81
Abbildung 57: Entscheidungsbaum – Feldkonfiguration ........................... 82
Abbildung 58: Entscheidungsbaum – erweiterte Konfiguration ................ 83
- 138 -
Abbildung 59: Entscheidungsbaum – Parameterkonfiguration .................. 84
Abbildung 60: Entscheidungsbaum – Analyseprozess ............................... 85
Abbildung 61: Entscheidungsbaum – Ergebnisse in der Netzplansicht ..... 85
Abbildung 62: Entscheidungsbaum – Ergebnisse in der Baumsicht .......... 85
Abbildung 63: Entscheidungsbaum – Vorhersagesimulation..................... 86
Abbildung 64: lineare und nicht lineare Regressionsanalyse ..................... 87
Abbildung 65: Zerlegung der Gesamtabweichung ..................................... 90
Abbildung 66: multiple Regression mit diskreten Variablen ..................... 91
Abbildung 67: Regressionsanalyse – Feldkonfiguration ............................ 92
Abbildung 68: Regressionsanalyse – erweiterte Feldkonfiguration ........... 92
Abbildung 69: Regressionsanalyse – Parameterkonfiguration ................... 93
Abbildung 70: Regressionsanalyse – Analyseprozess ................................ 94
Abbildung 71: Regressionsanalyse – Ergebnisse ....................................... 94
Abbildung 72: Gesamtbeispiel – Forderungsmanagement ......................... 96
Abbildung 73: Gesamtbeispiel – Erweiterung der Kundenbeziehungen .... 97
Abbildung 74: Gesamtbeispiel – Kündigungsanalyse ................................ 98
Abbildung 75: Kündigungsprävention – Analyseprozess ........................ 107
Abbildung 76: Kündigungsprävention – Bewertung ................................ 109
Abbildung 77: Kündigungsprävention – Fehlermatrix ............................. 110
Abbildung 78: Kündigungsprävention – E-Baumkonfiguration (1) ......... 111
Abbildung 82: Kündigungsprävention – E-Baumkonfiguration (5) ........ 112
Abbildung 85: Kündigungsprävention – Clusterkonfiguration (1) .......... 114
Abbildung 89: Kündigungsprävention – Fehlermatrix 1 .......................... 116
Abbildung 90: Kündigungsprävention – Fehlermatrix 2 .......................... 117
- 139 -
Abbildung 91: Kündigungsprävention – Entfernungen ............................ 118
Abbildung 92: Kündigungsprävention – Ergebnisse (Pruning)................ 118
Abbildung 93: Kündigungsprävention – Ausschnitt Entscheidungsbaum 119
Abbildung 94: Kündigungsprävention – Ausschnitt Clusteranalyse ........ 119
Abbildung 95: Collect Initial Data – Wechselbelegselektion................... 129
Abbildung 96: Collect Initial Data – Wechselsicht .................................. 129
Abbildung 97: Collect Initial Data – Wechseltyp ..................................... 129
Abbildung 98: Collect Initial Data – Wechselstatus................................. 130
Abbildung 99: Collect Initial Data – Vertrag ........................................... 130
Abbildung 100: Collect Initial Data – Kontenfindungsmerkmal ............. 130
Abbildung 101: Collect Initial Data – Query Verkaufsstatistik ............... 130
Abbildung 102: Datenvorbereitung - Analyseprozess .............................. 131
Abbildung 103: Datenvorbereitung - Ergebnismenge .............................. 135
- 140 -
10 Tabellenverzeichnis
10 Tabellenverzeichnis
Tabelle 1: Stärken und Schwächen des k-means-Algorithmus ................... 49
Tabelle 2: Stärken und Schwächen der ABC-Analyse ............................... 56
Tabelle 3: Stärken und Schwächen des Scoring ......................................... 63
Tabelle 4: Stärken und Schwächen der Assoziationsanalyse ...................... 74
Tabelle 5: Stärken und Schwächen des Entscheidungsbaumes .................. 86
Tabelle 6: Stärken und Schwächen der Regressionsanalyse ....................... 95
Tabelle 7: Collect Initial Data Report ....................................................... 103
Tabelle 8: Data Quality Report ................................................................. 105
Tabelle 9: Ergebnisse Kündigungsprävention .......................................... 119
Tabelle 10: Kündigungsprävention – Nächste Schritte ............................. 120
Tabelle 11: Stärken und Schwächen des Data-Mining im SAP BI 7.0 ..... 124
- 141 -
11 Formelverzeichnis
11 Formelverzeichnis
Formel 1: Manhattan-Distanz ..................................................................... 40
Formel 2: euklidische Distanz .................................................................... 41
Formel 3: Lp-Metrik .................................................................................... 41
Formel 4: Kompaktheit ............................................................................... 42
Formel 5: Pareto-Verteilung ....................................................................... 52
Formel 6: Additives Scoring-Verfahren ..................................................... 58
Formel 7: Menge aller Items ....................................................................... 66
Formel 8: Menge aller Transaktionen ......................................................... 67
Formel 9: Itemset ........................................................................................ 67
Formel 10: Assoziationsregel ..................................................................... 67
Formel 11: Support ..................................................................................... 67
Formel 12: Support einer Assoziationsregel ............................................... 68
Formel 13: Konfidenz ................................................................................. 68
Formel 14: Lift ............................................................................................ 68
Formel 15: Entropie .................................................................................... 78
Formel 16: Informationsgewinn ................................................................. 79
Formel 17: Funktion zur Schätzung der abhängigen Variablen ................. 89
Formel 18: Zielfunktion zur Bestimmung von a und b ............................... 89
Formel 19: Bestimmtheitsmaß R ................................................................ 89
Formel 20: Kennzahl I ................................................................................ 90
- 142 -
12 Listingverzeichnis
12 Listingverzeichnis
Listing 1: ABAP Routine – Berechnung Kunde seit ................................ 132
Listing 2: ABAP Routine – Berechnung Alter und Geschlecht ................ 134
- 143 -
13 Quellenverzeichnis
Literatur
[AlNi, 2000]
P. Alpar, J. Niedereichholz
Data Mining im praktischen Einsatz – Verfahren und Anwendungsfälle für Marketing,
Vertrieb, Controlling und Kundenunterstützung;
Vieweg Verlag, Braunschweig/Wiesbaden 2000; 1. Auflage; ISBN 3-528-05748-3
[ChaGlu, 1998]
P. Chamoni; P. Gluchowski
Analytische Informationssysteme
Springer Verlag, Berlin u.a. 1998; ISBN 978-3540658436
[ChaGlu, 2006]
P. Chamoni; P. Gluchowski
Analytische Informationssysteme – Business Intelligence-Technologien und
-Anwendungen
Springer Verlag, Berlin 2006; 3. Auflage; ISBN 3-540-29286-1
[Fahrmeir et al., 1996]
L. Fahrmeir, H. Kaufmann, C. Kredler
Regressionsanalyse;
In: L. Fahrmeir, A. Hamerle, G. Tutz
Multivariante statistische Verfahren
2. Auflage, Berlin, New York, 1996
[Fayyad et al., 1996]
U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy;
Advances in Knowledge Discovery and Data Mining
Menlo Park 1996
[GaSäu, 1999]
W. Gaul, F. Säuberlich;
Classification and Positioning of Data Mining Tools
in: Gaul, W. / Locarek-Junge, H. (Hrsg.)
Classification in the Information Age;
Springer-Verlag, Berlin,Heidelberg 1999; ISBN 3-5406-5855-6
[Jafar-Shaghaghi, 1994]
F. Jafar-Shaghaghi
Maschinelles Lernen, Neuronale Netze und Statistische Lernverfahren
zur Klassifikation und Prognose
Shaker-Verlag, 1994; ISBN 3-8265-1111-5
- 144 -
[Kandel et al., 2001]
Dr. A. Kandel, Dr. M. Last, Dr. H. Bunke;
Data Mining and Computational Intelligence
Physica-Verlag, Heidelberg/New York 2001; ISBN 3-7908-1371-0
[KeJa, 2002]
H. Keller, J. Jacobitz;
ABAP Objects Referenz;
Galileo Press; Bonn 2002; 1 .Auflage; ISBN 3-934358-61-6
[KeKr, 2001]
H. Keller, S. Krüger;
ABAP Objects – Einführung in die SAP-Programmierung;
Galileo Press; Bonn 2001; 2. Auflage; ISBN 3-89842-147-3
[KiVa, 2007]
Dr. M. Kießwetter, D. Vahlkamp;
Data Mining in SAP Netweaver BI;
Galileo Press; Bonn 2007; 1. Auflage; ISBN 978-3-89842-850-7
[Küppers, 1999]
B. Küppers;
Data Mining in der Praxis – Ein Ansatz zur Nutzung der Potentiale von Data Mining im
betrieblichen Umfeld;
Peter Lang GmbH; Frankfurt am Main 1999; ISBN 3-631-34106-7
Europäische Hochschulschriften, Reihe 5, Volks- und Betriebswirtschaft, Bd. 2373;
Zugl: Graz, Univ., Diss., 1998
[Mehrwald, 2007]
C. Mehrwald;
Datawarehousing mit SPA BW 7 – BI in SAP Netweaver 2004s;
dpunkt.verlag GmbH; Heidelberg 2007; 4. Auflage; ISBN 978-3-89864-460-0
[Nakhaeizdaeh, 1998]
Prof. Dr. G. Nakhaeizdaeh;
Data Mining – Theoretische Aspekte und Anwendungen
Physica-Verlag, Heidelberg 1998; ISBN 3-7908-1053-3
[Petersohn, 2005]
H. Petersohn;
Data Mining – Verfahren, Prozesse, Anwendungsarchitektur
Oldenbourg Verlag, München 2005; ISBN 3-486-57715-8
[Sachs, 1992]
L. Sachs;
Angewandte Statistik – Anwendung statistischer Methoden;
Springer-Verlag, Berlin/Heidelberg 1992; 7. Auflage; ISBN 3-540-52085-6
[Säuberlich, 2000]
F. Säuberlich
KDD und Data Mining als Hilfsmittel zur Entscheidungsunterstützung
Peter Lang GmbH, Frankfurt 2000; ISBN 9-783-63136735-3
[Schinzer, 1999]
H. Schinzer
Data Warehouse und Data Mining – Marktführende Produkte im Vergleich
2. Auflage, Vahlen 1999
- 145 -
SAP-Unterlagen
[BW310, 2005]
BW310; Data Warehousing; SAP Schulungsunterlagen Teilnehmerhandbuch
Version 2005/Q1; Materialnummer: 50071081; SAP AG
[BW380, 2005]
BW380 – SAP Business Intelligence – Analyseprozesse und Data Mining;
Schulungsunterlagen Teilnehmerhandbuch; 2005/Q1; Materialnummer 50072606
Online-Quellen
[AsSi, 2002]
C. Ashby, J. Simms;
Data Mining-Research Brief;
in L. Schmidt-Thieme: Data Mining and Web Mining;
http://www.informatik.uni-freiburg.de/cgnm/lehre/wm-02w/webmining-1.pdf (03.06.2008;
19:45)
[Computerwoche, 2007]
S. Alexander;
Zweiter Frühling für Data Mining;
http://www.computerwoche.de/index.cfm?pid=746&pk=590688 (02.06.2008, 16:15)
[CRISP, 1999]
P. Chapman, J. Clinton, T. Khabaza, T. Reinartz, R. Wirth
The CRISP-DM Process Model
Discussion Paper; 03/1999
http://www.spss.it/download/pub-paper.pdf (16.06.2008; 11.45)
[Cubeserv, 2008]
Data Mining mit dem SAP Business Information Warehouse - Knowledge Discovery in
Databases (KDD)
http://www.cubeserv.com/fachartikel/data_mining_kdd.html (02.06.2008, 16:10)
[Doug, 2008]
A. Dough
Data Mining
http://www.eco.utexas.edu/~norman/BUS.FOR/course.mat/Alex (15.06.2008; 10:37)
[EVU-IT, 2008]
evu.it Website: Unternehmen
http://www.evu-it.de/front_content.php?idcat=31 (01.06.2008, 10:35)
[Juran, 2008]
Juran Institute, Inc., Southbury, CT, U.S.A
http://juran.com/ (28.05.2008, 14:00)
[Lapa, 2008]
Marcin Lapa; Utility and SAP Consultant;
http://marcinlapa.com (06.06.2008, 13:19)
[SAPBibHV, 2008]
SAP-Online-Dokumentation
Hintergrundverarbeitung
http://help.sap.com/saphelp_nw70/helpdata/DE/74/08703713bf277ee10000009b38f8cf/
frameset.htm (20.06.2008, 10:00)
- 146 -
[SAPBibPK, 2008]
SAP-Online-Dokumentation
Prozessketten
http://help.sap.com/saphelp_nw70/helpdata/DE/8f/c08b3baaa59649e10000000a11402f/
frameset.htm (20.06.2008, 10:30)
Weitere Quellen
[Projektarbeit, 2008]
Analyse-Prozess-Designer – Funktionen und Einsatzgebiete im SAP Business
Warehouse
D. Halboth, vorausgehende Projektarbeit an der Fachhochschule Dortmund
- 147 -
14 Glossar
14 Glossar
Hier finden Sie kurze Erläuterungen zu den wichtigsten Fachbegriffen. Die Begriffe sind
alphabetisch aufsteigend geordnet. Das
Zeichen weist auf einen ebenfalls im Glossar
aufgeführten Begriff hin.
ABAP
Die Advanced Business Application Programming (ABAP) ist eine von
entwickelte Programmiersprache für die Entwicklung im SAP Umfeld.
SAP
ABAP Objects
ABAP Objects ist eine Erweiterung von
ABAP um die Elemente der objektorientierten
Programmierung (außer Mehrfachvererbung und Überladen von Methoden).
Abhängigkeitsanalyse
Die Abhängigkeitsanalyse versucht Beziehungen zwischen verschiedenen Merkmalen
von Objekten aufzudecken (z.B. „Kunden die A kaufen, kaufen auch B“).
Abweichungsanalyse
Die Abweichungsanalyse bildet das Gegenstück zur Abhängigkeitsanalyse. Es werden
dabei die Objekte identifiziert, die nicht mit den Regelmäßigkeiten der meisten anderen
Objekte übereinstimmen und sich so nicht in ein vorhandenes Muster einordnen lassen.
Administrator Workbench
Die Administrator Workbench ist das zentrale Element innerhalb des SAP Business
Warehouse zur Modellierung von
Data-Warehousing-Prozessen. Mit ihr können alle
Prozesse der Datenbeschaffung, -haltung und –verarbeitung gesteuert, überwacht und
gepflegt werden.
Alpha- und Beta-Fehler
Alpha- und Beta-Fehler beschreiben die unterschiedlichen möglichen Fehlerarten eines
Vorhersagemodells mit zwei Ausprägungen. Wird beispielsweise Nein vorhergesagt
obwohl das richtige Ergebnis Ja ist, spricht man vom Alpha-Fehler. Wird Ja vorhergesagt
obwohl das richtige Ergebnis Nein ist, spricht man vom Beta-Fehler.
APD
Der Analyse-Prozess-Designer ist das Werkzeug im
SAP
BW zur Erzeugung und
Verwaltung von Analyseprozessen sowie das vorbereitende Tool für das
Data Mining.
APD-Workbench
Die APD-Workbench ist die grafische Benutzeroberfläche des Analyse-ProzessDesigners und stellt dem Anwender die Funktionalitäten zur Modellierung und
Durchführung analytischer Prozesse zur Verfügung.
- 148 -
14 Glossar
Bestimmtheitsmaß (Kennzahl R)
Mit Hilfe der Kennzahl R wird die Summe aller nicht erklärten Abweichungen ins
Verhältnis zu allen Gesamtabweichungen gebracht, um so mit Hilfe der Bezugsgröße des
arithmetischen Mittels aller abhängigen Variablen beurteilen zu können, ob die
Regressionsgerade eine hohe Aussagekraft besitzt.
Business Intelligence
Business Intelligence ist der Sammelbegriff für alle Systeme und Prozesse, die Daten
sammeln, auswerten und als nützliche Informationen für die Entscheidungsträger zur
Verfügung stellen.
Business (Information) Warehouse
Das Business Warehouse ist die Data Warehouse-Lösung von SAP.
CRISP-DM
Das CRISP-DM-Modell ist das Ergebnis eines Projektes, das im Jahr 1998 von den
Unternehmen Teradata, SPSS, DaimlerChrysler und OHRA gestartetet wurde. Ziel war
es, ein generisches, branchen- und softwareunabhängiges Verfahren für die Durchführung
von Data-Mining-Projekten zu schaffen.
CRM
Das Customer Relationship Management bezeichnet die Dokumentation, Verwaltung und
Pflege von Kundenbeziehungen, die für den Vertrieb und das Marketing von besonderer
Bedeutung sind.
Data Mining
Mit Hilfe des Data Mining sollen neue, nicht triviale Informationen mit Hilfe von
mathematisch-statistischen Verfahren ermittelt werden. D.h., es wird automatisiert nach
Mustern in den vorhandenen Daten gesucht, um so die operativen, taktischen oder
strategischen Entscheidungen in einem Unternehmen unterstützen zu können.
Data-Mining-Workbench
Die Data-Mining-Workbench ist eine Benutzeroberfläche zur Erstellung und Verwaltung
von Data-Mining-Modellen.
Data Warehouse
Ein Data Warehouse ist das konsolidierte Datenlager eines Unternehmens, das sich aus
vielen verschiedenen Quellen zusammensetzen kann. Die Daten im Data Warehouse
werden in erster Linie für analytische Auswertungen genutzt.
Diskrete Werte
Als diskret werden Daten bezeichnet, die nur eine bestimmte Anzahl an Ausprägungen
und Werten annehmen, z.B. Kundentyp (guter Kunde/schlechter Kunde), Altersklassen
oder Tariftypen etc.
Drag&Drop
Durch Betätigen der linken Maustaste lassen sich grafische Objekte „Ziehen und
Fallenlassen“. Das Drag&Drop-Verfahren stellt somit eine Art der Bedienung von
grafischen Benutzeroberflächen dar.
- 149 -
14 Glossar
Entropie
Mit Hilfe der Entropie kann die Reinheit der Zerlegung bei der Generierung von
Entscheidungsbäumen berechnet werden.
ERP-System
Enterprise Resource Planning Systeme unterstützen das Unternehmen mit Hilfe
komplexer Anwendungssoftware bei der Ressourcenplanung und –verteilung.
ETL
ETL ist die Abkürzung für Extraktion, Transformation und Laden. Sie bezeichnet den
Datenkonsolidierungs- und Datenladeprozess bei der Datenbeschaffung.
Extrapolation
Bei der Extrapolation wird ein Wert auf Basis der Datenpunkte des Intervalls linear
geschätzt. Konstante Extrapolation bedeutet, dass Werte außerhalb des Wertebereiches
den nächstgelegenen Grenzwert des Intervalls als Konstante zugeordnet bekommen.
Hintergrundverarbeitung
Die Hintergrundverarbeitung ermöglicht das Automatisieren von Routineaufgaben sowie
die Optimierung der Systemleistung durch geeignete Ressourcenverteilung.
InfoProvider
Ein InfoProvider ist ein Sammelbegriff für diejenigen Datenziele, auf deren Datenbestand
Analysen und Queries durchgeführt werden können und die als Quelle für weitere
Prozesse zur Verfügung stehen.
Informationsgewinn
Aufbauend auf die
Entropie kann der Informationsgewinn berechnet werden, um
mehrere Splits beim Erzeugen von Entscheidungsbäumen miteinander zu vergleichen.
IS-U
Die Branchenkomponente Versorgungsindustrie dient innerhalb von SAP Utilities der
Verwaltung und Abrechnung von Kunden.
Item
Als Item wird ein Objekt der Gesamtmenge bezeichnet, z.B. ein bestimmtes Produkt aus
einem Supermarkt.
Itemset
Als Itemset bezeichnet man eine Teilmenge der Objekte aus einem Geschäftsvorfall, z.B.
eine Teilmenge der Produkte aus einem Einkauf.
k-means-Algorithmus
Die Implementierung der Clusteranalyse im SAP BI 7.0 basiert auf der sogenannten
k-means-Methode, die sich in vier Schritte unterteilen lässt:
Schritt 1: Initialisierung
Schritt 2: Berechnung
Schritt 3: Zuordnung
Schritt 4: Wiederholung
- 150 -
14 Glossar
KDD
Knowledge Discovery in Databases wird oftmals als Synonym für
Data Mining
verwendet. Bei einer genaueren Präzisierung ist das Data Mining jedoch nur ein
Teilschritt im KDD-Prozess, der zusätzlich alle Schritte der Datenvorbereitung sowie der
Datenauswertung und Beurteilung enthält.
Klassifikation
Die Klassifikation dient der Zuordnung von Objekten zu Klassen, die im Vorfeld definiert
worden sind.
Konfidenz
Neben dem
Support ist die Konfidenz ein weiteres Gütekriterium für die Stärke der
Assoziationsregel. Die Konfidenz berechnet dabei die Wahrscheinlichkeit, dass nach der
Prämisse auch die Konklusion eintritt.
Lift
Als weiteres Bewertungskriterium für eine Assoziationsregel (neben
Support und
Konfidenz) wird der Lift verwendet. Ein Lift von 2 sagt beispielsweise aus, dass
Produkt Y, in den
Transaktionen mit Produkt X, doppelt so häufig vertreten ist, wie in
den gesamten Transaktionen.
Metadata Repository
Das Metadata Repository verwaltet und bietet den zentralen Zugriff auf alle
Metadaten (Eigenschaften und Verknüpfungen von Objekten) im SAP Business
Warehouse.
Metadaten
Als Metadaten werden Daten bezeichnet, die Informationen über Daten beinhalten und so
z.B. die Eigenschaften von Daten beschreiben.
Multivariat verteilte Variablen
Wenn die Abhängigkeiten zwischen Variablen in die Berechnung einfließen, spricht man
von multivariat verteilten Variablen (im Gegensatz zu
univariat verteilten Variablen).
Netweaver
Netweaver ist die serviceorientierte Anwendungsplattform von
SAP.
OLAP
Das Online Analytical Processing gehört im Bereich des Business Intelligence zu den
hypothesengestützten Analysemethoden. Dabei können die zugrundeliegenden Daten
multidimensional betrachtet und analysiert werden, um zu entscheidungsunterstützenden
Ergebnissen zu gelangen.
Overfitting
Ein Entscheidungsbaum kann auch übertrainiert (oder überspezialisiert) werden, man
spricht dann vom sogenannten Overfitting. Das bedeutet, dass der Baum zwar eine
Genauigkeit von 100% bezüglich der Trainingsdaten, jedoch nicht bezüglich der
gesamten Daten besitzt.
- 151 -
14 Glossar
Partialgewichtung
Die sogenannte Partialgewichtung erlaubt es, die einzelnen Werte eines Merkmals mit
individuellen Gewichtungen zu versehen, wodurch ein detailliertes Score-Verfahren
möglich wird.
PMML
PMML (Predictive Model Markup Language) ist ein XML-ähnliches Format zur
Abspeicherung von Clustering- oder Entscheidungsbaummodellen.
Prognose
Die Prognose (oder Vorhersage) ist in ihrer Zielsetzung sehr eng mit der
Klassifikation
verknüpft. Auch die
Klassifikation erlaubt die Vorhersage unbekannter
Merkmalswerte. Dabei werden jedoch eher symbolische Werte vorhergesagt (z.B. „guter
Kunde“), während in der Prognose
stetige Werte erzeugt werden (z.B. Umsatz im
nächsten Monat).
Prozessketten
Mit Hilfe von Prozessketten können Abläufe automatisiert werden. So wird die
Prozesskette nach Eintreten eines definierten Ergebnisses gestartet und löst verschiedene
aufeinander folgende Prozesse aus, die im Business Warehouse durchgeführt werden
sollen.
Pruning
Durch das sogenannte Pruning kann das
verhindert werden.
Overfitting des Entscheidungsbaumes
Query
Als Query bezeichnet man eine Abfrage, die auf einem
InfoProvider durchgeführt
wird, um Analysen durchzuführen oder Berichte zu erzeugen.
Rauschen
Beschreibt Fehler in Daten.
SAP
Die SAP AG ist einer der weltweit größten Softwarehersteller. Ihre Produkte decken alle
Geschäftsprozesse eines Unternehmens ab und richten sich in erste Linie an mittelständische oder große Kunden.
Segmentierung
Bei der Segmentierung werden Objekte in sinnvolle und interessante Gruppen und
Klassen aufgeteilt. Die Gruppen sind dabei im Vorfeld nicht bekannt. Anhand der
gemeinsamen Eigenschaften der Objekte werden sie in die neu entstandenen Gruppen
eingeordnet.
Split
Als Split wird das Aufspalten der Daten bei der Generierung von Entscheidungsbäumen
bezeichnet.
Stetige Werte
Der Wertetyp stetig wird dann gewählt, wenn es sich bei den Daten um kontinuierliche,
nicht abzählbare Werte handelt, z.B. Einkommen oder Umsatz.
- 152 -
14 Glossar
Support
Als Support wird der Anteil der
Transaktionen bezeichnet, die das
Itemset
enthalten. Der Support ist somit ein Maß und Gütekritierium für die Beurteilung einer
Assoziationsregel.
Transaktion
Als Transaktion wird ein Geschäftsvorfall bezeichnet, beispielsweise der Einkauf.
Transportanschluss
Mit Hilfe des Transportanschlusses können komplette Strukturen von einem System in
ein anderes übertragen werden (z.B. von einem Test- in Produktivsystem).
Univariat verteilte Variablen
Bei univariat verteilten Variablen wird nur eine Variable isoliert betrachtet, ohne
Berücksichtigung von Abhängigkeiten zu anderen Variablen (im Gegensatz zu
multivariat verteilten Variablen).
Versionierung
Das Versionierungssystem von
SAP erlaubt die Unterscheidung u.a. zwischen aktiven,
modifizierten und inaktiven Versionen von Objekten und Bestandteilen des SAPSystems. Dadurch ist es zum Beispiel möglich, Objekte zu verändern und zu speichern,
ohne dass das System durch die Änderungen beeinflusst wird.
Vorhersage
Siehe Prognose.
Vorhersagesimulation
Die Vorhersagesimulation ermöglicht das Testen von bereits trainierten Modellen. So
kann manuell geprüft werden, ob die Ergebnisse (mit neuen Daten) mit den erwarteten
Ergebnissen übereinstimmen.
- 153 -
15 Eidesstattliche Erklärung
15 Eidesstattliche Erklärung
Gemäß § 26 (1) der DPO erkläre ich an Eides statt, dass ich die vorliegende Arbeit
selbständig angefertigt habe. Ich habe mich keiner fremden Hilfe bedient und keine anderen,
als die angegebenen Quellen und Hilfsmittel benutzt. Alle Stellen, die wörtlich oder
sinngemäß veröffentlichten oder nicht veröffentlichten Schriften und anderen Quellen
entnommen sind, habe ich als solche kenntlich gemacht. Diese Arbeit hat in gleicher oder
ähnlicher Form noch keiner Prüfungsbehörde vorgelegen.
Dortmund, den 15.03.2009
______________________________
(Dennis Halboth)
- 154 -
16 Erklärung
16 Erklärung
Mir ist bekannt, dass nach § 156 StGB bzw. § 163 StGB eine falsche Versicherung an Eides
Statt bzw. eine fahrlässige falsche Versicherung an Eides Statt mit Freiheitsstrafe bis zu drei
Jahren bzw. bis zu einem Jahr oder mit Geldstrafe bestraft werden kann.
Dortmund, den 15.03.2009
______________________________
(Dennis Halboth)
- 155 -
17 Stichwortverzeichnis
-AA selection of useful ISU-Tables 138
Abbildungsverzeichnis 148
ABC-Analyse
Bewertung 61
Konfiguration 59
Modellergebnisse 61
ABC-Analyse 55
Ablauf 58
Beispiele in der Versorgerbranche 56
Mathematische Grundlagen 57
mehrfach 55
Umsetzung im SAP BI 7.0 58
Abgrenzung 12
Abhängige und unabhängige Variablen 96
Abhängigkeitsanalyse 19
Abkürzungsverzeichnis 147
Abschluss 133
Abstract 5
Abweichungen 97
Abweichungsanalyse 19
Ähnlichkeit 44
Anhang 137
Apriori-Algorithmus 75
Assess Model 126
Assess Situation 109
Assoziationsanalyse
Bewertung 81
Konfiguration 76
Modellergebnisse 79
Assoziationsanalyse 70
Assoziationsregel 73
Ausblick 135
Automatisierungen 36
-BBaumsicht 80, 92
Bestimmtheitsmaß 97
- 156 -
Blätter 83
Build Model 119
Business Understanding 26, 108
-CClassification Criterium 59
Classified Object 59
Clean Data 115, 141
Clusteranalyse 40
Bewertung 54
Konfiguration 49
Modellergebnisse 52
Collect Initial Data 110, 139
Construct Data 115, 141
CRISP-Prozess 25, 108
-DData Mining 14
Einführung 14
Entwicklungsgeschichte 15
Übersicht der Verfahren 18
Voraussetzungen 23
Data Preparation 26, 113
Data Understanding 26, 110
Data-Mining-Verfahren 34, 40
Data-Mining-Workbench 30
Anlegen eines DM-Modells 32
Aufbau 31
Unterschiede APD-Workbench 30
Weitere Funktionen 35
Datenqualität 23
Deployment 27, 130
Describe Data 110
Determinationskoeffizient 97
Determine Business Objectives 108
Determine Data Mining Goals 110
Determine Next Steps 130
Distanzfunktion 44
-EEinflussdiagramm 52
Eingesetzte Software 12
Einleitung 9
Entropie 85
Entscheidungsbaum
Ablauf 86
Bewertung 93
Konfiguration 89
Modellergebnisse 92
Entscheidungsbaum 82
euklidischen Distanz 45
Evaluate Results 128
Evaluation 27, 128
evu.it GmbH
Geschäftsbereiche 11
evu.it GmbH 10
Explore Data 113
-FFallstudie 108
Fayyad-Prozess 27
Fazit 134
Format Data 115, 141
-GGenerate Test Design 118
Gittersicht 79
Glossar 159
Grouping Attribute 59
-HHintergrundverarbeitung 36
Hinweise 137
-IImplementierung weiterer Verfahren 107
Informationsgewinn 86
Inhaltsverzeichnis 6
Integrate Data 115, 141
Item 72
Itemset 73
-KKanten 83
KDD 17
Kennzahl I 98
Kennzahl R 97
Klassifikation 18
k-means-Algorithmus 48
Knoten 83
Knowledge Discovery in Databases 16
Kombination verschiedener Verfahren 104
Kompaktheit 45
Konfidenz 74
Kündigungsprävention 108
Analyseprozess 116
Kurzfassung 4
-LLift 74
Lp-Metrik 45
-MManhattan-Distanz 45
Markenrechtlicher Hinweis 3
Modeling 27, 118
multiple Regression 99
-NNetzplansicht 92
-OOLAP 21
Overfitting 89
-PPareto-Verteilung 57
Plan Deployment 130
Prognose 19
Prozessketten 38
Prozessmodelle 24
Pruning 89
-QQuellenverzeichnis 155
-RRegressionsanalyse
Ablauf 98
Bewertung 102
Konfiguration 99
Mathematische Grundlagen 96, 102
Modellergebnisse 101
nicht linear 94
Regressionsanalyse 94
linear 94
Regressionsgerade 96
- 157 -
Review Project 131
rku.it 11
Support 73
Systeme 13
-SSäuberlich-Prozess 28
Scoring
Ablauf 64
Bewertung 68
Gewichtungen 64
Konfiguration 64
Modellergebnisse 68
Scoring
Scoring-Verfahren 62
Segmentierung 18
Select Data 113
Select Modeling Technique 118
Sperrvermerk 2
Split 83
-TThematik 9
Transaktion 73
- 158 -
-Uüberwachtes Lernen 21
unüberwachtes Lernen 21
-VVerify Data Quality 113
Vorhersage 19
Vorhersagesimulation 53, 93
-WWurzel 83
-ZZielsetzung der Arbeit 11
Zusammenfassung 133

„Data Mining im SAP® Business Intelligence 7.0“

Transcrição

Documentos relacionados

SAP BW – Business Warehouse - Bsys Mitteldeutsche Beratungs

SAP® SRM - sirius

Fachkraft für Rechnungswesen mit SAP® FI und DATEV Bonn

Broschüre - DMS Optimizer

DIRECTINVOICECONTROL - AFI - PM Belz Agentur für Informatik

P Eingang Freigelände Nord/West Entrance open

Joachim Dormann - Informatik-Betriebswirt (VWA) SAP CRM

Title of the presentation This is the subtitle

sap value prototyping “world template”

Leseprobe

TDL Teiledifferenzierte Logistikoptimierung in Beschaffung und