Data Mining - Persönliche Webseiten der Informatik

Transcrição

Data Mining - Persönliche Webseiten der Informatik
 für Angewandte Wissenschaften Hamburg
Hochschule
Hamburg University of Applied Sciences
Data Mining
Ausarbeitung im Rahmen der Ringvorlesung „Next Media“
Xenia Sataev
Fakultät Technik und Informatik
Department Informatik
Faculty of Engineering and Computer Science
Department of Computer Science
Inhaltsverzeichnis
1 Einleitung.......................................................................................................... 1 2 Begriffsbestimmung und Anwendungsgebiete .............................................. 2 2.1 KDD-Prozess .............................................................................................. 3 2.2 Datentypen und Anwendungsgebiete ......................................................... 4 3 Methoden des Data Mining ............................................................................. 6 3.1 Clusteranalyse ............................................................................................. 6 3.2 Klassifikation .............................................................................................. 7 3.3 Assoziationsanalyse .................................................................................... 7 3.4 Ausreißeranalyse ......................................................................................... 7 4 Verfahren für spezielle Datentypen ............................................................... 8 4.1 Text Mining ................................................................................................ 9 4.2 Web Mining ................................................................................................ 9 5 Fazit und Ausblick ......................................................................................... 10 Literaturverzeichnis ............................................................................................... 12 1 Einleitung
1
1 Einleitung
Im Zeitalter der Digitalisierung werden immer mehr Daten in den unterschiedlichsten Lebensbereichen gespeichert. Kaufverhalten in Supermärkten oder Onlineshops, Kriminalitätsdaten, Muster im Telefonierverhalten oder die Nutzung
sozialer Medien sind nur einige Beispiele von Daten, die sich tagtäglich vervielfachen.
„,We are living in the information age’ is a popular saying; however, we are actually
living in the data age. Terabytes or petabytes of data pour into our computer networks, the World Wide Web (WWW), and various data storage devices every day
from business“ (Han et al. 2012: 1).
Das Bewusstsein für das Potenzial der Erkenntnisse, die aus den Daten gewonnen
werden können und damit die Auseinandersetzung mit diesen, ist in den letzten
Jahren stark gestiegen. Neben großen Unternehmen haben mittlerweile auch vermehrt kleine und mittelständische Unternehmen sowohl die Kapazität, die Daten
zu speichern, als auch vereinzelt Experten, die diese zu nützlichem Wissen verarbeiten können. Auch staatliche Organisationen, Behörden, Polizei oder Krankenhäuser machen sich Daten von Bürgern, Verbrechen oder Patienten zunutze.
Fayyad definiert Data Mining als „[...] one of the central activities associated with
understanding, navigating, and exploiting the new world of digital data“ (Fayyad
2001: 62).
Im folgenden wird der Begriff Data Mining näher betrachtet und im Zusammenhang mit dem Knowledge Discovery Process (KDD) vorgestellt. Des Weiteren
werden unterschiedliche Datentypen und Anwendungsgebiete von Data Mining
behandelt. Kapitel 3 gibt einen Überblick über einige der zahlreichen Methoden
des Data Mining. Anschließend werden zwei Verfahren für spezielle Datentypen
betrachtet: Das Text und das Web Mining. Letztlich wird in Kapitel 5 die Arbeit
resümiert und Problemfelder des Data Mining thematisiert.
2 Begriffsbestimmung und Anwendungsgebiete
2
2 Begriffsbestimmung und Anwendungsgebiete
Der Begriff Data Mining wurde in den 90er Jahren geprägt. „Während man im
Bergbau, zum Beispiel beim Coal Mining, die Kohle sucht, und abbaut, will man
im Data Mining nicht die Daten ,abbauen‘, sondern man sucht nach Schätzen, die
in den Daten verborgen sind“ (Cleve/ Lämmel 2014: 2).
Data Mining bezeichnet den Prozess, Korrelationen und Strukturen1 beziehungsweise Muster aus einer großen Datenmenge zu entdecken. Shi beschreibt diesen
Prozess als „extracting the unknown but potentially useful information and knowledge that is hidden inside mass, noisy, fuzzy, and random practical applied data“
(Shi 2014: 3). Um relevante und bisher unbekannte Informationen aufzudecken,
werden große Datenbestände mittels mathematischer Verfahren analysiert.
Für die Analyse greift die „Crossdisziplin“ Data Mining auf verschiedene Methoden aus der Statistik, der Künstlichen Intelligenz (maschinelles Lernen) und der
Informatik (Datenbanksysteme) zurück2 (vgl. Müller/ Lenz 2013: 75). Die analysierten Daten sind elektronisch gespeichert und werden größtenteils automatisch
durch Computer verarbeitet (vgl. Witten et al. 2011: 4). Dennoch ist eine manuelle Bearbeitung der Daten sowie die Interpretation der Ergebnisse durch Menschen
notwendig: „Ultimately, defining which structures are ,interesting enough‘ to be
deemed ,knowledge‘ is up to the human user3“ (Fayyad 1998: 116).
In der wissenschaftlichen Auseinandersetzung mit dem Begriff Data Mining existieren zwei unterschiedliche Perspektiven. Auf der einen Seite wird Data Mining
als ein Schritt des Prozesses Knowledge Discovery in Databases (KDD) nach Fayyad et al. (1996) gesehen (vgl. Fayyad et al. 1996; vgl. Gabriel et al. 2009). Auf
1
„Structure can be a simple set of patterns, a parameterized model, or a mixture of models“ (Fayyad 1998: 116).
2
„Today’s data mining algorithms [...] draw on mathematical techniques from probability theory,
information theory, estimation, uncertainty, graph theory, and database techniques“ (Fayyad
2001: 64).
3
„Data mining is not about automating data analysis. Data mining is about making analysis more
convenient, scaling analysis algortihms to large databases, and providing data owners with
easy-to-use tools to help them navigate, visualize, summarize, and model data. It is not the “robot” that is finding interesting patterns. The “robot” is merely enumerating, sifting, and filtering
patterns. The human user is the ultimate judge of what is interesting or useful. [...]. Data mining
tools serve their role in the KDD process as a step in an otherwise interative, and highly humancentric process“ (Fayyad 1998: 6).
2 Begriffsbestimmung und Anwendungsgebiete
3
der anderen Seite wird dieses mit dem KDD-Prozess synonym verwendet und umfasst alle Prozessschritte (vgl. Müller/ Lenz 2013; vgl. Cleve/ Lämmel 2014).
Die vorliegende Arbeit betrachtet Data Mining als Synonym zum KDD, der im
folgenden dargestellt wird.
2.1 KDD-Prozess
Fayyad et al. definieren den KDD-Prozess als „the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in
data“ (Fayyad et al. 1996: 30). In ihrem Modell (vgl. ebd. 30ff.) besteht Knowledge Discovery in Databases aus folgenden Schritten (vgl. Abb. 1):
§
Selektion der Daten
§
Datenvorverarbeitung
§
Transformation
§
Data Mining
§
Interpretation der Ergebnisse
(Abb. 1: KDD-Modell nach Fayyad et al. 1996: 29)
Im ersten Schritt werden die verfügbaren Daten gesichtet sowie daraus die zu verarbeitenden, hinsichtlich der Fragestellung relevanten Daten ausgewählt (Selektion). Der folgende Schritt dient der Beseitigung von Datenqualitätsproblemen. Die
ausgewählten Daten werden vorverarbeitet und bereinigt. Dabei werden beispielsweise Ausreißer identifiziert und fehlerhafte Werte korrigiert (Datenvorverarbeitung). Im Prozessschritt Transformation werden die Daten in für das Data
Mining angemessene Datenformate umgewandelt. So werden zum Beispiel metrische Werte in Intervalle gruppiert (vgl. Cleve/ Lämmel 2014: 5).
Der vierte Schritt Data Mining ist die eigentliche Datenanalyse, die Suche nach
Mustern. Somit wird zunächst eine geeignete Methode für die Analyse der Daten,
wie etwa Klassifikation oder Clustering (vgl. Kapitel 3), ausgewählt. Dabei wird
2 Begriffsbestimmung und Anwendungsgebiete
4
zwischen zwei Aufgaben des Data Mining unterschieden: Die Beschreibung und
die Vorhersage. Ziel der Beschreibung ist es, die Realität abzubilden, indem die
Daten charakterisiert werden. So werden zum Beispiel typische Verhaltensregeln
(Muster) der analysierten Kundengruppe aufgedeckt. Bei der Prognose geht es um
die Aufstellung von Regeln auf Basis der analysierten Daten, mit deren Hilfe eine
Vorhersage für das zukünftige Verhalten anderer Kunden mit ähnlichen Eigenschaften getroffen werden kann.
Im letzten Prozessschritt Interpretation werden die entdeckten Muster und Regelmäßigkeiten interpretiert und in verständlicher Form aufbereitet bzw. visualisiert. (Vgl. Fayyad et al. 1996: 29ff.)
Das von einem Konsortium entwickelte Modell CRISP wird aufgrund der Ähnlichkeit der Prozessschritte zum beschriebenen KDD-Modell in der vorliegenden
Arbeit vernachlässigt.
2.2 Datentypen und Anwendungsgebiete
Die Anwendungsbereiche von Data Mining sind sehr vielfältig und reichen von
Kreditwürdigkeits- über Warenkorbanalysen hin zu Verbrechensvorhersagen der
Polizei. Dabei geht es unter anderem darum, Risiken zu minimieren, Wettbewerbsvorteile herauszuarbeiten, eine Grundlage für Entscheidungen zu schaffen
oder dem Gegner einen Schritt voraus zu sein.
„Data Mining ist besonders für Probleme geeignet,
§
§
§
§
die eine komplexe, wissensbasierte Entscheidung verlangen,
in der eine richtige Entscheidung einen Mehrwert erzeugt,
die momentan mit sub-optimalen Methoden gelöst werden und
in der genügend relevante Daten vorhanden sind“ (Müller/ Lenz 2013: 81).
Große Datenmengen existieren heutzutage in sehr vielen Bereichen. So wird Data
Mining unter anderem für die Optimierung von industriellen Fertigungsprozessen
eingesetzt, was der Steigerung der Wettbewerbsfähigkeit dienen soll.
Im Marketing werden Kunden- und Produktdaten in Form von den bereits erwähnten Warenkorbanalysen verarbeitet. Ausgewertet wird insbesondere, welche
Produkte im Supermarkt zusammen gekauft werden (zum Beispiel Windeln und
Bier), um die Preisgestaltung oder die Produktplatzierung zu optimieren. Durch
die Kundensegmentierung mit Hilfe von Data Mining können gezielte Kundenangebote und Werbemaßnahmen entwickelt werden.
2 Begriffsbestimmung und Anwendungsgebiete
5
In der Wissenschaft findet Data Mining zum Beispiel in der Erbgutanalyse der
biomedizinischen Informatik Verwendung. So können mithilfe von Datenbanken
mit Genomdaten Genfunktionen bestimmt werden.
Neben numerischen Daten werden Textdaten und strukturierte Daten betrachtet.
Die Analyse von Textdokumenten und internetbasierten Dokumenten trägt unter
anderem dazu bei, das Filtern oder die Suche nach Informationen zu verbessern.
Seit der Verbreitung von Digitalkameras ist auch die Menge an Bilddaten enorm.
Analyseverfahren werden für die Suche und Erkennung von Objekten, Analyse
und Klassifizierung von Szenen sowie der Inbeziehungsetzen der Bilddaten mit
anderen Informationen eingesetzt. (Vgl. Runkler 2010: 1 f.)
Müller und Lenz unterscheiden zehn verschiedene Datentypen. Strukturierte Daten finden sich in Datenbanktabellen und können Buchhaltungsdaten in Unternehmen sein. Produkte wie Milch, Brot und Bier werden in Warenkorbanalysen
als Menge bezeichnet. Der Klickpfad eines Besuchers einer Webseite wird als Sequenz abgespeichert. Wichtig dabei ist die Reihenfolge der Daten, die in einer Sequenz zusammengefasst werden.
Texte sind unstrukturierte Daten, die zum Beispiel auf Webseiten oder in E-Mails
zu finden sind. Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von semistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungssprache wie HTML zugreift. Zeitreihen sind ebenfalls wie Sequenzen, zeitlich geordnete Folgen. Zusätzlich wird jedoch auch der Mess- oder Beobachtungszeitpunkt
mit erfasst. Auf diese Weise werden unter anderem Betriebsunfälle je Schicht
ausgewertet.
Die Verbindungen der einzelnen Mitglieder in sozialen Netzwerken können in
Graphen dargestellt werden. Diese bestehen aus Knoten, die mit gerichteten oder
ungerichteten Kanten miteinander verbunden sind. Räumliche Muster werden
durch die Analyse von Geodaten aufgedeckt. Mit Hilfe von Geodaten können unter anderem Cluster der Adressdaten von Kunden gebildet werden. Bilder werden,
wie bereits beschrieben, für die Bildmustererkennung analysiert. Die Gesichtserkennung von Apple erfasst nach einer Lernphase automatisch Gesichter. Bei diesem Datentypen ist jedoch eine aufwändige Vorverarbeitung nötig.
Multimediale Daten wie Audio oder Video sind aufgrund des Speicherbedarfs und
des Laufzeitverhaltens ebenfalls nicht einfach in der Handhabung. Programme
wie der MusicMiner analysieren den Rhythmus, um eine Musiksammlung auf ei-
3 Methoden des Data Mining
6
ner visuellen Landkarte darzustellen, auf der ähnliche Musikstücke näher beieinander liegen. (Vgl. ebd.)
Die Verarbeitung der Daten erfolgt mit Hilfe von Data Mining Tools. Dabei gibt
es eine Vielzahl von bezahlter und kostenloser Software. Die umsatzstärksten
Programme sind SAP, Oracle, IBM und SAS (vgl. Müller/ Lenz 2013: 261). Open
Source Software bieten RapidMiner oder Weka für die Datenverarbeitung an.
3 Methoden des Data Mining
Im Data Mining können abhängig von Fragestellung, Datentyp und Anwendungsgebiet unterschiedliche Methoden angewendet werden. Im folgenden werden ausgewählte Methoden vorgestellt.
3.1 Clusteranalyse
Die Clusteranylse ist eine wichtige Methode im Data Mining. Sie kann genutzt
werden „to gain insight into the distribution of data, to observe the characteristics
of each cluster, and to focus on a particular set of clusters for further analysis“
(Han et al. 2012: 445).
Im Clustering geht es darum Strukturen in den Daten zu finden und die Daten
aufzuteilen. Datenobjekte werden automatisch durch Algorithmen in Gruppen
(Cluster) eingeteilt. Dabei werden Objekte mit ähnlichen Eigenschaften gruppiert,
die Objekte unterschiedlicher Cluster unterscheiden sich hingegen voneinander.
Somit sind sich die Objekte innerhalb eines Clusters so „nah“ wie möglich, während die verschiedenen Cluster sich so „fern“ wie möglich sind. Die Distanz bemisst sich an allen verfügbaren Variablen. Das Clustern kann auch im Datenvorverarbeitungsschritt eingesetzt werden, um homogene Gruppen zu identifizieren.
(Vgl. Pastuchovöá/ Václavíková 2013: 128)
Neben Kundensegmentierung werden Clusterverfahren beispielsweise in der Geologie eingesetzt. Erdbebenepizentren werden geclustert, um auf diese Weise gefährliche Zonen zu bestimmen. In der Versicherung werden durch das Verfahren
Betrüger anhand von überdurchschnittlich hohen Schadenskosten identifiziert.
(Vgl. Dey 2012: 351f.)
3 Methoden des Data Mining
7
3.2 Klassifikation
Klassifikation ist ebenfalls eine sehr verbreitete Methode. Ähnlich wie bei dem
Clustering zielt die Klassifikation darauf ab, Datenobjekte verschiedenen Gruppen
(Klassen) zuzuordnen. Der Unterschied zum Clustering ist, dass in der Clusteranalyse die Gruppen automatisch gefunden werden, in der Klassifikation jedoch
bereits bekannt sind. Dabei werden in dem Prozess Regeln gesucht, um die Klasse
eines Objekts zu bestimmen.
Im Marketing werden für den Versand von Katalogen Neukunden in potenzielle
Käufer bzw. Nichtkäufer klassifiziert, um unnötige Kosten zu vermeiden. Des
Weiteren wird Klassifikation für die Insolvenzprognose eingesetzt, die Unternehmen in kreditwürdig bzw. nicht kreditwürdig klassifiziert. (Vgl. Müller/ Lenz
2013: 95f.)
3.3 Assoziationsanalyse
Auch in der Assoziationsanalyse geht es um das Finden von Regeln in den vorhandenen Daten. Es werden Beziehungen herausgearbeitet, die zwischen Attributen bestehen und somit Zusammenhänge zwischen Objekten erkannt. Die Abhängigkeiten werden in der Form A -> B („wenn A, dann wahrscheinlich auch B“)
dargestellt. Das Verfahren dient der Ableitung von Vorhersagen aus den vorhandenen Daten: „Die Assoziationsanalyse ist ein vorhersagendes Data-MiningVerfahren. Es analysiert die Daten, um Regelmäßigkeiten zu identifizieren und
das Verhalten neuer Datensätze vorherzusagen“ (Cleve/ Lämmel 2014: 64).
In der Praxis wird es unter anderem in der Warenkorbanalyse verwendet. Die Abhängigkeit drückt sich in der Form: „Wer Produkt A kauft, kauft häufig auch Produkt B“ aus. Anhand der Ergebnisse kann ein Unternehmen seine Produktplatzierung anpassen oder im Onlineshopping automatisch Produkt B vorschlagen, wenn
Produkt A in den Warenkorb gelegt wird. (Vgl. ebd. 63f.)
3.4 Ausreißeranalyse
Bei der Ausreißeranalyse werden Datensätze identifiziert, die im Vergleich zu
dem Gesamtdatensatz untypisch sind. Als Ausreißer werden Objekte bezeichnet,
die sich vom allgemeinen Verhalten bzw. Modell der restlichen Daten unterschei-
4 Verfahren für spezielle Datentypen
8
den. „An outlier is a data object that deviates significally from the rest of the objects, as if it were generated by a different mechanism“ (Han et al. 2012: 327).
In vielen Methoden werden Ausreißer im Datenbereinigungsschritt (vgl. Kapitel
2.1) als Rauschen entfernt. In einigen Analysen, wie beispielsweise Betrugsidentifizierung, können seltene Fälle jedoch interessanter sein als die regelmäßigen.
Ausreißer können unter anderem mit Hilfe von Distanzmessungen identifiziert
werden, in denen Objekte, die weit entfernt von allen Clustern liegen, als Ausreißer betrachtet werden.
Nützlich sind solche Verfahren in etwa in der Aufdeckung von Kreditkartenbetrug. Anhand dieser Analysen können außergewöhnlich hohe Abhebungssummen,
ungewöhnliche Orte oder eine besonders hohe Einkaufshäufigkeit bemerkt und
genauer geprüft werden. Um den Bankkunden jedoch nicht täglich mit einem falschen Alarm zu stören, weil er ein etwas teureres Essen als gewöhnlich gekauft
hat oder sich vor dem Urlaub nicht abgemeldet hat, wird auch vor Ausreißeranalysen der Datenbereinigungsschritt durchgeführt und Rauschen beseitigt.
(Vgl. ebd. 20 ff.)
Weitere Methoden wie Entscheidungsbäume, Regression, Korrelation oder Neuronale Netze werden aufgrund des Umfangs der Arbeit nicht thematisiert.
4 Verfahren für spezielle Datentypen
Spezielle Formen von Data Mining sind Text und Web Mining. Die Besonderheiten sind zum einen die Struktur der Daten, zum anderen die Herkunft dieser. Der
zu untersuchende Datentyp ist un- bzw. semistrukturierter Text.
Die Analysen sollen neue Erkenntnisse liefern bzw. zur Entwicklung von Hypothesen beitragen. Obwohl sich die beiden Verfahren aus methodischer Sicht sehr
ähneln, bedienen sie sich verschiedener Datenquellen und werden in unterschiedlichen Anwendungsgebieten eingesetzt. (Vgl. Müller/ Lenz 2013: 110)
4 Verfahren für spezielle Datentypen
9
4.1 Text Mining
Text Mining dient der Entdeckung neuer Informationen und Muster in Textdokumenten mittels spezifischer Algorithmen. Laut Schätzungen bilden Texte 80% der
Informationsbasis eines Unternehmens. (Vgl. Gabriel et al. 2009: 142ff.)
Sie besitzen zwar eine Semantik, sind jedoch unstrukturierte Daten, die sich von
den strukturierten Daten in Datenbanken unterscheiden.
Häufig soll ein Dokument mit Hilfe des Text Mining nach Themengebieten klassifiziert werden. Da Texte unstrukturierte Daten sind, werden in einem ersten
wichtigen Schritt die relevanten Informationen aus dem Text herausgezogen. Dies
geschieht in etwa durch die Identifikation von Schlüsselwörtern oder der Häufigkeitsverteilung von Begriffen.
Besondere Bedeutung haben auch der Datenbereinigungsschritt und der Datenvorverarbeitungsschritt im Text Mining-Verfahren. So müssen unter anderem
nicht relevante Wörter entfernt oder Abürzungen sowie Synonyme erkannt werden. Die Groß- und Kleinschreibung wird meist ignoriert. Mit dem Stemming
werden Wörter auf ihren Wortstamm gekürzt, um Wörter mit unterschiedlicher
Schreibweise miteinander vergleichen zu können. Auch die Einteilung des Dokumentes in seine einzelnen Bestandteile, wie Kapitel, Absatz oder Satz, ist ein
gängiges Vorgehen.
Das Ergebnis der vorherigen Schritte ist „eine reduzierte Menge von Wörtern (bag
of words), die man zusätzlich noch gewichten kann. Auf der Basis dieser Wortmengen findet dann die eigentliche Datenanalyse statt“ (Cleve/ Lämmel 2014:
65). (Vgl. ebd.)
4.2 Web Mining
Bei dem Verfahren des Web Mining handelt es sich um die Analyse von Daten
aus dem World Wide Web.
Es werden drei Formen von Web Mining unterschieden: Das Web Content Mining, Web Structure Mining und Web Usage Mining (vgl. Gabriel et al. 2009:
143f.). Mit dem Web Content Mining werden ebenso wie mit dem Text Mining
neue Muster und neues Wissen aus textuellen und multimedialen Dokumenten
verschiedener Formate entdeckt. Das Web Structure Mining bezeichnet die Unter-
5 Fazit und Ausblick
10
suchung und Auswertung von Linkstrukturen auf der Typologie von Hyperlinks.
Mit diesen Analysen lassen sich zum Beispiel Webseiten kategorisieren und ihre
Ähnlichkeiten und Unterschiede aufdecken. „Für die thematische und nutzerfreundliche Gestaltung solcher Web-Ressourcen ist es für die WebsiteAdministratoren wichtig zu wissen, ob z. B. Seiten mehr Verweischarakter (sog.
hub pages) haben oder inhaltsbezogen (sog. content pages) sind“ (Müller/ Lenz
2013: 117f.). Die dritte Form des Web Mining, das Web Usage Mining, dient der
Untersuchung der Daten, die während der Nutzung einer Webseite innerhalb einer
oder mehrerer Sitzungen protokolliert werden. Interessant sind in diesem Zusammenhang vor allem Klickstatistiken, die zur Optimierung der Seiten bezüglich
Zugriffspfade oder indivualisierter Inhalte genutzt werden. (Vgl. ebd. 117f.)
5 Fazit und Ausblick
„Identifying interesting structure and useful patterns among the plethora of possibilities is what a data mining algorithm must do, and it must do it quickly over
very large databases“ (Fayyad 2002: 29f.).
Angesichts der durch die Digitalisierung immer mehr steigenden Datenmassen4
sowie Speicherung dieser, reichen manuelle Auswertungsmethoden nicht aus, um
Erkenntnisse aus diesen zu ziehen. Demnach sind Data Mining Tools unabdingbar
geworden. Diese können dazu genutzt werden, von der Fragestellung abhängige
Methoden wie etwa Cluster- oder Ausreißeranalysen anzuwenden, um Kenntnisse
aus den Daten zu gewinnen. Für Daten aus Texten oder dem Internet wurden die
spezifischen Formen Text und Web Mining entwickelt, die auf ähnlichen Methoden basieren, jedoch speziell an die besonderen Datentypen angepasst sind. Doch
auch die computerbasierten Programme allein reichen nicht aus. Für die Wahl der
Methode oder die korrekte Interpretation der Ergebnisse werden Spezialisten benötigt (vgl. Fayyad 1998: 6). Die gespeicherten Datenmengen steigen stetig und
viele Unternehmen und Organisationen haben erkannt, welcher Nutzen sich hinter
den Daten verbergen kann. Allerdings mangelt es an Experten, die in der Lage
4
„The capacity of digital data storage worldwide has doubled every nine months for at least a decade, at twice the rate predicted by Moore’s Law for the growth of computing power during the
same period“ (Fayyad 2002: 28).
5 Fazit und Ausblick
11
sind mit diesen Daten umzugehen. „Our ability to capture and store data has far
outpaced our ability to process and utilize it“ (Fayyad 2002: 28). So sind Datenanalysten eine gesuchte Berufsgruppe auf dem Arbeitsmarkt.
Trotz der Vorteile von Data Mining birgt dieses auch Nachteile und Probleme.
Das Wachstum neuer Datentypen und die Analyse dieser stellt die Analysten vor
eine Herausforderung:
„Diverse applications generate a wide spectrum of new data types, from structured
data such as relational and data warehouse data to semi-structured and unstructured
data; from stable data repositories to dynamic data streams; from simple data objects
to temporal data, biological sequences, sensor data, spatial data, hypertext data, multimedia data, software program code, Web data, and social network data“ (Han et al.
2012: 32).
Aufgrund dieser Vielfalt an Datentypen und auch der verschiedenen Ziele einer
Analyse werden unterschiedliche Data Mining Systeme benötigt.
Auch der Datenschutz ist ein Thema, das bei der Analyse der Daten zu beachten
ist. Oft werden Daten von Nutzern oder Käufern analysiert. Obwohl die Daten
überwiegend aggregiert werden, spielt die Nichtaufdeckung persönlicher Daten
einzelner Individuen eine wichtige Rolle beim Data Mining (vgl. ebd.). Data Mining kann neben positiven Zwecken auch gegen Konkurrenten oder Feinde eingesetzt werden:
„Moreover, data mining tools can work both ways—also helping individuals figure
out when their space is being mined inappropriately. Since competition is part of our
human nature, wars will be waged over this information. Data banks will be held
hostage and robbed. Magnificent digital libraries will be destroyed“ (Fayyad 2001:
65).
Um valide Ergebnisse zu bekommen und nutzen zu können gilt es Probleme wie
schlechte Datenqualität, falsche Interpretation der Ergebnisse oder die Anwendung statistischer Werte auf Einzelne zu vermeiden. Die auf die Situation abgestimmte Vorverarbeitung der Daten sowie die anderen vier Prozessschritte des
Knowledge Discovery (vgl. Kapitel 2.1) sind dafür von Bedeutung.
Trotz der Gefahren hat Data Mining ein großes Potenzial nützliches Wissen auf
vielen Gebieten zu generieren. Mit der Entwicklung immer besserer und schnellerer Tools, werden die Möglichkeiten, Erkenntnisse aus der riesigen Datenflut zu
extrahieren, vergrößert.
„In the same vein, my imagination fails to begin to visualize the wonders we will
discover as data mining evolves into the effective cybernavigation science of tomorrow. I envy the early discovery expeditions into the new world of data. A wondrous
journey awaits us all“ (ebd).
Literaturverzeichnis
12
Literaturverzeichnis
Cleve, Jürgen/ Lämmel, Uwe (2014): Data Mining. München.
Dey, Pabitra Kumar/ Chakraborty, Gangotri/ Ruj, Purnendu/ Sarkar, Suvobrata
(2012): A Data Mining Approach on Cluster Analysis of IPL. In: International
Journal of Machine Learning and Computing, 2012, Vol. 2, Nr. 4: 351-354.
Fayyad, Usama/ Piatetsky-Shapiro, Gregory/ Smyth, Padhraic (1996): The
KDD Process for Extracting Useful Knowledge from Volumes of Data. In:
Communications of the ACM, Nov. 1996, Vol. 39, Nr. 11: 27-34.
Fayyad, Usama (1998): Editorial. In: Data Mining and Knowledge Discovery 2.
Kluwer Academic Publishers: 5-7; 115-119.
Fayyad, Usama (2001): The Digital Physics of Data Mining. In: Communications
of the ACM, March 2001, Vol.44, Nr. 3: 62-65.
Gabriel, Roland/ Gluchowski, Peter/ Pastwa, Alexander (2009): Data Warehouse & Data Mining. Herdecke/ Witten.
Han, Jiawei/ Kamber, Micheline/ Pei, Jian (2012): Data mining: concepts and
techniques. Amsterdam.
Müller, Roland M./ Lenz, Hans-Joachim (2013): Business Intelligence. Berlin/
Heidelberg.
Pastuchovöá, Elena/ Václavíková, Stefánia (2013): Cluster Analysis – Data Mining Technique for Discovering Natural Groupings in the Data. In: Journal of
Electrical Engineering, 2013, Vol. 64, Nr. 2: 128–131.
Runkler, Thomas A. (2010): Data Mining. Methoden und Algorithmen intelligenter Datenanalyse. Wiesbaden.
Sharafi, Armin (2013): Knowledge Discovery in Databases: Eine Analyse des
Änderungsmanagements in der Produktentwicklung. Wiesbaden.
Shi, Guangren (2014): Data Mining and Knowledge Discovery for Geoscientists.
Amsterdam.
Witten, Ian H./ Frank, Eibe/ Hall, Mark A. (2011): Data Mining: Practical Machine Learning Tools and Techniques. Amsterdam.
Versicherung über Selbstständigkeit
Hiermit versichere ich, dass ich die vorliegende Arbeit im Sinne der Prüfungsordnung ohne fremde Hilfe selbstständig verfasst und nur die angegebenen Hilfsmittel benutzt habe.
________________________
(Datum, Unterschrift)