Data Mining - Persönliche Webseiten der Informatik
Transcrição
Data Mining - Persönliche Webseiten der Informatik
für Angewandte Wissenschaften Hamburg Hochschule Hamburg University of Applied Sciences Data Mining Ausarbeitung im Rahmen der Ringvorlesung „Next Media“ Xenia Sataev Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis 1 Einleitung.......................................................................................................... 1 2 Begriffsbestimmung und Anwendungsgebiete .............................................. 2 2.1 KDD-Prozess .............................................................................................. 3 2.2 Datentypen und Anwendungsgebiete ......................................................... 4 3 Methoden des Data Mining ............................................................................. 6 3.1 Clusteranalyse ............................................................................................. 6 3.2 Klassifikation .............................................................................................. 7 3.3 Assoziationsanalyse .................................................................................... 7 3.4 Ausreißeranalyse ......................................................................................... 7 4 Verfahren für spezielle Datentypen ............................................................... 8 4.1 Text Mining ................................................................................................ 9 4.2 Web Mining ................................................................................................ 9 5 Fazit und Ausblick ......................................................................................... 10 Literaturverzeichnis ............................................................................................... 12 1 Einleitung 1 1 Einleitung Im Zeitalter der Digitalisierung werden immer mehr Daten in den unterschiedlichsten Lebensbereichen gespeichert. Kaufverhalten in Supermärkten oder Onlineshops, Kriminalitätsdaten, Muster im Telefonierverhalten oder die Nutzung sozialer Medien sind nur einige Beispiele von Daten, die sich tagtäglich vervielfachen. „,We are living in the information age’ is a popular saying; however, we are actually living in the data age. Terabytes or petabytes of data pour into our computer networks, the World Wide Web (WWW), and various data storage devices every day from business“ (Han et al. 2012: 1). Das Bewusstsein für das Potenzial der Erkenntnisse, die aus den Daten gewonnen werden können und damit die Auseinandersetzung mit diesen, ist in den letzten Jahren stark gestiegen. Neben großen Unternehmen haben mittlerweile auch vermehrt kleine und mittelständische Unternehmen sowohl die Kapazität, die Daten zu speichern, als auch vereinzelt Experten, die diese zu nützlichem Wissen verarbeiten können. Auch staatliche Organisationen, Behörden, Polizei oder Krankenhäuser machen sich Daten von Bürgern, Verbrechen oder Patienten zunutze. Fayyad definiert Data Mining als „[...] one of the central activities associated with understanding, navigating, and exploiting the new world of digital data“ (Fayyad 2001: 62). Im folgenden wird der Begriff Data Mining näher betrachtet und im Zusammenhang mit dem Knowledge Discovery Process (KDD) vorgestellt. Des Weiteren werden unterschiedliche Datentypen und Anwendungsgebiete von Data Mining behandelt. Kapitel 3 gibt einen Überblick über einige der zahlreichen Methoden des Data Mining. Anschließend werden zwei Verfahren für spezielle Datentypen betrachtet: Das Text und das Web Mining. Letztlich wird in Kapitel 5 die Arbeit resümiert und Problemfelder des Data Mining thematisiert. 2 Begriffsbestimmung und Anwendungsgebiete 2 2 Begriffsbestimmung und Anwendungsgebiete Der Begriff Data Mining wurde in den 90er Jahren geprägt. „Während man im Bergbau, zum Beispiel beim Coal Mining, die Kohle sucht, und abbaut, will man im Data Mining nicht die Daten ,abbauen‘, sondern man sucht nach Schätzen, die in den Daten verborgen sind“ (Cleve/ Lämmel 2014: 2). Data Mining bezeichnet den Prozess, Korrelationen und Strukturen1 beziehungsweise Muster aus einer großen Datenmenge zu entdecken. Shi beschreibt diesen Prozess als „extracting the unknown but potentially useful information and knowledge that is hidden inside mass, noisy, fuzzy, and random practical applied data“ (Shi 2014: 3). Um relevante und bisher unbekannte Informationen aufzudecken, werden große Datenbestände mittels mathematischer Verfahren analysiert. Für die Analyse greift die „Crossdisziplin“ Data Mining auf verschiedene Methoden aus der Statistik, der Künstlichen Intelligenz (maschinelles Lernen) und der Informatik (Datenbanksysteme) zurück2 (vgl. Müller/ Lenz 2013: 75). Die analysierten Daten sind elektronisch gespeichert und werden größtenteils automatisch durch Computer verarbeitet (vgl. Witten et al. 2011: 4). Dennoch ist eine manuelle Bearbeitung der Daten sowie die Interpretation der Ergebnisse durch Menschen notwendig: „Ultimately, defining which structures are ,interesting enough‘ to be deemed ,knowledge‘ is up to the human user3“ (Fayyad 1998: 116). In der wissenschaftlichen Auseinandersetzung mit dem Begriff Data Mining existieren zwei unterschiedliche Perspektiven. Auf der einen Seite wird Data Mining als ein Schritt des Prozesses Knowledge Discovery in Databases (KDD) nach Fayyad et al. (1996) gesehen (vgl. Fayyad et al. 1996; vgl. Gabriel et al. 2009). Auf 1 „Structure can be a simple set of patterns, a parameterized model, or a mixture of models“ (Fayyad 1998: 116). 2 „Today’s data mining algorithms [...] draw on mathematical techniques from probability theory, information theory, estimation, uncertainty, graph theory, and database techniques“ (Fayyad 2001: 64). 3 „Data mining is not about automating data analysis. Data mining is about making analysis more convenient, scaling analysis algortihms to large databases, and providing data owners with easy-to-use tools to help them navigate, visualize, summarize, and model data. It is not the “robot” that is finding interesting patterns. The “robot” is merely enumerating, sifting, and filtering patterns. The human user is the ultimate judge of what is interesting or useful. [...]. Data mining tools serve their role in the KDD process as a step in an otherwise interative, and highly humancentric process“ (Fayyad 1998: 6). 2 Begriffsbestimmung und Anwendungsgebiete 3 der anderen Seite wird dieses mit dem KDD-Prozess synonym verwendet und umfasst alle Prozessschritte (vgl. Müller/ Lenz 2013; vgl. Cleve/ Lämmel 2014). Die vorliegende Arbeit betrachtet Data Mining als Synonym zum KDD, der im folgenden dargestellt wird. 2.1 KDD-Prozess Fayyad et al. definieren den KDD-Prozess als „the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data“ (Fayyad et al. 1996: 30). In ihrem Modell (vgl. ebd. 30ff.) besteht Knowledge Discovery in Databases aus folgenden Schritten (vgl. Abb. 1): § Selektion der Daten § Datenvorverarbeitung § Transformation § Data Mining § Interpretation der Ergebnisse (Abb. 1: KDD-Modell nach Fayyad et al. 1996: 29) Im ersten Schritt werden die verfügbaren Daten gesichtet sowie daraus die zu verarbeitenden, hinsichtlich der Fragestellung relevanten Daten ausgewählt (Selektion). Der folgende Schritt dient der Beseitigung von Datenqualitätsproblemen. Die ausgewählten Daten werden vorverarbeitet und bereinigt. Dabei werden beispielsweise Ausreißer identifiziert und fehlerhafte Werte korrigiert (Datenvorverarbeitung). Im Prozessschritt Transformation werden die Daten in für das Data Mining angemessene Datenformate umgewandelt. So werden zum Beispiel metrische Werte in Intervalle gruppiert (vgl. Cleve/ Lämmel 2014: 5). Der vierte Schritt Data Mining ist die eigentliche Datenanalyse, die Suche nach Mustern. Somit wird zunächst eine geeignete Methode für die Analyse der Daten, wie etwa Klassifikation oder Clustering (vgl. Kapitel 3), ausgewählt. Dabei wird 2 Begriffsbestimmung und Anwendungsgebiete 4 zwischen zwei Aufgaben des Data Mining unterschieden: Die Beschreibung und die Vorhersage. Ziel der Beschreibung ist es, die Realität abzubilden, indem die Daten charakterisiert werden. So werden zum Beispiel typische Verhaltensregeln (Muster) der analysierten Kundengruppe aufgedeckt. Bei der Prognose geht es um die Aufstellung von Regeln auf Basis der analysierten Daten, mit deren Hilfe eine Vorhersage für das zukünftige Verhalten anderer Kunden mit ähnlichen Eigenschaften getroffen werden kann. Im letzten Prozessschritt Interpretation werden die entdeckten Muster und Regelmäßigkeiten interpretiert und in verständlicher Form aufbereitet bzw. visualisiert. (Vgl. Fayyad et al. 1996: 29ff.) Das von einem Konsortium entwickelte Modell CRISP wird aufgrund der Ähnlichkeit der Prozessschritte zum beschriebenen KDD-Modell in der vorliegenden Arbeit vernachlässigt. 2.2 Datentypen und Anwendungsgebiete Die Anwendungsbereiche von Data Mining sind sehr vielfältig und reichen von Kreditwürdigkeits- über Warenkorbanalysen hin zu Verbrechensvorhersagen der Polizei. Dabei geht es unter anderem darum, Risiken zu minimieren, Wettbewerbsvorteile herauszuarbeiten, eine Grundlage für Entscheidungen zu schaffen oder dem Gegner einen Schritt voraus zu sein. „Data Mining ist besonders für Probleme geeignet, § § § § die eine komplexe, wissensbasierte Entscheidung verlangen, in der eine richtige Entscheidung einen Mehrwert erzeugt, die momentan mit sub-optimalen Methoden gelöst werden und in der genügend relevante Daten vorhanden sind“ (Müller/ Lenz 2013: 81). Große Datenmengen existieren heutzutage in sehr vielen Bereichen. So wird Data Mining unter anderem für die Optimierung von industriellen Fertigungsprozessen eingesetzt, was der Steigerung der Wettbewerbsfähigkeit dienen soll. Im Marketing werden Kunden- und Produktdaten in Form von den bereits erwähnten Warenkorbanalysen verarbeitet. Ausgewertet wird insbesondere, welche Produkte im Supermarkt zusammen gekauft werden (zum Beispiel Windeln und Bier), um die Preisgestaltung oder die Produktplatzierung zu optimieren. Durch die Kundensegmentierung mit Hilfe von Data Mining können gezielte Kundenangebote und Werbemaßnahmen entwickelt werden. 2 Begriffsbestimmung und Anwendungsgebiete 5 In der Wissenschaft findet Data Mining zum Beispiel in der Erbgutanalyse der biomedizinischen Informatik Verwendung. So können mithilfe von Datenbanken mit Genomdaten Genfunktionen bestimmt werden. Neben numerischen Daten werden Textdaten und strukturierte Daten betrachtet. Die Analyse von Textdokumenten und internetbasierten Dokumenten trägt unter anderem dazu bei, das Filtern oder die Suche nach Informationen zu verbessern. Seit der Verbreitung von Digitalkameras ist auch die Menge an Bilddaten enorm. Analyseverfahren werden für die Suche und Erkennung von Objekten, Analyse und Klassifizierung von Szenen sowie der Inbeziehungsetzen der Bilddaten mit anderen Informationen eingesetzt. (Vgl. Runkler 2010: 1 f.) Müller und Lenz unterscheiden zehn verschiedene Datentypen. Strukturierte Daten finden sich in Datenbanktabellen und können Buchhaltungsdaten in Unternehmen sein. Produkte wie Milch, Brot und Bier werden in Warenkorbanalysen als Menge bezeichnet. Der Klickpfad eines Besuchers einer Webseite wird als Sequenz abgespeichert. Wichtig dabei ist die Reihenfolge der Daten, die in einer Sequenz zusammengefasst werden. Texte sind unstrukturierte Daten, die zum Beispiel auf Webseiten oder in E-Mails zu finden sind. Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von semistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungssprache wie HTML zugreift. Zeitreihen sind ebenfalls wie Sequenzen, zeitlich geordnete Folgen. Zusätzlich wird jedoch auch der Mess- oder Beobachtungszeitpunkt mit erfasst. Auf diese Weise werden unter anderem Betriebsunfälle je Schicht ausgewertet. Die Verbindungen der einzelnen Mitglieder in sozialen Netzwerken können in Graphen dargestellt werden. Diese bestehen aus Knoten, die mit gerichteten oder ungerichteten Kanten miteinander verbunden sind. Räumliche Muster werden durch die Analyse von Geodaten aufgedeckt. Mit Hilfe von Geodaten können unter anderem Cluster der Adressdaten von Kunden gebildet werden. Bilder werden, wie bereits beschrieben, für die Bildmustererkennung analysiert. Die Gesichtserkennung von Apple erfasst nach einer Lernphase automatisch Gesichter. Bei diesem Datentypen ist jedoch eine aufwändige Vorverarbeitung nötig. Multimediale Daten wie Audio oder Video sind aufgrund des Speicherbedarfs und des Laufzeitverhaltens ebenfalls nicht einfach in der Handhabung. Programme wie der MusicMiner analysieren den Rhythmus, um eine Musiksammlung auf ei- 3 Methoden des Data Mining 6 ner visuellen Landkarte darzustellen, auf der ähnliche Musikstücke näher beieinander liegen. (Vgl. ebd.) Die Verarbeitung der Daten erfolgt mit Hilfe von Data Mining Tools. Dabei gibt es eine Vielzahl von bezahlter und kostenloser Software. Die umsatzstärksten Programme sind SAP, Oracle, IBM und SAS (vgl. Müller/ Lenz 2013: 261). Open Source Software bieten RapidMiner oder Weka für die Datenverarbeitung an. 3 Methoden des Data Mining Im Data Mining können abhängig von Fragestellung, Datentyp und Anwendungsgebiet unterschiedliche Methoden angewendet werden. Im folgenden werden ausgewählte Methoden vorgestellt. 3.1 Clusteranalyse Die Clusteranylse ist eine wichtige Methode im Data Mining. Sie kann genutzt werden „to gain insight into the distribution of data, to observe the characteristics of each cluster, and to focus on a particular set of clusters for further analysis“ (Han et al. 2012: 445). Im Clustering geht es darum Strukturen in den Daten zu finden und die Daten aufzuteilen. Datenobjekte werden automatisch durch Algorithmen in Gruppen (Cluster) eingeteilt. Dabei werden Objekte mit ähnlichen Eigenschaften gruppiert, die Objekte unterschiedlicher Cluster unterscheiden sich hingegen voneinander. Somit sind sich die Objekte innerhalb eines Clusters so „nah“ wie möglich, während die verschiedenen Cluster sich so „fern“ wie möglich sind. Die Distanz bemisst sich an allen verfügbaren Variablen. Das Clustern kann auch im Datenvorverarbeitungsschritt eingesetzt werden, um homogene Gruppen zu identifizieren. (Vgl. Pastuchovöá/ Václavíková 2013: 128) Neben Kundensegmentierung werden Clusterverfahren beispielsweise in der Geologie eingesetzt. Erdbebenepizentren werden geclustert, um auf diese Weise gefährliche Zonen zu bestimmen. In der Versicherung werden durch das Verfahren Betrüger anhand von überdurchschnittlich hohen Schadenskosten identifiziert. (Vgl. Dey 2012: 351f.) 3 Methoden des Data Mining 7 3.2 Klassifikation Klassifikation ist ebenfalls eine sehr verbreitete Methode. Ähnlich wie bei dem Clustering zielt die Klassifikation darauf ab, Datenobjekte verschiedenen Gruppen (Klassen) zuzuordnen. Der Unterschied zum Clustering ist, dass in der Clusteranalyse die Gruppen automatisch gefunden werden, in der Klassifikation jedoch bereits bekannt sind. Dabei werden in dem Prozess Regeln gesucht, um die Klasse eines Objekts zu bestimmen. Im Marketing werden für den Versand von Katalogen Neukunden in potenzielle Käufer bzw. Nichtkäufer klassifiziert, um unnötige Kosten zu vermeiden. Des Weiteren wird Klassifikation für die Insolvenzprognose eingesetzt, die Unternehmen in kreditwürdig bzw. nicht kreditwürdig klassifiziert. (Vgl. Müller/ Lenz 2013: 95f.) 3.3 Assoziationsanalyse Auch in der Assoziationsanalyse geht es um das Finden von Regeln in den vorhandenen Daten. Es werden Beziehungen herausgearbeitet, die zwischen Attributen bestehen und somit Zusammenhänge zwischen Objekten erkannt. Die Abhängigkeiten werden in der Form A -> B („wenn A, dann wahrscheinlich auch B“) dargestellt. Das Verfahren dient der Ableitung von Vorhersagen aus den vorhandenen Daten: „Die Assoziationsanalyse ist ein vorhersagendes Data-MiningVerfahren. Es analysiert die Daten, um Regelmäßigkeiten zu identifizieren und das Verhalten neuer Datensätze vorherzusagen“ (Cleve/ Lämmel 2014: 64). In der Praxis wird es unter anderem in der Warenkorbanalyse verwendet. Die Abhängigkeit drückt sich in der Form: „Wer Produkt A kauft, kauft häufig auch Produkt B“ aus. Anhand der Ergebnisse kann ein Unternehmen seine Produktplatzierung anpassen oder im Onlineshopping automatisch Produkt B vorschlagen, wenn Produkt A in den Warenkorb gelegt wird. (Vgl. ebd. 63f.) 3.4 Ausreißeranalyse Bei der Ausreißeranalyse werden Datensätze identifiziert, die im Vergleich zu dem Gesamtdatensatz untypisch sind. Als Ausreißer werden Objekte bezeichnet, die sich vom allgemeinen Verhalten bzw. Modell der restlichen Daten unterschei- 4 Verfahren für spezielle Datentypen 8 den. „An outlier is a data object that deviates significally from the rest of the objects, as if it were generated by a different mechanism“ (Han et al. 2012: 327). In vielen Methoden werden Ausreißer im Datenbereinigungsschritt (vgl. Kapitel 2.1) als Rauschen entfernt. In einigen Analysen, wie beispielsweise Betrugsidentifizierung, können seltene Fälle jedoch interessanter sein als die regelmäßigen. Ausreißer können unter anderem mit Hilfe von Distanzmessungen identifiziert werden, in denen Objekte, die weit entfernt von allen Clustern liegen, als Ausreißer betrachtet werden. Nützlich sind solche Verfahren in etwa in der Aufdeckung von Kreditkartenbetrug. Anhand dieser Analysen können außergewöhnlich hohe Abhebungssummen, ungewöhnliche Orte oder eine besonders hohe Einkaufshäufigkeit bemerkt und genauer geprüft werden. Um den Bankkunden jedoch nicht täglich mit einem falschen Alarm zu stören, weil er ein etwas teureres Essen als gewöhnlich gekauft hat oder sich vor dem Urlaub nicht abgemeldet hat, wird auch vor Ausreißeranalysen der Datenbereinigungsschritt durchgeführt und Rauschen beseitigt. (Vgl. ebd. 20 ff.) Weitere Methoden wie Entscheidungsbäume, Regression, Korrelation oder Neuronale Netze werden aufgrund des Umfangs der Arbeit nicht thematisiert. 4 Verfahren für spezielle Datentypen Spezielle Formen von Data Mining sind Text und Web Mining. Die Besonderheiten sind zum einen die Struktur der Daten, zum anderen die Herkunft dieser. Der zu untersuchende Datentyp ist un- bzw. semistrukturierter Text. Die Analysen sollen neue Erkenntnisse liefern bzw. zur Entwicklung von Hypothesen beitragen. Obwohl sich die beiden Verfahren aus methodischer Sicht sehr ähneln, bedienen sie sich verschiedener Datenquellen und werden in unterschiedlichen Anwendungsgebieten eingesetzt. (Vgl. Müller/ Lenz 2013: 110) 4 Verfahren für spezielle Datentypen 9 4.1 Text Mining Text Mining dient der Entdeckung neuer Informationen und Muster in Textdokumenten mittels spezifischer Algorithmen. Laut Schätzungen bilden Texte 80% der Informationsbasis eines Unternehmens. (Vgl. Gabriel et al. 2009: 142ff.) Sie besitzen zwar eine Semantik, sind jedoch unstrukturierte Daten, die sich von den strukturierten Daten in Datenbanken unterscheiden. Häufig soll ein Dokument mit Hilfe des Text Mining nach Themengebieten klassifiziert werden. Da Texte unstrukturierte Daten sind, werden in einem ersten wichtigen Schritt die relevanten Informationen aus dem Text herausgezogen. Dies geschieht in etwa durch die Identifikation von Schlüsselwörtern oder der Häufigkeitsverteilung von Begriffen. Besondere Bedeutung haben auch der Datenbereinigungsschritt und der Datenvorverarbeitungsschritt im Text Mining-Verfahren. So müssen unter anderem nicht relevante Wörter entfernt oder Abürzungen sowie Synonyme erkannt werden. Die Groß- und Kleinschreibung wird meist ignoriert. Mit dem Stemming werden Wörter auf ihren Wortstamm gekürzt, um Wörter mit unterschiedlicher Schreibweise miteinander vergleichen zu können. Auch die Einteilung des Dokumentes in seine einzelnen Bestandteile, wie Kapitel, Absatz oder Satz, ist ein gängiges Vorgehen. Das Ergebnis der vorherigen Schritte ist „eine reduzierte Menge von Wörtern (bag of words), die man zusätzlich noch gewichten kann. Auf der Basis dieser Wortmengen findet dann die eigentliche Datenanalyse statt“ (Cleve/ Lämmel 2014: 65). (Vgl. ebd.) 4.2 Web Mining Bei dem Verfahren des Web Mining handelt es sich um die Analyse von Daten aus dem World Wide Web. Es werden drei Formen von Web Mining unterschieden: Das Web Content Mining, Web Structure Mining und Web Usage Mining (vgl. Gabriel et al. 2009: 143f.). Mit dem Web Content Mining werden ebenso wie mit dem Text Mining neue Muster und neues Wissen aus textuellen und multimedialen Dokumenten verschiedener Formate entdeckt. Das Web Structure Mining bezeichnet die Unter- 5 Fazit und Ausblick 10 suchung und Auswertung von Linkstrukturen auf der Typologie von Hyperlinks. Mit diesen Analysen lassen sich zum Beispiel Webseiten kategorisieren und ihre Ähnlichkeiten und Unterschiede aufdecken. „Für die thematische und nutzerfreundliche Gestaltung solcher Web-Ressourcen ist es für die WebsiteAdministratoren wichtig zu wissen, ob z. B. Seiten mehr Verweischarakter (sog. hub pages) haben oder inhaltsbezogen (sog. content pages) sind“ (Müller/ Lenz 2013: 117f.). Die dritte Form des Web Mining, das Web Usage Mining, dient der Untersuchung der Daten, die während der Nutzung einer Webseite innerhalb einer oder mehrerer Sitzungen protokolliert werden. Interessant sind in diesem Zusammenhang vor allem Klickstatistiken, die zur Optimierung der Seiten bezüglich Zugriffspfade oder indivualisierter Inhalte genutzt werden. (Vgl. ebd. 117f.) 5 Fazit und Ausblick „Identifying interesting structure and useful patterns among the plethora of possibilities is what a data mining algorithm must do, and it must do it quickly over very large databases“ (Fayyad 2002: 29f.). Angesichts der durch die Digitalisierung immer mehr steigenden Datenmassen4 sowie Speicherung dieser, reichen manuelle Auswertungsmethoden nicht aus, um Erkenntnisse aus diesen zu ziehen. Demnach sind Data Mining Tools unabdingbar geworden. Diese können dazu genutzt werden, von der Fragestellung abhängige Methoden wie etwa Cluster- oder Ausreißeranalysen anzuwenden, um Kenntnisse aus den Daten zu gewinnen. Für Daten aus Texten oder dem Internet wurden die spezifischen Formen Text und Web Mining entwickelt, die auf ähnlichen Methoden basieren, jedoch speziell an die besonderen Datentypen angepasst sind. Doch auch die computerbasierten Programme allein reichen nicht aus. Für die Wahl der Methode oder die korrekte Interpretation der Ergebnisse werden Spezialisten benötigt (vgl. Fayyad 1998: 6). Die gespeicherten Datenmengen steigen stetig und viele Unternehmen und Organisationen haben erkannt, welcher Nutzen sich hinter den Daten verbergen kann. Allerdings mangelt es an Experten, die in der Lage 4 „The capacity of digital data storage worldwide has doubled every nine months for at least a decade, at twice the rate predicted by Moore’s Law for the growth of computing power during the same period“ (Fayyad 2002: 28). 5 Fazit und Ausblick 11 sind mit diesen Daten umzugehen. „Our ability to capture and store data has far outpaced our ability to process and utilize it“ (Fayyad 2002: 28). So sind Datenanalysten eine gesuchte Berufsgruppe auf dem Arbeitsmarkt. Trotz der Vorteile von Data Mining birgt dieses auch Nachteile und Probleme. Das Wachstum neuer Datentypen und die Analyse dieser stellt die Analysten vor eine Herausforderung: „Diverse applications generate a wide spectrum of new data types, from structured data such as relational and data warehouse data to semi-structured and unstructured data; from stable data repositories to dynamic data streams; from simple data objects to temporal data, biological sequences, sensor data, spatial data, hypertext data, multimedia data, software program code, Web data, and social network data“ (Han et al. 2012: 32). Aufgrund dieser Vielfalt an Datentypen und auch der verschiedenen Ziele einer Analyse werden unterschiedliche Data Mining Systeme benötigt. Auch der Datenschutz ist ein Thema, das bei der Analyse der Daten zu beachten ist. Oft werden Daten von Nutzern oder Käufern analysiert. Obwohl die Daten überwiegend aggregiert werden, spielt die Nichtaufdeckung persönlicher Daten einzelner Individuen eine wichtige Rolle beim Data Mining (vgl. ebd.). Data Mining kann neben positiven Zwecken auch gegen Konkurrenten oder Feinde eingesetzt werden: „Moreover, data mining tools can work both ways—also helping individuals figure out when their space is being mined inappropriately. Since competition is part of our human nature, wars will be waged over this information. Data banks will be held hostage and robbed. Magnificent digital libraries will be destroyed“ (Fayyad 2001: 65). Um valide Ergebnisse zu bekommen und nutzen zu können gilt es Probleme wie schlechte Datenqualität, falsche Interpretation der Ergebnisse oder die Anwendung statistischer Werte auf Einzelne zu vermeiden. Die auf die Situation abgestimmte Vorverarbeitung der Daten sowie die anderen vier Prozessschritte des Knowledge Discovery (vgl. Kapitel 2.1) sind dafür von Bedeutung. Trotz der Gefahren hat Data Mining ein großes Potenzial nützliches Wissen auf vielen Gebieten zu generieren. Mit der Entwicklung immer besserer und schnellerer Tools, werden die Möglichkeiten, Erkenntnisse aus der riesigen Datenflut zu extrahieren, vergrößert. „In the same vein, my imagination fails to begin to visualize the wonders we will discover as data mining evolves into the effective cybernavigation science of tomorrow. I envy the early discovery expeditions into the new world of data. A wondrous journey awaits us all“ (ebd). Literaturverzeichnis 12 Literaturverzeichnis Cleve, Jürgen/ Lämmel, Uwe (2014): Data Mining. München. Dey, Pabitra Kumar/ Chakraborty, Gangotri/ Ruj, Purnendu/ Sarkar, Suvobrata (2012): A Data Mining Approach on Cluster Analysis of IPL. In: International Journal of Machine Learning and Computing, 2012, Vol. 2, Nr. 4: 351-354. Fayyad, Usama/ Piatetsky-Shapiro, Gregory/ Smyth, Padhraic (1996): The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, Nov. 1996, Vol. 39, Nr. 11: 27-34. Fayyad, Usama (1998): Editorial. In: Data Mining and Knowledge Discovery 2. Kluwer Academic Publishers: 5-7; 115-119. Fayyad, Usama (2001): The Digital Physics of Data Mining. In: Communications of the ACM, March 2001, Vol.44, Nr. 3: 62-65. Gabriel, Roland/ Gluchowski, Peter/ Pastwa, Alexander (2009): Data Warehouse & Data Mining. Herdecke/ Witten. Han, Jiawei/ Kamber, Micheline/ Pei, Jian (2012): Data mining: concepts and techniques. Amsterdam. Müller, Roland M./ Lenz, Hans-Joachim (2013): Business Intelligence. Berlin/ Heidelberg. Pastuchovöá, Elena/ Václavíková, Stefánia (2013): Cluster Analysis – Data Mining Technique for Discovering Natural Groupings in the Data. In: Journal of Electrical Engineering, 2013, Vol. 64, Nr. 2: 128–131. Runkler, Thomas A. (2010): Data Mining. Methoden und Algorithmen intelligenter Datenanalyse. Wiesbaden. Sharafi, Armin (2013): Knowledge Discovery in Databases: Eine Analyse des Änderungsmanagements in der Produktentwicklung. Wiesbaden. Shi, Guangren (2014): Data Mining and Knowledge Discovery for Geoscientists. Amsterdam. Witten, Ian H./ Frank, Eibe/ Hall, Mark A. (2011): Data Mining: Practical Machine Learning Tools and Techniques. Amsterdam. Versicherung über Selbstständigkeit Hiermit versichere ich, dass ich die vorliegende Arbeit im Sinne der Prüfungsordnung ohne fremde Hilfe selbstständig verfasst und nur die angegebenen Hilfsmittel benutzt habe. ________________________ (Datum, Unterschrift)