OLAP Operationen, ME/R, Summierbarkeit
Transcrição
OLAP Operationen, ME/R, Summierbarkeit
Data Warehousing Operationen im multidimensionalen Datenmodell Graphische MDDM Summierbarkeit Ulf Leser Wissensmanagement in der Bioinformatik Begriffe • Klassifikationsschema Jahr – Stufen einer Dimension plus Halbordnung Quartal Woche Monat Saison • Klassifikationsstufe – Granularität der Verdichtung • Klassifikationspfad Tag – Verdichtungspfad • Dimension Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 2 Klassifikationsschema • Definition. Ein Klassifikationsschema K (einer Dimension D) ist ein 5-Tupel {k0, k1, ... kn}, →, M, stufe(), knoten()) mit – Menge von Klassifikationsstufen {k0, ... kn} – Menge M von Klassifikationsknoten – Halbordnung „→“ auf {k0, ... kn} mit • Größtem Element kn : ∀ki , 0≤ i≤n-1: kn ← ki – Stufe() weist jedem Klassifikationsknoten genau eine Klassifikationsstufe zu – Knoten()=stufe-1() berechnet für eine Klassifikationsstufe die Menge aller ihr zugeordneten Klassifikationsknoten • Bemerkung – Die Halbordnung „→“ überträgt sich natürlich auf Klassifikationsknoten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 3 Erläuterung Klassifikationsstufen • Die Klassifikationsstufen sind die „Schemaelemente“ der Dimension • Das größte Element kn ist artifiziell – es steht für „alles“, also die Verdichtung in einen einzelnen Wert • Wir nennen es TOP • Interpretation von „→“: – Funktionale Abhängigkeit – Aggregierbarkeit – Tag bestimmt Monat bestimmt Jahr bestimmt TOP • 21.12.2003 → 12.2003 → 2003 → TOP – Produkt → Produktfamilie → Produktgruppe → TOP • “Asus M2400N“ → Notebooks → Büroelektronik → TOP • Beachte: Halbordnung ist immer zyklusfrei Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 4 Begriffe Klassifikations hierarchie Top Jahr Quartal Monat Tag 1997 I 1999 II III IV Jan Feb Mar 1 ... 31 1998 2000 I II III IV Okt Nov Dez 1 ... 28 Klassifikationsknoten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 5 Dimension • Definition. Eine Dimension D=(K, {P1,...,Pj}) besteht aus – Einem Klassifikationsschema K – Einer Menge von Pfaden Pi aus K – Jedes k∈K muss in mindestens einem Pfad in D enthalten sein • Bemerkungen – Für jedes k∈K gibt es mindestens einen Pfad, nämlich k→TOP – D muss nicht alle Pfade enthalten, die es in K gibt • Designentscheidung • Schreibweise: – D.k bezeichnet die Klassifikationsstufe k aus D – Jedes D.k kann in mehreren Pfaden vorkommen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 6 Granularität • Definition. Gegeben eine Menge U von n Dimensionen D1,..., Dn. Eine Granularität G über U ist eine Menge {D1.kk1,... ,Dn.kkn} für die gilt – kki ist eine Klassifikationsstufe in Di – Es gibt keine funktionalen Abhängigkeiten zwischen den Klassifikationsstufen D1.kk1,..., Dn.kkn • Bemerkungen – Beispiel: Nicht gleichzeitig Dimensionen Zeit und „Fiskalisches Jahr“ in einer Granularität betrachten – Mit einer Granularität legt man fest, in welcher Detailstufe Fakten in den einzelnen Dimensionen beschrieben werden – Abkürzung: Lässt man in U eine Dimension Di weg, ist implizit Di.TOP gemeint Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 7 Halbordnung auf Granularitäten • Definition. Auf der Menge aller Granularitäten zu einer Menge U von Dimensionen ist eine Halbordnung „<“ wie folgt definiert – Sei G1={D11.kk11,... ,Dn1.kkn1} und G2={D12.kk12,... ,Dn2.kkn2} – Ordne die Dimensionen in G1‘ und G2‘ beliebig, aber gleich – Es gilt G1<G2 genau dann wenn • ∀i: Di1.kki1 →Di2 .k2i2 oder Di1.kki1=Di2 .kki2 • Benutzung – Beschreibung der Transformation von Granularitäten – Anfrageoptimierung: Wiederverwendung von Aggregaten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 8 Beispiel Bereich Region Zeit TOP Top Top Konzern Staat Jahr Sparte Bundesland Monat Abteilung Shop Tag (B.Sparte, R.Shop, Z.Tag) < (B.Sparte, R.Shop, Z.Monat) < (B.Sparte, R.Top, Z.Monat) < (B.Top, R.Top, Z.Top) (B.Sparte, R.Staat, Z.Tag) ? (B.Konzern, R.Shop, Z.Tag) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 9 Inhalt dieser Vorlesung • Operationen im multidimensionalen Datenmodell • ME/R: Graphische multidimensionale Datenmodellierung • Theorie der Summierbarkeit Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 10 1. OLAP Operationen • MDDM spricht die Sprache des Analysten • Operationen auf dem MDDM sollten die Analysevorgänge abbilden bzw. unterstützen • Ziel: Schnelle und intuitive Manipulation der Daten • Notwendig – Definition der Operationen – (Unterstützung durch graphische Werkzeuge) • Heute: ME/R – (Umsetzung in ausführbare Operationen) • Ab nächster Stunde Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 11 Vorgehen • Die wichtigsten Operationen im MDDM sind – Aggregation (Roll-Up) – Verfeinerung (Drill-Down) • Weiteres Vorgehen – – – – – Datenpunkte und Würfelkoordinaten Aggregation in Klassifikationshierarchien Inhalt eines Würfel einer bestimmten Granularität OLAP Operationen: Aggregation und Verfeinerung Weitere OLAP Operationen, Visualisierung Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 12 Übersicht Z.Monat Z.Tag 4.1.1999 B.Abteilung 4‘1999 B.Sparte 3‘1999 3.1.1999 2.1.1999 Skoda.Reparatur Skoda.Ersatzteile 1.1.1999 Department2 Aggregierte Fakten Department1 Berlin Koordinaten der Datenpunkte VW Skoda 1‘1999 Bayern Lyon Nantes Wedding München R.Shop 2‘1999 R.Bundesland (1.101,3.1.1999, Wedding, Ersatzteile) (12.400, 1.1.1999, Nantes, Reparatur) (1.540, 3.1.1999, Wedding, Ersatzteile) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 13 Datenpunkte und Würfelkoordinaten • Definition. – Gegeben Würfel W, Dimension D und ein Klassifikationsknoten x aus D – Sei z ein Datenpunkt und D(z) seine Koordinate bzgl. D – Wir sagen: „D(z) liegt in x“ wenn entweder D(z)=x oder D(z)∈nachfahren(x) – punkte(x) sei die Menge aller Datenpunkte z, für die D(z) in x liegt • Bemerkung – Erweiterung auf mehrere Koordinaten durch Schnittmengenbildung • punkte(x,y,z) = punkte(x) ∩ punkte(y) ∩ punkte(z) mit x in D1, y in D2, z in D3 ... 2003 x Januar punkte(x) 32,50 17,40 ... Februar ... Dezember 5,50 Ulf Leser: Data Warehousing, Vorlesung, Viele z Sommersemester 2004 14 Aggregation in Hierarchien • Definition. – Gegeben Dimension D, Pfad P={k0 →... → k‘ → k → ... →TOP} in D – Sei x∈knoten(k) ein Klassifikationsknoten – Sei f eine Aggregatfunktion und F ein Measure – Sei Y=kinder(x) (die Menge {y1,...,yn} ⊆ knoten(k‘) von Klassifikationsknoten von k‘, von denen x abhängt) – Die Aggregation von Y nach x bzgl. f und F bezeichnet die Berechnung des aggregierten Faktes F(x)=f(F(y1),...., F(yn)) – Die Aggregation von k‘ nach k bzgl. f und F bezeichnet die Berechnung von F(x) für alle x∈knoten(k) • Das schreiben wir kurz als F(k) x k Jahr k‘ Monat ... 2003 Januar Februar ... Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 Dezember Y 15 Startpunkt • Sei P={k0→... → kn→TOP} • Man berechnet F(TOP) aus F(kn), F(kn) aus F(kn-1), etc. • Wie berechnet man aber F(k0) ? – Aus den einzelnen Datenpunkten • Definition. – Gegeben Dimension D, Pfad P={k0→... → TOP} in D und ein Klassifikationsknoten x∈knoten(k0) – Sei punkte(x)={z1,...,zn}, die Menge aller Datenpunkte, deren DKoordinate in x liegt – Für eine Aggregatfunktion f und Measure F berechnet sich dann das aggregierte Fakt F(x) als F(x)=f(F(z1),...,F(zn)) • Mit F(z) als dem Wert des Measures F von Datenpunkt z ... 2003 x Januar punkte(x) 32,50 17,40 ... Februar 5,50 ... Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 Dezember 16 Berechnung • Die vorherige Definition ist prinzipiell abwendbar für alle Klassifikationsknoten bzw. –stufen eines Pfades – Bedingt durch „ ...D-Koordinate in x...“ • Aber – Es schneller, die Aggregation aus der nächstkleineren Stufe zu berechnen • Weniger Werte - weniger Arbeit • Das setzt voraus, dass man die auch hat – Präaggregation – OLAP Operationen wandern immer nur eine Stufe in einem Pfad herauf oder herab – deshalb definieren wir Aggregation von Ebene zu Ebene Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 17 Wo sind wir? • Wir können entlang eines Pfades in einer Dimension für ein Measure mit einer Aggregatfunktion die aggregierten Fakten für höherstufige Knoten berechnen • Zwei Möglichkeiten – Aggregierte Measures von Knoten einer Stufe aus aggregierten Measures der nächstkleineren Stufe berechnen – Aggregierte Measures immer direkt aus den Werten aller Datenpunke mit den entsprechenden Koordinaten berechnen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 18 Würfelinhalt • Ein Würfel W=(G,F) – Granularität G=(D1.k11,...,Dn.kn1) – Menge von aggregierten Measures F={f1,...,fm} • Schreibweise für Zellen eines Würfels – W(x1, x2,..., xn) = (f1,...,fm) – xi sind die Koordinaten im Würfel: xi∈knoten(ki1) – Pro Punkt in W gibt es m aggregierte Measures f1,..., fm • Betrachten wir den einfachen Fall: n=m=1 – Eine Dimension D mit Knoten x, ein Measure F – Dann: W(x) = (F(kinder(x)) – Berechnung rekursiv oder direkt aus Datenpunkten • Bemerkung – Auf unterster Ebene ist kinder(x)=punkte(x) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 19 Würfelinhalt, allgemeiner Fall • Ein Würfel W=(G,F) – Granularität G=(D1.k11,...,Dn.kn1) – Menge von aggregierten Measures F={f1,...,fm} • Allgemeiner Fall – W(x1,...,xn) = (f1,...,fm) = (F1(kinder(x1)∩kinder(x2) ∩... ∩ kinder(xn)), F2(kinder(x1)∩kinder(x2) ∩... ∩ kinder(xn)), ... Fm(kinder(x1)∩kinder(x2) ∩... ∩ kinder(xn))) – mit Koordinaten xi ∈ knoten(ki1) • Bemerkung – Die Schnittmengenbildung berechnet die Menge von Punkten in der Würfelzelle mit Koordinaten x1,...,xn – Jedes Measure wird gesondert aggregiert Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 20 Beispiel Z.Monat Z.Tag 4.1.1999 B.Abteilung 4‘1999 B.Sparte 3‘1999 3.1.1999 2.1.1999 Skoda.Reparatur Skoda.Ersatzteile 1.1.1999 VW Skoda 1‘1999 Department2 Department1 Aggregierte Fakten Berlin Bayern Lyon Nantes Wedding München Koordinaten der Fakten R.Shop 2‘1999 R.Bundesland (3.1.1999, Wedding, Ersatzt.) = (...) (1‘1999, Berlin, Skoda) = (...) (2.1.1999, Wedding, Ersatzt.) = (...) (4‘1999, Bayern, VW) = (...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 21 Operationen auf Würfeln • OLAP Operationen überführen einen Würfel W=(G,F) in einen Würfel W‘=(G‘,F‘) • Dabei gilt – Aggregation: G < G‘ – Verfeinerung G > G‘ • Eine einfache Operation verändert nur die Klassifikationsstufe einer Dimension in G – Komplexe Operationen können auf natürliche Weise aus einfachen Operationen durch Verkettung zusammengesetzt werden – Wir betrachten deshalb im folgenden nur einfache Operationen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 22 OLAP Operationen • Definition. – Geg.: Würfel W=(G,F) mit G=(D1.k11,...,Dn.kn1) und F=(f1,..,fm) – Sei P={k0→...→ ki1‘‘ → ki1 → ki1‘ →...→TOP} ein Pfad in Di – Die einfache Aggregation von Di in W entlang P bzgl. Aggregatfunktion f überführt W in • W‘ = ( (D1.k11,..., Di.ki1‘,..., Dn.kn1), (f1‘ , ..., fm‘ )) • (f1‘ , ..., fm‘) = (F1(punkte(k11) ∩ ... punkte(ki1‘ ) ∩ ... punkte(kn1)), ..., Fm(punkte(k11) ∩ ... punkte(ki1‘ ) ∩ ... punkte(kn1))) – Die einfache Verfeinerung von Di in W entlang P bzgl. Aggregatfunktion f überführt W in • W‘ = ( (D1.k11,..., Di.ki1‘‘,..., Dn.kn1), (f1‘‘ ‚, ..., fm‘‘)) • Mit (f1‘‘ , ..., fm‘‘) = ... • Bemerkung – Bei Aggregation kann man die fi‘ per Aggregation berechnen – Bei Verfeinerung ist ein Zugriff auf die Datenbank (Datenpunkte Leser: Data Warehousing, Vorlesung, Sommersemester 2004 23 oderUlfPräaggregate) notwendig Beispiel: Aggregation (Roll-Up) Z.Monat Z.Tag 4.1.1999 B.Abteilung 4‘1999 B.Abt. 3‘1999 3.1.1999 2.1.1999 Skoda.Reparatur Skoda.Ersatzteile 1.1.1999 Skoda.Repa. Skoda.Ersatz 1‘1999 Lyon Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 Nantes Wedding München Lyon Nantes Wedding München R.Shop 2‘1999 R.Shop 24 Beispiel: Verfeinerung (Drill-Down) Z.Monat Z.Tag 4.1.1999 B.Abteilung 4‘1999 B.Abt. 3‘1999 3.1.1999 2.1.1999 Skoda.Reparatur Skoda.Ersatzteile 1.1.1999 Skoda.Repa. Skoda.Ersatz 1‘1999 Lyon Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 Nantes Wedding München Lyon Nantes Wedding München R.Shop 2‘1999 R.Shop 25 Wo sind wir? • Das MDDM gibt Klassifikationsstufen, Knoten, Pfade und Dimensionen vor • Die Daten bestehen aus verschiedenen Measures, jeweils mit Koordinaten in den jeweiligen Dimensionen • Koordinaten (Dimensionen) sind hierarchisch gegliedert (entlang der Pfade); jeder Datenpunkt hat eine Koordinate in jeder Klassifikationsstufe – Die Koordinaten in einem Pfad sind voneinander abhängig • Würfel stellen aggregierte Daten gemäß der Würfelgranularität dar • OLAP Operationen (Aggregation, Verfeinerung) sind entlang der Pfade und gemäß der Granularität möglich – Sie verändern die Granularität und die aggregierten Fakten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 26 Aggregation bis TOP Summe Umsatz pro Tag und Abteilungen über alle Shops Z.Tag 4.1.1999 B.Abteilung 3.1.1999 2.1.1999 Skoda.Reparatur Skoda.Ersatzteile 1.1.1999 Lyon Nantes Wedding München R.Shop Summe Umsatz pro Shop und Tag, über alle Abteilungen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 27 ... in mehreren Dimensionen Z.Tag 4.1.1999 B.Abteilung 3.1.1999 2.1.1999 Skoda.Reparatur Skoda.Ersatzteile 1.1.1999 Lyon Nantes Wedding München R.Shop G=(Z.TOP, R.TOP, B.TOP) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 28 Weitere Operationen • Aggregation ist die spannendste OLAP Operation • Die restlichen führen keine Berechnungen durch, sondern selektieren bzw. ändern nur Ausschnitte des Würfels – In der Literatur werden teilweise noch weitere Operationen angeführt (Drill-Across, Dicing, ...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 29 Rotation Unterschiedliche Sichtweisen auf einen Datenbestand Jahr Jahr 2002 Kontinent 2001 2002 Marke 2001 2000 Asien Südamerika 1999 BMW Ford 1999 Australien Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 S-Amerika Europa Asien Ford VW Peugeo t BMW Automarke 2000 Kontinent 30 Selektion einer Scheibe (Slicing) Verkäufe in Asien pro Jahr und Marke Verkäufe von Peugeot pro Jahr und Kontinent Jahr 2002 Kontinent 2001 2000 Asien Südamerika 1999 Ford VW Peugeot BMW Automarke Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 31 Auswahl von Unterwürfeln Verkäufe von (Peugeot, VW) in (2000, 2001) pro Kontinent Jahr 2002 Kontinent 2001 2000 Asien Südamerika 1999 Ford VW Peugeot BMW Automarke Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 32 2: Grafische Modellierung • Grafische Modellierung multidimensionaler Daten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 33 Datenbankentwurf Konzeptionelles Modell Logisches Modell Implementierung Designer, Requirements Engineering Entwickler, Administrator Administrator Produktsupport E/R, UML: Klassen, Attribute, Assoziationen Relationen, Attribute, Keys, SQL Join-Order, Indexe, Buffermanagement, Sortierung (Halb)Automatisch Vollautomatisch Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 34 ME/R • Literatur – Sapia at al. „Extending the E/R Model for the Multidimensional Paradigm“, Workshop DWDM, 1998 • Logisches MDDM – Fakten, Klassifikationsstufen, Dimensionen, ... • Konzeptionelles/Graphisches Modell für MDDM? • E/R nicht ausreichend – Keine Repräsentation von MDDM Konzepten: Fakten, Dimension, Klassifikationsstufen, etc. ¾ ME/R: Erweitertes E/R Modell Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 35 Gesamtbild ME/R MDDM ROLAP: Relationales Modell Implementierung MOLAP: multidimensionales Implementierung Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 36 ME/R: Elemente und Notation • Neue Elemente – – – – Klassifikationsstufe (Dimension Level) Würfel (Fact) Halbordnung zwischen Klassifikationsstufen (Roll-Ups) Constraint: Keine Zyklen in den ROLL-UP Beziehungen Klassifikationsstufe Würfel Roll-Up Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 37 Beispiel Jahr Monat Tag Shop_name Menge Preis Produktgruppe Produkt Verkauf Shop Kunde Region Product_name Top Top Top Land Land Jahr Region Region Monat Kunde Shop Tag TOP Region Land Produkgruppe Land Produkt Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 38 Wiederverwendung von Stufen ... Shop_name Menge Preis Produktgruppe Produkt Verkauf Shop Kunde Region Product_name Land • Möglich, aber nicht unproblematisch – Wenn Kundenregionen (nach Vertrieb) anders organisiert sind als Shopregionen (nach Logistik) – IC nicht überwachbar – Wenn Kunden in mehr Regionen wohnen dürfen als es Shops gibt – verborgenes Integritätsconstraint – Entspricht funk. Abhängigkeiten von unterschiedlichen, aber gleichnamigen Attributen – Wird auf unterschiedliche Fremdschlüssel abgebildet Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 39 ME/R Bewertung • • • • • Minimale, konservative Erweiterung Mehrere Würfel sind möglich Flexible Zuordnung Dimensionen – Würfel Klare Semantik durch Metamodell in Extended E/R Greift eher kurz – Keine Eigenschaften von Fakten (Summierbarkeit) – Keine Besonderheiten von Klassifikationspfaden • Übersprungene Stufen, unendliche Hierarchien • Keine Übersetzungsmethode definiert • Toolunterstützung? Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 40 Weitere Ansätze • mUML – UML-Erweiterung basierend auf UML Metamodell (Constraints, Stereotypen) -> Werkzeugunterstützung vorhanden – Klassifikationsstufe: <<Dimensional class>> – Fakten: <<Fakt class>> – Würfel: <<Dimension>> (Assoziationstyp) – Hierarchie: <<Roll-Up>> (Assoziationstyp) – ... • Multi-dimensional Modelling Language (MML) • ... • Keine der Methoden hat sich (bisher) durchgesetzt Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 41 3. Summierbarkeit • Ziel des MDDM – Verdichtung von Daten entlang der Klassifikationspfade • Aber das geht nicht immer gut – Numerische versus kategorische Fakten • Numerisch: Umsatz, Verkäufe, Messwerte, ... • Kategorisch: Geschlecht, Kundensegment,... – Sollte man als Dimension definieren, muss man aber nicht – Nicht alle Aggregatsfunktionen sind hierarchisch anwendbar • Summe der Umsätze aller Tage → Umsatz des Monats Summe der Umsätze aller Monate → Umsatz des Jahres • Durchschnitt der Umsätze aller Tage → Durchschnitt des Monats? • Durchschnitt der Umsätze aller Monate → Durchschnitt des Jahres? Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 42 Beispiel Level 0 1 1 10 Level 1 Level 2 Summe: 2 Avg: 1 Summe: 12 11/2 ≠ 12/3 Summe: 10 Avg: Avg: 10 Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 43 Charakterisierung von Aggregatsfunktionen • Lenz, Shoshani: „Summarizability in OLAP and Statistical Databases“, SSDBM, 1997 • Geg.: Set X, Partitionierung (X1 ,X2, ..., Xn) – X entspricht einem Klassifikationsknoten, (X1 ,X2, ..., Xn) sind seine Kinder • Definition. – Eine Aggregatfunktion f ist distributiv gdw • ∃g: f(X) = f( g(X1), g(X2), ... g(Xn)) – Eine Aggregatfunktion f ist algebraisch gdw • f(X) berechenbar aus fester Menge von g‘s – Eine Aggregatfunktion f ist holistisch gdw • f(X) kann nur aus den Grundelementen von X berechnet werden • D.h., dass die Menge von g‘s nicht begrenzt ist • Dann muss man immer auf die Datenpunkte zurück Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 44 Beispiele Distributiv Summe, Count, Max, Min, ... Algebraisch AVG (mit G1=SUM und G2=CNT) STDDEV, MaxN, ... MEDIAN, RANK, PERCENTILE Highest Frequency, ... Holistisch • Highest Frequency – Merke Werte und jeweilige Frequenz: ( (v1,f1), (v2,f2), ...) – Merge zweier Sets möglich – Aber: Keine feste Grenze für Platzbedarf, da Anzahl unterschiedlicher Werte nicht fest Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 45 Summierbarkeit / Aggregierbarkeit • Bisher: Wann darf man Werte hierarchisch summieren ? – Natürlich nur numerische Fakten – Art der Aggregatfunktion beachten • Aber – Summe der Lagerbestände pro Produkt über Jahre? – Gesamtsumme Studenten als Summe über Studenten pro Studiengang? • Weitere notwendige Kriterien für Aggregierbarkeit entlang eines Klassifikationspfades – Überlappungsfreiheit der Zuordnung von Klassifikationsknoten – Vollständigkeit der Zerlegung pro Klassifikationslevel – Typverträglich von Fakt und Aggregatfunktion Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 46 Beispiel Studenten pro Jahr und Studiengang 1994 1995 1996 Gesamt Informatik 15 17 13 28 BWL 10 15 11 21 Gesamt 25 31 23 49 Wie kann das stimmen? • Wie lange dauern Studiengänge? • Studenten nur in einem Studiengang eingeschrieben? Summen lassen sich nicht aus den Einzelwerten berechnen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 47 Überlappungsfreiheit • Definition. Eine Klassifikationshierarchie ist überlappungsfrei gdw – Jeder Klassifikationsknoten mit Level i ist höchstens einem Klassifikationsknoten in Level i+1 zugeordnet – Jeder Datenpunkt ist höchstens einem Klassifikationsknoten mit Level 0 zugeordnet Bekleidung Produktfamilie Produktgruppe Produktart Damen Rock Herren Jeans Anzug Verkauf: ((Rock,Jeans), 79.00, ...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 48 Vollständigkeit • Definition. Eine Klassifikationshierarchie ist vollständig gdw – Jeder Klassifikationsknoten mit Level i ist mindestens einem Klassifikationsknoten in Level i+1 zugeordnet – Jedes Fakt ist mindestens einem Klassifikationsknoten mit Level 0 zugeordnet Bekleidung Produktfamilie Produktgruppe Produktart Damen Rock Herren Jeans Anzug Verkauf: ((Produkt das zu 49 keiner Produktart passt), ...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 Was tun? • Wir sind bisher immer von vollständigen und überlappungsfreien Klassifikationsschemas ausgegangen – Summierbarkeit ist ein wichtiger Grund dafür • Das entspricht nicht immer der betrieblichen Realität • Was tun wenn nicht? – Neue Klassifikationsknoten • Artifizielle Klassifikationsknoten: „Others“, „Rest“, „Nicht zugewiesen“ • Knotenaufspaltung: „Herrenjeans“, „Damenjeans“ – Gewichtete Zuordnung • Türkei ist 10% Europa, 90% Asien Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 50 Typen von Fakten • Flow (Ereignis zu Zeitpunkt T) – Verkäufe, Umsatz, Lieferungen, diplomierte Studenten, ... • Stock (Zustand zu Zeitpunkt T) – Lagerbestand, eingeschriebene Studenten, Einwohnerzahlen, ... • Value-per-Unit (Eigenschaft zu Zeitpunkt T) – Preis, Herstellungskurs, Währungskurs, ... Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 51 Typverträglichkeit MIN/MAX SUM AVG Stock Flow Value-perUnit √ √ √ √ Nie √ √ Zeit: nein Sonst: √ √ • Erkennen von Problemen – Nicht automatisch möglich – Metadaten – Beschreibung der Measures notwendig Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 52 Zusammenfassung • OLAP Operationen – MDDM Modell • Modellierung der Daten in der Sprache des Analysten • Einschränkung auf sinnvolle Operationen – Roll-Up und Drill-Down – Selektion und Rotation • Grafische Notationen sind vorhanden, aber noch nicht verbreitet • Vorsicht vor Modellierungsfallen – – – – Summierung über kategorische Fakten Rekursive Durchschnittsbildung Typunverträgliche Summierung „Löchrige“ Klassifikationshierarchien Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004 53