OLAP Operationen, ME/R, Summierbarkeit

Transcrição

OLAP Operationen, ME/R, Summierbarkeit
Data Warehousing
Operationen im multidimensionalen
Datenmodell
Graphische MDDM
Summierbarkeit
Ulf Leser
Wissensmanagement in der
Bioinformatik
Begriffe
• Klassifikationsschema
Jahr
– Stufen einer Dimension
plus Halbordnung
Quartal
Woche
Monat
Saison
• Klassifikationsstufe
– Granularität der
Verdichtung
• Klassifikationspfad
Tag
– Verdichtungspfad
• Dimension
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
2
Klassifikationsschema
• Definition.
Ein Klassifikationsschema K (einer Dimension D) ist ein
5-Tupel {k0, k1, ... kn}, →, M, stufe(), knoten()) mit
– Menge von Klassifikationsstufen {k0, ... kn}
– Menge M von Klassifikationsknoten
– Halbordnung „→“ auf {k0, ... kn} mit
• Größtem Element kn : ∀ki , 0≤ i≤n-1: kn ← ki
– Stufe() weist jedem Klassifikationsknoten genau eine
Klassifikationsstufe zu
– Knoten()=stufe-1() berechnet für eine Klassifikationsstufe die
Menge aller ihr zugeordneten Klassifikationsknoten
• Bemerkung
– Die Halbordnung „→“ überträgt sich natürlich auf
Klassifikationsknoten
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
3
Erläuterung Klassifikationsstufen
• Die Klassifikationsstufen sind die „Schemaelemente“ der
Dimension
• Das größte Element kn ist artifiziell – es steht für „alles“,
also die Verdichtung in einen einzelnen Wert
• Wir nennen es TOP
• Interpretation von „→“:
– Funktionale Abhängigkeit
– Aggregierbarkeit
– Tag bestimmt Monat bestimmt Jahr bestimmt TOP
• 21.12.2003 → 12.2003 → 2003 → TOP
– Produkt → Produktfamilie → Produktgruppe → TOP
• “Asus M2400N“ → Notebooks → Büroelektronik → TOP
• Beachte: Halbordnung ist immer zyklusfrei
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
4
Begriffe
Klassifikations
hierarchie
Top
Jahr
Quartal
Monat
Tag
1997
I
1999
II III IV
Jan Feb Mar
1 ... 31
1998
2000
I
II III IV
Okt Nov Dez
1 ... 28
Klassifikationsknoten
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
5
Dimension
• Definition.
Eine Dimension D=(K, {P1,...,Pj}) besteht aus
– Einem Klassifikationsschema K
– Einer Menge von Pfaden Pi aus K
– Jedes k∈K muss in mindestens einem Pfad in D enthalten sein
• Bemerkungen
– Für jedes k∈K gibt es mindestens einen Pfad, nämlich k→TOP
– D muss nicht alle Pfade enthalten, die es in K gibt
• Designentscheidung
• Schreibweise:
– D.k bezeichnet die Klassifikationsstufe k aus D
– Jedes D.k kann in mehreren Pfaden vorkommen
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
6
Granularität
• Definition.
Gegeben eine Menge U von n Dimensionen D1,..., Dn.
Eine Granularität G über U ist eine Menge {D1.kk1,...
,Dn.kkn} für die gilt
– kki ist eine Klassifikationsstufe in Di
– Es gibt keine funktionalen Abhängigkeiten zwischen den
Klassifikationsstufen D1.kk1,..., Dn.kkn
• Bemerkungen
– Beispiel: Nicht gleichzeitig Dimensionen Zeit und „Fiskalisches
Jahr“ in einer Granularität betrachten
– Mit einer Granularität legt man fest, in welcher Detailstufe
Fakten in den einzelnen Dimensionen beschrieben werden
– Abkürzung: Lässt man in U eine Dimension Di weg, ist implizit
Di.TOP gemeint
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
7
Halbordnung auf Granularitäten
• Definition.
Auf der Menge aller Granularitäten zu einer Menge U
von Dimensionen ist eine Halbordnung „<“ wie folgt
definiert
– Sei G1={D11.kk11,... ,Dn1.kkn1} und G2={D12.kk12,... ,Dn2.kkn2}
– Ordne die Dimensionen in G1‘ und G2‘ beliebig, aber gleich
– Es gilt G1<G2 genau dann wenn
• ∀i: Di1.kki1 →Di2 .k2i2 oder Di1.kki1=Di2 .kki2
• Benutzung
– Beschreibung der Transformation von Granularitäten
– Anfrageoptimierung: Wiederverwendung von Aggregaten
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
8
Beispiel
Bereich
Region
Zeit
TOP
Top
Top
Konzern
Staat
Jahr
Sparte
Bundesland
Monat
Abteilung
Shop
Tag
(B.Sparte, R.Shop, Z.Tag)
< (B.Sparte, R.Shop, Z.Monat)
< (B.Sparte, R.Top, Z.Monat)
< (B.Top, R.Top, Z.Top)
(B.Sparte, R.Staat, Z.Tag)
? (B.Konzern, R.Shop, Z.Tag)
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
9
Inhalt dieser Vorlesung
• Operationen im multidimensionalen
Datenmodell
• ME/R: Graphische multidimensionale
Datenmodellierung
• Theorie der Summierbarkeit
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
10
1. OLAP Operationen
• MDDM spricht die Sprache des Analysten
• Operationen auf dem MDDM sollten die
Analysevorgänge abbilden bzw. unterstützen
• Ziel: Schnelle und intuitive Manipulation der
Daten
• Notwendig
– Definition der Operationen
– (Unterstützung durch graphische Werkzeuge)
• Heute: ME/R
– (Umsetzung in ausführbare Operationen)
• Ab nächster Stunde
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
11
Vorgehen
• Die wichtigsten Operationen im MDDM sind
– Aggregation (Roll-Up)
– Verfeinerung (Drill-Down)
• Weiteres Vorgehen
–
–
–
–
–
Datenpunkte und Würfelkoordinaten
Aggregation in Klassifikationshierarchien
Inhalt eines Würfel einer bestimmten Granularität
OLAP Operationen: Aggregation und Verfeinerung
Weitere OLAP Operationen, Visualisierung
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
12
Übersicht
Z.Monat
Z.Tag
4.1.1999
B.Abteilung
4‘1999
B.Sparte
3‘1999
3.1.1999
2.1.1999
Skoda.Reparatur
Skoda.Ersatzteile
1.1.1999
Department2
Aggregierte
Fakten
Department1
Berlin
Koordinaten der
Datenpunkte
VW
Skoda
1‘1999
Bayern
Lyon
Nantes
Wedding
München
R.Shop
2‘1999
R.Bundesland
(1.101,3.1.1999, Wedding, Ersatzteile)
(12.400, 1.1.1999, Nantes, Reparatur)
(1.540, 3.1.1999, Wedding, Ersatzteile)
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
13
Datenpunkte und Würfelkoordinaten
• Definition.
– Gegeben Würfel W, Dimension D und ein Klassifikationsknoten x aus D
– Sei z ein Datenpunkt und D(z) seine Koordinate bzgl. D
– Wir sagen: „D(z) liegt in x“ wenn entweder D(z)=x oder
D(z)∈nachfahren(x)
– punkte(x) sei die Menge aller Datenpunkte z, für die D(z) in x liegt
• Bemerkung
– Erweiterung auf mehrere Koordinaten durch Schnittmengenbildung
• punkte(x,y,z) = punkte(x) ∩ punkte(y) ∩ punkte(z)
mit x in D1, y in D2, z in D3
...
2003
x
Januar
punkte(x)
32,50
17,40
...
Februar
...
Dezember
5,50
Ulf Leser: Data Warehousing,
Vorlesung,
Viele
z Sommersemester 2004
14
Aggregation in Hierarchien
• Definition.
– Gegeben Dimension D, Pfad P={k0 →... → k‘ → k → ... →TOP} in D
– Sei x∈knoten(k) ein Klassifikationsknoten
– Sei f eine Aggregatfunktion und F ein Measure
– Sei Y=kinder(x) (die Menge {y1,...,yn} ⊆ knoten(k‘) von
Klassifikationsknoten von k‘, von denen x abhängt)
– Die Aggregation von Y nach x bzgl. f und F bezeichnet die Berechnung
des aggregierten Faktes F(x)=f(F(y1),...., F(yn))
– Die Aggregation von k‘ nach k bzgl. f und F bezeichnet die Berechnung
von F(x) für alle x∈knoten(k)
• Das schreiben wir kurz als F(k)
x
k
Jahr
k‘
Monat
...
2003
Januar
Februar
...
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
Dezember
Y
15
Startpunkt
• Sei P={k0→... → kn→TOP}
• Man berechnet F(TOP) aus F(kn), F(kn) aus F(kn-1), etc.
• Wie berechnet man aber F(k0) ?
– Aus den einzelnen Datenpunkten
• Definition.
– Gegeben Dimension D, Pfad P={k0→... → TOP} in D und ein
Klassifikationsknoten x∈knoten(k0)
– Sei punkte(x)={z1,...,zn}, die Menge aller Datenpunkte, deren DKoordinate in x liegt
– Für eine Aggregatfunktion f und Measure F berechnet sich dann das
aggregierte Fakt F(x) als F(x)=f(F(z1),...,F(zn))
• Mit F(z) als dem Wert des Measures F von Datenpunkt z
...
2003
x
Januar
punkte(x)
32,50
17,40
...
Februar
5,50
...
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
Dezember
16
Berechnung
• Die vorherige Definition ist prinzipiell abwendbar
für alle Klassifikationsknoten bzw. –stufen eines
Pfades
– Bedingt durch „ ...D-Koordinate in x...“
• Aber
– Es schneller, die Aggregation aus der nächstkleineren
Stufe zu berechnen
• Weniger Werte - weniger Arbeit
• Das setzt voraus, dass man die auch hat – Präaggregation
– OLAP Operationen wandern immer nur eine Stufe in
einem Pfad herauf oder herab – deshalb definieren
wir Aggregation von Ebene zu Ebene
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
17
Wo sind wir?
• Wir können entlang eines Pfades in einer
Dimension für ein Measure mit einer
Aggregatfunktion die aggregierten Fakten für
höherstufige Knoten berechnen
• Zwei Möglichkeiten
– Aggregierte Measures von Knoten einer Stufe aus
aggregierten Measures der nächstkleineren Stufe
berechnen
– Aggregierte Measures immer direkt aus den Werten
aller Datenpunke mit den entsprechenden
Koordinaten berechnen
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
18
Würfelinhalt
• Ein Würfel W=(G,F)
– Granularität G=(D1.k11,...,Dn.kn1)
– Menge von aggregierten Measures F={f1,...,fm}
• Schreibweise für Zellen eines Würfels
– W(x1, x2,..., xn) = (f1,...,fm)
– xi sind die Koordinaten im Würfel: xi∈knoten(ki1)
– Pro Punkt in W gibt es m aggregierte Measures f1,..., fm
• Betrachten wir den einfachen Fall: n=m=1
– Eine Dimension D mit Knoten x, ein Measure F
– Dann: W(x) = (F(kinder(x))
– Berechnung rekursiv oder direkt aus Datenpunkten
• Bemerkung
– Auf unterster Ebene ist kinder(x)=punkte(x)
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
19
Würfelinhalt, allgemeiner Fall
• Ein Würfel W=(G,F)
– Granularität G=(D1.k11,...,Dn.kn1)
– Menge von aggregierten Measures F={f1,...,fm}
• Allgemeiner Fall
– W(x1,...,xn) = (f1,...,fm) =
(F1(kinder(x1)∩kinder(x2) ∩... ∩ kinder(xn)),
F2(kinder(x1)∩kinder(x2) ∩... ∩ kinder(xn)),
...
Fm(kinder(x1)∩kinder(x2) ∩... ∩ kinder(xn)))
– mit Koordinaten xi ∈ knoten(ki1)
• Bemerkung
– Die Schnittmengenbildung berechnet die Menge von Punkten in
der Würfelzelle mit Koordinaten x1,...,xn
– Jedes Measure wird gesondert aggregiert
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
20
Beispiel
Z.Monat
Z.Tag
4.1.1999
B.Abteilung
4‘1999
B.Sparte
3‘1999
3.1.1999
2.1.1999
Skoda.Reparatur
Skoda.Ersatzteile
1.1.1999
VW
Skoda
1‘1999
Department2
Department1
Aggregierte
Fakten
Berlin
Bayern
Lyon
Nantes
Wedding
München
Koordinaten
der Fakten
R.Shop
2‘1999
R.Bundesland
(3.1.1999, Wedding, Ersatzt.) = (...) (1‘1999, Berlin, Skoda) = (...)
(2.1.1999, Wedding, Ersatzt.) = (...) (4‘1999, Bayern, VW) = (...)
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
21
Operationen auf Würfeln
• OLAP Operationen überführen einen Würfel W=(G,F) in
einen Würfel W‘=(G‘,F‘)
• Dabei gilt
– Aggregation: G < G‘
– Verfeinerung G > G‘
• Eine einfache Operation verändert nur die
Klassifikationsstufe einer Dimension in G
– Komplexe Operationen können auf natürliche Weise aus
einfachen Operationen durch Verkettung zusammengesetzt
werden
– Wir betrachten deshalb im folgenden nur einfache Operationen
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
22
OLAP Operationen
• Definition.
– Geg.: Würfel W=(G,F) mit G=(D1.k11,...,Dn.kn1) und F=(f1,..,fm)
– Sei P={k0→...→ ki1‘‘ → ki1 → ki1‘ →...→TOP} ein Pfad in Di
– Die einfache Aggregation von Di in W entlang P bzgl.
Aggregatfunktion f überführt W in
• W‘ = ( (D1.k11,..., Di.ki1‘,..., Dn.kn1), (f1‘ , ..., fm‘ ))
• (f1‘ , ..., fm‘) = (F1(punkte(k11) ∩ ... punkte(ki1‘ ) ∩ ... punkte(kn1)),
...,
Fm(punkte(k11) ∩ ... punkte(ki1‘ ) ∩ ... punkte(kn1)))
– Die einfache Verfeinerung von Di in W entlang P bzgl.
Aggregatfunktion f überführt W in
• W‘ = ( (D1.k11,..., Di.ki1‘‘,..., Dn.kn1), (f1‘‘ ‚, ..., fm‘‘))
• Mit (f1‘‘ , ..., fm‘‘) = ...
• Bemerkung
– Bei Aggregation kann man die fi‘ per Aggregation berechnen
– Bei Verfeinerung ist ein Zugriff auf die Datenbank (Datenpunkte
Leser: Data Warehousing,
Vorlesung, Sommersemester 2004
23
oderUlfPräaggregate)
notwendig
Beispiel: Aggregation (Roll-Up)
Z.Monat
Z.Tag
4.1.1999
B.Abteilung
4‘1999
B.Abt.
3‘1999
3.1.1999
2.1.1999
Skoda.Reparatur
Skoda.Ersatzteile
1.1.1999
Skoda.Repa.
Skoda.Ersatz
1‘1999
Lyon
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
Nantes
Wedding
München
Lyon
Nantes
Wedding
München
R.Shop
2‘1999
R.Shop
24
Beispiel: Verfeinerung (Drill-Down)
Z.Monat
Z.Tag
4.1.1999
B.Abteilung
4‘1999
B.Abt.
3‘1999
3.1.1999
2.1.1999
Skoda.Reparatur
Skoda.Ersatzteile
1.1.1999
Skoda.Repa.
Skoda.Ersatz
1‘1999
Lyon
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
Nantes
Wedding
München
Lyon
Nantes
Wedding
München
R.Shop
2‘1999
R.Shop
25
Wo sind wir?
• Das MDDM gibt Klassifikationsstufen, Knoten, Pfade und
Dimensionen vor
• Die Daten bestehen aus verschiedenen Measures,
jeweils mit Koordinaten in den jeweiligen Dimensionen
• Koordinaten (Dimensionen) sind hierarchisch gegliedert
(entlang der Pfade); jeder Datenpunkt hat eine
Koordinate in jeder Klassifikationsstufe
– Die Koordinaten in einem Pfad sind voneinander abhängig
• Würfel stellen aggregierte Daten gemäß der Würfelgranularität dar
• OLAP Operationen (Aggregation, Verfeinerung) sind
entlang der Pfade und gemäß der Granularität möglich
– Sie verändern die Granularität und die aggregierten Fakten
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
26
Aggregation bis TOP
Summe Umsatz pro Tag und
Abteilungen über alle Shops
Z.Tag
4.1.1999
B.Abteilung
3.1.1999
2.1.1999
Skoda.Reparatur
Skoda.Ersatzteile
1.1.1999
Lyon
Nantes
Wedding
München
R.Shop
Summe Umsatz pro Shop
und Tag, über alle
Abteilungen
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
27
... in mehreren Dimensionen
Z.Tag
4.1.1999
B.Abteilung
3.1.1999
2.1.1999
Skoda.Reparatur
Skoda.Ersatzteile
1.1.1999
Lyon
Nantes
Wedding
München
R.Shop
G=(Z.TOP, R.TOP, B.TOP)
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
28
Weitere Operationen
• Aggregation ist die spannendste OLAP
Operation
• Die restlichen führen keine Berechnungen
durch, sondern selektieren bzw. ändern nur
Ausschnitte des Würfels
– In der Literatur werden teilweise noch weitere
Operationen angeführt (Drill-Across, Dicing, ...)
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
29
Rotation
Unterschiedliche Sichtweisen auf einen
Datenbestand
Jahr
Jahr
2002
Kontinent
2001
2002
Marke
2001
2000
Asien
Südamerika
1999
BMW
Ford
1999
Australien
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
S-Amerika
Europa
Asien
Ford
VW
Peugeo
t
BMW
Automarke
2000
Kontinent
30
Selektion einer Scheibe (Slicing)
Verkäufe in Asien
pro Jahr und Marke
Verkäufe von Peugeot
pro Jahr und Kontinent
Jahr
2002
Kontinent
2001
2000
Asien
Südamerika
1999
Ford
VW
Peugeot
BMW
Automarke
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
31
Auswahl von Unterwürfeln
Verkäufe von (Peugeot, VW) in
(2000, 2001) pro Kontinent
Jahr
2002
Kontinent
2001
2000
Asien
Südamerika
1999
Ford
VW
Peugeot
BMW
Automarke
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
32
2: Grafische Modellierung
• Grafische Modellierung multidimensionaler
Daten
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
33
Datenbankentwurf
Konzeptionelles
Modell
Logisches Modell
Implementierung
Designer,
Requirements
Engineering
Entwickler,
Administrator
Administrator
Produktsupport
E/R, UML:
Klassen, Attribute,
Assoziationen
Relationen,
Attribute, Keys,
SQL
Join-Order, Indexe,
Buffermanagement,
Sortierung
(Halb)Automatisch
Vollautomatisch
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
34
ME/R
• Literatur
– Sapia at al. „Extending the E/R Model for the
Multidimensional Paradigm“, Workshop DWDM, 1998
• Logisches MDDM
– Fakten, Klassifikationsstufen, Dimensionen, ...
• Konzeptionelles/Graphisches Modell für MDDM?
• E/R nicht ausreichend
– Keine Repräsentation von MDDM Konzepten: Fakten,
Dimension, Klassifikationsstufen, etc.
¾ ME/R: Erweitertes E/R Modell
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
35
Gesamtbild
ME/R
MDDM
ROLAP: Relationales Modell
Implementierung
MOLAP: multidimensionales Implementierung
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
36
ME/R: Elemente und Notation
• Neue Elemente
–
–
–
–
Klassifikationsstufe (Dimension Level)
Würfel (Fact)
Halbordnung zwischen Klassifikationsstufen (Roll-Ups)
Constraint: Keine Zyklen in den ROLL-UP Beziehungen
Klassifikationsstufe
Würfel
Roll-Up
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
37
Beispiel
Jahr
Monat
Tag
Shop_name
Menge
Preis
Produktgruppe
Produkt
Verkauf
Shop
Kunde
Region
Product_name
Top
Top
Top
Land
Land
Jahr
Region
Region
Monat
Kunde
Shop
Tag
TOP
Region
Land
Produkgruppe
Land
Produkt
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
38
Wiederverwendung von Stufen
...
Shop_name
Menge
Preis
Produktgruppe
Produkt
Verkauf
Shop
Kunde
Region
Product_name
Land
• Möglich, aber nicht unproblematisch
– Wenn Kundenregionen (nach Vertrieb) anders organisiert sind als
Shopregionen (nach Logistik) – IC nicht überwachbar
– Wenn Kunden in mehr Regionen wohnen dürfen als es Shops gibt –
verborgenes Integritätsconstraint
– Entspricht funk. Abhängigkeiten von unterschiedlichen, aber
gleichnamigen Attributen
– Wird auf unterschiedliche Fremdschlüssel abgebildet
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
39
ME/R Bewertung
•
•
•
•
•
Minimale, konservative Erweiterung
Mehrere Würfel sind möglich
Flexible Zuordnung Dimensionen – Würfel
Klare Semantik durch Metamodell in Extended E/R
Greift eher kurz
– Keine Eigenschaften von Fakten (Summierbarkeit)
– Keine Besonderheiten von Klassifikationspfaden
• Übersprungene Stufen, unendliche Hierarchien
• Keine Übersetzungsmethode definiert
• Toolunterstützung?
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
40
Weitere Ansätze
• mUML
– UML-Erweiterung basierend auf UML Metamodell (Constraints,
Stereotypen) -> Werkzeugunterstützung vorhanden
– Klassifikationsstufe:
<<Dimensional class>>
– Fakten:
<<Fakt class>>
– Würfel:
<<Dimension>> (Assoziationstyp)
– Hierarchie:
<<Roll-Up>> (Assoziationstyp)
– ...
• Multi-dimensional Modelling Language (MML)
• ...
• Keine der Methoden hat sich (bisher) durchgesetzt
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
41
3. Summierbarkeit
• Ziel des MDDM
– Verdichtung von Daten entlang der Klassifikationspfade
• Aber das geht nicht immer gut
– Numerische versus kategorische Fakten
• Numerisch: Umsatz, Verkäufe, Messwerte, ...
• Kategorisch: Geschlecht, Kundensegment,...
– Sollte man als Dimension definieren, muss man aber nicht
– Nicht alle Aggregatsfunktionen sind hierarchisch anwendbar
• Summe der Umsätze aller Tage → Umsatz des Monats
Summe der Umsätze aller Monate → Umsatz des Jahres
• Durchschnitt der Umsätze aller Tage → Durchschnitt des Monats?
• Durchschnitt der Umsätze aller Monate → Durchschnitt des Jahres?
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
42
Beispiel
Level 0
1
1
10
Level 1
Level 2
Summe: 2
Avg:
1
Summe: 12
11/2 ≠ 12/3
Summe: 10 Avg:
Avg:
10
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
43
Charakterisierung von Aggregatsfunktionen
• Lenz, Shoshani: „Summarizability in OLAP and Statistical
Databases“, SSDBM, 1997
• Geg.: Set X, Partitionierung (X1 ,X2, ..., Xn)
– X entspricht einem Klassifikationsknoten, (X1 ,X2, ..., Xn) sind
seine Kinder
• Definition.
– Eine Aggregatfunktion f ist distributiv gdw
• ∃g: f(X) = f( g(X1), g(X2), ... g(Xn))
– Eine Aggregatfunktion f ist algebraisch gdw
• f(X) berechenbar aus fester Menge von g‘s
– Eine Aggregatfunktion f ist holistisch gdw
• f(X) kann nur aus den Grundelementen von X berechnet werden
• D.h., dass die Menge von g‘s nicht begrenzt ist
• Dann muss man immer auf die Datenpunkte zurück
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
44
Beispiele
Distributiv
Summe, Count, Max, Min, ...
Algebraisch
AVG (mit G1=SUM und G2=CNT)
STDDEV, MaxN, ...
MEDIAN, RANK, PERCENTILE
Highest Frequency, ...
Holistisch
• Highest Frequency
– Merke Werte und jeweilige Frequenz: ( (v1,f1), (v2,f2), ...)
– Merge zweier Sets möglich
– Aber: Keine feste Grenze für Platzbedarf, da Anzahl
unterschiedlicher Werte nicht fest
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
45
Summierbarkeit / Aggregierbarkeit
• Bisher: Wann darf man Werte hierarchisch summieren ?
– Natürlich nur numerische Fakten
– Art der Aggregatfunktion beachten
• Aber
– Summe der Lagerbestände pro Produkt über Jahre?
– Gesamtsumme Studenten als Summe über Studenten pro
Studiengang?
• Weitere notwendige Kriterien für Aggregierbarkeit
entlang eines Klassifikationspfades
– Überlappungsfreiheit der Zuordnung von Klassifikationsknoten
– Vollständigkeit der Zerlegung pro Klassifikationslevel
– Typverträglich von Fakt und Aggregatfunktion
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
46
Beispiel
Studenten pro Jahr und Studiengang
1994
1995
1996
Gesamt
Informatik
15
17
13
28
BWL
10
15
11
21
Gesamt
25
31
23
49
Wie kann das stimmen?
• Wie lange dauern Studiengänge?
• Studenten nur in einem Studiengang eingeschrieben?
Summen lassen sich nicht aus den Einzelwerten berechnen
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
47
Überlappungsfreiheit
• Definition.
Eine Klassifikationshierarchie ist überlappungsfrei gdw
– Jeder Klassifikationsknoten mit Level i ist höchstens einem
Klassifikationsknoten in Level i+1 zugeordnet
– Jeder Datenpunkt ist höchstens einem Klassifikationsknoten mit
Level 0 zugeordnet
Bekleidung
Produktfamilie
Produktgruppe
Produktart
Damen
Rock
Herren
Jeans
Anzug
Verkauf: ((Rock,Jeans), 79.00, ...)
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
48
Vollständigkeit
• Definition.
Eine Klassifikationshierarchie ist vollständig gdw
– Jeder Klassifikationsknoten mit Level i ist mindestens einem
Klassifikationsknoten in Level i+1 zugeordnet
– Jedes Fakt ist mindestens einem Klassifikationsknoten mit Level
0 zugeordnet
Bekleidung
Produktfamilie
Produktgruppe
Produktart
Damen
Rock
Herren
Jeans
Anzug
Verkauf: ((Produkt das zu
49
keiner Produktart passt), ...)
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
Was tun?
• Wir sind bisher immer von vollständigen und
überlappungsfreien Klassifikationsschemas ausgegangen
– Summierbarkeit ist ein wichtiger Grund dafür
• Das entspricht nicht immer der betrieblichen Realität
• Was tun wenn nicht?
– Neue Klassifikationsknoten
• Artifizielle Klassifikationsknoten: „Others“, „Rest“, „Nicht
zugewiesen“
• Knotenaufspaltung: „Herrenjeans“, „Damenjeans“
– Gewichtete Zuordnung
• Türkei ist 10% Europa, 90% Asien
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
50
Typen von Fakten
• Flow (Ereignis zu Zeitpunkt T)
– Verkäufe, Umsatz, Lieferungen, diplomierte
Studenten, ...
• Stock (Zustand zu Zeitpunkt T)
– Lagerbestand, eingeschriebene Studenten,
Einwohnerzahlen, ...
• Value-per-Unit (Eigenschaft zu Zeitpunkt T)
– Preis, Herstellungskurs, Währungskurs, ...
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
51
Typverträglichkeit
MIN/MAX
SUM
AVG
Stock
Flow
Value-perUnit
√
√
√
√
Nie
√
√
Zeit: nein
Sonst: √
√
• Erkennen von Problemen
– Nicht automatisch möglich
– Metadaten – Beschreibung der Measures notwendig
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
52
Zusammenfassung
• OLAP Operationen
– MDDM Modell
• Modellierung der Daten in der Sprache des Analysten
• Einschränkung auf sinnvolle Operationen
– Roll-Up und Drill-Down
– Selektion und Rotation
• Grafische Notationen sind vorhanden, aber noch nicht
verbreitet
• Vorsicht vor Modellierungsfallen
–
–
–
–
Summierung über kategorische Fakten
Rekursive Durchschnittsbildung
Typunverträgliche Summierung
„Löchrige“ Klassifikationshierarchien
Ulf Leser: Data Warehousing, Vorlesung, Sommersemester 2004
53

Documentos relacionados