4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1
Transcrição
4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1
Darstellung, Verarbeitung und Erwerb von Wissen 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 Grundlagen DVEW – WS 2004/05 – c Gabriele Kern-Isberner 1 Beispiel: Mord in Florida 1/2 Dieses Beispiel basiert auf einer realen statistischen Untersuchung, die in Florida in den Jahren 1973-79 durchgeführt wurde. 5000 Mordfälle wurden erfasst, und die folgende Wahrscheinlichkeitsverteilung P spiegelt die Praxis der damaligen gerichtlichen Verurteilungen wider. Betrachtete Aussagenvariablen: V = Mordopfer (Victim) ist schwarz/weiß M = Mörder ist schwarz/weiß D = Todesstrafe (Death) verhängt DVEW – WS 2004/05 – c Gabriele Kern-Isberner v̇ ∈ {vb, vw } ṁ ∈ {mb, mw } ¯ d˙ ∈ {d, d} 2 Beispiel: Mord in Florida 2/2 ω P (ω) ω P (ω) vw mw d 0.0151 vw mw d 0.4353 vw mbd 0.0101 vw mbd 0.0502 vbmw d 0 vbmw d 0.0233 vbmbd 0.0023 vbmbd 0.4637 P (d|mw ) = 0.0319 und P (d|mb) = 0.0236 P (d|vw mw ) = 0.0335, P (d|vbmw ) = 0, DVEW – WS 2004/05 – c Gabriele Kern-Isberner P (d|vw mb) = 0.1675, P (d|vbmb) = 0.0049 3 Simpson’s Paradoxon P (E|C) > P (E|¬C), aber: P (E|C, M ) < P (E|¬C, M ), P (E|C, ¬M ) < P (E|¬C, ¬M ) Beispiel: C = Medikamenteneinnahme, E = Gesundung Gesamt C ¬C Männer C ¬C E ¬E 18 12 7 3 25 15 DVEW – WS 2004/05 – E ¬E 20 20 16 24 36 44 Σ Gesundungsrate 40 50 % 40 40 % 80 Σ Gesund. 30 60 % 10 70 % 40 c Gabriele Kern-Isberner Frauen C ¬C E ¬E 2 8 9 21 11 29 Σ Gesund. 10 20 % 30 30 % 40 4 Probabilistisches Schließen • Probabilistisches Schließen ist schwierig und oft unergiebig – P (A ∧ B) wird nicht eindeutig durch P (A) und P (B) bestimmt z.B. P (A) = P (B) = 0.5 ⇒ P (A ∧ B) ∈ [0, 0.5] – P (C|A) = x, P (C|B) = y ⇒ P (C|A ∧ B) ∈ [0, 1]! ⇒ Probabilistische Logik ist nicht wahrheitsfunktional! • Zentrales Problem: Wie wirkt sich zusätzliche Information aus? – d.h.: Wenn P (B|A) bekannt ist, was kann man dann über P (B|A ∧ C) sagen? • Hohe Komplexität (n Aussagen → 2n Vollkonjunktionen) • Wahrscheinlichkeiten sind schwierig zu spezifizieren. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 5 Probabilistische Netzwerke 1/2 Grundlegende Ideen: • Quantitatives probabilistisches Schließen wird mit qualitativer Information über Strukturen (i.e. Abhängigkeiten und Unabhängigkeiten von Variablen) kombiniert • Man benutzt graphische Mittel zur Darstellung: Zu jeder Aussage A1, . . . , An in Σ wird ein Knoten assoziiert, so dass V = {A1, . . . , An} die Menge der Ecken eines Graphen G = GV ist. Die Kanten von G sollen direkte Abhängigkeiten unter den Ai repräsentieren. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 6 Probabilistische Netzwerke 2/2 Probabilistische Netzwerke können gerichtete oder ungerichtete Graphen sein: Ungerichtete Graphen: (Markov-Netze) • Eine ungerichtete Kante zwischen A und B drückt aus, dass A und B direkt voneinander abhängig sind. Gerichtete Graphen: (Bayes-Netze) • Eine gerichtete Kante von A nach B drückt aus, dass B direkt von A abhängig ist; A wird oft auch als kausale Ursache von B betrachtet. In beiden Graphentypen werden indirekte Abhängigkeiten mittels Pfaden im Graphen repräsentiert. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 7 Probabilistische Netzwerke – Beispiel Ungerichteter Graph Gerichteter Graph A x A x B x B ? x C x C ? x A und B bzw. B und C hängen direkt voneinander ab; A und C hängen indirekt voneinander ab. DVEW – WS 2004/05 – c Gabriele Kern-Isberner B hängt direkt von A ab, C hängt direkt von B ab; C hängt indirekt von A ab. 8 Darstellung, Verarbeitung und Erwerb von Wissen 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.2 Ungerichtete Netzwerke (Markov-Graphen) DVEW – WS 2004/05 – c Gabriele Kern-Isberner 9 Separation in ungerichteten Graphen 1/2 Idee: Direkt abhängige Aussagen sollen Nachbarn in G sein, während indirekt abhängige Variablen durch Wege der Länge ≥ 2 verbunden sind. Separation: • paarweise disjunkte Teilmengen A, B, C von V; Schreibweise: A |= • C separiert A und B, G B|C gdw. jeder Weg zwischen einem Knoten in A und einem Knoten in B mindestens einen Knoten von C enthält. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 10 Separation in ungerichteten Graphen 2/2 C A DVEW – WS 2004/05 – c Gabriele Kern-Isberner |= A G B B|C 11 Separation und bedingte Unabhängigkeit 0 B | (C ∪ C ); G P B | C gilt, nicht aber |= • es ist jedoch möglich, dass A A P B | (C ∪ C0). |= G B | C impliziert A |= |= • A |= |= graphische Separation und probabilistische bedingte Unabhängigkeit sind ähnliche Konzepte, aber . . . A P B | C gdw. A G B | C ist nicht möglich, denn abhängig: gender |= Im Raucher-Beispiel sind Geschlecht und verheiratet statistisch unP marriage | ∅, nicht DVEW – WS 2004/05 – ( gender c Gabriele Kern-Isberner |= aber bedingt abhängig gegeben Schwangerschaft: P marriage | pregnancy)! 12 Markov-Netze 1/2 Graph G mit Knotenmenge V, Verteilung P über V G B | C impliziert A |= A |= G heißt Unabhängigkeitsgraph zu P , wenn gilt: P B|C (globale Markov-Eigenschaft) d.h. Unabhängigkeiten in G entsprechen Unabhängigkeiten in P . Unabhängigkeitsgraphen stellen i.Allg. zu viele Abhängigkeiten dar, d.h. einige (bedingte) Unabhängigkeiten werden nicht repräsentiert. Unabhängigkeitsgraphen, die dieses Fehlverhalten auf ein Minimum reduzieren, sind von besonderem Interesse. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 13 Markov-Netze 2/2 Ein Unabhängigkeitsgraph G heißt minimaler Unabhängigkeitsgraph oder Markov-Graph zu P , wenn G keine überflüssigen Kanten enthält, d.h., wenn G nach Entfernen einer beliebigen Kante kein Unabhängigkeitsgraph mehr zu P ist. Es gelten die folgenden Resultate: |= • Zu jeder positiven Wahrscheinlichkeitsverteilung P gibt es einen (eindeutig bestimmten) Markov-Graph G0 = hV, E0i, so dass (A, B) ∈ / E0 gdw. A P B | (V − {A, B}). • Andererseits lässt sich zu jedem ungerichteten Graphen G eine Verteilung P angeben, so dass G ein Unabhängigkeitsgraph von P ist. P heißt dann Markov-Feld bezgl. G. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 14 Beispiel Infektion Av @ @ B @ @ @ @ @v v @ @ @ @ @ C @ @v D G DVEW – WS 2004/05 – D | {B, C}, also auch A c Gabriele Kern-Isberner |= Es gilt A |= Personen A, B, C, D haben sich infiziert – die Kanten geben die Kontakte innerhalb dieser Gruppe wieder. P D | {B, C}. 15 Verteilung → Markov-Graph: Sei P eine (positive) Wahrscheinlichkeitsverteilung über V. A |= Ausgehend von einem vollständigen Graphen auf V entfernt man alle Kanten (A, B), für die gilt P B | (V − {A, B}) |= (Umgekehrt kann man natürlich auch von einem leeren Graphen starten und nur die Knoten verbinden, bei denen A P B | (V − {A, B}) für die entsprechenden Variablen falsch ist.) DVEW – WS 2004/05 – c Gabriele Kern-Isberner 16 Potentialdarstellungen Sei P eine gemeinsame Verteilung über den Variablen in V; sei {Wi | 1 ≤ i ≤ p} eine Menge von Teilmengen von V mit Sp i=1 Wi = V; seien ψi : {wi | wi ist Vollkonjunktion über Wi, 1 ≤ i ≤ p} → IR≥0 Funktionen, die jeder Vollkonjunktion von Variablen in Wi (1 ≤ i ≤ p) eine nicht-negative reelle Zahl zuordnen. Gilt nun P (V) = K · Qp i=1 ψi(Wi) so heißt {W1, . . . , Wp; ψi} eine Potentialdarstellung von P . DVEW – WS 2004/05 – c Gabriele Kern-Isberner 17 Kleine Graphentheorie Sei G = hV, Ei ein ungerichteter Graph. Eine Teilmenge C ⊆ V heißt Clique von G, wenn C eine maximale vollständige Menge ist, d.h., wenn jedes Paar verschiedener Knoten aus C durch eine Kante in E miteinander verbunden ist, und wenn C bzgl. dieser Eigenschaft maximal unter den Teilmengen von V ist. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 18 Graph G → Verteilung P • C1, . . . , Cm seien die Cliquen von G. • Zu jeder Clique Ci, definiere (beliebig) eine nicht-negative PotenP Qm tialfunktion ψi(Ci), so dass V i=1 ψi(Ci) 6= 0. • Ein passendes P (so dass G ein Unabhängigkeitsgraph für P ist) lässt sich dann definieren durch P (V) := K Qm i=1 ψi(Ci) (P faktorisiert über den Cliquen von G) Potentialdarstellungen brechen die Komplexität von Wahrscheinlichkeitsverteilungen auf! DVEW – WS 2004/05 – c Gabriele Kern-Isberner 19 Beispiel Infektion (Forts.) Av @ @ @ @ B @ @ @v v @ @ @ @ @ @ C Personen A, B, C, D haben sich infiziert @v D Mengensystem = Cliquen Ci: C1 = {A, B}, C2 = {A, C}, C3 = {B, D}, C4 = {C, D} DVEW – WS 2004/05 – c Gabriele Kern-Isberner 20 Beispiel Infektion (Forts.) Potentialfunktion(en) ψi: ci ab ab ab ab DVEW – WS 2004/05 – ψi(ci) 1 0 0 0.5 ci ac ac ac ac c Gabriele Kern-Isberner ψi(ci) 1 0 0 0.5 ci bd bd bd bd ψi(ci) 1 0 0 0.5 ci cd cd cd cd ψi(ci) 1 0 0 0.5 21 Beispiel Infektion (Forts.) Passende Wahrscheinlichkeitsfunktion: P (A, B, C, D) = K · ψ1(A, B)ψ2(A, C)ψ3(B, D)ψ4(C, D) d.h. v K −1P (v) v K −1P (v) v K −1P (v) v K −1P (v) abcd abcd abcd abcd 1 0 0 0 abcd abcd abcd abcd 0 0 0 0 abcd abcd abcd abcd 0 0 0 0 abcd abcd abcd abcd 0 0 0 0.0625 mit K = (1 + 0.0625)−1 DVEW – WS 2004/05 – c Gabriele Kern-Isberner 22 Grenzen ungerichteter Netzwerke Ergebnisse der Würfe zweier gleicher, fairer Münzen; Glocke, klingelt genau dann, wenn Ergebnisse der Münzwürfe gleich. A P B | ∅, aber nicht A |= A, B C “Münzen und Glocke”: |= Beispiel P B|C Kein ungerichteter Graph kann beide Aussagen zugleich repräsentieren! Ay By @ @ @ @ @ @ R @ y C DVEW – WS 2004/05 – c Gabriele Kern-Isberner 23 Darstellung, Verarbeitung und Erwerb von Wissen 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.3 Gerichtete Netzwerke (Bayes-Netze) DVEW – WS 2004/05 – c Gabriele Kern-Isberner 24 Wir werden uns im Folgenden mit gerichteten probabilistischen Netzwerken beschäftigen . . . Zentrales Problem: Wie spiegeln sich bedingte Unabhängigkeiten in der Graphenstrukur wider? DVEW – WS 2004/05 – c Gabriele Kern-Isberner 25 Holmes und Watson in London Ein Winterabend in London . . . S : glatte Straßen (Slippery roads) Ha : Holmes hatte einen Unfall (Holmes – car accident) Wa : Watson hatte einen Unfall (Watson – car accident) ' $ S & % @ @ @ ' $ R' $ @ Ha & % Wa & % • keine Information über S: Ha und Wa voneinander abhängig. • konkrete Information über S: keine (direkte) Abhängigkeit mehr! Ha und Wa sind also bedingt unabhängig bei gegebenem S. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 26 Holmes und Watson in Los Angeles Ein sonniger Morgen in Los Angeles . . . R S Hl Wl : : : : Regen in der letzten Nacht der Sprinkler hat sich (irrtümlich) angeschaltet Holmes’ Rasen (lawn) ist nass Watson’s Rasen (lawn) ist nass ' $ ' $ S R & % & % @ @ @ $ $ ' @ R' Wl & % Hl & % Auch hier sind Wl und Hl bedingt unabhängig bei gegebenem R. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 27 DVEW – WS 2004/05 – c Gabriele Kern-Isberner 28 Gerichtete azyklische Graphen . . . . . . (Directed acyclic graphs, DAG) G sind gerichtete Graphen ohne Zyklen (i.e. zyklische Effekte werden im Folgenden von der Betrachtung ausgenommen). • Wenn (v, w) eine (gerichtete) Kante in G ist, dann nennt man v den Elternknoten von w, und w das Kind von v. • w heißt Nachkomme (descendant) von v, und v heißt Vorfahr von w, wenn es in G einen (gerichteten) Pfad von v nach w gibt. • Die Nicht-Nachkommen (non-descendants, nd (v)) eines Knoten v sind diejenigen Knoten in V, die verschieden sind von v und seinen Elternknoten und nicht zu seinen Nachkommen gehören. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 29 Bayes-Netze Ein Bayessches Netz B = hV, E, P i besteht aus • einem DAG G = hV, Ei und • einer Wahrscheinlichkeitsverteilung P über V = {A1, . . . , An}, Ai |= so dass jede Variable Ai bedingt unabhängig von ihren NichtNachkommen nd (Ai), gegeben ihre Elternknoten pa(Ai): P nd (Ai) | pa(Ai) für alle i = 1, . . . , n lokale gerichtete Markov-Bedingung DVEW – WS 2004/05 – c Gabriele Kern-Isberner 30 Holmes und Watson in London Ein Winterabend in London . . . S Ha Wa : : : glatte Straßen (Slippery roads) Holmes hatte einen Unfall (Holmes – car accident) Watson hatte einen Unfall (Watson – car accident) ' $ S & % @ @ @ $ ' R' $ @ Ha Ha DVEW – WS 2004/05 – c Gabriele Kern-Isberner |= & % P Wa & % Wa | S 31 Holmes und Watson in Los Angeles Ein sonniger Morgen in Los Angeles . . . R S Hl Wl : : : : Regen in der letzten Nacht der Sprinkler hat sich (irrtümlich) angeschaltet Holmes’ Rasen (lawn) ist nass Watson’s Rasen (lawn) ist nass ' $ ' $ S R & % & % @ @ @ $ $ ' @ R' Hl Wl & % Hl DVEW – WS 2004/05 – c Gabriele Kern-Isberner |= & % P Wl | R 32 Exkurs: D-Separation 1/2 In einem Bayesschen Netzwerk besteht der folgenden wichtige Zusammenhang zwischen der graphischen und der probabilistischen Repräsentation von Wissen: Ai |= Jede Variable Ai ist bedingt unabhängig von ihren Nicht-Nachkommen nd (Ai), gegeben ihre Elternknoten pa(Ai): P nd (Ai) | pa(Ai) für alle i = 1, . . . , n lokale gerichtete Markov-Bedingung Wenn C A und B d-separiert, so gilt A DVEW – WS 2004/05 – c Gabriele Kern-Isberner |= Dazu passt der Begriff der d-Separation – in einem Bayesschen Netz gilt nämlich die Globale gerichtete Markov-Bedingung P B|C 33 Exkurs: D-Separation 2/2 Sei G ein DAG über V. • Eine Vorfahrenmenge ist eine Menge A ⊆ V, in der für jeden Knoten v ∈ A auch alle seine Vorfahren an(v) enthalten sind. • Für eine Knotenmenge W ⊆ V bezeichnet An(W) die kleinste Vorfahrenmenge, die W enthält: S An(W) = W ∪ w∈W an(w) Definition “d-Separation” Sei G ein DAG, seien A, B, C disjunkte Teilmengen von V. C dsepariert A und B in G, wenn C die beiden Mengen A und B in dem moralen Graphen, der durch die kleinste Vorfahrenmenge An(A ∪ B ∪ C) aufgespannt wird, separiert. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 34 Kleine Graphentheorie Sei G = hV, Ei ein ungerichteter Graph. • Eine Sehne eines einfachen Weges oder Zyklus’ v0, v1, . . . , vn in G ist eine Kante zwischen zwei nicht aufeinanderfolgenden Knoten vi, vj , | i − j |> 1. • G heißt trianguliert, wenn jeder einfache Zyklus der Länge > 3 eine Sehne besitzt. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 35 Graphen – Beispiele '$ '$ A @ &% @ @ @ @ @ $ ' '$ C B A @ &% @ @ @ @ @ $ '$'$' B D C &% &% @ @ @ @ @ '$ @ &%&%&% @ @ @ @ @ '$ @ &% &% D trianguliert DVEW – WS 2004/05 – c Gabriele Kern-Isberner E nicht trianguliert! 36 Potentialdarstellungen für Bayes-Netze Eltern-Kind-Beziehungen in Bayesschen Netzen symbolisieren direkte Abhängigkeiten: Elternknoten ist direkte Ursache für Kindknoten. (Bayessche Netzwerke ≈ kausale Netzwerke, auch: belief networks) Eine Potentialdarstellung eines Bayesschen Netzes wird gegeben durch P (V) = Q P (V | pa(V )) V ∈V DVEW – WS 2004/05 – c Gabriele Kern-Isberner 37 Bayessches Netz – Krebserkrankung A B C D E Krebserkrankung mit Metastasen liegt vor Kalzium-Serum-Wert ist erhöht Gehirntumor liegt vor Koma liegt vor starke Kopfschmerzen liegen vor ' $ A & % @ @ ' $ R' $ @ B C & % & % @ @ @ @ $ R' @ R' $ @ D & % E & % P (A, B, C, D, E) = P (A)P (B|A)P (C|A)P (D|BC)P (E|C) DVEW – WS 2004/05 – c Gabriele Kern-Isberner 38 Bayessches Netz – Krebserkrankung (Forts.) Durch die folgenden (bedingten) Wahrscheinlichkeiten wird P vollständig festgelegt: P (a) = 0.20 P (b | a) = 0.80 P (b | ā) = 0.20 P (c | a) = 0.20 P (c | ā) = 0.05 P (d | bc) = 0.80 P (d | b̄c) = 0.70 P (d | bc̄) = 0.90 P (d | b̄c̄) = 0.05 P (e | c) = 0.80 P (e | c̄) = 0.60 P (abcde) = P (a)P (b|a)P (c|a)P (d|bc)P (e|c) = 0.2 · 0.8 · 0.2 · 0.2 · 0.8 = 0.00512 DVEW – WS 2004/05 – c Gabriele Kern-Isberner 39 Bayessches Netz – Krebserkrankung (Forts.) Vorteil der Potentialdarstellung: Man benötigt nur 11 (bedingte) Wahrscheinlichkeiten, um die 25 = 32 Werte der Verteilung P (A, B, C, D, E) zu bestimmen. Beweis der Potentialdarstellung (in diesem Beispiel): P (A, B, C, D, E) P (A, B, C, D) P (A, B, C, D, E) = · P (A, B, C, D) P (A, B, C) P (A, B, C) P (A, B) · · · P (A) P (A, B) P (A) = P (E|A, B, C, D) · P (D|A, B, C) ·P (C|A, B) · P (B|A) · P (A) = P (E|C)P (D|B, C)P (C|A)P (B|A)P (A) DVEW – WS 2004/05 – c Gabriele Kern-Isberner 40