Lernen auf der Wissensebene - Angewandte Informatik / Kognitive

Transcrição

Lernen auf der Wissensebene - Angewandte Informatik / Kognitive
Lernen auf der Wissensebene
Learning on the Knowledge Level
Ute Schmid
Cognitive Systems
Fakultät Wirtschaftsinformatik und Angewandte Informatik
Otto-Friedrich Universität Bamberg
20. Juni 2013
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
1 / 31
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
2 / 31
Wissen
Wissen ist . . .
dem Bewusstsein zugänglich
symbolisch repräsentiert, deklarativ
inspizierbar
verbalisierbar, kommunizierbar
natürlich in regelbasierte Systeme integrierbar
Routen: können anderen beschrieben werden
Grammatikregeln: können von den meisten Muttersprachlern korrekt
angewendet werden; können von Sprachwissenschaftlern als
symbolische Regeln formuliert werden
Problemlösungen: können anderen beschrieben werden
Problemlösestrategien: werden eher unbewusst angewendet
Diagnosen: basieren häufig auf teilweise unbewussten Eindrücken
(an expert does not think, he knows)
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
3 / 31
Newell’s Knowledge Level
Allen Newell (1981): Definition des knowledge level zur Beschreibung
und Vorhersage des Verhaltens von Computer-Systemen auf der
Ebene von Zielen, Wissen und Aktionen
Schwerpunkt: Repräsentation, ausgeklammert: Aquisition (Lernen)
Viele Kognitive Architekturen addressieren Lernen nicht,
oder nicht auf der Wissensebene (Parameter-Tuning)
Maschinelles Lernen: meist statistisch – black box learning
How can a cognitive system process environmental input and stored
knowledge so as to benefit from experience?
(Holland, Holyoak, Nisbett & Thagard, 1986, Induction – Processes of Inference, Learning, and
Discovery)
Lernen findet auf vielen Ebenen statt: Basale Lernprozesse (auf
Sensordaten) — Symbolbasierte Ansätze (auf der Wissensebene)
Im Folgenden: Induktives Lernen auf der Wissensebene
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
4 / 31
Überblick
1
Induktiver Wissenserwerb
2
Induktives Programmieren
3
Analoges Lernen – Generalisierung
4
Anwendung: Incident Mining
5
Anwendung: Schmerzmimik
6
Anwendung: Diagnose von Pflanzen
7
Zusammenfassung
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
5 / 31
Lernen produktiver Regelmengen
Generalisierung über erlebte Regularitäten
I
I
I
Rekursive Prädikate: odd/even, Vorfahr
Syntaktische Struktur von Sätzen
Lösungsprozedur für den Turm von Hanoi
Produktiv (im Sinne von Chomsky): endliche Regelmenge zur
Erzeugung von potentiell unendlich vielen Instanzen verschiedener
Komplexität
Generalisierung aus wenigen positiven Beispielen
(cf. Marcus, The Algebraic Mind, 2001)
Anwendung eines Verfahrens zur analytischen induktiven
Programmierung
(Igor, Kitzelmann & Schmid, JMLR 2006; Schmid & Kitzelmann, CSR 2012;
IK’13 Special Course)
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
6 / 31
Induktives Programmieren
Anwendung von maschinellem Lernen auf das Problem der
Programmsynthese
Automatische Erzeugung (rekursiver) Programme aus
Eingabe-/Ausgabe-Beispielen (unvollständigen Spezifikationen)
Ansätze:
I
I
analytisch, daten-getrieben: Thesys, Golem, Igor (ILP und induktive
funktionale Ansätze)
generate-and-test: FFoil (ILP), Adate (evolutionär), MagicHaskeller
(systematische Aufzählung)
E/A Beispiele:
last [a]
last [a,b]
last[a,b,c]
last[a,b,c,d]
=
=
=
=
U. Schmid (Uni BA)
a
b
c
d
Induziertes Programm:
last[x]
= x
last(x:xs) = last(xs)
Lernen auf der Wissensebene
20. Juni 2013
7 / 31
Igor2
Analytischer Ansatz zum Lernen funktionaler Programme (Maude,
Haskell)
Effiziente Induktion rekursiver Regelmengen aus wenigen positiven Beispielen
Lernt lineare, Baum-, und wechselseitig rekursive Regelmengen
Automatische Induktion von Hilfsfunktionen (necessary function invention)
Kann Hintergrundwissen berücksichtigen (analog zum ILP-System Golem)
Restriction Bias: funktionale rekursive Programme, bei denen die äußere
Funktion entweder nicht-rekursiv oder aus dem Hintergrundwissen ist
Nicht-rekursive Programme zur Klassifikation als Spezialfall (z.B.
playTennis, Mitchell, 1997)
Präferenz-Bias: Weniger Fallunterscheidungen, spezifischere Patterns,
weniger rekursive Aufrufe
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
8 / 31
odd/even
mult/add
allodds
—
×
8.1⊥
—
⊙
—
214.87
×
0.1⊥
0.016⊥
⊙
×
multlast
shiftr
weave
reverse
78.0
80.0
18.81
—
134.24⊥ 448.55⊥
—
0.4⊥ < 0.1⊥
—
0.66⊥
0.298
0.103
0.200
0.127
0.08
⊙
157.32
member
70.0
×
×
0.714
0.105
0.01
lasts
A DATE
F LIP
F FOIL
G OLEM
I GOR II
M AG H.
last
isort
Empirische Ergebnisse
A DATE 822.0
0.2
2.0
—
4.3
F LIP
×
0.020 17.868
0.130 448.90⊥
F FOIL
0.7⊥
0.1
0.1⊥ < 0.1⊥ < 0.1
G OLEM
1.062 < 0.001
0.033
—
< 0.001
I GOR II
5.695
0.007
0.152
0.019
0.023
M AG H. 19.43
0.01
⊙
—
0.30
— not tested × stack overflow ⊙ timeout ⊥ wrong
all runtimes in seconds
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
9 / 31
Igor2 als Cognitive Rule Acquisition Device
Analytische induktive Programmierung bietet einen allgemeinen
Mechanismus um generalisierte Regelmengen aus Beispielen für ein
gewünschtes Verhalten zu extrahieren
Typische Bereiche, in denen aus positiven Beispielen gelernt wird
I
I
I
Semantische Relationen (Ist-Ein, Vorfahr)
Sprache (regelmäßige Beugungen, grammatische Strukturen)
Problemlösen (Turm von Hanoi)
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
10 / 31
Beispiel: Blockswelt
Ziel: Baue einen Turm aus Blöcken in einer gegebenen Reihenfolge
Gegeben: beliebiger Anfangszustand, beliebig viele Blöcke
Strategie: Räume denjenigen Block frei, der ganz unten liegen soll
und stelle ihn auf den Tisch, stelle dann immer den nächst-benötigten
Block auf den Teilturm und sorge dafür, dass dieser Block frei ist.
(Nicht-optimale Strategie: Lege erst alle Blöcke auf den Tisch und
baue dann den Turm mit gewünschter Reihenfolge der Blöcke auf.)
Tower (9 examples of towers with up to four blocks, 1.2 sec)
(10 corresponding examples for Clear and IsTower as BK)
Tower(O, S) = S
if IsTower(O, S)
Tower(O, S) = put(O, Sub1(O, S),
Clear(O, Clear(Sub1(O, S),
Tower(Sub1(O, S), S))))
if not(IsTower(O, S))
Sub1(s(O), S) = O .
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
11 / 31
Lernen aus Problemlöseerfahrung
Generierung von optimalen Plänen für kleine“ Probleme, z.B. mit
”
einem PDDL-Planer:
I
I
I
Tower: Türme mit bis zu vier Blöcken
Turm von Hanoi: ein bis drei Scheiben
Rocket: ein bis drei Kisten
Igor2 liefert generalisierte Problemlösestrategie
Ergebnis: Problemlösen durch Suche wird unnötig
Plötzliches Gefühl, ein Problem verstanden zu haben (Aha-Effekt):
Regularitäten wurden zu einem (Problemlöse-) Schema generalisiert
(Schmid, Wysotzki, AIPS 2000; Schmid et al., AGI 2009; Schmid & Kitzelmann, CSR 2012)
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
12 / 31
Beispielanwendungen
Tower, Hanoi, Car Parking, Phrase-Structure Grammar, isa
(Schmid & Kitzelmann, 2012, CSR)
Lernen von odd/even durch einen simulierten Agenten in einer
Kreiswelt“(mit Mark Wernsdorfer)
”
Induktion von Zahlenreihen (mit Jacqueline Hofmann, Jose
Hernandez-Orello)
Ragni & Klein, KI’11 Examples (ANN)
By ANN and Igor: 7,10,9,12,11 f (n − 1) + 3, f (n − 1) − 1
By Igor but not by ANN: 3,7,15,31,63 2 ∗ f (n − 1) + 1
By ANN but not by Igor: 6,9,18,21,42 f (n − 1) + 3, f (n − 1) ∗ 2
Not by ANN and not by Igor: 2,5,9,19,37 f (n − 1) ∗ 2 + 1, f (n − 1) ∗ 2 − 1
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
13 / 31
Vergleich mit anderen Ansätzen
Generalisierung über vorhandene Problemlöseerfahrung statt
suchbasiertes Erzeugen möglicher Strategien!
Automatische Induktion generalisierter Handlungsregeln
In kognitiven Architekturen (ACT-R, SOAR) stattdessen nur:
I
I
Veränderung von Stärkewerten
Chunking von Regeln zu komplexeren Einheiten
,→ Kein Erwerb neuer Regeln!
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
14 / 31
Lernen beim Analogen Problemlösen
Analoges Problemlösen als Anfängerstrategie:
Lösung eines Problems (Ziel) durch Anpassung einer bekannten
Lösung eines ähnlichen Problems (Basis)
Wenn ein Problemlöser bereits über allgemeine Regeln oder Schemata
verfügt, können diese direkt angewendet werden
Analoges Problemlösen als Auslöser zum Generalisierungslernen
Analogy via Abstraction (AvA)
(Schmid et al. 2003, Weller & Schmid, KI 2006,
ICCM 2006, Wiese et. al, CogSci 2008)
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
15 / 31
Analogy via Abstraction
Statt direktem Mapping von Wissensstruktur (Problemspezifikation
und Lösung) des Basisproblems und partieller Wissensstruktur des
Zielproblems (Problemspezifikation): Generalisierung der
gemeinsamen Struktur via Anti-Unifikation
Substitutionen/Mappings der Problemspezifikation werden auf die
Problemlösung angewendet und damit die Lösung des Zielproblems
erzeugt
Wissenserwerb: Aufbau allgemeiner Lösungsschemata
AvA Anwendungen
Proportionalanalogien (Letterstring-Domäne)
Physik
Programmieren
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
16 / 31
Soviel wie möglich vs. soviel wie nötig
AvA generalisiert und überträgt so viel wie möglich
(vgl. Systematizitätsprinzip bei SME)
Empirische Frage: Generalisieren Problemlöser ebenfalls so viel wie
möglich oder nur so viel wie nötig?
Anwendung Physik: Wasserfluss/Stromfluss
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
17 / 31
Experiment
Problemstellungen
Typ-1 Probleme: Stromstärke (I) und Spannung (V)
Typ-2 Probleme: Stromstärke (I) und Widerstand (R)
Hypothese
Wenn soviel wie möglich generalisiert und übertragen wird, dann sollte
analoges Problemlösen für Typ-1 Probleme die Bearbeitung nachfolgender
Typ-2 Probleme erleichtern und umgekehrt.
Tutorial type
Testing time 1
Testing time 2
U. Schmid (Uni BA)
Experimental
E1
E2
Water Circuit
type-1 type-2
type-2 type-1
Control
C1
C2
Electric Circuit
type-1 type-2
type-2 type-1
Lernen auf der Wissensebene
20. Juni 2013
18 / 31
Ergebnis
70 Teilnehmer
Abhängige Variable: Lösungszeit
Kein speed-accuracy trade-off
Auswertung mit ALM, Dummy-Kodierung für Probanden (nur korrekt
gelöste Probleme)
Signifikanter Interaktionseffekt zwischen Testzeitpunkt und
Tutorienart (p = 0.041) bestätigt die so viel wie möglich“ Hypothese
”
(Wiese, Konerding, Schmid, CogSci’08)
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
19 / 31
Erwerb generalisierter Strukturen
AvA: Mapping via kleinster gemeinsamer Generalisierung
Automatische Identifikation von Rollen
attracts(sun, planet-i) und attracts (nucleus, electron-i) generalisiert
zu attracts(central-body, orbiter)
Generalisierte Strukturen entsprechen Schemata
Schemaerwerb ist mehr als Variabilisierung von Slot-Inhalten!
G−Spec
σ
σ’
σ
σ’
B−Spec
B−Sol
T−Spec
T−Sol
G−Sol
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
20 / 31
Anwendung Symbolischer Lernverfahren
Symbolische Lernverfahren
Entscheidungsbäume
Inductive Logic Programming
Grammar Inference
Lernen symbolischer Repräsentationen
Klassifikationsregeln
Produktive Regeln
Schemata
Prototypen
Inspizierbar, kommunizierbar, in Regelsysteme integrierbar
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
21 / 31
Anwendung: Incident Mining
Zusammenarbeit mit SAP: Incident-Mining als Vorbereitung auf
Business ByDesign
Support ist häufig über viele Personen und Orte verteilt
hoher Kostenfaktor, kann ausschlaggebend für Kundenzufriedenheit
sein
Problem: Kenntnis der Support-Ingenieure über bereits vorhandene
Lösungen
Intelligente Software-Unterstützung für Support-Ingenieure:
I
I
Automatischer Support bei Standard-Problemen
Zugang zu existierenden Lösungen für bereits aufgetretene und
behobene Probleme
(Schmid et al., IEA-AIE 2010)
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
22 / 31
Structural Incident Mining
Typische Ansätze im data mining sind merkmalsbasiert
Incident reports liegen als XML-Bäume – basierend auf einem
Incident Modell – vor
,→ Transformation von Strukturen in Merkmale führen immer zu
einem Informationsverlust
Unser Ansatz: Extraktion struktureller Prototypen
I
I
I
Anti-unification (AU): Schnittmenge von Bäumen
Structure dominance generalisation (SDTG): Vereinigung von Bäumen
SDTG-AU: moderate Generalisierung; Generalisierung über Knoten mit
verschiedenen Labeln, Berücksichtigung von Auftretenshäufigkeiten von
Labeln
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
23 / 31
Ergebnisse
Leave-one-out
Method
FOIL
AU
SDTG
SDTG-AU
Hits
11
29
22
31
Errors
8, 141
4
11
2
Av. Size
Hits
0
4
52
56
Errors
0, 571
53
5
1
Av. Size
173
387
264
Generation (sec.)
0,109
0,485
0,456
0,419
Retrieval (sec.)
0,409
0,044
0,049
0,047
Generation (sec.)
0,020
0,202
0,227
0,188
Retrieval (sec.)
7,378
0,051
0,102
0,069
Noisy Data
Method
FOIL
AU
SDTG
SDTG-AU
1
66
619
410
first value: classification error, second value: ambiguous result
(Retrieval for AU based on subsumption, retrieval for SDTG/SDTG-AU on Manhatten distance)
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
24 / 31
Anwendung: Schmerzmimik
Klassifikation von Schmerz aus Mimikdaten
Zusammenarbeit mit der Biopsychologie, Uni BA (Lautenbacher &
Kunz)
Empirische Belege, dass Mimik ein guter Prädiktor für Schmerz ist
(in Abwesenheit der Möglichkeit von Selbstauskünften)
Anwendungsszenarien: Post-operativ, Personen mit dementiellen
Syndromen (Altzheimer)
Typisches Vorgehen in der Psychologie: Identifikation von action units
(AUs, Facial Action Coding System, FACS, Ekman & Friesen)
Häufigstes Vorgehen bei maschinellen Verfahren zur Facial Expression
Classification: Black-Box aus extrahierten Merkmalen aus
Bildern/Videos
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
25 / 31
Gibt es eine Grammatik“ des Schmerzes?
”
Ansätze in Psychologie wie Facial Expression Analysis betrachten
bisher das Auftreten von Merkmalen/AUs in einem Zeitfenster als bag
of words
Liefert die Sequenz von AUs relevante Information?
Anwendungen
I
I
Grundlage für psychologische Theoriebildung
Realistische Animation von Avataren, Robotern
Grammatiklernen über FACS-kodierte Daten aus einem
Schmerzexperiment mit 86 Probanden
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
26 / 31
Action Units für Schmerz
AUs with a critical occurence of more than 5% in denominated pain segments in
healthy controls and demented patients (abbreviated from Table 1 in Kunz et al.
2007).
AU
AU1, AU2
AU6, AU7
AU17
AU45
Description
brow raiser
orbit tightening
chin raise
eye blink
U. Schmid (Uni BA)
AU
AU4
AU9, AU10
AU25, AU26, AU27
Lernen auf der Wissensebene
Description
brow lower
levator contraction
mouth opening
20. Juni 2013
27 / 31
Schmerzsequenzen: Erste Ergebnisse
Induktion einer Schmerzgrammatik mit ABL: 5-fold cross validation,
mittlere coverage 0.651 (Schmid et al., ICGI’12)
Avatar-Experiment (Bachelor-Arbeit)
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
28 / 31
Schmerzsequenzen: Erste Ergebnisse
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
29 / 31
Anwendung: Diagnose von Pflanzen
Zusammenarbeit mit Fraunhofer IIS, Erlangen (Franz Uhrmann,
Oliver Scholz, Christoph Stocker)
Tabakpflanzen in Afrika zur Herstellung von Impfstoffen
Automatische Identifikation von Stress (um geschädigte Pflanzen zu
eliminieren)
Woran sieht ein Biologe frühzeitig, dass eine Pflanze gestresst ist?
Vorgehen: Entscheidungsbaum-Lernen aus Merkmalen, Klassen sind
vom Experten gegeben
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
30 / 31
Zusammenfassung
Lernen auf der Wissensebene
Ansatz zur Modellierung kognitiver Lernprozesse
I
I
Beispiel 1: Lernen produktiver Regeln mit Igor
Beispiel 2: Analogy via Abstraction
Ansatz zur Identifikation von symbolischen Mustern und Regeln
I
I
I
Beispiel 1: Lernen struktureller Prototypen für das Incident Mining
Beispiel 2: Lernen von Schmerzgrammatiken zur realistischen
Animation
Beispiel 3: Lernen von Expertenregeln zur Bewertung von
Pflanzen-Stress
U. Schmid (Uni BA)
Lernen auf der Wissensebene
20. Juni 2013
31 / 31

Documentos relacionados