Lernen auf der Wissensebene - Angewandte Informatik / Kognitive

Transcrição

Lernen auf der Wissensebene
Learning on the Knowledge Level
Ute Schmid
Cognitive Systems
Fakultät Wirtschaftsinformatik und Angewandte Informatik
Otto-Friedrich Universität Bamberg
20. Juni 2013
U. Schmid (Uni BA)
20. Juni 2013
1 / 31
U. Schmid (Uni BA)
20. Juni 2013
2 / 31
Wissen
Wissen ist . . .
dem Bewusstsein zugänglich
symbolisch repräsentiert, deklarativ
inspizierbar
verbalisierbar, kommunizierbar
natürlich in regelbasierte Systeme integrierbar
Routen: können anderen beschrieben werden
Grammatikregeln: können von den meisten Muttersprachlern korrekt
angewendet werden; können von Sprachwissenschaftlern als
symbolische Regeln formuliert werden
Problemlösungen: können anderen beschrieben werden
Problemlösestrategien: werden eher unbewusst angewendet
Diagnosen: basieren häufig auf teilweise unbewussten Eindrücken
(an expert does not think, he knows)
U. Schmid (Uni BA)
20. Juni 2013
3 / 31
Newell’s Knowledge Level
Allen Newell (1981): Definition des knowledge level zur Beschreibung
und Vorhersage des Verhaltens von Computer-Systemen auf der
Ebene von Zielen, Wissen und Aktionen
Schwerpunkt: Repräsentation, ausgeklammert: Aquisition (Lernen)
Viele Kognitive Architekturen addressieren Lernen nicht,
oder nicht auf der Wissensebene (Parameter-Tuning)
Maschinelles Lernen: meist statistisch – black box learning
How can a cognitive system process environmental input and stored
knowledge so as to benefit from experience?
(Holland, Holyoak, Nisbett & Thagard, 1986, Induction – Processes of Inference, Learning, and
Discovery)
Lernen findet auf vielen Ebenen statt: Basale Lernprozesse (auf
Sensordaten) — Symbolbasierte Ansätze (auf der Wissensebene)
Im Folgenden: Induktives Lernen auf der Wissensebene
U. Schmid (Uni BA)
20. Juni 2013
4 / 31
Überblick
1
Induktiver Wissenserwerb
2
Induktives Programmieren
3
Analoges Lernen – Generalisierung
4
Anwendung: Incident Mining
5
Anwendung: Schmerzmimik
6
Anwendung: Diagnose von Pflanzen
7
Zusammenfassung
U. Schmid (Uni BA)
20. Juni 2013
5 / 31
Lernen produktiver Regelmengen
Generalisierung über erlebte Regularitäten
I
I
I
Rekursive Prädikate: odd/even, Vorfahr
Syntaktische Struktur von Sätzen
Lösungsprozedur für den Turm von Hanoi
Produktiv (im Sinne von Chomsky): endliche Regelmenge zur
Erzeugung von potentiell unendlich vielen Instanzen verschiedener
Komplexität
Generalisierung aus wenigen positiven Beispielen
(cf. Marcus, The Algebraic Mind, 2001)
Anwendung eines Verfahrens zur analytischen induktiven
Programmierung
(Igor, Kitzelmann & Schmid, JMLR 2006; Schmid & Kitzelmann, CSR 2012;
IK’13 Special Course)
U. Schmid (Uni BA)
20. Juni 2013
6 / 31
Induktives Programmieren
Anwendung von maschinellem Lernen auf das Problem der
Programmsynthese
Automatische Erzeugung (rekursiver) Programme aus
Eingabe-/Ausgabe-Beispielen (unvollständigen Spezifikationen)
Ansätze:
I
I
analytisch, daten-getrieben: Thesys, Golem, Igor (ILP und induktive
funktionale Ansätze)
generate-and-test: FFoil (ILP), Adate (evolutionär), MagicHaskeller
(systematische Aufzählung)
E/A Beispiele:
last [a]
last [a,b]
last[a,b,c]
last[a,b,c,d]
=
=
=
=
U. Schmid (Uni BA)
a
b
c
d
Induziertes Programm:
last[x]
= x
last(x:xs) = last(xs)
20. Juni 2013
7 / 31
Igor2
Analytischer Ansatz zum Lernen funktionaler Programme (Maude,
Haskell)
Effiziente Induktion rekursiver Regelmengen aus wenigen positiven Beispielen
Lernt lineare, Baum-, und wechselseitig rekursive Regelmengen
Automatische Induktion von Hilfsfunktionen (necessary function invention)
Kann Hintergrundwissen berücksichtigen (analog zum ILP-System Golem)
Restriction Bias: funktionale rekursive Programme, bei denen die äußere
Funktion entweder nicht-rekursiv oder aus dem Hintergrundwissen ist
Nicht-rekursive Programme zur Klassifikation als Spezialfall (z.B.
playTennis, Mitchell, 1997)
Präferenz-Bias: Weniger Fallunterscheidungen, spezifischere Patterns,
weniger rekursive Aufrufe
U. Schmid (Uni BA)
20. Juni 2013
8 / 31
odd/even
mult/add
allodds
—
×
8.1⊥
—
⊙
—
214.87
×
0.1⊥
0.016⊥
⊙
×
multlast
shiftr
weave
reverse
78.0
80.0
18.81
—
134.24⊥ 448.55⊥
—
0.4⊥ < 0.1⊥
—
0.66⊥
0.298
0.103
0.200
0.127
0.08
⊙
157.32
member
70.0
×
×
0.714
0.105
0.01
lasts
A DATE
F LIP
F FOIL
G OLEM
I GOR II
M AG H.
last
isort
Empirische Ergebnisse
A DATE 822.0
0.2
2.0
—
4.3
F LIP
×
0.020 17.868
0.130 448.90⊥
F FOIL
0.7⊥
0.1
0.1⊥ < 0.1⊥ < 0.1
G OLEM
1.062 < 0.001
0.033
—
< 0.001
I GOR II
5.695
0.007
0.152
0.019
0.023
M AG H. 19.43
0.01
⊙
—
0.30
— not tested × stack overflow ⊙ timeout ⊥ wrong
all runtimes in seconds
U. Schmid (Uni BA)
20. Juni 2013
9 / 31
Igor2 als Cognitive Rule Acquisition Device
Analytische induktive Programmierung bietet einen allgemeinen
Mechanismus um generalisierte Regelmengen aus Beispielen für ein
gewünschtes Verhalten zu extrahieren
Typische Bereiche, in denen aus positiven Beispielen gelernt wird
I
I
I
Semantische Relationen (Ist-Ein, Vorfahr)
Sprache (regelmäßige Beugungen, grammatische Strukturen)
Problemlösen (Turm von Hanoi)
U. Schmid (Uni BA)
20. Juni 2013
10 / 31
Beispiel: Blockswelt
Ziel: Baue einen Turm aus Blöcken in einer gegebenen Reihenfolge
Gegeben: beliebiger Anfangszustand, beliebig viele Blöcke
Strategie: Räume denjenigen Block frei, der ganz unten liegen soll
und stelle ihn auf den Tisch, stelle dann immer den nächst-benötigten
Block auf den Teilturm und sorge dafür, dass dieser Block frei ist.
(Nicht-optimale Strategie: Lege erst alle Blöcke auf den Tisch und
baue dann den Turm mit gewünschter Reihenfolge der Blöcke auf.)
Tower (9 examples of towers with up to four blocks, 1.2 sec)
(10 corresponding examples for Clear and IsTower as BK)
Tower(O, S) = S
if IsTower(O, S)
Tower(O, S) = put(O, Sub1(O, S),
Clear(O, Clear(Sub1(O, S),
Tower(Sub1(O, S), S))))
if not(IsTower(O, S))
Sub1(s(O), S) = O .
U. Schmid (Uni BA)
20. Juni 2013
11 / 31
Lernen aus Problemlöseerfahrung
Generierung von optimalen Plänen für kleine“ Probleme, z.B. mit
”
einem PDDL-Planer:
I
I
I
Tower: Türme mit bis zu vier Blöcken
Turm von Hanoi: ein bis drei Scheiben
Rocket: ein bis drei Kisten
Igor2 liefert generalisierte Problemlösestrategie
Ergebnis: Problemlösen durch Suche wird unnötig
Plötzliches Gefühl, ein Problem verstanden zu haben (Aha-Effekt):
Regularitäten wurden zu einem (Problemlöse-) Schema generalisiert
(Schmid, Wysotzki, AIPS 2000; Schmid et al., AGI 2009; Schmid & Kitzelmann, CSR 2012)
U. Schmid (Uni BA)
20. Juni 2013
12 / 31
Beispielanwendungen
Tower, Hanoi, Car Parking, Phrase-Structure Grammar, isa
(Schmid & Kitzelmann, 2012, CSR)
Lernen von odd/even durch einen simulierten Agenten in einer
Kreiswelt“(mit Mark Wernsdorfer)
”
Induktion von Zahlenreihen (mit Jacqueline Hofmann, Jose
Hernandez-Orello)
Ragni & Klein, KI’11 Examples (ANN)
By ANN and Igor: 7,10,9,12,11 f (n − 1) + 3, f (n − 1) − 1
By Igor but not by ANN: 3,7,15,31,63 2 ∗ f (n − 1) + 1
By ANN but not by Igor: 6,9,18,21,42 f (n − 1) + 3, f (n − 1) ∗ 2
Not by ANN and not by Igor: 2,5,9,19,37 f (n − 1) ∗ 2 + 1, f (n − 1) ∗ 2 − 1
U. Schmid (Uni BA)
20. Juni 2013
13 / 31
Vergleich mit anderen Ansätzen
Generalisierung über vorhandene Problemlöseerfahrung statt
suchbasiertes Erzeugen möglicher Strategien!
Automatische Induktion generalisierter Handlungsregeln
In kognitiven Architekturen (ACT-R, SOAR) stattdessen nur:
I
I
Veränderung von Stärkewerten
Chunking von Regeln zu komplexeren Einheiten
,→ Kein Erwerb neuer Regeln!
U. Schmid (Uni BA)
20. Juni 2013
14 / 31
Lernen beim Analogen Problemlösen
Analoges Problemlösen als Anfängerstrategie:
Lösung eines Problems (Ziel) durch Anpassung einer bekannten
Lösung eines ähnlichen Problems (Basis)
Wenn ein Problemlöser bereits über allgemeine Regeln oder Schemata
verfügt, können diese direkt angewendet werden
Analoges Problemlösen als Auslöser zum Generalisierungslernen
Analogy via Abstraction (AvA)
(Schmid et al. 2003, Weller & Schmid, KI 2006,
ICCM 2006, Wiese et. al, CogSci 2008)
U. Schmid (Uni BA)
20. Juni 2013
15 / 31
Analogy via Abstraction
Statt direktem Mapping von Wissensstruktur (Problemspezifikation
und Lösung) des Basisproblems und partieller Wissensstruktur des
Zielproblems (Problemspezifikation): Generalisierung der
gemeinsamen Struktur via Anti-Unifikation
Substitutionen/Mappings der Problemspezifikation werden auf die
Problemlösung angewendet und damit die Lösung des Zielproblems
erzeugt
Wissenserwerb: Aufbau allgemeiner Lösungsschemata
AvA Anwendungen
Proportionalanalogien (Letterstring-Domäne)
Physik
Programmieren
U. Schmid (Uni BA)
20. Juni 2013
16 / 31
Soviel wie möglich vs. soviel wie nötig
AvA generalisiert und überträgt so viel wie möglich
(vgl. Systematizitätsprinzip bei SME)
Empirische Frage: Generalisieren Problemlöser ebenfalls so viel wie
möglich oder nur so viel wie nötig?
Anwendung Physik: Wasserfluss/Stromfluss
U. Schmid (Uni BA)
20. Juni 2013
17 / 31
Experiment
Problemstellungen
Typ-1 Probleme: Stromstärke (I) und Spannung (V)
Typ-2 Probleme: Stromstärke (I) und Widerstand (R)
Hypothese
Wenn soviel wie möglich generalisiert und übertragen wird, dann sollte
analoges Problemlösen für Typ-1 Probleme die Bearbeitung nachfolgender
Typ-2 Probleme erleichtern und umgekehrt.
Tutorial type
Testing time 1
Testing time 2
U. Schmid (Uni BA)
Experimental
E1
E2
Water Circuit
type-1 type-2
type-2 type-1
Control
C1
C2
Electric Circuit
type-1 type-2
type-2 type-1
20. Juni 2013
18 / 31
Ergebnis
70 Teilnehmer
Abhängige Variable: Lösungszeit
Kein speed-accuracy trade-off
Auswertung mit ALM, Dummy-Kodierung für Probanden (nur korrekt
gelöste Probleme)
Signifikanter Interaktionseffekt zwischen Testzeitpunkt und
Tutorienart (p = 0.041) bestätigt die so viel wie möglich“ Hypothese
”
(Wiese, Konerding, Schmid, CogSci’08)
U. Schmid (Uni BA)
20. Juni 2013
19 / 31
Erwerb generalisierter Strukturen
AvA: Mapping via kleinster gemeinsamer Generalisierung
Automatische Identifikation von Rollen
attracts(sun, planet-i) und attracts (nucleus, electron-i) generalisiert
zu attracts(central-body, orbiter)
Generalisierte Strukturen entsprechen Schemata
Schemaerwerb ist mehr als Variabilisierung von Slot-Inhalten!
G−Spec
σ
σ’
σ
σ’
B−Spec
B−Sol
T−Spec
T−Sol
G−Sol
U. Schmid (Uni BA)
20. Juni 2013
20 / 31
Anwendung Symbolischer Lernverfahren
Symbolische Lernverfahren
Entscheidungsbäume
Inductive Logic Programming
Grammar Inference
Lernen symbolischer Repräsentationen
Klassifikationsregeln
Produktive Regeln
Schemata
Prototypen
Inspizierbar, kommunizierbar, in Regelsysteme integrierbar
U. Schmid (Uni BA)
20. Juni 2013
21 / 31
Anwendung: Incident Mining
Zusammenarbeit mit SAP: Incident-Mining als Vorbereitung auf
Business ByDesign
Support ist häufig über viele Personen und Orte verteilt
hoher Kostenfaktor, kann ausschlaggebend für Kundenzufriedenheit
sein
Problem: Kenntnis der Support-Ingenieure über bereits vorhandene
Lösungen
Intelligente Software-Unterstützung für Support-Ingenieure:
I
I
Automatischer Support bei Standard-Problemen
Zugang zu existierenden Lösungen für bereits aufgetretene und
behobene Probleme
(Schmid et al., IEA-AIE 2010)
U. Schmid (Uni BA)
20. Juni 2013
22 / 31
Structural Incident Mining
Typische Ansätze im data mining sind merkmalsbasiert
Incident reports liegen als XML-Bäume – basierend auf einem
Incident Modell – vor
,→ Transformation von Strukturen in Merkmale führen immer zu
einem Informationsverlust
Unser Ansatz: Extraktion struktureller Prototypen
I
I
I
Anti-unification (AU): Schnittmenge von Bäumen
Structure dominance generalisation (SDTG): Vereinigung von Bäumen
SDTG-AU: moderate Generalisierung; Generalisierung über Knoten mit
verschiedenen Labeln, Berücksichtigung von Auftretenshäufigkeiten von
Labeln
U. Schmid (Uni BA)
20. Juni 2013
23 / 31
Ergebnisse
Leave-one-out
Method
FOIL
AU
SDTG
SDTG-AU
Hits
11
29
22
31
Errors
8, 141
4
11
2
Av. Size
Hits
0
4
52
56
Errors
0, 571
53
5
1
Av. Size
173
387
264
Generation (sec.)
0,109
0,485
0,456
0,419
Retrieval (sec.)
0,409
0,044
0,049
0,047
Generation (sec.)
0,020
0,202
0,227
0,188
Retrieval (sec.)
7,378
0,051
0,102
0,069
Noisy Data
Method
FOIL
AU
SDTG
SDTG-AU
1
66
619
410
first value: classification error, second value: ambiguous result
(Retrieval for AU based on subsumption, retrieval for SDTG/SDTG-AU on Manhatten distance)
U. Schmid (Uni BA)
20. Juni 2013
24 / 31
Anwendung: Schmerzmimik
Klassifikation von Schmerz aus Mimikdaten
Zusammenarbeit mit der Biopsychologie, Uni BA (Lautenbacher &
Kunz)
Empirische Belege, dass Mimik ein guter Prädiktor für Schmerz ist
(in Abwesenheit der Möglichkeit von Selbstauskünften)
Anwendungsszenarien: Post-operativ, Personen mit dementiellen
Syndromen (Altzheimer)
Typisches Vorgehen in der Psychologie: Identifikation von action units
(AUs, Facial Action Coding System, FACS, Ekman & Friesen)
Häufigstes Vorgehen bei maschinellen Verfahren zur Facial Expression
Classification: Black-Box aus extrahierten Merkmalen aus
Bildern/Videos
U. Schmid (Uni BA)
20. Juni 2013
25 / 31
Gibt es eine Grammatik“ des Schmerzes?
”
Ansätze in Psychologie wie Facial Expression Analysis betrachten
bisher das Auftreten von Merkmalen/AUs in einem Zeitfenster als bag
of words
Liefert die Sequenz von AUs relevante Information?
Anwendungen
I
I
Grundlage für psychologische Theoriebildung
Realistische Animation von Avataren, Robotern
Grammatiklernen über FACS-kodierte Daten aus einem
Schmerzexperiment mit 86 Probanden
U. Schmid (Uni BA)
20. Juni 2013
26 / 31
Action Units für Schmerz
AUs with a critical occurence of more than 5% in denominated pain segments in
healthy controls and demented patients (abbreviated from Table 1 in Kunz et al.
2007).
AU
AU1, AU2
AU6, AU7
AU17
AU45
Description
brow raiser
orbit tightening
chin raise
eye blink
U. Schmid (Uni BA)
AU
AU4
AU9, AU10
AU25, AU26, AU27
Description
brow lower
levator contraction
mouth opening
20. Juni 2013
27 / 31
Schmerzsequenzen: Erste Ergebnisse
Induktion einer Schmerzgrammatik mit ABL: 5-fold cross validation,
mittlere coverage 0.651 (Schmid et al., ICGI’12)
Avatar-Experiment (Bachelor-Arbeit)
U. Schmid (Uni BA)
20. Juni 2013
28 / 31
Schmerzsequenzen: Erste Ergebnisse
U. Schmid (Uni BA)
20. Juni 2013
29 / 31
Anwendung: Diagnose von Pflanzen
Zusammenarbeit mit Fraunhofer IIS, Erlangen (Franz Uhrmann,
Oliver Scholz, Christoph Stocker)
Tabakpflanzen in Afrika zur Herstellung von Impfstoffen
Automatische Identifikation von Stress (um geschädigte Pflanzen zu
eliminieren)
Woran sieht ein Biologe frühzeitig, dass eine Pflanze gestresst ist?
Vorgehen: Entscheidungsbaum-Lernen aus Merkmalen, Klassen sind
vom Experten gegeben
U. Schmid (Uni BA)
20. Juni 2013
30 / 31
Zusammenfassung
Ansatz zur Modellierung kognitiver Lernprozesse
I
I
Beispiel 1: Lernen produktiver Regeln mit Igor
Beispiel 2: Analogy via Abstraction
Ansatz zur Identifikation von symbolischen Mustern und Regeln
I
I
I
Beispiel 1: Lernen struktureller Prototypen für das Incident Mining
Beispiel 2: Lernen von Schmerzgrammatiken zur realistischen
Animation
Beispiel 3: Lernen von Expertenregeln zur Bewertung von
Pflanzen-Stress
U. Schmid (Uni BA)
20. Juni 2013
31 / 31

Lernen auf der Wissensebene - Angewandte Informatik / Kognitive

Transcrição

Documentos relacionados

Spiel mit Fragen!

Hansjörg Schühle, Dipl.

Claudia Schmid

Sokratischer Dialog mit Nils Schmid - Stromberg

Kundenorientiert: »Der Mensch steht an erster

Persönliches

suzuki- spezialist

im pdf - Gebrüder Schmid Zentrum

Vom Nichtsportler zum Marathonläufer

Kia-Händler - Auto Schmid GmbH