Übungsblatt 05 - Institut für Informatik

Transcrição

Übungsblatt 05 - Institut für Informatik
Universität Augsburg, Institut für Informatik
Prof. Dr. W. Kießling
Dr. M. Endres, F. Wenzel
SS 2014
09. Mai. 2014
Übungsblatt 5
Suchmaschinen
Aufgabe 1: Modellierung von Basispräferenzen
Gegeben sind folgende Domänen für Attribute zur Charakterisierung von Restaurants:
• dom(Typ)={italienisch, griechisch, deutsch}
• dom(Kategorie)={preiswert, angemessen, teuer}
• dom(Entfernung)=[0,2000] m
• dom(Bewertung)= [0,6] Sterne
Geben Sie für folgende Aussagen die entsprechenden Basispräferenzen bezüglich der gegebenen
Domänen an:
a) Ich mag italienisches Essen am liebsten. Bevor ich in ein deutsches Restaurant gehe, esse ich
lieber noch griechisch.
b) Das Restaurant sollte wenn möglich höchstens 500 Meter von meinem Standort entfernt sein.
c) Ich bevorzuge eine Bewertung von 4 Sternen.
d) Ich bevorzuge entweder preiswertes oder teures Essen.
e) Die Entfernung sollte maximal sein, dabei ist ein Unterschied von 50 Metern nicht entscheidend.
Aufgabe 2: Modellierung komplexer Präferenzen
Modellieren Sie folgende natürlichsprachlichen Aussagen als komplexe Präferenzterme. Verwenden Sie für Ihre Präferenzen geeignete Domänen und falls notwendig passende Extremwerte (Infimum, Supremum).
a) Gabi möchte ein Mobiltelefon kaufen. Dabei ist ihr das Betriebssystem (OS) am wichtigsten,
welches am liebsten ”Android” sein sollte. An zweiter Stelle wäre für Gabi auch noch ein Gerät
mit ”Symbian OS” von Interesse. Entspricht das Betriebssystem den Vorstellungen, so werden
gleichberechtigt der Preis (price) und der Speicher (disk) als Kriterium bemüht, wobei der Preis
so niedrig wie möglich und der Speicher bei etwa 32 GB liegen sollte.
b) Gabi möchte mit Tim einen Ausflug machen und sucht deshalb eine gemeinsame Wandertour.
Dabei sind ihr die Gesamtdistanz (distance) sowie die Aussicht (view) gleich wichtig. Die Gesamtdistanz sollte zwischen 20 und 30 Kilometern liegen, die Aussicht sollte nicht ”karg” und
wenn möglich ”schön” sein. Tim bevorzugt eine maximale Gesamtdistanz, dies ist ihm wesentlich wichtiger als die Aussicht, die nur nicht ”karg” sein sollte. Insgesamt sind die Meinungen
von Gabi und Tim gleich wichtig.
c) Tim möchte ein Auto kaufen. Dieses sollte möglichst viele PS (power) haben, wobei ein Unterschied von 10 PS nicht berücksichtigt werden soll. Gleichberechtigt dazu ist die Farbe (color),
die rot sein sollte. Nach rot sind gelb und schwarz alternative Farben. Am wenigsten interessant
sind Autos der Farbe lila. Nur wenn aufgrund von PS-Leistung und Farbe keine Entscheidung
getroffen werden kann, spielen die Attribute Preis (price) und Marke (make) eine Rolle. Dabei ist der Preis wichtiger als die Marke und sollte minimal sein, Unterschiede von 200 Euro
werden nicht berücksichtigt. Als Marken bevorzugt Tim ”Audi” und ”BMW”.
Aufgabe 3: Hasse-Diagramm
a) Gegeben sei folgendes Hasse-Diagramm:
a
e
b
c
d
Durch welche weitere Kanten kann obiges Hasse-Diagramm in ein Hasse-Diagramm überführt
werden, das einer LAYERED-Präferenz entspricht?
b) Gegeben ist folgende Relation Artikel mit den Domänen
• dom(Color) = {white, green, yellow, red, black, blue}
• dom(Price) = R+
0
Artikel ID
1
2
3
4
5
Color
white
green
yellow
yellow
red
Price
22
22
21
10
30
Zeichnen Sie die Hasse-Diagramme für folgende Präferenzen:
• P1 = P OS/P OS(Color, {0 green0 ,0 red0 }; {0 yellow0 })
• P2 = AROU N D(P rice, 30)
• P3 = P1 ⊗ P2
Aufgabe 4: Apache Lucene (Hausaufgabe)
Apache Lucene ist eine in Java implementierte Open-Source-Lösung zur Volltextsuche. Dabei wird
im ersten Schritt ein Index auf die zu durchsuchenden Dokumente erzeugt, damit im anschließenden Schritt Sucheingaben effizient anhand des Indexes ausgewertet werden können. Apache
bietet Lucene in der Version 4 auf der Homepage http://lucene.apache.org kostenlos
zum Download an. Das Lucene Package liefert viele jar-Dateien mit, die z.B. unter Eclipse eingebunden werden können. Unentbehrlich sind die core und codecs Pakete. Daneben sind auch
analyzers-common und queryparser sehr interessant.
a) Laden Sie zum Bearbeiten der Aufgabe die Dokumente “suma.txt”, “cpp.txt” und “java.txt” von
der Vorlesungshomepage. Da es sich um deutschsprachige Dokumente handelt, sollen diese mit
dem GermanAnalyzer analysiert und mit Hilfe eines FSDirectorys indiziert werden.
b) Anschließend soll nach den Ausdrücken “programmieren∼”, “such∼”, “suche∼” und “Links”
gesucht werden.
c) Welche Differenz stellen Sie zwischen den Resultaten von “such∼” und “suche∼” fest?

Documentos relacionados