Übungsblatt 05 - Institut für Informatik
Transcrição
Übungsblatt 05 - Institut für Informatik
Universität Augsburg, Institut für Informatik Prof. Dr. W. Kießling Dr. M. Endres, F. Wenzel SS 2014 09. Mai. 2014 Übungsblatt 5 Suchmaschinen Aufgabe 1: Modellierung von Basispräferenzen Gegeben sind folgende Domänen für Attribute zur Charakterisierung von Restaurants: • dom(Typ)={italienisch, griechisch, deutsch} • dom(Kategorie)={preiswert, angemessen, teuer} • dom(Entfernung)=[0,2000] m • dom(Bewertung)= [0,6] Sterne Geben Sie für folgende Aussagen die entsprechenden Basispräferenzen bezüglich der gegebenen Domänen an: a) Ich mag italienisches Essen am liebsten. Bevor ich in ein deutsches Restaurant gehe, esse ich lieber noch griechisch. b) Das Restaurant sollte wenn möglich höchstens 500 Meter von meinem Standort entfernt sein. c) Ich bevorzuge eine Bewertung von 4 Sternen. d) Ich bevorzuge entweder preiswertes oder teures Essen. e) Die Entfernung sollte maximal sein, dabei ist ein Unterschied von 50 Metern nicht entscheidend. Aufgabe 2: Modellierung komplexer Präferenzen Modellieren Sie folgende natürlichsprachlichen Aussagen als komplexe Präferenzterme. Verwenden Sie für Ihre Präferenzen geeignete Domänen und falls notwendig passende Extremwerte (Infimum, Supremum). a) Gabi möchte ein Mobiltelefon kaufen. Dabei ist ihr das Betriebssystem (OS) am wichtigsten, welches am liebsten ”Android” sein sollte. An zweiter Stelle wäre für Gabi auch noch ein Gerät mit ”Symbian OS” von Interesse. Entspricht das Betriebssystem den Vorstellungen, so werden gleichberechtigt der Preis (price) und der Speicher (disk) als Kriterium bemüht, wobei der Preis so niedrig wie möglich und der Speicher bei etwa 32 GB liegen sollte. b) Gabi möchte mit Tim einen Ausflug machen und sucht deshalb eine gemeinsame Wandertour. Dabei sind ihr die Gesamtdistanz (distance) sowie die Aussicht (view) gleich wichtig. Die Gesamtdistanz sollte zwischen 20 und 30 Kilometern liegen, die Aussicht sollte nicht ”karg” und wenn möglich ”schön” sein. Tim bevorzugt eine maximale Gesamtdistanz, dies ist ihm wesentlich wichtiger als die Aussicht, die nur nicht ”karg” sein sollte. Insgesamt sind die Meinungen von Gabi und Tim gleich wichtig. c) Tim möchte ein Auto kaufen. Dieses sollte möglichst viele PS (power) haben, wobei ein Unterschied von 10 PS nicht berücksichtigt werden soll. Gleichberechtigt dazu ist die Farbe (color), die rot sein sollte. Nach rot sind gelb und schwarz alternative Farben. Am wenigsten interessant sind Autos der Farbe lila. Nur wenn aufgrund von PS-Leistung und Farbe keine Entscheidung getroffen werden kann, spielen die Attribute Preis (price) und Marke (make) eine Rolle. Dabei ist der Preis wichtiger als die Marke und sollte minimal sein, Unterschiede von 200 Euro werden nicht berücksichtigt. Als Marken bevorzugt Tim ”Audi” und ”BMW”. Aufgabe 3: Hasse-Diagramm a) Gegeben sei folgendes Hasse-Diagramm: a e b c d Durch welche weitere Kanten kann obiges Hasse-Diagramm in ein Hasse-Diagramm überführt werden, das einer LAYERED-Präferenz entspricht? b) Gegeben ist folgende Relation Artikel mit den Domänen • dom(Color) = {white, green, yellow, red, black, blue} • dom(Price) = R+ 0 Artikel ID 1 2 3 4 5 Color white green yellow yellow red Price 22 22 21 10 30 Zeichnen Sie die Hasse-Diagramme für folgende Präferenzen: • P1 = P OS/P OS(Color, {0 green0 ,0 red0 }; {0 yellow0 }) • P2 = AROU N D(P rice, 30) • P3 = P1 ⊗ P2 Aufgabe 4: Apache Lucene (Hausaufgabe) Apache Lucene ist eine in Java implementierte Open-Source-Lösung zur Volltextsuche. Dabei wird im ersten Schritt ein Index auf die zu durchsuchenden Dokumente erzeugt, damit im anschließenden Schritt Sucheingaben effizient anhand des Indexes ausgewertet werden können. Apache bietet Lucene in der Version 4 auf der Homepage http://lucene.apache.org kostenlos zum Download an. Das Lucene Package liefert viele jar-Dateien mit, die z.B. unter Eclipse eingebunden werden können. Unentbehrlich sind die core und codecs Pakete. Daneben sind auch analyzers-common und queryparser sehr interessant. a) Laden Sie zum Bearbeiten der Aufgabe die Dokumente “suma.txt”, “cpp.txt” und “java.txt” von der Vorlesungshomepage. Da es sich um deutschsprachige Dokumente handelt, sollen diese mit dem GermanAnalyzer analysiert und mit Hilfe eines FSDirectorys indiziert werden. b) Anschließend soll nach den Ausdrücken “programmieren∼”, “such∼”, “suche∼” und “Links” gesucht werden. c) Welche Differenz stellen Sie zwischen den Resultaten von “such∼” und “suche∼” fest?