Prof. Kießling, Suchmaschinen, Kap. 1

Transcrição

Vorlesung Suchmaschinen
Universität Augsburg
Sommersemester 2016
Prof. Dr. Werner Kießling
Institut für Informatik
Lehrstuhl für Datenbanken und Informationssysteme
© Prof. Kießling 2016
Kap. 1 - 1
Vorlesungsbetrieb
• Zwei Vorlesungen pro Woche im Hörsaal 2045 (N)
• Dienstag
10:00 – 11:30 Uhr
• Donnerstag
10:00 – 11:30 Uhr
• Folien der Vorlesung sind spätestens am jeweiligen
Vorlesungstag im Internet verfügbar
http://www.informatik.uni-augsburg.de/lehrstuehle/dbis/db/lectures/ss16/se/scripts/
Zugang mit RZ-Kennung
• Regelmäßig nach Aktuellem auf der Homepage schauen!
Kap. 1 - 2
Kontakt

Prof. Dr. W. Kießling:
Sprechstunde: Donnerstag 11:45-12:15 Uhr (2051 N)

Dr. Florian Wenzel und Lena Rudenko (2001 / 2002 N):
{wenzel, lena.rudenko}@informatik.uni-augsburg.de
Kap. 1 - 3
Übungen
●
●
●
●
Übungsblätter werden jeweils freitags auf der Homepage veröffentlicht
Es wird davon ausgegangen, dass die Blätter vor dem Übungstermin
angesehen / bearbeitet werden
Während der Übung:
● Erarbeitung der wichtigsten Aufgaben in Kleingruppen
● Präsentation und Diskussion der erarbeiteten Ergebnisse
Keine Punktevergabe, keine Zulassungsbedingung zur Klausur
Kap. 1 - 4
Übungsgruppen
Gruppe
1
2
3
4
Zeit
Montag, 12:15 – 13:45 Uhr
Mittwoch, 10:00 – 11:30 Uhr
Mittwoch, 14:00 – 15:30 Uhr
Freitag, 10:00 – 11:30 Uhr
Raum
2056 (N)
2056 (N)
2056 (N)
2056 (N)
http://www.informatik.uni-augsburg.de/lehrstuehle/dbis/db/lectures/ss16/se/groups/
Verteilung auf Übungsgruppen: Sonntag, 17.04.16 um 18:00 Uhr
Kap. 1 - 5
Klausur

Termin: 12.07.16, 17:00 Uhr (Mensa)
Dauer: 90 Minuten
Nur Papierunterlagen sind zugelassen (open book)
Anmeldung bei STUDIS zwingend erforderlich!

Näheres unter:



http://www.informatik.uni-augsburg.de/lehrstuehle/dbis/db/lectures/ss16/se/
exams/
Kap. 1 - 6
Gliederung
1
Einführung
2
Volltext-Suchmaschinen
3
Präferenz-Theorie
4
Preference SQL-System
5
Implementierung von Präferenz-Querysprachen
6
Top-k-Algorithmen
7
XML-Suchmaschinen
8
Softwareaspekte von SQL-Suchanwendungen
Kap. 1 - 7
Allgemeine Literatur
Dirk Lewandowski (Hrsg.):
Handbuch Internet-Suchmaschinen 2: Neue Entwicklungen in der Web Suche
Akademische Verlagsgesellschaft AKA GmbH, Heidelberg, 2012;
ISBN: 978-3-89838-651-7
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze:
Introduction to Information Retrieval, Cambridge University Press; 2008;
ISBN: 978-0-521-86571-5
Marc Levene:
An Introduction to Search Engines and Web Navigation, 2nd Edition, Wiley,
2010; ISBN: 978-0-470-52684-2
Ricardo Baeza-Yates & Berthier Ribeiro-Neto:
Modern Information Retrieval, 2nd Edition, New York, NY: ACM Press
Books; 2010; ISBN: 978-0-321-41691-9
Kap. 1 - 8
1 Einführung
1.1 Unterschiedliche Suchverfahren
1.2 Überblick IR-Systeme
1.3 Überblick Web-Suche
1.4 Überblick Attribut-Suche
1.5 Überblick Multimedia-Suche
1.6 Überblick Soziale Netzwerke
1.7 Mobile Dienste
1.8 Metasuchmaschinen
1.9 Google Analytics
1.10 Zusammenfassung
Quelle: http://www.flickr.com/photos/deia/7942538/
„I will use Google before asking dumb questions.“
Kap. 1 - 9
1.1 Unterschiedliche Suchverfahren
Wichtigste Komponente für ein Such-System ist die Menge der
Dokumente, Korpus genannt, und deren interne Struktur.
Der Korpus kann



unstrukturiert
semi-strukturiert oder auch
strukturiert sein.
Korpus von
Dokumenten
Anfrage
SuchSystem
Ergebnis
Kap. 1 - 10
Dokumente können sein:







Artefakte (z.B. gescannte Bücher)
Kataloge (z.B. Branchenbücher)
Linksammlungen (Webkataloge)
Videosammlungen (YouTube)
Soziale Daten (z.B. Facebook)
Dateien (z.B. Excel, PDF, Text, HTML, XML, …)
…
Kap. 1 - 11
Beispiel: Suche nach Buch im Antiquariat
1.) Stöbern
 Struktur (Sachgebiet, Thema, Autor, …)
 Navigation (Teilbereiche, Signaturen, ...)
2.) Dialog
 Zweck, Absicht, Ziel
 Fragen - Antworten
 Benutzer-Modellierung
 Hintergrundwissen
 „Gezielte Suche“
Frage
Antiquar
Empfehlungen
Relevanz?
Kap. 1 - 12
Soziale Suche
Mit Hilfe von sozialen Vernetzungen (Freundes-, Kollegenkreis, …) kann ein
Suchvorgang gleichzeitig von mehreren Teilnehmern ausgeführt werden.
Für den Erfolg dieser Vorgehensweise ist wichtig:
 Hoher Vernetzungsgrad, verteilter Korpus
 Gemeinsamer Code, klare Spezifikation
 Terminierung, Qualität und Quantität der Ergebnisse
Anfrage
Ergebnis
Freundeskreis als Such-System
Kap. 1 - 13
Beispiel: Wohnungssuche
1.) Suchanfrage über persönliche oder webbasierte soziale Netzwerke
streuen und auf hohen Verbreitungsgrad hoffen.
2.) Gemeinsamer Code (Wohnungen und ihre Eigenschaften)
3.) Klare Spezifikation (Größe, Preis, Typ)
4.) Bewertung der Ergebnisse erfolgt auch nach weiteren (meist nicht
vollständig kommunizierten) weichen Faktoren.
5) Meistens wird man unter den ersten k Rückmeldungen fündig
(Top-k-Suche).
Kap. 1 - 14
Beispiel: Wohnungssuche in Facebook-Gruppe
Gemeinsamer Code
Spezifikationen
weiche Faktoren
Kap. 1 - 15
Eigenschaften von sozialen Netzen:
●
Mitglieder von sozialen Netzen können sich ihrerseits auch wieder
auf andere soziale Netze abstützen.
●
Mitglieder von sozialen Netzen können aber auch automatische
Suchsysteme, Spezialisten, Bibliotheken, … zu Rate ziehen.
●
Die Kommunikation (Aussage, Frage – Antwort) erfolgt
asynchron.
Kap. 1 - 16
1.2 Überblick IR-Systeme
Suche nach Information in
Bibliothek
Anfrage
Relevanz?
Korpus von
Dokumenten
IRSystem
Gewichtete
Dokumente
Information
Retrieval
1. Doc1
2. Doc2
3. Doc3
…
Kap. 1 - 17
Beispiel: Anfrage nach Veröffentlichung in Bibliothek
OPAC der UB Augsburg:
Kap. 1 - 18
Eigenschaften von OPAC:
Korpus (Katalog)
Suchmöglichkeiten:
 Autor, Schlagwort, …
 Logische Verknüpfungen
 Trunkierungszeichen
 Freie Suche
 abgeschlossen, geringe Änderungsrate
 Attributsuche
 Boolesche Algebra
 Wildcards: “?“, “*“
 keine Volltextsuche dank
Digitalisierung des Korpus
Filter / Navigation:
 Suche eingrenzen
 BibTip
Andere Benutzer fanden
auch interessant
 Annotationen, sem. Kategorien
 Empfehlungen durch Analyse
des Benutzerverhaltens
Kap. 1 - 19
Exemplarische Trefferliste: Autor = Kießling, Navigationshilfen
Kap. 1 - 20
Exemplarischer Treffer: Attribute – digitalisierter Text(ausschnitt)
Kap. 1 - 21
OPAC-Beispiele (Kardinalität der Ergebnismenge aus SS2010, SS2016):
●
●
●
●
●
●
Freie Suche „Preference und Algebra“  Leere Ergebnismenge (0, 0)
Freie Suche „Kießling“
 Überflutung (283, 400)
Attributsuche: Autor „Kießling“
 Relevanz (171, 206)
Attributsuche: Autor „Kie?ling“
 Korrektheit (-, 29)
A.-Suche: Autor „Werner Kießling“  Relevanz (25, 31)
Kießling, Kiessling
 automat. Graphemerweiterung
Kap. 1 - 22
Digitalisierung von Buchbeständen:

Volltextsuche
Beispiele:


Google Book Search
Search Inside! von Amazon
Rechtliche Probleme bei noch geschützten Werken:


Urheberrechte
Nutzungsrechte, Verwertungsrechte
Kap. 1 - 23
Suche nach Information in
Wikipedia
Anfrage
Relevanz?
Autoren:
Korpus von
Dokumenten
IRSystem
Gewichtete
Dokumente
1. Doc1
2. Doc2
3. Doc3
…
Kap. 1 - 24
Beispiel: Anfrage nach Artikel (Konzept) in Wikipedia
Wikipedia
Korpus (Online-Enzyklopädie)
Suchmöglichkeiten:
 Artikel
(Von A bis Z)
 Piktogramm Lupe
 Verlinkung
 Links auf diese Seite
 geschlossener Korpus bezogen auf
http://de.wikipedia.org/, offener und
„kleiner“ Autorenkreis im sozialem
Netzwerk, Kollaboration [Bearbeiten],
 Konzeptsuche
 Volltextsuche, Syntax
 Semantisches Netzwerk
 Verweisstruktur (Backlinks)
Kap. 1 - 25
1.3 Web-Suche
Websuche-Technologie stammt ursprünglich von IR-Systemen.
1993: der erste Such-Roboter „The Wanderer“ im WWW
„The Wanderer“ erstellte von 1993 bis 1995 einen Index des zu dieser
Zeit noch übersichtliche Web. Im Juni 1993 gab es nur 130 Webseiten.
Der Index diente der Vermessung des Webs und nicht der Suche.
1994/95: erste Suchmaschinen von kommerziellen Firmen (Lycos,
Infoseek, Alta Vista, …)
1998: Entstehung heutiger marktführender Suchmaschinen (Google,
Bing)
→ Geschichte der Suche im WWW
Kap. 1 - 26
1.3.1 Architektur Websuche
Web
Spider
Anfrage
Relevanz?
Korpus von
Dokumenten
SuchSystem
Gewichtete
Dokumente
Kap. 1 - 27
Im Unterschied zu einem IR-System, bei dem der Korpus eher
geschlossen und statisch ist, wächst das Web kontinuierlich, und auch
bereits erfasste Inhalte ändern sich.
Der Korpus des Webs ist offen und dynamisch, deswegen werden
zusätzliche Komponenten benötigt.
Ein Spider (auch "Crawler" oder "Robot" genannt) bewegt sich durch
das Verfolgen von Links selbständig durch den Datenbestand des
Internets und ermittelt die Inhalte der Webseiten.
Kap. 1 - 28
Verfeinerung Spider
Spider:
Web
TODO:
Liste
von
URLs
Auswahl
Laden
Extraktion
Füge URLs
von Links
hinzu
Seite
indizieren
Kap. 1 - 29
Wichtigstes Merkmal neben der Anzahl der erfassten Seiten ist die
Update-Rate, wodurch neuer oder geänderter Inhalt erfasst wird.
Bei Google wird dies als „Google Dance“ bezeichnet:
Bis 2003 wurden die Suchindizes einmal monatlich neu berechnet.
Inzwischen läuft der Update-Prozess kontinuierlich.
Trotzdem gibt es Seiten, die nicht erfasst werden bzw. nicht erfasst
sein wollen (Deep Web / Dark Web).
Kap. 1 - 30
Exkurs: Deep Web
Die Bezeichnung Deep Web bezieht sich auf alle Internet-Inhalte, die
aus verschiedenen Gründen von Suchmaschinen nicht indiziert sind
oder nicht indiziert werden können, z.B. dynamische Webseiten,
geblockte Seiten (erwarten CAPTCHA-Antwort), nicht verlinkte
Seiten, ...
Der Begriff Deep Web wurde von dem Informatiker Mike Bergman im
Jahr 2000 eingeführt.
In seiner Veröffentlichung „The Deep Web: Surfacing Hidden Value“
von 2001 weist er darauf hin, dass die Inhalte von Deep Web 400 bis
550 Mal größer sind, als im allgemein zugänglichem Web.
Kap. 1 - 31
Arten des Deep Web
Nach Sherman & Price (2001) unterscheidet man fünf Typen des Deep Web
(Wikipedia):
●
Opaque Web: Webseiten, die generell indiziert werden könnten , es aber
aus technischen Gründen oder Gründen der Leistungsfähigkeit nicht sind.
●
Private Web: Webseiten, die indiziert werden könnten, es auf Grund von
Zugangsbeschränkungen aber nicht werden.
●
Proprietary Web: Webseiten, die erst nach Anerkennung einer
Nutzungsbedingung oder nach einer Identifikation indiziert werden
können.
Kap. 1 - 32
Arten des Deep Web
●
Invisible Web: Webseiten, die indiziert werden könnten, es jedoch aus
kaufmännischen oder strategischen Gründen nicht werden.
●
Truly Invisible Web: Webseiten, die aus technischen Gründen (noch) nicht
indiziert werden können, z.B. nicht-Standardformate (Flash) oder Formate,
die aufgrund ihrer Komplexität nicht erfasst werden können
(Grafikformate).
Kap. 1 - 33
Exkurs: Dark Web
Deep Web und Dark Web werden fälschlicherweise oft gleichgesetzt. Eine
Gemeinsamkeit ist, dass man auf Inhalte nicht mit kommerziellen
Suchmaschinen zugreifen kann.
Das Dark Web kann man dabei als Teil von des Deep Web betrachten.
Die Seiten des Dark Web werden absichtlich vor dem Zugriff durch
Suchmaschinen geschützt, nutzen maskierte IP-Adressen und sind nur mit
speziellen Web-Browsern zugänglich.
Beiden Begriffe sind der breiten Öffentlichkeit aus den Nachrichten bekannt,
als das FBI ein Online Schwarzmarkt „Silk Road“ (2013) und danach auch
seinen Nachfolgen „Silk Road 2.0“ (2014) geschlossen hat.
Kap. 1 - 34
Dark Web Zugang
Das Tor Projekt stellt mit Hilfe des Tor Browsers eine Möglichkeit zur
anonymen Nutzung des Webs zur Verfügung. Auch eine Version für Android
ist verfügbar. Anfragen werden dabei innerhalb des Tor Netzwerkes über
mehrere Server (mindestens 3) weitergeleitet, um die Identität des Nutzers
zu verschleiern. Daten werden dabei verschlüsselt übertragen.
Neben gewöhnlichen Webseiten kann mit Tor auch auf sogenannte
Hidden Services zugegriffen werden. Diese sind über eine sogenannte
“onion address“ erreichbar (Übersicht über legale Services).
Für eine detaillierte Beschreibung des Tor Netzwerkes wird auf die
Veröffentlichung „Tor: The Second-Generation Onion Router“ von
Dingledine, Mathewson und Syverson verwiesen.
Kap. 1 - 35
Nutzen des Dark Web
In Ländern mit repressiven Regimen kann das Dark Web für einen
politischen Kampf genutzt werden. Facebook hat eine Version der Seite im
Dark Web zugänglich gemacht, damit auch aus Ländern, in denen Facebook
verboten ist, darauf zugegriffen werden kann. Sie ist nur mit Browsern
erreichbar, die Tor unterstützen: https://facebookcorewwwi.onion
Im Zuge der Dark Web Debatte wird oft über die dezentrale digitale
Währung Bitcoin diskutiert, da sie auch für die anonyme Bezahlung im
Dark Web Einsatz findet. Weitere Informationen sind in der Veröffentlichung
„Bitcoin: A Peer-to-Peer Electronic Cash System“ von Nakamoto zu finden.
Kap. 1 - 36
Vom Deep Web zurück zum Visible Web
In den meisten Fällen ist man natürlich an einer Anmeldung interessiert:
• Google (Bekanntmachung für Spider per http://www.google.de/addurl/)
• Beschreibung der eigenen Webstruktur z.B. durch Sitemaps
Über das Robots Exclusion Protocol kann ausgeschlossen werden, dass Seiten
vom Crawler besucht werden. Allerdings können Crawler eine definierte
robots.txt Datei, die beschreibt welche Seiten indiziert werden dürfen und
welche nicht, ignorieren. Es handelt sich also um eine freiwillige Einhaltung
des Protokolls.
Kap. 1 - 37
Um der großen Datenmenge Herr zu werden, extrahiert ein
Merkmalsextraktor relevante Merkmale und Texte aus den
gefundenen Webseiten. Durch die Merkmalsextraktion wird die
Datenmenge bereits deutlich verkleinert (Korpus).
Um die grammatikalische Komplexität (Flexion) zu reduzieren,
werden Wörter durch Text-Operationen auf ihren Wortstamm
zurückgeführt (Stemming). Einer der bekannteste Algorithmen ist der
Porter-Stemmer.
Zudem werden Füllwörter (Artikel, …) entfernt (Stopword removal),
da sie oft nur grammatikalische Informationen tragen.
Siehe dazu Kapitel 2 in „Introduction to Information Retrieval“.
Kap. 1 - 38
Um über die Suchbegriffe wieder auf die Originale zurück schließen zu
können, verwaltet der Indexierer die extrahierten Merkmale und Texte
der Dokumente und erlaubt den schnellen Zugriff auf die Originale über
diese Merkmale und Texte.
Dieser Suchindex wird als „Inverted File“ implementiert. Er hat die
gleiche Funktion wie ein Schlagwortregister, das Schlagwörter
denjenigen Buchseiten zuordnet, in denen das Schlagwort vorkommt.
Beispiel:
ID
Term
Dokument : Position
Di: Unter einem blauen
…
Himmel trafen …
Dj:
Montags machen
viele blau. Unter
freiem Himmel …
n
blau
i : 3, j : 4
n+1
Himmel
i : 4, j : 7
…
Kap. 1 - 39
Verfeinerung Websuche
Anfrage
SuchSystem:
Text-Operationen
Logische Sicht
Reformulierung
AnfrageOperationen
Suche
Bewertete
Dokumente
Bewertung
Spider
Indexierung
Index
DatenbankManager
Inverted
File
Ergebnismenge
Dokument
DB
Kap. 1 - 40
1.3.2 Navigationsanfragen im Web
Beispiel: Navigation per Links
Ziel: Ich will mich über Vorlesungen des Lehrstuhls für „Datenbanksysteme“
informieren.

Einstieg per URL
http://www.informatik.uni-augsburg.de/de/lehrstuehle/
Ergebnis:
Durch die Linkstruktur in HTML werden die Lehrstühle thematisch so strukturiert, dass
die Informationsbedürfnisse der Leser (hoffentlich vollständig) erfüllt werden. Der Leser
erschließt nach den eigenen Bedürfnissen die Struktur der Webseite per Navigation.
 Hypertext, HTTP, (X)HTML, serverseitiges Skripting (Java, Servlet, Python,
PHP, …), clientseitiges Skripting (JavaScript, Applet, AJAX)
Kap. 1 - 41
Beispiel: Semantikunterstützte Navigation in a priori definierten
Kategorien per Hierarchischer Suche
Ziel: Ich will mich um eine Urlaubsreise im Sommer kümmern.

Einstieg per Directory:
DMOZ (open directory project):
– Vordefinierte Hierarchien zur Navigation, z.B.
Regional → Europe → Germany → States → Bavaria → Localities
– Begrenzte Auswahl an Ergebnissen da von Menschen erstellt & verwaltet
Kommerzielle Portale (wie z.B. Yahoo) greifen nicht mehr auf diese Directories
zurück, da die Aktualisierung zu aufwändig ist.
Kap. 1 - 42
Kap. 1 - 43
Ergebnis:





Exploratives Suchen in Kategorien
keine einheitlichen Kategorien und Relationen für die Semantik einer
Applikation
Anzahl der in einer Kategorie gesammelten Konzepte ist angegeben
Hierarchische Suche wird immer mehr durch Volltextsuche verdrängt.
Hierarchische Suche, die einen Bezug zu geographischen Inhalten hat,
wird durch Oberflächenelemente wie interaktive Maps versteckt.
Kap. 1 - 44
Hierarchische Suche mit Hilfe von Karten:
Suche nach Wanderungen im Allgäu →
Zoom zu Wanderungen in Immenstadt
www.outdooractive.com
Kap. 1 - 45
1.3.3 Suchanfragen im Web
Korpus (WWW):
 Offen
 Dynamisch, indizierter Inhalt ändert sich!
 Unentdeckte „Kontinente“ (Deep Web)
Suchmöglichkeiten:
 Stichwörter für Volltextsuche
Erweiterte Suche: (z.B. Google)
 Logische Verknüpfungen
 Wildcard-Suche
 Zahlenbereiche
 Ortsspezifische Suche per Domain-Einschränkung

 Leere Ergebnismenge, Überflutung , Relevanz
Kap. 1 - 46
Zipfsches Gesetz
Welche Suchbegriffe muss man wählen, um mit ihnen relevante Quellen
zu finden? Ein Hinweis gibt das Zipfsche Gesetz:
Der Rang i eines Wortes ist indirekt proportional zu seiner rel. Häufigkeit:
Freq(Worti) = i-ϴ x Freq(Wort1),
wobei 1,5 < ϴ < 2 für die meisten Sprachen gilt (Potenzverteilung).
Beispiel:
Für ϴ = 1 besitzt das 2. häufigste Wort eine
Freq(Worti)
Häufigkeit von 1/2 des häufigsten Wortes.
I
II
III
Rang i
• Zone I: Sehr häufige Wörter sind meist
funktionale Wörter (der, die, und, …).
• Zone II: Mittelhäufige Wörter erschließen
einen Text am besten.
• Zone III: Seltene Wörter sind häufig Tippfehler oder zu spezifische Wörter (Ranb,
Freq., Hornussen, …).
Kap. 1 - 47
Folgerungen aus dem Zipfschen Gesetz:
Positiv: Füllwörter machen einen großen Anteil von Texten aus. Die
Eliminierung von Füllwörtern hat keinen Einfluss auf das Retrieval,
erspart jedoch Speicher.
Negativ: Für die meisten Wörter ist eine signifikante statistische Analyse
(z.B. Korrelationsanalyse) schwer zu erzielen, da die Wörter in einem
Korpus zu selten auftreten.
Beispiel:
Sprachabhängige Worthäufigkeiten, englische Worthäufigkeiten
Kap. 1 - 48
Beispiel: Verknüpfte Stichwortsuche
Welche Zulassungsbedingungen müssen eingehalten werden, um an der
Klausur in Datenbanksysteme I teilnehmen zu dürfen?
Wunschseite:
http://www.informatik.uni-augsburg.de/de/lehrstuehle/dbis/db/lectures/ws1415/datenbanksysteme1/exams/
Suche mit Google (Achtung! Google Suche ist personalisiert.)
Ergebnisse aus SS16:
Von den 2940 Treffern finden sich auf Position 1 bis 4 Dokumente des
Lehrstuhls. Ein Ortsbezug wird automatisch hergestellt. Das gewünschte
Dokument ist erst auf Position 3.  Fehlende Relevanz
Kap. 1 - 49
2. Änderung: ganz genauen Domänenbezug hinzunehmen
www.informatik.uni-augsburg.de

Suche mit Google
Es werden durch die Domain-Einschränkung 7 Treffer angeboten.
Der 2. Treffer bietet das Klausurdatum und die Zulassungsbedingungen korrekt
an.
Kap. 1 - 50
1. Änderung: Domänenbezug erzwingen durch Domain-Einschränkung
auf www.uni-augsburg.de

Suche mit Google
Ergebnis:
Die beiden zuvor gefunden Dokumente mit Bezug zum Lehrstuhl werden
nicht mehr gefunden, da sie aus Subdomains der Uni Augsburg stammen.
 SS16: keine Treffer
Kap. 1 - 51
3. Änderung: Kompositum „Zulassungsbedingung“ semantisch auf
„Zulassung“ reduzieren, kein Domänenbezug

Suche mit Google
Es werden insgesamt 8720 Dokumente gefunden. Auf Platz 1+2 befinden
sich Seiten zu DB1 des Lehrstuhls im WS12/13 und WS 09/10. Der
Ortsbezug wird wiederum automatisch hergestellt.
 Überflutung, jedoch gutes Ranking
Kap. 1 - 52
Stand der Dinge:
Iteratives Vorgehen
(Suche im „Heuhaufen“  geeignetere (!) Stichwörter,
Filterfunktionen der Suchmaschine wie z.B. Domain)
Solange keine Zufriedenheit mit dem Suchergebnis besteht,
1.
Abfrage(re)formulierung,
2.
[Selektion],
3.
[Navigation].
Kap. 1 - 53
Bei der Stichwortsuche ist ein häufiges Phänomen eine leere
Ergebnismenge (empty result set) bzw. als Alternative eine Überflutung
(flooding effect) durch meist irrelevante Dokumente.
Beide Phänomene erschweren, dass Benutzer relevante Treffer entdecken
können.
Um die Relevanz der Treffer zu erhöhen, bieten sich Modelle an, die
semantische Zusatzinformationen bei der Suche bzw. Navigation ins Spiel
bringen:
 Stichwortsuche mit Unterstützung von in Beziehung stehenden
semantischen Kategorien (Semantische Netzwerke, Ontologien,
Taxonomien)
 Attributsuche (Schemata)
 Präferenzen (Benutzermodelle)
Kap. 1 - 54
Beispiel: Stichwortsuche nach mehrdeutigem Wort „Saturn“ in
verschiedenen Suchräumen
Korpus
Treffer (SS07)
(SS16)
1. Web, Suche mit Google
2a. Gesamtverzeichnis, Suche mit
Google
2b. Verzeichnis „Wissenschaft“,
Suche mit Google
54.100.000
107.000.000
66.500
2012: Semantische
Suche abgeschaltet
189
2012: Semantische
Suche abgeschaltet
Ergebnis: Die Suche in Kategorien erhöhte die Relevanz der Treffer, da irreführende
Synonyme ausgeschlossen sind. Das Erstellen von Kategorien sowie die Zuordnung von
Dokumenten zu Kategorien erfordert jedoch redaktionellen Zusatzaufwand bzw.
gemeinschaftliches Indexieren (social tagging, folksonomy).
Kap. 1 - 55
Stichwortsuche mit semantisch richtigen, aber nicht im Korpus
verwendeten Stichwörtern
Beispiele (Ergebnisse aus SS16):

Suche Zahnarzt (458.000) / Dentist (127.000) in Augsburg?

Suche Zahnarzt OR Dentist (463.000) in Augsburg?


Synonymsuche z.B. ~Dentist in Augsburg bei Google (127.000)?

Ergebnis:
Die Suche erfolgt nur anhand von Wörtern nicht Konzepten.

Stichworterweiterung aus Synonymwörterbücher,
VerODERung mit Synonymen oder themenrelevante Vorschläge
Kap. 1 - 56
Beispiele: Stichwortsuche mit Unterstützung durch
semantisches / linguistisches Wissen
Beispiele:

Suche nach Alfons Huhn als Bild bei Flickr
Bis 2013 alternative Vorschläge nach leerer Ergebnismenge
wie “chicken“, 2016 leere Ergebnismenge

Suche nach Information Retrieval bei Ask.com
Bis 2013 Möglichkeit von semantischen Anfrageerweiterungen bzw.
Anfrageeinengungen (wissensbasiert), 2016 statistikbasierte
Termerweiterungen
Ergebnis:
Semantisches / linguistisches Wissen wird durch statistikbasiertes Wissen
ersetzt.
Kap. 1 - 57
Beispiel: Volltextsuche und Plagiarismus
Welchen Autoren lässt sich der Text "Let us exemplify the unsatisfying
state of the art" zuschreiben?

Suche mit Google
Ergebnis:
Textstellen, insbesondere Zitate, lassen sich hervorragend mit Volltextsuche überprüfen.
 Ergebnisse 1 - 1 von ungefähr 1 für "Let us exemplify the unsatisfying
state of the art". (0,27 Sekunden, SS2007)
 SS2016: 5 URLs
Kap. 1 - 58
1.4 Überblick Attribut-Suche
Voraussetzung für eine Attribut-Suche sind strukturierte Daten. Diese werden
im Normalfall durch Schemata beschrieben. Standardmäßig kommt eine
Datenbank im Backend zum Einsatz:

Im Unterschied zur Stichwortsuche ist bei einer Attributsuche ein
exaktes Daten-Retrieval möglich.

Web-Applikationen verstecken das Datenmodell, die dazu gehörenden
Schemata und die Ablauflogik.

Eingabefelder erlauben die Selektion und Projektion der gewünschten
Daten.
Beispiel: Reiseauskunft bei der DB
Kap. 1 - 59
Bei der Attributsuche mit exakten Treffern (exact match) treten die
bekannten Phänomene auf:
1.
2.
3.
Leere Ergebnismenge (empty result set)
Überflutung (flooding effect)
Eine Bewertung (ranking) ist nicht möglich.
Viele Datenbanksysteme kombinieren die Attribut- mit der Volltextsuche
wie z.B. „Oracle Text“ von Oracle.
Kap. 1 - 60
Bemerkung (Warnung):
Webseiten, die dynamisch durch Attributsuche generiert werden, können nicht
indiziert werden, da der Spider sonst alle möglichen Eingabe-Kombinationen
ausprobieren müsste ( Deep Web).
Die Ergebnisse von Fachdatenbanken mit einem Web-Frontend liegen aus
dem gleichen Grund im Deep Web trotz einer guten Ergebnisqualität.
Die Stichwortsuche kann in diesen Fällen also nur dazu benutzt werden,
geeignete Fachportale zu finden.
„I will use Google before asking dumb questions.“
Kap. 1 - 61
Beispiel: Elektronischer Handel (E-Commerce)
B2C (Business-to-Consumer)
EcommerceSystem
Anfrage
Relevanz?
Kauf!
Gewichtete
Waren
DB
1. Ware1 Kauf!
2. Ware2 Kauf!
3. Ware3 Kauf!
…
Kap. 1 - 62
Beispiel 1: Mieten einer Wohnung
Online-Immobilienmakler
Korpus (Immobilienbestand)
Suchmöglichkeiten:
 Reiter, Überschriften
 Suchfenster
 Hintergrundwissen
 abgeschlossen, rel. geringe Änderungsrate
 Kategorien, Navigation
 Attributsuche, hierarchische Suche
 Geographisches Informationssystem (GIS)
Beispiel: Wohnen, Augsburg … , Mietwohnungen
(SS07) Salomon-Idler, Umkreis  Automat. Erweiterung um Univiertel,
ab SS08: „Radius“
(SS16) #Zimmer, Fläche, Preis  Leeres Ergebnis bei zu geringem Preis
 Parametrische Suche (Synonym Facettensuche)
Kap. 1 - 63
Seit SS2013
http://www.immobilienscout24.de/
Vorschläge für Autovervollständigung der Benutzereingabe auf mehreren
geographischen Konzeptebenen:
- Orte, Kreise, Bezirke und Gemeinden, Straßen 
Parallele, konzeptspezifische Suche mit Vorschlag von 5 Varianten je Konzept
Kap. 1 - 64
Seit SS2013



Definition von oberer (Preis) oder unterer (Zimmer, Fläche) Grenze für
numerische Parameter.
Umkreis kann in Minuten oder in km angegeben werden.
Dynamische Anzeige der Trefferanzahl in Abhängigkeit von jedem
Parameter.
Frühere attributbasierte Suche ist ersetzt durch Parametrische Suche mit 4
Attributen, wobei WO und WAS für den Anwender als Prefilter wirken.
Kap. 1 - 65
Suche anpassen: Anzeige aller vorhandenen Parameter
Kap. 1 - 66
Beobachtung:
In Abhängigkeit vom Datenbestand und der Anfrage können bei
der Attribut-Suche zwei Phänomene auftauchen:
1.
2.
Leere Ergebnismenge (empty result set)
Viel zu große Ergebnismenge (flooding effect)
Mit Hilfe der „Parametrischen Suche“ wird der Einfluss von
Attributen auf die Größe der Ergebnismenge visualisiert und damit
dem Benutzer ein Feedback auf seine Aktionen gegeben.
Kap. 1 - 67
Parametrische Suche
Beispiel 2: Auswahl von Elektronikware
Preisvergleich (z.B. Fernseher) bei Idealo
Ergebnis:
Nach einem hierarchischen Suchvorgang gelangt man zu einer Startseite für
eine parametrische Suche. Bei einer parametrischen Suche wird durch die
Benutzerauswahl eines Attributwertes die Ergebnismenge eingeschränkt.
Die Ergebnismenge kann dann durch Auswahl weiterer Attributwerte iterativ
eingeschränkt werden, dabei kann auch eine leere Ergebnismenge auftreten.
Durch Rücknahme von Einschränkungen kann sich die Ergebnismenge wieder
vergrößern. Die Kardinalität der Ergebnismenge der momentanen Selektion ist
(meistens) angegeben.
Die Vorgehensweise entspricht einer iterativen Navigation bezüglich der
Attribute des Suchraums.
Kap. 1 - 68
1.5 Übersicht Multimedia-Suche
Suche in Multimediabeständen bestehend aus
 Bildern,
 Audios,
 Videos.
Multimediasuche findet meist in textuell erschlossenen Beständen ab. Die
Erschließung findet in sozialen Netzwerken durch Annotierungen (Tagging)
mit Hilfe eines offenen Vokabulars statt.
Für die professionelle Annotierung existieren z.B. spezifische XMLSprachen wie MPEG-7 (siehe Schema).
Beispiele: Videos mit den Annotierungen „Clinton“ „2016“
●
YouTube
●
Yahoo
Kap. 1 - 69
Praktisches Beispiel: Google Bildersuche
Suche Bild aus tz aus der Wochenendausgabe vom 11./12.11.06:
Kap. 1 - 70
Aus dem Zeitungsartikel, in dem das Bild eingebettet ist (Erschließung über
Umgebungstext), kann der Leser folgende Stichwörter entnehmen:
 1. Versuch: saturn, ring, earth, cassini 
(SS07: 79.400, seit SS13: Anzahl wird nicht mehr angezeigt.)
 2. Versuch: saturn, eclipse, 2006-09-15, cassini 
(SS07: 215, seit SS13: Anzahl wird nicht mehr angezeigt.)
Aus der Ergebnismenge von Google-Bildsuche kann bislang nur durch
(menschliche) Analyse das gesuchte Bild und seine Quelle gefunden werden.
Quelle: http://photojournal.jpl.nasa.gov/catalog/?IDNumber=PIA08329
Kap. 1 - 71
Die Suche nach ähnlichen Bildern in einem Bildarchiv bzw. die BildAnnotierung und Suche ausgehend von einem Vergleichsbild ist im
Allgemeinen ein kaum zu lösendes Problem. Für stark eingeschränkte
Anwendungsdomänen wie z.B. Gesichtserkennung werden Lösungen
angeboten.
Beispiele:
Polar Rose, 2010 gekauft von Apple, bzw. Gesichtserkennung bei Facebook
abgeschlossenes Lehrstuhlprojekt: Heron
Bildsuchekriterien:
z.B. Farbhistogramm (blau/weiß)
Textur (Hermelinfell)
Kap. 1 - 72
Ähnlichkeitssuche für Bilder im Web (Reverse Image Search):
●
Google Bildersuche
●
TinEye
●
Yandex
Unterschiedliche Güte der Suchergebnisse je nach Suchverfahren.
Suche allein auf Bildähnlichkeit basierend liefert ungenügende Ergebnisse.
Trefferraten werden durch Metainformationen verbessert.
Kap. 1 - 73

Prof. Kießling, Suchmaschinen, Kap. 1

Transcrição

Documentos relacionados

Ex-Horten wird Landratsamt für fast 40 Millionen Euro

Übungsaufg. Physik FH HN

Kap Verde

Leseprobe

heben mit höheren standards

2016-02-21_NextStep_Deine Entscheidungen_handout.pptx

2. Mose Kap 7, 14 – 10, 29 1 / 2 Exodus 7, 14 – 10, 29

Kirchturmspitzen 16/2015

Mulisch, Attentat, Organisation

Leseprobe - UVK Verlagsgesellschaft