Wie funktioniert eigentlich eine Suchmaschine?

Transcrição

Wie funktioniert eigentlich eine Suchmaschine?
Wie funktioniert eigentlich eine Suchmaschine?
Winterthur Learning Sessions
Mittwoch, 15. März 2006
Jürg Stuker
St. Gallen, Frankfurt, Hamburg, Zug, Zürich
www.namics.com
Ausgangslage und Zielsetzung
» Ausgangslage
– im Publikum sitzen „Techies“
» Zielsetzung
– zum besseren Verständnis (dennoch) ein Umfeld
für Suchmaschinen-Marketing schaffen
– genügend Details für Leute die clientseitig
Implementieren
– Fokus ist die öffentliche Websuche (wegen der
Nachvollziehbarkeit)
© namics
Seite 1
Agenda
» Drei Begriffe
» Suchmaschinen-Marketing?
» Funktionsweise einer Volltextsuchmaschine
» Top Positionen: Ranking
» Ein paar Ausblicke...
Drei Begriffe
» Suchmaschinen-Marketing (SEM)
– Massnahmen, die dazu beitragen, dass
Webseiten in Suchmaschinen bei einer
Suchanfrage gut gefunden werden.
» organisches Suchmaschinen-Marketing
(= Suchmaschinenoptimierung, SEO)
– Massnahmen am eigenen Angebot um die
Platzierung/Rangierung zu verbessern.
» bezahltes Suchmaschinen-Marketing
(=Suchmaschinenwerbung, Paid Placement
und Paid Ranking)
– Kaufen von Platzierung und/oder Rangierung
des eigenen Angebotes in Suchmaschinen
© namics
Seite 2
Werbung versus organische Treffer
gekauft
verdient
Suchmaschinen-Marketing?
team–based net solutions
© namics
Seite 3
Nutzungsmotive Internet in der Schweiz
Quelle: http://www.wemf.ch, MA Net 2005, 2. Welle
5 Schritte zu erfolgreichem
Suchmaschinen-Marketing
Qualifizierte Besucher
Attraktivität Treffer
Top Positionen
Auswahl Suchbegriffe
Aufnahme Suchdienst
Auswahl Suchdienst
Rahmenbedingungen
© namics
Seite 4
Auswahl der Suchbegriffe – Was heisst wie?
Auswahl geeigneter Suchbegriffe – Bsp.
Keyworgenerator von Miva
Quelle: http://www.miva.com/de/
© namics
Seite 5
Auswahl geeigneter Suchbegriffe – Bsp.
Simulation (freie) Banner bei [search.ch]
Quelle: http://campaign.search.ch/
Auswahl geeigneter Suchbegriffe –
Bsp. Näherung über eine Testkampagne Google
Quelle: https://adwords.google.com/select/
© namics
Seite 6
Auswahl geeigneter Suchbegriffe –
Häufigkeiten
» geschätzte Häufigkeiten zum Wortstamm
„Versicherung“
Begriff
Einzahl
Versicherung
Mehrzahl Quotient
60‘489
2‘022‘164
0.03
Private
Krankenversicherung
3‘025‘356
5‘555
544
KFZVersicherung
2‘845‘850
964
2‘952
Versicherungsvergleich
263‘760
<13
>20‘000
Lebensversicherung
165‘040
9‘928
17
Krankenversicherung
92‘384
6‘955
13
Unfallversicherung
31‘109
68‘474
0.45
6‘331
69‘372
0.09
Hausratversicherung
Quelle: namics research
Auswahl geeigneter Suchbegriffe – Weiter
» Viel gesunder Menschenverstand...
» User (versuchen zu) verstehen
» Eigene Angebote, Werbung, Websites von
Mitbewerbern anschauen (insb. auch
Auktionssites)
» Testkampagnen durchführen
» Logdateien
» Sehr schwieriger Job...
© namics
Seite 7
Attraktivität der Treffer
Funktionsweise einer Volltextsuchmaschine
team–based net solutions
© namics
Seite 8
Ein Tag im Leben einer Suchmaschine…
i.
Crawling/
Spidering
ii.
Erstellen
Index
iii.
Benutzeranfrage
iv.
Resultate
Download und
Speicherung
aller Dokumente
der Kollektion
Erstellen einer
effizienten
Datenstruktur für
die Suche
Finden passender Dokumente
auf eine
Benutzeranfrage
Präsentation der
Treffer in der
richtigen
Reihenfolge
i: Download und Speichern
» Die Suchmaschine muss die Gesamtheit der Informationen
kennen (= Kollektion)
– Crawler / Spider
– lädt und speichert HTML jeder Seite (Base Page Download)
– extrahiert alle Links drin
– folgt sämtlicher Links rekursiv
– Früher per ‘Add-URL’-Formular (heute eher durch Rückmeldung
von Toolbars, Deskbars etc.)
» Recrawling
– Ziel der Maschinen: Kontinuierlich (immer wenn was ändert)
– Realität 1: Spätestens zyklisch nach min. 4-6 Wochen
– Realität 2: Google nach Relevanz (evt. mehrmals täglich)
– Realität 3: Immer mehr auch Benachrichtigung der Quelle selbst
© namics
Seite 9
i: Simulation der Link-Erkennung (mit Lynx
Browser)
i: Download und Speichern
--> Wichtigste Probleme
© namics
»
Links im HTML nicht (einfach) extrahierbar: z.B. in Java Script, Flash oder PDF
»
Formulare und Formularelemente
»
„?“, „&“, „$“, „=„, „+“, „%“ in der URL (Datenbankabfragen)
inkl. Session IDs – insb. wenn mehr als 2 Parameter
»
Cookies
»
Seiten sind durch Login geschützt
»
Zu viele Redirects
»
HTML-Fehler, HTML-Frameset
»
robots.txt oder <meta name="robots" content=“nofollow">
»
SSL / https / Clientzertifikate o.ä.
»
Zirkelbezüge / Loops („Links im Kreis rum“)
Seite 10
i: Download und Speichern
Beispiel „Crawlbarkeit“: Formular
i: Download und Speichern
Beispiel „Crawlbarkeit“: Queryparameter
» http://www.siemensmedical.com/webapp/wcs/stores/servlet/Category
Display?categoryId=12752&langId=-11&catalogId=11&storeId=
10001&catTree=100001,12781,12752&overviewId=12752&userviewI
d=12814&parentName=Computed+Tomography&level=0
© namics
Seite 11
i: Download und Speichern
--> Tipps
»
Alle Seiten haben eingehenden Links in HTML
(oder: alternative Verlinkung über Sitemap)
– Keine Navigation in serverseitigen Image Maps (oder doppelt)
»
Formulare
– zusätzlich Linklisten für die Zielseiten
– Gastzugang mit Link in HTML
»
Die Site funktioniert (auch) ohne Cookies
»
Die Site funktioniert (auch) ohne JavaScript
»
„?“, „&“, „$“, „=„, „+“, „%“ in der URL -> Vermeiden / Verstecken
»
Jeden Inhalt gibt es nur unter einer einzigen URL
»
Valides HTML, kein HTML-Frameset
»
für Suchmaschinen relevante Inhalte (auch) ohne SSL anbieten
»
robots.txt und „META INDEX“ im Griff
»
(Ausser Konkurrenz) Google Sitemaps:
http://www.google.com/webmasters/sitemaps/
i: Download und Speichern
Test (Vollständigkeitsanalyse)
» Vergleich der Anzahl Seiten und der Hits durch Crawler
Spider-Besuche
Browser
1
2
3
Googlebot
FAST-WebCrawler
Cosmos
9
KIT-Fireball
10 search.ch V1.4.2 ([email protected];
http:
11 Scooter-W3.1.2
Hits
% von
Gesamt
Sitzungen
12,201
11,897
3,366
9.04%
8.82%
2.49%
4,417
1,067
698
304
70,157
0.22%
52.02%
114
92
7,164
5.31%
80
Auszug aus HTTP-Logfile
» Nachschauen in den Suchmaschinen
© namics
Seite 12
ii: Index erstellen
» Ziel: Datenstruktur für effizienten Zugriff
– Unterschiedliche Mächtigkeit (erkennbar bei der
Abfragesprache)
» Augenmerk
– Welche Dokumentformate und -versionen sind
unterstützt
– Zugriffsberechtigung auf Dokumente
– Zeichensätze und Sonderzeichen! (Codepage, Doctype)
– Duplikatelimination und Clustering
– Beeinflussung des Index durch Administrator (Bsp.
Stoppworte, Mapping oder manuelle Einträge)
iii: Finden der passenden Informationen
auf eine Nutzeranfrage
» Die „eigentliche Suche“ des Nutzers
» Augenmerk
– Abfragesyntax
– Einschränkung auf Datentypen und/oder andere
Metainformationen
– Operatoren: „Wortgruppen“; AND, OR, NOT;
NEAR
– Wildcards
– Sonderzeichen: „ss“/„ß” oder “oe”/“œ” u.v.a.m.
– Wortbeugungen: „Pferd“ / „Pferdes“
– Synonyme
– Korrekturfunktionen
– Führung des Nutzers bei der Abfrage (Semantik)
– Verfeinerung, Suche in der Trefferliste
– Gruppierung von Themenfeldern
© namics
Seite 13
iv: Präsentieren in guter Reihenfolge
» Das ist das Thema!
Die Reihenfolge: Ranking
team–based net solutions
© namics
Seite 14
Sorry, eine bisschen Theorie
Alle
Dokumente
der Kollektion
objektive
Relevanz
subjektive
Relevanz
geschätzte
Relevanz
Mein
Informationsbedürfnis
Meine aktuelle
Anfrage
Suchen wir mal nach Läufer...
© namics
Seite 15
Über verschiedene Ansätze der
Datengewinnung zur Relevanzgewichtung
2. Off Page
(Reputation)
3. Mehr vom
Suchenden wissen
4. Mehr über den
Suchenden wissen
Kollektion
Sucher
1. On Page
1. On Page
» „Ich versuche den Inhalt der Trefferseite zu verstehen
und die darin enthaltene Suchbegriffe zu gewichten.“
» Dann einen Vergleich mit der Sucheingabe: Tf-idf
» Extraktion von für den Nutzer relevanter Merkmale
eines Dokumentes
– Dokumenttitel (Dokumenteigenschaft, HTML-Seitentitel)
– Dateinamen / URL
– Titel, Legende, Fliesstext, Beschreibung von Bildern und
Illustrationen etc.
» Gewichtung
– Auffälligkeit (Platzierung, HTML-Tags)
– Häufigkeit = Anzahl und Dichte = relative Anzahl
– Wortabstand (Phrase Match)
© namics
Seite 16
1. On Page – Beispiel
1. On Page --> Tipps
» Suchbegriffe für User sichtbar auf der Seite
anbringen
– an auffälligen Orten
–
–
–
–
URL (http://ihrangebot.ch/reisen/mexiko/preise.html)
Page Title
H1, H2
weit oben auf der Seite
– richtiger Anteil am Textkorpus (3-5%)
» Wortbeugungen sowie Einzahl & Mehrzahl
berücksichtigen
© namics
Seite 17
2. Off Page: Reputation
» „Ich versuche (zusätzlich) die Verlinkung und
den Kontext der Verlinkung der Zielseite zu
verstehen“
» Wie wissenschaftliche Papers: Je häufiger
zitiert, desto bedeutender = Reputation
» Modell des Random Surfers
» Besitzer einer Site kann schlechter
beeinflussen (fairer?): Weisse Schrift auf
weissen Grund
» „Grosse“ Algorithmen: Page Rank (Google)
und HITS
2. Off Page
» Je populärer die verlinkenden Seiten selbst,
desto höher die eigene Popularität
10
5
3
8
5
9
5
3
3
PS: Linkkontext (Anchors) werden der
Zielseite zugerechnet!
© namics
Seite 18
2. Off Page – (immer dasselbe) Beispiel
2. Off Page --> Tipps
» Viele eingehende Links auf das eigene Angebot
sammeln (Partnermanagement)
» Auf den Linkkontext (Anchor resp. den umgebenden
Text des Links achten)
– NICHT: Unsere Reisen nach Mexiko… mehr
Informationen
– Aber: hier finden sie unsere Mexiko Reisen
» Seiten mit einer hohen Reputation und mit weniger
abgehenden Links sind mehr wert
» Mehrere Links ab derselben IP-Adresse sind nicht
viel Wert, solche ab dem selben Subnetz auch
weniger als solche von Sites die „weit auseinander
liegen“
© namics
Seite 19
3. Mehr vom Suchenden wissen
» „Bei Zweifel über die Aussagekraft der
errechneten Zielseite frage ich (zusätzlich)
beim Suchenden nach resp. präsentiere ihm
oder ihr Alternativen“
» Annahmen machen (= Entitäten Erkennung)
und diese prominent zeigen
» Rückfrage stellen
» Ziel: Herausfinden des subjektiven
Informationsbedürfnis
3. Mehr vom Suchenden wissen -- Beispiele
© namics
Seite 20
4. Mehr über den Suchenden wissen
» „Ich versuche (zusätzlich) die Interessen /
Vorzüge / Begriffswelten des Suchenden in die
Suche mit einzubeziehen“
» Anlage eines Profils des Users resp. der vom
User bevorzugt gewählten / besuchten Sites
(und auch von dessen Freundeskreis)
» Ziel
– Eingrenzen des subjektiven
Informationsbedürfnis
– Nutzungsdaten für eine globale Optimierung zu
nutzen (und nicht eine statische Verlinkung) Æ
Je länger je mehr zählt Popularität
4. Mehr über den Suchenden wissen -Beispiele
© namics
Seite 21
Der zusammenfassende Tipp
» Ist eine Webangebot behindertentauglich, so ist
es auch Suchmaschinentauglich!
– http://www.w3.org/wai
– http://www.namics.com/wai
» Dann noch gute Texte und eine gute
Verlinkung.
» Et voilà.
Keine Tricks
» Suchmaschinentricks haben schon andere
versucht... meist mit blutiger Nase. Hier sind die
Regeln
– http://www.google.com/webmasters/seo.html
» Und so nicht...
© namics
Seite 22
Ein paar Ausblicke...
team–based net solutions
Syndication und Push (RSS/Atom und
XML-RPC)
© namics
Seite 23
Usergenerierte Semantik: Tags
Neue Syndikatoren (anstelle von
Volltextsuchmaschinen)
© namics
Seite 24
Besten Dank für Ihre Aufmerksamkeit
(Download: http://blog.namics.com)
Mittwoch, 15. März 2006
Jürg Stuker
St. Gallen, Frankfurt, Hamburg, Zug, Zürich
www.namics.com
© namics
Seite 25