Small Worlds und Communities
Transcrição
Small Worlds und Communities
Small Worlds und Communities 1. Der Begriff Small World 1. 2. 3. 4. 5. 2. Communities 1. 2. 3. Grundbegriffe Clusteringkoeffizient Zufällige vs reguläre Grafen Modelle von SW Grafen Beispiele Algorithmisierung von Communities Die Begriffe Hubs und Authorities Literatur 1 1. Der Begriff der Small World • A trifft B und beide stellen zu ihrer Überraschung fest, dass sie C kennen. • Im Deutschen durch Phrase „Die Welt ist ein Dorf.“ repräsentiert • Der englische Begriff wurde von Milgram durch berühmtes Briefkettenexperiment geprägt. (Zwei USBürger sind durch im Schnitt 6 Personen verbunden) • Später durch Filmdatenbank, Baseballdatenbank usw. wieder belegt. 2 1.1. Wichtige Begriffe • Graf G = (V,C) • Grad der Verbundenheit deg(v) eines Knotens gibt an, mit wievielen anderen er verbunden ist. • Weglänge zwischen zwei Knoten A und B ist die Anzahl der Kanten, die besucht werden, um von A nach B zu kommen. • Durchschnittliche minimale Weglänge: Wie lang die kürzesten Wege zwischen allen Knoten in einem Grafen sind. 3 1.2. Clusteringkoeffizient • Nachbarn eines Knotens v sind: • Clustering Koeffizient vergleicht, wie oft die Nachbarn eines Knotens miteinander verbunden sind, gemittelt über den gesamten Grafen: • Hoher Clustering Koeffizient: 13 Knoten, 21 Kanten (c = 0,66) (c = 0) 4 1.2.1. Clusteringkoeffizient II D G B E H A I J ? C F 5 1.3. Zufällige und reguläre Grafen • Zufälliger Graf ist (stark vereinfacht) ein Graf, bei dem Knoten zufällig miteinander verbunden sind • Regelmäßiger Graf ist ein Graf, bei dem es eine Ordnung über den Knoten gibt und Knoten A mit C erst dann verbunden sind, wenn A und B, sowie B und C bereits miteinander verbunden sind. (Auch “Matrixgrafen” gehören hierzu) zufälliger Graf regelmäßige Grafen 6 1.3.1. Small World Grafen • SW Grafen als Optimum zwischen zwei Extremen: Graph: Weglänge Cluster Wert regulär lang hoch zufällig kurz klein small-world kurz hoch • Bislang Erklärung dafür, warum diverse Seuchenausbreitungs- , Nachrichtenverbreitungsmodelle und andere auf zufälligen Graphen basierende Simulationen mit ihren Ergebnissen daneben lagen • Cluster Wert: Überall im Grafen abgrenzbare Häufungen (allerdings hängen diese komplex miteinander zusammen) • Kurze Weglänge möglicher Hinweis auf effizientest mögliche assoziative Speicherung der Wörter im Gehirn 7 1.4. Modelle für Small World Grafen • • • • • Für SWG gilt, dass die durchschnittliche minimale Weglänge einer Gesetzmäßigkeit folgt: Ursprünglicher Modellvorschlag von Watts & Strogatz 98: Man nehme einen regelmäßigen Grafen und verbinde zufällig eine Kanten neu. Dieses Modell später durch preferential attachment Modell (Barabasi) abgelöst, da es zu einfach war und scale-freeness (Eigenschaften gelten unabhängig von Größe und Beschädigung des Netzes) nicht erklären konnte. Preferential attachment: Beim Anbinden eines neuen Knotens an einen vorhanden verbinden und fast alle seine “Freunde” übernehmen. Aber auch dieses Modell kann nicht alle Effekte zufriedenstellend beschreiben, wie etwa Unterschiede in Verbungsnheitsgraden usw. 8 1.5. Beispiele für Small Worlds Dabei stets wichtig, dass wesentlich weniger Kanten (Verbindungen) existieren, als theoretisch möglich wären: n*(n-1)/2 • Stromnetz eines Landes • Wie Gehirnzellen von verschiedenen Lebewesen miteinander verbunden sind • Wortgraph • Internetgraph • Soziale Netzwerke im allgemeinen (Milgram) • Strassennetzwerk 9 1.5.1. Anwendung der Small Worlds • Besseres Modell für Seuchenverbreitung • Besseres Modell für Erklärung des übergangs von Aggregatzuständen diverser Zubstanzen • Disambiguierung von Wörtern • Neue P2P Suchmaschinen 10 1.5.2. Small World in der Sprache • Graf: jeweils 100.000 Knoten und 20Mio Kanten Zufälliger G. Regelmäßiger G. Kookkurrenzg. c 0.000001 0.0001 0.05 d 5 1000 3.8 Anzahl Kookkurrenzen von Wörtern nach Häufigkeit sortiert 100000 10000 1000 100 10 1 100 1000 10000 100000 11 2. Communities • Communities sind Sammlungen von Webseiten, die Inhalte zu ein und demselben Thema bieten und sich auf einander beziehen. • Ursprünglich Begriff aus dem Englischen für Gruppe von Menschen mit starkem Zusammengehörigkeitsgefühl (Glaube, Politik usw.) • Im Sprachgebrauch hat sich “Community” auf vielfältige Weisen verankert: “Frag mal einen von den, die kennen sich aus.” (Wenn nach speziellem Wissen gesucht wird) • Im Web wie im Sozialen ist auch beobachtbar, dass Communities eigenen Sprachgebrauch entwickeln (Welche Community? “Bitte 2 TT gerade Strecken!”) 12 2.0.1. Nutzen von Communities • Im Web finden sich Communities, um Information zu sammeln, somit ist konzentriert Information findbar, wenn zunächst Community “extrahiert” werden würde. • Somit wäre ein das Web abgrasender Suchalgorithmus, der weiss, was eine Community ist und dies ausnutzt, erfolgreicher, als einer, der zufällig Links probiert oder via Tiefen/Breitensuche. • Jeder Teilnehme einer Community trägt zwar zu den Themen der Community bei, aber jeweils das seiner Meinung nach wichtigste, somit müßte die gesamte Community erwischt werden, um einen erschöpfenden Überblick über deren Inhalte zu erlangen. 13 2.1. Algorithmisierung von Communities • Community als Clique – C ist Subgraf, für den gilt, dass alle Knoten miteinander verbunden sind. – Probleme: • Berechnung, bzw. Bestimmung von Cliquen geht nicht besser, als alles durchzuprobieren. • Es sind selten wirklich alle Knoten miteinander verbunden – nicht jeder kennt jeden in einer Clique. Schärfer formuliert: Wir wollen auch Cliquen erfassen, die hierarchische Struktur aufweisen. • Webrings – sind communities, aber nur minimal miteinander verbunden! 14 2.2. Authorities und Hubs • • Ähnlich zu PageRank Es werden zwei Klassen von Knoten unterschieden: • Bei PageRank werden (vereinfacht) zuerst die Authority Gewichte, dann daraus die Hub Gewichte berechnet, rekursiv. Auf Suchanfragen angewandt, werden diejenigen top 10 Webseiten ausgegeben, die die hoechsten Authority Gewichte tragen – sie stellen dann den Kern der gesuchten Community dar Auch hier Webrings wieder problematisch • • 15 2.2.1. HITS Algorithmus • • Erweiterung des Hub- und Authoritybegriffs um Gewichtung der Kanten. Ausserdem soll nicht zu einer Suchanfrage nur eine C. gefunden werden, sondern alle vorh. Methode: – Gewicht der Kanten ist Ähnlichkeit zwischen den repräsentierten Dokumenten – Modifizierte Definition von C.: C = dichter, gerichteter in zwei Teile teilbarer Subgraf – Die ist ähnlich zu Bibliometrie, bei welcher Veröffentlichungen darüber verglichen werden, wie oft sie zusammen mit einer anderen zitiert worden sind. • Bsp: Fanseiten: Es entsteht ein Bipartiter Graf, bei dem es eine offizielle, sowie einige inoffizielle sehr bekannte Fanseiten gibt, sowie eine unzahl privater Webseiten zu diesem Thema 16 2.2.2. Weitere Algorithmen • Probleme allgemein bisher: – Annahme, dass ein Knoten immer nur in einer Community sein kann. Allerdings beinhalten einzelne Seiten Links zu unterschiedlichen Themen, bzw. Webseiten können Teil von mehreren Communities sein. • Typische Wissenschaftlerseite: Publikationen (Mathematik, Grafentheorie) Material für Studenten (Grundkurse Algorithmen usw.) Hobby (Schachspielen, Reiten) – Zentralistische Sichtweise: Alles dreht sich um authoritäten – echt demokratische Cs wie Webrings können auf diese Weise nicht erkannt werden. 17 2.2.3. Weitere Ansätze • Neuronale Netze: – Es wird davon ausgegangen, dass sich aktivität in “verknotungen” ansammeln müßte und diese sind dann communities. (allerdings ist Komplexität sehr hoch) • Min-cut: – An welcher Stelle kann ein (allerdings bereits vorher extrahierter) Graf geteilt werden, so dass möglichst wenige Kanten/Knoten gelöscht werden müssen und zerfallende Teile möglichst groß sind. • Ameisen: – Sog. Ameisen laufen von einem Startknoten zufällig los und manche kommen recht bald wieder, was auf zyklen schließen läßt -> Community. 18 2.3. Zu erfüllende Eigenschaften einer Communitydefinition • Strukturen: verschiedene Linkstrukturen sollten gleichberechtigt und auffindbar sein. Allerdings selten in der prototypischen Form anzutreffen – Zentralistische (Authority/Hubs) – Webringe – „demokratische“ Formen. • • • • • Mehrdeutigkeit: Ein Knoten in mehrere Communities Enthaltensein: Communities können Bestandteil von anderen, größeren Communities sein. Relationen: Es muss möglich sein, dass Communities untereinander in Beziehung stehen Kardinalität: Ein Knoten muß nicht Mitglied einer Community sein Natürlichkeit: Schließlich sollte eine bestimmte Definition einer Community immer noch dem intuitiven Begriff von Community entsprechen. 19 2.3.1. Eigenschaften von Algorithmen • Stabilität: Der Algorithmus sollte nicht bei unwesentlich veränderten Parametereinstellungen deutlich andere Ergebnisse liefern. • Laufzeit: Das Laufzeitverhalten sollte zwischen dem Linearen (wenn auch mit großer Konstante) und quadratischen Bereich liegen, da sonst bereits herkömmliche Clusteralgorithmen genommen werden könnten, deren Komplexität meist zwischen quadratischem und kubischem Bereich liegen. 20 3. Literatur – Small Worlds • • • • • • • A.L. Barabasi et al . Scale-free characteristics of random networks: the topology of the World-wide web, Physica A (281)70-77, 2000 R. Ferrer i Cancho, R. V. Solé (2001): The Small-World of Human Lan-guage http://www.santafe.edu/sfi/publications/ G. Heyer, U. Quasthoff, T. Wittig, C. Wolff. Learning Relations Using Collocations, A. Maedche, S. Staab, C. Nedellec and E. Hovy, (eds.), Proc. IJCAI Workshop on Ontology Learning, Seattle/ WA, 2001 J. Kleinberg. The small-world phenomenon: An algorithmic perspective. Proc. 32nd ACM Symposium on Theory of Computing, 2000 S. Milgram. The small world problem. Psychology Today 2, pp. 60-67, 1967. M. Steyvers, J. B. Tenenbaum. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth. M. Steyvers, J. B. Tenenbaum, Cognitive Science, 2002 Watts, D.J., S.H. Strogatz (1998): Collective dynamics of ‘small-world’ networks; Nature 393:440-442 21 3.1. Literatur - Communities • • • • • • • • • • • • Brin, S., Page, L. (1998): The anatomy of a large scale hypertextual web search engine. In Proceedings of WWW7, Brisbane, Australia. Chakrabarti, S., Dom, B., Gibson, D., Kumar, R., Raghavan, P., Rajagoplan, S., and Tomkins, A., (1998): Spectral filtering for resource discovery. In ACM SIGIR workshop on Hypertext Information Retrieval on the Web. Flake, G., W., Lawrence, S., Gilles, C., L., Coetzee, F., M. (2002): Self-organization and identification of web communities. IEEE Computer, pp. 66-71. Garey, M., R., & Johnson, D., S. (1979): Computers and Intractability, W.H. Freeman and Company. Gibson, D., Kleinberg, J., M., Raghavan, P., (1998): Inferring Web Communities from Link Topology. in Proceedings of the 9th ACM Conference on Hypertext and Hypermedia, Pittsburgh, Pennsylvania, pp. 225-234. Kleinberg, J., M. (1999): Authoritative sources in a hyperlinked environment. Journal of the ACM, vol. 46, no. 5, pp. 604-632, 1999 Kleinberg, J., M., Kumar, R., Raghavan, P., Rajagopalan, S., Tomkins, A., S. (1999): The web as a graph: Measurements, models and methods. Lecture Notes in Computer Science, vol. 1627, pp.1-18. Kumar, R., Raghavan, P., Rajagopalan, S. (1999): Trawling the Web for emerging cybercommunities. Computer Networks (Amsterdam, Netherlands), vol 31. no. 11-16, pp. 14811493. Matsumura, N.,Ohsawa, Y., Ishizuka, M. (2001): Future Directions of Communities on the Web. Page, L. (1997): PageRank: Bringing order to the Web. Stanford Digital Linraries working paper. Pirolli, P., Pitkow, J., Rao, R. (1996): Silk from a sow's ear: Extracting usable structures from the web. In Proc. ACM Conf. Human Factors in Computing Systems, CHI. ACM Press. Verbeurgt, K. (2003): Inferring Emergent Web Communities, SSGRR-2003W 22