Geschichte der Wissensrepräsentation
Transcrição
Geschichte der Wissensrepräsentation
Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft Wissensrepräsentation Wolfgang G. Stock HHU Düsseldorf – SS 2005 Wissensrepräsentation 1 Wissensrepräsentation Wissensrepräsentation – Was ist das? Wissen – Informationsinhalt – „Content“ Erschließen von Wissen Erschließen von Dokumenten genauer: Erschließen des Inhalts von Dokumenten HHU Düsseldorf – SS 2005 Wissensrepräsentation 2 Wissensrepräsentation ASPEKT 1 Aufbau von Werkzeugen der Wissensrepräsentation ASPEKT 2 Inhaltserschließung konkreter Dokumente z.B. Aufbau eines Klassifikationssystems Thesaurusaufbau Regelwerk für Abstracting z.B. Klassieren eines Buches nach dem Klassifikationssystem Indexieren nach dem Thesaurus Verfassen eines Abstracts HHU Düsseldorf – SS 2005 Wissensrepräsentation 3 Wissensrepräsentation • • • „Wissensrepräsentation“ : Abbildung von Wissen („Content“) vor allem in digitalen Systemen; Erschließung des Informationsinhalts Ziel: Wissen bei Bedarf (möglichst) exakt zu finden und in die aktuellen Arbeitsläufe einzubinden hierbei benötigt: – METHODEN der Wissensrepräsentation (wie Thesaurus, Klassifikation usw.) – und konkrete WERKZEUGE (etwa den StandardThesaurus Wirtschaft oder die IPC) – praktische Tätigkeit: INDEXIEREN HHU Düsseldorf – SS 2005 Wissensrepräsentation 4 Wissensrepräsentation • inhaltlich erschlossene Retrievalsysteme finden Einsatz als – Suchwerkzeug für das WWW oder für einen Ausschnitt daraus (derzeit kaum realisiert) – Suchwerkzeug bei kommerziellen Anbietern elektronischer Informationsdienste (nahezu durchgängig realisiert) – Suchwerkzeug bei unternehmensweiten Intranets oder „Enterprise Information Portals“ (derzeit in „Boomphase“ im Zusammenhang mit Knowledge Management) HHU Düsseldorf – SS 2005 Wissensrepräsentation 5 Wissens- repräsentation DE Treffer Dokumentationseinheiten DBE Informationsbedarf Frage Information Retrieval HHU Düsseldorf – SS 2005 Dok. Bezugseinheiten Vergleich der Begriffe Information Indexing Wissensrepräsentation 6 Wissensrepräsentation / Themen (1) Geschichte der Wissensrepräsentation Begriffe und Begriffsordnungen: Gegenstände, Begriffe, Synonyme, Homonyme, Definitionen, Begriffsordnungen, paradigmatische und syntagmatische Relationen, Mono- und Polyhierarchie, Dimensionalität, Facetten Dokumente und ihre Strukturierung: Dokumente: Texte und Objekte - Datenstrukturierung (Metadaten) - Datenbankdesign - formale Erfassung, inhaltliche Erschließung HHU Düsseldorf – SS 2005 Wissensrepräsentation 7 Wissensrepräsentation / Themen (2) Dokumentationssprachen I: Klassifikationssysteme Klasse und Notation, Universalklassifikationen (Bsp.: Dezimalklassifikation), Technikklassifikationen (Bsp.: Internationale Patentklassifikation), Wirtschaftsklassifikationen (Bsp.: Branchen- und Produktklassifikationen), Klassifikationen im WWW (Bsp.: Yahoo!), Medizinklassifikation (Bsp.: ICD-10) Dokumentationssprachen II: Schlagwortmethode Dokumentationssprachen III: Thesauri Thesauruserstellung nach DIN 1463, Deskriptoren und Relationen, multilinguale Thesauri, gleichordnendes Indexieren, syntaktisches Indexieren, „höhere“ Thesaurusformen Bsp.: Standard-Thesaurus Wirtschaft, Thesaurus Technik und Management, EXPO-INFO 2000 HHU Düsseldorf – SS 2005 Wissensrepräsentation 8 Wissensrepräsentation / Themen (3) Textsprachliche Methoden: Volltextspeicherung, Titelindexierung, Textwortmethode, Bsp.: Datenbank zur österreichischen Philosophie, Zitationsindexierung, Bsp.: Web of Science (ISI) Nicht-thematische Informationsfilter: Zielgruppe, Art der Themenbehandlung, Verfallsdatum Automatische Indexierung: Klassifikation nach Ähnlichkeit – zuteilende Indexierung bei Einsatz einer Dokumentationsmethode HHU Düsseldorf – SS 2005 Wissensrepräsentation 9 Wissensrepräsentation / Themen (4) Abstracts: Inhaltsangaben nach DIN 1426, indikative, informative, analytische Abstracts, Sammelreferate, automatisches Abstracting Informationsextraktion: Extraktionsmethoden, Informationsagenten Das semantische Web: Ontologien, Topic Maps Informationsfilter und –verdichter im Überblick: Informationsarchitektur, Zusammenfassung der Methoden der Wissensrepräsentation HHU Düsseldorf – SS 2005 Wissensrepräsentation 10 Wissensrepräsentation - Basisliteratur • • • • • • • • Rainer Kuhlen, Thomas Seeger, Dietmar Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation. – München: Saur, 52004. Donald B. Cleveland; Ana D.Cleveland: Introduction to Indexing and Abstracting. – Englewood, NJ: Libraries Unlimited, 1990. Heting Chu: Information Representation and Retrieval in the Digital Age. – Medford, NJ: Information Today, 2003. – (Chap. 1 – 4). Robert Fugmann: Inhaltserschließung durch Indexieren: Prinzipien und Praxis. – Frankfurt: DGD, 1999. Wilhelm Gaus: Dokumentations- und Ordnungslehre. – Berlin: Springer, 2002. Christa Ladewig: Grundlagen der inhaltlichen Erschließung. – Potsdam: Institut für Information und Dokumentation, 1997. F. Wilfrid Lancaster: Indexing and Abstracting in Theory and Practice. – Champaigne, IL.: Graduate School of Library and Information Science, 21998. Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens. - München; Wien: Oldenbourg, 2000. – (Kapitel 3). HHU Düsseldorf – SS 2005 Wissensrepräsentation 11 Geschichte der Wissensrepräsentation Geschichte der Wissensrepräsentation • • • • • • • • • • Aufstellordnungen in Bibliotheken (ab Antike) Abstracts (19. Jahrhundert) Wortschätze (19. Jahrhundert) Klassifikationssysteme (19. Jahrhundert) Thesauri (ca. 1950) Zitationsindexierung (ca. 1960) Textwortmethode (ca. 1970) automatische Indexierung mit kontrolliertem Vokabular (ca. 1990) Topic Maps und Ontologien (ca. 1990) semantisches Web (ca. 2010 – wenn überhaupt) Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2). Ingetraut Dahlberg: Grundlagen universaler Wissensordnung. – Pullach: Verl. Dokumentation, 1974. HHU Düsseldorf – SS 2005 Wissensrepräsentation 13 Geschichte der Wissensrepräsentation • • • • „Pinakes“ des Kallimachos von Kyrene (ca. 310 – 240 v.Chr.) systematischer Katalog der Bibliothek von Alexandria Systematik für rund 120.000 Schriftrollen Hauptklassen: – – – – – – – – – – – Rhetorik Recht Epik Tragödie Komödie Lyrik Geschichte Medizin Mathematik Naturwissenschaft Verschiedenes HHU Düsseldorf – SS 2005 Rudolf Blum: Kallimachos: The Alexandrian Library and the Origins of Bibliography. – Madison, Wisc.: Univ. of Wisconsin Press, 1991. Wissensrepräsentation 14 Geschichte der Wissensrepräsentation • Systematik der Buchaufstellung im Mittelalter: „Geheimwissenschaft“ Umberto Eco: Il nome della rosa. – Milano: Ed. Fabbri-Bompiani, 1980. Eco‘s „Labyrinth“ in „Der Name der Rose“ HHU Düsseldorf – SS 2005 Wissensrepräsentation 15 Geschichte der Wissensrepräsentation • • • • „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316) universelles Begriffssystem auf der Basis der Kombinatorik konzentrische Scheiben, jeweils mit zentralen Begriffen einer Kategorie Scheiben können gedreht werden, so dass Kombinationen der Begriffe entstehen Norbert Henrichs: Wissensmanagement auf Pergament und Schweinsleder. Die ars magna des Raimundus Lullus. – In: Josef Herget; Rainer Kuhlen (Hrsg.): Pragmatische Aspekte beim Entwurf und Betrieb von Informationssystemen, Konstanz: Universitätsverl. Konstanz, 1990, S. 567-573. HHU Düsseldorf – SS 2005 Wissensrepräsentation 16 Geschichte der Wissensrepräsentation • „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316) HHU Düsseldorf – SS 2005 Wissensrepräsentation 17 Geschichte der Wissensrepräsentation • • • • • • Frühe Zeitschriften als Medium der Wissensverdichtung „Journal des Scavans“: erste Zeitschrift, gegründet 1665 Aufgabe: zunächst Überblicksartikel, da das Wissen in Büchern zu umfangreich wurde später: Publikation von Forschungsberichten Aufschwung der Zeitschriftenliteratur Folge: auch das Wissen in Zeitschriften wurde zu umfangreich Manfred Bonitz: Notes on the development of secondary periodicals from the „Journal des Scavans“ to the „Pharmaceutisches Central-Blatt“. – In: International Forum on Information and Documentation 2 (1977) 1, S. 26-31. HHU Düsseldorf – SS 2005 Wissensrepräsentation 18 Geschichte • • • • Gründung von Referatezeitschriften „Geburt“ der Abstracts als Form der Wissensverdichtung 1830: Pharmaceutisches Central-Blatt; später: Chemisches Zentralblatt 1907: Chemical Abstracts HHU Düsseldorf – SS 2005 Wissensrepräsentation 19 Geschichte der Wissensrepräsentation • • • • • • • Thesaurus of English Words and Phrases (1852) Peter Mark Roget (1779 – 1869) Sekretär der „Royal Society“ - London Thesaurus kreiert: 1805; publiziert: 1852 System „of the ideas which are expressible by language“ – rund 15.000 Worte Klassen: – I: Abstract Relations – II: Space – III: Matter – IV: Intellectual Faculties Werner Hüllen: A History of Roget‘s Thesaurus – Origins, Development, and Design. – Oxford: Oxford Univ. Press, – V: Voluntary Powers 2003. Synonymwörterbuch HHU Düsseldorf – SS 2005 Wissensrepräsentation 20 Geschichte der Wissensrepräsentation • • • • • • Roget. Faksimile des ersten Eintrags (Skript zur ersten Auflage) „Existence“ CLASS I: WORDS EXPRESSING ABSTRACT RELATIONS SECTION I. EXISTENCE 1. BEING, IN THE ABSTRACT #1. Existence.-- N. existence, being, entity, ens[Lat], esse[Lat],subsistence. reality, actuality; positiveness c. adj.; fact, matter of fact, soberreality; truth c. 494; actual existence. presence c. (existence in space) 186; coexistence c. 120. stubborn fact, hard fact; ... HHU Düsseldorf – SS 2005 Wissensrepräsentation 21 Geschichte der Wissensrepräsentation • • • • • • DDC (Dewey Decimal Classification) – 1876 Melvil (Melville Louis Kossuth) Dewey (1851 – 1931) 1870: Student am Amherst College stud. Hilfskraft an der Bibliothek 1874: Abschluss in Bibliothekswesen Aufbau eines Klassifikationssystem für die Bibliothek des Amherst College Stephen Gordon; Judith Kramer-Greene: Melvil Dewey: The Man and the Classification. – Albany: Forest Press, 1983. Fremont Rider: American Library Pioneers VI: Melvil Dewey. – Chicago: American Library Association, 1972. Sarah Vahn: Melvin Dewey: His Enduring Presence in Librarianship. – Littletown: Libraries Unlimited, 1978. HHU Düsseldorf – SS 2005 Wissensrepräsentation 22 Geschichte der Wissensrepräsentation • • • • • DDC (Dewey Decimal Classification) – 1876 „A Classification and Subject Index for Cataloguing and Arranging the Books and Pamphlets of a Library“ (1876; anonym) 1876: Bibliothekar in Boston 1883: Bibliothekar am Columbia College (später: Direktor der New York State Library) 1890: Präsident der ALA (American Library Association) Bibliothek des Amherst College HHU Düsseldorf – SS 2005 Wissensrepräsentation 23 Geschichte der Wissensrepräsentation • • DDC. Grundidee: Notationen der Klassen als Dezimalzahlen – 000 Generalities – 100 Philosophy – 200 Religion – 300 Social Sciences – 400 Language – 500 Natural Sciences, Mathematics – 600 Technology (Applied Sciences) – 700 The Fine Arts – 800 Literature and Rhetoric – 900 Geography, History Die Grundidee erweist sich als sehr erfolgreich. HHU Düsseldorf – SS 2005 Wissensrepräsentation 24 Geschichte der Wissensrepräsentation • • • • DDC. Beispiel einer Katalogkarte Original von Dewey Class 207: Religion: Study and Teaching Book P: Princeton HHU Düsseldorf – SS 2005 Wissensrepräsentation 25 Geschichte der Wissensrepräsentation • Paul Otlet (1868 - 1944 ) und Henri La Fontaine (1854 – 1943) • (1) „Väter“ der Dokumentation • (2) Einführung der dezimalen Klassifikation in Europa • (3) Gründung eines internationalen Verbandes für Dokumentation W. Boyd Rayward: The Universe of Information. The Work of Paul Otlet for Documentation and International Organization. – Moscow: VINITI, 1975. Eric H.W. van Binsbergen: La philosophie de la Classification décimale universelle. – Liège: Centre de Lecture Publique, 1994. Georges Lorphèvre: Henri LaFontaine, 1854-1943 – Paul Otlet, 1868-1944. – In: Revue de la Documentation 21 (1954) 3, 89-103. Hervé Hasquin: Henri la Fontaine – un Prix Nobel de la Paix: tracé(s) d‘une vie. – Mons: Mundaneum, 2002. HHU Düsseldorf – SS 2005 Wissensrepräsentation 26 Geschichte der Wissensrepräsentation • Henri La Fontaine • • • • • • geb. 1854 in Brüssel Prof. für Internationales Recht Mitglied des belgischen Senats Friedensbewegung (u.a. Präsident des „International Peace Bureau“) 1895: Gründung des „Institut International de Bibliographie“ (mit Otlet) Friedensnobelpreis 1913 HHU Düsseldorf – SS 2005 Wissensrepräsentation 27 Geschichte der Wissensrepräsentation • Paul Otlet • • • • • HHU Düsseldorf – SS 2005 geb. 1868 in Brüssel 1895: Gründung des „Institut International de Bibliographie“ (mit La Fontaine) ab 90er Jahre: Reorganisation und (französische) Übersetzung von Deweys Dezimalklassifikation 1904-1907: Erste komplette Ausgabe der „Classification Décimale Universelle“ – CDU („Universal Decimal Classification“ – UDC bzw. „Dezimalklassifikation“ DK) DK: Haupttafel (wie DDC) und „Anhängezahlen“ Wissensrepräsentation 28 Geschichte der Wissensrepräsentation • Paul Otlet • • (mit La Fontaine): ab 1919 in Brüssel: Plan eines Zentrums für das gesamte Weltwissen – systematisch geordnet als Weltbibliographie: „Mundaneum“ (Plan scheiterte – Mundaneum heute Museum in Mons) 1934: „Traité de documentation“ . – Bruxelles: Ed. Mundaneum. (Grundlagenwerk der Dokumentation) www.mundaneum.be HHU Düsseldorf – SS 2005 Wissensrepräsentation 29 Geschichte der Wissensrepräsentation • FID • • • • 1895: Institut International de Bibliographie (von Otlet und La Fontaine in Brüssel gegründet) ab 1895: Publikation einzelner DKTafeln 1931: Institut International de Documentation 1986: Fédération Internationale d‘Information et de Documentation Sonderstempel der österreichischen Post – FID (heute in Den Haag) www.fid.nl Cent ans de l‘Office International de Bibliographie: 1895 – 1995. – Mons: Ed. Mundaneum, 1995. HHU Düsseldorf – SS 2005 Wissensrepräsentation 30 Geschichte der Wissensrepräsentation • Shiyali Ramamrita Ranganathan (1892 – 1972) Facettenklassifikation • • • • zunächst Bibliothekar (in Madras), danach Professor für Bibliothekswissenschaft (in Varanasi und Delhi), später Leiter des „Documentation Research and Training Centre“ (Bangalore) Kritik der DDC / DK: zu starr Einsatz von Facetten: „Colon Classification“ (1933) syntaktisches Indexieren mittels Ketten: „Headings and Canons“ (1955) Eugene Garfield: A tribute to S.R.Ranganathan. Part 1: Life and works. – In: Eugene Garfield: Essays of an Information Scientist. Vol. 7. – Philadelphia, PA: ISI Press, 1984, 37-44. HHU Düsseldorf – SS 2005 Wissensrepräsentation 31 Geschichte der Wissensrepräsentation • Shiyali Ramamrita Ranganathan (1892 – 1972) Facettenklassifikation • • fünf Grundfacetten (PMEST) – Wer? – Personalität (Trennzeichen: , ) – Was? – Material ( ; ) – Wie? – Energie ( : „colon“) – Wo? – Raum ( . ) – Wann? – Zeit ( ' ) – zusätzlich: Disziplin Beispiel: L,45;421:6;253:f.44‘N5 Medizin , Lunge ; (Tuberkulose : Behandlung) ; (Röntgenstrahlen : Forschung) . Indien ' 2004 HHU Düsseldorf – SS 2005 Wissensrepräsentation 32 Geschichte der Wissensrepräsentation • Thesauri: DAS Vorbild MeSH • • • • Medical Subject Headings (MeSH) erstellt von der National Library of Medicine (USA) entworfen ab ca. 1954 (Vorläufer ab ca. 1940) publiziert mit dem neuen „Index Medicus“ 1960 Carolyn E. Lipscomb: Medical Subject Headings (MeSH). – In: Bulletin of the Medical Library Association 88 (2000), 265-266. W.D.Miles: A History of the National Library of Medicine. – Bethesda, MD: U.S. Dept. of Health and Human Services, 1982. HHU Düsseldorf – SS 2005 Wissensrepräsentation 33 Geschichte der Wissensrepräsentation • MeSH • • • • • • • • • kontrolliertes Vokabular Relationen zwischen den Begriffen alphabetische Ordnung der Worte systematische Ordnung der Begriffe syntaktisches Indexieren durch Aspekte („subheadings“) möglich gewichtete Indexierung im Zwei-Klassen-Verfahren Thesaurus wird als dynamische Liste der Begriffe verstanden. Änderungen sind jederzeit möglich 1960: Start des Projektes MEDLARS (Medical Literature Analysis and Retrieval System) unter Einsatz von Computern auch MeSH wird mittels EDVA gepflegt HHU Düsseldorf – SS 2005 Wissensrepräsentation 34 Geschichte der Wissensrepräsentation Fokus-Deskriptor mit Subheading Deskriptor mit Subheading Fokus-Deskriptor HHU Düsseldorf – SS 2005 Wissensrepräsentation 35 Geschichte der Wissensrepräsentation • Thesauri • • • • • erweisen sich im Laufe der 60er Jahre (und später) als erfolgreich eine Periode der Zweiteilung der Methoden der Wissensrepräsentation beginnt: (1) Klassifikationssysteme: Einsatz vor allem in Bibliotheken; Einsatz ohne Zuhilfenahme der EDV (2) Thesauri: Einsatz vor allem bei fachlichen Datenbanken; EDV-Einsatz zusätzlich: Suche nach alternativen Ansätzen I.Lerch: Das Dokumentationshilfsmittel Thesaurus. – In: Bibliothek. Forschung und Praxis 6 (1982), 47-73. N. Roberts: Historical studies in documentation: The pre-history of the information retrieval thesaurus. – In: Journal of Documentation 40 (1984), 271-285. HHU Düsseldorf – SS 2005 Wissensrepräsentation 36 Geschichte der Wissensrepräsentation • Zitationsindexierung • Eugene Garfield (1925 - ) • • • • ab 1951: Mitarbeit bei der Medizindokumentation Kritik an MeSH: Indexierung ist zu langsam; Vokabular ist zu starr; Indexierung fremdsprachiger Artikel problematisch Entdeckung der wissenschaftlichen Fußnote als Hilfsmittel der Wissensrepräsentation 1958: Gründung des Institute for Scientific Information (ISI) Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. - Eugene Garfield; Wolfgang G. Stock: Citation Consciousness (Interview mit Garfield). – In: Password Nr. 6 (2002), 22-25. HHU Düsseldorf – SS 2005 Wissensrepräsentation 37 Geschichte der Wissensrepräsentation • Titelindexierung • Hans Peter Luhn (1896 – 1964) • • • • • geb. 1896 in Barmen; ab 1924 in den USA; ab 1941 bei IBM Extraktion von Stichworten aus den Sachtiteln der Dokumente 1958: Keyword in Context: KWIC „Entdeckung“ des Leerzeichens Stoppworte Claire K.Schultz: H.P.Luhn: Pioneer of Information Science – Selected Works. – London: Macmillan, 1968. HHU Düsseldorf – SS 2005 Wissensrepräsentation 38 Geschichte der Wissensrepräsentation • Textwortmethode • Norbert Henrichs (1935 - ) • wörterbuchunabhängige Dokumentationsmethode • entwickelt an der Forschungsabteilung für philosophische Information und Dokumentation der Universität Düsseldorf • ab ca. 1967 Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969), 122-131. HHU Düsseldorf – SS 2005 Wissensrepräsentation 39 Geschichte der Wissensrepräsentation • Erste Online-Informationsanbieter („Hosts“) • Entwicklungen in den 60er und frühen 70er Jahren • • • • • DIALOG (maßgeblich: Roger Summit); online: 1972 ORBIT (Carlos Cuadra); online: 1972 (heute: Questel-Orbit) Mead Data Central (Richard Giering); online: 1973 (heute: LexisNexis) BRS (Jan Edgeland; Linda Palmer; Ron Quake); online: 1977 (heute: Ovid Technologies) Methoden und Werkzeuge der Wissensrepräsentation müssen online-tauglich werden. Charles P. Bourne; Trudi Bellardo Hahn: A History of Online Information Services, 1963-1976. – Cambridge, Mass.; London: MIT Press, 2003. HHU Düsseldorf – SS 2005 Wissensrepräsentation 40 Geschichte der Wissensrepräsentation • • • • • 1989: Einführung der automatischen Indexierung beim Einsatz einer Dokumentationssprache bei Reuters Ltd. London eingesetzt wird CONSTRUE – TIS (Categorization of News STories Rapidly, Uniformly, and Extensible – Topic Identification System) CONSTRUE-TIS: Entwicklung bei der Carnegie Group in Pittsburgh arbeitet mit einer Zuverlässigkeit von 90% gegenüber menschlichen Indexern (zumindest nach eigenen Aussagen) Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66. HHU Düsseldorf – SS 2005 Wissensrepräsentation 41 Geschichte der Wissensrepräsentation • • • • • Tim Berners-Lee (1955 - ) Sir Timothy John Berners-Lee geb. 1955 in London ab 1984: Mitarbeiter beim CERN Entwicklung des WWW August 1991: erste Webseite (CERN) 1994: Gründung des World Wide Web Consortiums (Laboratory for Computer Science / MIT) seit 90er Jahre: Bemühungen um das semantische Web T.Berners-Lee; R.Cailliau; A.Luotonen; H.F.Nielsen; A.Secret: The World Wide Web. – In: Communications of the ACM 37 (1994) 8, 76-82. Tim Berners-Lee; Mark Fischetti: Weaving the Web. – San Francisco: Harper, 1999. HHU Düsseldorf – SS 2005 Wissensrepräsentation 42 Geschichte der Wissensrepräsentation • Winfried Gödert • der Experte für Wissensrepräsentation im deutschsprachigen Raum Leiter des Labors für bibliographisches Information Retrieval der FH Köln bibliographische Datenbank zur Inhaltserschließung Linkliste zu Klassifikationssystemen und Thesauri im WWW dt. Übersetzung der DDC • • • • Winfried Gödert: Einführung in Probleme und Methoden der inhaltlichen Dokumenterschließung. – Köln: FH Köln, 1997. – [Begleitmaterial zu Lehrveranstaltungen]. Datenbank: www.fbi.fh-koeln.de/institut/labor/bir/suche.htm Linkliste: www.fbi.fh-koeln.de/institut/labor/bir/thesauri_new/index.htm HHU Düsseldorf – SS 2005 Wissensrepräsentation 43 Begriffe und Begriffsordnungen Begriffe und Begriffsordnungen Begriffe / Begriffsordnungen Grundlegende Literatur • • • • • • DIN 2330: Begriffe und Benennungen DIN 2331: Begriffssysteme und ihre Darstellung ISO 704:2000: Terminology Work – Principles and Methods Albert Menne: Einführung in die Methodologie. – Darmstadt: Wissenschaftliche Buchgesellschaft, 1980. Tadeusz Pawlowski: Begriffsbildung und Definition. – Berlin / New York: de Gruyter, 1980 Ingetraut Dahlberg: Die gegenstandsbezogene, analytische Begriffstheorie und ihre Definitionsarten. – In: Beiträge zur Begriffsanalyse. – Mannheim [u.a.]: BI Wissenschaftsverl., 1987, 9-22. HHU Düsseldorf – SS 2005 Wissensrepräsentation 45 Begriffe und Begriffsordnungen GEGENSTAND • Gegenstand: “alles, was uns entgegensteht”, “etwas als etwas erkennen” • Gegenstände im Rahmen der “Gegenstandstheorie” (Alexius Meinong): Gegenstand Objekt Sachverhalt psychischer Akt Empfindung / Phantasie Urteil / Annahme Erlebnis Vorstellen Denken Alexius Meinng: Über Gegenstandstheorie. – In: A.Meinong (Hrsg.): Untersuchungen zur Gegenstandstheorie und Psychologie. – Leipzig: Barth, 1904, 1-50. HHU Düsseldorf – SS 2005 Wissensrepräsentation 46 Begriffe und Begriffsordnungen GEGENSTAND einer dokumentarischen Bezugseinheit (DBE) • Empfindungsobjekt: Information über reale Gegenstände (Bsp.: Baker Street in London) • Phantasieobjekt: Information über fiktive Gegenstände (Bsp.: Sherlock Holmes Wohnung in der Baker Street) • Urteilssachverhalt: Information über Tatsachenaussagen (im Rahmen einer Theorie für wahr angesehene Aussage) • Annahmesachverhalt: Information über hypothetische Aussagen (im Rahmen einer Theorie für plausibel angesehene Aussage, deren Wahrheit offen ist) OBJEKTE in DBE werden in DE durch Begriffe, SACHVERHALTE der DBE werden in DE durch Sätze beschrieben. HHU Düsseldorf – SS 2005 Wissensrepräsentation 47 Begriffe und Begriffsordnungen BEGRIFF • • Ein Begriff ist die Zusammenfassung gewisser Objekte unter eine Klasse. Begriffsbestimmung – extensional (Begriffsumfang; Aufzählung der Elemente der Klasse). M =df {x1, x2, ...., xi, ...} Bsp.: „Deutsche Bundesländer“ =df {NordrheinWestfalen, Bayern, ..., Berlin} – intensional (Begriffsinhalt; Angabe der klassenbildenden Merkmale). M =df ∀x. f(x) u f‘(x) u f‘‘(x) ... Bsp.: „Deutsche Bundesländer“ =df „ist ein Bundesland“ u „liegt in der Bundesrepublik Deutschland“ HHU Düsseldorf – SS 2005 Wissensrepräsentation 48 Begriffe und Begriffsordnungen BEGRIFF Merkmale Objekt(e) Benennung(en) z.B. Wort HHU Düsseldorf – SS 2005 Begriff (Klasse) Wissensrepräsentation 49 Begriffe und Begriffsordnungen „Wirklichkeit“ Begriffe und Begriffsordnungen (andere) Zeichen BEGRIFF Merkmale Objekt(e) Benennung(en) z.B. Wort HHU Düsseldorf – SS 2004 HHU Düsseldorf – SS 2005 Begriff (Klasse) Wissensrepräsentation Nutzer Wissensrepräsentation 48 50 Begriffe und Begriffsordnungen BEGRIFF • SYNTAKTIK. Struktur der Benennung; Beziehungen der Benennung (Zeichen) zu anderen Zeichen • SEMANTIK: Beziehungen zwischen Benennung (Zeichen) und Objekt (bzw. Vorstellungsinhalt) • PRAGMATIK: Beziehungen zwischen Benennung (Zeichen) und Zeichenbenutzer Was heißt das? BAPHA HHU Düsseldorf – SS 2005 Wissensrepräsentation 51 Begriffe und Begriffsordnungen BEGRIFF • Begriffsarten – Individualbegriff (Klasse hat genau ein Element) – Benennung: (Eigen-)Name Bsp.: Karl Marx; Sherlock Holmes; Bayessches Theorem, 2. Hauptsatz der Thermodynamik – Allgemeinbegriff (Klasse hat mehrere Elemente) Bsp.: Stuhl, Zahl, Studentin der Informationswissenschaft, NaCl – Kategorie (Begriff allgemeinster Art) Bsp.: Person, Materie, Energie, Raum, Zeit (à la Ranganathan) oder: Branche, Raum, Aspekt (im Kontext der Wirtschaft) HHU Düsseldorf – SS 2005 Wissensrepräsentation 52 Begriffe und Begriffsordnungen EXAKTHEIT von Begriffen • • exakter Begriff: Klassengrenze ist genau bestimmbar vager Begriff: Klassengrenze ist - an den „Rändern“ - nicht genau bestimmbar, „fuzzy“) Beispiel: Stuhl-Museum von Max Black Max Black: Vagueness. An exercise in logical analysis. – In: Philosophy of Science 4 (1937), 425-455. SELBSTÄNDIGKEIT von Begriffen • • kategorematischer Begriff: Begriff steht für sich allein synkategorematischer Begriff: Begriff kann in einem Kontext nicht allein stehen Beispiel: Zigarette 10 - 12 HHU Düsseldorf – SS 2005 ... mit Filter Wissensrepräsentation 53 Begriffe und Begriffsordnungen • • • • • • Wort: (nicht unbedingt eindeutiger) sprachlicher Ausdruck eines Begriffs Synonym: Begriff, der durch mehrere Worte ausgedrückt werden kann (Beispiel: Samstag, Sonnabend) Homonym: Wort, das mehrere unterschiedliche Begriffe ausdrückt, wobei die Worte unterschiedlichen Ursprüngen entstammen (Beispiel: kosten [„schmecken“ - althochdt. koston], kosten [„wert sein“ - altfrz. coster]) Homophon: Homonym im Laut (Beispiel: Leere – Lehre) Polysem: Wort, das mehrere unterschiedliche Begriffe ausdrückt, wobei die Worte einen gleichen Ursprung haben (Beispiel: Knie [Gelenk am Körper], Knie [Werkstück]) Der Unterschied zwischen Homonym und Polysem ist nicht immer klar; in der Informationswissenschaft werden die hierdurch entstehenden Probleme gemeinsam behandelt. HHU Düsseldorf – SS 2005 Wissensrepräsentation 54 Begriffe und Begriffsordnungen STICHWORT - SCHLAGWORT • • • • • Stichwort: Wort, das faktisch in einer dokumentarischen Bezugseinheit vorkommt („token“: konkrete Realisierung eines Wortes, eines „types“) Lexem: grammatikalische Grundform eines Wortes Beispiel: ... den Kühen ... ; Lexem: Kuh Wortstamm: entsteht durch Präfix- oder Suffixabtrennung Beispiel: ... retrieved ...; Stamm: retriev Schlagwort: Wort (in Grundform), das einer dokumentarischen Bezugseinheit zugeordnet wird Thema: Objekt, das in einer dokumentarischen Bezugseinheit abgehandelt wird; „das, worüber es geht“; Repräsentation eines Thema in einer Dokumentationseinheit: durch Stich- oder Schlagworte HHU Düsseldorf – SS 2005 Wissensrepräsentation 55 Begriffe und Begriffsordnungen DEFINITION • (1) Definition als Abkürzung. Definiendum =df Definiens Beispiele: M =df 1.000 Erpel =df männliche Ente • (2) Deutungsvorschrift von Kalkülen. Deutung bzw. Interpretation von Zeichen Beispiel: p ---> ( q v ~q) w w w w f w w f w w f w w w f f w f w w Deutung: p, q Aussagevariablen; w, f Wahrheitswerte ~ Negation; --> Implikation; v Disjunktion HHU Düsseldorf – SS 2005 Wissensrepräsentation 56 Begriffe und Begriffsordnungen • • • • (3) Begriffserklärung Begriff =df Teilbegriff1 + Teilbegriff2 + ... Begriffssynthese: ausgehend von Teilbegriffen Begriffsanalyse: ausgehend vom Begriff “Klassische” Variante: Definition durch genus und differentia – genus: Artbegriff – differentia: “wesenskonstitutiver” Unterschied – accidens: zufällige Eigenschaft (darf nicht verwendet werden) Beispiel “Homo est animal rationale”: Mensch =df Lebewesen + vernunftbegabt nicht: Mensch =df Lebewesen + Haarfarbe nicht blond Begriffserklärungen eignen sich besonders gut für hierarchische Begriffsordnungen (Klassifikation oder Thesaurus) HHU Düsseldorf – SS 2005 Wissensrepräsentation 57 Begriffe und Begriffsordnungen • • • (4) Zeichenerklärung (Nominaldefinition) Feststellung der Bedeutung eines Begriffes in einem bestimmten Kontext. Aussage mit (zu begründendem) Wahrheitsanspruch. Beispiele: “Metaphysik” bei Aristoteles “Steuererhöhung” bei der Bundesregierung “Armut” in der empirischen Sozialforschung (5) Sacherklärung (Realdefinition) Feststellung der Bedeutung eines Begriffes durch das “Wesen” seines Gegenstandes. Aussage mit (zu begründendem) Wahrheitsanspruch. Beispiel: Artikel „Geschirrspülmaschine“ im Brockhaus Zeichen- und Sacherklärungen kommen typisch in enzyklopädischen Wörterbüchern vor. HHU Düsseldorf – SS 2005 Wissensrepräsentation 58 Begriffe und Begriffsordnungen • • (6) Explikation Übernahme (ggf. ungenauer) Alltagsbegriffe in die Wissenschaftssprache, dabei Präzisierung Bedingungen: – wissenschaftliche Nützlichkeit – Präzision – Ähnlichkeit mit dem Ausgangsbegriff – Einfachheit Beispiel: Alltagsbegriff: Arbeit Physik: Arbeit =df Kraft * Weg * Winkel Soziologie: Arbeit =df auf ein wirtschaftliches Ziel gerichtete, planmäßige menschliche Tätigkeit HHU Düsseldorf – SS 2005 Wissensrepräsentation 59 Begriffe und Begriffsordnungen • (7) Definition von Bedeutungsfamilien Einige Begriffe können nicht über eine Konjunktion von Merkmalen definiert werden, die für alle gelten; vielmehr liegen unterschiedliche Teilmengen vor (Ludwig Wittgenstein: “Familienähnlichkeit”) Beispiel: Gemüse =df Wurzel- und Knollengemüse, Blattund Stielgemüse, Fruchtgemüse, Kohlgemüse • (8) Persuasive Definition Begriffsbildung mit emotionalen Einstellungen (gefühlsmäßigen Assoziationen) Beispiele: rein (Waschmittelwerbung; positive Einstellung) Jude (Nazi-Deutschland; negative Einstellung) HHU Düsseldorf – SS 2005 Wissensrepräsentation 60 Begriffe und Begriffsordnungen • Im Überblick: Definitionsarten • • • • • • • • (1) Definition als Abkürzung (2) Deutungsvorschrift eines Kalküls (3) Begriffserklärung (4) Nominaldefinition (5) Realdefinition (6) Explikation (7) Bedeutungsfamilien (8) persuasive Definition HHU Düsseldorf – SS 2005 • Definitionen in Systemen der Wissensrepräsentation: • • jeder in einer Dokumentationssprache verwendete Begriff sollte in Extension und Intension klar und deutlich sein für hierarchische Systeme eignen sich besonders Begriffserklärungen und Definitionen mit Bedeutungsfamilien Wissensrepräsentation 61 Begriffe und Begriffsordnungen Ordnung • • • • Gesamt einer Menge M von Objekten x, y, ... und einer Menge von Relationen ρ zwischen den Objekten O = M, ρ Bei Begriffsordnungen sind die Objekte Begriffe und die Relationen Beziehungen zwischen Begriffen Es gibt zweistellige Relationen (Bsp.: ρ = „x ist Oberbegriff von y“) und mehrstellige Relationen (Bsp.: ρ = „heilt x [jemanden] mittels y [Arznei] von z [Krankheit]“) Relationen sind reflexiv (irreflexiv), symmetrisch (asymmetrisch) bzw. transitiv (intransitiv) R - S - T HHU Düsseldorf – SS 2005 Wissensrepräsentation 62 Begriffe und Begriffsordnungen RST (bei zweistelligen Relationen) • • • • • • Reflexivität: x ρ x (Bsp.: „ist identisch mit“) Irreflexivität: -(x ρ x) (Bsp.: „ist Ursache von“) Symmetrie: x ρ y Æ y ρ x (Bsp.: „ist gleich“) Asymmetrie: x ρ y Æ -(y ρ x) (Bsp.: „liebt unglücklich)“ Transitivität: [(x ρ y) u (y ρ z)] Æ (x ρ z) (Bsp.: „ist größer als“) Intransitivität: [(x ρ y) u (y ρ z)] Æ -(x ρ z) (Bsp.: „ist ähnlich mit“) Allgemeine Relationen in Begriffsordnungen • • • • Äquivalenz: x ist äquivalent y Unterbegriff*: x ist Unterbegriff von y Oberbegriff*: x ist Oberbegriff von y verwandter Begriff: x ist mit y verwandt (R (-R (-R (-R - S -S -S S - T) T) T) -T) * (Abstraktionsrelation) HHU Düsseldorf – SS 2005 Wissensrepräsentation 63 Begriffe und Begriffsordnungen Relationen in Begriffssystemen g e B s f f ri A er t i le Topterm B C Hierarchierelation D Begriffs- E -reihe F Polyhierarchie G Assoziationsrelation HHU Düsseldorf – SS 2005 H I Bottomterms Wissensrepräsentation 64 Begriffe und Begriffsordnungen Terminologische Kontrolle • • • • • durch Zusammenfassung bestimmter Bezeichnungen zu einem Begriff (Synonyme, Akronyme, Quasi-Synonyme) mittels Äquivalenzrelation durch Trennung homonymer Bezeichnungen zu unterschiedlichen Begriffen ggf. durch Zerlegung („Zerlegungskontrolle“) wenn möglich; stets wenn nötig: Definition Arten terminologischer Kontrolle: – mit Vorzugsbenennungen (gearbeitet wird ausschließlich mit der Vorzugsbenennung; von den äquivalenten Bezeichnungen wird verwiesen) – ohne Vorzugsbenennungen (alle äquivalenten Bezeichnungen sind zugelassen; in der Datenbank werden sie zu einem Begriff zusammengefasst) HHU Düsseldorf – SS 2005 Wissensrepräsentation 65 Begriffe und Begriffsordnungen Relationen • Hierarchierelation (Begriffsleiter: Oberbegriff - Unterbegriff, Begriffsreihe: Begriffe in gleicher hierarchischen Ebene) – Abstraktionsrelation (logische Sicht) • Ein Unterbegriff im Sinne der Abstraktionsrelation hat alle Merkmale des Ausgangsbegriffs, dazu aber mindestens ein weiteres (Bsp.: Vogel - Singvogel) • stets transitiv – Bestandsrelation (gegenständliche Sicht: Meronyme [Teil einer Ganzheit]; Holonyme [Ganzheit von Teilen]) • Ein Unterbegriff im Sinne der Bestandsrelation drückt einen Teil des Ausgangsbegriffs aus (Bsp.: Vogel - Kralle) • Geographika sind i.d.R. Begriffe in Bestandsrelation (Bsp.: Deutschland - Nordrhein-Westfalen - Regierungsbezirk Köln – Rhein-Erft-Kreis - Kerpen - Kerpen-Sindorf) • zwei Varianten: (a) transitiv – (b) intransitiv HHU Düsseldorf – SS 2005 Wissensrepräsentation 66 Begriffe und Begriffsordnungen Bestandsrelation / Meronymie Variante 1: transitiv (z.B. Geographica) • Deutschland D NRW Variante 2: nicht transitiv • – Es gibt Bäume im Wald; aber auch welche außerhalb von Wäldern. HHU Düsseldorf – SS 2005 Wald Wissensrepräsentation Baum Rinde 67 Begriffe und Begriffsordnungen Relationen • • • • Element-Klasse-Relation für Individualbegriffe „... ist ein(e) ...“: x ist ein M M =df {x1, x2, ...., xi, ...}, wobei xi Namen von Individualbegriffen sind Beispiele: – {G.Schröder, J.Fischer, H.Eichel, P.Struck, ...} ist ein Mitglied der derzeitigen Bundesregierung – {G.Schröder, H.Eichel, P.Struck, R.Scharping, ...} ist ein Mitglied der SPD – Persil ist ein Waschmittel – Donald Duck ist ein Bewohner Entenhausens HHU Düsseldorf – SS 2005 Wissensrepräsentation 68 Begriffe und Begriffsordnungen Relationen • weitere Relationen – Antonymie-Relation (Gegensätze) – Ähnlichkeitsrelation – Nachfolgerelation (Vorgänger - Nachfolger) – Kausalrelation (Ursache - Wirkung) • Nützlichkeitsrelation • Schädlichkeitsrelation genetische Relation (Produzent - Produkt) Herstellungsrelation (Material - Produkt) Transmissionsrelation (Sender - Empfänger) instrumentelle Relation (Werkzeug - Anwendung des Werkzeugs) – funktionelle Relation (Argument - Funktion) – usw. – – – – HHU Düsseldorf – SS 2005 Wissensrepräsentation 69 Begriffe und Begriffsordnungen • Präkombinationsgrad (bei Begriffen mit mehreren Komponenten) - Zerlegungskontrolle – Präkombination: Kombination mehrerer Begriffe zu genau einen [zusammengesetzten] Begriff in der Begriffsordnung (Bsp.: Mädchenhandelsschule) – Präkoordination: Kombination der Begriffe, die in der Begriffsordnung vorkommen, durch Verkettung beim Information Indexing (Bsp.: Mädchen + Handelsschule bzw. Mädchenhandel + Schule) – macht der Indexer – Postkoordination: Kombination der Begriffe erst beim Information Retrieval (Bsp.: Mädchen UND Handelsschule bzw. Mädchenhandel UND Schule) – macht der Recherchierende HHU Düsseldorf – SS 2005 Wissensrepräsentation 70 Begriffe und Begriffsordnungen Monohierarchie: jeder Begriff hat entweder keinen oder genau einen Oberbegriff Obstbaum Kernobstbaum Apfelbaum Birnbaum Steinobstbaum Kirschbaum Pfirsichbaum Margarete Burkart: Dokumentationssprachen. – In: Grundlagen der praktischen Information und Dokumentation. – München [u.a.]: Saur, 31990, 143-182. HHU Düsseldorf – SS 2005 Wissensrepräsentation 71 Begriffe und Begriffsordnungen Polyhierarchie: ein Begriff kann mehrere Oberbegriffe haben Holzwirtschaft Obstbaum Kernobstbaum Apfelbaum HHU Düsseldorf – SS 2005 Nutzholz Birnbaum Wissensrepräsentation Buche 72 Begriffe und Begriffsordnungen Dimensionalität: Anzahl der Dimensionen der klassenbildenden Merkmale bei der Bildung von Unterbegriffen – monodimensional (nur genau eine Dimension zugelassen). Bsp.: Obstbaum » Kernobstbaum » Steinobstbaum Klassenbildung durch die Dimension: Beschaffenheit des Samens – polydimensional (mehrere Dimensionen zugelassen) Bsp.: Obstbaum » Kernobstbaum » Steinobstbaum » hochstämmiger Obstbaum » niederstämmiger Obstbaum Klassenbildung durch die zwei Dimensionen: Beschaffenheit des Samens und: Größe des Stammes HHU Düsseldorf – SS 2005 Wissensrepräsentation 73 Begriffe und Begriffsordnungen Auflösung der Polydimensionalität • • aus einer polydimensionalen Ordnung soll eine monodimensionale gebildet werden schafft eine übersichtliche und logische Struktur Bsp.: Obstbaum • Obstbaum nach Samenbeschaffenheit – Steinobstbaum – Kernobstbaum Stützbegriff • Obstbaum nach Stammgröße – hochstämmiger Obstbaum – niederstämmiger Obstbaum • • bei der Auflösung der Polydimensionalität werden „Zwischenbegriffe“ bzw. „Stützbegriffe“ kreiert sehr wahrscheinlich gibt es keine DBE über solche Stützbegriffe HHU Düsseldorf – SS 2005 Wissensrepräsentation 74 Begriffe und Begriffsordnungen Facettierte Begriffsordnung • Mehrere unterschiedliche Begriffsordnungen innerhalb eines Systems, aufgeteilt nach Kategorien Bsp.: drei Facetten (Obstbäume): Kategorie 1: Kategorie 2: Kategorie 3: Frucht Stammgröße Erntezeit Apfel hoch früh Birne nieder spät Bsp.: vier Facetten (Wirtschaftsnachrichten / Factiva): • • • • Branche Region Aspekt Unternehmen HHU Düsseldorf – SS 2005 Wissensrepräsentation 75 Begriffe und Begriffsordnungen Begriffsordnung und natürliche Sprache • unabhängig von natürlicher Sprache: Verwendung eines eigenen Vokabulars aus Ziffern und Buchstaben Bsp.: 291.213.4 (in der Dezimalklassifikation: Bezeichnung für „Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten“) Bsp.: H05B-3/00 (in der Internationalen Patentklassifikation: Bezeichnung für „elektrische Heizung / Widerstandsheizung“) • sprachabhängig (Verwendung von national- bzw. fachsprachigen Bezeichnungen) HHU Düsseldorf – SS 2005 Wissensrepräsentation 76 Begriffe und Begriffsordnungen • Paradigmatische Relation • • • Syntagmatische Relation • „fest verdrahtete“ Begriffe durch Relationen in Begriffsordnungen Bsp.: Obstbaum sei Oberbegriff zu Kernobstbaum • Begriffe, deren Beziehung dadurch zustande kommt, dass sie gemeinsam in DE auftreten Bsp.: Eine DE enthalte: Obstbaum, Bauer, Steiermark Obstbaum Obstbaum paradigmatische Relation Kernobstbaum HHU Düsseldorf – SS 2005 syntagmatische Relation Steiermark Wissensrepräsentation 77 Begriffe und Begriffsordnungen Paradigmatische und syntagmatische Relation Singvögel Meisen Blaumeisen füttern ihre Jungen füttern ihre Jungen mit füttern ihre Jungen mit paradigmatisch „fest verdrahtet“ hier: Hierarchierelation HHU Düsseldorf – SS 2005 Insekten grünen Raupen syntagmatisch „im konkreten Kontext“ Wissensrepräsentation 78 Dokumente und ihre Strukturierung Dokumente und ihre Strukturierung Was ist ein Dokument? • • • „Dokumentation“ (d.h. die Repräsentation des Wissens durch Indexieren oder Referieren) kommt von „Dokument“ klar: (gedruckter) Text ist „Dokument“ aber: Objekte als Dokumente? (Ansatz von Suzanne Briet) Gegenstand Stern am Himmel Foto des Sterns Stein in einem Fluss Stein in einem Museum Tier in der Wildnis Tier im Zoo Dokument? nein ja nein ja nein ja Michael K. Buckland: What is a document? – In: Journal of the American Society for Information Science 48 (1997), 804-809. HHU Düsseldorf – SS 2005 Wissensrepräsentation 80 Dokumente und ihre Strukturierung Was ist ein Dokument? Kriterien: • • • • 1. Materialität (physikalisch, einschließlich digital) 2. Intentionalität (trägt Sinn bzw. Bedeutung) 3. Erarbeitung (wird geschaffen) 4. Wahrnehmung (wird als Dokument bezeichnet) Dokument • • • (A) Text (B) (nicht-textuelles) Objekt alle Dokumentformen werden sprachlich indexiert HHU Düsseldorf – SS 2005 Wissensrepräsentation 81 Dokumente und ihre Strukturierung • (A 1) Publikationen Bücher (wissenschaftliche) Artikel Zeitungsartikel, Agenturmeldungen Gesetze, Erlasse Urteile Normen Patente, Gebrauchsmuster, Geschmacksmuster, Marken – Hochschulschriften – Noten – Kartenwerke – – – – – – – HHU Düsseldorf – SS 2005 Wissensrepräsentation 82 Dokumente und ihre Strukturierung • (A 2) andere, nicht (formal) publizierte Texte – digitale Dokumente im Internet (Sonderform: Wikis – kooperativ geprüft) – Akten – andere Archivmaterialien (z.B. Nachlässe) HHU Düsseldorf – SS 2005 Wissensrepräsentation 83 Dokumente und ihre Strukturierung • (B 1) WTM-Fakten (Wissenschaft / Technik / Medizin) – – – – – Stoffe und ihre Eigenschaften Krankheiten und ihre Symptome Patienten (Krankenakten) demographische Daten statistische Daten HHU Düsseldorf – SS 2005 Wissensrepräsentation 84 Dokumente und ihre Strukturierung • (B 2) Wirtschaft – Branchen – Unternehmen – Produkte HHU Düsseldorf – SS 2005 Wissensrepräsentation 85 Dokumente und ihre Strukturierung • (B 3) audiovisuelle Dokumente – Bilder – Filme / Filmsequenzen • Sonderform: generische Sequenzen HHU Düsseldorf – SS 2005 Wissensrepräsentation 86 Dokumente und ihre Strukturierung • (B 3) audiovisuelle Dokumente – Ton (Schall) • Musik • gesprochene Sprache („Wortarchiv“) • Geräusche • (B 4) multimediale Dokumente (Mischformen) HHU Düsseldorf – SS 2005 Wissensrepräsentation 87 Dokumente und ihre Strukturierung • (B 5) Museumsdokumente – archäologische Funde – Kunstwerke – kulturgeschichtliche Gegenstände HHU Düsseldorf – SS 2005 Wissensrepräsentation 88 Dokumente und ihre Strukturierung • Die Einheit der Dokumente (Texte – Objekte): Dokumentarische Bezugseinheit (DBE) stets gleichbleibende Einheit der Vorlagen, die in einen Informationsspeicher aufgenommen werden, hierbei ggf. analytische „Zerlegung“ der Vorlagen Beispiele: Buch (als Ganzes) Buchkapitel dto. Abbildung; Tabelle Zeitschrift (als Ganzes) Artikel Korrespondenz einzelner Brief Film Filmsequenz Münzsammlung HHU Düsseldorf – SS 2005 - einzelne Münze Wissensrepräsentation 89 Dokumente und ihre Strukturierung • Was wird in die Datenbank aufgenommen? Dokumentationswürdigkeit Kriterienkatalog, der die Entscheidung fundiert, ob eine bestimmte DBE in den Informationsspeicher aufgenommen wird oder nicht Grundaspekte: – Relevanz des Dokuments – Informationsbedarf der Nutzer – bisheriger Stand der Datenbank Spezifische Aspekte: – thematische Kriterien – formale Kriterien (Bsp.: nur wissenschaftliche Artikel; nur HTML-Dateien) – Finanzrahmen - Personalressourcen - Zeit – ggf.: Neuigkeit – ggf.: kritische Prüfung des Inhalts HHU Düsseldorf – SS 2005 Wissensrepräsentation 90 Dokumente und ihre Strukturierung • Datenstrukturierung: • Identifikation kleinster Beschreibungseinheiten für bestimmte Typen von dokumentarischen Bezugseinheiten (DBE) Bsp.: wissenschaftlicher Aufsatz. FELDER: • • • • Autor(en) Sachtitel Zeitschriftentitel Jahrgang Meta• Seitenzahl daten • Themen usw. HHU Düsseldorf – SS 2005 • Dokumentstrukturierung: • Zerlegung eines bestimmten Types von dokumentarischen Bezugseinheiten (DBE) - auch - im Sinne von Markup-Sprachen Bsp.: wissenschaftlicher Aufsatz. STRUKTUR: Sachtitel Autor(en) Titel des 1. Abschnitts Text des 1. Abschnitts: Problemstellung • darin: Fußnote(n) • Titel des 2. Abschnitts • Text des 2. Abschnitts: Methodik usw. • • • • Strukturdaten Wissensrepräsentation 91 Dokumente und ihre Strukturierung Dokumentstrukturierung (bei digitalen Dokumenten) – Beschreibung einer Dokumentstruktur innerhalb des Dokuments mittels einer besonderen Sprache (Markup Language, Seitenbeschreibungssprache) – für Textverarbeitung und -publikation (seit 1986): Standardized Generalized Markup Language (SGML). Umfassendes Konzept einer Markup-Sprache – für Beschreibung verlinkter Dokumente (seit 1989): Hypertext Markup Language (HTML). Eingeschränkte Sprache (ohne Möglichkeit zur wissensabbildenden Dokumentstrukturierung), dafür aber für Hypertextstrukturen anwendbar – Seitenbeschreibung und Hypertext: eXtensible Markup Language (XML). Bündelung der Vorteile von SGML und HTML. „Industriestandard“. Wissensrepräsentation möglich. HHU Düsseldorf – SS 2005 Wissensrepräsentation 92 Dokumente und ihre Strukturierung • Datenstrukturierung / Definition der Metadaten: Vorgehen • • • 1. Datenbankdesign: Feldschema 2. Zusammenspiel der Datenbanken (falls mehrere) 3. Beschreibung der Felder – Suchfelder (möglichst kontrolliertes Vokabular) – Anzeigefelder • • 4. Regelwerk (konkrete Anweisungen für jedes Feld) 5. (ggf.) Nutzung von Hilfsmitteln (z.B. Normlisten von Ländernamen oder Thesauri) HHU Düsseldorf – SS 2005 Wissensrepräsentation 93 Dokumente und ihre Strukturierung Datenstrukturierung • Datenbankdesign: Beschreibung des Dokuments in einem Feldschema, dabei Festlegung von Merkmalen für jedes Feld – – – – – – – – Feldname Kurzbezeichnung Schlüsselfeld (ja, nein) Anzahl Werte (ein Wert, mehrere Werte: Subfelder) Typ der Feldwerte (alphanumerisch, Formel, Datum, Betrag, Text, ganze Zahl, ...) Normdaten ggf.: Feldlänge Index (ja, nein) • Wortindex • Phrasenindex HHU Düsseldorf – SS 2005 Jahrgang YR nein genau 1 Wert ganze Zahl ja 4 Stellen ja ja nein Wissensrepräsentation 94 Dokumente und ihre Strukturierung • • • • Zusammenspiel der Datenbanken Beispiel: Kunstwerke Categories for the Descriptions of Works of Art (CDWA) Getty Standards Program Categories for the Descriptions of Works of Art. www.getty.edu/research/conducting_research/standards/cdwa/index.html HHU Düsseldorf – SS 2005 Wissensrepräsentation 95 Dokumente und ihre Strukturierung • Feldsschema. Beispiel: Kunstwerke HHU Düsseldorf – SS 2005 Wissensrepräsentation 96 Dokumente und ihre Strukturierung • Feldbeschreibung. Beispiel: Feld: Abmessungen - Subfeld: Dimensionen HHU Düsseldorf – SS 2005 Wissensrepräsentation 97 Dokumente und ihre Strukturierung • Feldschema. Beispiel: Wissenschaftliche Literatur HHU Düsseldorf – SS 2005 Wissensrepräsentation 98 Dokumente und ihre Strukturierung Ansicht einer Webseite Metadaten in „Meta Tags“ Beispiel: Webseite HHU Düsseldorf – SS 2005 Wissensrepräsentation 99 Dokumente und ihre Strukturierung Metadaten formalbibliographische Metadaten inhaltsbezogene Metadaten formale Erfassung Inhaltserschließung HHU Düsseldorf – SS 2005 Wissensrepräsentation 100 Dokumente und ihre Strukturierung Metadaten: Formale Erfassung • • • • • Abbildung nicht inhaltsbezogener Informationen der dokumentarischen Bezugseinheit auf die Erfassungsfelder einer Datenbank für jedes Feld werden Erfassungsregeln definiert soweit möglich: für jedes Feld werden Normdaten gesammelt Regelwerk für formale Erfassung von Bibliotheksmaterialen: AACR (Anglo-American Cataloging Rules) (mit Sonderregeln für audiovisuelle Materialien, Musikalien, Karten und unselbständig erschienener Werke) für die Erfassung von Internet-Dokumenten werden die Dublin-Core-Elements diskutiert HHU Düsseldorf – SS 2005 Wissensrepräsentation 101 Dokumente und ihre Strukturierung Formale Erfassung / Regelwerk / Normdaten Beispiel: ... wenn man versucht, ohne auszukommen Register: Henzinger M Henzinger Monika Henzinger Monika R Henzinger Monika Rauch Henzinger Monika R. Henzinger, M Henzinger, Monika Henzinger, Monika R Henzinger, Monika Rauch Henzinger, Monika R. Monika Henzinger Monika R Henzinger Monika Rauch Henzinger Monika Rauch-Henzinger Monika R. Henzinger Rauch Henzinger Monika Rauch Henzinger, Monika Rauch-Henzinger Monika Rauch-Henzinger, Monika HHU Düsseldorf – SS 2005 Wissensrepräsentation 102 Dokumente und ihre Strukturierung Formale Erfassung / Regelwerk / Normdaten • mit Regel: bei Personennamen Ansetzung: Nachname Komma Leerzeichen Vorname (ausgeschrieben) Leerzeichen zweiter Vorname oder Mittelname (nur erster Buchstabe mit Punkt) • Beispiel: Register: Henzinger, Monika R. Rauch, Monika • • mit Normdaten: je Person ein Datensatz Name in Normform: Henzinger, Monika R. Geburtsdatum: tt.mm.jjjj Zusatzinformationen: ehemalige Forschungsleiterin Google Verweis: Rauch, Monika Beispiel: Register: Henzinger, Monika R. HHU Düsseldorf – SS 2005 Wissensrepräsentation 103 Dokumente und ihre Strukturierung Formale Erfassung / Regelwerk / Normdaten. Beispiele: Gertrud von Le Fort Ernst Aus‘m Weerth Julia Rauh-von der Schule Jean de la Fontaine Louis de Broglie Louis de Rouvroy Duc de Saint-Simon Ali ibn Haduga Lola Réz (verh.: Kosáry) Anton der Kinderen Anton Du Perron Andrej N. Rimskij-Korsakov Constance Lytton (Tochter eines Dukes) HHU Düsseldorf – SS 2005 Le Fort, Gertrud von (dt.) Aus‘m Weerth, Ernst (dt.) Rauh-von der Schule, Julia (dt.) La Fontaine, Jean de (fr.) Broglie, Louis de (fr.) Saint-Simon, Louis de Rouvroy Duc de (fr.) Ibn Haduga, Ali (arab.) Kosáryné-Réz, Lola (ungar.) Kinderen, Anton der (nl.) Du Perron, Anton (nl.) Rimskij-Korsakov, Andrej Nikolajevich (russ.) Lytton, Lady Constance (engl. UK) Wissensrepräsentation 104 Dokumente und ihre Strukturierung Formale Erfassung • Ansetzung der Namen von Körperschaften – Beispiel „untergeordnete Körperschaft“: Referat Frauenpolitik der SPD. Ansetzungsform: Sozialdemokratische Partei Deutschlands / Referat Frauenpolitik – Beispiel „selbständige Körperschaft“: ifo Institut, München. Ansetzungsform: ifo Institut für Wirtschaftsforschung e.V. <München> – Beispiel „Gebietskörperschaft“: Kongeriget Danmark. Ansetzungsform: Danmark. Bsp.: Polizeidirektion Bonn. Ansetzungsform: Nordrhein-Westfalen / Polizeidirektion <Bonn> • bei nicht-lateinischen Schriften: Transliteration (etwa nach: ISO) – Beispiel: BAPHA (bulg.). Transliteration: Varna • bei allen Ansetzungen: Verweise von möglichen Varianten auf die Normansetzung Uta Krischker: Formale Analyse (Erfassung) von Dokumenten. – In: Grundlagen der praktischen Information und Dokumentation. – München [u.a.]: Saur, 31990, 63-89. HHU Düsseldorf – SS 2005 Wissensrepräsentation 105 Dokumente und ihre Strukturierung Formale Erfassung. • Erfassung von Webseiten • „Dublin Core Elements“ Feldname (Version 1.0) – Titel title – Autor/Urheber creator – Thema/Schlagwörter subject (vorgeschlagen: kontrolliertes Vokabular oder Klassifikation) – Inhaltsbeschreibung description (Abstract bzw. Beschreibung nicht-textueller Dokumente) – Herausgeber/Verlag publisher – anderer Beteiligter contributor (etwa: Illustrator, Übersetzer) – Datum (in der Form: yyyy-mm-dd) date – Dokumenttyp resource type (etwa: Homepage, Arbeitspapier, Gedicht, Foto) HHU Düsseldorf – SS 2005 Wissensrepräsentation 106 Dokumente und ihre Strukturierung • „Dublin Core Elements“ (2) Feldname (Version 1.0) – Datenformat format (Dateityp, ggf. Dateigröße) – Identifikation der Ressource identifier (URL [uniform resource locator], DOI [digital object identifier], ...) – Quelle source – Sprache language – Beziehungen relation – thematische Abdeckung coverage (räumliche und zeitliche Charakteristika des Inhalts) – Rechte rights (Vermerk über Rechteinhaber) • Bisher konnten sich die „Dublin Core Elements“ im WWW [noch?] nicht durchsetzen. HHU Düsseldorf – SS 2005 Wissensrepräsentation 107 Dokumente und ihre Strukturierung • Metadaten: Inhaltserschließung • • Abbildung inhaltsbezogener Informationen der dokumentarischen Bezugseinheit auf die Erschließungsfelder einer Datenbank Inhaltserschließung geschieht durch INDEXIEREN und REFERIEREN – Indexieren ist die Abbildung der Themen (ggf. der Themenkomplexe) durch Begriffe (Ursprung des Wortes: Buchindex) – Referieren ist die Abbildung der thematisierten Sachverhalte durch (wenige) Sätze • • Inhaltserschließung geschieht entweder automatisch oder intellektuell (oder Mischform) Inhaltserschließung macht von eigenen Methoden und von spezifischen Werkzeugen Gebrauch. HHU Düsseldorf – SS 2005 Wissensrepräsentation 108 Dokumente und ihre Strukturierung Inhaltserschließung Funktion 1: Informationsfilter Funktion 2: Informationsverdichtung Indexieren Referieren Optimales Suchen und Finden von Dokumenten HHU Düsseldorf – SS 2005 Wissensrepräsentation 109 Dokumentationssprachen I: Klassifikationssysteme (Taxonomien) Klassifikationssysteme Klassifikation - Grundlegende Literatur • • • • • • Brian Buchanan: Bibliothekarische Klassifikationstheorie. – München: Saur, 1989. DIN 32705: Klassifikationssysteme Konrad Umlauf: Einführung in die bibliothekarische Klassifikationstheorie und –praxis. – Berlin: HU / Inst. f. Bibl.wiss., 1999. (www.ib.hu-berlin.de/~kumlau/handreichungen/h67/). Advances in Classification Research. Proceedings of the xxth ASIS&T SIG/CR Workshop. – Medford: Information Today (derzeit Bd. 13, 2004). Hans-Jürgen Manecke: Klassifikation, Klassieren. – In: Grundlagen der praktischen Information und Dokumentation. – München: Saur, 52004, 127-140. Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2). HHU Düsseldorf – SS 2005 Wissensrepräsentation 111 Klassifikationssysteme Klassifikation ist ein Hilfsmittel zur ORDNUNG von Gegenständen oder von Wissen über Gegenstände – praktische Aufgabe: Ordnen von Gegenständen (in einem Lager, im Supermarkt, im Küchenschrank, ...) – informationswissenschaftliche und -praktische Aufgabe: Anordnen, Bei-, Neben- und Einordnen, Einteilen, Gruppieren, Unterordnen, Zusammenordnen, Zuordnen von Wissen – wissenschaftliche Aufgabe: angemessene Darstellung von Wissenseinheiten (z.B. Taxonomie in der Biologie: „Systema naturae“ von Carl von Linné, oder Physik: Periodensystem der Elemente) – erkenntnisvermittelnde Aufgabe: Aufhellung von Zusammenhängen anhand geordneten Wissens HHU Düsseldorf – SS 2005 Wissensrepräsentation 112 Klassifikationssysteme Grundbegriffe • • • • • • • Klasse: (intensional oder extensional) definierter Gegenstand (Allgemein- oder Individualbegriff) Klassifizieren: Erstellen eines Klassifikationssystems; Bilden von Klassen Klassieren: Einordnen von DBE in Klassen Notation: nicht-natürlichsprachiges Wort als Name einer Klasse Bezeichnungen: natürlichsprachige Übersetzungen einer Notation Die Erstellung und Weiterentwicklung von Klassifikationssystemen ist in Deutschland normiert. DIN 32705. Klassifikationssysteme (1987) HHU Düsseldorf – SS 2005 Wissensrepräsentation 113 Klassifikationssysteme Notationsformen • strukturabbildend hierarchische Notation (Notation bildet Hierarchierelation ab). Bsp.: Klasse A: Notation: 1 Klasse B: Notation: 11 Klasse D: Notation: 111 Klasse C: Notation: 15 • A r ite e l s i ff r g B Be Topterm C Hierarchierelation sequentielle Notation. Bsp.: Klasse A: Notation: 1 Klasse B: Notation: 3 Klasse D: Notation: 8 Klasse C: Notation: 5 • Relationen in Begriffssystemen D Begriffs- E -reihe F Polyhierarchie G Assoziationsrelation H I Bottomterms hierarchisch-sequentielle Notation - Mischform (Notation auf gewissen Hierarchieebenen hierarchisch, sonst sequentiell) HHU Düsseldorf – SS 2005 Wissensrepräsentation 114 Klassifikationssysteme • Vorteil der Notation: international einsetzbar Beispiel: vacuum cleaner Staubsauger dammsugaren aspirateur aspiratore di polvere aspirador de polvo odkurzacz DK 648.525 • Nachteil der Notation: mnemotechnisch nicht beherrschbar HHU Düsseldorf – SS 2005 Wissensrepräsentation 115 Klassifikationssysteme • • • • Präkombinationsgrad der Begriffe: i.d.R. hoch (präkombinierte Begriffe bevorzugt). Bsp.: „Witterungsabläufe in Mittelgebirgslagen subtropischer Zonen“ als 1 Klasse i.d.R. monohierarchisch (ohne Unterscheidung nach Abstraktionsund Bestandsrelation); zusätzlich: (Quasi-)Synonyme; Assoziationsrelation sehr eingeschränkt häufig: neben einer Basiskategorie weitere spezielle Kategorien (als „Anhängezahlen“, „Ergänzungszahlen“ oder „Indexcodes“) Klassifikationssystem: – (1) Lexikon: systematische Tafeln, ggf. Hilfstafeln (jeweils Notationen und Bezeichnung/en); hierzu: Register (mit Synonymen) – (2) Grammatik: spezielle Zeichen, Regeln für den Umgang mit den Zeichen – (3) Hinweise: u.a. Anmerkungen, Querverweise oder Vorrangregeln HHU Düsseldorf – SS 2005 Wissensrepräsentation 116 Klassifikationssysteme • Grundlegende Regeln: – ein Objekt - eine Klasse – damit: ein Objekt - eine Notation – eine Notation - mehrere Bezeichnungen (Fremdsprachen, Akronyme, Synonyme) – jede Bezeichnung sollte für sich selbst sprechen (u.U. definierende Zusätze anbringen) – Einstieg für Nutzer über Systematik (Notationen) und Bezeichnungen (möglichst in unterschiedlichen natürlichen Sprachen) gewährleisten – homonyme Bezeichnungen in die einzelnen Objekte überführen und auf unterschiedliche Klassen verweisen – i.d.R. monodimensional (polydimensional nur in Ausnahmefällen) – Polyhierarchie schlecht oder gar nicht ausdrückbar HHU Düsseldorf – SS 2005 Wissensrepräsentation 117 Klassifikationssysteme Klassifikationstypen nach Einsatzgebieten – Universalklassifikationen • zur Ordnung von Beständen (sprachlich wie fachlich) universal ausgerichteter Informationseinrichtungen (z.B. Universitätsbibliotheken) • als Zugangshilfe zu Dokumenten im World Wide Web – Klassifikationen gewerblicher Schutzrechte – Wirtschaftsklassifikationen • Branchenklassifikationen (auch zum Zwecke amtlicher Statistik) • Produktklassifikationen – Geographische Klassifikationen – Medizinische Klassifikationen HHU Düsseldorf – SS 2005 Wissensrepräsentation 118 Klassifikationssysteme Universalklassifikationen • • • • • • Dewey Decimal Classification (DDC) - von Melvil Dewey 1876 erstmals eingeführt DK: Dezimalklassifikation (DK / UDC / CDU) - auf der unser Basis der DDC von Paul Otlet und Henri LaFontaine 1. Beispiel um 1900 entwickelt Colon Classification (CC) - facettierte Klassifikation von S.R.Ranganathan (1. Aufl. 1933) Allgemeine Systematik für Öffentliche Bibliotheken (ASB) - als Aufstellordnung in ÖBs (seit 1956) verwendet Yahoo! unser Yahoo! - Klassifikation 2. Beispiel Open Directory Project (ODP) - Systeme zur Klassierung von Websites HHU Düsseldorf – SS 2005 Wissensrepräsentation 119 Klassifikationssysteme Dezimalklassifikation (DK) • Haupttafel / Aufbau: – 0 Allgemeines – 1 Philosophie, Psychologie – 2 Religion, Theologie – 3 Sozialwissenschaften – 4 [derzeit frei] – 5 Mathematik, Naturwissenschaften – 6 Angewandte Wissenschaften, Medizin, Technik – 7 Kunst, Musik, Sport, Spiele – 8 Literaturwissenschaft, Sprachwissenschaft – 9 Geographie, Biographien, Geschichte I.C.McIlwaine: The Universal Decimal Classification: Guide to its Use. – The Hague: UDC Consortium, 2000. Karl Fill: Einführung in das Wesen der Dezimalklassifikation. - Berlin, Köln: Beuth Verl., 1981. Online: www.udcc.org/ (Ausschnitte aus der DK) HHU Düsseldorf – SS 2005 Wissensrepräsentation 120 Klassifikationssysteme Dezimalklassifikation (DK) - Notationsbeispiel 1 2 Religion, Theologie 29 Nichtchristliche Religionen 291 Allgemeine und vergleichende Religionswissenschaft 291.2 Religiöse Lehren. Dogmen 291.21 Gottheiten. Gegenstand der Religion. Verehrung der Gottheiten. Göttersagen. Funktionen der Götter. Götterund Geisterwelten 291.213 Verehrung von Menschen, Halbgöttern, Helden, Heiligen, Herrschern (Apotheose) 291.213.4 Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten HHU Düsseldorf – SS 2005 Wissensrepräsentation 121 Klassifikationssysteme Dezimalklassifikation (DK) - Notationsbeispiel 2 669 Metallurgie. Metalle und Legierungen 669.1 Eisenhüttenkunde. Eisen und Stahl 669.16 Herstellung von Roheisen 669.162 Roheisenerzeugung. Erste Schmelzung 669.162.2 Hochöfen 669.162.26 Betrieb von Hochöfen 669.162.266 Hochofenabstich 669.162.266.2 Roheisenabstich 669.162.266.23 Abstechen in Gießbetten und Herstellen der Masselbetten 669.162.266.232 Abstechen in Gießbetten 669.162.266.232.6 Abstechen in Gießmaschinen 669.162.266.232.64 in Gießmaschinen mit endlosen Bändern synkategorematischer Begriff; wird erst mit nächsthöherer Ebene vollständig. HHU Düsseldorf – SS 2005 Wissensrepräsentation 122 Klassifikationssysteme • Neben den Systematischen Tafeln hat die DK für spezielle Kategorien Ergänzungstafeln • Allgemeine Ergänzungszahlen KATEGORIE – Sprache – Form – Ort – Zeit – Materialien – Personen Besondere Ergänzungszahlen – Kennzeichnungen – Aspekte u.a. – Synthese • HHU Düsseldorf – SS 2005 SYMBOL =... (0...) (1/... bis 9/...) „...“ -03 -05 (-...) (.0...) (’...) Wissensrepräsentation 123 Klassifikationssysteme • Allgemeine Ergänzungszahlen der Sprache (Beispiele) – =00 mehrsprachig – =20 englisch – =30 deutsch – =392 friesisch – =393 niederländisch – =393.2 flämisch – =393.6 afrikaans – =40 französisch – =490 provenzalisch – =499 katalanisch – =50 italienisch – =60 spanisch HHU Düsseldorf – SS 2005 • Allgemeine Ergänzungszahlen der Zeit (Beispiele) – „-“ vorchristliche Zeit – „+“ christliche Zeit – „04/14“ Mittelalter – „15/19“ Neuzeit – „32“ Jahreszeiten – „321“ Frühling – „322“ Sommer – ... – „36“ Zeit in Sicht der Not – „362“ Friedenszeit – „364“ Kriegszeit Wissensrepräsentation 124 Klassifikationssysteme • Besondere Ergänzungszahlen (Aspekte) im Bereich DK 7 (Beispiele) – 7.061 Fälschungen – 7.07 Arten der Beschäftigung mit Kunst – 7.071 Künstler – 7.072 Kunstwissenschaft – 7.073 Kunstliebhaber – 7.075 Kunsthändler – 7.078 öffentliche Förderung der Kunst HHU Düsseldorf – SS 2005 • Systematische Tafel im Bereich DK 7 (Ausschnitt) – 737.1 – 738.5 – 739.8 • Münzen Mosaik Nippes Kombination Systematik-Notation und besondere Ergänzungszahl – 737.1.061 Fälschungen von Münzen – 738.5.061 Fälschungen von Mosaiken – 739.8.075 Händler von Nippes Wissensrepräsentation 125 Klassifikationssysteme DK-Register • • • • enthält in einer natürlichen Sprache alle Benennungen der Notationen aus den systematischen Tafeln und aus den Ergänzungstafeln enthält Synonyme und Quasi-Synonyme der Benennungen Assoziationsrelation („siehe auch“) Notation aus systematischer Tafel unterscheidet Homonyme bzw. Polyseme Ausschnittbeispiele: Deutschland (Geographie) --- (Geschichte) --- (Ortsanhängezahl) Dock ... siehe auch Trockendocks Pinakothek siehe Gemäldegalerien Schlangen (Zoologie) Schlangen (Tierzucht) HHU Düsseldorf – SS 2005 914.3 943 (43) Notation aus Ergänzungstafel Assoziationsrelation Synonym 598.12 636.98 Wissensrepräsentation Homonymkontrolle 126 Klassifikationssysteme Mehrere Klassen verbinden (syntaktisches Indexieren) – (1.) Beziehung. Symbol: : Beispiel: Lichtbrechung von Rubinen Rubin 549.517.1 Lichtbrechung 535.323 also: 549.517.1:535.323 – (2.) Beiordnung. Symbol: + Beispiel: Mathematik und Physik Mathematik 51 Physik 53 also: 51+53 HHU Düsseldorf – SS 2005 – (3.) gerichtete Beziehung Symbol: :: Beispiel: Verkehrsmedizin Verkehr 656 Medizin 61 also: 61::656 – (4.) Erstreckung (von-bis) Symbol: / Beispiel: der Gesamtbereich Biologie, Botanik, Zoologie Biologie 57 Botanik 58 Zoologie 59 also: 57/59 Wissensrepräsentation 127 Klassifikationssysteme • • • (5.) Kombination einer DKZahl der Haupttafel mit einer allgemeinen Ergänzungszahl Zahl aus Haupttafel [Zeichen für Typ der Ergänzungszahl] Ergänzungszahl Beispiel: Prostitution in Deutschland Prostitution 176.5 Zeichen für Ort (...) allgemeine Ergänzungszahl Deutschland 43 also: 176.5(43) HHU Düsseldorf – SS 2005 • (6.) Kombination einer DK-Zahl der Haupttafel mit einer speziellen Ergänzungszahl Zahl aus Haupttafel [Zeichen für Typ der Ergänzungszahl] Ergänzungszahl für markierten Bereich Beispiel: Fälschungen von Mosaiken (siehe oben!) Mosaik 738.5 Zeichen Ergänzungszahl .0 ... spezielle Ergänzungszahl Fälschungen 61 (darf im Bereich 7 eingesetzt werden) also: 738.5.061 Wissensrepräsentation 128 Klassifikationssysteme Fallbeispiel: DK-Suche beim Katalog der ETH Zürich: Index Suchargument HHU Düsseldorf – SS 2005 Wissensrepräsentation 129 Klassifikationssysteme DK-Suche beim Katalog der ETH Zürich: Katalogkarte HHU Düsseldorf – SS 2005 Wissensrepräsentation 130 Klassifikationssysteme Yahoo! • Gründer und derzeitige CEOs: Jerry Yang und David Filo • entstanden 1993 aus einem Verzeichnis von Bookmarks • Yahoo: (unsympathische) Wesen aus „Gullivers Reisen“; Akronym für „yet another hierarchical officious oracle“ oder auch schlicht Ausruf HHU Düsseldorf – SS 2005 Wissensrepräsentation 131 Klassifikationssysteme @: Wechsel der Begriffsleiter (unechte) Polyhierarchie Polydimensionale Ordnung HHU Düsseldorf – SS 2005 Wissensrepräsentation 132 Klassifikationssysteme Zuordnung einer Website zu mehreren Klassen HHU Düsseldorf – SS 2005 Wissensrepräsentation 133 Klassifikationssysteme 88mal Frauen als Benennung für unterschiedliche Klassen Klassenbezeichnungen bei Yahoo! sind synkategorematisch. HHU Düsseldorf – SS 2005 Wissensrepräsentation 134 Yahoo ! - Baumstruktur (Ausschnitt / fingiertes Beispiel: Suche nach: „The Game of Go“) - Patent US 5991756 Yahoo's Main Menu 1 Recreation 16 Restaurants 2 Games 9 Boating „Game$“ 20 Food To Go „Go$“ 3 Board Games 21 Joe's Pizza To Go 4 Go 7 Chess 22 "To Go" Delivery Services 5 URL 6 URL HHU Düsseldorf – SS 2005 8 Tournaments Wissensrepräsentation Kein direkter Treffer 135 Klassifikationssysteme Yahoo! Suchalgorithmus • bei Phrase: Anzeige der direkten Treffer (Categories [d.h.: Klassenbenennungen], Sites, News) • sonst: Elimination von Stoppwörtern • automatische Rechtsfragmentierung (stets: SUCHTERM*) • bei genau 1 Suchwort sowie bei mit ODER verknüpften Suchwörtern: Anzeige der direkten Treffer • bei mehreren mit UND verknüpften Suchwörtern: • 1. Anzeige der direkten Treffer • 2. Anzeige der indirekten Treffer (min. 1 Suchwort direkter Treffer, anderes Suchwort Unterbegriff eines direkten Treffers) Aufhebung der Probleme mit den Synkategoremata Jiong Wu: Information Retrieval from Hierarchical Compound Documents / Yahoo Inc. – Patent US 5991756 vom 23.11.1999. – Mechtild Stock; Wolfgang G. Stock: Recherchieren im Internet. – Renningen: expert-verl., 2004, Kap. 2. HHU Düsseldorf – SS 2005 Wissensrepräsentation 136 1 2 3 4 5 6 7 8 9 Dokumentenspeicher 9 8 8 6 8 ... ... 1 2 3 4 4 3 7 1 Recreation Games Board Games Go Title / URL Title / URL Chess Tournements Boating Desc. Fun Cat. Desc. Cat. Desc. Cat. Desc. Cat. Desc. Site Desc. Site Desc. Cat. Desc. Contests Cat. Desc. Sailing Cat. Anfrage Dokument ... Game: 2, 3, Null Gamele: 10,12, Null Gander: 39, 67, 102, Null ... Go: 4, 20, 21, 22, ... Gobble: 82, 102, Null ... The: Ignore Trefferliste Suchmaschine Anfrage The Game of Go HHU Düsseldorf – SS 2005 Wortindex Dok. 1 2 3 4 5 6 Ausgabeliste xxx xxx xxx xxx xxx xxx Zeit Intervall der "Kinder" 00/00/0000 2-9 00/00/0000 3-8 00/00/0000 4-8 00/00/0000 5-6 00/00/0000 ∅ 10 00/00/0000 5 ∅ Gewichtung Wissensrepräsentation Struktur der Indices bei Yahoo! Patent US 5991756 137 Klassifikationssysteme Klassifikation gewerblicher Schutzrechte • Patente und Gebrauchsmuster: – Internationale Patentklassifikation (IPC) – ECLA • unsere Beispiele Marken: – Wiener Klassifikation der figürlichen Darstellungen – Nizza Klassifikation der Waren • Geschmacksmuster: – Locarno Klassifikation der Waren • alle Klassifikationen gewerblicher Schutzrechte werden von der World Intellectual Property Organization (WIPO) in Genf gepflegt Online: classifications.wipo.int HHU Düsseldorf – SS 2005 Wissensrepräsentation 138 Klassifikationssysteme Internationale Patentklassifikation / International Patent Classification (IPC) • • • • nach dem Straßburger Abkommen über die IPC (1971; in Kraft getreten 1975) einheitliche Klassierung aller Patentschriften weltweit neben den Patentämtern halten sich alle Datenbankproduzenten beim Indexieren an die IPC Gegenstandsbereich: alles, was patentiert werden kann, d.h. alle technischen Gegenstände (Anm.: Dieser Bereich kann sich von Zeit zu Zeit wandeln; z.Z. etwa bei den Softwarepatenten) derzeit (7.Aufl.) rund 69.000 Klassen HHU Düsseldorf – SS 2005 Wissensrepräsentation 139 Klassifikationssysteme IPC - Lexikon in 8 Sektionen: – – – – – – A B C D E F – G – H Täglicher Lebensbedarf (ca. 7.500 Gruppen) Arbeitsverfahren; Transportieren (16.500) Chemie; Hüttenwesen (13.500) Textilien; Papier (3.000) Bauwesen; Erdbohren; Bergbau (3.000) Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen (8.000) Physik (7.000) Elektrotechnik (7.000) HHU Düsseldorf – SS 2005 Wissensrepräsentation 140 Klassifikationssysteme Struktur der IPC • • Sektion: 1 Stelle (z.B. B) - Klasse: 2 weitere Stellen (z.B. B64) - Unterklasse: 1 Stelle (z.B. B64C) - Gruppen: 3 Stellen (z.B. B64C 025) - Hauptgruppe: 2 Stellen stets 00 (z.B. B64C 025/00) - Untergruppe: i.d.R 2 Stellen (nicht 00), u.U. bis zu 4 Stellen (z.B. B64C 025/02) bis zur Gruppenebene: Notationen strukturabbildend hierarchisch Untergruppenebene: Notationen sequentiell HHU Düsseldorf – SS 2005 Wissensrepräsentation 141 Klassifikationssysteme B B64 B64C B64C 025 B64C 025/00 B64C 025/02 B64C 025/08 B64C 025/10 B64C 025/18 B64C 025/26 B64C 025/30 HHU Düsseldorf – SS 2005 Arbeitsverfahren; Transportieren Luftfahrzeuge; Flugwesen; Raumfahrt Flugzeuge; Hubschrauber; Drehflügelflugz. -Start- bzw. Landegestelle . Fahrgestelle .. nicht fest angeordnet, z.B. abwerfbar ... einfahrbar, klappbar oder dgl. .... Betätigungsmittel ..... Steuerung oder Verriegelung dafür ...... Notbetätigung Wissensrepräsentation 142 Klassifikationssysteme Hinweise – allgemeine Querverweise Beispiel: H05B 3/03 Widerstandsheizung / Elektroden (elektrothermische Behandlung von Erzen C22B 4/00) – Vorrangregel (falls ein Gegenstand an mehreren Stellen klassiert werden kann, aber nur an einer Stelle klassiert werden sollte) Beispiel: H05B 3/40 Heizelemente ... (3/62, 3/68, 3/78 haben Vorrang) – Orientierungsverweis (Hinweis auf verwandte Gegenstände) HHU Düsseldorf – SS 2005 Wissensrepräsentation 143 Klassifikationssysteme Hybrid-System – Hybrid-Systeme: an manchen Stellen der IPC sind Index-Codes vorgesehen, die nur in Verbindung mit (dort definierten) anderen Notationen zu verwenden sind (statt des Schrägstriches hier: Doppelpunkt). Beispiel: B62D (Motorfahrzeuge), B62D 101:00 (Fahrgeschwindigkeit) – analog zu den speziellen Ergänzungstafeln der DK – verbundene Index-Codes: Darstellung einer Notation und eines Index-Codes in einer Klammer; Beispiel: (C08F 210/16, 214:06) Themenkette i.S. syntaktischen Indexierens – nicht verbundene Index-Codes: Darstellung des Index-Codes allein als allgemeine Zusatzinformation HHU Düsseldorf – SS 2005 Wissensrepräsentation 144 Klassifikationssysteme • Klassierung von Erfindungsobjekten – Funktionsorientierung eines Gegenstandes (z.B. Kolben) und Anwendungsorientierung eines Gegenstandes (z.B. Anordnung von Kolben in einem Motor) berücksichtigen! – System als Ganzes sei Gegenstand: dann auch die nicht trivialen Einzelheiten klassieren (z.B. gesamte Radaufhängung: wenn wichtig, auch die Blattfeder berücksichtigen)! – chemische Formeln (insb. organische Verbindungen): alle vollständig identifizierten Verbindungen berücksichtigen! – soviele IPC-Notationen wie nötig, um alle Ansprüche des Patentes wiederzugeben – die Notation(en) des Hauptanspruches als erste nennen, dann Nebenansprüche (einige Patentämter klassieren nur den Hauptanspruch) – X-Notationen: X (an beliebiger Stelle einer Notation) zeigt an, dass die IPC den abzubildenden Gegenstand nicht genau trifft; hier ist Handlungsbedarf für Weiterentwicklungen der IPC HHU Düsseldorf – SS 2005 Wissensrepräsentation 145 Klassifikationssysteme • Klassierung von Erfindungsobjekten – Hauptklasse(n) Hauptansprüche der Erfindungsschrift – Nebenklasse(n) Nebenansprüche der Erfindungsschrift – Doppelstrichklasse(n) „Zusatzinformationen“; nicht rechtlicher, sondern ausschließlich technischer Natur (von den Erfindungsinformationen durch einen Doppelstrich // getrennt) – Indexklasse(n) verbundene / unverbundene Indexcodes HHU Düsseldorf – SS 2005 Wissensrepräsentation 146 Klassifikationssysteme Fallbeispiel: IPC bei DEPATISnet (DPMA) • Suche in der IPC: mit schwarzem Balken am Rand: Indexcodes; sonst: Notationen Notationen IndexCodes HHU Düsseldorf – SS 2005 Wissensrepräsentation 147 Klassifikationssysteme IPC in der Version bei DEPATISnet Indexcodes HHU Düsseldorf – SS 2005 Wissensrepräsentation 148 Klassifikationssysteme Detailsuche der Expertenmaske nach: Hauptklasse, Nebenklasse, Doppelstrichklasse, Indexklasse möglich HHU Düsseldorf – SS 2005 Wissensrepräsentation 149 Klassifikationssysteme Anzeige der bibliographischen und inhaltserschließenden Informationen zusätzlich: Volltext (PDF) HHU Düsseldorf – SS 2005 Wissensrepräsentation 150 Klassifikationssysteme ECLA: European Classification System – IPC: in gewissen Technikbereichen nicht tief genug gegliedert – ECLA erweitert IPC „nach unten“ und verfeinert das System – erarbeitet beim Europäischen Patentamt; wird bei einigen großen Patentdatenbanken bei Questel-Orbit eingesetzt – Bsp.: H04N-007/24C12M2 IPC ECLA – z.T. diverse neue Klassen (und damit lange Notationen) David T. Dickens: The ECLA Classification System. – In: World Patent Information 16 (1994), 28-32. HHU Düsseldorf – SS 2005 Wissensrepräsentation 151 Klassifikationssysteme ECLA: Bsp. G06F-17/30 Information Retrieval Online: l2.espacenet.com/espacenet/eclasrch HHU Düsseldorf – SS 2005 Wissensrepräsentation 152 Klassifikationssysteme Wiener Klassifikation der figürlichen Darstellungen – Einsatz bei Markendatenbanken zur inhaltlichen Beschreibung von Bildmarken (wie die „lila Kuh“ von Milka) – seit 1973 (verabschiedet in Wien) international eingesetzt – 3 Hierarchieebenen: • 29 Kategorien • 144 Abteilungen • 1.634 Sektionen (in Haupt- und Hilfstafeln) – formale Graphikelemente (etwa 26: geometrische Figuren oder 29: Farben) und inhaltliche Aspekte (etwa 2: Menschen oder 22: Musikinstrumente) HHU Düsseldorf – SS 2005 Wissensrepräsentation 153 Klassifikationssysteme Wiener Klassifikation der figürlichen Darstellungen / Ausschnitt – 03 Animals • 03.01 Quadrupeds (Series I) – 03.01.01. Lions – 03.01.04. Tigers or other large felines – 03.01.06. Cats or other small felines – 03.01.08. Dogs, wolves, foxes • ... (gekürzt) • Auxiliary Section Associated with Principal Section 3.1.1 – A 03.01.02 Heraldic lions – Auxiliary Section Associated with Principal Section 3.1.1-3.1.15 – A 03.01.17 Animals of Series I standing – A 03.01.24 Animals of Series I stylized – Klassierungsbeispiel: stilisierter Hund – 03.01.08 / 03.01.24 HHU Düsseldorf – SS 2005 Wissensrepräsentation 154 Klassifikationssysteme Wirtschaftsklassifikationen • • • Klassifikationen der Amtlichen Statistik – NACE (Europäische Union) – WZ 03 (Deutschland) – SIC (USA - veraltet) – NAICS (Nordamerika) Spezielle Branchenklassifikationen – European Business Classification (Schober) Produktklassifikationen – Predicasts Product Codes (Gale Group) – Kompass – Dun & Bradstreet SIC Anneliese Krobath: Analyse von amtlichen und proprietären Wirtschaftsklassifikationen anhand eines Kriterienkatalogs. – Dipl.-Arb. Karl-Franzens-Univ. Graz, 2004. Mechtild Stock; Wolfgang G. Stock: Qualität professioneller Firmeninformationen im World Wide Web. - In: Willi Bredemeier et al.: Die Branche elektronischer Geschäftsinformation in Deutschland 2000/2001. – Hattingen; Kerpen; Köln, 2001, Kap. 3.2: Branchen- und Produktklassifikationen, 355-377. HHU Düsseldorf – SS 2005 Wissensrepräsentation 155 Klassifikationssysteme NACE Nomenclature général des activités économiques dans les Communautés Européens • NACE (Rev. 1) seit 1993 verbindliche Klassifikation der Wirtschaftszweige in der EU • 4-stellige Notationen; derzeit 640 Klassen • 3 Hierarchieebenen Beispiel – Abteilung (2 Stellen) 29 – Gruppen (1 weitere Stelle) 29.5 – Klassen (1 weitere Stelle) 29.56 – zusätzlich: Abschnitte (Buchstabennotationen),die Abteilungen sequentiell zusammenfassen, Bsp.: D für die Abteilungen 15 - 37 NACE Rev. 1: Statistische Systematik der Wirtschaftszweige in der Europäischen Gemeinschaft. – Luxembourg: • Amt für Amtliche Veröffentlichungen der Europäischen Gemeinschaften, 1996. – (Themenkreis 2: Wirtschaft und Finanzen; Reihe E: Methoden). - Letzte Änderung: NACE Rev. 1.1 (2003). Online: europa.eu.int/comm/eurostat/ramon/geninfo/geninfo_de.html HHU Düsseldorf – SS 2005 Wissensrepräsentation 156 Klassifikationssysteme A B C D E F G H I J K L M N O P Q Land- und Fortwirtschaft Fischerei und Fischzucht NACE Bergbau und Gewinnung von Steinen und Erden Verarbeitendes Gewerbe 1. HierarchieEnergie- und Wasserversorgung ebene Baugewerbe Handel, Instandhaltung und Reparatur von Kraftfahrzeugen und Gebrauchsgütern Gastgewerbe Verkehr und Nachrichtenübermittlung Kredit- und Versicherungsgewerbe Grundstücks- und Wohnungswesen, Vermietung beweglicher Sachen, Erbringung von Dienstleistungen f. Unternehmen Öffentliche Verwaltung, Verteidigung, Sozialversicherung Erziehung und Unterricht Gesundheits-, Veterinär- und Sozialwesen Erbringung von sonstigen öffentlichen und persönlichen Dienstleistungen Private Haushalte Exterritoriale Organisationen und Körperschaften HHU Düsseldorf – SS 2005 Wissensrepräsentation 01, 02 05 10 bis 14 15 bis 37 40, 41 45 50 bis 52 55 60 bis 64 65 bis 67 70 bis 74 75 80 85 90 bis 93 95 99 157 Klassifikationssysteme WZ 93 / WZ 03 • • • • Übernahme der NACE in die deutsche amtliche Statistik ab 1993 als „Klassifikation der Wirtschaftszweige“ (WZ 93) – Überarbeitung 2003 5-stelliger Code (die letzte Stelle gilt nur für Deutschland) 1.700 Klassen Einsatz bei – Statistisches Bundesamt, Bürgel, Creditreform, Hoppenstedt, AZ Bertelsmann, Schober • • Achtung: z.T. Klassen ohne Änderung der Definition gegenüber Oberbegriffen Beispiel: 35.3 (Luft- und Raumfahrzeugbau) – 35.30 (Luft- und Raumfahrzeugbau (bis hierhin: NACE Rev. 1) - ohne Informationsgewinn » 35.30.0 (Luft- und Raumfahrzeugbau (5. Stelle der WZ 93) - wiederum ohne Informationsgewinn HHU Düsseldorf – SS 2005 Wissensrepräsentation 158 Klassifikationssysteme NACE - WZ 03 / Beispiel: Druckmaschinen • 29 (Maschinenbau) • 29.5 (Herstellung von Maschinen für sonstige bestimmte Wirtschaftszweige) • 29.56 (Herstellung von Maschinen für bestimmte Wirtschaftszweige a.n.g.) - bis hierhin: NACE • 29.56.1 (Herstellung von Maschinen für das Druckgewerbe) - nur für den Gebrauch in Deutschland Alphabetisches Verzeichnis zur Klassifikation der Wirtschaftszweige, Ausgabe 1993. – Stuttgart: Metzler-Poeschel, 1993. Online: www.destatis.de/allg/d/klassif/wz2003.htm HHU Düsseldorf – SS 2005 Wissensrepräsentation 159 Klassifikationssysteme Standard Industrial Classification (SIC) • • • • • • • 1939 - 1997 Klassifikation der Amtlichen Statistik der USA letzte erschienene Revision: 1987 abgelöst durch NAICS 1997 wird derzeit noch von vielen Informationsproduzenten eingesetzt, u.a. Information Access Group, Dun & Bradstreet, Hoppenstedt, Schober 4-stellige Notationen - rund 1.000 Klassen hierarchischer Notationsaufbau, 4 Hierarchieebenen stets mit „0“ auf vier Stellen aufgefüllt Online: www.osha.gov/oshstats/sicser.html HHU Düsseldorf – SS 2005 Wissensrepräsentation 160 Klassifikationssysteme SIC / Grundstruktur – 0 Landwirtschaft, Forstwirtschaft, Fischerei – 1 Bergbau, Rohstoffe, Hoch- und Tiefbau – 2 Herstellung kurzlebiger Verbrauchsgüter – 3 Herstellung langlebiger Gebrauchsgüter – 4 Transport, Nachrichtentechnik, Versorgungsbetriebe – 5 Groß- und Einzelhandel – 6 Finanzdienstleistungen – 7 (andere) Dienstleistungen – 8 Gesundheit und Bildung – 9 Staat, Regierung HHU Düsseldorf – SS 2005 SIC / Beispiel: Druckmaschinen 3000 (Herstellung langlebiger Gebrauchsgüter) 3500 (Maschinenbau) 3550 (Maschinenbau - Spezialmaschinen) 3555 (Maschinenbau - Druck) Wissensrepräsentation 161 Klassifikationssysteme NAICS / North American Industry Classification System • keine SIC-Revision, sondern neues System – durchgehend neu: Notationen – aus SIC unverändert übernommen: 422 Klassen – aus SIC revidiert übernommen: 390 Klassen – neue Klassen: 358 Klassen (z.B. „51 Information“) – 6-stelliger Code - 1.170 Klassen – 5 Hierarchieebenen • • • • • Sektoren (2 Stellen) - sequentielle Notationen Subsektor (1 weitere Stelle) - ab hier hierarchische Notationen Branchengruppe (1 Stelle) Branche (1 Stelle) - bis hierhin international (NAFTA-Länder) Teilbranche (1 Stelle) - landesspezifisch für USA, Kanada, Mexiko HHU Düsseldorf – SS 2005 Wissensrepräsentation 162 Klassifikationssysteme • • • • • • • • • • • • 11 Agriculture, Forestry, Fishing and Hunting 21 Mining 22 Utilities 23 Construction 31-33 Manufacturing 42 Wholesale Trade 44-45 Retail Trade 48-49 Transportation and Warehousing 51 Information 52 Finance and Insurance 53 Real Estate and Rental and Leasing 54 Professional, Scientific, and Technical Services HHU Düsseldorf – SS 2005 • 55 • 56 • • 61 62 • 71 • 72 • 81 • 92 Management of Companies and Enterprises Administrative and Support and Waste Management and Remediation Services Educational Services Health Care and Social Assistance Arts, Entertainment, and Recreation Accommodation and Food Services Other Services (except Public Administration) Public Administration NAICS: 1. Hierarchieebene Wissensrepräsentation 163 Klassifikationssysteme NAICS • • eingesetzt bei: – Amtlicher Statistik USA, Kanada und Mexiko – Datenbanken der Gale Group (u.a. PROMT) – (einigen) Firmendatenbanken in den USA Beispiel: Druckmaschinen – 31 - 33 (Manufacturing) – 333 (Machinery Manufacturing) – 3332 (Industrial Machinery Manufacturing) – 33329 (Other Industrial Machinery Manufacturing) – 333293 (Printing Machinery and Equipment Manufacturing) North American Industry Classification System. – Lanham, MD: Bernan Press, 1998. Letzte Änderung: NAICS 2002. Ruth A. Pagell; Patricia J.S. Weaver: NAICS: NAFTA‘s industrial classification system. – In: Business Information Review 14 (1997) 1, 36-44. Online: www.naics.com HHU Düsseldorf – SS 2005 Wissensrepräsentation 164 Klassifikationssysteme Spezielle Branchenklassifikation: Schober – „European Business Classification“ (EBC) – rund 10.000 Klassen für Wirtschaftsbranchen und Wirtschaftsaktivitäten zur Unterstützung der Suche in einer B-to-B-Adressdatenbank – Beispiele für Klassen der Wirtschaftsaktivitäten • 6679 DIMA Düsseldorf • 5273 INFOBASE Intern. Fachmesse für Kommunikation Frankfurt – Beispiel Druckmaschinen • 703 Druckmaschinen Hersteller • 2557 Papier- und Druckmaschinen Hersteller HHU Düsseldorf – SS 2005 Wissensrepräsentation 165 Klassifikationssysteme Produktklassifikation 1: Gale-Codes (Predicasts-Codes) • • angelehnt an SIC; erweitert auf 7 Stellen Beispiel: 0174 (Zitrusfrüchte) – – – – – – – – – • 0174007 0174012 0174013 0174015 0174019 0174021 0174022 0174024 0174099 Pampelmusen Zitronen Limonen Apfelsinen Mandarinen Tangelos Temples Orangen, Valencia Zítrusfrüchte, sonstige Einsatz: in diversen Gale-Datenbanken Online: support.dialog.com/searchaids/dialog/galecodes/ HHU Düsseldorf – SS 2005 Wissensrepräsentation 166 Klassifikationssysteme Produktklassifikation 2: Dun & Bradstreet SIC • • • • • • • Erweiterung der SIC um zwei weitere Hierarchieebenen (jeweils 2-stellig) über 18.000 Klassen Stellen 1 bis 4: SIC Stellen 5 und 6: Produktgruppe Stellen 7 und 8: Produkte wie bei SIC üblich: Auffüllen nach rechts freier Stellen durch Nullen Einsatz: (geplant bzw. derzeit in Arbeit): bei der D&BFirmendatenbank HHU Düsseldorf – SS 2005 Wissensrepräsentation 167 Klassifikationssysteme D&B SIC. Beispiel Druckmaschinen 35550000 (Printing Trades M achinery) 35550100 (Printing Presses) 35550101 (Presses, Envelope, Printing) 35550102 (Presses, Gravure) 35550200 (Printing Plades) 35550201 (Plates, M etal: Engravers') 35550202 (Plates, Offset) usw . (gekürzt) 35559900 (Printing Trades M achinery, NEC) 35559901 (Bronzing or Dusting M achines for the Printing Trade) usw . (gekürzt) 35559906 (Typographic Num bering M achines). HHU Düsseldorf – SS 2005 Wissensrepräsentation 168 Klassifikationssysteme Produktklassifikation 3: Kompass • • • • • Eigenes Produktklassifikationssystem der KompassFirmendatenbanken Gegenstand: B-to-B Produkte und Dienstleistungen - rund 50.000 Klassen 3 Hierarchieebenen: – Branche (2-stellig) – Fachgruppen (weitere 3 Stellen) – Produkte (weitere 2 Stellen) auf der Ebene der Fachgruppe zusätzlich: I / E (Import- bzw. Exportaktivitäten einer Firma) auf der Ebene der Produkte zusätzlich P / D / S (Produktion, Distribution, Service) Online: www.kompass.com/ HHU Düsseldorf – SS 2005 Wissensrepräsentation 169 Klassifikationssysteme Kompass Meist hierarchisch strukturiert: • 20 (Nahrungs- und Genussmittel) • 20420 (Fische in Konserven und anderen Verpackungen) • 2042052 (Fischfrikadellen, -bällchen und -kuchen in Dosen) • ... aber mit Ausnahmen: • 20427 (Fische in Konserven und anderen Verpackungen / Landesspezifische Produkte / Frankreich) 2042701 (Bouillabaisse in Konserven) • HHU Düsseldorf – SS 2005 Wissensrepräsentation 170 Klassifikationssysteme 44 (Maschinen und Anlagen für die Zellstoff-, Papier- und Druckindustrie. Büromaschinen und Anlagen für die elektronische Datenverarbeitung) 44140 (Druckmaschinen und Zubehör / Teil 1) 4414001 (Druckmaschinen, Hochdruck, Flachdruckprinzip) 4414002 (Druckmaschinen, Hochdruck, Rotationsoffsetprinzip) usw. (gekürzt) 4414053 (Druckmaschinen, Heliografieverfahren) 44141 (Druckmaschinen und Zubehör / Teil 2) 4414122 (Druckmaschinen, Mehrfarben) Kompass. Bsp.: Druckmaschinen 4414124 (Druckmaschinen, multifunktional) usw. (gekürzt) 4414151 (Zylinder für Druckmaschinen) 4414152 (Trockner für Druckmaschinen) usw. (gekürzt) Achtung bei 44140 und 44141: 44149 (Druckmaschinen und Zubehör) 4414901 (Andruckpressen, Flexodruck, Anilindruck) 44160 (Spezielle Druckmaschinen und Zubehör) usw. (gekürzt) HHU Düsseldorf – SS 2005 Wissensrepräsentation Sequentielle Notation! 171 Klassifikationssysteme Branchen-Ebene: Import / Export Produkt-Ebene: Produzent / Handel / Dienstleister Kompass-Klassifikation Suchoberfläche HHU Düsseldorf – SS 2005 Wissensrepräsentation 172 Klassifikationssysteme Geographische Klassifikationen – finden in diversen Datenbanken (auch Wirtschaftsdatenbanken) zusätzlich zu anderen Systemen Einsatz – haben ihre Wurzeln teilweise in der amtlichen Statistik und finden auch dort ihren Einsatz – werden auch als Gebietsbeschreibungen in wissenschaftlichen Untersuchungen (etwa Regionalforschung oder Ökonomie) verwendet – bedeutende Klassifikationssysteme • NUTS • Gale Group Country Codes • sowie Derivate davon HHU Düsseldorf – SS 2005 Wissensrepräsentation 173 Klassifikationssysteme NUTS. Nomenclature des unités territoriales statistiques – entwickelt von der EU zur amtlichen Statistik und zur Verwendung bei eigenen Datenbanken (etwa TED) – hierarchisches System Beispiele: AT Österreich AT2 Südösterreich AT22 Steiermark AT221 Graz • Landesbezeichnung (2-stellig mit Buchstaben) • Untereinheit (1-stellig mit Zahlen; falls mehr als 10 Untereinheiten: zusätzlich mit Buchstaben) • weitere Untereinheiten (bis zur Kreisebene bzw. bis zu den kreisfreien Städten) DE Deutschland DEA Nordrhein-Westfalen DEA2 Regierungsbezirk Köln DEA27 Rhein-Erft-Kreis DEA2A Oberbergischer Kreis Online: europa.eu.int/comm/ramon/nuts/home_regions_de.html HHU Düsseldorf – SS 2005 Wissensrepräsentation 174 Klassifikationssysteme NUTS: Suche via Landkarten HHU Düsseldorf – SS 2005 Wissensrepräsentation 175 Klassifikationssysteme GALE Group Country Codes – entwickelt von Predicasts, übernommen von Gale – derzeit Industriestandard im Bereich der Wirtschaftsdatenbanken – beinhaltet Weltregionen (0 bis 9), Staatengemeinschaften (soweit vorhanden) und einzelne Länder – Gliederung • • • • • • • • • • 0 1 2 3 4 5 6 7 8 9 Internationales Nordamerika Mittelamerika Südamerika Europa Karibik Afrika Mittlerer Osten Australien, Ozeanien Asien Online: support.dialog.com/searchaids/dialog/galecodes/ HHU Düsseldorf – SS 2005 Wissensrepräsentation 176 Klassifikationssysteme GALE Group Country Codes – Beispiele: Hier nicht strukturabbildend hierarchische Notation 1 Nordamerika 1USA USA gesamt 1U9 Staaten der Westküste 1U9CA Kalifornien Achtung: Suchen nach USA gesamt und ihrer Staaten in der Form: 1U* 4 Europa 4EU Europäische Union 4EUGE Deutschland HHU Düsseldorf – SS 2005 Wissensrepräsentation 177 Klassifikationssysteme Derivate der GALE Group Country Codes • • • • • • • da die Gale CC nur bis zur Länderebene reichen, gibt es Erweiterungen Beispiel: Ländercode der ifo Literaturdatenbank für Deutschland bis Länderebene: wie Gale CC (also für Deutschland: 4EUGE) Bundesländergruppe (1-stellig, N für neue Länder, A für alte Bundesländer) Bundesland (3-stellig, Buchstabencodes) Kreise, Städte (Autokennzeichen) Beispiel: – – – – – 4EUGE Deutschland 4EUGEA alte Bundesländer 4EUGEABAY Bayern 4EUGEABAYFFB Landkreis Fürstenfeldbruck 4EUGEABAYFS Landkreis Freising HHU Düsseldorf – SS 2005 Wissensrepräsentation Bei letzter Hierarchieebene: sequentielle Notation 178 Klassifikationssysteme Medizinklassifikation: International Statistical Classification of Diseases – Ausgabe 10 (ICD-10) • Auf internationaler Ebene erstellt von der World Health Organization (WHO) • In Deutschland gepflegt von DIMDI (Köln) • Einsatz: – Abrechnung im öffentlichen Gesundheitswesen (u.a. Krankenhäusern) – Abrechnung der niedergelassenen Ärzte – Statistik (u.a. Todesursachenstatistik) • Haupttafeln mit „Schlüsselnummern“ (Notationen) • Bei den Klassen (i.d.R. bei den Dreistellern): Definitionen • Klassierregeln für die jeweiligen Klassen • Allgemeine Klassierregeln • Zusatzkennzeichen (allgemeine Ergänzungszeichen) Online: www.dimdi.de/dynamic/de/klassi/download/index.html HHU Düsseldorf – SS 2005 Wissensrepräsentation 179 Klassifikationssysteme ICD-10 – Haupttafel in 21 Kapiteln. Beispiele: A00-B99 C00-D48 D50-D89 E00-E90 F00-F99 G00-G99 H00-H59 H60-H95 ... S00-T98 V01-Y98 Z00-Z99 I. Infektiöse und parasitäre Krankheiten II. Neubildungen III. Krankheiten des Blutes IV. Ernährungs- und Stoffwechselkrankheiten V. Psychische und Verhaltensstörungen VI. Krankheiten des Nervensystems VII. Augenkrankheiten VIII. Ohrenkrankheiten XIX. Verletzungen, Vergiftungen und andere Folgen äußerer Ursachen XX. Äußere Ursachen von Morbidität und Mortalität XXI. Faktoren, die den Gesundheitszustand beeinflussen und zur Inanspruchnahme des Gesundheitswesens führen HHU Düsseldorf – SS 2005 Wissensrepräsentation 180 Klassifikationssysteme ICD-10. Beispiel Haupttafel: Verletzung nach Fahrradunfall V01-Y98 Äußere Ursachen von Morbidität und Mortalität V01-X59 Unfälle V01-V99 Transportmittelunfälle V01-V09 Fußgänger bei Transportmittelunfall verletzt V10-V19 Benutzer eines Fahrrades bei Transportmittelunfall verletzt V10 V11 ... V18 Benutzer eines Fahrrades bei Zusammenstoß mit Fußgänger oder Tier verletzt Benutzer eines Fahrrades bei Zusammenstoß mit einem anderen Fahrrad verletzt Benutzer eines Fahrrades bei Transportmittelunfall ohne Zusammenstoß verletzt jeweils: 4. Stelle: besondere Ergänzungszahl HHU Düsseldorf – SS 2005 Wissensrepräsentation 181 Klassifikationssysteme ICD-10. Beispiel Haupttafel: Fahrradunfall Besondere Ergänzungszahlen bei V10-V18: .0 .1 ... .3 ... Fahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt Mitfahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt Person beim Auf- und Absteigen verletzt Notation einer Verletzung durch Stürzen beim Aufsteigen auf ein Fahrrad (ohne Zusammenstoß) V18.3 HHU Düsseldorf – SS 2005 Wissensrepräsentation 182 Klassifikationssysteme ICD-10. Allgemeine Klassierregeln (1) Kreuz-Stern-System – – – Mit einem Kreuz (+) versehene Klassen bedürfen einer Ergänzung Mit einem Stern (*) versehene Klassen dürfen nur an eine KreuzKlasse angebunden werden. Beispiel: diabetische Retinopathie bei Typ I-Diabetes • • • • E10 .3+ H36.0* Also: Primär insulinabhängiger Diabetes mellitus (besondere Ergänzungszahl) mit Augenkomplikationen Retinopathia diabetica E10.3+H36.0* (2) Optionale Klassen – Mit einem Ausrufezeichen (!) versehene Klassen dürfen an eine andere Klasse angebunden werden. Beispiel: Z51.0! Strahlentherapie-Sitzung HHU Düsseldorf – SS 2005 Wissensrepräsentation 183 Klassifikationssysteme ICD-10 – – – – – – – – Zusatzkennzeichen (allgemeine Ergänzungsnotationen) Es sind max. 2 (der 6) Zusatzkennzeichen hinter einer Notation zugelassen R rechts L links B beidseits V Verdachtsdiagnose Z (symptomloser) Zustand nach der betreffenden Diagnose A ausgeschlossene Diagnose HHU Düsseldorf – SS 2005 Wissensrepräsentation 184 Klassifikationssysteme ICD-10 Diagnosethesaurus – – Register zur ICD rund 60.000 Einträge HHU Düsseldorf – SS 2005 Wissensrepräsentation 185 Klassifikationssysteme ICD-10 bei DIMDI HHU Düsseldorf – SS 2005 Wissensrepräsentation 186 Klassifikationssysteme Klassifikationen. Fazit • • • • • • Klassifikationssysteme spielen eine nicht umgehbare Rolle in der Informationswirtschaft Universalklassifikationen: Nutzung vorwiegend in großen Bibliotheken WWW: Wenn im Web überhaupt intellektuell ausgewertet wird, dann klassifikatorisch Gewerbliche Schutzrechte (Patente, Gebrauchsmuster, Marken, Geschmacksmuster): international eingesetzte und akzeptierte Systeme. Die professionelle Suche nach Schutzrechtsdokumente geht ausschließlich über die jeweiligen Klassifikationssysteme. Wirtschaft: in vielen Wirtschaftsdatenbanken werden Branchen- oder Produktklassifikationen eingesetzt Medizin: keine Abrechnung, keine Statistik ohne ICD HHU Düsseldorf – SS 2005 Wissensrepräsentation 187 Klassifikationssysteme Klassifikationen. Fazit • Es gibt einige Klassifikationssysteme, die sich herstellerübergreifend durchgesetzt haben: – Wirtschaft • in Europa: NACE • in Nordamerika: NAICS • weltweit (obwohl veraltet): SIC – Gewerbliche Schutzrechte • Patente, Gebrauchsmuster: IPC • Marken: Wiener Klassifikation, Nizza Klassifikation – Länder • Gale CC • NUTS – Medizin: ICD HHU Düsseldorf – SS 2005 Wissensrepräsentation 188 Klassifikationssysteme Klassifikationen. Fazit • Aus den „Standardsystemen“ werden Derivate abgeleitet: • • • • • • WZ 93 aus NACE Gale Product-Codes aus SIC D&B-Product-Codes aus SIC ifo Ländercode aus Gale CC zusätzlich existieren herstellerspezifische Klassifikationssysteme (Schobers EBC, Kompass, ...) Eigene, selbsterstellte Klassifikationen eignen sich zum Einsatz in unternehmensweiten Netzen (Intranets, Enterprise Information Portals) sowie zur Strukturierung von Katalogen (im E-Commerce) HHU Düsseldorf – SS 2005 Wissensrepräsentation 189 Klassifikationssysteme Vorteile von Klassifikationen (egal, ob bei professionellen Datenbanken oder in [irgendeinem] Unternehmen) – übersichtliche Navigation durch die Hierarchieebenen – sprachunabhängiges System (ggf. Nachteil: Notationen sind für Laien kaum recherchierbar; Ausgleich durch natürlichsprachige Oberflächen) – vielfältige Ausdrucksmöglichkeiten durch Trennung von Haupttafeln und Ergänzungstafeln – einfaches hierarchisches Retrieval durch Truncation (bei strukturabbildend hierarchischen Notationen) HHU Düsseldorf – SS 2005 Wissensrepräsentation 190 Klassifikationssysteme Nachteile von Klassifikationen – Die Struktur ist zwar nach unten hin stetig erweiterbar, aber nur sehr schwer im Grundaufbau zu verändern. Beispiele für Probleme: • DK: bildet die Wissenschaftsstruktur des späten 19.Jahrhunderts ab • SIC: musste als Ganzes abgelöst werden, da die neueren wirtschaftlichen Entwicklungen (etwa: Aufkommen der Dienstleistungen) nicht integriert werden konnten – Bei den Relationen dominiert eindeutig die Hierarchierelation (in der monohierarchischen Variante). Alle Gegenstände, die sich „natürlich“ monohierarchisch gliedern, können gut klassifikatorisch erfasst werden; alle anderen nicht. HHU Düsseldorf – SS 2005 Wissensrepräsentation 191 Dokumentationssprachen II: Schlagwortmethode HHU Düsseldorf – SS 2005 Wissensrepräsentation 192 Schlagwortmethode Schlagwortmethode • • • • • einfache Form der verbalen Inhaltserschließung kontrolliertes Vokabular (Schlagworte) Vokabular wird der natürlichen Sprache entnommen Einteilung des Gesamtvokabulars in Facetten (empfehlenswert, aber nicht zwingend) Relationen: – (Quasi-)Synonymie (BF: benutzt für) – Assoziation (allgemeiner „siehe auch“-Verweis; VB: verwandter Begriff)) – chronologische Verweisung (falls nötig) – keine Hierarchierelationen (ansonsten läge ein Thesaurus vor) HHU Düsseldorf – SS 2005 Wissensrepräsentation 193 Schlagwortmethode Beispiel: RSWK („Regeln für den Schlagwortkatalog“ und SWD („Schlagwortnormdatei“) • • • • eingesetzt bei deutschen Bibliotheken erarbeitet ab 80er Jahre des 20. Jahrhunderts von der DBIKommission für Sacherschließung; Publikation 1986 Einsatz von Facetten (Person – Ort – „Sache“ – Zeit – Form) teilweise Verwendung hierarchischer Relationen („auf dem Weg zu einem Thesaurus“; hier nicht berücksichtigt) Regeln für den Schlagwortkatalog: RSWK. – Berlin: Deutsches Bibliotheksinstitut, 31998. Beispielsammlung zu den Regeln für den Schlagwortkatalog. – Berlin: Deutsches Bibliotheksinstitut, 1991. Konrad Umlauf: Regeln für den Schlagwortkatalog. Die Grundregeln der RSWK. – Berlin: HU Berlin / Institut für Bibliothekswissenschaft, 1999. – (Berliner Handreichungen zur Bibliothekswissenschaft; 66). HHU Düsseldorf – SS 2005 Wissensrepräsentation 194 Schlagwortmethode RSWK / SWD • • • • syntaktisches Indexieren durch Schlagwortketten Schlagwortketten sind stets in der Reihenfolge Person – Ort – „Sache“ – Zeit – Form anzugeben jede Kette drückt ein Objekt der dokumentarischen Bezugseinheit möglichst präzise und vollständig aus Wahl des engsten Schlagwortes – Bsp.: Objekt „Untersuchungen zum HAWIK“ – Schlagwort: HAWIK – nicht: Intelligenztest / Kind / HAWIK (mitunter problematisch!) • Vermeiden von Pleonasmen – überflüssige Häufung sinngleicher Bezeichnungen (z.B. Zukunftsprognose) – problematisch bei wenig bekannten Begriffen (z.B. Nuraghenkultur; hier entfällt „Sardinien“ als pleonastisch) • Homonymzusatz (z.B. Atlas <Gebirge>) HHU Düsseldorf – SS 2005 Wissensrepräsentation 195 Schlagwortmethode RSWK / SWD. Personenschlagwort • • • • Eigennamen von Personen (einschließlich fiktiver Personen) Familiennamen (z.B. Fugger <Familie>) umfassende Liste von Ansetzungsvarianten in SWD in Facette p HHU Düsseldorf – SS 2005 Wissensrepräsentation 196 Schlagwortmethode RSWK / SWD. Geographisches und ethnographische Schlagwort • • • • Namen von Gebietskörperschaften Namen von Landschaften, Flüssen, Gebirgen, Wegstrecken usw. Namen von Völkern, Rassen, Stämmen in SWD in Facette g HHU Düsseldorf – SS 2005 Wissensrepräsentation 197 Schlagwortmethode RSWK / SWD. Geographisches und ethnographische Schlagwort • • Namensänderungen (z.B. St. Piterburch - St. Petersburg – Petrograd – Leningrad – St. Petersburg) Variante 1: aktueller Name als Schlagwort, Verweise von allen anderen Namen HHU Düsseldorf – SS 2005 Wissensrepräsentation 198 Schlagwortmethode RSWK / SWD. Geographisches und ethnographische Schlagwort • • Namensänderungen (z.B. St. Piterburch - St. Petersburg – Petrograd – Leningrad – St. Petersburg) Variante 2: Chronologische Relation (früher – später) – CF (chronologisch früher) – CS (chronologisch später) – zusätzlich: Hinweis auf den Zeitraum • Leningrad (Hinweis: 1924 – 1991) CF Petrograd (dort Hinweis: 1919 – 1924) CS Sankt Petersburg (dort Hinweis: ab 1991) HHU Düsseldorf – SS 2005 Wissensrepräsentation 199 Schlagwortmethode RSWK / SWD. Sachschlagwort • in SWD in Facette s MO: mehrgliedriger Oberbegriff HHU Düsseldorf – SS 2005 Wissensrepräsentation 200 Schlagwortmethode RSWK / SWD. Sachschlagwort • • • • • • Einzelbegriff (Bsp.: Pest) Kompositum (Bsp.: Luftverschmutzung) Adjektiv-Substantiv-Verbindung (Bsp.: Juristische Person) ggf. mit Homonymzusatz (Bsp.: Krebs <Medizin>) stehende Wendung (Bsp.: Information und Dokumentation) Besonderheit: Werktitel (Facette t) HHU Düsseldorf – SS 2005 Wissensrepräsentation 201 Schlagwortmethode RSWK / SWD. Zeitschlagwort • Variante 1: Verbale Epochenbezeichnung oder historische Einzelereignisse (als Sachschlagwort) HHU Düsseldorf – SS 2005 Wissensrepräsentation 202 Schlagwortmethode RSWK / SWD. Zeitschlagwort • • Variante 2: konkrete Jahresangaben in Verbindung mit „Geschichte“ (oder „Prognose“ o.ä.) nicht in SWD enthalten HHU Düsseldorf – SS 2005 Wissensrepräsentation 203 Schlagwortmethode RSWK / SWD. Formschlagwort • • Erscheinungsweise, literarische oder physische Form der dokumentarischen Bezugseinheit nur zu berücksichtigen, wenn der Inhalt tangiert wird (ansonsten bei formalen Angaben unter Dokumenttyp) HHU Düsseldorf – SS 2005 Wissensrepräsentation 204 Schlagwortmethode RSWK / SWD. Ansetzung von Namen von Körperschaften • • ortsgebundene Körperschaften (stets unter dem Ort anzusetzen) Facette c HHU Düsseldorf – SS 2005 Wissensrepräsentation 205 Schlagwortmethode RSWK / SWD. Ansetzung von Namen von Körperschaften • nicht ortsgebundene Körperschaften, darunter alle Wirtschaftsbetriebe (unter dem Körperschaftsnamen anzusetzen) – Facette k • bei Namenswechsel: chronologische Relation (CF – CS) HHU Düsseldorf – SS 2005 Wissensrepräsentation 206 Schlagwortmethode RSWK / SWD. Syntaktisches Indexieren durch Schlagwortketten • • pro Kette ein Objekt so viele Ketten wie unterschiedliche Objekte HHU Düsseldorf – SS 2005 Wissensrepräsentation 207 Dokumentationssprachen III: Thesauri HHU Düsseldorf – SS 2005 Wissensrepräsentation 208 Thesauri Grundlegende Literatur • • • • • • • Jean Aitchison, Alan Gilchrist, David Bowden: Thesaurus Construction and Use. - London: Fitzroy Dearborn, 42000 Margarete Burkart: Thesaurus. – In: Grundlagen der praktischen Information und Dokumentation. – München: Saur, 52004, 141154. DIN 1463/1: Erstellung und Weiterentwicklung von Thesauri DIN 1463/2: Multilinguale Thesauri DIN 31623/1; DIN31623/2; DIN 31623/3: Indexierung zur inhaltlichen Erschließung von Dokumenten Winfried Schmitz-Esser: EXPO-INFO 2000. - Berlin [u.a.]: Springer, 2000 Gernot Wersig: Thesaurus-Leitfaden. – München [u.a.]: Saur, 21985 HHU Düsseldorf – SS 2005 Wissensrepräsentation 209 Thesauri Thesaurus Einsatzgebiete – in eng umgrenzten Fachgebieten • Terminologie eines Faches • Terminologie eines Unternehmens – in Gebieten, wo fachliches Wissen durch ein (von den betreffenden Fachleuten akzeptiertes) Begriffssystem repräsentiert werden kann – wenn ausschließlich mit Begriffen der natürlichen Sprache gearbeitet werden soll – wenn die Struktur des Gebietes über eine monohierarchische Ordnung hinausgeht – Anmerkung: Klassifikation und Thesaurus schließen sich nicht gegenseitig aus. Geschickt eingesetzt, ergänzen sie sich. HHU Düsseldorf – SS 2005 Wissensrepräsentation 210 Thesauri „Thesaurus“ nach DIN 1463/1 • • • • „Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient.“ Merkmale eines Thesaurus: 1. Terminologische Kontrolle durch natürlichsprachige DESKRIPTOREN 2. Beziehungen zwischen den Begriffen bzw. Bezeichnungen durch (zweistellige) RELATIONEN Thesaurus-Software (Freeware, nicht optimal, aber zum Üben geeignet): • Thew33 von Tim Craven (Univ. of Western Ontario) • http://publish.uwo.ca/~craven/freeware.htm HHU Düsseldorf – SS 2005 Wissensrepräsentation 211 Thesauri Terminologische Kontrolle – durch Deskriptoren (Vorzugsbenennungen) – durch Nicht-Deskriptoren (Verweise auf Deskriptoren) – der Deskriptor und die zugehörigen Nicht-Deskriptoren sind entweder Synonyme (Bsp.: Heirat, Eheschließung) oder Quasi-Synonyme, je nach Zweck des Thesaurus als synonym „erklärte“ Bezeichnungen (Bsp.: Retrieval, Recherche in einem Wirtschaftsthesaurus) – sowohl beim Indexieren als auch bei Recherchieren wird ausschließlich mit Deskriptoren gearbeitet werden – eine Recherche mit einem Nicht-Deskriptor im CT-Feld einer professionellen Datenbank führt stets zu null Treffern HHU Düsseldorf – SS 2005 Wissensrepräsentation 212 Thesauri Deskriptoren – sollten in der Fachliteratur verwendete Terminologie widerspiegeln – Einwort- wie Mehrwort-Deskriptoren sind möglich – Mehrwort-Deskriptoren in der natürlichen Wortfolge belassen – bei Mehrwortbegriffen, die in ihre Aspekte zerlegt werden sollen: Zerlegungskontrolle • morphologische Zerlegung (Bsp.: Blumengesteck Æ Blume, Gesteck; falsches Bsp.: Eisenbahn Æ Eisen, Bahn) • semantische Zerlegung (Bsp.: Eisenbahn: Schienenbahn, Überlandverkehr) – zerlegen? (Postkoordination) • nur dann, wenn die Kombination der Einzelbegriffe den korrekten Mehrwortbegriff ergibt • nicht, wenn eine hohe begriffliche Spezifizierung angestrebt wird HHU Düsseldorf – SS 2005 Wissensrepräsentation 213 Thesauri Deskriptoren – nicht zerlegen? (Präkombination) • dann, wenn die Einzelbegriffe eine andere Bedeutung als die Präkombination haben (Bsp.: Schlüsselbein, Öffentlichkeitsarbeit) • wenn ballastarme Suche ermöglicht werden soll • ggf. Einsatz eines Kombinationsverweises (Bsp.: Bibliotheksstatistik Æ benutze Kombination Æ Statistik, Bibliothek – Wortarten • vorzugsweise Substantive; Verben in substantivierter Form • Adjektive an Substantiv gebunden (Bsp.: Internationale Beziehungen) • Substantiv im Nominativ Singular; Ausnahmen bei nicht gebräuchlichen Singularformen (Bsp.: Eltern) oder bei Bedeutungsunterschied Singular – Plural (Bsp.: Kosten) • Abkürzungen bzw. Akronyme nur bei Bekanntheit (Bsp.: UKW) HHU Düsseldorf – SS 2005 Wissensrepräsentation 214 Thesauri Deskriptoren – Homonyme / Polyseme: • Unterscheidung durch Klammerzusatz als klärendes Element Bsp. Homonym: Kiefer [Knochen] – Kiefer [Nadelholz] Bsp. Polysem: Knie [Gelenk] – Knie [Werkstück] • Unterscheidung durch Verweise von homonymen Nicht-Deskriptoren auf eindeutige Deskriptoren Bsp.: Eiweiß Æ benutze Synonym Æ Eiklar Æ oder Æ Protein – Deskriptorsatz • Bezeichnung des Deskriptors • Auflistung aller Nicht-Deskriptoren • Auflistung aller Deskriptoren, mit denen der Deskriptor in direkter Beziehung steht • Erläuterung zum Gebrauch (nicht zwingend) – Abk.: H (Hinweis) oder SN (Scope Note) • Definition (nicht zwingend) • Übersetzungen (nicht zwingend) • Konkordanzen zu anderen Erschließungssystemen (nicht zwingend) HHU Düsseldorf – SS 2005 Wissensrepräsentation 215 Thesauri Nicht-Deskriptoren – – – – verweisen auf „ihren“ Deskriptor alle Synonyme des Deskriptors auflisten alle Quasi-Synonyme und weitere Bezeichnungen auflisten Varianten: • Äquivalenz (Synonyme und Quasi-Synonyme) Bsp: Heirat Æ benutze Synonym (BS) Æ Eheschließung • Begriffskombination (Verweis von einem Mehrwort-NichtDeskriptor auf die einzelnen zerlegten Deskriptoren) Bsp.: Lehrerbildungsgesetz Æ benutze Kombination (BK) Æ Lehrer – Bildung – Gesetz • Bündelung (Verweis auf einen Oberbegriff) Bsp.: Zitrone Æ benutze Oberbegriff (BO) Æ Zitrusfrucht HHU Düsseldorf – SS 2005 Wissensrepräsentation 216 Thesauri Deskriptorsatz / Beispiel: Standard-Thesaurus Wirtschaft HWWA Deskriptor Oberbegriffe Erläuterung Klasse NACEKonkordanz Unterbegriffe verwandte Begriffe NichtDeskriptoren HHU Düsseldorf – SS 2005 Wissensrepräsentation 217 Thesauri Relationen • Äquivalenzrelation – Synonyme – Quasi-Synonyme – abweichender Sprachgebrauch (Bsp.: Massenkommunikationsmittel - Massenmedien) – Abkürzung (Bsp.: DNS – Desoxyribonucleinsäure) – gebräuchliche fremdsprachliche Bezeichnung (Bsp.: Computer – Rechenanlage) – Schreibweise (Bsp.: Fotografie, Photographie) – invertierte Form (Bsp.: verarbeitendes Gewerbe – Gewerbe, verarbeitendes) HHU Düsseldorf – SS 2005 Wissensrepräsentation 218 Thesauri Relationen • Äquivalenzrelation – Nichtdeskriptor – Deskriptor – Relation Abk.: BS (benutze Synonym) – BF (benutzt für) USE – UF (used for) Bsp.: Auto BF Personenkraftwagen Personenkraftwagen BS Auto – Nichtdeskriptor – Begriffskombination – Relation Abk.: BK (benutze Kombination) – KB (benutzt in Kombination) Bsp.: Binnenschifffahrt KB Binnenschifffahrtsstatistik Schifffahrtsstatistik KB Binnenschifffahrtsstatistik Binnenschifffahrtsstatistik BK Binnenschifffahrt Schifffahrtsstatistik HHU Düsseldorf – SS 2005 Wissensrepräsentation 219 Thesauri Relationen Hierarchierelation Abstraktionsrelation logische Sicht HHU Düsseldorf – SS 2005 Bestandsrelation gegenständliche Sicht Wissensrepräsentation 220 Thesauri Relationen • Hierarchierelation (allgemein) – Nichtdeskriptor – Deskriptor – Hierarchierelation (Bündelung) Abk.: BO (benutze Oberbegriff) – FU (benutzt für Unterbegriff) Bsp.: Zitrusfrucht FU Zitrone Zitrone BO Zitrusfrucht – Deskriptor – Deskriptor – Relation (der Normalfall) Abk.: OB (Oberbegriff) – UB (Unterbegriff) BT (broader term) – NT (narrower term) Bsp.: Universität OB Hochschule Hochschule UB Universität – Deskriptor – oberes Ende der Begriffsleiter Abk.: TT (Top Term) Bsp.: Universität TT Bildungseinrichtung HHU Düsseldorf – SS 2005 Wissensrepräsentation 221 Thesauri Relationen • • • • Hierarchierelation. Version 1: Abstraktionsrelation Der Begriffsinhalt des Unterbegriffs enthält mindestens ein Merkmal mehr als der Begriffsinhalt des Oberbegriffs. Ober- und Unterbegriff gehören i.d.R. derselben Dimension an. Abk.: OA (Oberbegriff Abstraktionsrelation) – UA BTG (broader term – generic) – NTG Bsp.: Meise OA Singvogel Singvogel UA Meise Aus logischen Gründen kann es u.U. zwingend sein, Hierarchieebenen einzuführen, auch wenn es dazu keine Dokumente gibt (Stützdeskriptoren). HHU Düsseldorf – SS 2005 Wissensrepräsentation 222 Thesauri • • Hierarchierelation. Version 1: Abstraktionsrelation Stützdeskriptor. Beispiel: Thesaurus Technik und Management Stützdeskriptoren HHU Düsseldorf – SS 2005 Wissensrepräsentation 223 Thesauri • • Hierarchierelation. Version 1: Abstraktionsrelation Stützdeskriptor. Beispiel: Thesaurus Technik und Management Stützdeskriptor HHU Düsseldorf – SS 2005 Wissensrepräsentation 224 Thesauri • • Hierarchierelation. Version 1: Abstraktionsrelation Beispiel einer Begriffsleiter als Baum Quelle: EMBASE bei Ovid HHU Düsseldorf – SS 2005 Wissensrepräsentation 225 Thesauri Relationen • • • Hierarchierelation. Version 2: Bestandsrelation Der übergeordnete Begriff (Holonym) entspricht einem Ganzen, der untergeordnete Begriff einem Bestandteil dieses Ganzen (Meronym). alle Geographika sind Bestandsrelationen Abk.: SP (Verbandsbegriff) – TP (Teilbegriff) BTP (broader term – partitive) – NTP Bsp.: Putenkeule SP Truthahn Truthahn TP Putenkeule Kerpen SP Erftkreis Erftkreis TP Kerpen HHU Düsseldorf – SS 2005 Wissensrepräsentation 226 Thesauri Relationen • • • Hierarchierelation. Version 2: Bestandsrelation Transitive Bestandsrelationen eignen sich gut für graphische Darstellungen Beispiel: Hoppenstedt Firmendatenbank HHU Düsseldorf – SS 2005 Wissensrepräsentation 227 Thesauri Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI Suchargument: EU sowie alle Mitgliedsländer Begriffe einsammeln: -Deskriptor -alle Unterbegriffe -alle Oberbegriffe -alle verwandten Begriffe -einzelne Begriffe HHU Düsseldorf – SS 2005 Wissensrepräsentation 228 Thesauri Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI ausgewählte Begriffe „Begriffskorb“ nächster Schritt: Auswahl der Datenbank HHU Düsseldorf – SS 2005 Wissensrepräsentation 229 Thesauri Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI Die ausgewählten Begriffe werden in die Suchmaske übernommen und mit dem Booleschen ODER verbunden. HHU Düsseldorf – SS 2005 Wissensrepräsentation 230 Thesauri Relationen • Assoziationsrelation – nach DIN 1463 sehr allgemeine und unspezifische Relation – „verwandter“ Begriff – Begriffsbeziehung, die weder hierarchischer noch äquivalenter Art ist – im Sinne von „siehe auch“ oder „denke auch an“ Abk.: VB (verwandter Begriff) RT (related term) Bsp.: Apfel VB Birne Birne VB Apfel HHU Düsseldorf – SS 2005 Wissensrepräsentation 231 Thesauri Multilinguale Thesauri (nach DIN 1463/2) • • • Deskriptoren: müssen stets in allen Sprachen vorhanden sein Nicht-Deskriptoren: es können zusätzlich zu übersetzten Nicht-Deskriptoren weitere Nicht-Deskriptoren für jede Sprache eingeführt werden Hierarchierelation(en): es gibt nur genau EINE hierarchische Struktur – ggf. Stützdeskriptoren verwendet – ggf. neue Fremdworte in Sprache einführen • Assoziationsrelation: die Strukturen sollten multilingual übereinstimmen, es kann jedoch sprachabhängige Ausnahmen geben HHU Düsseldorf – SS 2005 Wissensrepräsentation 232 Thesauri Multilinguale Thesauri • • Fremdwort in einer Sprache (aufnehmen; ggf. Definition) Bsp.: deutsch: Teenager englisch: teenagers D: Person zwischen 13 und 19 Jahren Wortprägung (wenn nicht als Fremdwort aufnehmbar, dann Übersetzung, ggf. mit Hinweis) Bsp.: französisch: enfant a cle deutsch: Schlüsselkind NE: equivalent du terme allemand „Schlüsselkind“ HHU Düsseldorf – SS 2005 Wissensrepräsentation 233 Thesauri Multilinguale Thesauri • Äquivalenz (problemlose Eins-zu-eins-Übersetzung) – sprachliche Verwandtschaft Bsp.: Physik (dt.) – physics (engl.) – physique (franz.) – sprachliche Unabhängigkeit; semantische Gleichheit Bsp.: Amsel (dt.) – blackbirds (engl.) – merle (franz.) – gleicher oder ähnlicher Begriffsumfang, anderer Begriffsinhalt Bsp.: alkoholfreies Getränk (dt.) – soft drinks (engl.) – boisson non alcoolisee (franz.) • Probleme mit der Äquivalenz – Teil-Äquivalenz (engerer oder weiterer Begriffsumfang) Bsp.: Wissenschaft – science Lösungsmöglichkeit: einen der Terme als Fremdwort einführen Deskriptorsatz englisch: Wissenschaft; SN: loan term adopted from German; NT science Deskriptorsatz deutsch: Wissenschaft; UB Naturwissenschaft HHU Düsseldorf – SS 2005 Wissensrepräsentation 234 Thesauri Multilinguale Thesauri • Probleme mit der Äquivalenz – Begriffszerlegung bzw. –kombination Bsp.: skidding (engl.): rutschen und schleudern Lösungsmöglichkeit: jeweils parallele Begriffe konstruieren Deskriptorsatz englisch: skidding; NT skidding (forwards), NT skidding (sideways) Deskriptorsatz deutsch: Rutschen/Schleudern; UB Rutschen; UB Schleudern • Homonym / Polysem sprachübergreifend – Lösung: Sprachkürzel als Homonymzusatz Bsp.: Gift (de) – poison; Geschenk – gift (en) • International gebräuchliche Abkürzungen – Lösung: internationale Variante verwenden; nationale Variante als Nicht-Deskriptor – nur nationale gebräuchliche Abkürzungen vermeiden HHU Düsseldorf – SS 2005 Wissensrepräsentation 235 Thesauri Multilinguale Thesauri. Beispiel: Thesaurus Technik und Management Zielsprache deutsch Wörterbücher dt. – engl. und engl. - dt. HHU Düsseldorf – SS 2005 Wissensrepräsentation 236 Thesauri Multilinguale Thesauri. Beispiel: UNESCO Thesaurus Beispiel Zielsprache englisch Wörterbücher engl. – franz. – span. HHU Düsseldorf – SS 2005 Wissensrepräsentation 237 Thesauri Multilinguale Thesauri. Beispiel: UNESCO Thesaurus Deskriptorsatz Abk.: MT: Micro-Thesaurus FR: Deskriptor französisch SP: Deskriptor spanisch HHU Düsseldorf – SS 2005 Wissensrepräsentation 238 Thesauri Aspekte • • nähere Erläuterung eines Deskriptors mittels eines „Aspektes“ der Deskriptor bildet zusammen mit seinem Aspekt eine Einheit (keine UND-Verknüpfung) Quelle: EMBASE bei Ovid HHU Düsseldorf – SS 2005 Wissensrepräsentation 239 Thesauri Relationen im Thesaurus, die über den DIN-Thesaurus hinausgehen • (Quasi-)Synonymie-Relation zwischen Deskriptoren – haben wir bereits bei der Schlagwortmethode kennengelernt – chronologische Relation (früher – später) Abk.: Deskriptor(en) des früheren Gegenstandes CS (chronologisch später) Deskriptor(en) des späteren Gegenstandes; umgekehrt: CF (chronologisch früher) – bei den Deskriptoren als Hinweis den Zeitraum angeben! Bsp.: Sindorf. H: eigenständige Gemeinde bis 31.12.1974 Kerpen-Sindorf. H: Ortsteil von Kerpen ab 1.1.1975 HHU Düsseldorf – SS 2005 Wissensrepräsentation 240 Thesauri • chronologische Relation Bsp. (eineindeutige Relation): Sindorf CS Kerpen-Sindorf Kerpen-Sindorf CF Sindorf Bsp.: (einmehrdeutige Relation): Garmisch CS Garmisch-Partenkirchen Partenkirchen CS Garmisch-Partenkirchen Garmisch-Partenkirchen CF Garmisch CF Partenkirchen – Die chronologische Relation kann u.U. über mehrere Schritte laufen. Bsp.: Chemnitz CF Karl-Marx-Stadt Karl-Marx-Stadt CF Chemnitz [vor 1953] HHU Düsseldorf – SS 2005 Wissensrepräsentation 241 Thesauri weitere Relationen (Vorschlag: Winfried Schmitz-Esser für die EXPO 2000) – Generik (analog zur Abstraktionsrelation des DIN-Thesaurus) Abk.: weiterer/engerer Begriff: WB – EB Bsp.: vegetal products EB coconuts coconuts WB vegetal products – Nützlichkeit Abk.: nützlich für (NF) – profitiert von (PV) Bsp.: tree planting NF water balance regulation water balance regulation PV tree planting – Schädlichkeit Abk.: schädlich für (SF) – wird beeinträchtigt von (WG) Bsp.: overfertilization SF biotopes biotopes WG overfertilization HHU Düsseldorf – SS 2005 Wissensrepräsentation 242 Thesauri weitere Relationen (Vorschlag: Winfried Schmitz-Esser für die EXPO 2000) – Partition 1 (dinglich, gedanklich, ideell) Abk.: ist Bestandteil von (BV) – setzt sich zusammen aus (BA) Bsp.: booster BV missile missile BA booster – Partition 2 (geographisch, topographisch, administrativ) Abk.: ist Teil von (TV) – besteht aus den Teilen (BT) Winfried Schmitz-Esser: EXPO – INFO 2000. Visuelles Bsp.: South America TVBesucherinformationssystem Latin Americafür Weltausstellungen. – Berlin [u.a.]: Springer, 2000. Latin American BT South America HHU Düsseldorf – SS 2005 Wissensrepräsentation 243 Thesauri Allgemeine Thesaurusstruktur Deskriptor m in Sprache i Deskriptor n in Sprache 1 Deskriptor m in Sprache 1 Deskriptor 1 in Sprache n Deskriptor n in Sprache i Rel 1 Rel 2 Nicht-Deskriptor Sprache i Deskriptor 1 in Sprache i Nicht-Deskriptor Sprache i Nicht-Deskriptor Sprache i Rel 2 Nicht-Deskriptor Sprache i Rel 1 Deskriptor 1 in Sprache 1 HHU Düsseldorf – SS 2005 Wissensrepräsentation 244 Thesauri Visualisierung eines Thesaurus für Laien Darstellung eines Deskriptors Deskriptor Definition / Hinweise: Graphik oder Videosequenz text text text text text text text text text text text text text text text text text text text text text text text text text text text text Anzahl der Dokumente: [Zahl] Thema merken HHU Düsseldorf – SS 2005 zurück zum Themenraum Wissensrepräsentation 245 Thesauri Visualisierung eines Thesaurus für Laien Darstellung eines Deskriptors. Beispiel Butter Definition: Graphik oder Videosequenz (grch. „bútyron“: Kuhquark) Speisefett, das aus Kuhmilch gewonnen wird. Beim Buttern in der Molkerei wird der reife Milchrahm mechanisch bearbeitet, bis sich die Fettkügelchen absetzen. Anzahl der Dokumente: 13 Thema merken HHU Düsseldorf – SS 2005 zurück zum Themenraum Wissensrepräsentation 246 Thesauri Visualisierung eines Thesaurus für Laien Darstellung der Relationen (Themenraum) ist Bestandteil von Deskriptor Deskriptor Deskriptor Deskriptor ist nützlich für Deskriptor Deskriptor Deskriptor Deskriptor Deskriptor Deskriptor ist schädlich für Deskriptor Deskriptor HHU Düsseldorf – SS 2005 Deskriptor Deskriptor besteht aus den Teilen Deskriptor Deskriptor Deskriptor Deskriptor Wissensrepräsentation Deskriptor Deskriptor 247 Thesauri Visualisierung eines Thesaurus für Laien Darstellung der Relationen (Themenraum). Beispiel ist Bestandteil von Brotbelag Brotbelag Milch Milch ist nützlich für Butter Butter Braten Braten Butterfett Butterfett besteht aus den Teilen CholesterinCholesterinspiegel spiegel ist schädlich für Herz Herz HHU Düsseldorf – SS 2005 Magen Magen Wissensrepräsentation Molke Molke Salz Salz 248 Thesauri • Thesaurusauf- und –ausbau – Thesaurusaufbau • Sammlung der Fachbegriffe durch (sprach-)empirische Erhebungen; Quellen: Terminologie der Fachliteratur, Experten, potentielle Benutzer • Zusammenfassen (quasi-)synonymer Bezeichnungen; Auswahl der (vorläufigen) Vorzugsbenennungen • Überprüfung jeder Vorzugsbenennung („DeskriptorKandidat“); Kriterien für Deskriptoren: – – – – – relative Häufigkeit in der Literatur erwartetes Vorkommen bei Abfragen Art der Relationen zu bereits akzeptierten Deskriptoren Authentizität der Terminologie des Fachgebiets Zweckmäßigkeit für die Erfassung von Inhalt und Umfang des Begriffs HHU Düsseldorf – SS 2005 Wissensrepräsentation 249 Thesauri • Thesaurusauf- und –ausbau – Thesaurusausbau (Thesauruspflege) • Eliminierung von Deskriptoren (sofern diese beim Indexieren nicht oder kaum genutzt werden) – alle Relationen des Deskriptors werden mit gelöscht – beim Deskriptorsatz vermerken: verwendet bis ... [Datum] – oder: Dokumente neu indexieren • Differenzierung von Deskriptoren (sofern sehr viele Dokumente darunter fallen) – neue Deskriptoren als Unterbegriffe in den Thesaurus einführen – beim Deskriptorsatz vermerken: ohne Unterbegriffe verwendet bis ... [Datum] – oder: Dokumente neu indexieren • Aufnahme neuer Deskriptoren (beim Aufkommen neuer Terme im Fachgebiet) – neue Deskriptoren in die Relationen einhängen – beim Deskriptorsatz vermerken: verwendet ab ... [Datum] HHU Düsseldorf – SS 2005 Wissensrepräsentation 250 Thesauri • Indexieren mittels eines Thesaurus – gleichordnendes Indexieren (nach DIN 31.623/2) Deskriptoren werden einem Dokument gleichrangig und unstrukturiert zugeordnet Beispiel: Ein Dokument behandle im ersten Teil den Export italienischer Weine nach Deutschland und im zweiten Teil den Import deutscher Autos nach Italien. Indexat: Export; Import; Italien; Deutschland; Wein; Auto Problem: führt u.U. zu Informationsballast (Bsp.: Suche nach dem Export deutscher Weine mit dem Argument „Wein AND Deutschland AND Export“ findet fälschlich unser Beispiel) HHU Düsseldorf – SS 2005 Wissensrepräsentation 251 Thesauri • Indexieren mittels eines Thesaurus – syntaktisches Indexieren (nach DIN 31.623/3) Deskriptoren werden einem Dokument unter Wahrung ihrer thematischen Zusammenhänge zugeordnet (Bildung von thematischen Teilmengen) Indexat: Wein – Export – Italien. Wein – Import – Deutschland. Auto – Export – Deutschland. Auto – Import – Italien. Italien – Deutschland – Außenhandel - Wein. Italien – Deutschland – Außenhandel - Auto. – Themenketten werden mit Abstandsoperator (etwa: SAME) und nicht mit dem Booleschen UND durchsucht – Probleme: wird ggf. von den Nutzern nicht verstanden; ist teuer HHU Düsseldorf – SS 2005 Wissensrepräsentation 252 Thesauri Syntaktisches Indexieren Beispiel: HWWA Zwei Themenketten HHU Düsseldorf – SS 2005 Wissensrepräsentation 253 Thesauri • Gewichtetes Indexieren • Vorgehen – Variante 1: intellektuelle Zuordnung von numerischen Werten zu den einzelnen Deskriptoren (wird derzeit nicht durchgeführt) – Variante 2: Zwei-Klassen-Verfahren: • Auszeichnung der zentralen Deskriptoren zu einem Dokument als „Fokus“ (besonders wichtig in der dokumentarischen Bezugseinheit abgehandelt) • Ziel: Ermöglichen des Suchens nach nur solchen Dokumenten, in denen das Thema zentral vorkommt HHU Düsseldorf – SS 2005 Wissensrepräsentation 254 Thesauri Klasse 1 – Deskriptoren wichtig – Fokus (mit Sternchen *) Klasse 2 – Deskriptoren HHU Düsseldorf – SS 2005 Wissensrepräsentation Quelle: EMBASE bei Ovid 255 Thesauri • Indexieren mittels eines Thesaurus. Vorgehen – dokumentarische Bezugseinheit (quer)lesen – Verstehen des Dokumenteninhalts – besondere Konzentration auf Terme aus: Titel Einleitung Zusammenfassung Autorenabstract Kapitelüberschriften Bildtitel hervorgehobene Textstellen Sätze, die Schlussfolgerungen enthalten („Reizterme“: also, somit, ...) • häufig vorkommende Terme • • • • • • • • HHU Düsseldorf – SS 2005 Wissensrepräsentation 256 Thesauri • Indexieren – Ermittlung der Terme • Extraktionsmethode: Entnahme von Termen, die im vorliegenden Text vorkommen (Minimierung der Gefahr von Missverständnissen) • Additionsmethode: Zuteilung von Termen, die im Text nicht enthalten sind (Achtung: Fehlinterpretationen sind möglich) einzig mögliche Methode bei nicht-textuellen Medien (Bildern, Videosequenzen, ...) – alle ermittelten Terme notieren HHU Düsseldorf – SS 2005 Wissensrepräsentation 257 Thesauri • Indexieren – Aufsuchen der ermittelten Terme im Thesaurus • ermittelter Term ist Deskriptor: Deskriptor übernehmen • ermittelter Term ist Nicht-Deskriptor: zugehörigen Deskriptor übernehmen • ermittelter Term ist weder Deskriptor noch NichtDeskriptor: Gibt es einen bestpassenden anderen Deskriptor? Wenn ja: diesen übernehmen • Wenn nein: 1) Term in Vorschlagsliste für die Modifikation des Thesaurus notieren; 2) ggf. Term als „freien Begriff“ dem Dokument zuordnen • bei jedem Deskriptor den Relationen folgen: gibt es weitere passende Deskriptoren bei Oberbegriffen, Unterbegriffen, verwandten Begriffen usw.? • bei mehreren Kandidaten in der selben Begriffsleiter: ggf. nur den spezifischeren Deskriptor wählen (muss durch Regelwerk geklärt werden) HHU Düsseldorf – SS 2005 Wissensrepräsentation 258 Thesauri • Kriterien der Deskriptor-Auswahl: Indexierungstiefe • muss durch Regelwerk eindeutig vorgegeben sein (sonst würde die Datenbasis uneinheitlich indexiert) • Kriterium 1: Indexierungsbreite. Anzahl der zu vergebenden Deskriptoren (pro Dokument, pro Seite, pro Zeichen, ...) Bsp.: ifo Literaturdatenbank: ca. 0,5 bis 2 Deskriptoren pro Textseite Bsp.: Bibliodata: ca. 1 bis 2 Schlagworte pro Buch • Kriterium 2: Indexierungsspezifität. Trennschärfe der Deskriptoren – bereits häufig vergebene Deskriptoren sind wenig selektiv – Deskriptoren, die hoch in einer Begriffsleiter stehen, sind u.U. wenig selektiv – deshalb: wenig spezifische Deskriptoren möglichst mit anderen, trennscharfen Deskriptoren kombinieren HHU Düsseldorf – SS 2005 Wissensrepräsentation 259 Thesauri • Kriterien der Deskriptor-Auswahl: Dokumentationswürdigkeit von Deskriptoren – analog zur Dokumentationswürdigkeit von Dokumenten – (1) Relevanz im Dokument: Ist der Deskriptor im Rahmen des Dokumentes wichtig? – (2) Informationsbedarf der Nutzer: Braucht ein Nutzer das Dokument, der nach dem Deskriptor sucht? Sucht ein Nutzer überhaupt unter diesem Deskriptor nach dem Dokument? – (3) Bisheriger Stand der Datenbank: Gibt es „bessere“ Dokumente zu dem Deskriptor? Sagt das Dokument zum Deskriptor etwas Neues aus? HHU Düsseldorf – SS 2005 Wissensrepräsentation 260 Thesauri • Indexierungstiefe: Wie das Optimum finden? – zu wenige oder zu spezifische Deskriptoren: Informationsverlust – zu viele oder zu unspezifische Deskriptoren: Informationsballast – „gute“ Indexierung: Gratwanderung zwischen Informationsverlust und Informationsballast • Indexierungstiefe und Nutzertyp (Laie vs. Experte) – Laie sucht Überblick UND Indexierungstiefe niedrig: Rechercheergebnis zufriedenstellend (+) – Laie sucht Überblick UND Indexierungstiefe hoch: Rechercheergebnis bringt zu viele Treffer (-) – Experte sucht Spezialwissen UND Indexierungstiefe niedrig: Rechercheergebnis bringt zu wenige genaue Treffer (-) – Experte sucht Spezialwissen UND Indexierungstiefe hoch: Rechercheergebnis zufriedenstellend (+) HHU Düsseldorf – SS 2005 Wissensrepräsentation 261 Thesauri • Sicherung gleichbleibender Indexierungsqualität: Indexierungskonsistenz – Inter-Indexer-Konsistenz (Vergleich der Indexate zur selben DBE verschiedener Indexer) – Intra-Indexer-Konsistenz (Vergleich der Indexate des selben Indexers zur selben DBE zu unterschiedlichen Zeiten) – bei der Produktion der Datenbasis ist eine möglichst hohe Indexierungskonsistenz zu gewährleisten – Methode: in periodischen Abständen (etwa: monatlich) Tests durchführen; die Ergebnisse im Indexierer-Team besprechen; dabei: • Verbesserungen des Thesaurus (Thesauruspflege) • Verbesserungen des Indexierungshandbuchs HHU Düsseldorf – SS 2005 Wissensrepräsentation 262 Thesauri • Thesauri. Fazit – In der kommerziellen Informationswirtschaft sind die Thesauri DIE Methode der Wissensrepräsentation. – Thesauri eignen sich auch für den Einsatz bei Intranets bzw. Enterprise Information Portals. – Es existieren weltweit weit über 1.000 Thesauri. – Der „Standard“: Der DIN-Thesaurus kennt Synonyme (Nicht-Deskriptor – Deskriptor-Relation), Hierarchierelationen (Abstraktions- und Bestandsrelation) sowie die Assoziationsrelation. – Weitere (2-stellige) Relationen sind problemlos hinzufügbar (etwa: Nützlichkeit – Schädlichkeit). HHU Düsseldorf – SS 2005 Wissensrepräsentation 263 Thesauri • Thesauri. Fazit – Neben Profi-Oberflächen sollte man ThesaurusOberflächen für Laien herstellen, die diesen die Navigation erleichtern. – Thesauri werden ständig überarbeitet und dem Stand der Terminologie eines Faches angepasst (Thesauruspflege). – Indexierung geschieht entweder gleichordnend (der Standardfall) oder syntaktisch (durch Markierung der Themenketten). – Die Qualität der Indexierung einer Datenbasis ist von der Indexierungstiefe (Indexierungsbreite und –spezifität) und von der Indexierungskonsistenz abhängig. HHU Düsseldorf – SS 2005 Wissensrepräsentation 264 Thesauri • Vorteile von Thesauri – Navigation durch diverse Relationen möglich – Können die Strukturen eines Fachgebiets umfassend terminologisch abbilden – Arbeiten mit der natürlichen Sprache (ggf. Nachteil: Beschränkung auf eine Sprache; Ausgleich durch multilinguale Thesauri) – Sind (relativ) leicht modifizierbar (zumindest leichter als Klassifikationssysteme) HHU Düsseldorf – SS 2005 Wissensrepräsentation 265 Thesauri • Nachteile von Thesauri – Der Thesaurusaufbau und die Thesauruspflege ist aufwendig und damit (z.T.: sehr) teuer. – Laien kommen u.U. (insbesondere, wenn keine eigenen Laien-Oberflächen geschaffen werden) mit Thesauri nicht zurecht. – Der Einsatz eines Thesaurus erfordert zusätzlich den Einsatz spezifischer Software (etwa: Weiterleitung bei der Eingabe von Nicht-Deskriptoren, Einbeziehen von Deskriptoren aus Relationen in eine Suche) – Wie bei der Klassifikation bildet ein Thesaurus nur Begriffe und deren Relationen ab, aber nicht die Sachverhalte, die dazu ausgesagt werden (und die das Wissen des Fachbereichs repräsentieren) HHU Düsseldorf – SS 2005 Wissensrepräsentation 266 Textsprachliche Methoden Volltextspeicherung Titelindexierung Textwortmethode Zitationsindexierung HHU Düsseldorf – SS 2005 Wissensrepräsentation 267 Textsprachliche Methoden • Volltextspeicherung – Speicherung des Fließtextes im ASCII-Format (für die Suche) – Speicherung des Originallayouts im PDF-Format (für die Anzeige) – falls PDF nicht möglich: Fließtext (wenn möglich in QuasiFaksimile) und Links zu Graphiken oder Abbildungen – Grundsatz: Volltexte nie „solo“ (ohne intellektuelle Inhaltserschließung oder ohne automatische Indexierung) ablegen • Suchfunktionalität bei Volltexten – einfache Boolesche Retrievalsysteme ungeeignet – Boolesche Systeme mit Abstandsoperatoren Mindestanforderung – Systeme mit automatischer Indexierung und mit Relevance Ranking erforderlich HHU Düsseldorf – SS 2005 Wissensrepräsentation 268 Textsprachliche Methoden • Volltextspeicherung: Warum nicht den Volltext ohne Inhaltserschließung? – Das Vorkommen eines Wortes bedeutet nicht, dass auch etwas darüber ausgesagt wird („Dieser Artikel sagt nichts über die Zustände in Ungarn aus“ als Treffer einer Suchfrage nach „Ungarn“). – keinerlei kontrolliertes Vokabular zur Suche vorhanden: • Probleme mit Synonymen und Homonymen • Probleme mit Fremdsprachen • elliptische Formulierungen oder Wortspiele – Der Volltext solo erfüllt nicht die Anforderung eines Informationsfilters. – Volltext (ASCII) ist nur zur ergänzenden Suche geeignet. HHU Düsseldorf – SS 2005 Wissensrepräsentation 269 Textsprachliche Methoden • Volltextspeicherung Zusammenspiel von: Metadaten, ASCII-Volltext, Faksimile (bei digitalen Dokumenten), Kopien-Service (bei nicht-digitalen Dokumenten) Beispiel: Konzeption der deutschen Virtuellen Fachbibliotheken ( EconDoc; GetInfo; infoconnex; MedPilot) HHU Düsseldorf – SS 2005 Wissensrepräsentation 270 Textsprachliche Methoden • Titelindexierung – Übernahme von Stichworten aus den Sachtiteln von Büchern oder Artikeln – frühes Verfahren der Wissensrepräsentation; eingesetzt vor allem bei Registern – Methoden: • KWIC (Keyword in Context) • KWOC (Keyword out of Context) • KWAC (Keyword and Context) • Permutierte Stichworte • Stichworte in grammatischer Grundform • stets: Elimination von Stoppworten HHU Düsseldorf – SS 2005 Wissensrepräsentation 271 Textsprachliche Methoden • Titelindexierung Beispiel: Titel: Mehrwerte von Information – Professionalisierung der Informationsarbeit (lfd.Nr.: 5) KWIC Mehrwerte von Information – Professionalisierung der Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 5 5 5 KWOC Information Informationsarbeit Mehrwerte Professionalisierung Mehrwerte von ... – Professionalisierung der Informationsarbeit Mehrwerte von Information – Professionalisierung der ... ... von Information – Professionalisierung der Informationsarbeit Mehrwerte von Information – ... der Informationsarbeit HHU Düsseldorf – SS 2005 Wissensrepräsentation 5 5 5 5 272 Textsprachliche Methoden • Titelindexierung Beispiel: Titel: Mehrwerte von Information – Professionalisierung der Informationsarbeit (lfd.Nr.: 5) KWAC Information Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 Mehrwerte Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 Professionalisierung Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 Permutierte Stichworte (mit grammatischer Grundform) Information – Informationsarbeit Information – Mehrwert(e) Information – Professionalisierung Informationsarbeit – Information ... HHU Düsseldorf – SS 2005 5 5 5 5 Wissensrepräsentation 273 Textsprachliche Methoden • Titelindexierung – Vorteile • schnell zu erstellen • kostengünstig • bei gewissen bibliothekarischen Projekten (etwa Retrokatalogisierung): einzig praktikable Methode – Nachteile: • kein kontrolliertes Vokabular (analog zu den Problemen der Volltextspeicherung) • Informationsverlust – je nach Dokumenttyp (sehr hoch bei Zeitungsartikeln, bei Patenten und bei Büchern, weniger hoch bei wissenschaftlichen Artikeln) – je nach Fach (hoch bei Geisteswissenschaften, weniger hoch bei Naturwissenschaften und Medizin) – Beispiel: Philosophie / Artikel: Verlust von über 80% im Vergleich zur Textwortmethode HHU Düsseldorf – SS 2005 Wissensrepräsentation 274 Textsprachliche Methoden • Titelindexierung – die Nachteile überwiegen – als einzige Methode der Wissensrepräsentation nicht geeignet – trotzdem: in Datenbanken spezielles Feld (bzw. speziellen Tag bei HTML- bzw. XML-Dokumenten) für die Aufnahme der Titel definieren, das u.U. im Retrieval genutzt werden kann – KWIC im Volltext bei der Ausgabe nutzen: die Suchargumente im Kontext (hervorgehoben) anzeigen KWIC bei der Trefferliste von Google HHU Düsseldorf – SS 2005 Wissensrepräsentation 275 Textsprachliche Methoden Textwortmethode entwickelt von: Norbert Henrichs an der Forschungsabt. für philosophische Information und Dokumentation der Universität Düsseldorf (Ende der 60er Jahre des 20. Jahrhunderts) Ziel: Entwicklung einer wörterbuchunabhängigen Dokumentationsmethode. ursprünglicher Einsatzbereich: Philosophie Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969), 122-131. HHU Düsseldorf – SS 2005 Wissensrepräsentation 276 Textsprachliche Methoden • Textwortmethode – Einsatzgebiet • außerhalb fester Terminologien – als einzige Methode (in Disziplinen mit prinzipiell nicht-fester Terminologie; etwa: Philosophie) – oder ergänzende Methode (zur Aufnahme von Begriffen, die ein aktuell eingesetztes Klassifikationssystem oder ein Thesaurus nicht enthalten) • wenn noch keine Terminologie vorhanden ist (Textwortmethode bringt empirisches Termmaterial für den Aufbau von Dokumentationssprachen) – Basis der Wissensabbildung • ausschließlich der konkret vorliegende Text • KEIN vorgegebenes Begriffssystem HHU Düsseldorf – SS 2005 Wissensrepräsentation 277 Textsprachliche Methoden • Textwortmethode – Methode • Auswahlverfahren zur Markierung von „Sucheinstiegen“ in Texte (N.B.: „Die Sprache ist das HAUS des Seins“, Heidegger. Texte werden als Häuser verstanden, die durch unterschiedliche Einstiege betreten werden.) • syntaktisches Indexieren: keine Einzelthemen, sondern thematische Ketten – Auswahlregeln Textwörter aus Titeln und Zwischentiteln häufig vorkommende Textwörter Textwörter aus textlichen Schlüsselstellen Bevorzugung von Neologismen Bevorzugung von informationsreichen (Mehrwort-) Ausdrücken • je nach Textdichte ca. 0,5 bis 2 Textwörter pro Textseite im Durchschnitt • • • • • HHU Düsseldorf – SS 2005 Wissensrepräsentation 278 Textsprachliche Methoden • Textwortmethode – Varianten • nur originalsprachig (Henrichs‘ Methode). Problem: Nutzer muss alle einschlägigen Textwörter in allen Textsprachen der Datenbank kennen • originalsprachig mit zusätzlicher Übersetzung in eine Zielsprache (Methode der Datenbank „Grazer Schule“) – Indexierung • intellektuell (sehr aufwendig, daher sehr teuer) • Variante eines automatischen Indexierens (bislang noch nicht erprobt) • ermöglicht stets gewichtetes Retrieval HHU Düsseldorf – SS 2005 Wissensrepräsentation 279 Textsprachliche Methoden • Textwortmethode – informetrische Verdichtungsmethoden • innerhalb genau einer Dokumentationseinheit – Gewichtungswert der Terme • gesamte Datenbasis oder Teilmenge davon – Wortfelder – Häufigkeit und Wichtigkeit von Termen – semantische Netze von Termen (Themennetze) Wolfgang G. Stock: Textwortmethode [Norbert Henrichs zum 65.]. – In: Password Nr 7+8 (2000), S. 26-35. HHU Düsseldorf – SS 2005 Wissensrepräsentation 280 Textsprachliche Methoden • Textwortmethode. Beispiel eines Indexats Meinong, Alexius: Über Gegenstandstheorie, in: Untersuchungen zur Gegenstandstheorie und Psychologie, hg. v. Alexius Meinong. Leipzig: Johann Ambrosius Barth, 1904, 1-50. Thematischer Rahmen: Sachthemen: Gegenstandstheorie (1-18); Etwas (1); Gegenstand (1-15); Wirkliche, das (2-3); Erkenntnis (2,10); Objektiv (3,10); Sein (4,6-8); Existenz (4-5); Bestand (4); Sosein (5-6); Nichtsein (5); Unabhängigkeit (6); Gegenstand, reiner (7-8); Außersein (7-8); Quasisein (7); Psychologie (9); Erkenntnisgegenstand (10); Objekt (10); Logik, reine (11); Psychologismus (11-12); Erkenntnistheorie (12); Mathematik (13,18); Wissenschaft (14,18); Gegenstandstheorie, allgemeine (15); Gegenstandstheorie, spezielle (15,18); Philosophie (17); Metaphysik (17); Gegebene, das (17); Empirie (17); Apriorische, das (17); Gesamtheit-derWissenschaften (18) Namen: Mally, Ernst (6); Husserl, Edmund (11); Höfler, Alois (16) HHU Düsseldorf – SS 2005 Wissensrepräsentation 281 Textsprachliche Methoden • Textwortmethode mit Übersetzungsrelation. Beispiel eines Indexats Veber, France: 07. O samoopazovanju kot posebni metodi znanstvenega raziskovanja, in: France Veber: Analiticna Psihologija. - Ljubljana: Kleinmayr & Bamberg, 1924, 39-50. Thematischer Rahmen: Sachthemen in Originalsprache: Sachthemen in Einheitssprache: samoopazovanje (1-6) Selbstbeobachtung (1-6) metoda (1) Methode (1) dozivljaj (2,5) Erlebnis (2,5) psihologija (3) Psychologie (3) opazovanje (4) Beobachtung (4) pristnost (5) Echtheit (5) dozivljanje (5) Erleben (5) spoznanje (6) Erkenntnis (6) HHU Düsseldorf – SS 2005 Wissensrepräsentation 282 Textsprachliche Methoden Syntagmatische Relationen zwischen den Begriffen Basis für – Thesaurusaufbau – Wissenschaftsgeschichte – Nutzung als „einstellbarer“ Thesaurus – Syntagma als Basis für Paradigma HHU Düsseldorf – SS 2005 Wissensrepräsentation 283 Textsprachliche Methoden • Textwortmethode – Vorteile • nimmt die Sprache der Autoren ernst • keinerlei paradigmatische Relationen, kein kontrolliertes Vokabular • einsetzbar in Gebieten, in denen Dokumentationssprachen nicht anwendbar sind • objektive Basis (im Gegensatz zu Dokumentationssprachen, die die Texte stets durch die Brille ihres Systems sehen); damit relativ interpretationsarm • Basis für diverse Weiterverarbeitungen (Thesaurusaufbau, Wissenschaftsgeschichte usw.) – Nachteile • aufwendig und teuer • u.U. mangelhafte Indexierungskonsistenz • Retrieval schwierig (kann jedoch durch Übersetzungen und durch informetrische Funktionen gemildert werden) HHU Düsseldorf – SS 2005 Wissensrepräsentation 284 Textsprachliche Methoden Zitationsindexierung (Citation Indexing) entwickelt von: Eugene Garfield am Institute for Scientific Information (Philadelphia; europäische Zentrale: London) (Mitte/Ende der 50er Jahre des 20. Jahrhunderts) Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. HHU Düsseldorf – SS 2005 Wissensrepräsentation 285 Textsprachliche Methoden • Einsatzgebiete: überall, wo zitiert wird – Recht: Urteile – Patente – wissenschaftliche Literatur • • • Grundidee: Das Notieren von Fußnoten (oder anderen bibliographischen Angaben) gibt über den Inhalt eines wissenschaftlichen Artikels Auskunft das Verfahren erfordert nur minimalen intellektuellen Aufwand und ist daher - als Methode der Inhaltserschließung - relativ kostengünstig herzustellen das Institute for Scientific Information (ISI) verfügt nahezu über eine Monopolstellung bei der zitatenanalytischen Auswertung wissenschaftlicher Literatur (Ausnahme: u.a. CiteSeer) HHU Düsseldorf – SS 2005 Wissensrepräsentation 286 Textsprachliche Methoden Zitat 1 Zitat 2 1 Stegmüller, Wolfgang: Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie. Band 4: Personelle und Statistische Wahrscheinlichkeit. Studienausgabe Teil A. - Berlin; Heidelberg; New York: Springer, 1973, S. 5. 2 ebd., S. 5. 3 ebd., S. 5. Mehrfachnennungen werden übergangen 4 ebd., S. 6. 5 ebd., S. 6. 6 Haller, Rudolf: Wandlungen der Wissenschaftsauffassung. In: Erhard Busek; Wolfgang Mantl; Meinrad Peterlik (Hrsg.): Wissenschaft und Freiheit. - Wien: Verlag für Geschichte und Politik; München: Oldenbourg, 1989, S. 46-58, hier: S. 57. 7 vgl. ebd., S. 55. HHU Düsseldorf – SS 2005 Wissensrepräsentation 287 Textsprachliche Methoden Zeit Zitierender Artikel „Zitation“ Informationsübermittlung Reputation „Referenz“ Zitierter Artikel HHU Düsseldorf – SS 2005 Wissensrepräsentation 288 Textsprachliche Methoden • Zitationsindexierung beim ISI. Geschichte • • • • • • • • • • Vorgeschichte: Shepards‘ Citations, Zitationsindex für Gerichtsurteile (das Vorbild) 1955: Garfield entwickelt die Idee wissenschaftlicher Zitationsindices 1958: Gründung des Institute for Scientific Information (ISI) in Philadelphia, MA erstes Produkt des ISI: Current Contents (CC) 1961: Science Citation Index (SCI) 1973: Social Sciences Citation Index (SSCI) 1976: Journal Citation Reports (JCR) 1978: Arts & Humanities Citation Index (A&HCI) 1997: Web of Science (WoS) 2001: Essential Science Indicators (ESI); Web of Knowledge HHU Düsseldorf – SS 2005 Wissensrepräsentation 289 Textsprachliche Methoden • Zitatenindexierung wissenschaftlicher Zeitschriftenliteratur beim Web of Science: – SCI. Zuwachs: 17.000 Quellenartikel mit 300.000 Zitationen pro Update (d.h. pro Woche); ab 1945 – SSCI. Zuwachs: 2.800 Quellenartikel mit 50.000 Zitationen pro Woche; ab 1956 – A&HCI. Zuwachs: 2.200 Quellenartikel mit 15.000 Zitationen; ab 1975 • zusätzlich via Online-Archive (z.B. DIALOG) recherchierbar sowie (als Auftragsforschung) beim ISI (Research Services Group) HHU Düsseldorf – SS 2005 Wissensrepräsentation 290 Textsprachliche Methoden • Kriterien der Zeitschriftenauswahl (derzeit: rund 8.000 ausgewertet) • Kernzeitschriften pro Disziplin (Ausnutzung des Garfieldschen Gesetzes) Problem: Gesetz sagt etwas über eine Anzahl von Zeitschriften im Kern aus, welche Titel jeweils darin sind, ändert sich andauernd deshalb: intellektuelle Durchsicht neuer (oder neu angebotener) Zeitschriften (ca. 2000 Zeitschriften jährlich, Auswahl von rund 10-12%) Auswahlkriterien nach „Basic Standards“ – regelmäßige und termingerechte Erscheinungsweise – aussagekräftiger Zeitschriftentitel – aussagekräftige Artikeltitel – vollständige bibliographische Angaben bei Fuß- und Endnoten – englische Artikeltitel (bei nicht-englischer Literatur: Übersetzungen) – englische Abstracts, englische Keywords – Peer Review – internationale Ausrichtung (ggf. auch wichtige regionale Ausrichtung) – Neuigkeit des Inhalts (liegen schon ähnliche Zeitschriften beim ISI vor?) Expertenurteile • • • HHU Düsseldorf – SS 2005 Wissensrepräsentation 291 Textsprachliche Methoden • Retrievalfunktionen bei Zitationsdatenbanken – Rekonstruktion der Informationsübermittlungen nach „hinten“, d.h. zur zitierten Literatur (via Referenzen) – Rekonstruktion der Informationsübermittlungen nach „vorne“, d.h. zur zitierenden Literatur (via Zitationen) – assoziatives Retrieval nach „verwandter“ Literatur (über gemeinsame Referenzen) – (Zugang zu den Volltexten) HHU Düsseldorf – SS 2005 Wissensrepräsentation 292 Textsprachliche Methoden Referenzen Zitationen Web of Science Trefferanzeige HHU Düsseldorf – SS 2005 Wissensrepräsentation 293 Textsprachliche Methoden Web of Science Anzeige der Zitationen HHU Düsseldorf – SS 2005 Wissensrepräsentation 294 Textsprachliche Methoden • Zitationsindexierung. Probleme – Autoren zitieren nicht alle einschlägigen Quellen (u.a. „Super-Klassiker“) – Autoren zitieren Quellen, die nicht einschlägig sind (u.a., weil sie die eigene Meinung stützen) – Autoren haben unterschiedliche Zitationsstile – Selbstzitationen („Inzest“) – Zitationskartell (Selbstzitation einer Gruppe) – Zitationsebenen (nach Blaise Cronin) • • • • • V. Lebenswerk (im Text, zitatenanalytisch nicht erfasst) IV. Motiv (im Text, zitatenanalytisch nicht erfasst) III. Werk: Buch, Artikel (zitatenanalytisch sauber fassbar) II. Kapitel, Abschnitt (wird Ebene III zugeschrieben) I. Detail (wird Ebene III zugeschrieben) HHU Düsseldorf – SS 2005 Wissensrepräsentation 295 Textsprachliche Methoden • Zitationsindexierung beim ISI. Probleme – Repräsentativität der selektierten Zeitschriften von Disziplin zu Disziplin (und von Land zu Land) unterschiedlich – Titel der Quellenartikel nur in englisch – Zitationen werden (mehr oder minder) einheitlich abgekürzt; für Laien: „Verstümmelung von Fußnoten“ – versteckte Literaturangaben im Text werden nicht immer (bei SCI und SSCI: gar nicht) berücksichtigt – Publikations- und Zitationsraten des ISI haben große Bedeutung in der Wissenschaftsforschung und Wissenschaftsevaluation (auch z.B. bei Lehrstuhlbesetzungen); deshalb sehr wichtig: Kenntnis der methodischen Probleme bei der Zitationsindexierung) HHU Düsseldorf – SS 2005 Wissensrepräsentation 296 Textsprachliche Methoden • Navigation auf den Zitationen bei CrossRef – CrossRef: Zusammenschluss wichtiger Wissenschaftsverlage mit digitalen Volltexten – Die Artikel sind – über die Referenzen – miteinander verlinkt – Technik: DOI (digital object identifyer) HHU Düsseldorf – SS 2005 Wissensrepräsentation 297 Textsprachliche Methoden • Shepardizing – – – – bewertende Zitationsindexierung Anwendungsfeld: juristische Entscheidungen eingesetzt bei LexisNexis Klassen (1. Hierarchieebene) • Warnung: negative Referenz (Signalfarbe: rot) • in Frage gestellt – Gültigkeit eines Urteils wird hinterfragt (orange) • Vorsicht: mögliche negative Sicht (gelb) • positiv – Fall wird zustimmend diskutiert (grün) • neutral – weder negativ noch positiv (blaues "A") • Zitationsinformationen in anderen Quellen zugänglich (blaues "I") HHU Düsseldorf – SS 2005 Wissensrepräsentation 298 Textsprachliche Methoden • Shepardizing HHU Düsseldorf – SS 2005 Wissensrepräsentation 299 Textsprachliche Methoden • Assoziative Suche über Zitationen / LexisNexis HHU Düsseldorf – SS 2005 Wissensrepräsentation 300 Textsprachliche Methoden • Zitatenindexierung – Vorteile: • ergänzt durch die besondere Form der Wissensabbildung jede andere Erschließungsmethode • ermöglicht Navigation über die Referenzen (CrossRef, ISI) und Zitationen (ISI, CiteSeer, Shepards‘) • ermöglicht assoziatives Retrieval über die Menge gemeinsamer Referenzen bei unterschiedlichen Artikeln – Nachteile: • nur Artikel in Zeitschriften, Proceedings und Sammelbänden (keine Monographien) als Quellen • bei Referenzen wird u.U. „geschummelt“ • praktische Probleme beim ISI: u.a. Auswahl der Quellenwerke HHU Düsseldorf – SS 2005 Wissensrepräsentation 301 Nicht-thematische Informationsfilter HHU Düsseldorf – SS 2005 Wissensrepräsentation 302 Nicht-thematische Informationsfilter Nicht-thematischer Informationsfilter (1): Zielgruppe • • • jeder dokumentarischen Bezugseinheit die spezifische(n) Zielgruppe(n) zuordnen Grund: nicht jedes Dokument ist für jeden Nutzertyp interessant Bsp.: bei fachlicher Literaturdatenbank: – – – – – – • interessierter Laie Schüler (Oberstufe – Leistungskursniveau) Student (B.A.-Niveau) Student (M.A.-Niveau) Forscher (mit allgemeinem Fachwissen) Forscher (mit speziellem Fachwissen) im Bsp.: Abfrage im Feld „Zielgruppe“ frei selektierbar; keine Zugangsbeschränkung HHU Düsseldorf – SS 2005 Wissensrepräsentation 303 Nicht-thematische Informationsfilter Nicht-thematischer Informationsfilter (1): Zielgruppe • Bsp.: bei unternehmensspezifischer Datenbank (im Intranet und Extranet): – – – – – – – – – • (registrierter) Zulieferer (anderer) Zulieferer (registrierter) Kunde (anderer) Kunde Unternehmensmitarbeiter Management Forscher / Entwickler Marketing Betriebsrat im Bsp.: Zugang zu bestimmten Dokumentationseinheiten nur mit gesondertem Passwort HHU Düsseldorf – SS 2005 Wissensrepräsentation 304 Nicht-thematische Informationsfilter Nicht-thematischer Informationsfilter (1): Zielgruppe • Bsp.: bei Datenbank über Kunstwerke: – – – – – – • interessierter Laie Kaufinteressent Künstler Kunsthistoriker Politiker Journalist für jede Datenbank sind die Zielgruppen zu bestimmen (Segmentierung über empirische Erhebung oder – einfacher, aber unzuverlässiger – über „intuitive“ Definition) HHU Düsseldorf – SS 2005 Wissensrepräsentation 305 Nicht-thematische Informationsfilter Nicht-thematischer Informationsfilter (2): Art der Themenbehandlung • • • Niveau der dokumentarischen Bezugseinheit hinsichtlich der Darstellung nicht zu verwechseln mit dem Dokumenttyp (wie Zeitschriftenartikel, Artikel in Proceedings, Buch, Rezension) Bsp.: bei fachlicher Literaturdatenbank – – – – • Überblicksartikel empirische Studie theoretische Abhandlung methodologische Studie Die Bezeichnungen für das Dokumentniveau sind als kontrolliertes Vokabular abzulegen. HHU Düsseldorf – SS 2005 Wissensrepräsentation 306 Nicht-thematische Informationsfilter Nicht-thematischer Informationsfilter (2): Art der Themenbehandlung Variante 1: Art der Themenbehandlung als Deskriptor Nachteil: „versteckt“ bei den thematischen Deskriptoren Quelle: EMBASE bei Ovid HHU Düsseldorf – SS 2005 Wissensrepräsentation 307 Nicht-thematische Informationsfilter Nicht-thematischer Informationsfilter (2): Art der Themenbehandlung Variante 2: Art der Themenbehandlung als separates Feld Quelle: TEMA bei FIZ Technik HHU Düsseldorf – SS 2005 Wissensrepräsentation 308 Nicht-thematische Informationsfilter Nicht-thematischer Informationsfilter (3): Verfallsdatum • • • • nur bei zeitkritischen Dokumenten Angabe eines Datums, nach dem die Dokumentationseinheit aus dem aktiven Informationssystem entfernt wird entweder: löschen oder: im Archiv weiterhin bereithalten HHU Düsseldorf – SS 2005 Wissensrepräsentation 309 Automatische Indexierung HHU Düsseldorf – SS 2005 Wissensrepräsentation 310 Automatische Indexierung • • • • • Automatische Indexierung unter Nutzung von Informationsfiltern Hinweis: ohne definierte Informationsfilter: Textstatistik / Linktopologie (Vorl. „Einführung in die Informationswissenschaft“) Voraussetzung: Einsatz informationslinguistischer Verfahren Varianten: (1) ohne Dokumentationswerkzeug: Klassifikation von Dokumenten nach Ähnlichkeit – a) permanent: Klassifikation über die gesamte Datenbasis – b) temporär: für jede Suchanfrage • (2) mit Dokumentationswerkzeug (Schlagwortliste, Klassifikationssystem, Thesaurus): Dokumentanalyse – Zuordnung von Notationen, Schlagworten bzw. Deskriptoren HHU Düsseldorf – SS 2005 Wissensrepräsentation 311 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • • • • • • Ziel: Zusammenfassen ähnlicher Dokumente unter eine Klasse (möglichst große Ähnlichkeit innerhalb der Klasse, möglichst große Unähnlichkeit zu anderen Dokumenten bzw. Klassen) Basis: Worte und (erkannte) Phrasen von jeweils zwei Dokumenten in Grundform oder Wortstamm Anzahl der Worte/Phrasen in Dokument A: a Anzahl der Worte/Phrasen in Dokument B: b Anzahl der in A und B gemeinsam vorkommenden Worte/Phrasen: g ggf. zusätzlich: jeweils Gewichtungswert (IDF, WDF, Position) jedes Wortes bzw. jeder Phrase (i) Edie Rasmussen: Clustering Algorithms. – In: William B. Frakes; Ricardo Baezo-Yates (Hrsg.): Information Retrieval. Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 419-442. HHU Düsseldorf – SS 2005 Wissensrepräsentation 312 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • Ähnlichkeitsmaße • Koeffizient nach DICE • Ähnlichkeit(A,B) = 2g / (a + b) • 2 * Σ (Gewicht(i,A) * Gewicht(i,B)) gewichtete Ähnlichkeit(A,B) = ------------------------------------------------ Σ (Gewicht(i,A))2 + Σ (Gewicht(i,B))2 wobei i : Wort/Phrase in A und B HHU Düsseldorf – SS 2005 Wissensrepräsentation 313 Automatische Indexierung • • Klassifikation von Dokumenten nach Ähnlichkeit Ähnlichkeitsmaße • Koeffizient nach JACCARD • Ähnlichkeit(A,B) = g / (a + b - g) Σ (Gewicht(i,A) * Gewicht(i,B)) • Ä(A,B) = -------------------------------------------------------------------------------------------- Σ (Gewicht(i,A))2 + Σ (Gewicht(i,B))2 – Σ (Gewicht(i,A) * Gewicht(i,B)) wobei i : Wort/Phrase in A und B HHU Düsseldorf – SS 2005 Wissensrepräsentation 314 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • Ähnlichkeitsmaße • Cosinus-Koeffizient • Ähnlichkeit(A,B) = g / (a * b)1/2 Σ (Gewicht(i,A) * Gewicht(i,B)) • Gew. Ähnlichkeit(A,B) = -----------------------------------------------------------( Σ (Gewicht )2 * Σ (Gewicht )2 )1/2 (i,A) (i,B) wobei i : Wort/Phrase in A und B HHU Düsseldorf – SS 2005 Wissensrepräsentation 315 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • Ähnlichkeitsmaße • • • • Beispiel: Dokument A: 100 Worte (a=100); Dokument B= 200 Worte (b=200); gemeinsame Worte in A und B: 15 (g=15) Ähnlichkeit(A,B) nach DICE = 2g / (a + b), also: 30 / (100 + 200) = 0,1 Ähnlichkeit(A,B) nach JACCARD = g / (a + b - g), also 15 / (100 + 200 – 15) = 15 / 285 = 0,053 Cosinus-Ähnlichkeit(A,B) = g / (a * b)1/2, also: 15 / (100 * 200)1/2 = 15 / (20.000)1/2 = 15 / 141,42 = 0,106 HHU Düsseldorf – SS 2005 Wissensrepräsentation 316 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • • Errechnung der Ähnlichkeit für alle Dokumentpaare (einer Datenbank oder eines Suchergebnisses) Herstellen einer Ähnlichkeitsmatrix Dok1 Dok2 Dok3 ... Dokn Dok1 1 Ä(2,1) Ä(3,1) Dok2 Dok3 1 Ä(3,2) 1 Ä(n,1) Ä(n,2) Ä(n,3) HHU Düsseldorf – SS 2005 Wissensrepräsentation Dokn 1 317 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • • Clusteranalyse Single-Link-Verfahren: – Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem Cluster enthalten ist – Hinzufügen von allen Dokumenten, die mit A ähnlich sind (d.h. die einen Schwellenwert überschreiten), sagen wir: C und D – Hinzufügen von allen Dokumenten, die mit B ähnlich sind, sagen wir: E, F und G – Hinzufügen von allen Dokumenten, die mit C ähnlich sind – usw. ... – ... bis kein Dokument mehr vorhanden ist, das den Schwellenwert überschreitet – nächstes Paar (wie oben) • das Single-Link-Verfahren erzeugt u.U. sehr große Cluster HHU Düsseldorf – SS 2005 Wissensrepräsentation 318 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • Single-Link-Verfahren. Beispiel. Schwellenwert Ähnlichkeit = 0,2 0,30 A B Klasse 0,25 0,25 0,24 C D 0,27 0,21 H 0,29 E F 0,29 I 0,22 J G HHU Düsseldorf – SS 2005 Wissensrepräsentation 319 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • Clusteranalyse • Complete-Link-Verfahren: – Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem Cluster enthalten ist – Hinzufügen von allen Dokumenten, die mit A und B ähnlich sind (d.h. einen Schwellenwert überschreiten) – und die untereinander ähnlich sind (d.h. den Schwellenwert überschreiten) • das Complete-Link-Verfahren erzeugt u.U. sehr kleine Cluster HHU Düsseldorf – SS 2005 Wissensrepräsentation 320 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • Complete-Link-Verfahren. Beispiel. Alle Ähnlichkeitswerte liegen über dem Schwellenwert A B C Klasse F H G HHU Düsseldorf – SS 2005 Wissensrepräsentation 321 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • Clusteranalyse • Group-Average-Link-Verfahren: – Mittelstellung zwischen Single-Link- und Complete-Link-Verfahren – Ausgang: wie Single-Link-Verfahren – Errechnung der durchschnittlichen Ähnlichkeit aller Paare – durchschnittliche Ähnlichkeit als Schwellenwert – alle Paare verbleiben im Cluster, deren Ähnlichkeit über dem Schwellenwert liegen HHU Düsseldorf – SS 2005 Wissensrepräsentation 322 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • Group-Average-Link-Verfahren. Beispiel. Entfernen der Paare, die unter der Durchschnittsähnlichkeit im Single-Link-Cluster (im Beispiel: 24,9) liegen A 0,30 B Klasse 0,25 0,29 0,25 C E F 0,27 H 0,29 G HHU Düsseldorf – SS 2005 Wissensrepräsentation 323 Automatische Indexierung • Klassifikation von Dokumenten nach Ähnlichkeit • Nicht-hierarchische Klassifikation • Hierarchische Klassifikation – mehrfache Anwendung der Clusterbildung innerhalb bereits erkannter Cluster – Abbruch, wenn unterer Schwellenwert (minimale Anzahl von Dokumenten im Cluster) erreicht wird • letzter Schritt: Finden einer aussagekräftige Klassenbenennung (Wort(e)/Phrase(n) mit höchsten Gewichtungswerten) • Einsatzgebiet der Klassifikation nach Ähnlichkeit – unternehmensinterne Dokumentsammlungen, die überhaupt nicht indexiert worden sind HHU Düsseldorf – SS 2005 Wissensrepräsentation 324 Automatische Indexierung • Automatische Zuordnung von Schlagworten • • Voraussetzung: Dokumentationswerkzeug (Schlagwortliste, Klassifikationssystem, Thesaurus) liegt vor Ansatz 1. Probabilistische Verfahren: Wie groß ist die Wahrscheinlichkeit, dass einem gegebenen Dokument ein bestimmtes Schlagwort (Schlagwort i.e.S., Notation, Deskriptor) zuzuordnen ist? – Voraussetzung: Vorliegen von Wahrscheinlichkeitsinformationen (zum „Training“ des Systems) – Beispiel: AIR/PHYS HHU Düsseldorf – SS 2005 Wissensrepräsentation 325 Automatische Indexierung • Automatische Zuordnung von Schlagworten • • • Ansatz 2: Textstatistische Verfahren: Welche Textworte (Phrasen) mit welcher Gewichtung müssen vorliegen, damit ein bestimmtes Schlagwort zuzuordnen ist? Ansatz 3: Regelbasierte Verfahren: Wenn Textworte und ihre Umgebung gewissen Regeln folgen, wird ein bestimmtes Schlagwort zugeordnet. Im praktischen Einsatz: Mischformen aus den drei Ansätzen – Beispiele: Reuters – Factiva („Intelligent Indexing“), Dialog Profound („InfoSort“), Dialog NewsEdge („Realtime Content Refinery System“) – Convera („RetrievalWare“) HHU Düsseldorf – SS 2005 Wissensrepräsentation 326 Automatische Indexierung • Automatische Zuordnung von Schlagworten probabilistisches Verfahren • Beispiel AIR/PHYS • Projekt der TH Darmstadt mit FIZ Karlsruhe • Physikdatenbank – Erschließungsbasis: Abstracts – Sprache: englisch • Erschließungswerkzeug: Physik-Thesaurus • ca. 392.000 intellektuell indexierte Dokumente (Abstracts und Deskriptoren) liegen vor und dienen als Basis für das Wörterbuch PHYS-PILOT Peter Biebricher; Norbert Fuhr; Gerhard Lustig; Michael Schwantner; Gerhard Knorz: The automatic indexing system AIR/PHYS – From research to application. – In: Proceedings of the 11th Annual International Conference on Research and Development in Information Retrieval. – New York: ACM, 1988, 333-342. HHU Düsseldorf – SS 2005 Wissensrepräsentation 327 Automatische Indexierung • AIR/PHYS • • Wörterbuch PHYS/PILOT Vokabular aus den intellektuell indexierten Dokumenten – #Dok(t) : Anzahl der Dokumente, die den Term t im Abstract enthalten – #Dok(t,s) : Anzahl der Dokumente aus #Dok(t), die den Deskriptor s enthalten • • Wahrscheinlichkeit für ein Term-Deskriptor-Paar z(t,s) = #Dok(t,s) / #Dok(t) Schwellenwerte – #Dok(t,s) = 2 – z(t,s) = 0,29 • Ergebnis: 800.000 Term-Deskriptor-Paare, davon 350.000 genutzt HHU Düsseldorf – SS 2005 Wissensrepräsentation 328 Automatische Indexierung • AIR/PHYS - Wörterbuch PHYS/PILOT – Beispiel Term Deskriptor stellar wind STELLARS WINDS molecular outflow hot star wind terminal stellar wind velocity #Dok(t,s) 359 11 13 12 #Dok(t) 479 19 17 13 z(t,s) 0,74 0,57 0,76 0,92 Relationen im Thesaurus • Nicht-Deskriptor – Deskriptor • Hierarchie • Antonymie • formaler Einschluss (Bsp.: collision – atom collision) HHU Düsseldorf – SS 2005 Wissensrepräsentation 329 Automatische Indexierung • AIR/PHYS - Indexierung Dokument d – Deskriptor s Indexierungsgewicht g = a(x(d,s)) Relevanzbeschreibung x(d,s) • a(x(d,s)) ist abhängig von – – – – z(t,s) – t ist im Abstract vorhanden, t-s ist als Relation erkannt Häufigkeit des Auftretens von s im Abstract Auftreten von s im Titel ... weitere 30 Komponenten HHU Düsseldorf – SS 2005 Wissensrepräsentation 330 Automatische Indexierung • AIR/PHYS – Indexierung • • • a ist weiterhin abhängig von Deskriptor – Deskriptor – Relationen (etwa Begriff – Oberbegriff) die Berechnung von a(x(d,s)) durchläuft mehrere Iterationsrunden Transformation der gewichteten Deskriptorkandidaten in ungewichtete (0-1-Entscheidung) – wenn a(x(d,s)) größer als / gleich Schwellenwert Æ d wird durch s indexiert – wenn a(x(d,s)) kleiner als Schwellenwert Æ s wird nicht berücksichtigt • Güte der automatischen Indexierung (Stand: 1987) – 19% der Dokumente: von Indexern als brauchbar gewertet – 63%: brauchbar bei kleineren Korrekturen – 18%: unbrauchbar HHU Düsseldorf – SS 2005 Wissensrepräsentation 331 Automatische Indexierung • AIR/PHYS – Indexierung • • • • • • nur 44% der Deskriptoren sind durch die Relation z fundiert (also durch die bereits erkannten Zusammenhänge zwischen intellektuell zugeteilten Deskriptoren und Termen im Abstract) bei halbautomatischer Indexierung (d.h. Fehlerkorrektur der automatisch generierten Deskriptoren durch professionelle Indexer) steigt die Anzahl der erkannten Zusammenhänge zwischen t und s das Wörterbuch wird fortgeschrieben das System wird dadurch „trainiert“ das System müsste entsprechend fortlaufend besser werden ... dies allerdings nur in der Theorie – die Datenbank PHYS und damit deren automatische Indexierung wurden inzwischen eingestellt HHU Düsseldorf – SS 2005 Wissensrepräsentation 332 Automatische Indexierung • Automatische Zuordnung von Schlagworten – regelbasiertes Verfahren • Beispiel Construe-TIS • Projekt von Reuters Ltd. in Kooperation mit der Carnegie Group (Pittsburgh) • Datenbank mit Agenturmeldungen und Zeitungsartikeln – Erschließungsbasis: Volltexte – Sprachen: zunächst englisch, derzeit: 22 • Erschließungswerkzeug: Reuters-Thesaurus (derzeit: „Factiva Intelligent Indexing“) Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66. HHU Düsseldorf – SS 2005 Wissensrepräsentation 333 Automatische Indexierung • Topic Identification System (TIS) • Phase 1: Begriffserkennung • Begriff wird durch das Vorkommen bzw. Nicht-Vorkommen von Worten bzw. von Phrasen erkannt • Beispiel: Begriff GOLD (im Sinne einer Ware) • Operator &n : „und nicht in der selben Phrase“ (weitere Operatoren: „im selben Satz“, „im selben Dokument“) • beim Begriffssatz GOLD hinterlegt: (gold (&n (reserve ! medal ! jewelry)) • im Text: „... gold production ...“ Æ GOLD • im Text: „... gold medal ...“ Æ NULL HHU Düsseldorf – SS 2005 Wissensrepräsentation 334 Automatische Indexierung • Topic Identification System (TIS) • Phase 1: Begriffserkennung • Zuordnung eines Gewichtungswertes zu den Begriffen in Abhängigkeit von gemeinsam vorkommenden Termen • Beispiel: Begriff FOREIGN EXCHANGE • Satz 1: „... the Fed intervented in the money market ...“ • Satz 2: „... currency speculation ...“ • Satz 1 hat eine höhere Wahrscheinlichkeit für FOREIGN EXCHANGE als Satz 2 HHU Düsseldorf – SS 2005 Wissensrepräsentation 335 Automatische Indexierung • Topic Identification System (TIS) • Phase 2: Regeln für Kategorisierung (Klassierung) • Wenn-dann-Regeln mit Booleschen Operatoren; angewandt auf erkannte Begriffe • erkannter Begriff: „concept“; vorgegebener Deskriptor: „category“ • Beispiel: Zuordnung des Deskriptors AUSTRALIAN DOLLAR zu einem Dokument • zu beachten: Dollars gibt es auch in den USA, in Singapur usw. HHU Düsseldorf – SS 2005 Wissensrepräsentation 336 Automatische Indexierung • Topic Identification System (TIS) • • Phase 2: Regeln für Kategorisierung (Klassenbildung) Regel: (if test: (or [australian-dollar-concept] (and [dollar-concept] [australia-concept] (not [us-dollar-concept]) (not [singapure-dollar-concept]) (not ...)) action: (assign australian-dollar-category)) • Solche Regeln können auf Satz-, Absatz- oder Textebene angewandt werden, alternativ auch auf Wortabstände. HHU Düsseldorf – SS 2005 Wissensrepräsentation 337 Automatische Indexierung • Topic Identification System (TIS) • Phase 2: Regeln für Kategorisierung (Klassenbildung) • Ein Text mit dem Satz „Australia announced today that it would devalue the dollar.“ bekommt nach der Regel den Deskriptor AUSTRALIAN DOLLAR zugeordnet. • weitere Regeln berücksichtigen die Anzahl des Vorkommens eines Begriffs oder die Position im Text HHU Düsseldorf – SS 2005 Wissensrepräsentation 338 Automatische Indexierung • Topic Identification System (TIS) • Phase 2: Regeln für Kategorisierung (Klassenbildung) • Regel (if test: or (and [gold-concept :scope headline 1] [gold-concept :scope body 1]) [gold-concept :scope body 4]) action: (assign gold catagory)) • Anmerkung: Diese Regel kann durch textstatistische Maße (WDF, IDF, Positionswert) noch verfeinert werden. HHU Düsseldorf – SS 2005 Wissensrepräsentation 339 Automatische Indexierung Weiteres Beispiel: Convera RetrievalWare HHU Düsseldorf – SS 2005 Wissensrepräsentation 340 Abstracts HHU Düsseldorf – SS 2005 Wissensrepräsentation 341 Abstracts Grundlegende Literatur • • • • • • Brigitte Endres-Niggemeyer: Summarizing Information. – Berlin [u.a.]: Springer, 1998. Edward T. Cremmins: The Art of Abstracting. - Philadelphia: ISI Press, 1982. Harold Borko; C.L.Bernier: Abstracting Concepts and Methods. – New York: Academic Press, 1975. Josef Koblitz: Methoden des Referierens von Dokumenten. – Leipzig: Bibliographisches Institut, 21968. Rainer Kuhlen: Informationsaufbereitung III: Referieren (Abstracts – Abstracting – Grundlagen). – In: Grundlagen der praktischen Information und Dokumentation. – München: Saur, 52004, 189-206. DIN 1426: Kurzreferate. HHU Düsseldorf – SS 2005 Wissensrepräsentation 342 Abstracts • Inhaltsangaben nach DIN 1426 – Formen von Inhaltsangaben: • Auszug (Inf.verdichtung: nicht geeignet, da selektiv) • Zusammenfassung (Inf.verdichtung: nicht geeignet, da Kenntnis des Textes vorausgesetzt wird) • Rezension (Inf.verdichtung: nur sehr bedingt geeignet; i.d.R. zu lang – günstig aber als Zusatzinformation) • Literaturbericht (Inf.verdichtung über mehrere Dokumente, wegen zu großer Länge nicht geeignet) • Annotation (Inf.verdichtung über Stichworte: nicht geeignet, so etwas macht man mittels Thesaurus, Klassifikation oder Textwortmethode) • Inhaltsverzeichnis (Inf.verdichtung: bei Monographien bedingt geeignet) • Sammelreferat (Inf.verdichtung über mehrere Dokumente; sehr geeignet) • Kurzreferat / Abstract (Inf.verdichtung eines Dokuments; sehr geeignet) HHU Düsseldorf – SS 2005 Wissensrepräsentation 343 Abstracts • Inhaltsangaben nach DIN 1426 – Kurzreferat / Abstract (bei genau einer DBE – der Standardfall) Sammelreferat (bei mehreren DBE): • • • • • Vollständigkeit Genauigkeit Objektivität Kürze Verständlichkeit – Ziele: • grundlegende Inhalte der Dokumente sollen vom Nutzer schnell und exakt erkannt werden • die Relevanz der Dokumente für eine Fragestellung muss klar werden • Nutzer muss entscheiden können, ob der Volltext benötigt wird • letztlich: Fundierung einer ja/nein-Entscheidung, ob der Volltext eingesehen wird (dem Link gefolgt wird; das Dokument gekauft oder eine Übersetzung in Auftrag gegeben wird) HHU Düsseldorf – SS 2005 Wissensrepräsentation 344 Abstracts • Kurzreferat / Abstract – Gliederung nach DIN 1463 • zentrale Aussage des Dokuments • ggf. Dokumenttyp spezifizieren (etwa: Forschungsbericht; Letter) • ggf. Art der Themenbehandlung nennen (Überblick, theoretische Arbeit, empirische Arbeit) • Hypothesen • Zielsetzung • Bezug zu anderen Arbeiten • Methodik (Untersuchungsgegenstand, -methoden, -techniken) • Ergebnisse und Schlussfolgerungen • Herkunftsvermerk: entweder „Autor“ oder Kürzel des Bearbeiters – Länge • Kurzmitteilung: max. 200 Zeichen • Zeitschriftenartikel: max. 500 Zeichen • umfangreiche Monographie: max. 1.000 Zeichen HHU Düsseldorf – SS 2005 Wissensrepräsentation 345 Abstracts • Kurzreferat / Abstract – Autorenabstract • Vorteile: – liegt mit der Publikation direkt vor – Autor bringt einschlägiges Fachwissen mit • Nachteile: – Autor ist nie objektiv – Autorensprache kann durchaus unverständlich sein – Inter-Abstractor-Konsistenz nicht gegeben – Fremdabstract • Vorteile: – objektiver (und wahrscheinlich verständlicher) als ein Autorenabstract – Konsistenz ist trainierbar – dokumentarisch-informationswissenschaftlicher Sachverstand • Nachteile: – muss erstellt werden (es fallen Kosten an) – Fachwissen ist nicht immer ausreichend vorhanden HHU Düsseldorf – SS 2005 Wissensrepräsentation 346 Abstracts • Kurzreferat / Abstract – Sprache • in Zielsprache(n) der Datenbasis • Vorteil für Nutzer: Kurzüberblick auch über Dokumente in Sprachen, die der Nutzer nicht beherrscht • deshalb sinnvoll anzuschließen: Übersetzungsservice für die Volltexte • bei digital vorliegenden Dokumenten: u.U. langt zunächst eine automatische Übersetzung (Bsp.: AltaVista‘s Babelfish oder Google‘s „translate tool“) HHU Düsseldorf – SS 2005 Wissensrepräsentation 347 Abstracts • Kurzreferat / Abstract – NICHT ins Abstract gehören • Titel (wäre redundant) • Negativa (wäre im Retrieval über den Abstract-Index irreführend) – Problem: Wahrheitsgehalt • Lösung 1: Referieren ohne Überprüfung des Wahrheitsgehalts der Vorlage („... Die Quadratur des Kreises arbeitet nach der Methode ...“) • Lösung 2: Überprüfung des Wahrheitsgehaltes der Vorlage und Markieren von zweifelhaften Aussagen („... Verf. behauptet, die Quadratur des Kreises geschehe nach der Methode ...“) – Typen des Kurzreferats / Abstracts • indikatives Referat • informatives Referat • analytisches Referat HHU Düsseldorf – SS 2005 Wissensrepräsentation 348 Abstracts • Kurzreferat / Abstract: Was wird aufgenommen? – das, worum es in einem Text geht – „aboutness“ • extensionale Aboutness: inhärente Aboutness eines Textes – diese ist Basis für Abstracts • intensionale Aboutness: Bedeutung (Stellenwert) eines Textes im Kontext anderer Texte – nicht für Abstracts geeignet (für Intertextualität ist die Zitationsindexierung zuständig) – im Sinne der Textlinguistik: „Makrostruktur“ eines Textes • Entscheidung, was weggelassen wird • Entscheidung, was (aus den speziellen Aussagen) verallgemeinert wird Helen R. Tibbo: Abstracting, Information Retrieval and the Humanities. – Chicago; London: American Library Association, 1993. (Chapter 2: Abstracts and Abstracting. Fundamental Considerations, 18-39). HHU Düsseldorf – SS 2005 Wissensrepräsentation 349 Abstracts • Kurzreferat / Abstract: homomorphe versus paramorphe Reduktion Text mit Makrostruktur homomorphe Reduktion HHU Düsseldorf – SS 2005 paramorphe Reduktion Wissensrepräsentation 350 Abstracts • Kurzreferat / Abstract: homomorphe versus paramorphe Reduktion – isomorphe Reduktion: die Makrostrukturen von Text und Abstract sind gleich (etwa: Thema A im Text 25% und Thema B im Text 16% des Umfangs, dann auch im Abstract A 25% und B 16%) – faktisch nicht durchführbar – homomorphe Reduktion: die Makrostrukturen von Text und Abstract sind ähnlich – bei Abstracts anzustreben – paramorphe Reduktion: die Makrostrukturen von Text und Abstract sind unterschiedlich (böse gesagt: das Abstract liegt „daneben“ [para, grch. = neben]) – oder u.U. positiv: perspektivisches Abstract HHU Düsseldorf – SS 2005 Wissensrepräsentation 351 Abstracts • Texttypologie – erzählende Texte (Geschichten, Geschichte, ...) – prozedurale Texte (Gebrauchsanweisungen, Rezepte, ...) – verhaltensbeeinflussende Texte (politische Reden, Werbetexte, ...) – erklärende Texte (wissenschaftliche Literatur, „Essays“, ...) • disziplinspezifische Texte – etwa: naturwissenschaftliche Texte mit i.d.R. straffer und anerkannter Strukturierung (hieran orientiert sich die deutsche Norm DIN 1463) – etwa: geisteswissenschaftliche Texte mit i.d.R. eher loser Strukturierung, wobei die Struktur allgemein kaum vorgegeben ist • Abstracts sind abhängig vom Texttyp der Vorlage und (bei erklärenden Texten) von der Fachdisziplin HHU Düsseldorf – SS 2005 Wissensrepräsentation 352 Abstracts • • disziplinspezifisches Abstracting. Beispiel bei technischen Dokumenten (etwa Patenten oder Gebrauchsmustern): zusätzlich zentral wichtige Zeichnung HHU Düsseldorf – SS 2005 Wissensrepräsentation 353 Abstracts • Indikatives Kurzreferat / Abstract Inhaltsanalyse referierwürdiges Dokument referierwürdige Inhaltskomponenten - Themen (weiße Kästen) - Aussagen zu den Themen (schraffierte Kästen) Indikatives Abstract: Wiedergabe der Themen in vollständigen Sätzen HHU Düsseldorf – SS 2005 Wissensrepräsentation 354 Abstracts • Indikatives Kurzreferat / Abstract - Beispiel • • • Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3 Abstract: Die Geschäftslage des ostdeutschen Einzelhandels im Januar 1993 wird beschrieben. Skizziert wird der in den nächsten sechs Monaten zu erwartende Geschäftsverlauf. Im einzelnen geht es um den Gebrauchsgüterbereich und den Verbrauchsgüterbereich. HHU Düsseldorf – SS 2005 Wissensrepräsentation 355 Abstracts • Informatives Kurzreferat / Abstract Inhaltsanalyse referierwürdiges Dokument referierwürdige Inhaltskomponenten - Themen (weiße Kästen) - Aussagen zu den Themen (schraffierte Kästen) Informatives Abstract: Wiedergabe der Aussagen zu den Themen in vollständigen Sätzen HHU Düsseldorf – SS 2005 Wissensrepräsentation 356 Abstracts • Informatives Kurzreferat / Abstract – Beispiel • • • Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3 Abstract: Die Geschäftslage des ostdeutschen Einzelhandels hat sich im Januar 1993 im Vergleich zum Vormonat deutlich verschlechtert. Hinsichtlich des in den nächsten sechs Monaten zu erwartenden Geschäftsverlaufs äußerten sich die Teilnehmer am ifo Konjunkturtest allerdings zuversichtlich. Im Gebrauchsgüterbereich ist die Geschäftslage im Durchschnitt zufriedenstellend; im Verbrauchsgüterbereich überwiegen negative Urteile. HHU Düsseldorf – SS 2005 Wissensrepräsentation 357 Abstracts • Analytisches Kurzreferat / Abstract (Strukturreferat) Inhaltsanalyse referierwürdiges Dokument referierwürdige Inhaltskomponenten - Themen (weiße Kästen) - Aussagen zu den Themen (schraffierte Kästen) Analytisches Abstract: Wiedergabe der Themen sowie der Aussagen zu den Themen in tabellarischer Form HHU Düsseldorf – SS 2005 Wissensrepräsentation 358 Abstracts • Analytisches Kurzreferat / Abstract – Beispiel • • • • • • • • • • Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3 Inhalt: Gegenstand: Ostdeutscher Einzelhandel im Januar 1993 Methode: ifo Konjunkturtest Ergebnisse: --- Geschäftslage: merklich verschlechtert gegenüber Vormonat --- Erwartungen: zuversichtlich (für die nächsten 6 Monate) --- Gebrauchsgüter: schwache Umsatzeinbußen, zufriedenstellend --- Verbrauchsgüter: starke Umsatzeinbußen, 1/3 aller Testteilnehmer äußern sich unzufrieden HHU Düsseldorf – SS 2005 Wissensrepräsentation 359 Abstracts • Kurzreferat / Abstract - Vor- und Nachteile Vorteile Nachteile indikativ kostengünstig informationsarm unübersichtlich informativ informationsreich bei langen Vorlagen kaum durchzuführen unübersichtlich teuer analytisch informationsreich strukturiert sehr teuer nicht für jede Art von Vorlagen geeignet HHU Düsseldorf – SS 2005 Wissensrepräsentation 360 Abstracts • Sammelreferat – Auswahl eines aktuellen („heißen“) Themas – Zusammenstellung der Menge einschlägiger Dokumente – Abstractingprozess wie bei Einzelabstract; jeweils jedoch bezug auf die Einzeldokumente nehmen (etwa durch End- oder Fußnoten) – außer Abstracting auch redaktionelle Arbeiten – Länge: 1 bis 3 Seiten – in den Endnoten oder in einer Bibliographie die bibliographischen Angaben der Dokumente nennen (ggf. dahin verlinken) – Einsatzgebiet: thematischer Pushdienst HHU Düsseldorf – SS 2005 Wissensrepräsentation 361 Abstracts • Sammelreferat – Beispiel: KnowledgeSummaries Willi Bredemeier: Knowledge Summaries. Journalistische Professionalität mit Verbesserungsmöglichkeiten bei Themenfindung und Quellenauswahl. – In: Password Nr. 3 (2004), 10-15. HHU Düsseldorf – SS 2005 Wissensrepräsentation 362 Abstracts • Sammelreferat – Beispiel: KnowledgeSummaries HHU Düsseldorf – SS 2005 Wissensrepräsentation 363 Abstracts • Automatisches Abstracting – Bemühungen seit Jahrzehnten; jedoch bisher in der Praxis wenig erfolgreich; nur experimentelle Systeme – Basismethode: Extraktion der „wichtigen“ Sätze aus einem Text anhand von Wahrscheinlichkeitswerten (P) für „Wichtigkeit“ • (1) Satzlänge (Mindestlänge: etwa 5 Worte): P(1) = 0 für Sätze mit weniger als 5 Worten); P(1) = 1 für alle anderen Sätze • (2) Indikatorphrasen (Sätze, die gewisse Phrasen – z.B. „in conclusion“ – enthalten, werden hoch bewertet): P(2) für Sätze mit Indikatorphrasen > P(2) für Sätze ohne Indikatorphrasen Brigitte Endres-Niggemeyer: Textzusammenfassung. – In: Computerlinguistik und Sprachtechnologie. Eine Einführung. – München: Elsevier – Spektrum 22004, 511-516. HHU Düsseldorf – SS 2005 Wissensrepräsentation 364 Abstracts • Automatisches Abstracting • (3) Absatzstruktur (Sätze in den vorderen und hinteren Ansätzen werden höher bewertet als solche in mittleren Absätzen): P(3) für Sätze in den ersten n Absätzen bzw. in den letzten m Absätzen > P(3) für alle anderen Sätze • (4) Sätze ranken nach Termgewichten (für alle Terme WDF und IDF berechnen – Termgewichte jedes Satzes addieren): P(4) = Summe der Termgewichte im Satz • (5) ggf. Sätze, in denen Akronyme vorkommen (z.B. IBM, SPD), höher bewerten: P(5) für Sätze mit einem Akronym > P(5) für Sätze ohne Akronyme • Errechnung der Wichtigkeitswahrscheinlichkeit für jeden Satz: P(Satz) = P(1) * P(2) * P(3) * P(4) * P(5) HHU Düsseldorf – SS 2005 Wissensrepräsentation 365 Abstracts • Automatisches Abstracting • Sortierung der Sätze nach P(Satz) • Auszählen der Länge (Anzahl der Zeichen) für jeden Satz • Vergleich mit Schwellenwert (maximale Länge des Abstracts) • Markieren der ersten n Sätze, deren Gesamtzeichenanzahl unter der maximalen Abstractlänge liegt • Herstellen der ursprünglichen Reihenfolge für diese n Sätze • diese n Sätze bilden das Abstract – verfeinerte Methoden • Vergleiche mit „Trainingsdaten“ (Abstracts professioneller – menschlicher – Abstracter sowie ihrer Ausgangstexte) • Kürzen von Sätzen • Zusammenfassen mehrerer Sätze HHU Düsseldorf – SS 2005 Wissensrepräsentation 366 Abstracts • Abstracts. Fazit – Referate ergänzen den Titel einer DE und ermöglichen dem Nutzer zu entscheiden, ob die DBE benötigt wird (auch bei fremdsprachlicher Literatur: Übersetzung!) – außer bei sehr kurzen Dokumenten (z.B. Kurzmeldungen bei Zeitungsartikeln) benötigt jede DE ein Abstract – die Informationsverdichtung geschieht so knapp, aber auch so aussagekräftig wie möglich, die Makrostruktur der Vorlage bleibt (nahezu) erhalten (homomorphe Reduktion) – Referate sind abhängig vom Texttyp und vom Fach der DBE – Typen der Informationsverdichtung des Inhalts eines Dokuments sind das indikative, informative (Standard) und das analytische Abstract – technische Dokumente benötigen u.U. eine Zeichnung zur Unterstützung des Abstracts – Informationsverdichtung mehrerer Dokumente geschieht über Sammelreferate, eingesetzt als thematischer Pushdienst HHU Düsseldorf – SS 2005 Wissensrepräsentation 367 Abstracts • Abstracts. Fazit – automatisches Abstracting: Berechnung der „Wichtigkeit“ von Sätzen innerhalb eines Dokuments (derzeit wenig ausgereifte Systeme) HHU Düsseldorf – SS 2005 Wissensrepräsentation 368 Informationsextraktion HHU Düsseldorf – SS 2005 Wissensrepräsentation 369 Informationsextraktion • Informationsextraktion – bei der Suche nach oder der laufenden Beobachtung von konkreten Sachverhalten im WWW – nicht: Angabe einer Webseite – sondern: Angabe des Sachverhalts (und nur diesen) analog zu den analytischen Kurzreferaten – die Sachverhalte werden den Webseiten entnommen (aus diesen „extrahiert“) – derzeitige Einsatzgebiete: vergleichende Informationen aus Webseiten bei Spezialsuchmaschinen oder Shopping Malls (z.B. Preisvergleiche); Informationsagenten Günter Neumann: Informationsextraktion. – In: Computerlinguistik und Sprachtechnologie. Eine Einführung. – München: Elsevier – Spektrum 22004, 502-510. HHU Düsseldorf – SS 2005 Wissensrepräsentation 370 Informationsextraktion • Informationsextraktion – vorgegeben: Menge von Objekten bzw. Merkmalen, die einen Sachverhalt bilden (z.B. Produktbezeichnung und Preis, Autor und Buch) – Extraktionsprozess: Wrapper („Einpacker“) • Startmenge: „typische“ Webseiten für die gesuchte Relation (bei Brin: 5 Bücher mit deren Autorennamen) • Retrieval: Suche nach Webseiten, in denen die gesuchte Relation vorkommt (also die 5 Bücher und Autorennamen) • Erkennen der Muster des Ausdrucks des Sachverhaltes (der „patterns“) – Worte, die den Zusammenhang ausdrücken – z.B. „by author“, „written by“ • Suche nach allen Webseiten, die einen solchen Sachverhalt ausdrücken – Ergebnis: konkrete Werte der Merkmale (z.B. Karl May - Winnetou) Sergey Brin: Extracting patterns and relations from the World Wide Web. – In: Lecture Notes in Computer Science, Vol. 1590. – Berlin [u.a.]: Springer, 1998, 172-183. HHU Düsseldorf – SS 2005 Wissensrepräsentation 371 Informationsextraktion hier: bis Rang 80 Meldung /data sheet oder Katalog hier: ab Rang 81 automatisch (Informationsextraktion) HHU Düsseldorf – SS 2005 Wissensrepräsentation 372 Informationsextraktion HHU Düsseldorf – SS 2005 Wissensrepräsentation 373 Informationsextraktion • Informationsextraktion – Ansätze: – (1) „Knowledge Engineering Approach“ die Sachverhalte sowie die Muster (patterns) werden intellektuell erstellt – (2) „Automatically Trainable Systems“ Suche nach Sachverhalten und Mustern mittels informationsstatistischer und –linguistischer Algorithmen (z.T. Verwendung von Trainingsdaten – etwa indexierte Korpora) – Weiterentwicklung der Forschungen zur Informationsextraktion durch MUC („Message Unterstanding Conferences“ – seit 1987) Douglas E. Appelt; David J. Israel: Introduction to Information Extraction Technology. – In: International Joint Conference on Artificial Intelligence 1999 (IJCAI-99). Line Eikvil: Information Extraction from World Wide Web. A Survey. – Oslo: Norwegian Computing Center, 1999. – (Technical Report; 945). HHU Düsseldorf – SS 2005 Wissensrepräsentation 374 Informationsextraktion • Informationsextraktion – Einsatz beim konkreten Informationsbedarf (Faktenfrage) • Kennzeichnung des Typs des Informationsbedarfs durch Nutzer • Beschreibung des gesuchten Sachverhalt (etwa 1. „Wie heißt die Hauptstadt von NRW?“ 2. „Wie heißen die Hauptstädte aller 25 EU-Länder?“ • automatisches Vorgehen nach Ansatz (2) „Automatically Trainable Systems“ – ggf. Dialog zur Abklärung der Mustererkennung • Aufsuchen der Webseiten – Informationsextraktion • Ausgabe nur des nachgefragten Sachverhalts zu Frage 1: Hauptstadt NRW : Düsseldorf (URL: ...) zu Frage 2: Hauptstadt Belgien : Brüssel (URL: ...) Hauptstadt Dänemark : Kopenhagen ... Hauptstadt Zypern : Nikosia (URL: ...) HHU Düsseldorf – SS 2005 Wissensrepräsentation 375 Informationsextraktion • Informationsagenten – laufende Beobachtung von Sachverhalten (Fakten) im WWW – periodischer Einsatz der Informationsextraktion („SDI für Fakten“) – Einsatzgebiet (Beispiel): • Wettbewerberbeobachtung (Personen im Management, Preisänderungen, Umsatzzahlen, ...) Nicholas Kushmerick; Bernd Thomas: Adaptive Information Extraction. Core Technologies for Information Agents. – Koblenz: Universität Koblenz-Landau / Institut für Informatik, 2003. – (Fachberichte Informatik 9/2003). HHU Düsseldorf – SS 2005 Wissensrepräsentation 376 Informationsextraktion • Informationsextraktion. Fazit – Informationsextraktion: Erkennen einzelner Sachverhalte, Extrahieren konkreter Sachverhalte aus digitalen Dokumenten • Einsatz innerhalb spezifischer Wissensbereiche (z.B. Produkte) – recht ausgereifte Systeme (z.B. Froogle) • Einsatz im WWW allgemein (beim konkreten Informationsbedarf) – derzeit Ansätze, keine laufenden Systeme) – Informationsagenten: SDI für Sachverhalte HHU Düsseldorf – SS 2005 Wissensrepräsentation 377 Das „semantische Web“: Ontologien – Topic Maps HHU Düsseldorf – SS 2005 Wissensrepräsentation 378 Semantisches Web Grundlegende Literatur • Dieter Fensel et al. (Eds.): Spinning the Semantic Web. – Cambridge, Mass.; London: MIT, 2003. • Richard Widhalm; Thomas Mück: Topic Maps. Semantische Suche im Internet. – Berlin [u.a.]: Springer, 2002. • Tim Berners-Lee: Semantic Web – XML 2000. (Folien). Online: www.w3.org/2000/Talks/1206-xml/2k-tbl HHU Düsseldorf – SS 2005 Wissensrepräsentation 379 Semantisches Web • Ontologien – bilden ab: Objekte (durch Begriffe) – analog zu Dokumentationssprachen und – (zumindest rudimentär) Sachverhalte (durch Sätze in einer formalisierten Sprache) – analog zu Abstracts – Die „Ontologie“ ist die explizite Spezifizierung eines (i.d.R. sehr kleinen) Wissensbereiches, so dass dieser in einem Informationssystem abgebildet werden kann. – Aspekte • • • • • • Relationen (2-stellig) Funktionen (n-stellige Relationen) Feldschema (Kategorien – Top Level Begriffe) Klassen (Allgemeinbegriffe) Instanzen (Individualbegriffe) Axiome (Regeln) HHU Düsseldorf – SS 2005 Wissensrepräsentation 380 Semantisches Web • Ontologien – Ursprung: Forschungen zur Künstlichen Intelligenz (u.a. von Tom R. Gruber – Stanford Knowledge Systems Lab) – da Ontologien jeweils einen engen Wissensbereich repräsentieren, sind Konkordanzen zwischen unterschiedlichen Ontologien nötig – Realisierung in XML – RDF: Resource Description Framework – innerhalb RDF: URI (Universal Resource Identifier) – benutzt wie eine URL bei Links (enthält die Relationen bzw. Funktionen zwischen den Klassen bzw. Instanzen) Tom R. Gruber: A translation approach to portable ontologies. – In: Knowledge Acquisition 5 (1993), 199-220. HHU Düsseldorf – SS 2005 Wissensrepräsentation 381 Semantisches Web • Ontologien Das World Wide Web in heutiger Form Quelle: W3C HHU Düsseldorf – SS 2005 Wissensrepräsentation 382 Semantisches Web • Ontologien Das World Wide Web mit Ontologie Quelle: W3C HHU Düsseldorf – SS 2005 Wissensrepräsentation 383 Semantisches Web • Ontologien – Schichtenmodell von Berners-Lee Tim Berners-Lee: Semantic Web – XML 2000. (Folien). Online: www.w3.org/2000/Talks/1206-xml/2k-tbl HHU Düsseldorf – SS 2005 Wissensrepräsentation 384 Semantisches Web • Ontologien – Abfrageagenten • übersetzen die Frage des Nutzers • kommunizieren via Ontologien mit Informationssystemen • geben bei (einfachen) Faktenfragen eine Antwort • bereiten Transaktionen vor • können sich auch auf (intelligente) Geräte richten – Beispiel 1: Gerätesteuerung • Stereoanlage läuft – Telefon klingelt: wenn Nutzer ans Telefon geht, schaltet sich die Stereoanlage leiser (Vor.: Stereoanlage ist URI; Regel: Wenn Telefongespräch, dann Anlage leise) HHU Düsseldorf – SS 2005 Wissensrepräsentation 385 Semantisches Web • Ontologien – Beispiel 2: Faktenfrage • • • • • • • • • • • • Anfrage: „Welche Arznei hilft gegen Vampirbisse?“ Klassen: in Kategorie Arznei: Arznei, Vampirbissarznei ... in Kategorie Krankheit: Vampirbiss ... in Kategorie Nebenwirkungen: Unsterblichkeit Instanz: Dracuex Funktion: ... hilft gegen ... mit Nebenwirkung ... - 3-stellige Relation Axiom: [Arznei] hilft gegen [Krankheit] mit Nebenwirkung [Nebenwirkung] Relation: Vampirbissarznei OB Arznei Relationen: ... ist ein/e ...; ... hat Nebenwirkung ... Axiom: Dracuex ist eine Vampirbissarznei Axiom: Dracuex hat Nebenwirkung Unsterblichkeit Ausgabe: Dracuex hilft gegen Vampirbisse mit Nebenwirkung Unsterblichkeit HHU Düsseldorf – SS 2005 Wissensrepräsentation 386 Semantisches Web • Ontologien – Beispiel 3: Transaktionsvorbereitung • Anfrage: Wo ist das nächstgelegene koreanische Restaurant, das gebratenen Hund führt und in einer halben Stunde für zwei Personen einen Tisch frei hat? – Einsatzbereiche von Ontologien • Intranet von Unternehmen • Kataloge im E-Commerce • Informationssysteme in (überschaubaren) Wissensbereichen HHU Düsseldorf – SS 2005 Wissensrepräsentation 387 Semantisches Web • Topic Maps – Begriffe und (rudimentär) Sachverhalte (wie bei Ontologien) – Topic Maps sind eigene Dokumente, die auf andere Dokumente verweisen (letztere haben mit den Topic Maps nichts zu tun) – aufgebaut seit Beginn der 90er Jahre; federführend u.a. Steven R. Newcomb und Michel Biezunski – geregelt durch ISO 13.250 (1999) – Basistechnik: XML (wichtig: DTD) – unter Verwendung von: URI – Einsatzbereiche: • Aufbaustruktur einer Website • Zugriff auf Dokumentmengen mittels unterschiedlicher Topic Maps HHU Düsseldorf – SS 2005 Wissensrepräsentation Michel Biezunski Steve Newcomb 388 Semantisches Web • Topic Maps – Topic: Begriff – Topic Name: ähnlich wie Deskriptor im Thesaurus (mit Nicht-Deskriptoren als Synonymen) – Scope: Lösung des Homonymproblems (durch Zusatz) – Type: Einordnung eines Topic in eine Kategorie („vom Typ“) – Association Role: (n-stellige) Relation – Facet: Aussage zu einem Topic – Occurrence: Dokument (u.a. Webseite) – liegt außerhalb des Topic Map HHU Düsseldorf – SS 2005 Wissensrepräsentation 389 Semantisches Web • Topic Map (Beispiel) Occurrence Type Land vom Typ Frankreich vom Typ grenzt an hat 10 Mio. Einwohner ist HauptStadt von Paris Scope HHU Düsseldorf – SS 2005 Deutschland war Währung in Role Facet Mark Geographie Topic „D-Mark“ „Deutsche Mark“ Wissensrepräsentation 390 Semantisches Web • Topic Maps • Website mit Topic Map Michel Biezunski; Steven R. Newcomb: Topic Maps: The Inventor‘s Perspective on Subject-based Access. (Vortrag bei der Library of Congress, Okt. 2003). Online: www.coolheads.com/PUBS/LC2003/ HHU Düsseldorf – SS 2005 Wissensrepräsentation 391 Semantisches Web • Informationsverdichtung durch Ontologien oder Topic Maps – Vorteile • nicht nur Begriffssysteme, sondern (zumindest rudimentär) Sachverhalte • „semantisches Retrieval“ • zur Wissensabbildung in kleinen (überschaubaren) Wissensdomänen geeignet – Nachteile • der Wissensstand einer Zeit wird festgeschrieben (zwar nicht prinzipiell, aber faktisch wegen riesigem Aufwand, das semantische Netz aktuell zu halten) • sehr aufwendig in der Entwicklung HHU Düsseldorf – SS 2005 Wissensrepräsentation 392 Informationsfilter und Informationsverdichter im Überblick HHU Düsseldorf – SS 2005 Wissensrepräsentation 393 Informationsfilter und –verdichter im Überblick Informationsfilter Thematische Filter Textsprachl. Methoden Volltext (ASCII) Titelindexierung Textwortmethode Nicht-thematische Filter Dokumentationsmethoden Klassifikation Schlagwortmethode Thesaurus Zielgruppe Themenbehandlung Zitationsindexierung HHU Düsseldorf – SS 2005 Wissensrepräsentation 394 Informationsfilter und –verdichter im Überblick Informationsverdichter Referate Informationsextraktion Informationsagent semantisches Web Kurzreferat indikativ Ontologie informativ Topic Map analytisch Sammelreferat HHU Düsseldorf – SS 2005 Wissensrepräsentation 395 Informationsfilter und –verdichter im Überblick Informationsarchitektur • • • • • • • • Aufbau eines unternehmensweiten Informationssystems Zusammenwirken von (Wirtschafts-)Informatik (Hardware, Software, Netze), Betriebswirtschaftslehre (Management, Organisation) und Informationswissenschaft (Content, Informationsfilter, Informationsverdichter) Sicherstellen der Interoperabilität (etwa mittels XML) Metadaten (Aufbau von Regelwerken für Dokumentauswertung) Informationsfilter (Aufbau einer oder mehrerer Begriffsordnungen) Informationsverdichtung (Aufbau von Regelwerken für Abstracting) Nutzerschnittstellen Organisation des laufenden Betriebs Alan Gilchrist; Barry Mahon (Eds.): Information Architecture. Designing Information Environments for Purpose. – London: Facet Publ., 2004. HHU Düsseldorf – SS 2005 Wissensrepräsentation 396 Informationsfilter und –verdichter im Überblick Informationsarchitektur – strategisches Management der Informationsfilter und -verdichter • • • • Aufbau des/der grundlegenden Informationsfilter/s Grundsatzentscheidung: Welche Methoden einsetzen? Kandidaten: – Klassifikation – Schlagwortmethode – Thesaurus – Textwortmethode – Zitationsindexierung – Ontologie / Topic Map stets zusätzlich: Informationsverdichtung durch Abstracting HHU Düsseldorf – SS 2005 Wissensrepräsentation 397 Informationsfilter und –verdichter im Überblick Informationsarchitektur – strategisches Management der Informationsfilter und -verdichter • • • Festlegen von dokumentarischer/n Bezugseinheit/en und Dokumentationswürdigkeit Variante 1: ein Kriterienpaket für alle Dokumente, stets gleichbleibende DBE Variante 2: mehrere Kriterienpakete, abhängig von der Relevanz der Dokumente für die Datenbank („Schalenmodell“ von Krause) – Kern (hochrelevante Dokumente): tiefe und qualitativ hochwertige Erschließung; Abstracts – Schale 1 (weniger relevante Dokumente): nur Erschließung (mit Thesaurus, Klassifikation, Schlagwortmethode), keine Abstracts – ... – Schale n (noch weniger relevante Dokumente): nur automatische Titelindexierung Jürgen Krause: Informationserschließung und –bereitstellung zwischen Deregulierung, Kommerzialisierung und weltweiter Vernutzung – Schalenmodell. – Bonn: IZ Sozialwissenschaften, 1996. – (IZ-Arbeitsbericht; 6). HHU Düsseldorf – SS 2005 Wissensrepräsentation 398 Informationsfilter und –verdichter im Überblick HHU Düsseldorf – SS 2005 Wissensrepräsentation 399 Informationsfilter und –verdichter im Überblick Informationsarchitektur – strategisches Management der Informationsfilter und –verdichter • Dokumentationseinheiten selbst erstellen und/oder zukaufen? • soweit externe Dokumentationseinheiten vorhanden sind: kaufen! • mittels unternehmensinternen Indexierungsmethoden und Hilfsmitteln neu indexieren (möglichst vollautomatisch) • interne Dokumente können nur selbst bearbeitet werden HHU Düsseldorf – SS 2005 Wissensrepräsentation 400 Informationsfilter und –verdichter im Überblick externe Dokumentationseinheiten: zukaufen! neu indexieren! Quelle: Factiva interne Dokumente: selbst indexieren! HHU Düsseldorf – SS 2005 Wissensrepräsentation 401 Informationsfilter und –verdichter im Überblick Informationsarchitektur – Organisation des laufenden Betriebs • • • • Input: Wer erstellt die Dokumentationseinheiten? Variante 1: intellektuell – zuerst: Verfasser der dokumentarischen Bezugseinheiten (Abstracts, Deskriptoren/Notationen/Schlagworte) – dann: Korrekturen / Ergänzungen durch Informationswissenschaftler Variante 2: automatisch – Verfasser stellen die Dokumente in das Informationssystem (Abstracts möglichst intellektuell erstellen!) – Indexieren erfolgt durch Software (etwa FAST, Convera oder Verity) Variante 3: semiautomatisch HHU Düsseldorf – SS 2005 Wissensrepräsentation 402 Informationsfilter und –verdichter im Überblick Informationsarchitektur – Organisation des laufenden Betriebs • • Datenbank: Wer pflegt die Datenbank und die Informationsfilter? – technisch: Netzwerkadministration – Content: Content-Administration (Informationswissenschaftler) Output: Wer recherchiert? – einfache Anfragen; Bearbeiten der SDI: Endnutzer – komplizierte Anfragen; Anlegen der SDI: ContentAdministration – weitere Dienste (z.B. Mitarbeiterzeitschrift, nicht georderte Pushdienste): Content-Administration HHU Düsseldorf – SS 2005 Wissensrepräsentation 403 Informationsfilter und –verdichter im Überblick Informationsarchitektur – Organisation des laufenden Betriebs • • Aufbau der grundlegenden Informationskompetenz beim Endnutzer – Einführung in die Systemtechnik (Softwareschulung) – Einführung in die Informationsfilter (zum Selbstindexieren und zum Recherchieren) – Einführung in die Informationsverdichtung (zum Verfassen der Abstracts) – laufende Betreuung („Coaching“) der Nutzer Wie? – Seminare (werden nicht immer besucht, da die laufende Arbeit Vorrang hat) – „Lunch-time Kurse“ (Nutzung der Mittagspausen) HHU Düsseldorf – SS 2005 Wissensrepräsentation 404 Informationsfilter und –verdichter im Überblick Informationsfilter und –verdichter hinsichtlich Präkombinationsgrad der Begriffe Präkombination Klassifikation ++ Schlagwortmethode 0 Thesaurus 0 Textwortmethode 0 Zitationsindexierung 0 Abstracts 0 Ontologie / Topic Map ++ HHU Düsseldorf – SS 2005 Präkoordination + + + ++ 0 0 ++ Wissensrepräsentation Postkoordination 0 ++ ++ 0 + 0 + 405 Informationsfilter und –verdichter im Überblick Informationsfilter und –verdichter hinsichtlich Suchen und Stöbern („Browsen“) Klassifikation Schlagwortmethode Thesaurus Textwortmethode Zitationsindexierung Abstracts Ontologie / Topic Map Suchen + + ++ +** + 0 ++ Stöbern ++ 0 ++* +*** 0 0 ++ * : nur bei graphischer Aufbereitung ** : Probleme wg. Vielfalt der Textworte und deren Sprachen *** : nur bei informetrischer Aufbereitung HHU Düsseldorf – SS 2005 Wissensrepräsentation 406 Informationsfilter und –verdichter im Überblick Informationsfilter und –verdichter hinsichtlich Spracheinsatz kontroll. Vokabular* Klassifikation 0 Schlagwortmethode + Thesaurus + Textwortmethode 0 Zitationsindexierung 0 Abstracts 0 Ontologie / Topic Map + Notationssprache + 0 0 0 0 0 0 natürliche Sprache** 0 0 0 + +*** + 0 * : Vokabular einer natürlichen Sprache ** : ohne jede terminologische Kontrolle *** : Zitation als Teil natürlicher Sprache HHU Düsseldorf – SS 2005 Wissensrepräsentation 407 Informationsfilter und –verdichter im Überblick Informationsfilter und –verdichter in einem multinationalen (mehrsprachigen) Unternehmen mehrsprachig einsetzbar? Klassifikation ++ Schlagwortmethode +* Thesaurus ++** Textwortmethode 0 Zitationsindexierung ++ Abstracts +* Ontologie / Topic Map +** * : Zugriff nur über genau eine Sprache ** : nur wenn multilingual, ansonsten Zugriff nur über genau eine Sprache HHU Düsseldorf – SS 2005 Wissensrepräsentation 408 Informationsfilter und –verdichter im Überblick Informationsfilter und –verdichter hinsichtlich paradigmatischer und syntagmatischer Relationen paradigm. Relation + 0 + 0 0 0 + Klassifikation Schlagwortmethode Thesaurus Textwortmethode Zitationsindexierung Abstracts Ontologie / Topic Map syntagmatische Relation + + + + + +* 0 * : nur beim Einsatz von Text Mining HHU Düsseldorf – SS 2005 Wissensrepräsentation 409 Informationsfilter und –verdichter im Überblick Informationsfilter und –verdichter hinsichtlich Änderbarkeit (neue Begriffe aufnehmen, alte ändern) keinerlei Änderung Änderung Aufwand „unten“ in Struktur Klassifikation 0 + 0 (aufwendig) Schlagwortmethode + (nur Aufwand für Abstimmung) Thesaurus 0 + + Textwortmethode + Zitationsindexierung + (da keine Ordnung vorhanden) Abstracts + (da keine Ordnung vorhanden) Ontologie / Topic Map 0 + + HHU Düsseldorf – SS 2005 Wissensrepräsentation 410 Informationsfilter und –verdichter im Überblick Fazit – Die Informationsarchitektur liegt im Bereich des strategischen Management und definiert die Grundlagen der Informationsversorgung eines Unternehmens. • Grundsatzentscheidung: Welche(r) Informationsfilter? • u.U. Schalenmodell realisieren • Entscheidung, welche Informationen gekauft und welche selbst erstellt werden • Organisation des laufenden Betriebs – Klärung der Anforderungen an die Informationsarchitektur (etwa: Ausbaufähigkeit der Begriffsordnung; Darstellbarkeit syntagmatischer Relationen) hinsichtlich der Informationsfilter und der Methoden zur Informationsverdichtung HHU Düsseldorf – SS 2005 Wissensrepräsentation 411 Wissensrepräsentation ... das war‘s Lehr-/Lernziele: Hörer/innen haben eine solide Basis in theoretischen Ansätzen sowie Methoden der Wissensrepräsentation und wissen, diese Methoden in der Praxis einzusetzen HHU Düsseldorf – SS 2005 Wissensrepräsentation 412