Geschichte der Wissensrepräsentation

Transcrição

Geschichte der Wissensrepräsentation
Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft
Wissensrepräsentation
Wolfgang G. Stock
HHU Düsseldorf – SS 2005
Wissensrepräsentation
1
Wissensrepräsentation
Wissensrepräsentation – Was ist das?
Wissen – Informationsinhalt – „Content“
Erschließen von Wissen
Erschließen von Dokumenten
genauer: Erschließen des Inhalts von Dokumenten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
2
Wissensrepräsentation
ASPEKT 1
Aufbau von Werkzeugen
der
Wissensrepräsentation
ASPEKT 2
Inhaltserschließung
konkreter
Dokumente
z.B.
Aufbau eines Klassifikationssystems
Thesaurusaufbau
Regelwerk für Abstracting
z.B.
Klassieren eines Buches nach dem
Klassifikationssystem
Indexieren nach dem Thesaurus
Verfassen eines Abstracts
HHU Düsseldorf – SS 2005
Wissensrepräsentation
3
Wissensrepräsentation
•
•
•
„Wissensrepräsentation“ : Abbildung von Wissen
(„Content“) vor allem in digitalen Systemen; Erschließung
des Informationsinhalts
Ziel: Wissen bei Bedarf (möglichst) exakt zu finden und in
die aktuellen Arbeitsläufe einzubinden
hierbei benötigt:
– METHODEN der Wissensrepräsentation (wie Thesaurus,
Klassifikation usw.)
– und konkrete WERKZEUGE (etwa den StandardThesaurus Wirtschaft oder die IPC)
– praktische Tätigkeit: INDEXIEREN
HHU Düsseldorf – SS 2005
Wissensrepräsentation
4
Wissensrepräsentation
•
inhaltlich erschlossene Retrievalsysteme finden Einsatz
als
– Suchwerkzeug für das WWW oder für einen
Ausschnitt daraus (derzeit kaum realisiert)
– Suchwerkzeug bei kommerziellen Anbietern
elektronischer Informationsdienste (nahezu
durchgängig realisiert)
– Suchwerkzeug bei unternehmensweiten Intranets
oder „Enterprise Information Portals“ (derzeit in
„Boomphase“ im Zusammenhang mit Knowledge
Management)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
5
Wissens-
repräsentation
DE
Treffer
Dokumentationseinheiten
DBE
Informationsbedarf
Frage
Information
Retrieval
HHU Düsseldorf – SS 2005
Dok.
Bezugseinheiten
Vergleich
der
Begriffe
Information
Indexing
Wissensrepräsentation
6
Wissensrepräsentation / Themen (1)
Geschichte der Wissensrepräsentation
Begriffe und Begriffsordnungen:
Gegenstände, Begriffe, Synonyme, Homonyme, Definitionen,
Begriffsordnungen, paradigmatische und syntagmatische
Relationen, Mono- und Polyhierarchie, Dimensionalität,
Facetten
Dokumente und ihre Strukturierung:
Dokumente: Texte und Objekte - Datenstrukturierung
(Metadaten) - Datenbankdesign - formale Erfassung,
inhaltliche Erschließung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
7
Wissensrepräsentation / Themen (2)
Dokumentationssprachen I: Klassifikationssysteme
Klasse und Notation, Universalklassifikationen (Bsp.: Dezimalklassifikation), Technikklassifikationen (Bsp.: Internationale
Patentklassifikation), Wirtschaftsklassifikationen (Bsp.: Branchen- und
Produktklassifikationen), Klassifikationen im WWW (Bsp.: Yahoo!),
Medizinklassifikation (Bsp.: ICD-10)
Dokumentationssprachen II: Schlagwortmethode
Dokumentationssprachen III: Thesauri
Thesauruserstellung nach DIN 1463, Deskriptoren und Relationen,
multilinguale Thesauri, gleichordnendes Indexieren, syntaktisches
Indexieren, „höhere“ Thesaurusformen
Bsp.: Standard-Thesaurus Wirtschaft, Thesaurus Technik und
Management, EXPO-INFO 2000
HHU Düsseldorf – SS 2005
Wissensrepräsentation
8
Wissensrepräsentation / Themen (3)
Textsprachliche Methoden:
Volltextspeicherung, Titelindexierung,
Textwortmethode, Bsp.: Datenbank zur österreichischen Philosophie,
Zitationsindexierung, Bsp.: Web of Science (ISI)
Nicht-thematische Informationsfilter:
Zielgruppe, Art der Themenbehandlung, Verfallsdatum
Automatische Indexierung:
Klassifikation nach Ähnlichkeit – zuteilende Indexierung bei Einsatz einer
Dokumentationsmethode
HHU Düsseldorf – SS 2005
Wissensrepräsentation
9
Wissensrepräsentation / Themen (4)
Abstracts:
Inhaltsangaben nach DIN 1426, indikative, informative, analytische
Abstracts, Sammelreferate, automatisches Abstracting
Informationsextraktion:
Extraktionsmethoden, Informationsagenten
Das semantische Web:
Ontologien, Topic Maps
Informationsfilter und –verdichter im Überblick:
Informationsarchitektur, Zusammenfassung der Methoden der
Wissensrepräsentation
HHU Düsseldorf – SS 2005
Wissensrepräsentation
10
Wissensrepräsentation - Basisliteratur
•
•
•
•
•
•
•
•
Rainer Kuhlen, Thomas Seeger, Dietmar Strauch (Hrsg.): Grundlagen der
praktischen Information und Dokumentation. – München: Saur, 52004.
Donald B. Cleveland; Ana D.Cleveland: Introduction to Indexing and
Abstracting. – Englewood, NJ: Libraries Unlimited, 1990.
Heting Chu: Information Representation and Retrieval in the Digital Age. –
Medford, NJ: Information Today, 2003. – (Chap. 1 – 4).
Robert Fugmann: Inhaltserschließung durch Indexieren: Prinzipien und
Praxis. – Frankfurt: DGD, 1999.
Wilhelm Gaus: Dokumentations- und Ordnungslehre. – Berlin: Springer,
2002.
Christa Ladewig: Grundlagen der inhaltlichen Erschließung. – Potsdam:
Institut für Information und Dokumentation, 1997.
F. Wilfrid Lancaster: Indexing and Abstracting in Theory and Practice. –
Champaigne, IL.: Graduate School of Library and Information Science,
21998.
Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens.
- München; Wien: Oldenbourg, 2000. – (Kapitel 3).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
11
Geschichte der Wissensrepräsentation
Geschichte der Wissensrepräsentation
•
•
•
•
•
•
•
•
•
•
Aufstellordnungen in Bibliotheken (ab Antike)
Abstracts (19. Jahrhundert)
Wortschätze (19. Jahrhundert)
Klassifikationssysteme (19. Jahrhundert)
Thesauri (ca. 1950)
Zitationsindexierung (ca. 1960)
Textwortmethode (ca. 1970)
automatische Indexierung mit kontrolliertem Vokabular (ca.
1990)
Topic Maps und Ontologien (ca. 1990)
semantisches Web (ca. 2010 – wenn überhaupt)
Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen Klassifikation. – Pullach:
Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2).
Ingetraut Dahlberg: Grundlagen universaler Wissensordnung. – Pullach: Verl. Dokumentation, 1974.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
13
Geschichte der Wissensrepräsentation
•
•
•
•
„Pinakes“ des Kallimachos von Kyrene
(ca. 310 – 240 v.Chr.)
systematischer Katalog der Bibliothek
von Alexandria
Systematik für rund 120.000 Schriftrollen
Hauptklassen:
–
–
–
–
–
–
–
–
–
–
–
Rhetorik
Recht
Epik
Tragödie
Komödie
Lyrik
Geschichte
Medizin
Mathematik
Naturwissenschaft
Verschiedenes
HHU Düsseldorf – SS 2005
Rudolf Blum: Kallimachos: The Alexandrian Library and the Origins of
Bibliography. – Madison, Wisc.: Univ. of Wisconsin Press, 1991.
Wissensrepräsentation
14
Geschichte der Wissensrepräsentation
•
Systematik der Buchaufstellung im Mittelalter:
„Geheimwissenschaft“
Umberto Eco: Il nome della rosa. – Milano:
Ed. Fabbri-Bompiani, 1980.
Eco‘s „Labyrinth“ in „Der Name der Rose“
HHU Düsseldorf – SS 2005
Wissensrepräsentation
15
Geschichte der Wissensrepräsentation
•
•
•
•
„Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)
universelles Begriffssystem
auf der Basis der Kombinatorik
konzentrische Scheiben, jeweils mit
zentralen Begriffen einer Kategorie
Scheiben können gedreht werden,
so dass Kombinationen der Begriffe
entstehen
Norbert Henrichs: Wissensmanagement auf Pergament und
Schweinsleder. Die ars magna des Raimundus Lullus. – In:
Josef Herget; Rainer Kuhlen (Hrsg.): Pragmatische Aspekte
beim Entwurf und Betrieb von Informationssystemen,
Konstanz: Universitätsverl. Konstanz, 1990, S. 567-573.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
16
Geschichte der Wissensrepräsentation
•
„Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
17
Geschichte der Wissensrepräsentation
•
•
•
•
•
•
Frühe Zeitschriften als Medium der
Wissensverdichtung
„Journal des Scavans“: erste Zeitschrift,
gegründet 1665
Aufgabe: zunächst Überblicksartikel, da
das Wissen in Büchern zu umfangreich
wurde
später: Publikation von Forschungsberichten
Aufschwung der Zeitschriftenliteratur
Folge: auch das Wissen in Zeitschriften
wurde zu umfangreich
Manfred Bonitz: Notes on the development of secondary periodicals from the „Journal des Scavans“ to the
„Pharmaceutisches Central-Blatt“. – In: International Forum on Information and Documentation 2 (1977) 1, S. 26-31.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
18
Geschichte
•
•
•
•
Gründung von
Referatezeitschriften
„Geburt“ der Abstracts als
Form der
Wissensverdichtung
1830: Pharmaceutisches
Central-Blatt; später:
Chemisches Zentralblatt
1907: Chemical Abstracts
HHU Düsseldorf – SS 2005
Wissensrepräsentation
19
Geschichte der Wissensrepräsentation
•
•
•
•
•
•
•
Thesaurus of English Words and Phrases (1852)
Peter Mark Roget (1779 – 1869)
Sekretär der „Royal Society“ - London
Thesaurus kreiert: 1805; publiziert: 1852
System „of the ideas which are expressible
by language“ – rund 15.000 Worte
Klassen:
– I: Abstract Relations
– II: Space
– III: Matter
– IV: Intellectual Faculties
Werner Hüllen: A History of Roget‘s Thesaurus – Origins,
Development, and Design. – Oxford: Oxford Univ. Press,
– V: Voluntary Powers
2003.
Synonymwörterbuch
HHU Düsseldorf – SS 2005
Wissensrepräsentation
20
Geschichte der Wissensrepräsentation
•
•
•
•
•
•
Roget. Faksimile des ersten Eintrags
(Skript zur ersten Auflage)
„Existence“
CLASS I: WORDS EXPRESSING
ABSTRACT RELATIONS
SECTION I. EXISTENCE
1. BEING, IN THE ABSTRACT
#1. Existence.-- N. existence, being,
entity, ens[Lat], esse[Lat],subsistence.
reality, actuality; positiveness c. adj.; fact,
matter of fact, soberreality; truth c. 494;
actual existence. presence c. (existence
in space) 186; coexistence c. 120.
stubborn fact, hard fact; ...
HHU Düsseldorf – SS 2005
Wissensrepräsentation
21
Geschichte der Wissensrepräsentation
•
•
•
•
•
•
DDC (Dewey Decimal Classification) – 1876
Melvil (Melville Louis Kossuth) Dewey
(1851 – 1931)
1870: Student am Amherst College
stud. Hilfskraft an der Bibliothek
1874: Abschluss in Bibliothekswesen
Aufbau eines Klassifikationssystem für die
Bibliothek des Amherst College
Stephen Gordon; Judith Kramer-Greene: Melvil Dewey: The Man and the Classification. – Albany: Forest Press,
1983.
Fremont Rider: American Library Pioneers VI: Melvil Dewey. – Chicago: American Library Association,
1972.
Sarah Vahn: Melvin Dewey: His Enduring Presence in Librarianship. – Littletown: Libraries Unlimited,
1978.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
22
Geschichte der Wissensrepräsentation
•
•
•
•
•
DDC (Dewey Decimal Classification) – 1876
„A Classification and Subject Index for Cataloguing and
Arranging the Books and Pamphlets of a Library“ (1876;
anonym)
1876: Bibliothekar in Boston
1883: Bibliothekar am
Columbia College (später:
Direktor der New York State
Library)
1890: Präsident der ALA
(American Library Association)
Bibliothek des Amherst College
HHU Düsseldorf – SS 2005
Wissensrepräsentation
23
Geschichte der Wissensrepräsentation
•
•
DDC. Grundidee: Notationen der Klassen als Dezimalzahlen
– 000
Generalities
– 100
Philosophy
– 200
Religion
– 300
Social Sciences
– 400
Language
– 500
Natural Sciences, Mathematics
– 600
Technology (Applied Sciences)
– 700
The Fine Arts
– 800
Literature and Rhetoric
– 900
Geography, History
Die Grundidee erweist sich als sehr
erfolgreich.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
24
Geschichte der Wissensrepräsentation
•
•
•
•
DDC. Beispiel einer Katalogkarte
Original von Dewey
Class 207:
Religion: Study and
Teaching
Book P:
Princeton
HHU Düsseldorf – SS 2005
Wissensrepräsentation
25
Geschichte der Wissensrepräsentation
• Paul Otlet (1868 - 1944 ) und Henri La Fontaine
(1854 – 1943)
• (1) „Väter“ der Dokumentation
• (2) Einführung der dezimalen Klassifikation in
Europa
• (3) Gründung eines internationalen Verbandes für
Dokumentation
W. Boyd Rayward: The Universe of Information. The Work of Paul Otlet for Documentation and International
Organization. – Moscow: VINITI, 1975.
Eric H.W. van Binsbergen: La philosophie de la Classification décimale universelle. – Liège: Centre de
Lecture Publique, 1994.
Georges Lorphèvre: Henri LaFontaine, 1854-1943 – Paul Otlet, 1868-1944. – In: Revue de la Documentation
21 (1954) 3, 89-103.
Hervé Hasquin: Henri la Fontaine – un Prix Nobel de la Paix: tracé(s) d‘une vie. – Mons: Mundaneum, 2002.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
26
Geschichte der Wissensrepräsentation
• Henri La Fontaine
•
•
•
•
•
•
geb. 1854 in Brüssel
Prof. für Internationales Recht
Mitglied des belgischen Senats
Friedensbewegung (u.a. Präsident
des „International Peace Bureau“)
1895: Gründung des „Institut
International de Bibliographie“ (mit
Otlet)
Friedensnobelpreis 1913
HHU Düsseldorf – SS 2005
Wissensrepräsentation
27
Geschichte der Wissensrepräsentation
• Paul Otlet
•
•
•
•
•
HHU Düsseldorf – SS 2005
geb. 1868 in Brüssel
1895: Gründung des „Institut
International de Bibliographie“ (mit La
Fontaine)
ab 90er Jahre: Reorganisation und
(französische) Übersetzung von Deweys
Dezimalklassifikation
1904-1907: Erste komplette Ausgabe der
„Classification Décimale Universelle“ –
CDU („Universal Decimal Classification“
– UDC bzw. „Dezimalklassifikation“ DK)
DK: Haupttafel (wie DDC) und
„Anhängezahlen“
Wissensrepräsentation
28
Geschichte der Wissensrepräsentation
• Paul Otlet
•
•
(mit La Fontaine): ab 1919 in
Brüssel: Plan eines Zentrums für
das gesamte Weltwissen –
systematisch geordnet als Weltbibliographie: „Mundaneum“ (Plan
scheiterte – Mundaneum heute
Museum in Mons)
1934: „Traité de documentation“ . –
Bruxelles: Ed. Mundaneum.
(Grundlagenwerk der
Dokumentation)
www.mundaneum.be
HHU Düsseldorf – SS 2005
Wissensrepräsentation
29
Geschichte der Wissensrepräsentation
• FID
•
•
•
•
1895: Institut International de
Bibliographie (von Otlet und La
Fontaine in Brüssel gegründet)
ab 1895: Publikation einzelner DKTafeln
1931: Institut International de
Documentation
1986: Fédération Internationale
d‘Information et de Documentation
Sonderstempel der österreichischen Post
– FID (heute in Den Haag)
www.fid.nl
Cent ans de l‘Office International de Bibliographie: 1895 – 1995. – Mons: Ed. Mundaneum, 1995.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
30
Geschichte der Wissensrepräsentation
• Shiyali Ramamrita Ranganathan (1892 – 1972)
Facettenklassifikation
•
•
•
•
zunächst Bibliothekar (in Madras), danach
Professor für Bibliothekswissenschaft (in
Varanasi und Delhi), später Leiter des
„Documentation Research and Training
Centre“ (Bangalore)
Kritik der DDC / DK: zu starr
Einsatz von Facetten: „Colon Classification“
(1933)
syntaktisches Indexieren mittels Ketten: „Headings and
Canons“ (1955)
Eugene Garfield: A tribute to S.R.Ranganathan. Part 1: Life and works. – In: Eugene Garfield: Essays of an
Information Scientist. Vol. 7. – Philadelphia, PA: ISI Press, 1984, 37-44.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
31
Geschichte der Wissensrepräsentation
• Shiyali Ramamrita Ranganathan (1892 – 1972)
Facettenklassifikation
•
•
fünf Grundfacetten (PMEST)
– Wer? – Personalität (Trennzeichen: , )
– Was? – Material ( ; )
– Wie? – Energie ( : „colon“)
– Wo? – Raum ( . )
– Wann? – Zeit ( ' )
– zusätzlich: Disziplin
Beispiel: L,45;421:6;253:f.44‘N5
Medizin , Lunge ; (Tuberkulose : Behandlung) ;
(Röntgenstrahlen : Forschung) . Indien ' 2004
HHU Düsseldorf – SS 2005
Wissensrepräsentation
32
Geschichte der Wissensrepräsentation
• Thesauri: DAS Vorbild
MeSH
•
•
•
•
Medical Subject Headings (MeSH)
erstellt von der National Library of Medicine (USA)
entworfen ab ca. 1954 (Vorläufer ab ca. 1940)
publiziert mit dem neuen „Index Medicus“ 1960
Carolyn E. Lipscomb: Medical Subject Headings (MeSH). – In: Bulletin of the Medical Library Association 88
(2000), 265-266.
W.D.Miles: A History of the National Library of Medicine. – Bethesda, MD: U.S. Dept. of Health and Human
Services, 1982.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
33
Geschichte der Wissensrepräsentation
• MeSH
•
•
•
•
•
•
•
•
•
kontrolliertes Vokabular
Relationen zwischen den Begriffen
alphabetische Ordnung der Worte
systematische Ordnung der Begriffe
syntaktisches Indexieren durch Aspekte („subheadings“)
möglich
gewichtete Indexierung im Zwei-Klassen-Verfahren
Thesaurus wird als dynamische Liste der Begriffe
verstanden. Änderungen sind jederzeit möglich
1960: Start des Projektes MEDLARS (Medical Literature
Analysis and Retrieval System) unter Einsatz von Computern
auch MeSH wird mittels EDVA gepflegt
HHU Düsseldorf – SS 2005
Wissensrepräsentation
34
Geschichte der Wissensrepräsentation
Fokus-Deskriptor
mit Subheading
Deskriptor mit
Subheading
Fokus-Deskriptor
HHU Düsseldorf – SS 2005
Wissensrepräsentation
35
Geschichte der Wissensrepräsentation
• Thesauri
•
•
•
•
•
erweisen sich im Laufe der 60er Jahre (und später) als
erfolgreich
eine Periode der Zweiteilung der Methoden der
Wissensrepräsentation beginnt:
(1) Klassifikationssysteme: Einsatz vor allem in Bibliotheken;
Einsatz ohne Zuhilfenahme der EDV
(2) Thesauri: Einsatz vor allem bei fachlichen Datenbanken;
EDV-Einsatz
zusätzlich: Suche nach alternativen Ansätzen
I.Lerch: Das Dokumentationshilfsmittel Thesaurus. – In: Bibliothek. Forschung und Praxis 6 (1982), 47-73.
N. Roberts: Historical studies in documentation: The pre-history of the information retrieval thesaurus. – In:
Journal of Documentation 40 (1984), 271-285.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
36
Geschichte der Wissensrepräsentation
• Zitationsindexierung
• Eugene Garfield (1925 - )
•
•
•
•
ab 1951: Mitarbeit bei der
Medizindokumentation
Kritik an MeSH: Indexierung ist zu
langsam; Vokabular ist zu starr;
Indexierung fremdsprachiger
Artikel problematisch
Entdeckung der wissenschaftlichen Fußnote als Hilfsmittel der
Wissensrepräsentation
1958: Gründung des Institute for Scientific Information (ISI)
Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. - Eugene Garfield; Wolfgang G. Stock:
Citation Consciousness (Interview mit Garfield). – In: Password Nr. 6 (2002), 22-25.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
37
Geschichte der Wissensrepräsentation
• Titelindexierung
• Hans Peter Luhn (1896 – 1964)
•
•
•
•
•
geb. 1896 in Barmen; ab 1924 in den
USA; ab 1941 bei IBM
Extraktion von Stichworten aus den
Sachtiteln der Dokumente
1958: Keyword in Context: KWIC
„Entdeckung“ des Leerzeichens
Stoppworte
Claire K.Schultz: H.P.Luhn: Pioneer of Information Science – Selected Works. – London: Macmillan, 1968.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
38
Geschichte der Wissensrepräsentation
• Textwortmethode
• Norbert Henrichs (1935 - )
• wörterbuchunabhängige
Dokumentationsmethode
• entwickelt an der
Forschungsabteilung für philosophische
Information und Dokumentation der Universität
Düsseldorf
• ab ca. 1967
Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969),
122-131.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
39
Geschichte der Wissensrepräsentation
• Erste Online-Informationsanbieter („Hosts“)
• Entwicklungen in den 60er und frühen 70er Jahren
•
•
•
•
•
DIALOG (maßgeblich: Roger Summit); online: 1972
ORBIT (Carlos Cuadra); online: 1972 (heute: Questel-Orbit)
Mead Data Central (Richard Giering); online: 1973 (heute:
LexisNexis)
BRS (Jan Edgeland; Linda Palmer; Ron Quake); online: 1977
(heute: Ovid Technologies)
Methoden und Werkzeuge der Wissensrepräsentation
müssen online-tauglich werden.
Charles P. Bourne; Trudi Bellardo Hahn: A History of Online Information Services, 1963-1976. – Cambridge, Mass.;
London: MIT Press, 2003.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
40
Geschichte der Wissensrepräsentation
•
•
•
•
•
1989: Einführung der automatischen Indexierung beim Einsatz
einer Dokumentationssprache
bei Reuters Ltd. London
eingesetzt wird CONSTRUE – TIS
(Categorization of News STories Rapidly, Uniformly, and
Extensible – Topic Identification System)
CONSTRUE-TIS: Entwicklung bei der Carnegie Group in
Pittsburgh
arbeitet mit einer Zuverlässigkeit von 90% gegenüber
menschlichen Indexern (zumindest nach eigenen Aussagen)
Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news
stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications
of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
41
Geschichte der Wissensrepräsentation
•
•
•
•
•
Tim Berners-Lee (1955 - )
Sir Timothy John Berners-Lee
geb. 1955 in London
ab 1984: Mitarbeiter beim CERN
Entwicklung des WWW
August 1991: erste Webseite (CERN)
1994: Gründung des World Wide Web
Consortiums (Laboratory for Computer
Science / MIT)
seit 90er Jahre: Bemühungen um das
semantische Web
T.Berners-Lee; R.Cailliau; A.Luotonen; H.F.Nielsen; A.Secret: The World Wide Web. – In:
Communications of the ACM 37 (1994) 8, 76-82.
Tim Berners-Lee; Mark Fischetti: Weaving the Web. – San Francisco: Harper, 1999.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
42
Geschichte der Wissensrepräsentation
•
Winfried Gödert
•
der Experte für Wissensrepräsentation im
deutschsprachigen Raum
Leiter des Labors für bibliographisches Information
Retrieval der FH Köln
bibliographische Datenbank zur Inhaltserschließung
Linkliste zu Klassifikationssystemen und Thesauri im WWW
dt. Übersetzung der DDC
•
•
•
•
Winfried Gödert: Einführung in Probleme und Methoden der inhaltlichen Dokumenterschließung. – Köln: FH Köln,
1997. – [Begleitmaterial zu Lehrveranstaltungen].
Datenbank: www.fbi.fh-koeln.de/institut/labor/bir/suche.htm
Linkliste: www.fbi.fh-koeln.de/institut/labor/bir/thesauri_new/index.htm
HHU Düsseldorf – SS 2005
Wissensrepräsentation
43
Begriffe und Begriffsordnungen
Begriffe und Begriffsordnungen
Begriffe / Begriffsordnungen
Grundlegende Literatur
•
•
•
•
•
•
DIN 2330: Begriffe und Benennungen
DIN 2331: Begriffssysteme und ihre Darstellung
ISO 704:2000: Terminology Work – Principles and Methods
Albert Menne: Einführung in die Methodologie. –
Darmstadt: Wissenschaftliche Buchgesellschaft, 1980.
Tadeusz Pawlowski: Begriffsbildung und Definition. – Berlin
/ New York: de Gruyter, 1980
Ingetraut Dahlberg: Die gegenstandsbezogene, analytische
Begriffstheorie und ihre Definitionsarten. – In: Beiträge zur
Begriffsanalyse. – Mannheim [u.a.]: BI Wissenschaftsverl.,
1987, 9-22.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
45
Begriffe und Begriffsordnungen
GEGENSTAND
•
Gegenstand: “alles, was uns entgegensteht”, “etwas als
etwas erkennen”
•
Gegenstände im Rahmen der “Gegenstandstheorie”
(Alexius Meinong):
Gegenstand
Objekt
Sachverhalt
psychischer Akt
Empfindung / Phantasie
Urteil / Annahme
Erlebnis
Vorstellen
Denken
Alexius Meinng: Über Gegenstandstheorie. – In: A.Meinong (Hrsg.): Untersuchungen zur Gegenstandstheorie und
Psychologie. – Leipzig: Barth, 1904, 1-50.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
46
Begriffe und Begriffsordnungen
GEGENSTAND einer dokumentarischen Bezugseinheit (DBE)
• Empfindungsobjekt: Information über reale Gegenstände (Bsp.: Baker
Street in London)
• Phantasieobjekt: Information über fiktive Gegenstände (Bsp.: Sherlock
Holmes Wohnung in der Baker Street)
• Urteilssachverhalt: Information über Tatsachenaussagen (im Rahmen
einer Theorie für wahr angesehene Aussage)
• Annahmesachverhalt: Information über hypothetische Aussagen (im
Rahmen einer Theorie für plausibel angesehene Aussage, deren
Wahrheit offen ist)
OBJEKTE in DBE werden in DE durch Begriffe, SACHVERHALTE der
DBE werden in DE durch Sätze beschrieben.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
47
Begriffe und Begriffsordnungen
BEGRIFF
•
•
Ein Begriff ist die Zusammenfassung gewisser Objekte
unter eine Klasse.
Begriffsbestimmung
– extensional (Begriffsumfang; Aufzählung der Elemente
der Klasse). M =df {x1, x2, ...., xi, ...}
Bsp.: „Deutsche Bundesländer“ =df {NordrheinWestfalen, Bayern, ..., Berlin}
– intensional (Begriffsinhalt; Angabe der klassenbildenden Merkmale). M =df ∀x. f(x) u f‘(x) u f‘‘(x) ...
Bsp.: „Deutsche Bundesländer“ =df „ist ein
Bundesland“ u „liegt in der Bundesrepublik
Deutschland“
HHU Düsseldorf – SS 2005
Wissensrepräsentation
48
Begriffe und Begriffsordnungen
BEGRIFF
Merkmale
Objekt(e)
Benennung(en)
z.B. Wort
HHU Düsseldorf – SS 2005
Begriff (Klasse)
Wissensrepräsentation
49
Begriffe und Begriffsordnungen
„Wirklichkeit“
Begriffe und Begriffsordnungen
(andere) Zeichen
BEGRIFF
Merkmale
Objekt(e)
Benennung(en)
z.B. Wort
HHU Düsseldorf – SS 2004
HHU Düsseldorf – SS 2005
Begriff (Klasse)
Wissensrepräsentation
Nutzer
Wissensrepräsentation
48
50
Begriffe und Begriffsordnungen
BEGRIFF
• SYNTAKTIK. Struktur der Benennung;
Beziehungen der Benennung (Zeichen) zu anderen
Zeichen
• SEMANTIK: Beziehungen zwischen Benennung
(Zeichen) und Objekt (bzw. Vorstellungsinhalt)
• PRAGMATIK: Beziehungen zwischen Benennung
(Zeichen) und Zeichenbenutzer
Was heißt das?
BAPHA
HHU Düsseldorf – SS 2005
Wissensrepräsentation
51
Begriffe und Begriffsordnungen
BEGRIFF
•
Begriffsarten
– Individualbegriff (Klasse hat genau ein Element) –
Benennung: (Eigen-)Name
Bsp.: Karl Marx; Sherlock Holmes; Bayessches Theorem,
2. Hauptsatz der Thermodynamik
– Allgemeinbegriff (Klasse hat mehrere Elemente)
Bsp.: Stuhl, Zahl, Studentin der Informationswissenschaft, NaCl
– Kategorie (Begriff allgemeinster Art)
Bsp.: Person, Materie, Energie, Raum, Zeit (à la
Ranganathan)
oder: Branche, Raum, Aspekt (im Kontext der Wirtschaft)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
52
Begriffe und Begriffsordnungen
EXAKTHEIT von Begriffen
•
•
exakter Begriff: Klassengrenze ist genau bestimmbar
vager Begriff: Klassengrenze ist - an den „Rändern“ - nicht genau
bestimmbar, „fuzzy“)
Beispiel: Stuhl-Museum von Max Black
Max Black: Vagueness. An exercise in logical analysis. – In: Philosophy of Science 4 (1937), 425-455.
SELBSTÄNDIGKEIT von Begriffen
•
•
kategorematischer Begriff: Begriff steht für sich allein
synkategorematischer Begriff: Begriff kann in einem Kontext nicht
allein stehen
Beispiel:
Zigarette
10 - 12
HHU Düsseldorf – SS 2005
... mit Filter
Wissensrepräsentation
53
Begriffe und Begriffsordnungen
•
•
•
•
•
•
Wort: (nicht unbedingt eindeutiger) sprachlicher Ausdruck
eines Begriffs
Synonym: Begriff, der durch mehrere Worte ausgedrückt
werden kann (Beispiel: Samstag, Sonnabend)
Homonym: Wort, das mehrere unterschiedliche Begriffe
ausdrückt, wobei die Worte unterschiedlichen Ursprüngen
entstammen (Beispiel: kosten [„schmecken“ - althochdt.
koston], kosten [„wert sein“ - altfrz. coster])
Homophon: Homonym im Laut (Beispiel: Leere – Lehre)
Polysem: Wort, das mehrere unterschiedliche Begriffe
ausdrückt, wobei die Worte einen gleichen Ursprung haben
(Beispiel: Knie [Gelenk am Körper], Knie [Werkstück])
Der Unterschied zwischen Homonym und Polysem ist nicht
immer klar; in der Informationswissenschaft werden die
hierdurch entstehenden Probleme gemeinsam behandelt.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
54
Begriffe und Begriffsordnungen
STICHWORT - SCHLAGWORT
•
•
•
•
•
Stichwort: Wort, das faktisch in einer dokumentarischen
Bezugseinheit vorkommt („token“: konkrete Realisierung
eines Wortes, eines „types“)
Lexem: grammatikalische Grundform eines Wortes
Beispiel: ... den Kühen ... ; Lexem: Kuh
Wortstamm: entsteht durch Präfix- oder Suffixabtrennung
Beispiel: ... retrieved ...; Stamm: retriev
Schlagwort: Wort (in Grundform), das einer dokumentarischen Bezugseinheit zugeordnet wird
Thema: Objekt, das in einer dokumentarischen
Bezugseinheit abgehandelt wird; „das, worüber es geht“;
Repräsentation eines Thema in einer Dokumentationseinheit: durch Stich- oder Schlagworte
HHU Düsseldorf – SS 2005
Wissensrepräsentation
55
Begriffe und Begriffsordnungen
DEFINITION
•
(1) Definition als Abkürzung. Definiendum =df Definiens
Beispiele:
M =df 1.000
Erpel =df männliche Ente
•
(2) Deutungsvorschrift von Kalkülen.
Deutung bzw. Interpretation von Zeichen
Beispiel:
p ---> ( q v ~q)
w w
w w f
w w
f
w w
f
w
w
w f
f
w
f
w w
Deutung: p, q Aussagevariablen; w, f Wahrheitswerte
~ Negation; --> Implikation; v Disjunktion
HHU Düsseldorf – SS 2005
Wissensrepräsentation
56
Begriffe und Begriffsordnungen
•
•
•
•
(3) Begriffserklärung
Begriff =df Teilbegriff1 + Teilbegriff2 + ...
Begriffssynthese: ausgehend von Teilbegriffen
Begriffsanalyse: ausgehend vom Begriff
“Klassische” Variante: Definition durch genus und differentia
– genus: Artbegriff
– differentia: “wesenskonstitutiver” Unterschied
– accidens: zufällige Eigenschaft (darf nicht verwendet werden)
Beispiel “Homo est animal rationale”:
Mensch =df Lebewesen + vernunftbegabt
nicht: Mensch =df Lebewesen + Haarfarbe nicht blond
Begriffserklärungen eignen sich besonders gut für hierarchische
Begriffsordnungen (Klassifikation oder Thesaurus)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
57
Begriffe und Begriffsordnungen
•
•
•
(4) Zeichenerklärung (Nominaldefinition)
Feststellung der Bedeutung eines Begriffes in einem
bestimmten Kontext. Aussage mit (zu begründendem)
Wahrheitsanspruch.
Beispiele: “Metaphysik” bei Aristoteles
“Steuererhöhung” bei der Bundesregierung
“Armut” in der empirischen Sozialforschung
(5) Sacherklärung (Realdefinition)
Feststellung der Bedeutung eines Begriffes durch das
“Wesen” seines Gegenstandes. Aussage mit (zu
begründendem) Wahrheitsanspruch.
Beispiel: Artikel „Geschirrspülmaschine“ im Brockhaus
Zeichen- und Sacherklärungen kommen typisch in
enzyklopädischen Wörterbüchern vor.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
58
Begriffe und Begriffsordnungen
•
•
(6) Explikation
Übernahme (ggf. ungenauer) Alltagsbegriffe in die
Wissenschaftssprache, dabei Präzisierung
Bedingungen:
– wissenschaftliche Nützlichkeit
– Präzision
– Ähnlichkeit mit dem Ausgangsbegriff
– Einfachheit
Beispiel: Alltagsbegriff: Arbeit
Physik: Arbeit =df Kraft * Weg * Winkel
Soziologie: Arbeit =df auf ein wirtschaftliches
Ziel gerichtete, planmäßige menschliche
Tätigkeit
HHU Düsseldorf – SS 2005
Wissensrepräsentation
59
Begriffe und Begriffsordnungen
•
(7) Definition von Bedeutungsfamilien
Einige Begriffe können nicht über eine Konjunktion von
Merkmalen definiert werden, die für alle gelten; vielmehr
liegen unterschiedliche Teilmengen vor (Ludwig
Wittgenstein: “Familienähnlichkeit”)
Beispiel: Gemüse =df Wurzel- und Knollengemüse, Blattund Stielgemüse, Fruchtgemüse, Kohlgemüse
•
(8) Persuasive Definition
Begriffsbildung mit emotionalen Einstellungen (gefühlsmäßigen Assoziationen)
Beispiele: rein (Waschmittelwerbung; positive Einstellung)
Jude (Nazi-Deutschland; negative Einstellung)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
60
Begriffe und Begriffsordnungen
• Im Überblick:
Definitionsarten
•
•
•
•
•
•
•
•
(1) Definition als
Abkürzung
(2) Deutungsvorschrift
eines Kalküls
(3) Begriffserklärung
(4) Nominaldefinition
(5) Realdefinition
(6) Explikation
(7) Bedeutungsfamilien
(8) persuasive Definition
HHU Düsseldorf – SS 2005
• Definitionen in Systemen
der
Wissensrepräsentation:
•
•
jeder in einer Dokumentationssprache verwendete
Begriff sollte in Extension
und Intension klar und deutlich sein
für hierarchische Systeme
eignen sich besonders
Begriffserklärungen und
Definitionen mit Bedeutungsfamilien
Wissensrepräsentation
61
Begriffe und Begriffsordnungen
Ordnung
•
•
•
•
Gesamt einer Menge M von Objekten x, y, ... und einer
Menge von Relationen ρ zwischen den Objekten
O = M, ρ
Bei Begriffsordnungen sind die Objekte Begriffe und die
Relationen Beziehungen zwischen Begriffen
Es gibt zweistellige Relationen (Bsp.: ρ = „x ist Oberbegriff
von y“) und mehrstellige Relationen (Bsp.: ρ = „heilt x
[jemanden] mittels y [Arznei] von z [Krankheit]“)
Relationen sind reflexiv (irreflexiv), symmetrisch
(asymmetrisch) bzw. transitiv (intransitiv)
R - S - T
HHU Düsseldorf – SS 2005
Wissensrepräsentation
62
Begriffe und Begriffsordnungen
RST (bei zweistelligen Relationen)
•
•
•
•
•
•
Reflexivität: x ρ x (Bsp.: „ist identisch mit“)
Irreflexivität: -(x ρ x) (Bsp.: „ist Ursache von“)
Symmetrie: x ρ y Æ y ρ x (Bsp.: „ist gleich“)
Asymmetrie: x ρ y Æ -(y ρ x) (Bsp.: „liebt unglücklich)“
Transitivität: [(x ρ y) u (y ρ z)] Æ (x ρ z) (Bsp.: „ist größer als“)
Intransitivität: [(x ρ y) u (y ρ z)] Æ -(x ρ z) (Bsp.: „ist ähnlich mit“)
Allgemeine Relationen in Begriffsordnungen
•
•
•
•
Äquivalenz: x ist äquivalent y
Unterbegriff*: x ist Unterbegriff von y
Oberbegriff*: x ist Oberbegriff von y
verwandter Begriff: x ist mit y verwandt
(R
(-R
(-R
(-R
-
S
-S
-S
S
-
T)
T)
T)
-T)
* (Abstraktionsrelation)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
63
Begriffe und Begriffsordnungen
Relationen in Begriffssystemen
g
e
B
s
f
f
ri
A
er
t
i
le
Topterm
B
C
Hierarchierelation
D Begriffs- E
-reihe
F
Polyhierarchie
G
Assoziationsrelation
HHU Düsseldorf – SS 2005
H
I
Bottomterms
Wissensrepräsentation
64
Begriffe und Begriffsordnungen
Terminologische Kontrolle
•
•
•
•
•
durch Zusammenfassung bestimmter Bezeichnungen zu
einem Begriff (Synonyme, Akronyme, Quasi-Synonyme)
mittels Äquivalenzrelation
durch Trennung homonymer Bezeichnungen zu unterschiedlichen Begriffen
ggf. durch Zerlegung („Zerlegungskontrolle“)
wenn möglich; stets wenn nötig: Definition
Arten terminologischer Kontrolle:
– mit Vorzugsbenennungen (gearbeitet wird ausschließlich mit
der Vorzugsbenennung; von den äquivalenten Bezeichnungen
wird verwiesen)
– ohne Vorzugsbenennungen (alle äquivalenten Bezeichnungen
sind zugelassen; in der Datenbank werden sie zu einem Begriff
zusammengefasst)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
65
Begriffe und Begriffsordnungen
Relationen
•
Hierarchierelation (Begriffsleiter: Oberbegriff - Unterbegriff,
Begriffsreihe: Begriffe in gleicher hierarchischen Ebene)
– Abstraktionsrelation (logische Sicht)
• Ein Unterbegriff im Sinne der Abstraktionsrelation hat alle
Merkmale des Ausgangsbegriffs, dazu aber mindestens ein
weiteres (Bsp.: Vogel - Singvogel)
• stets transitiv
– Bestandsrelation (gegenständliche Sicht: Meronyme
[Teil einer Ganzheit]; Holonyme [Ganzheit von Teilen])
• Ein Unterbegriff im Sinne der Bestandsrelation drückt
einen Teil des Ausgangsbegriffs aus (Bsp.: Vogel - Kralle)
• Geographika sind i.d.R. Begriffe in Bestandsrelation (Bsp.:
Deutschland - Nordrhein-Westfalen - Regierungsbezirk
Köln – Rhein-Erft-Kreis - Kerpen - Kerpen-Sindorf)
• zwei Varianten: (a) transitiv – (b) intransitiv
HHU Düsseldorf – SS 2005
Wissensrepräsentation
66
Begriffe und Begriffsordnungen
Bestandsrelation / Meronymie
Variante 1: transitiv (z.B. Geographica)
•
Deutschland
D
NRW
Variante 2: nicht transitiv
•
–
Es gibt Bäume im Wald;
aber auch welche außerhalb
von Wäldern.
HHU Düsseldorf – SS 2005
Wald
Wissensrepräsentation
Baum
Rinde
67
Begriffe und Begriffsordnungen
Relationen
•
•
•
•
Element-Klasse-Relation für Individualbegriffe
„... ist ein(e) ...“: x ist ein M
M =df {x1, x2, ...., xi, ...}, wobei xi Namen von
Individualbegriffen sind
Beispiele:
– {G.Schröder, J.Fischer, H.Eichel, P.Struck, ...} ist ein Mitglied
der derzeitigen Bundesregierung
– {G.Schröder, H.Eichel, P.Struck, R.Scharping, ...} ist ein
Mitglied der SPD
– Persil ist ein Waschmittel
– Donald Duck ist ein Bewohner Entenhausens
HHU Düsseldorf – SS 2005
Wissensrepräsentation
68
Begriffe und Begriffsordnungen
Relationen
•
weitere Relationen
– Antonymie-Relation (Gegensätze)
– Ähnlichkeitsrelation
– Nachfolgerelation (Vorgänger - Nachfolger)
– Kausalrelation (Ursache - Wirkung)
• Nützlichkeitsrelation
• Schädlichkeitsrelation
genetische Relation (Produzent - Produkt)
Herstellungsrelation (Material - Produkt)
Transmissionsrelation (Sender - Empfänger)
instrumentelle Relation (Werkzeug - Anwendung des
Werkzeugs)
– funktionelle Relation (Argument - Funktion)
– usw.
–
–
–
–
HHU Düsseldorf – SS 2005
Wissensrepräsentation
69
Begriffe und Begriffsordnungen
•
Präkombinationsgrad (bei Begriffen mit mehreren
Komponenten) - Zerlegungskontrolle
– Präkombination: Kombination mehrerer Begriffe zu
genau einen [zusammengesetzten] Begriff in der
Begriffsordnung
(Bsp.: Mädchenhandelsschule)
– Präkoordination: Kombination der Begriffe, die in der
Begriffsordnung vorkommen, durch Verkettung beim
Information Indexing
(Bsp.: Mädchen + Handelsschule bzw. Mädchenhandel +
Schule) – macht der Indexer
– Postkoordination: Kombination der Begriffe erst beim
Information Retrieval
(Bsp.: Mädchen UND Handelsschule bzw.
Mädchenhandel UND Schule) – macht der
Recherchierende
HHU Düsseldorf – SS 2005
Wissensrepräsentation
70
Begriffe und Begriffsordnungen
Monohierarchie:
jeder Begriff hat entweder keinen oder genau einen
Oberbegriff
Obstbaum
Kernobstbaum
Apfelbaum
Birnbaum
Steinobstbaum
Kirschbaum
Pfirsichbaum
Margarete Burkart: Dokumentationssprachen. – In: Grundlagen der praktischen Information und Dokumentation. –
München [u.a.]: Saur, 31990, 143-182.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
71
Begriffe und Begriffsordnungen
Polyhierarchie:
ein Begriff kann mehrere Oberbegriffe haben
Holzwirtschaft
Obstbaum
Kernobstbaum
Apfelbaum
HHU Düsseldorf – SS 2005
Nutzholz
Birnbaum
Wissensrepräsentation
Buche
72
Begriffe und Begriffsordnungen
Dimensionalität: Anzahl der Dimensionen der klassenbildenden
Merkmale bei der Bildung von Unterbegriffen
– monodimensional (nur genau eine Dimension zugelassen).
Bsp.:
Obstbaum
» Kernobstbaum
» Steinobstbaum
Klassenbildung durch die Dimension: Beschaffenheit des Samens
– polydimensional (mehrere Dimensionen zugelassen)
Bsp.:
Obstbaum
» Kernobstbaum
» Steinobstbaum
» hochstämmiger Obstbaum
» niederstämmiger Obstbaum
Klassenbildung durch die zwei Dimensionen: Beschaffenheit des Samens
und: Größe des Stammes
HHU Düsseldorf – SS 2005
Wissensrepräsentation
73
Begriffe und Begriffsordnungen
Auflösung der Polydimensionalität
•
•
aus einer polydimensionalen Ordnung soll eine
monodimensionale gebildet werden
schafft eine übersichtliche und logische Struktur
Bsp.: Obstbaum
• Obstbaum nach Samenbeschaffenheit
– Steinobstbaum
– Kernobstbaum
Stützbegriff
• Obstbaum nach Stammgröße
– hochstämmiger Obstbaum
– niederstämmiger Obstbaum
•
•
bei der Auflösung der Polydimensionalität werden „Zwischenbegriffe“ bzw. „Stützbegriffe“ kreiert
sehr wahrscheinlich gibt es keine DBE über solche Stützbegriffe
HHU Düsseldorf – SS 2005
Wissensrepräsentation
74
Begriffe und Begriffsordnungen
Facettierte Begriffsordnung
•
Mehrere unterschiedliche Begriffsordnungen innerhalb
eines Systems, aufgeteilt nach Kategorien
Bsp.: drei Facetten (Obstbäume):
Kategorie 1:
Kategorie 2:
Kategorie 3:
Frucht
Stammgröße
Erntezeit
Apfel
hoch
früh
Birne
nieder
spät
Bsp.: vier Facetten (Wirtschaftsnachrichten / Factiva):
•
•
•
•
Branche
Region
Aspekt
Unternehmen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
75
Begriffe und Begriffsordnungen
Begriffsordnung und natürliche Sprache
•
unabhängig von natürlicher Sprache: Verwendung eines
eigenen Vokabulars aus Ziffern und Buchstaben
Bsp.: 291.213.4 (in der Dezimalklassifikation: Bezeichnung für
„Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten“)
Bsp.: H05B-3/00 (in der Internationalen Patentklassifikation:
Bezeichnung für „elektrische Heizung / Widerstandsheizung“)
•
sprachabhängig (Verwendung von national- bzw. fachsprachigen Bezeichnungen)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
76
Begriffe und Begriffsordnungen
• Paradigmatische
Relation
•
•
• Syntagmatische Relation
•
„fest verdrahtete“ Begriffe
durch Relationen in
Begriffsordnungen
Bsp.: Obstbaum sei Oberbegriff zu Kernobstbaum
•
Begriffe, deren Beziehung
dadurch zustande kommt,
dass sie gemeinsam in DE
auftreten
Bsp.: Eine DE enthalte:
Obstbaum, Bauer, Steiermark
Obstbaum
Obstbaum
paradigmatische
Relation
Kernobstbaum
HHU Düsseldorf – SS 2005
syntagmatische
Relation
Steiermark
Wissensrepräsentation
77
Begriffe und Begriffsordnungen
Paradigmatische und syntagmatische Relation
Singvögel
Meisen
Blaumeisen
füttern ihre Jungen
füttern ihre Jungen mit
füttern ihre Jungen mit
paradigmatisch
„fest verdrahtet“
hier:
Hierarchierelation
HHU Düsseldorf – SS 2005
Insekten
grünen Raupen
syntagmatisch
„im konkreten
Kontext“
Wissensrepräsentation
78
Dokumente und ihre Strukturierung
Dokumente und ihre Strukturierung
Was ist ein Dokument?
•
•
•
„Dokumentation“ (d.h. die Repräsentation des Wissens
durch Indexieren oder Referieren) kommt von „Dokument“
klar: (gedruckter) Text ist „Dokument“
aber: Objekte als Dokumente? (Ansatz von Suzanne Briet)
Gegenstand
Stern am Himmel
Foto des Sterns
Stein in einem Fluss
Stein in einem Museum
Tier in der Wildnis
Tier im Zoo
Dokument?
nein
ja
nein
ja
nein
ja
Michael K. Buckland: What is a document? – In: Journal of the American Society for Information Science 48
(1997), 804-809.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
80
Dokumente und ihre Strukturierung
Was ist ein Dokument?
Kriterien:
•
•
•
•
1. Materialität (physikalisch, einschließlich digital)
2. Intentionalität (trägt Sinn bzw. Bedeutung)
3. Erarbeitung (wird geschaffen)
4. Wahrnehmung (wird als Dokument bezeichnet)
Dokument
•
•
•
(A) Text
(B) (nicht-textuelles) Objekt
alle Dokumentformen werden sprachlich indexiert
HHU Düsseldorf – SS 2005
Wissensrepräsentation
81
Dokumente und ihre Strukturierung
•
(A 1) Publikationen
Bücher
(wissenschaftliche) Artikel
Zeitungsartikel, Agenturmeldungen
Gesetze, Erlasse
Urteile
Normen
Patente, Gebrauchsmuster,
Geschmacksmuster, Marken
– Hochschulschriften
– Noten
– Kartenwerke
–
–
–
–
–
–
–
HHU Düsseldorf – SS 2005
Wissensrepräsentation
82
Dokumente und ihre Strukturierung
•
(A 2) andere, nicht (formal) publizierte Texte
– digitale Dokumente im Internet (Sonderform:
Wikis – kooperativ geprüft)
– Akten
– andere Archivmaterialien
(z.B. Nachlässe)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
83
Dokumente und ihre Strukturierung
•
(B 1) WTM-Fakten (Wissenschaft / Technik / Medizin)
–
–
–
–
–
Stoffe und ihre Eigenschaften
Krankheiten und ihre Symptome
Patienten (Krankenakten)
demographische Daten
statistische Daten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
84
Dokumente und ihre Strukturierung
•
(B 2) Wirtschaft
– Branchen
– Unternehmen
– Produkte
HHU Düsseldorf – SS 2005
Wissensrepräsentation
85
Dokumente und ihre Strukturierung
•
(B 3) audiovisuelle Dokumente
– Bilder
– Filme / Filmsequenzen
• Sonderform: generische Sequenzen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
86
Dokumente und ihre Strukturierung
•
(B 3) audiovisuelle Dokumente
– Ton (Schall)
• Musik
• gesprochene Sprache („Wortarchiv“)
• Geräusche
•
(B 4) multimediale Dokumente (Mischformen)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
87
Dokumente und ihre Strukturierung
•
(B 5) Museumsdokumente
– archäologische Funde
– Kunstwerke
– kulturgeschichtliche Gegenstände
HHU Düsseldorf – SS 2005
Wissensrepräsentation
88
Dokumente und ihre Strukturierung
• Die Einheit der Dokumente (Texte – Objekte):
Dokumentarische Bezugseinheit (DBE)
stets gleichbleibende Einheit der Vorlagen, die in einen
Informationsspeicher aufgenommen werden, hierbei ggf.
analytische „Zerlegung“ der Vorlagen
Beispiele:
Buch (als Ganzes)
Buchkapitel
dto.
Abbildung; Tabelle
Zeitschrift (als Ganzes)
Artikel
Korrespondenz
einzelner Brief
Film
Filmsequenz
Münzsammlung
HHU Düsseldorf – SS 2005
-
einzelne Münze
Wissensrepräsentation
89
Dokumente und ihre Strukturierung
• Was wird in die Datenbank aufgenommen?
Dokumentationswürdigkeit
Kriterienkatalog, der die Entscheidung fundiert, ob eine
bestimmte DBE in den Informationsspeicher aufgenommen
wird oder nicht
Grundaspekte:
– Relevanz des Dokuments
– Informationsbedarf der Nutzer
– bisheriger Stand der Datenbank
Spezifische Aspekte:
– thematische Kriterien
– formale Kriterien (Bsp.: nur wissenschaftliche Artikel;
nur HTML-Dateien)
– Finanzrahmen - Personalressourcen - Zeit
– ggf.: Neuigkeit
– ggf.: kritische Prüfung des Inhalts
HHU Düsseldorf – SS 2005
Wissensrepräsentation
90
Dokumente und ihre Strukturierung
• Datenstrukturierung:
•
Identifikation kleinster
Beschreibungseinheiten für
bestimmte Typen von
dokumentarischen
Bezugseinheiten (DBE)
Bsp.: wissenschaftlicher
Aufsatz. FELDER:
•
•
•
•
Autor(en)
Sachtitel
Zeitschriftentitel
Jahrgang
Meta• Seitenzahl
daten • Themen usw.
HHU Düsseldorf – SS 2005
• Dokumentstrukturierung:
•
Zerlegung eines bestimmten Types
von dokumentarischen
Bezugseinheiten (DBE) - auch - im
Sinne von Markup-Sprachen
Bsp.: wissenschaftlicher Aufsatz.
STRUKTUR:
Sachtitel
Autor(en)
Titel des 1. Abschnitts
Text des 1. Abschnitts:
Problemstellung
• darin: Fußnote(n)
• Titel des 2. Abschnitts
• Text des 2. Abschnitts: Methodik
usw.
•
•
•
•
Strukturdaten
Wissensrepräsentation
91
Dokumente und ihre Strukturierung
Dokumentstrukturierung (bei digitalen Dokumenten)
– Beschreibung einer Dokumentstruktur innerhalb des
Dokuments mittels einer besonderen Sprache (Markup
Language, Seitenbeschreibungssprache)
– für Textverarbeitung und -publikation (seit 1986): Standardized
Generalized Markup Language (SGML). Umfassendes Konzept
einer Markup-Sprache
– für Beschreibung verlinkter Dokumente (seit 1989): Hypertext
Markup Language (HTML). Eingeschränkte Sprache (ohne
Möglichkeit zur wissensabbildenden Dokumentstrukturierung),
dafür aber für Hypertextstrukturen anwendbar
– Seitenbeschreibung und Hypertext: eXtensible Markup
Language (XML). Bündelung der Vorteile von SGML und
HTML. „Industriestandard“. Wissensrepräsentation möglich.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
92
Dokumente und ihre Strukturierung
• Datenstrukturierung / Definition der Metadaten:
Vorgehen
•
•
•
1. Datenbankdesign: Feldschema
2. Zusammenspiel der Datenbanken (falls mehrere)
3. Beschreibung der Felder
– Suchfelder (möglichst kontrolliertes Vokabular)
– Anzeigefelder
•
•
4. Regelwerk (konkrete Anweisungen für jedes Feld)
5. (ggf.) Nutzung von Hilfsmitteln (z.B. Normlisten von
Ländernamen oder Thesauri)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
93
Dokumente und ihre Strukturierung
Datenstrukturierung
•
Datenbankdesign: Beschreibung des Dokuments in einem
Feldschema, dabei Festlegung von Merkmalen für jedes Feld
–
–
–
–
–
–
–
–
Feldname
Kurzbezeichnung
Schlüsselfeld (ja, nein)
Anzahl Werte (ein Wert,
mehrere Werte: Subfelder)
Typ der Feldwerte (alphanumerisch, Formel, Datum,
Betrag, Text, ganze Zahl, ...)
Normdaten
ggf.: Feldlänge
Index (ja, nein)
• Wortindex
• Phrasenindex
HHU Düsseldorf – SS 2005
Jahrgang
YR
nein
genau 1 Wert
ganze Zahl
ja
4 Stellen
ja
ja
nein
Wissensrepräsentation
94
Dokumente und ihre Strukturierung
•
•
•
•
Zusammenspiel der Datenbanken
Beispiel:
Kunstwerke
Categories for the
Descriptions of Works
of Art (CDWA)
Getty Standards
Program
Categories for the Descriptions of Works of Art.
www.getty.edu/research/conducting_research/standards/cdwa/index.html
HHU Düsseldorf – SS 2005
Wissensrepräsentation
95
Dokumente und ihre Strukturierung
•
Feldsschema. Beispiel: Kunstwerke
HHU Düsseldorf – SS 2005
Wissensrepräsentation
96
Dokumente und ihre Strukturierung
•
Feldbeschreibung. Beispiel: Feld: Abmessungen - Subfeld:
Dimensionen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
97
Dokumente und ihre Strukturierung
•
Feldschema.
Beispiel:
Wissenschaftliche
Literatur
HHU Düsseldorf – SS 2005
Wissensrepräsentation
98
Dokumente und ihre Strukturierung
Ansicht
einer
Webseite
Metadaten
in
„Meta Tags“
Beispiel: Webseite
HHU Düsseldorf – SS 2005
Wissensrepräsentation
99
Dokumente und ihre Strukturierung
Metadaten
formalbibliographische
Metadaten
inhaltsbezogene
Metadaten
formale
Erfassung
Inhaltserschließung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
100
Dokumente und ihre Strukturierung
Metadaten: Formale Erfassung
•
•
•
•
•
Abbildung nicht inhaltsbezogener Informationen der
dokumentarischen Bezugseinheit auf die Erfassungsfelder
einer Datenbank
für jedes Feld werden Erfassungsregeln definiert
soweit möglich: für jedes Feld werden Normdaten
gesammelt
Regelwerk für formale Erfassung von
Bibliotheksmaterialen: AACR (Anglo-American Cataloging
Rules) (mit Sonderregeln für audiovisuelle Materialien,
Musikalien, Karten und unselbständig erschienener Werke)
für die Erfassung von Internet-Dokumenten werden die
Dublin-Core-Elements diskutiert
HHU Düsseldorf – SS 2005
Wissensrepräsentation
101
Dokumente und ihre Strukturierung
Formale Erfassung / Regelwerk / Normdaten
Beispiel: ... wenn man versucht, ohne auszukommen
Register:
Henzinger M
Henzinger Monika
Henzinger Monika R
Henzinger Monika Rauch
Henzinger Monika R.
Henzinger, M
Henzinger, Monika
Henzinger, Monika R
Henzinger, Monika Rauch
Henzinger, Monika R.
Monika Henzinger
Monika R Henzinger
Monika Rauch Henzinger
Monika Rauch-Henzinger
Monika R. Henzinger
Rauch Henzinger Monika
Rauch Henzinger, Monika
Rauch-Henzinger Monika
Rauch-Henzinger, Monika
HHU Düsseldorf – SS 2005
Wissensrepräsentation
102
Dokumente und ihre Strukturierung
Formale Erfassung / Regelwerk / Normdaten
• mit Regel: bei Personennamen Ansetzung: Nachname
Komma Leerzeichen Vorname (ausgeschrieben)
Leerzeichen zweiter Vorname oder Mittelname (nur erster
Buchstabe mit Punkt)
• Beispiel: Register: Henzinger, Monika R.
Rauch, Monika
•
•
mit Normdaten: je Person ein Datensatz
Name in Normform: Henzinger, Monika R.
Geburtsdatum:
tt.mm.jjjj
Zusatzinformationen: ehemalige Forschungsleiterin Google
Verweis:
Rauch, Monika
Beispiel: Register: Henzinger, Monika R.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
103
Dokumente und ihre Strukturierung
Formale Erfassung / Regelwerk / Normdaten. Beispiele:
Gertrud von Le Fort
Ernst Aus‘m Weerth
Julia Rauh-von der Schule
Jean de la Fontaine
Louis de Broglie
Louis de Rouvroy Duc de
Saint-Simon
Ali ibn Haduga
Lola Réz (verh.: Kosáry)
Anton der Kinderen
Anton Du Perron
Andrej N. Rimskij-Korsakov
Constance Lytton (Tochter
eines Dukes)
HHU Düsseldorf – SS 2005
Le Fort, Gertrud von (dt.)
Aus‘m Weerth, Ernst (dt.)
Rauh-von der Schule, Julia (dt.)
La Fontaine, Jean de (fr.)
Broglie, Louis de (fr.)
Saint-Simon, Louis de Rouvroy
Duc de (fr.)
Ibn Haduga, Ali (arab.)
Kosáryné-Réz, Lola (ungar.)
Kinderen, Anton der (nl.)
Du Perron, Anton (nl.)
Rimskij-Korsakov, Andrej Nikolajevich (russ.)
Lytton, Lady Constance (engl. UK)
Wissensrepräsentation
104
Dokumente und ihre Strukturierung
Formale Erfassung
• Ansetzung der Namen von Körperschaften
– Beispiel „untergeordnete Körperschaft“: Referat Frauenpolitik der SPD.
Ansetzungsform: Sozialdemokratische Partei Deutschlands / Referat
Frauenpolitik
– Beispiel „selbständige Körperschaft“: ifo Institut, München.
Ansetzungsform: ifo Institut für Wirtschaftsforschung e.V. <München>
– Beispiel „Gebietskörperschaft“: Kongeriget Danmark.
Ansetzungsform: Danmark. Bsp.: Polizeidirektion Bonn.
Ansetzungsform: Nordrhein-Westfalen / Polizeidirektion <Bonn>
•
bei nicht-lateinischen Schriften: Transliteration (etwa nach: ISO)
– Beispiel: BAPHA (bulg.). Transliteration: Varna
•
bei allen Ansetzungen: Verweise von möglichen Varianten auf die
Normansetzung
Uta Krischker: Formale Analyse (Erfassung) von Dokumenten. – In: Grundlagen der praktischen
Information und Dokumentation. – München [u.a.]: Saur, 31990, 63-89.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
105
Dokumente und ihre Strukturierung
Formale Erfassung.
• Erfassung von Webseiten
• „Dublin Core Elements“
Feldname (Version 1.0)
– Titel
title
– Autor/Urheber
creator
– Thema/Schlagwörter
subject
(vorgeschlagen: kontrolliertes Vokabular oder Klassifikation)
– Inhaltsbeschreibung
description
(Abstract bzw. Beschreibung nicht-textueller Dokumente)
– Herausgeber/Verlag
publisher
– anderer Beteiligter
contributor
(etwa: Illustrator, Übersetzer)
– Datum (in der Form: yyyy-mm-dd) date
– Dokumenttyp
resource type
(etwa: Homepage, Arbeitspapier, Gedicht, Foto)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
106
Dokumente und ihre Strukturierung
•
„Dublin Core Elements“ (2)
Feldname (Version 1.0)
– Datenformat
format
(Dateityp, ggf. Dateigröße)
– Identifikation der Ressource
identifier
(URL [uniform resource locator], DOI [digital object identifier], ...)
– Quelle
source
– Sprache
language
– Beziehungen
relation
– thematische Abdeckung
coverage
(räumliche und zeitliche Charakteristika des Inhalts)
– Rechte
rights
(Vermerk über Rechteinhaber)
•
Bisher konnten sich die „Dublin Core Elements“ im WWW [noch?]
nicht durchsetzen.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
107
Dokumente und ihre Strukturierung
• Metadaten: Inhaltserschließung
•
•
Abbildung inhaltsbezogener Informationen der dokumentarischen Bezugseinheit auf die Erschließungsfelder einer Datenbank
Inhaltserschließung geschieht durch INDEXIEREN und
REFERIEREN
– Indexieren ist die Abbildung der Themen (ggf. der
Themenkomplexe) durch Begriffe (Ursprung des Wortes:
Buchindex)
– Referieren ist die Abbildung der thematisierten Sachverhalte
durch (wenige) Sätze
•
•
Inhaltserschließung geschieht entweder automatisch oder
intellektuell (oder Mischform)
Inhaltserschließung macht von eigenen Methoden und von
spezifischen Werkzeugen Gebrauch.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
108
Dokumente und ihre Strukturierung
Inhaltserschließung
Funktion 1:
Informationsfilter
Funktion 2:
Informationsverdichtung
Indexieren
Referieren
Optimales Suchen und Finden von Dokumenten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
109
Dokumentationssprachen I:
Klassifikationssysteme
(Taxonomien)
Klassifikationssysteme
Klassifikation - Grundlegende Literatur
•
•
•
•
•
•
Brian Buchanan: Bibliothekarische Klassifikationstheorie. –
München: Saur, 1989.
DIN 32705: Klassifikationssysteme
Konrad Umlauf: Einführung in die bibliothekarische Klassifikationstheorie und –praxis. – Berlin: HU / Inst. f. Bibl.wiss., 1999.
(www.ib.hu-berlin.de/~kumlau/handreichungen/h67/).
Advances in Classification Research. Proceedings of the xxth ASIS&T
SIG/CR Workshop. – Medford: Information Today (derzeit Bd. 13,
2004).
Hans-Jürgen Manecke: Klassifikation, Klassieren. – In: Grundlagen
der praktischen Information und Dokumentation. – München: Saur,
52004, 127-140.
Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1),
1968 (Bd. 2).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
111
Klassifikationssysteme
Klassifikation ist ein Hilfsmittel zur ORDNUNG von
Gegenständen oder von Wissen über Gegenstände
– praktische Aufgabe: Ordnen von Gegenständen (in einem
Lager, im Supermarkt, im Küchenschrank, ...)
– informationswissenschaftliche und -praktische Aufgabe:
Anordnen, Bei-, Neben- und Einordnen, Einteilen,
Gruppieren, Unterordnen, Zusammenordnen, Zuordnen von
Wissen
– wissenschaftliche Aufgabe: angemessene Darstellung von
Wissenseinheiten (z.B. Taxonomie in der Biologie:
„Systema naturae“ von Carl von Linné, oder Physik:
Periodensystem der Elemente)
– erkenntnisvermittelnde Aufgabe: Aufhellung von
Zusammenhängen anhand geordneten Wissens
HHU Düsseldorf – SS 2005
Wissensrepräsentation
112
Klassifikationssysteme
Grundbegriffe
•
•
•
•
•
•
•
Klasse: (intensional oder extensional) definierter Gegenstand
(Allgemein- oder Individualbegriff)
Klassifizieren: Erstellen eines Klassifikationssystems; Bilden
von Klassen
Klassieren: Einordnen von DBE in Klassen
Notation: nicht-natürlichsprachiges Wort als Name einer
Klasse
Bezeichnungen: natürlichsprachige Übersetzungen einer
Notation
Die Erstellung und Weiterentwicklung von Klassifikationssystemen ist in Deutschland normiert.
DIN 32705. Klassifikationssysteme (1987)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
113
Klassifikationssysteme
Notationsformen
•
strukturabbildend hierarchische Notation (Notation bildet
Hierarchierelation ab). Bsp.:
Klasse A: Notation: 1
Klasse B: Notation: 11
Klasse D: Notation: 111
Klasse C: Notation: 15
•
A
r
ite
e
l
s
i ff
r
g
B
Be
Topterm
C
Hierarchierelation
sequentielle Notation. Bsp.:
Klasse A: Notation: 1
Klasse B: Notation: 3
Klasse D: Notation: 8
Klasse C: Notation: 5
•
Relationen in Begriffssystemen
D Begriffs- E
-reihe
F
Polyhierarchie
G
Assoziationsrelation
H
I
Bottomterms
hierarchisch-sequentielle Notation - Mischform (Notation auf
gewissen Hierarchieebenen hierarchisch, sonst sequentiell)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
114
Klassifikationssysteme
• Vorteil der Notation: international einsetzbar
Beispiel:
vacuum cleaner
Staubsauger
dammsugaren
aspirateur
aspiratore di polvere
aspirador de polvo
odkurzacz
DK 648.525
• Nachteil der Notation: mnemotechnisch nicht
beherrschbar
HHU Düsseldorf – SS 2005
Wissensrepräsentation
115
Klassifikationssysteme
•
•
•
•
Präkombinationsgrad der Begriffe: i.d.R. hoch (präkombinierte
Begriffe bevorzugt). Bsp.: „Witterungsabläufe in Mittelgebirgslagen subtropischer Zonen“ als 1 Klasse
i.d.R. monohierarchisch (ohne Unterscheidung nach Abstraktionsund Bestandsrelation); zusätzlich: (Quasi-)Synonyme;
Assoziationsrelation sehr eingeschränkt
häufig: neben einer Basiskategorie weitere spezielle Kategorien
(als „Anhängezahlen“, „Ergänzungszahlen“ oder „Indexcodes“)
Klassifikationssystem:
– (1) Lexikon: systematische Tafeln, ggf. Hilfstafeln (jeweils Notationen
und Bezeichnung/en); hierzu: Register (mit Synonymen)
– (2) Grammatik: spezielle Zeichen, Regeln für den Umgang mit den
Zeichen
– (3) Hinweise: u.a. Anmerkungen, Querverweise oder Vorrangregeln
HHU Düsseldorf – SS 2005
Wissensrepräsentation
116
Klassifikationssysteme
•
Grundlegende Regeln:
– ein Objekt - eine Klasse
– damit: ein Objekt - eine Notation
– eine Notation - mehrere Bezeichnungen (Fremdsprachen,
Akronyme, Synonyme)
– jede Bezeichnung sollte für sich selbst sprechen (u.U.
definierende Zusätze anbringen)
– Einstieg für Nutzer über Systematik (Notationen) und
Bezeichnungen (möglichst in unterschiedlichen natürlichen
Sprachen) gewährleisten
– homonyme Bezeichnungen in die einzelnen Objekte überführen
und auf unterschiedliche Klassen verweisen
– i.d.R. monodimensional (polydimensional nur in Ausnahmefällen)
– Polyhierarchie schlecht oder gar nicht ausdrückbar
HHU Düsseldorf – SS 2005
Wissensrepräsentation
117
Klassifikationssysteme
Klassifikationstypen nach Einsatzgebieten
– Universalklassifikationen
• zur Ordnung von Beständen (sprachlich wie fachlich)
universal ausgerichteter Informationseinrichtungen (z.B.
Universitätsbibliotheken)
• als Zugangshilfe zu Dokumenten im World Wide Web
– Klassifikationen gewerblicher Schutzrechte
– Wirtschaftsklassifikationen
• Branchenklassifikationen (auch zum Zwecke amtlicher
Statistik)
• Produktklassifikationen
– Geographische Klassifikationen
– Medizinische Klassifikationen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
118
Klassifikationssysteme
Universalklassifikationen
•
•
•
•
•
•
Dewey Decimal Classification (DDC) - von Melvil
Dewey 1876 erstmals eingeführt
DK:
Dezimalklassifikation (DK / UDC / CDU) - auf der
unser
Basis der DDC von Paul Otlet und Henri LaFontaine
1. Beispiel
um 1900 entwickelt
Colon Classification (CC) - facettierte Klassifikation
von S.R.Ranganathan (1. Aufl. 1933)
Allgemeine Systematik für Öffentliche Bibliotheken
(ASB) - als Aufstellordnung in ÖBs (seit 1956)
verwendet
Yahoo!
unser
Yahoo! - Klassifikation
2. Beispiel
Open Directory Project (ODP) - Systeme zur
Klassierung von Websites
HHU Düsseldorf – SS 2005
Wissensrepräsentation
119
Klassifikationssysteme
Dezimalklassifikation (DK)
•
Haupttafel / Aufbau:
– 0
Allgemeines
– 1
Philosophie, Psychologie
– 2
Religion, Theologie
– 3
Sozialwissenschaften
– 4
[derzeit frei]
– 5
Mathematik, Naturwissenschaften
– 6
Angewandte Wissenschaften, Medizin, Technik
– 7
Kunst, Musik, Sport, Spiele
– 8
Literaturwissenschaft, Sprachwissenschaft
– 9
Geographie, Biographien, Geschichte
I.C.McIlwaine: The Universal Decimal Classification: Guide to its Use. – The Hague: UDC Consortium, 2000.
Karl Fill: Einführung in das Wesen der Dezimalklassifikation. - Berlin, Köln: Beuth Verl., 1981.
Online: www.udcc.org/ (Ausschnitte aus der DK)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
120
Klassifikationssysteme
Dezimalklassifikation (DK) - Notationsbeispiel 1
2 Religion, Theologie
29 Nichtchristliche Religionen
291 Allgemeine und vergleichende Religionswissenschaft
291.2 Religiöse Lehren. Dogmen
291.21 Gottheiten. Gegenstand der Religion. Verehrung der
Gottheiten. Göttersagen. Funktionen der Götter. Götterund Geisterwelten
291.213 Verehrung von Menschen, Halbgöttern, Helden,
Heiligen, Herrschern (Apotheose)
291.213.4 Ahnenkult. Kult der Hausgötter: Manen, Laren,
Penaten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
121
Klassifikationssysteme
Dezimalklassifikation (DK) - Notationsbeispiel 2
669 Metallurgie. Metalle und Legierungen
669.1 Eisenhüttenkunde. Eisen und Stahl
669.16 Herstellung von Roheisen
669.162 Roheisenerzeugung. Erste Schmelzung
669.162.2 Hochöfen
669.162.26 Betrieb von Hochöfen
669.162.266 Hochofenabstich
669.162.266.2 Roheisenabstich
669.162.266.23 Abstechen in Gießbetten und Herstellen der Masselbetten
669.162.266.232 Abstechen in Gießbetten
669.162.266.232.6 Abstechen in Gießmaschinen
669.162.266.232.64 in Gießmaschinen mit endlosen Bändern
synkategorematischer Begriff; wird erst mit nächsthöherer Ebene vollständig.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
122
Klassifikationssysteme
•
Neben den Systematischen Tafeln hat die DK für spezielle
Kategorien Ergänzungstafeln
•
Allgemeine Ergänzungszahlen
KATEGORIE
– Sprache
– Form
– Ort
– Zeit
– Materialien
– Personen
Besondere Ergänzungszahlen
– Kennzeichnungen
– Aspekte u.a.
– Synthese
•
HHU Düsseldorf – SS 2005
SYMBOL
=...
(0...)
(1/... bis 9/...)
„...“
-03
-05
(-...)
(.0...)
(’...)
Wissensrepräsentation
123
Klassifikationssysteme
•
Allgemeine Ergänzungszahlen
der Sprache (Beispiele)
– =00
mehrsprachig
– =20
englisch
– =30
deutsch
– =392
friesisch
– =393
niederländisch
– =393.2
flämisch
– =393.6
afrikaans
– =40
französisch
– =490
provenzalisch
– =499
katalanisch
– =50
italienisch
– =60
spanisch
HHU Düsseldorf – SS 2005
•
Allgemeine Ergänzungszahlen
der Zeit (Beispiele)
– „-“
vorchristliche Zeit
– „+“
christliche Zeit
– „04/14“
Mittelalter
– „15/19“
Neuzeit
– „32“
Jahreszeiten
– „321“
Frühling
– „322“
Sommer
– ...
– „36“
Zeit in Sicht der
Not
– „362“
Friedenszeit
– „364“
Kriegszeit
Wissensrepräsentation
124
Klassifikationssysteme
•
Besondere Ergänzungszahlen
(Aspekte) im Bereich DK 7
(Beispiele)
– 7.061
Fälschungen
– 7.07
Arten der
Beschäftigung mit
Kunst
– 7.071
Künstler
– 7.072
Kunstwissenschaft
– 7.073
Kunstliebhaber
– 7.075
Kunsthändler
– 7.078
öffentliche
Förderung der
Kunst
HHU Düsseldorf – SS 2005
•
Systematische Tafel im Bereich
DK 7 (Ausschnitt)
– 737.1
– 738.5
– 739.8
•
Münzen
Mosaik
Nippes
Kombination Systematik-Notation
und besondere Ergänzungszahl
– 737.1.061 Fälschungen von
Münzen
– 738.5.061 Fälschungen von
Mosaiken
– 739.8.075 Händler von
Nippes
Wissensrepräsentation
125
Klassifikationssysteme
DK-Register
•
•
•
•
enthält in einer natürlichen Sprache alle Benennungen der
Notationen aus den systematischen Tafeln und aus den
Ergänzungstafeln
enthält Synonyme und Quasi-Synonyme der Benennungen
Assoziationsrelation („siehe auch“)
Notation aus
systematischer Tafel
unterscheidet Homonyme bzw. Polyseme
Ausschnittbeispiele:
Deutschland (Geographie)
--- (Geschichte)
--- (Ortsanhängezahl)
Dock ... siehe auch Trockendocks
Pinakothek siehe Gemäldegalerien
Schlangen (Zoologie)
Schlangen (Tierzucht)
HHU Düsseldorf – SS 2005
914.3
943
(43)
Notation aus
Ergänzungstafel
Assoziationsrelation
Synonym
598.12
636.98
Wissensrepräsentation
Homonymkontrolle
126
Klassifikationssysteme
Mehrere Klassen verbinden
(syntaktisches Indexieren)
– (1.) Beziehung. Symbol: :
Beispiel: Lichtbrechung von
Rubinen
Rubin
549.517.1
Lichtbrechung
535.323
also: 549.517.1:535.323
– (2.) Beiordnung. Symbol: +
Beispiel: Mathematik und Physik
Mathematik
51
Physik
53
also: 51+53
HHU Düsseldorf – SS 2005
– (3.) gerichtete Beziehung
Symbol: ::
Beispiel: Verkehrsmedizin
Verkehr
656
Medizin
61
also: 61::656
– (4.) Erstreckung (von-bis)
Symbol: /
Beispiel: der Gesamtbereich
Biologie, Botanik, Zoologie
Biologie
57
Botanik
58
Zoologie
59
also: 57/59
Wissensrepräsentation
127
Klassifikationssysteme
•
•
•
(5.) Kombination einer DKZahl der Haupttafel mit einer
allgemeinen Ergänzungszahl
Zahl aus Haupttafel [Zeichen
für Typ der Ergänzungszahl]
Ergänzungszahl
Beispiel: Prostitution in
Deutschland
Prostitution
176.5
Zeichen für Ort
(...)
allgemeine Ergänzungszahl
Deutschland
43
also: 176.5(43)
HHU Düsseldorf – SS 2005
•
(6.) Kombination einer DK-Zahl
der Haupttafel mit einer
speziellen Ergänzungszahl
Zahl aus Haupttafel [Zeichen für
Typ der Ergänzungszahl]
Ergänzungszahl für markierten
Bereich
Beispiel: Fälschungen von
Mosaiken (siehe oben!)
Mosaik
738.5
Zeichen Ergänzungszahl .0 ...
spezielle Ergänzungszahl
Fälschungen
61
(darf im Bereich 7 eingesetzt
werden)
also: 738.5.061
Wissensrepräsentation
128
Klassifikationssysteme
Fallbeispiel: DK-Suche beim Katalog der ETH Zürich: Index
Suchargument
HHU Düsseldorf – SS 2005
Wissensrepräsentation
129
Klassifikationssysteme
DK-Suche beim Katalog der ETH Zürich: Katalogkarte
HHU Düsseldorf – SS 2005
Wissensrepräsentation
130
Klassifikationssysteme
Yahoo!
•
Gründer und derzeitige
CEOs: Jerry Yang und
David Filo
•
entstanden 1993 aus
einem Verzeichnis von
Bookmarks
•
Yahoo: (unsympathische)
Wesen aus „Gullivers
Reisen“; Akronym für „yet
another hierarchical
officious oracle“ oder
auch schlicht Ausruf
HHU Düsseldorf – SS 2005
Wissensrepräsentation
131
Klassifikationssysteme
@: Wechsel der Begriffsleiter
(unechte) Polyhierarchie
Polydimensionale Ordnung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
132
Klassifikationssysteme
Zuordnung einer
Website zu mehreren
Klassen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
133
Klassifikationssysteme
88mal
Frauen als
Benennung
für
unterschiedliche
Klassen
Klassenbezeichnungen bei
Yahoo! sind
synkategorematisch.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
134
Yahoo ! - Baumstruktur (Ausschnitt / fingiertes Beispiel: Suche
nach: „The Game of Go“) - Patent US 5991756
Yahoo's Main Menu
1 Recreation
16 Restaurants
2 Games
9 Boating
„Game$“
20 Food To Go
„Go$“
3 Board Games
21 Joe's Pizza To Go
4 Go
7 Chess
22 "To Go" Delivery Services
5 URL
6 URL
HHU Düsseldorf – SS 2005
8 Tournaments
Wissensrepräsentation
Kein direkter
Treffer
135
Klassifikationssysteme
Yahoo! Suchalgorithmus
•
bei Phrase: Anzeige der direkten Treffer (Categories [d.h.:
Klassenbenennungen], Sites, News)
•
sonst: Elimination von Stoppwörtern
•
automatische Rechtsfragmentierung (stets: SUCHTERM*)
•
bei genau 1 Suchwort sowie bei mit ODER verknüpften
Suchwörtern: Anzeige der direkten Treffer
•
bei mehreren mit UND verknüpften Suchwörtern:
•
1. Anzeige der direkten Treffer
•
2. Anzeige der indirekten Treffer (min. 1 Suchwort direkter Treffer,
anderes Suchwort Unterbegriff eines direkten Treffers) Aufhebung der Probleme mit den Synkategoremata
Jiong Wu: Information Retrieval from Hierarchical Compound Documents / Yahoo Inc. – Patent US 5991756 vom
23.11.1999. – Mechtild Stock; Wolfgang G. Stock: Recherchieren im Internet. – Renningen: expert-verl., 2004, Kap. 2.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
136
1
2
3
4
5
6
7
8
9
Dokumentenspeicher
9
8
8
6
8
...
...
1
2
3
4
4
3
7
1
Recreation
Games
Board Games
Go
Title / URL
Title / URL
Chess
Tournements
Boating
Desc. Fun Cat.
Desc. Cat.
Desc. Cat.
Desc. Cat.
Desc. Site
Desc. Site
Desc. Cat.
Desc. Contests Cat.
Desc. Sailing Cat.
Anfrage
Dokument
...
Game: 2, 3, Null
Gamele: 10,12, Null
Gander: 39, 67, 102, Null
...
Go: 4, 20, 21, 22, ...
Gobble: 82, 102, Null
...
The: Ignore
Trefferliste
Suchmaschine
Anfrage
The Game
of Go
HHU Düsseldorf – SS 2005
Wortindex
Dok.
1
2
3
4
5
6
Ausgabeliste
xxx
xxx
xxx
xxx
xxx
xxx
Zeit Intervall der "Kinder"
00/00/0000
2-9
00/00/0000
3-8
00/00/0000
4-8
00/00/0000
5-6
00/00/0000
∅
10
00/00/0000
5
∅
Gewichtung
Wissensrepräsentation
Struktur der
Indices
bei
Yahoo!
Patent
US 5991756
137
Klassifikationssysteme
Klassifikation gewerblicher Schutzrechte
•
Patente und Gebrauchsmuster:
– Internationale Patentklassifikation (IPC)
– ECLA
•
unsere
Beispiele
Marken:
– Wiener Klassifikation der figürlichen Darstellungen
– Nizza Klassifikation der Waren
•
Geschmacksmuster:
– Locarno Klassifikation der Waren
•
alle Klassifikationen gewerblicher Schutzrechte werden von
der World Intellectual Property Organization (WIPO) in Genf
gepflegt
Online: classifications.wipo.int
HHU Düsseldorf – SS 2005
Wissensrepräsentation
138
Klassifikationssysteme
Internationale Patentklassifikation / International
Patent Classification (IPC)
•
•
•
•
nach dem Straßburger Abkommen über die IPC (1971; in
Kraft getreten 1975) einheitliche Klassierung aller
Patentschriften weltweit
neben den Patentämtern halten sich alle Datenbankproduzenten beim Indexieren an die IPC
Gegenstandsbereich: alles, was patentiert werden kann,
d.h. alle technischen Gegenstände (Anm.: Dieser Bereich
kann sich von Zeit zu Zeit wandeln; z.Z. etwa bei den
Softwarepatenten)
derzeit (7.Aufl.) rund 69.000 Klassen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
139
Klassifikationssysteme
IPC - Lexikon in 8 Sektionen:
–
–
–
–
–
–
A
B
C
D
E
F
– G
– H
Täglicher Lebensbedarf (ca. 7.500 Gruppen)
Arbeitsverfahren; Transportieren (16.500)
Chemie; Hüttenwesen (13.500)
Textilien; Papier (3.000)
Bauwesen; Erdbohren; Bergbau (3.000)
Maschinenbau; Beleuchtung; Heizung;
Waffen; Sprengen (8.000)
Physik (7.000)
Elektrotechnik (7.000)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
140
Klassifikationssysteme
Struktur der IPC
•
•
Sektion: 1 Stelle (z.B. B)
- Klasse: 2 weitere Stellen (z.B. B64)
- Unterklasse: 1 Stelle (z.B. B64C)
- Gruppen: 3 Stellen (z.B. B64C 025)
- Hauptgruppe: 2 Stellen stets 00 (z.B. B64C 025/00)
- Untergruppe: i.d.R 2 Stellen (nicht 00), u.U. bis zu
4 Stellen (z.B. B64C 025/02)
bis zur Gruppenebene: Notationen strukturabbildend hierarchisch
Untergruppenebene: Notationen sequentiell
HHU Düsseldorf – SS 2005
Wissensrepräsentation
141
Klassifikationssysteme
B
B64
B64C
B64C 025
B64C 025/00
B64C 025/02
B64C 025/08
B64C 025/10
B64C 025/18
B64C 025/26
B64C 025/30
HHU Düsseldorf – SS 2005
Arbeitsverfahren; Transportieren
Luftfahrzeuge; Flugwesen; Raumfahrt
Flugzeuge; Hubschrauber; Drehflügelflugz.
-Start- bzw. Landegestelle
. Fahrgestelle
.. nicht fest angeordnet, z.B. abwerfbar
... einfahrbar, klappbar oder dgl.
.... Betätigungsmittel
..... Steuerung oder Verriegelung dafür
...... Notbetätigung
Wissensrepräsentation
142
Klassifikationssysteme
Hinweise
– allgemeine Querverweise
Beispiel: H05B 3/03 Widerstandsheizung / Elektroden
(elektrothermische Behandlung von Erzen C22B 4/00)
– Vorrangregel (falls ein Gegenstand an mehreren Stellen
klassiert werden kann, aber nur an einer Stelle klassiert
werden sollte)
Beispiel: H05B 3/40 Heizelemente ... (3/62, 3/68, 3/78
haben Vorrang)
– Orientierungsverweis (Hinweis auf verwandte
Gegenstände)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
143
Klassifikationssysteme
Hybrid-System
– Hybrid-Systeme: an manchen Stellen der IPC sind Index-Codes
vorgesehen, die nur in Verbindung mit (dort definierten) anderen
Notationen zu verwenden sind (statt des Schrägstriches hier:
Doppelpunkt). Beispiel: B62D (Motorfahrzeuge), B62D 101:00
(Fahrgeschwindigkeit)
– analog zu den speziellen Ergänzungstafeln der DK
– verbundene Index-Codes: Darstellung einer Notation und eines
Index-Codes in einer Klammer; Beispiel: (C08F 210/16, 214:06) Themenkette i.S. syntaktischen Indexierens
– nicht verbundene Index-Codes: Darstellung des Index-Codes
allein als allgemeine Zusatzinformation
HHU Düsseldorf – SS 2005
Wissensrepräsentation
144
Klassifikationssysteme
•
Klassierung von Erfindungsobjekten
– Funktionsorientierung eines Gegenstandes (z.B. Kolben) und
Anwendungsorientierung eines Gegenstandes (z.B. Anordnung von
Kolben in einem Motor) berücksichtigen!
– System als Ganzes sei Gegenstand: dann auch die nicht trivialen
Einzelheiten klassieren (z.B. gesamte Radaufhängung: wenn wichtig,
auch die Blattfeder berücksichtigen)!
– chemische Formeln (insb. organische Verbindungen): alle vollständig
identifizierten Verbindungen berücksichtigen!
– soviele IPC-Notationen wie nötig, um alle Ansprüche des Patentes
wiederzugeben
– die Notation(en) des Hauptanspruches als erste nennen, dann
Nebenansprüche (einige Patentämter klassieren nur den
Hauptanspruch)
– X-Notationen: X (an beliebiger Stelle einer Notation) zeigt an, dass die
IPC den abzubildenden Gegenstand nicht genau trifft; hier ist
Handlungsbedarf für Weiterentwicklungen der IPC
HHU Düsseldorf – SS 2005
Wissensrepräsentation
145
Klassifikationssysteme
• Klassierung von Erfindungsobjekten
– Hauptklasse(n)
Hauptansprüche der Erfindungsschrift
– Nebenklasse(n)
Nebenansprüche der Erfindungsschrift
– Doppelstrichklasse(n)
„Zusatzinformationen“; nicht rechtlicher, sondern
ausschließlich technischer Natur (von den
Erfindungsinformationen durch einen Doppelstrich //
getrennt)
– Indexklasse(n)
verbundene / unverbundene Indexcodes
HHU Düsseldorf – SS 2005
Wissensrepräsentation
146
Klassifikationssysteme
Fallbeispiel: IPC bei DEPATISnet (DPMA)
•
Suche in der IPC: mit schwarzem Balken am Rand:
Indexcodes; sonst: Notationen
Notationen
IndexCodes
HHU Düsseldorf – SS 2005
Wissensrepräsentation
147
Klassifikationssysteme
IPC in der Version bei DEPATISnet
Indexcodes
HHU Düsseldorf – SS 2005
Wissensrepräsentation
148
Klassifikationssysteme
Detailsuche
der Expertenmaske
nach:
Hauptklasse,
Nebenklasse,
Doppelstrichklasse,
Indexklasse
möglich
HHU Düsseldorf – SS 2005
Wissensrepräsentation
149
Klassifikationssysteme
Anzeige der
bibliographischen
und
inhaltserschließenden
Informationen
zusätzlich:
Volltext
(PDF)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
150
Klassifikationssysteme
ECLA: European Classification System
– IPC: in gewissen Technikbereichen nicht tief genug
gegliedert
– ECLA erweitert IPC „nach unten“ und verfeinert das
System
– erarbeitet beim Europäischen Patentamt; wird bei
einigen großen Patentdatenbanken bei Questel-Orbit
eingesetzt
– Bsp.:
H04N-007/24C12M2
IPC
ECLA
– z.T. diverse neue Klassen (und damit lange Notationen)
David T. Dickens: The ECLA Classification System. – In: World Patent Information 16 (1994), 28-32.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
151
Klassifikationssysteme
ECLA: Bsp. G06F-17/30 Information Retrieval
Online: l2.espacenet.com/espacenet/eclasrch
HHU Düsseldorf – SS 2005
Wissensrepräsentation
152
Klassifikationssysteme
Wiener Klassifikation der figürlichen Darstellungen
– Einsatz bei Markendatenbanken zur inhaltlichen
Beschreibung von Bildmarken (wie die „lila Kuh“ von
Milka)
– seit 1973 (verabschiedet in Wien) international
eingesetzt
– 3 Hierarchieebenen:
• 29 Kategorien
• 144 Abteilungen
• 1.634 Sektionen (in Haupt- und Hilfstafeln)
– formale Graphikelemente (etwa 26: geometrische
Figuren oder 29: Farben) und inhaltliche Aspekte (etwa
2: Menschen oder 22: Musikinstrumente)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
153
Klassifikationssysteme
Wiener Klassifikation der figürlichen Darstellungen / Ausschnitt
– 03 Animals
• 03.01 Quadrupeds (Series I)
– 03.01.01. Lions
– 03.01.04. Tigers or other large felines
– 03.01.06. Cats or other small felines
– 03.01.08. Dogs, wolves, foxes
• ... (gekürzt)
• Auxiliary Section Associated with Principal Section 3.1.1
– A 03.01.02 Heraldic lions
– Auxiliary Section Associated with Principal Section 3.1.1-3.1.15
– A 03.01.17 Animals of Series I standing
– A 03.01.24 Animals of Series I stylized
– Klassierungsbeispiel: stilisierter Hund
– 03.01.08 / 03.01.24
HHU Düsseldorf – SS 2005
Wissensrepräsentation
154
Klassifikationssysteme
Wirtschaftsklassifikationen
•
•
•
Klassifikationen der Amtlichen Statistik
– NACE (Europäische Union)
– WZ 03 (Deutschland)
– SIC (USA - veraltet)
– NAICS (Nordamerika)
Spezielle Branchenklassifikationen
– European Business Classification (Schober)
Produktklassifikationen
– Predicasts Product Codes (Gale Group)
– Kompass
– Dun & Bradstreet SIC
Anneliese Krobath: Analyse von amtlichen und proprietären Wirtschaftsklassifikationen anhand eines Kriterienkatalogs. – Dipl.-Arb. Karl-Franzens-Univ. Graz, 2004.
Mechtild Stock; Wolfgang G. Stock: Qualität professioneller Firmeninformationen im World Wide Web. - In:
Willi Bredemeier et al.: Die Branche elektronischer Geschäftsinformation in Deutschland 2000/2001. –
Hattingen; Kerpen; Köln, 2001, Kap. 3.2: Branchen- und Produktklassifikationen, 355-377.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
155
Klassifikationssysteme
NACE
Nomenclature général des activités économiques dans les
Communautés Européens
• NACE (Rev. 1) seit 1993 verbindliche Klassifikation der
Wirtschaftszweige in der EU
• 4-stellige Notationen; derzeit 640 Klassen
• 3 Hierarchieebenen
Beispiel
– Abteilung (2 Stellen)
29
– Gruppen (1 weitere Stelle)
29.5
– Klassen (1 weitere Stelle)
29.56
– zusätzlich: Abschnitte (Buchstabennotationen),die
Abteilungen sequentiell zusammenfassen, Bsp.: D für die
Abteilungen
15 - 37
NACE Rev.
1: Statistische Systematik
der Wirtschaftszweige in der Europäischen Gemeinschaft. – Luxembourg:
•
Amt für Amtliche Veröffentlichungen der Europäischen Gemeinschaften, 1996. – (Themenkreis 2: Wirtschaft
und Finanzen; Reihe E: Methoden). - Letzte Änderung: NACE Rev. 1.1 (2003).
Online: europa.eu.int/comm/eurostat/ramon/geninfo/geninfo_de.html
HHU Düsseldorf – SS 2005
Wissensrepräsentation
156
Klassifikationssysteme
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
Land- und Fortwirtschaft
Fischerei und Fischzucht
NACE
Bergbau und Gewinnung von Steinen und Erden
Verarbeitendes Gewerbe
1. HierarchieEnergie- und Wasserversorgung
ebene
Baugewerbe
Handel, Instandhaltung und Reparatur von Kraftfahrzeugen und Gebrauchsgütern
Gastgewerbe
Verkehr und Nachrichtenübermittlung
Kredit- und Versicherungsgewerbe
Grundstücks- und Wohnungswesen, Vermietung beweglicher
Sachen, Erbringung von Dienstleistungen f. Unternehmen
Öffentliche Verwaltung, Verteidigung, Sozialversicherung
Erziehung und Unterricht
Gesundheits-, Veterinär- und Sozialwesen
Erbringung von sonstigen öffentlichen und
persönlichen Dienstleistungen
Private Haushalte
Exterritoriale Organisationen und Körperschaften
HHU Düsseldorf – SS 2005
Wissensrepräsentation
01, 02
05
10 bis 14
15 bis 37
40, 41
45
50 bis 52
55
60 bis 64
65 bis 67
70 bis 74
75
80
85
90 bis 93
95
99
157
Klassifikationssysteme
WZ 93 / WZ 03
•
•
•
•
Übernahme der NACE in die deutsche amtliche Statistik ab
1993 als „Klassifikation der Wirtschaftszweige“ (WZ 93) –
Überarbeitung 2003
5-stelliger Code (die letzte Stelle gilt nur für Deutschland)
1.700 Klassen
Einsatz bei
– Statistisches Bundesamt, Bürgel, Creditreform, Hoppenstedt,
AZ Bertelsmann, Schober
•
•
Achtung: z.T. Klassen ohne Änderung der Definition gegenüber
Oberbegriffen
Beispiel: 35.3 (Luft- und Raumfahrzeugbau)
– 35.30 (Luft- und Raumfahrzeugbau (bis hierhin: NACE Rev. 1) - ohne
Informationsgewinn
» 35.30.0 (Luft- und Raumfahrzeugbau (5. Stelle der WZ 93) - wiederum
ohne Informationsgewinn
HHU Düsseldorf – SS 2005
Wissensrepräsentation
158
Klassifikationssysteme
NACE - WZ 03 / Beispiel: Druckmaschinen
• 29 (Maschinenbau)
• 29.5 (Herstellung von Maschinen für sonstige
bestimmte Wirtschaftszweige)
• 29.56 (Herstellung von Maschinen für bestimmte
Wirtschaftszweige a.n.g.) - bis hierhin: NACE
• 29.56.1 (Herstellung von Maschinen für das
Druckgewerbe) - nur für den Gebrauch in Deutschland
Alphabetisches Verzeichnis zur Klassifikation der Wirtschaftszweige, Ausgabe 1993. – Stuttgart:
Metzler-Poeschel, 1993.
Online: www.destatis.de/allg/d/klassif/wz2003.htm
HHU Düsseldorf – SS 2005
Wissensrepräsentation
159
Klassifikationssysteme
Standard Industrial Classification (SIC)
•
•
•
•
•
•
•
1939 - 1997 Klassifikation der Amtlichen Statistik der USA
letzte erschienene Revision: 1987
abgelöst durch NAICS 1997
wird derzeit noch von vielen Informationsproduzenten
eingesetzt, u.a. Information Access Group, Dun &
Bradstreet, Hoppenstedt, Schober
4-stellige Notationen - rund 1.000 Klassen
hierarchischer Notationsaufbau, 4 Hierarchieebenen
stets mit „0“ auf vier Stellen aufgefüllt
Online: www.osha.gov/oshstats/sicser.html
HHU Düsseldorf – SS 2005
Wissensrepräsentation
160
Klassifikationssysteme
SIC / Grundstruktur
– 0 Landwirtschaft, Forstwirtschaft, Fischerei
– 1 Bergbau, Rohstoffe, Hoch- und Tiefbau
– 2 Herstellung kurzlebiger Verbrauchsgüter
– 3 Herstellung langlebiger Gebrauchsgüter
– 4 Transport, Nachrichtentechnik, Versorgungsbetriebe
– 5 Groß- und Einzelhandel
– 6 Finanzdienstleistungen
– 7 (andere) Dienstleistungen
– 8 Gesundheit und Bildung
– 9 Staat, Regierung
HHU Düsseldorf – SS 2005
SIC / Beispiel: Druckmaschinen
3000 (Herstellung langlebiger Gebrauchsgüter)
3500 (Maschinenbau)
3550 (Maschinenbau - Spezialmaschinen)
3555 (Maschinenbau - Druck)
Wissensrepräsentation
161
Klassifikationssysteme
NAICS / North American Industry Classification System
•
keine SIC-Revision, sondern neues System
– durchgehend neu: Notationen
– aus SIC unverändert übernommen: 422 Klassen
– aus SIC revidiert übernommen: 390 Klassen
– neue Klassen: 358 Klassen (z.B. „51 Information“)
– 6-stelliger Code - 1.170 Klassen
– 5 Hierarchieebenen
•
•
•
•
•
Sektoren (2 Stellen) - sequentielle Notationen
Subsektor (1 weitere Stelle) - ab hier hierarchische Notationen
Branchengruppe (1 Stelle)
Branche (1 Stelle) - bis hierhin international (NAFTA-Länder)
Teilbranche (1 Stelle) - landesspezifisch für USA, Kanada,
Mexiko
HHU Düsseldorf – SS 2005
Wissensrepräsentation
162
Klassifikationssysteme
•
•
•
•
•
•
•
•
•
•
•
•
11
Agriculture, Forestry, Fishing
and Hunting
21
Mining
22
Utilities
23
Construction
31-33 Manufacturing
42
Wholesale Trade
44-45 Retail Trade
48-49 Transportation and
Warehousing
51
Information
52
Finance and Insurance
53
Real Estate and Rental and
Leasing
54
Professional, Scientific, and
Technical Services
HHU Düsseldorf – SS 2005
•
55
•
56
•
•
61
62
•
71
•
72
•
81
•
92
Management of Companies and
Enterprises
Administrative and Support and
Waste Management and
Remediation Services
Educational Services
Health Care and Social
Assistance
Arts, Entertainment, and
Recreation
Accommodation and Food
Services
Other Services (except Public
Administration)
Public Administration
NAICS: 1. Hierarchieebene
Wissensrepräsentation
163
Klassifikationssysteme
NAICS
•
•
eingesetzt bei:
– Amtlicher Statistik USA, Kanada und Mexiko
– Datenbanken der Gale Group (u.a. PROMT)
– (einigen) Firmendatenbanken in den USA
Beispiel: Druckmaschinen
– 31 - 33 (Manufacturing)
– 333 (Machinery Manufacturing)
– 3332 (Industrial Machinery Manufacturing)
– 33329 (Other Industrial Machinery Manufacturing)
– 333293 (Printing Machinery and Equipment
Manufacturing)
North American Industry Classification System. – Lanham, MD: Bernan Press, 1998. Letzte Änderung: NAICS 2002.
Ruth A. Pagell; Patricia J.S. Weaver: NAICS: NAFTA‘s industrial classification system. – In: Business Information
Review 14 (1997) 1, 36-44.
Online: www.naics.com
HHU Düsseldorf – SS 2005
Wissensrepräsentation
164
Klassifikationssysteme
Spezielle Branchenklassifikation: Schober
– „European Business Classification“ (EBC)
– rund 10.000 Klassen für Wirtschaftsbranchen und
Wirtschaftsaktivitäten zur Unterstützung der Suche in einer
B-to-B-Adressdatenbank
– Beispiele für Klassen der Wirtschaftsaktivitäten
• 6679 DIMA Düsseldorf
• 5273 INFOBASE Intern. Fachmesse für Kommunikation Frankfurt
– Beispiel Druckmaschinen
• 703
Druckmaschinen Hersteller
• 2557 Papier- und Druckmaschinen Hersteller
HHU Düsseldorf – SS 2005
Wissensrepräsentation
165
Klassifikationssysteme
Produktklassifikation 1: Gale-Codes (Predicasts-Codes)
•
•
angelehnt an SIC; erweitert auf 7 Stellen
Beispiel: 0174 (Zitrusfrüchte)
–
–
–
–
–
–
–
–
–
•
0174007
0174012
0174013
0174015
0174019
0174021
0174022
0174024
0174099
Pampelmusen
Zitronen
Limonen
Apfelsinen
Mandarinen
Tangelos
Temples
Orangen, Valencia
Zítrusfrüchte, sonstige
Einsatz: in diversen Gale-Datenbanken
Online: support.dialog.com/searchaids/dialog/galecodes/
HHU Düsseldorf – SS 2005
Wissensrepräsentation
166
Klassifikationssysteme
Produktklassifikation 2: Dun & Bradstreet SIC
•
•
•
•
•
•
•
Erweiterung der SIC um zwei weitere Hierarchieebenen
(jeweils 2-stellig)
über 18.000 Klassen
Stellen 1 bis 4: SIC
Stellen 5 und 6: Produktgruppe
Stellen 7 und 8: Produkte
wie bei SIC üblich: Auffüllen nach rechts freier Stellen
durch Nullen
Einsatz: (geplant bzw. derzeit in Arbeit): bei der D&BFirmendatenbank
HHU Düsseldorf – SS 2005
Wissensrepräsentation
167
Klassifikationssysteme
D&B SIC. Beispiel Druckmaschinen
35550000 (Printing Trades M achinery)
35550100 (Printing Presses)
35550101 (Presses, Envelope, Printing)
35550102 (Presses, Gravure)
35550200 (Printing Plades)
35550201 (Plates, M etal: Engravers')
35550202 (Plates, Offset)
usw . (gekürzt)
35559900 (Printing Trades M achinery, NEC)
35559901 (Bronzing or Dusting M achines for the Printing Trade)
usw . (gekürzt)
35559906 (Typographic Num bering M achines).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
168
Klassifikationssysteme
Produktklassifikation 3: Kompass
•
•
•
•
•
Eigenes Produktklassifikationssystem der KompassFirmendatenbanken
Gegenstand: B-to-B Produkte und Dienstleistungen - rund
50.000 Klassen
3 Hierarchieebenen:
– Branche (2-stellig)
– Fachgruppen (weitere 3 Stellen)
– Produkte (weitere 2 Stellen)
auf der Ebene der Fachgruppe zusätzlich: I / E (Import- bzw.
Exportaktivitäten einer Firma)
auf der Ebene der Produkte zusätzlich P / D / S (Produktion,
Distribution, Service)
Online: www.kompass.com/
HHU Düsseldorf – SS 2005
Wissensrepräsentation
169
Klassifikationssysteme
Kompass
Meist hierarchisch strukturiert:
•
20 (Nahrungs- und Genussmittel)
•
20420 (Fische in Konserven und anderen Verpackungen)
•
2042052 (Fischfrikadellen, -bällchen und -kuchen in Dosen)
•
... aber mit Ausnahmen:
•
20427 (Fische in Konserven und anderen Verpackungen /
Landesspezifische Produkte / Frankreich)
2042701 (Bouillabaisse in Konserven)
•
HHU Düsseldorf – SS 2005
Wissensrepräsentation
170
Klassifikationssysteme
44 (Maschinen und Anlagen für die Zellstoff-, Papier- und Druckindustrie.
Büromaschinen und Anlagen für die elektronische Datenverarbeitung)
44140 (Druckmaschinen und Zubehör / Teil 1)
4414001 (Druckmaschinen, Hochdruck, Flachdruckprinzip)
4414002 (Druckmaschinen, Hochdruck, Rotationsoffsetprinzip)
usw. (gekürzt)
4414053 (Druckmaschinen, Heliografieverfahren)
44141 (Druckmaschinen und Zubehör / Teil 2)
4414122 (Druckmaschinen, Mehrfarben)
Kompass.
Bsp.: Druckmaschinen
4414124 (Druckmaschinen, multifunktional)
usw. (gekürzt)
4414151 (Zylinder für Druckmaschinen)
4414152 (Trockner für Druckmaschinen)
usw. (gekürzt)
Achtung
bei 44140
und 44141:
44149 (Druckmaschinen und Zubehör)
4414901 (Andruckpressen, Flexodruck, Anilindruck)
44160 (Spezielle Druckmaschinen und Zubehör)
usw. (gekürzt)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
Sequentielle
Notation!
171
Klassifikationssysteme
Branchen-Ebene:
Import / Export
Produkt-Ebene:
Produzent / Handel /
Dienstleister
Kompass-Klassifikation
Suchoberfläche
HHU Düsseldorf – SS 2005
Wissensrepräsentation
172
Klassifikationssysteme
Geographische Klassifikationen
– finden in diversen Datenbanken (auch Wirtschaftsdatenbanken) zusätzlich zu anderen Systemen Einsatz
– haben ihre Wurzeln teilweise in der amtlichen Statistik
und finden auch dort ihren Einsatz
– werden auch als Gebietsbeschreibungen in wissenschaftlichen Untersuchungen (etwa Regionalforschung
oder Ökonomie) verwendet
– bedeutende Klassifikationssysteme
• NUTS
• Gale Group Country Codes
• sowie Derivate davon
HHU Düsseldorf – SS 2005
Wissensrepräsentation
173
Klassifikationssysteme
NUTS. Nomenclature des unités
territoriales statistiques
– entwickelt von der EU zur
amtlichen Statistik und zur
Verwendung bei eigenen
Datenbanken (etwa TED)
– hierarchisches System
Beispiele:
AT Österreich
AT2 Südösterreich
AT22 Steiermark
AT221 Graz
• Landesbezeichnung (2-stellig
mit Buchstaben)
• Untereinheit (1-stellig mit
Zahlen; falls mehr als 10
Untereinheiten: zusätzlich mit
Buchstaben)
• weitere Untereinheiten (bis zur
Kreisebene bzw. bis zu den
kreisfreien Städten)
DE Deutschland
DEA Nordrhein-Westfalen
DEA2 Regierungsbezirk Köln
DEA27
Rhein-Erft-Kreis
DEA2A
Oberbergischer
Kreis
Online: europa.eu.int/comm/ramon/nuts/home_regions_de.html
HHU Düsseldorf – SS 2005
Wissensrepräsentation
174
Klassifikationssysteme
NUTS: Suche via Landkarten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
175
Klassifikationssysteme
GALE Group Country Codes
– entwickelt von Predicasts, übernommen von Gale
– derzeit Industriestandard im Bereich der Wirtschaftsdatenbanken
– beinhaltet Weltregionen (0 bis 9), Staatengemeinschaften (soweit
vorhanden) und einzelne Länder
– Gliederung
•
•
•
•
•
•
•
•
•
•
0
1
2
3
4
5
6
7
8
9
Internationales
Nordamerika
Mittelamerika
Südamerika
Europa
Karibik
Afrika
Mittlerer Osten
Australien, Ozeanien
Asien
Online: support.dialog.com/searchaids/dialog/galecodes/
HHU Düsseldorf – SS 2005
Wissensrepräsentation
176
Klassifikationssysteme
GALE Group Country Codes
– Beispiele:
Hier nicht strukturabbildend
hierarchische Notation
1 Nordamerika
1USA USA gesamt
1U9
Staaten der Westküste
1U9CA Kalifornien
Achtung: Suchen nach USA gesamt und ihrer Staaten in der
Form: 1U*
4 Europa
4EU Europäische Union
4EUGE Deutschland
HHU Düsseldorf – SS 2005
Wissensrepräsentation
177
Klassifikationssysteme
Derivate der GALE Group Country Codes
•
•
•
•
•
•
•
da die Gale CC nur bis zur Länderebene reichen, gibt es
Erweiterungen
Beispiel: Ländercode der ifo Literaturdatenbank für Deutschland
bis Länderebene: wie Gale CC (also für Deutschland: 4EUGE)
Bundesländergruppe (1-stellig, N für neue Länder, A für alte
Bundesländer)
Bundesland (3-stellig, Buchstabencodes)
Kreise, Städte (Autokennzeichen)
Beispiel:
–
–
–
–
–
4EUGE Deutschland
4EUGEA alte Bundesländer
4EUGEABAY Bayern
4EUGEABAYFFB Landkreis Fürstenfeldbruck
4EUGEABAYFS
Landkreis Freising
HHU Düsseldorf – SS 2005
Wissensrepräsentation
Bei letzter Hierarchieebene: sequentielle
Notation
178
Klassifikationssysteme
Medizinklassifikation: International Statistical Classification
of Diseases – Ausgabe 10 (ICD-10)
• Auf internationaler Ebene erstellt von der World Health
Organization (WHO)
• In Deutschland gepflegt von DIMDI (Köln)
• Einsatz:
– Abrechnung im öffentlichen Gesundheitswesen (u.a.
Krankenhäusern)
– Abrechnung der niedergelassenen Ärzte
– Statistik (u.a. Todesursachenstatistik)
• Haupttafeln mit „Schlüsselnummern“ (Notationen)
• Bei den Klassen (i.d.R. bei den Dreistellern): Definitionen
• Klassierregeln für die jeweiligen Klassen
• Allgemeine Klassierregeln
• Zusatzkennzeichen (allgemeine Ergänzungszeichen)
Online: www.dimdi.de/dynamic/de/klassi/download/index.html
HHU Düsseldorf – SS 2005
Wissensrepräsentation
179
Klassifikationssysteme
ICD-10 – Haupttafel in 21 Kapiteln. Beispiele:
A00-B99
C00-D48
D50-D89
E00-E90
F00-F99
G00-G99
H00-H59
H60-H95
...
S00-T98
V01-Y98
Z00-Z99
I. Infektiöse und parasitäre Krankheiten
II. Neubildungen
III. Krankheiten des Blutes
IV. Ernährungs- und Stoffwechselkrankheiten
V. Psychische und Verhaltensstörungen
VI. Krankheiten des Nervensystems
VII. Augenkrankheiten
VIII. Ohrenkrankheiten
XIX. Verletzungen, Vergiftungen und andere Folgen
äußerer Ursachen
XX. Äußere Ursachen von Morbidität und Mortalität
XXI. Faktoren, die den Gesundheitszustand beeinflussen
und zur Inanspruchnahme des Gesundheitswesens
führen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
180
Klassifikationssysteme
ICD-10. Beispiel Haupttafel: Verletzung nach Fahrradunfall
V01-Y98 Äußere Ursachen von Morbidität und Mortalität
V01-X59 Unfälle
V01-V99 Transportmittelunfälle
V01-V09 Fußgänger bei Transportmittelunfall verletzt
V10-V19 Benutzer eines Fahrrades bei Transportmittelunfall verletzt
V10
V11
...
V18
Benutzer eines Fahrrades bei Zusammenstoß mit
Fußgänger oder Tier verletzt
Benutzer eines Fahrrades bei Zusammenstoß mit
einem anderen Fahrrad verletzt
Benutzer eines Fahrrades bei Transportmittelunfall
ohne Zusammenstoß verletzt
jeweils: 4. Stelle: besondere Ergänzungszahl
HHU Düsseldorf – SS 2005
Wissensrepräsentation
181
Klassifikationssysteme
ICD-10. Beispiel Haupttafel: Fahrradunfall
Besondere Ergänzungszahlen bei V10-V18:
.0
.1
...
.3
...
Fahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt
Mitfahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt
Person beim Auf- und Absteigen verletzt
Notation einer Verletzung durch Stürzen beim Aufsteigen auf ein
Fahrrad (ohne Zusammenstoß)
V18.3
HHU Düsseldorf – SS 2005
Wissensrepräsentation
182
Klassifikationssysteme
ICD-10. Allgemeine Klassierregeln
(1) Kreuz-Stern-System
–
–
–
Mit einem Kreuz (+) versehene Klassen bedürfen einer Ergänzung
Mit einem Stern (*) versehene Klassen dürfen nur an eine KreuzKlasse angebunden werden.
Beispiel: diabetische Retinopathie bei Typ I-Diabetes
•
•
•
•
E10
.3+
H36.0*
Also:
Primär insulinabhängiger Diabetes mellitus
(besondere Ergänzungszahl) mit Augenkomplikationen
Retinopathia diabetica
E10.3+H36.0*
(2) Optionale Klassen
–
Mit einem Ausrufezeichen (!) versehene Klassen dürfen an eine
andere Klasse angebunden werden.
Beispiel: Z51.0! Strahlentherapie-Sitzung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
183
Klassifikationssysteme
ICD-10
–
–
–
–
–
–
–
–
Zusatzkennzeichen (allgemeine
Ergänzungsnotationen)
Es sind max. 2 (der 6) Zusatzkennzeichen hinter
einer Notation zugelassen
R
rechts
L
links
B
beidseits
V
Verdachtsdiagnose
Z
(symptomloser) Zustand nach der
betreffenden Diagnose
A
ausgeschlossene Diagnose
HHU Düsseldorf – SS 2005
Wissensrepräsentation
184
Klassifikationssysteme
ICD-10
Diagnosethesaurus
–
–
Register zur ICD
rund 60.000 Einträge
HHU Düsseldorf – SS 2005
Wissensrepräsentation
185
Klassifikationssysteme
ICD-10 bei DIMDI
HHU Düsseldorf – SS 2005
Wissensrepräsentation
186
Klassifikationssysteme
Klassifikationen. Fazit
•
•
•
•
•
•
Klassifikationssysteme spielen eine nicht umgehbare Rolle
in der Informationswirtschaft
Universalklassifikationen: Nutzung vorwiegend in großen
Bibliotheken
WWW: Wenn im Web überhaupt intellektuell ausgewertet
wird, dann klassifikatorisch
Gewerbliche Schutzrechte (Patente, Gebrauchsmuster,
Marken, Geschmacksmuster): international eingesetzte und
akzeptierte Systeme. Die professionelle Suche nach
Schutzrechtsdokumente geht ausschließlich über die
jeweiligen Klassifikationssysteme.
Wirtschaft: in vielen Wirtschaftsdatenbanken werden
Branchen- oder Produktklassifikationen eingesetzt
Medizin: keine Abrechnung, keine Statistik ohne ICD
HHU Düsseldorf – SS 2005
Wissensrepräsentation
187
Klassifikationssysteme
Klassifikationen. Fazit
•
Es gibt einige Klassifikationssysteme, die sich herstellerübergreifend durchgesetzt haben:
– Wirtschaft
• in Europa: NACE
• in Nordamerika: NAICS
• weltweit (obwohl veraltet): SIC
– Gewerbliche Schutzrechte
• Patente, Gebrauchsmuster: IPC
• Marken: Wiener Klassifikation, Nizza Klassifikation
– Länder
• Gale CC
• NUTS
– Medizin: ICD
HHU Düsseldorf – SS 2005
Wissensrepräsentation
188
Klassifikationssysteme
Klassifikationen. Fazit
•
Aus den „Standardsystemen“ werden Derivate abgeleitet:
•
•
•
•
•
•
WZ 93 aus NACE
Gale Product-Codes aus SIC
D&B-Product-Codes aus SIC
ifo Ländercode aus Gale CC
zusätzlich existieren herstellerspezifische Klassifikationssysteme (Schobers EBC, Kompass, ...)
Eigene, selbsterstellte Klassifikationen eignen sich zum
Einsatz in unternehmensweiten Netzen (Intranets,
Enterprise Information Portals) sowie zur Strukturierung
von Katalogen (im E-Commerce)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
189
Klassifikationssysteme
Vorteile von Klassifikationen (egal, ob bei
professionellen Datenbanken oder in [irgendeinem]
Unternehmen)
– übersichtliche Navigation durch die Hierarchieebenen
– sprachunabhängiges System (ggf. Nachteil: Notationen sind
für Laien kaum recherchierbar; Ausgleich durch
natürlichsprachige Oberflächen)
– vielfältige Ausdrucksmöglichkeiten durch Trennung von
Haupttafeln und Ergänzungstafeln
– einfaches hierarchisches Retrieval durch Truncation (bei
strukturabbildend hierarchischen Notationen)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
190
Klassifikationssysteme
Nachteile von Klassifikationen
– Die Struktur ist zwar nach unten hin stetig erweiterbar, aber
nur sehr schwer im Grundaufbau zu verändern.
Beispiele für Probleme:
• DK: bildet die Wissenschaftsstruktur des späten
19.Jahrhunderts ab
• SIC: musste als Ganzes abgelöst werden, da die neueren
wirtschaftlichen Entwicklungen (etwa: Aufkommen der
Dienstleistungen) nicht integriert werden konnten
– Bei den Relationen dominiert eindeutig die Hierarchierelation
(in der monohierarchischen Variante). Alle Gegenstände, die
sich „natürlich“ monohierarchisch gliedern, können gut
klassifikatorisch erfasst werden; alle anderen nicht.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
191
Dokumentationssprachen II:
Schlagwortmethode
HHU Düsseldorf – SS 2005
Wissensrepräsentation
192
Schlagwortmethode
Schlagwortmethode
•
•
•
•
•
einfache Form der verbalen Inhaltserschließung
kontrolliertes Vokabular (Schlagworte)
Vokabular wird der natürlichen Sprache entnommen
Einteilung des Gesamtvokabulars in Facetten
(empfehlenswert, aber nicht zwingend)
Relationen:
– (Quasi-)Synonymie (BF: benutzt für)
– Assoziation (allgemeiner „siehe auch“-Verweis;
VB: verwandter Begriff))
– chronologische Verweisung (falls nötig)
– keine Hierarchierelationen (ansonsten läge ein Thesaurus
vor)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
193
Schlagwortmethode
Beispiel: RSWK („Regeln für den Schlagwortkatalog“ und SWD („Schlagwortnormdatei“)
•
•
•
•
eingesetzt bei deutschen Bibliotheken
erarbeitet ab 80er Jahre des 20. Jahrhunderts von der DBIKommission für Sacherschließung; Publikation 1986
Einsatz von Facetten (Person – Ort – „Sache“ – Zeit –
Form)
teilweise Verwendung hierarchischer Relationen („auf dem
Weg zu einem Thesaurus“; hier nicht berücksichtigt)
Regeln für den Schlagwortkatalog: RSWK. – Berlin: Deutsches Bibliotheksinstitut, 31998.
Beispielsammlung zu den Regeln für den Schlagwortkatalog. – Berlin: Deutsches Bibliotheksinstitut, 1991.
Konrad Umlauf: Regeln für den Schlagwortkatalog. Die Grundregeln der RSWK. – Berlin: HU Berlin / Institut
für Bibliothekswissenschaft, 1999. – (Berliner Handreichungen zur Bibliothekswissenschaft; 66).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
194
Schlagwortmethode
RSWK / SWD
•
•
•
•
syntaktisches Indexieren durch Schlagwortketten
Schlagwortketten sind stets in der Reihenfolge Person –
Ort – „Sache“ – Zeit – Form anzugeben
jede Kette drückt ein Objekt der dokumentarischen
Bezugseinheit möglichst präzise und vollständig aus
Wahl des engsten Schlagwortes
– Bsp.: Objekt „Untersuchungen zum HAWIK“
– Schlagwort: HAWIK
– nicht: Intelligenztest / Kind / HAWIK (mitunter problematisch!)
•
Vermeiden von Pleonasmen
– überflüssige Häufung sinngleicher Bezeichnungen (z.B.
Zukunftsprognose)
– problematisch bei wenig bekannten Begriffen (z.B.
Nuraghenkultur; hier entfällt „Sardinien“ als pleonastisch)
•
Homonymzusatz (z.B. Atlas <Gebirge>)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
195
Schlagwortmethode
RSWK / SWD.
Personenschlagwort
•
•
•
•
Eigennamen von Personen
(einschließlich fiktiver
Personen)
Familiennamen (z.B.
Fugger <Familie>)
umfassende Liste von
Ansetzungsvarianten
in SWD in Facette p
HHU Düsseldorf – SS 2005
Wissensrepräsentation
196
Schlagwortmethode
RSWK / SWD.
Geographisches und
ethnographische
Schlagwort
•
•
•
•
Namen von
Gebietskörperschaften
Namen von Landschaften,
Flüssen, Gebirgen,
Wegstrecken usw.
Namen von Völkern,
Rassen, Stämmen
in SWD in Facette g
HHU Düsseldorf – SS 2005
Wissensrepräsentation
197
Schlagwortmethode
RSWK / SWD. Geographisches und
ethnographische Schlagwort
•
•
Namensänderungen (z.B. St. Piterburch - St. Petersburg –
Petrograd – Leningrad – St. Petersburg)
Variante 1:
aktueller Name
als Schlagwort,
Verweise von
allen anderen
Namen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
198
Schlagwortmethode
RSWK / SWD. Geographisches und
ethnographische Schlagwort
•
•
Namensänderungen (z.B. St. Piterburch - St. Petersburg –
Petrograd – Leningrad – St. Petersburg)
Variante 2: Chronologische Relation (früher – später)
– CF (chronologisch früher) – CS (chronologisch später)
– zusätzlich: Hinweis auf den Zeitraum
•
Leningrad (Hinweis: 1924 – 1991)
CF Petrograd (dort Hinweis: 1919 – 1924)
CS Sankt Petersburg (dort Hinweis: ab 1991)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
199
Schlagwortmethode
RSWK / SWD. Sachschlagwort
•
in SWD in Facette s
MO: mehrgliedriger Oberbegriff
HHU Düsseldorf – SS 2005
Wissensrepräsentation
200
Schlagwortmethode
RSWK / SWD. Sachschlagwort
•
•
•
•
•
•
Einzelbegriff (Bsp.: Pest)
Kompositum (Bsp.: Luftverschmutzung)
Adjektiv-Substantiv-Verbindung (Bsp.: Juristische Person)
ggf. mit Homonymzusatz (Bsp.: Krebs <Medizin>)
stehende Wendung (Bsp.: Information und Dokumentation)
Besonderheit: Werktitel (Facette t)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
201
Schlagwortmethode
RSWK / SWD. Zeitschlagwort
•
Variante 1: Verbale Epochenbezeichnung oder historische
Einzelereignisse (als Sachschlagwort)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
202
Schlagwortmethode
RSWK / SWD. Zeitschlagwort
•
•
Variante 2: konkrete Jahresangaben in Verbindung mit
„Geschichte“ (oder „Prognose“ o.ä.)
nicht in SWD enthalten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
203
Schlagwortmethode
RSWK / SWD. Formschlagwort
•
•
Erscheinungsweise, literarische oder physische Form der
dokumentarischen Bezugseinheit
nur zu berücksichtigen, wenn der Inhalt tangiert wird
(ansonsten bei formalen Angaben unter Dokumenttyp)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
204
Schlagwortmethode
RSWK / SWD. Ansetzung von Namen von
Körperschaften
•
•
ortsgebundene Körperschaften (stets unter dem Ort
anzusetzen)
Facette c
HHU Düsseldorf – SS 2005
Wissensrepräsentation
205
Schlagwortmethode
RSWK / SWD. Ansetzung von Namen von
Körperschaften
•
nicht ortsgebundene Körperschaften, darunter alle
Wirtschaftsbetriebe (unter dem Körperschaftsnamen
anzusetzen) – Facette k
•
bei Namenswechsel: chronologische Relation (CF – CS)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
206
Schlagwortmethode
RSWK / SWD. Syntaktisches Indexieren durch
Schlagwortketten
•
•
pro Kette ein Objekt
so viele Ketten wie unterschiedliche Objekte
HHU Düsseldorf – SS 2005
Wissensrepräsentation
207
Dokumentationssprachen III:
Thesauri
HHU Düsseldorf – SS 2005
Wissensrepräsentation
208
Thesauri
Grundlegende Literatur
•
•
•
•
•
•
•
Jean Aitchison, Alan Gilchrist, David Bowden: Thesaurus
Construction and Use. - London: Fitzroy Dearborn, 42000
Margarete Burkart: Thesaurus. – In: Grundlagen der praktischen
Information und Dokumentation. – München: Saur, 52004, 141154.
DIN 1463/1: Erstellung und Weiterentwicklung von Thesauri
DIN 1463/2: Multilinguale Thesauri
DIN 31623/1; DIN31623/2; DIN 31623/3: Indexierung zur
inhaltlichen Erschließung von Dokumenten
Winfried Schmitz-Esser: EXPO-INFO 2000. - Berlin [u.a.]:
Springer, 2000
Gernot Wersig: Thesaurus-Leitfaden. – München [u.a.]: Saur,
21985
HHU Düsseldorf – SS 2005
Wissensrepräsentation
209
Thesauri
Thesaurus
Einsatzgebiete
– in eng umgrenzten Fachgebieten
• Terminologie eines Faches
• Terminologie eines Unternehmens
– in Gebieten, wo fachliches Wissen durch ein (von den
betreffenden Fachleuten akzeptiertes) Begriffssystem
repräsentiert werden kann
– wenn ausschließlich mit Begriffen der natürlichen Sprache
gearbeitet werden soll
– wenn die Struktur des Gebietes über eine monohierarchische
Ordnung hinausgeht
– Anmerkung: Klassifikation und Thesaurus schließen sich
nicht gegenseitig aus. Geschickt eingesetzt, ergänzen sie
sich.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
210
Thesauri
„Thesaurus“ nach DIN 1463/1
•
•
•
•
„Ein Thesaurus im Bereich der Information und Dokumentation
ist eine geordnete Zusammenstellung von Begriffen und ihren
(vorwiegend natürlichsprachigen) Bezeichnungen, die in einem
Dokumentationsgebiet zum Indexieren, Speichern und
Wiederauffinden dient.“
Merkmale eines Thesaurus:
1. Terminologische Kontrolle durch natürlichsprachige
DESKRIPTOREN
2. Beziehungen zwischen den Begriffen bzw. Bezeichnungen
durch (zweistellige) RELATIONEN
Thesaurus-Software (Freeware, nicht optimal, aber zum Üben
geeignet):
• Thew33 von Tim Craven (Univ. of Western Ontario)
• http://publish.uwo.ca/~craven/freeware.htm
HHU Düsseldorf – SS 2005
Wissensrepräsentation
211
Thesauri
Terminologische Kontrolle
– durch Deskriptoren (Vorzugsbenennungen)
– durch Nicht-Deskriptoren (Verweise auf Deskriptoren)
– der Deskriptor und die zugehörigen Nicht-Deskriptoren sind
entweder Synonyme (Bsp.: Heirat, Eheschließung) oder
Quasi-Synonyme, je nach Zweck des Thesaurus als synonym
„erklärte“ Bezeichnungen (Bsp.: Retrieval, Recherche in
einem Wirtschaftsthesaurus)
– sowohl beim Indexieren als auch bei Recherchieren wird
ausschließlich mit Deskriptoren gearbeitet werden
– eine Recherche mit einem Nicht-Deskriptor im CT-Feld einer
professionellen Datenbank führt stets zu null Treffern
HHU Düsseldorf – SS 2005
Wissensrepräsentation
212
Thesauri
Deskriptoren
– sollten in der Fachliteratur verwendete Terminologie
widerspiegeln
– Einwort- wie Mehrwort-Deskriptoren sind möglich
– Mehrwort-Deskriptoren in der natürlichen Wortfolge
belassen
– bei Mehrwortbegriffen, die in ihre Aspekte zerlegt
werden sollen: Zerlegungskontrolle
• morphologische Zerlegung (Bsp.: Blumengesteck Æ
Blume, Gesteck; falsches Bsp.: Eisenbahn Æ Eisen, Bahn)
• semantische Zerlegung (Bsp.: Eisenbahn: Schienenbahn,
Überlandverkehr)
– zerlegen? (Postkoordination)
• nur dann, wenn die Kombination der Einzelbegriffe den
korrekten Mehrwortbegriff ergibt
• nicht, wenn eine hohe begriffliche Spezifizierung
angestrebt wird
HHU Düsseldorf – SS 2005
Wissensrepräsentation
213
Thesauri
Deskriptoren
– nicht zerlegen? (Präkombination)
• dann, wenn die Einzelbegriffe eine andere Bedeutung als die
Präkombination haben (Bsp.: Schlüsselbein,
Öffentlichkeitsarbeit)
• wenn ballastarme Suche ermöglicht werden soll
• ggf. Einsatz eines Kombinationsverweises (Bsp.:
Bibliotheksstatistik Æ benutze Kombination Æ Statistik,
Bibliothek
– Wortarten
• vorzugsweise Substantive; Verben in substantivierter Form
• Adjektive an Substantiv gebunden (Bsp.: Internationale
Beziehungen)
• Substantiv im Nominativ Singular; Ausnahmen bei nicht
gebräuchlichen Singularformen (Bsp.: Eltern) oder bei
Bedeutungsunterschied Singular – Plural (Bsp.: Kosten)
• Abkürzungen bzw. Akronyme nur bei Bekanntheit (Bsp.: UKW)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
214
Thesauri
Deskriptoren
– Homonyme / Polyseme:
• Unterscheidung durch Klammerzusatz als klärendes Element
Bsp. Homonym: Kiefer [Knochen] – Kiefer [Nadelholz]
Bsp. Polysem: Knie [Gelenk] – Knie [Werkstück]
• Unterscheidung durch Verweise von homonymen Nicht-Deskriptoren
auf eindeutige Deskriptoren
Bsp.: Eiweiß Æ benutze Synonym Æ Eiklar Æ oder Æ Protein
– Deskriptorsatz
• Bezeichnung des Deskriptors
• Auflistung aller Nicht-Deskriptoren
• Auflistung aller Deskriptoren, mit denen der Deskriptor in direkter
Beziehung steht
• Erläuterung zum Gebrauch (nicht zwingend) – Abk.: H (Hinweis) oder
SN (Scope Note)
• Definition (nicht zwingend)
• Übersetzungen (nicht zwingend)
• Konkordanzen zu anderen Erschließungssystemen (nicht zwingend)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
215
Thesauri
Nicht-Deskriptoren
–
–
–
–
verweisen auf „ihren“ Deskriptor
alle Synonyme des Deskriptors auflisten
alle Quasi-Synonyme und weitere Bezeichnungen auflisten
Varianten:
• Äquivalenz (Synonyme und Quasi-Synonyme)
Bsp: Heirat Æ benutze Synonym (BS) Æ Eheschließung
• Begriffskombination (Verweis von einem Mehrwort-NichtDeskriptor auf die einzelnen zerlegten Deskriptoren)
Bsp.: Lehrerbildungsgesetz Æ benutze Kombination (BK) Æ
Lehrer – Bildung – Gesetz
• Bündelung (Verweis auf einen Oberbegriff)
Bsp.: Zitrone Æ benutze Oberbegriff (BO) Æ Zitrusfrucht
HHU Düsseldorf – SS 2005
Wissensrepräsentation
216
Thesauri
Deskriptorsatz / Beispiel: Standard-Thesaurus Wirtschaft
HWWA
Deskriptor
Oberbegriffe
Erläuterung
Klasse
NACEKonkordanz
Unterbegriffe
verwandte
Begriffe
NichtDeskriptoren
HHU Düsseldorf – SS 2005
Wissensrepräsentation
217
Thesauri
Relationen
•
Äquivalenzrelation
– Synonyme
– Quasi-Synonyme
– abweichender Sprachgebrauch (Bsp.:
Massenkommunikationsmittel - Massenmedien)
– Abkürzung (Bsp.: DNS – Desoxyribonucleinsäure)
– gebräuchliche fremdsprachliche Bezeichnung (Bsp.:
Computer – Rechenanlage)
– Schreibweise (Bsp.: Fotografie, Photographie)
– invertierte Form (Bsp.: verarbeitendes Gewerbe – Gewerbe,
verarbeitendes)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
218
Thesauri
Relationen
•
Äquivalenzrelation
– Nichtdeskriptor – Deskriptor – Relation
Abk.:
BS (benutze Synonym) – BF (benutzt für)
USE – UF (used for)
Bsp.:
Auto BF Personenkraftwagen
Personenkraftwagen BS Auto
– Nichtdeskriptor – Begriffskombination – Relation
Abk.:
BK (benutze Kombination) – KB (benutzt in Kombination)
Bsp.:
Binnenschifffahrt KB Binnenschifffahrtsstatistik
Schifffahrtsstatistik KB Binnenschifffahrtsstatistik
Binnenschifffahrtsstatistik BK Binnenschifffahrt Schifffahrtsstatistik
HHU Düsseldorf – SS 2005
Wissensrepräsentation
219
Thesauri
Relationen
Hierarchierelation
Abstraktionsrelation
logische Sicht
HHU Düsseldorf – SS 2005
Bestandsrelation
gegenständliche Sicht
Wissensrepräsentation
220
Thesauri
Relationen
•
Hierarchierelation (allgemein)
– Nichtdeskriptor – Deskriptor – Hierarchierelation (Bündelung)
Abk.:
BO (benutze Oberbegriff) – FU (benutzt für Unterbegriff)
Bsp.:
Zitrusfrucht FU Zitrone
Zitrone BO Zitrusfrucht
– Deskriptor – Deskriptor – Relation (der Normalfall)
Abk.:
OB (Oberbegriff) – UB (Unterbegriff)
BT (broader term) – NT (narrower term)
Bsp.:
Universität OB Hochschule
Hochschule UB Universität
– Deskriptor – oberes Ende der Begriffsleiter
Abk.:
TT (Top Term)
Bsp.:
Universität TT Bildungseinrichtung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
221
Thesauri
Relationen
•
•
•
•
Hierarchierelation. Version 1: Abstraktionsrelation
Der Begriffsinhalt des Unterbegriffs enthält mindestens ein
Merkmal mehr als der Begriffsinhalt des Oberbegriffs.
Ober- und Unterbegriff gehören i.d.R. derselben Dimension an.
Abk.:
OA (Oberbegriff Abstraktionsrelation) – UA
BTG (broader term – generic) – NTG
Bsp.:
Meise OA Singvogel
Singvogel UA Meise
Aus logischen Gründen kann es u.U. zwingend sein, Hierarchieebenen einzuführen, auch wenn es dazu keine Dokumente gibt
(Stützdeskriptoren).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
222
Thesauri
•
•
Hierarchierelation. Version 1: Abstraktionsrelation
Stützdeskriptor. Beispiel: Thesaurus Technik und Management
Stützdeskriptoren
HHU Düsseldorf – SS 2005
Wissensrepräsentation
223
Thesauri
•
•
Hierarchierelation. Version 1: Abstraktionsrelation
Stützdeskriptor. Beispiel: Thesaurus Technik und Management
Stützdeskriptor
HHU Düsseldorf – SS 2005
Wissensrepräsentation
224
Thesauri
•
•
Hierarchierelation. Version 1: Abstraktionsrelation
Beispiel einer Begriffsleiter als Baum
Quelle: EMBASE
bei Ovid
HHU Düsseldorf – SS 2005
Wissensrepräsentation
225
Thesauri
Relationen
•
•
•
Hierarchierelation. Version 2: Bestandsrelation
Der übergeordnete Begriff (Holonym) entspricht einem Ganzen,
der untergeordnete Begriff einem Bestandteil dieses Ganzen
(Meronym).
alle Geographika sind Bestandsrelationen
Abk.:
SP (Verbandsbegriff) – TP (Teilbegriff)
BTP (broader term – partitive) – NTP
Bsp.:
Putenkeule SP Truthahn
Truthahn TP Putenkeule
Kerpen SP Erftkreis
Erftkreis TP Kerpen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
226
Thesauri
Relationen
•
•
•
Hierarchierelation.
Version 2:
Bestandsrelation
Transitive
Bestandsrelationen
eignen sich gut für
graphische
Darstellungen
Beispiel:
Hoppenstedt
Firmendatenbank
HHU Düsseldorf – SS 2005
Wissensrepräsentation
227
Thesauri
Thesaurus als Recherchehilfsmittel bei der
hierarchischen Suche. Beispiel: STW bei GBI
Suchargument:
EU sowie alle Mitgliedsländer
Begriffe einsammeln:
-Deskriptor
-alle Unterbegriffe
-alle Oberbegriffe
-alle verwandten Begriffe
-einzelne Begriffe
HHU Düsseldorf – SS 2005
Wissensrepräsentation
228
Thesauri
Thesaurus als Recherchehilfsmittel bei der
hierarchischen Suche. Beispiel: STW bei GBI
ausgewählte Begriffe
„Begriffskorb“
nächster Schritt:
Auswahl der Datenbank
HHU Düsseldorf – SS 2005
Wissensrepräsentation
229
Thesauri
Thesaurus als Recherchehilfsmittel bei der
hierarchischen Suche. Beispiel: STW bei GBI
Die ausgewählten
Begriffe werden
in die Suchmaske
übernommen und
mit dem Booleschen
ODER verbunden.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
230
Thesauri
Relationen
• Assoziationsrelation
– nach DIN 1463 sehr allgemeine und unspezifische
Relation
– „verwandter“ Begriff
– Begriffsbeziehung, die weder hierarchischer noch
äquivalenter Art ist
– im Sinne von „siehe auch“ oder „denke auch an“
Abk.:
VB (verwandter Begriff)
RT (related term)
Bsp.:
Apfel VB Birne
Birne VB Apfel
HHU Düsseldorf – SS 2005
Wissensrepräsentation
231
Thesauri
Multilinguale Thesauri (nach DIN 1463/2)
•
•
•
Deskriptoren: müssen stets in allen Sprachen vorhanden
sein
Nicht-Deskriptoren: es können zusätzlich zu übersetzten
Nicht-Deskriptoren weitere Nicht-Deskriptoren für jede
Sprache eingeführt werden
Hierarchierelation(en): es gibt nur genau EINE
hierarchische Struktur
– ggf. Stützdeskriptoren verwendet
– ggf. neue Fremdworte in Sprache einführen
•
Assoziationsrelation: die Strukturen sollten multilingual
übereinstimmen, es kann jedoch sprachabhängige
Ausnahmen geben
HHU Düsseldorf – SS 2005
Wissensrepräsentation
232
Thesauri
Multilinguale Thesauri
•
•
Fremdwort in einer Sprache (aufnehmen; ggf. Definition)
Bsp.:
deutsch: Teenager
englisch: teenagers
D: Person zwischen 13 und 19 Jahren
Wortprägung (wenn nicht als Fremdwort aufnehmbar, dann
Übersetzung, ggf. mit Hinweis)
Bsp.:
französisch: enfant a cle
deutsch: Schlüsselkind
NE: equivalent du terme allemand
„Schlüsselkind“
HHU Düsseldorf – SS 2005
Wissensrepräsentation
233
Thesauri
Multilinguale Thesauri
•
Äquivalenz (problemlose Eins-zu-eins-Übersetzung)
– sprachliche Verwandtschaft
Bsp.: Physik (dt.) – physics (engl.) – physique (franz.)
– sprachliche Unabhängigkeit; semantische Gleichheit
Bsp.: Amsel (dt.) – blackbirds (engl.) – merle (franz.)
– gleicher oder ähnlicher Begriffsumfang, anderer Begriffsinhalt
Bsp.: alkoholfreies Getränk (dt.) – soft drinks (engl.) – boisson non
alcoolisee (franz.)
•
Probleme mit der Äquivalenz
– Teil-Äquivalenz (engerer oder weiterer Begriffsumfang)
Bsp.: Wissenschaft – science
Lösungsmöglichkeit: einen der Terme als Fremdwort einführen
Deskriptorsatz englisch: Wissenschaft; SN: loan term adopted from
German; NT science
Deskriptorsatz deutsch: Wissenschaft; UB Naturwissenschaft
HHU Düsseldorf – SS 2005
Wissensrepräsentation
234
Thesauri
Multilinguale Thesauri
•
Probleme mit der Äquivalenz
– Begriffszerlegung bzw. –kombination
Bsp.: skidding (engl.): rutschen und schleudern
Lösungsmöglichkeit: jeweils parallele Begriffe konstruieren
Deskriptorsatz englisch: skidding; NT skidding (forwards), NT skidding
(sideways)
Deskriptorsatz deutsch: Rutschen/Schleudern; UB Rutschen; UB
Schleudern
•
Homonym / Polysem sprachübergreifend
– Lösung: Sprachkürzel als Homonymzusatz
Bsp.: Gift (de) – poison; Geschenk – gift (en)
•
International gebräuchliche Abkürzungen
– Lösung: internationale Variante verwenden; nationale Variante als
Nicht-Deskriptor
– nur nationale gebräuchliche Abkürzungen vermeiden
HHU Düsseldorf – SS 2005
Wissensrepräsentation
235
Thesauri
Multilinguale Thesauri. Beispiel: Thesaurus Technik und Management
Zielsprache deutsch
Wörterbücher dt. – engl. und
engl. - dt.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
236
Thesauri
Multilinguale Thesauri. Beispiel: UNESCO Thesaurus
Beispiel
Zielsprache englisch
Wörterbücher engl. – franz. –
span.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
237
Thesauri
Multilinguale Thesauri. Beispiel: UNESCO Thesaurus
Deskriptorsatz
Abk.: MT: Micro-Thesaurus
FR: Deskriptor französisch
SP: Deskriptor spanisch
HHU Düsseldorf – SS 2005
Wissensrepräsentation
238
Thesauri
Aspekte
•
•
nähere Erläuterung eines Deskriptors mittels eines „Aspektes“
der Deskriptor bildet zusammen mit seinem Aspekt eine Einheit
(keine UND-Verknüpfung)
Quelle: EMBASE
bei Ovid
HHU Düsseldorf – SS 2005
Wissensrepräsentation
239
Thesauri
Relationen im Thesaurus, die über den DIN-Thesaurus
hinausgehen
• (Quasi-)Synonymie-Relation zwischen Deskriptoren
– haben wir bereits bei der Schlagwortmethode kennengelernt
– chronologische Relation (früher – später)
Abk.: Deskriptor(en) des früheren Gegenstandes CS
(chronologisch später) Deskriptor(en) des späteren
Gegenstandes; umgekehrt: CF (chronologisch früher)
– bei den Deskriptoren als Hinweis den Zeitraum angeben!
Bsp.:
Sindorf. H: eigenständige Gemeinde bis 31.12.1974
Kerpen-Sindorf. H: Ortsteil von Kerpen ab 1.1.1975
HHU Düsseldorf – SS 2005
Wissensrepräsentation
240
Thesauri
•
chronologische Relation
Bsp. (eineindeutige Relation):
Sindorf CS Kerpen-Sindorf
Kerpen-Sindorf CF Sindorf
Bsp.: (einmehrdeutige Relation):
Garmisch CS Garmisch-Partenkirchen
Partenkirchen CS Garmisch-Partenkirchen
Garmisch-Partenkirchen
CF Garmisch
CF Partenkirchen
– Die chronologische Relation kann u.U. über mehrere Schritte
laufen.
Bsp.:
Chemnitz CF Karl-Marx-Stadt
Karl-Marx-Stadt CF Chemnitz [vor 1953]
HHU Düsseldorf – SS 2005
Wissensrepräsentation
241
Thesauri
weitere Relationen (Vorschlag: Winfried Schmitz-Esser
für die EXPO 2000)
– Generik (analog zur Abstraktionsrelation des DIN-Thesaurus)
Abk.:
weiterer/engerer Begriff: WB – EB
Bsp.:
vegetal products EB coconuts
coconuts WB vegetal products
– Nützlichkeit
Abk.:
nützlich für (NF) – profitiert von (PV)
Bsp.:
tree planting NF water balance regulation
water balance regulation PV tree planting
– Schädlichkeit
Abk.:
schädlich für (SF) – wird beeinträchtigt von (WG)
Bsp.:
overfertilization SF biotopes
biotopes WG overfertilization
HHU Düsseldorf – SS 2005
Wissensrepräsentation
242
Thesauri
weitere Relationen (Vorschlag: Winfried
Schmitz-Esser für die EXPO 2000)
– Partition 1 (dinglich, gedanklich, ideell)
Abk.: ist Bestandteil von (BV) – setzt sich
zusammen
aus (BA)
Bsp.: booster BV missile
missile BA booster
– Partition 2 (geographisch, topographisch,
administrativ)
Abk.: ist Teil von (TV) – besteht aus den Teilen
(BT)
Winfried
Schmitz-Esser:
EXPO – INFO
2000. Visuelles
Bsp.:
South
America
TVBesucherinformationssystem
Latin Americafür Weltausstellungen. –
Berlin [u.a.]: Springer, 2000.
Latin American
BT South America
HHU Düsseldorf – SS 2005
Wissensrepräsentation
243
Thesauri
Allgemeine Thesaurusstruktur
Deskriptor m in
Sprache i
Deskriptor n in
Sprache 1
Deskriptor m in
Sprache 1
Deskriptor 1 in
Sprache n
Deskriptor n in
Sprache i
Rel 1
Rel 2
Nicht-Deskriptor
Sprache i
Deskriptor 1 in
Sprache i
Nicht-Deskriptor
Sprache i
Nicht-Deskriptor
Sprache i
Rel 2
Nicht-Deskriptor
Sprache i
Rel 1
Deskriptor 1 in
Sprache 1
HHU Düsseldorf – SS 2005
Wissensrepräsentation
244
Thesauri
Visualisierung eines Thesaurus für Laien
Darstellung eines Deskriptors
Deskriptor
Definition / Hinweise:
Graphik
oder
Videosequenz
text text text text text text text
text text text text text text text
text text text text text text text
text text text text text text text
Anzahl der Dokumente: [Zahl]
Thema merken
HHU Düsseldorf – SS 2005
zurück zum Themenraum
Wissensrepräsentation
245
Thesauri
Visualisierung eines Thesaurus für Laien
Darstellung eines Deskriptors. Beispiel
Butter
Definition:
Graphik
oder
Videosequenz
(grch. „bútyron“: Kuhquark)
Speisefett, das aus Kuhmilch
gewonnen wird. Beim Buttern in der
Molkerei wird der reife Milchrahm
mechanisch bearbeitet, bis sich die
Fettkügelchen absetzen.
Anzahl der Dokumente: 13
Thema merken
HHU Düsseldorf – SS 2005
zurück zum Themenraum
Wissensrepräsentation
246
Thesauri
Visualisierung eines Thesaurus für Laien
Darstellung der Relationen (Themenraum)
ist Bestandteil von
Deskriptor
Deskriptor
Deskriptor
Deskriptor
ist nützlich für
Deskriptor
Deskriptor
Deskriptor
Deskriptor
Deskriptor
Deskriptor
ist schädlich für
Deskriptor
Deskriptor
HHU Düsseldorf – SS 2005
Deskriptor
Deskriptor
besteht aus den
Teilen
Deskriptor
Deskriptor
Deskriptor
Deskriptor
Wissensrepräsentation
Deskriptor
Deskriptor
247
Thesauri
Visualisierung eines Thesaurus für Laien
Darstellung der Relationen (Themenraum). Beispiel
ist Bestandteil von
Brotbelag
Brotbelag
Milch
Milch
ist nützlich für
Butter
Butter
Braten
Braten
Butterfett
Butterfett
besteht aus den
Teilen
CholesterinCholesterinspiegel
spiegel
ist schädlich für
Herz
Herz
HHU Düsseldorf – SS 2005
Magen
Magen
Wissensrepräsentation
Molke
Molke
Salz
Salz
248
Thesauri
• Thesaurusauf- und –ausbau
– Thesaurusaufbau
• Sammlung der Fachbegriffe durch (sprach-)empirische
Erhebungen; Quellen: Terminologie der Fachliteratur,
Experten, potentielle Benutzer
• Zusammenfassen (quasi-)synonymer Bezeichnungen;
Auswahl der (vorläufigen) Vorzugsbenennungen
• Überprüfung jeder Vorzugsbenennung („DeskriptorKandidat“); Kriterien für Deskriptoren:
–
–
–
–
–
relative Häufigkeit in der Literatur
erwartetes Vorkommen bei Abfragen
Art der Relationen zu bereits akzeptierten Deskriptoren
Authentizität der Terminologie des Fachgebiets
Zweckmäßigkeit für die Erfassung von Inhalt und Umfang des
Begriffs
HHU Düsseldorf – SS 2005
Wissensrepräsentation
249
Thesauri
• Thesaurusauf- und –ausbau
– Thesaurusausbau (Thesauruspflege)
• Eliminierung von Deskriptoren (sofern diese beim
Indexieren nicht oder kaum genutzt werden)
– alle Relationen des Deskriptors werden mit gelöscht
– beim Deskriptorsatz vermerken: verwendet bis ... [Datum]
– oder: Dokumente neu indexieren
• Differenzierung von Deskriptoren (sofern sehr viele
Dokumente darunter fallen)
– neue Deskriptoren als Unterbegriffe in den Thesaurus
einführen
– beim Deskriptorsatz vermerken: ohne Unterbegriffe
verwendet bis ... [Datum]
– oder: Dokumente neu indexieren
• Aufnahme neuer Deskriptoren (beim Aufkommen neuer
Terme im Fachgebiet)
– neue Deskriptoren in die Relationen einhängen
– beim Deskriptorsatz vermerken: verwendet ab ... [Datum]
HHU Düsseldorf – SS 2005
Wissensrepräsentation
250
Thesauri
• Indexieren mittels eines Thesaurus
– gleichordnendes Indexieren (nach DIN 31.623/2)
Deskriptoren werden einem Dokument gleichrangig und
unstrukturiert zugeordnet
Beispiel: Ein Dokument behandle im ersten Teil den
Export italienischer Weine nach Deutschland und im
zweiten Teil den Import deutscher Autos nach Italien.
Indexat:
Export; Import; Italien; Deutschland; Wein; Auto
Problem: führt u.U. zu Informationsballast (Bsp.: Suche
nach dem Export deutscher Weine mit dem Argument
„Wein AND Deutschland AND Export“ findet fälschlich
unser Beispiel)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
251
Thesauri
•
Indexieren mittels eines Thesaurus
– syntaktisches Indexieren (nach DIN 31.623/3)
Deskriptoren werden einem Dokument unter Wahrung ihrer
thematischen Zusammenhänge zugeordnet (Bildung von
thematischen Teilmengen)
Indexat:
Wein – Export – Italien.
Wein – Import – Deutschland.
Auto – Export – Deutschland.
Auto – Import – Italien.
Italien – Deutschland – Außenhandel - Wein.
Italien – Deutschland – Außenhandel - Auto.
– Themenketten werden mit Abstandsoperator (etwa: SAME) und
nicht mit dem Booleschen UND durchsucht
– Probleme: wird ggf. von den Nutzern nicht verstanden; ist teuer
HHU Düsseldorf – SS 2005
Wissensrepräsentation
252
Thesauri
Syntaktisches Indexieren
Beispiel: HWWA
Zwei Themenketten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
253
Thesauri
• Gewichtetes Indexieren
• Vorgehen
– Variante 1: intellektuelle Zuordnung von numerischen
Werten zu den einzelnen Deskriptoren (wird derzeit nicht
durchgeführt)
– Variante 2: Zwei-Klassen-Verfahren:
• Auszeichnung der zentralen Deskriptoren zu einem
Dokument als „Fokus“ (besonders wichtig in der
dokumentarischen Bezugseinheit abgehandelt)
• Ziel: Ermöglichen des Suchens nach nur solchen
Dokumenten, in denen das Thema zentral vorkommt
HHU Düsseldorf – SS 2005
Wissensrepräsentation
254
Thesauri
Klasse 1 – Deskriptoren
wichtig – Fokus
(mit Sternchen *)
Klasse 2 – Deskriptoren
HHU Düsseldorf – SS 2005
Wissensrepräsentation
Quelle: EMBASE bei Ovid
255
Thesauri
• Indexieren mittels eines Thesaurus. Vorgehen
– dokumentarische Bezugseinheit (quer)lesen
– Verstehen des Dokumenteninhalts
– besondere Konzentration auf Terme aus:
Titel
Einleitung
Zusammenfassung
Autorenabstract
Kapitelüberschriften
Bildtitel
hervorgehobene Textstellen
Sätze, die Schlussfolgerungen enthalten („Reizterme“:
also, somit, ...)
• häufig vorkommende Terme
•
•
•
•
•
•
•
•
HHU Düsseldorf – SS 2005
Wissensrepräsentation
256
Thesauri
• Indexieren
– Ermittlung der Terme
• Extraktionsmethode:
Entnahme von Termen, die im vorliegenden Text
vorkommen (Minimierung der Gefahr von
Missverständnissen)
• Additionsmethode:
Zuteilung von Termen, die im Text nicht enthalten
sind (Achtung: Fehlinterpretationen sind möglich)
einzig mögliche Methode bei nicht-textuellen Medien
(Bildern, Videosequenzen, ...)
– alle ermittelten Terme notieren
HHU Düsseldorf – SS 2005
Wissensrepräsentation
257
Thesauri
• Indexieren
– Aufsuchen der ermittelten Terme im Thesaurus
• ermittelter Term ist Deskriptor: Deskriptor übernehmen
• ermittelter Term ist Nicht-Deskriptor: zugehörigen
Deskriptor übernehmen
• ermittelter Term ist weder Deskriptor noch NichtDeskriptor: Gibt es einen bestpassenden anderen
Deskriptor? Wenn ja: diesen übernehmen
• Wenn nein: 1) Term in Vorschlagsliste für die Modifikation
des Thesaurus notieren; 2) ggf. Term als „freien Begriff“
dem Dokument zuordnen
• bei jedem Deskriptor den Relationen folgen: gibt es weitere
passende Deskriptoren bei Oberbegriffen, Unterbegriffen,
verwandten Begriffen usw.?
• bei mehreren Kandidaten in der selben Begriffsleiter: ggf.
nur den spezifischeren Deskriptor wählen (muss durch
Regelwerk geklärt werden)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
258
Thesauri
• Kriterien der Deskriptor-Auswahl: Indexierungstiefe
• muss durch Regelwerk eindeutig vorgegeben sein (sonst
würde die Datenbasis uneinheitlich indexiert)
• Kriterium 1: Indexierungsbreite. Anzahl der zu vergebenden
Deskriptoren (pro Dokument, pro Seite, pro Zeichen, ...)
Bsp.: ifo Literaturdatenbank: ca. 0,5 bis 2 Deskriptoren pro
Textseite
Bsp.: Bibliodata: ca. 1 bis 2 Schlagworte pro Buch
• Kriterium 2: Indexierungsspezifität. Trennschärfe der
Deskriptoren
– bereits häufig vergebene Deskriptoren sind wenig selektiv
– Deskriptoren, die hoch in einer Begriffsleiter stehen, sind u.U.
wenig selektiv
– deshalb: wenig spezifische Deskriptoren möglichst mit anderen,
trennscharfen Deskriptoren kombinieren
HHU Düsseldorf – SS 2005
Wissensrepräsentation
259
Thesauri
• Kriterien der Deskriptor-Auswahl:
Dokumentationswürdigkeit von Deskriptoren
– analog zur Dokumentationswürdigkeit von Dokumenten
– (1) Relevanz im Dokument: Ist der Deskriptor im Rahmen
des Dokumentes wichtig?
– (2) Informationsbedarf der Nutzer: Braucht ein Nutzer das
Dokument, der nach dem Deskriptor sucht? Sucht ein
Nutzer überhaupt unter diesem Deskriptor nach dem
Dokument?
– (3) Bisheriger Stand der Datenbank: Gibt es „bessere“
Dokumente zu dem Deskriptor? Sagt das Dokument zum
Deskriptor etwas Neues aus?
HHU Düsseldorf – SS 2005
Wissensrepräsentation
260
Thesauri
•
Indexierungstiefe: Wie das Optimum finden?
– zu wenige oder zu spezifische Deskriptoren: Informationsverlust
– zu viele oder zu unspezifische Deskriptoren: Informationsballast
– „gute“ Indexierung: Gratwanderung zwischen Informationsverlust
und Informationsballast
•
Indexierungstiefe und Nutzertyp (Laie vs. Experte)
– Laie sucht Überblick UND Indexierungstiefe niedrig:
Rechercheergebnis zufriedenstellend (+)
– Laie sucht Überblick UND Indexierungstiefe hoch:
Rechercheergebnis bringt zu viele Treffer (-)
– Experte sucht Spezialwissen UND Indexierungstiefe niedrig:
Rechercheergebnis bringt zu wenige genaue Treffer (-)
– Experte sucht Spezialwissen UND Indexierungstiefe hoch:
Rechercheergebnis zufriedenstellend (+)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
261
Thesauri
• Sicherung gleichbleibender Indexierungsqualität:
Indexierungskonsistenz
– Inter-Indexer-Konsistenz (Vergleich der Indexate zur
selben DBE verschiedener Indexer)
– Intra-Indexer-Konsistenz (Vergleich der Indexate des
selben Indexers zur selben DBE zu unterschiedlichen
Zeiten)
– bei der Produktion der Datenbasis ist eine möglichst
hohe Indexierungskonsistenz zu gewährleisten
– Methode: in periodischen Abständen (etwa: monatlich)
Tests durchführen; die Ergebnisse im Indexierer-Team
besprechen; dabei:
• Verbesserungen des Thesaurus (Thesauruspflege)
• Verbesserungen des Indexierungshandbuchs
HHU Düsseldorf – SS 2005
Wissensrepräsentation
262
Thesauri
• Thesauri. Fazit
– In der kommerziellen Informationswirtschaft sind die
Thesauri DIE Methode der Wissensrepräsentation.
– Thesauri eignen sich auch für den Einsatz bei Intranets
bzw. Enterprise Information Portals.
– Es existieren weltweit weit über 1.000 Thesauri.
– Der „Standard“: Der DIN-Thesaurus kennt Synonyme
(Nicht-Deskriptor – Deskriptor-Relation), Hierarchierelationen (Abstraktions- und Bestandsrelation) sowie
die Assoziationsrelation.
– Weitere (2-stellige) Relationen sind problemlos
hinzufügbar (etwa: Nützlichkeit – Schädlichkeit).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
263
Thesauri
• Thesauri. Fazit
– Neben Profi-Oberflächen sollte man ThesaurusOberflächen für Laien herstellen, die diesen die
Navigation erleichtern.
– Thesauri werden ständig überarbeitet und dem Stand
der Terminologie eines Faches angepasst (Thesauruspflege).
– Indexierung geschieht entweder gleichordnend (der
Standardfall) oder syntaktisch (durch Markierung der
Themenketten).
– Die Qualität der Indexierung einer Datenbasis ist von der
Indexierungstiefe (Indexierungsbreite und –spezifität)
und von der Indexierungskonsistenz abhängig.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
264
Thesauri
• Vorteile von Thesauri
– Navigation durch diverse Relationen möglich
– Können die Strukturen eines Fachgebiets umfassend
terminologisch abbilden
– Arbeiten mit der natürlichen Sprache (ggf. Nachteil:
Beschränkung auf eine Sprache; Ausgleich durch
multilinguale Thesauri)
– Sind (relativ) leicht modifizierbar (zumindest leichter als
Klassifikationssysteme)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
265
Thesauri
• Nachteile von Thesauri
– Der Thesaurusaufbau und die Thesauruspflege ist
aufwendig und damit (z.T.: sehr) teuer.
– Laien kommen u.U. (insbesondere, wenn keine eigenen
Laien-Oberflächen geschaffen werden) mit Thesauri
nicht zurecht.
– Der Einsatz eines Thesaurus erfordert zusätzlich den
Einsatz spezifischer Software (etwa: Weiterleitung bei
der Eingabe von Nicht-Deskriptoren, Einbeziehen von
Deskriptoren aus Relationen in eine Suche)
– Wie bei der Klassifikation bildet ein Thesaurus nur
Begriffe und deren Relationen ab, aber nicht die
Sachverhalte, die dazu ausgesagt werden (und die das
Wissen des Fachbereichs repräsentieren)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
266
Textsprachliche Methoden
Volltextspeicherung
Titelindexierung
Textwortmethode
Zitationsindexierung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
267
Textsprachliche Methoden
•
Volltextspeicherung
– Speicherung des Fließtextes im ASCII-Format (für die Suche)
– Speicherung des Originallayouts im PDF-Format (für die
Anzeige)
– falls PDF nicht möglich: Fließtext (wenn möglich in QuasiFaksimile) und Links zu Graphiken oder Abbildungen
– Grundsatz: Volltexte nie „solo“ (ohne intellektuelle Inhaltserschließung oder ohne automatische Indexierung) ablegen
•
Suchfunktionalität bei Volltexten
– einfache Boolesche Retrievalsysteme ungeeignet
– Boolesche Systeme mit Abstandsoperatoren
Mindestanforderung
– Systeme mit automatischer Indexierung und mit Relevance
Ranking erforderlich
HHU Düsseldorf – SS 2005
Wissensrepräsentation
268
Textsprachliche Methoden
• Volltextspeicherung: Warum nicht den Volltext
ohne Inhaltserschließung?
– Das Vorkommen eines Wortes bedeutet nicht, dass auch
etwas darüber ausgesagt wird („Dieser Artikel sagt
nichts über die Zustände in Ungarn aus“ als Treffer
einer Suchfrage nach „Ungarn“).
– keinerlei kontrolliertes Vokabular zur Suche vorhanden:
• Probleme mit Synonymen und Homonymen
• Probleme mit Fremdsprachen
• elliptische Formulierungen oder Wortspiele
– Der Volltext solo erfüllt nicht die Anforderung eines
Informationsfilters.
– Volltext (ASCII) ist nur zur ergänzenden Suche geeignet.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
269
Textsprachliche Methoden
• Volltextspeicherung
Zusammenspiel von:
Metadaten,
ASCII-Volltext,
Faksimile (bei
digitalen Dokumenten),
Kopien-Service
(bei nicht-digitalen
Dokumenten)
Beispiel:
Konzeption der deutschen
Virtuellen Fachbibliotheken
( EconDoc; GetInfo;
infoconnex; MedPilot)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
270
Textsprachliche Methoden
• Titelindexierung
– Übernahme von Stichworten aus den Sachtiteln von
Büchern oder Artikeln
– frühes Verfahren der Wissensrepräsentation; eingesetzt
vor allem bei Registern
– Methoden:
• KWIC (Keyword in Context)
• KWOC (Keyword out of Context)
• KWAC (Keyword and Context)
• Permutierte Stichworte
• Stichworte in grammatischer Grundform
• stets: Elimination von Stoppworten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
271
Textsprachliche Methoden
• Titelindexierung
Beispiel: Titel: Mehrwerte von Information – Professionalisierung
der Informationsarbeit (lfd.Nr.: 5)
KWIC
Mehrwerte von Information – Professionalisierung der Informationsarbeit
Mehrwerte von Information – Professionalisierung der Informationsarbeit
Mehrwerte von Information – Professionalisierung der Informationsarbeit
Mehrwerte von Information – Professionalisierung der Informationsarbeit
5
5
5
5
KWOC
Information
Informationsarbeit
Mehrwerte
Professionalisierung
Mehrwerte von ... – Professionalisierung der Informationsarbeit
Mehrwerte von Information – Professionalisierung der ...
... von Information – Professionalisierung der Informationsarbeit
Mehrwerte von Information – ... der Informationsarbeit
HHU Düsseldorf – SS 2005
Wissensrepräsentation
5
5
5
5
272
Textsprachliche Methoden
• Titelindexierung
Beispiel: Titel: Mehrwerte von Information – Professionalisierung
der Informationsarbeit (lfd.Nr.: 5)
KWAC
Information
Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
Mehrwerte
Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
Professionalisierung Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
Permutierte Stichworte (mit grammatischer Grundform)
Information – Informationsarbeit
Information – Mehrwert(e)
Information – Professionalisierung
Informationsarbeit – Information
...
HHU Düsseldorf – SS 2005
5
5
5
5
Wissensrepräsentation
273
Textsprachliche Methoden
• Titelindexierung
– Vorteile
• schnell zu erstellen
• kostengünstig
• bei gewissen bibliothekarischen Projekten (etwa
Retrokatalogisierung): einzig praktikable Methode
– Nachteile:
• kein kontrolliertes Vokabular (analog zu den Problemen
der Volltextspeicherung)
• Informationsverlust
– je nach Dokumenttyp (sehr hoch bei Zeitungsartikeln, bei
Patenten und bei Büchern, weniger hoch bei wissenschaftlichen Artikeln)
– je nach Fach (hoch bei Geisteswissenschaften, weniger hoch
bei Naturwissenschaften und Medizin)
– Beispiel: Philosophie / Artikel: Verlust von über 80% im
Vergleich zur Textwortmethode
HHU Düsseldorf – SS 2005
Wissensrepräsentation
274
Textsprachliche Methoden
• Titelindexierung
– die Nachteile überwiegen
– als einzige Methode der Wissensrepräsentation nicht
geeignet
– trotzdem: in Datenbanken spezielles Feld (bzw.
speziellen Tag bei HTML- bzw. XML-Dokumenten) für die
Aufnahme der Titel definieren, das u.U. im Retrieval
genutzt werden kann
– KWIC im Volltext bei der Ausgabe nutzen: die
Suchargumente im Kontext (hervorgehoben) anzeigen
KWIC bei der
Trefferliste von Google
HHU Düsseldorf – SS 2005
Wissensrepräsentation
275
Textsprachliche Methoden
Textwortmethode
entwickelt von:
Norbert Henrichs
an der
Forschungsabt. für
philosophische Information
und Dokumentation der
Universität Düsseldorf
(Ende der 60er Jahre des 20.
Jahrhunderts)
Ziel:
Entwicklung einer
wörterbuchunabhängigen
Dokumentationsmethode.
ursprünglicher Einsatzbereich:
Philosophie
Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969),
122-131.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
276
Textsprachliche Methoden
• Textwortmethode
– Einsatzgebiet
• außerhalb fester Terminologien
– als einzige Methode (in Disziplinen mit prinzipiell nicht-fester
Terminologie; etwa: Philosophie)
– oder ergänzende Methode (zur Aufnahme von Begriffen, die
ein aktuell eingesetztes Klassifikationssystem oder ein
Thesaurus nicht enthalten)
• wenn noch keine Terminologie vorhanden ist
(Textwortmethode bringt empirisches Termmaterial für den
Aufbau von Dokumentationssprachen)
– Basis der Wissensabbildung
• ausschließlich der konkret vorliegende Text
• KEIN vorgegebenes Begriffssystem
HHU Düsseldorf – SS 2005
Wissensrepräsentation
277
Textsprachliche Methoden
• Textwortmethode
– Methode
• Auswahlverfahren zur Markierung von „Sucheinstiegen“ in
Texte (N.B.: „Die Sprache ist das HAUS des Seins“,
Heidegger. Texte werden als Häuser verstanden, die durch
unterschiedliche Einstiege betreten werden.)
• syntaktisches Indexieren: keine Einzelthemen, sondern
thematische Ketten
– Auswahlregeln
Textwörter aus Titeln und Zwischentiteln
häufig vorkommende Textwörter
Textwörter aus textlichen Schlüsselstellen
Bevorzugung von Neologismen
Bevorzugung von informationsreichen (Mehrwort-)
Ausdrücken
• je nach Textdichte ca. 0,5 bis 2 Textwörter pro Textseite im
Durchschnitt
•
•
•
•
•
HHU Düsseldorf – SS 2005
Wissensrepräsentation
278
Textsprachliche Methoden
• Textwortmethode
– Varianten
• nur originalsprachig (Henrichs‘ Methode). Problem: Nutzer
muss alle einschlägigen Textwörter in allen Textsprachen
der Datenbank kennen
• originalsprachig mit zusätzlicher Übersetzung in eine
Zielsprache (Methode der Datenbank „Grazer Schule“)
– Indexierung
• intellektuell (sehr aufwendig, daher sehr teuer)
• Variante eines automatischen Indexierens (bislang noch
nicht erprobt)
• ermöglicht stets gewichtetes Retrieval
HHU Düsseldorf – SS 2005
Wissensrepräsentation
279
Textsprachliche Methoden
• Textwortmethode
– informetrische Verdichtungsmethoden
• innerhalb genau einer Dokumentationseinheit
– Gewichtungswert der Terme
• gesamte Datenbasis oder Teilmenge davon
– Wortfelder
– Häufigkeit und Wichtigkeit von Termen
– semantische Netze von Termen (Themennetze)
Wolfgang G. Stock: Textwortmethode [Norbert Henrichs zum 65.]. – In: Password Nr 7+8 (2000), S. 26-35.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
280
Textsprachliche Methoden
•
Textwortmethode. Beispiel eines Indexats
Meinong, Alexius: Über Gegenstandstheorie, in: Untersuchungen
zur Gegenstandstheorie und Psychologie, hg. v. Alexius Meinong.
Leipzig: Johann Ambrosius Barth, 1904, 1-50.
Thematischer Rahmen:
Sachthemen: Gegenstandstheorie (1-18); Etwas (1); Gegenstand
(1-15); Wirkliche, das (2-3); Erkenntnis (2,10); Objektiv (3,10); Sein
(4,6-8); Existenz (4-5); Bestand (4); Sosein (5-6); Nichtsein (5);
Unabhängigkeit (6); Gegenstand, reiner (7-8); Außersein (7-8);
Quasisein (7); Psychologie (9); Erkenntnisgegenstand (10); Objekt
(10); Logik, reine (11); Psychologismus (11-12); Erkenntnistheorie
(12); Mathematik (13,18); Wissenschaft (14,18);
Gegenstandstheorie, allgemeine (15); Gegenstandstheorie,
spezielle (15,18); Philosophie (17); Metaphysik (17); Gegebene, das
(17); Empirie (17); Apriorische, das (17); Gesamtheit-derWissenschaften (18)
Namen: Mally, Ernst (6); Husserl, Edmund (11); Höfler, Alois (16)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
281
Textsprachliche Methoden
•
Textwortmethode mit Übersetzungsrelation. Beispiel eines
Indexats
Veber, France: 07. O samoopazovanju kot posebni metodi
znanstvenega raziskovanja, in: France Veber: Analiticna
Psihologija. - Ljubljana: Kleinmayr & Bamberg, 1924, 39-50.
Thematischer Rahmen:
Sachthemen in Originalsprache: Sachthemen in Einheitssprache:
samoopazovanje (1-6)
Selbstbeobachtung (1-6)
metoda (1)
Methode (1)
dozivljaj (2,5)
Erlebnis (2,5)
psihologija (3)
Psychologie (3)
opazovanje (4)
Beobachtung (4)
pristnost (5)
Echtheit (5)
dozivljanje (5)
Erleben (5)
spoznanje (6)
Erkenntnis (6)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
282
Textsprachliche Methoden
Syntagmatische Relationen zwischen den Begriffen
Basis für
– Thesaurusaufbau
– Wissenschaftsgeschichte
– Nutzung als
„einstellbarer“
Thesaurus
– Syntagma als
Basis für
Paradigma
HHU Düsseldorf – SS 2005
Wissensrepräsentation
283
Textsprachliche Methoden
• Textwortmethode
– Vorteile
• nimmt die Sprache der Autoren ernst
• keinerlei paradigmatische Relationen, kein kontrolliertes
Vokabular
• einsetzbar in Gebieten, in denen Dokumentationssprachen nicht
anwendbar sind
• objektive Basis (im Gegensatz zu Dokumentationssprachen, die
die Texte stets durch die Brille ihres Systems sehen); damit
relativ interpretationsarm
• Basis für diverse Weiterverarbeitungen (Thesaurusaufbau,
Wissenschaftsgeschichte usw.)
– Nachteile
• aufwendig und teuer
• u.U. mangelhafte Indexierungskonsistenz
• Retrieval schwierig (kann jedoch durch Übersetzungen und
durch informetrische Funktionen gemildert werden)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
284
Textsprachliche Methoden
Zitationsindexierung
(Citation Indexing)
entwickelt von:
Eugene Garfield
am
Institute for Scientific
Information (Philadelphia;
europäische Zentrale: London)
(Mitte/Ende der 50er Jahre des
20. Jahrhunderts)
Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
285
Textsprachliche Methoden
•
Einsatzgebiete: überall, wo zitiert wird
– Recht: Urteile
– Patente
– wissenschaftliche Literatur
•
•
•
Grundidee: Das Notieren von Fußnoten (oder anderen
bibliographischen Angaben) gibt über den Inhalt eines
wissenschaftlichen Artikels Auskunft
das Verfahren erfordert nur minimalen intellektuellen
Aufwand und ist daher - als Methode der
Inhaltserschließung - relativ kostengünstig herzustellen
das Institute for Scientific Information (ISI) verfügt nahezu
über eine Monopolstellung bei der zitatenanalytischen
Auswertung wissenschaftlicher Literatur (Ausnahme: u.a.
CiteSeer)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
286
Textsprachliche Methoden
Zitat 1
Zitat 2
1 Stegmüller, Wolfgang: Probleme und Resultate der
Wissenschaftstheorie und Analytischen Philosophie. Band 4: Personelle und Statistische Wahrscheinlichkeit.
Studienausgabe Teil A. - Berlin; Heidelberg; New York:
Springer, 1973, S. 5.
2 ebd., S. 5.
3 ebd., S. 5.
Mehrfachnennungen werden übergangen
4 ebd., S. 6.
5 ebd., S. 6.
6 Haller, Rudolf: Wandlungen der Wissenschaftsauffassung. In: Erhard Busek; Wolfgang Mantl; Meinrad Peterlik (Hrsg.):
Wissenschaft und Freiheit. - Wien: Verlag für Geschichte
und Politik; München: Oldenbourg, 1989, S. 46-58, hier: S.
57.
7 vgl. ebd., S. 55.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
287
Textsprachliche Methoden
Zeit
Zitierender Artikel
„Zitation“
Informationsübermittlung
Reputation
„Referenz“
Zitierter Artikel
HHU Düsseldorf – SS 2005
Wissensrepräsentation
288
Textsprachliche Methoden
• Zitationsindexierung beim ISI. Geschichte
•
•
•
•
•
•
•
•
•
•
Vorgeschichte: Shepards‘ Citations, Zitationsindex für
Gerichtsurteile (das Vorbild)
1955: Garfield entwickelt die Idee wissenschaftlicher
Zitationsindices
1958: Gründung des Institute for Scientific Information (ISI)
in Philadelphia, MA
erstes Produkt des ISI: Current Contents (CC)
1961: Science Citation Index (SCI)
1973: Social Sciences Citation Index (SSCI)
1976: Journal Citation Reports (JCR)
1978: Arts & Humanities Citation Index (A&HCI)
1997: Web of Science (WoS)
2001: Essential Science Indicators (ESI); Web of Knowledge
HHU Düsseldorf – SS 2005
Wissensrepräsentation
289
Textsprachliche Methoden
• Zitatenindexierung wissenschaftlicher
Zeitschriftenliteratur beim Web of Science:
– SCI. Zuwachs: 17.000 Quellenartikel mit 300.000
Zitationen pro Update (d.h. pro Woche); ab 1945
– SSCI. Zuwachs: 2.800 Quellenartikel mit 50.000
Zitationen pro Woche; ab 1956
– A&HCI. Zuwachs: 2.200 Quellenartikel mit 15.000
Zitationen; ab 1975
• zusätzlich via Online-Archive (z.B. DIALOG)
recherchierbar sowie (als Auftragsforschung)
beim ISI (Research Services Group)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
290
Textsprachliche Methoden
•
Kriterien der Zeitschriftenauswahl (derzeit: rund 8.000 ausgewertet)
•
Kernzeitschriften pro Disziplin (Ausnutzung des Garfieldschen Gesetzes) Problem: Gesetz sagt etwas über eine Anzahl von Zeitschriften im Kern aus,
welche Titel jeweils darin sind, ändert sich andauernd
deshalb: intellektuelle Durchsicht neuer (oder neu angebotener) Zeitschriften
(ca. 2000 Zeitschriften jährlich, Auswahl von rund 10-12%)
Auswahlkriterien nach „Basic Standards“
– regelmäßige und termingerechte Erscheinungsweise
– aussagekräftiger Zeitschriftentitel
– aussagekräftige Artikeltitel
– vollständige bibliographische Angaben bei Fuß- und Endnoten
– englische Artikeltitel (bei nicht-englischer Literatur: Übersetzungen)
– englische Abstracts, englische Keywords
– Peer Review
– internationale Ausrichtung (ggf. auch wichtige regionale Ausrichtung)
– Neuigkeit des Inhalts (liegen schon ähnliche Zeitschriften beim ISI vor?)
Expertenurteile
•
•
•
HHU Düsseldorf – SS 2005
Wissensrepräsentation
291
Textsprachliche Methoden
• Retrievalfunktionen bei Zitationsdatenbanken
– Rekonstruktion der
Informationsübermittlungen nach „hinten“,
d.h. zur zitierten Literatur (via Referenzen)
– Rekonstruktion der
Informationsübermittlungen nach „vorne“, d.h.
zur zitierenden Literatur (via Zitationen)
– assoziatives Retrieval nach „verwandter“
Literatur (über gemeinsame Referenzen)
– (Zugang zu den Volltexten)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
292
Textsprachliche Methoden
Referenzen
Zitationen
Web of Science
Trefferanzeige
HHU Düsseldorf – SS 2005
Wissensrepräsentation
293
Textsprachliche Methoden
Web of Science
Anzeige der Zitationen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
294
Textsprachliche Methoden
• Zitationsindexierung. Probleme
– Autoren zitieren nicht alle einschlägigen Quellen (u.a.
„Super-Klassiker“)
– Autoren zitieren Quellen, die nicht einschlägig sind (u.a.,
weil sie die eigene Meinung stützen)
– Autoren haben unterschiedliche Zitationsstile
– Selbstzitationen („Inzest“)
– Zitationskartell (Selbstzitation einer Gruppe)
– Zitationsebenen (nach Blaise Cronin)
•
•
•
•
•
V. Lebenswerk (im Text, zitatenanalytisch nicht erfasst)
IV. Motiv (im Text, zitatenanalytisch nicht erfasst)
III. Werk: Buch, Artikel (zitatenanalytisch sauber fassbar)
II. Kapitel, Abschnitt (wird Ebene III zugeschrieben)
I. Detail (wird Ebene III zugeschrieben)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
295
Textsprachliche Methoden
• Zitationsindexierung beim ISI. Probleme
– Repräsentativität der selektierten Zeitschriften von
Disziplin zu Disziplin (und von Land zu Land)
unterschiedlich
– Titel der Quellenartikel nur in englisch
– Zitationen werden (mehr oder minder) einheitlich
abgekürzt; für Laien: „Verstümmelung von Fußnoten“
– versteckte Literaturangaben im Text werden nicht immer
(bei SCI und SSCI: gar nicht) berücksichtigt
– Publikations- und Zitationsraten des ISI haben große
Bedeutung in der Wissenschaftsforschung und
Wissenschaftsevaluation (auch z.B. bei
Lehrstuhlbesetzungen); deshalb sehr wichtig: Kenntnis
der methodischen Probleme bei der
Zitationsindexierung)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
296
Textsprachliche Methoden
• Navigation auf den
Zitationen bei
CrossRef
– CrossRef:
Zusammenschluss
wichtiger
Wissenschaftsverlage mit
digitalen Volltexten
– Die Artikel sind –
über die
Referenzen –
miteinander verlinkt
– Technik: DOI
(digital object
identifyer)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
297
Textsprachliche Methoden
• Shepardizing
–
–
–
–
bewertende Zitationsindexierung
Anwendungsfeld: juristische Entscheidungen
eingesetzt bei LexisNexis
Klassen (1. Hierarchieebene)
• Warnung: negative Referenz (Signalfarbe: rot)
• in Frage gestellt – Gültigkeit eines Urteils wird hinterfragt
(orange)
• Vorsicht: mögliche negative Sicht (gelb)
• positiv – Fall wird zustimmend diskutiert (grün)
• neutral – weder negativ noch positiv (blaues "A")
• Zitationsinformationen in anderen Quellen zugänglich (blaues
"I")
HHU Düsseldorf – SS 2005
Wissensrepräsentation
298
Textsprachliche Methoden
• Shepardizing
HHU Düsseldorf – SS 2005
Wissensrepräsentation
299
Textsprachliche Methoden
• Assoziative Suche über Zitationen / LexisNexis
HHU Düsseldorf – SS 2005
Wissensrepräsentation
300
Textsprachliche Methoden
• Zitatenindexierung
– Vorteile:
• ergänzt durch die besondere Form der Wissensabbildung
jede andere Erschließungsmethode
• ermöglicht Navigation über die Referenzen (CrossRef, ISI)
und Zitationen (ISI, CiteSeer, Shepards‘)
• ermöglicht assoziatives Retrieval über die Menge gemeinsamer Referenzen bei unterschiedlichen Artikeln
– Nachteile:
• nur Artikel in Zeitschriften, Proceedings und
Sammelbänden (keine Monographien) als Quellen
• bei Referenzen wird u.U. „geschummelt“
• praktische Probleme beim ISI: u.a. Auswahl der
Quellenwerke
HHU Düsseldorf – SS 2005
Wissensrepräsentation
301
Nicht-thematische Informationsfilter
HHU Düsseldorf – SS 2005
Wissensrepräsentation
302
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (1):
Zielgruppe
•
•
•
jeder dokumentarischen Bezugseinheit die spezifische(n)
Zielgruppe(n) zuordnen
Grund: nicht jedes Dokument ist für jeden Nutzertyp
interessant
Bsp.: bei fachlicher Literaturdatenbank:
–
–
–
–
–
–
•
interessierter Laie
Schüler (Oberstufe – Leistungskursniveau)
Student (B.A.-Niveau)
Student (M.A.-Niveau)
Forscher (mit allgemeinem Fachwissen)
Forscher (mit speziellem Fachwissen)
im Bsp.: Abfrage im Feld „Zielgruppe“ frei selektierbar;
keine Zugangsbeschränkung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
303
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (1):
Zielgruppe
•
Bsp.: bei unternehmensspezifischer Datenbank (im Intranet
und Extranet):
–
–
–
–
–
–
–
–
–
•
(registrierter) Zulieferer
(anderer) Zulieferer
(registrierter) Kunde
(anderer) Kunde
Unternehmensmitarbeiter
Management
Forscher / Entwickler
Marketing
Betriebsrat
im Bsp.: Zugang zu bestimmten Dokumentationseinheiten
nur mit gesondertem Passwort
HHU Düsseldorf – SS 2005
Wissensrepräsentation
304
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (1):
Zielgruppe
•
Bsp.: bei Datenbank über Kunstwerke:
–
–
–
–
–
–
•
interessierter Laie
Kaufinteressent
Künstler
Kunsthistoriker
Politiker
Journalist
für jede Datenbank sind die Zielgruppen zu bestimmen
(Segmentierung über empirische Erhebung oder –
einfacher, aber unzuverlässiger – über „intuitive“
Definition)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
305
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (2):
Art der Themenbehandlung
•
•
•
Niveau der dokumentarischen Bezugseinheit hinsichtlich
der Darstellung
nicht zu verwechseln mit dem Dokumenttyp (wie Zeitschriftenartikel, Artikel in Proceedings, Buch, Rezension)
Bsp.: bei fachlicher Literaturdatenbank
–
–
–
–
•
Überblicksartikel
empirische Studie
theoretische Abhandlung
methodologische Studie
Die Bezeichnungen für das Dokumentniveau sind als
kontrolliertes Vokabular abzulegen.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
306
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (2):
Art der Themenbehandlung
Variante 1: Art der Themenbehandlung als Deskriptor
Nachteil: „versteckt“ bei den thematischen Deskriptoren
Quelle: EMBASE
bei Ovid
HHU Düsseldorf – SS 2005
Wissensrepräsentation
307
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (2):
Art der Themenbehandlung
Variante 2: Art der Themenbehandlung als separates Feld
Quelle: TEMA bei
FIZ Technik
HHU Düsseldorf – SS 2005
Wissensrepräsentation
308
Nicht-thematische Informationsfilter
Nicht-thematischer Informationsfilter (3):
Verfallsdatum
•
•
•
•
nur bei zeitkritischen Dokumenten
Angabe eines Datums, nach dem die Dokumentationseinheit aus dem aktiven Informationssystem entfernt wird
entweder: löschen
oder: im Archiv weiterhin bereithalten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
309
Automatische Indexierung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
310
Automatische Indexierung
•
•
•
•
•
Automatische Indexierung unter Nutzung von Informationsfiltern
Hinweis: ohne definierte Informationsfilter: Textstatistik /
Linktopologie (Vorl. „Einführung in die Informationswissenschaft“)
Voraussetzung: Einsatz informationslinguistischer Verfahren
Varianten:
(1) ohne Dokumentationswerkzeug: Klassifikation von
Dokumenten nach Ähnlichkeit
– a) permanent: Klassifikation über die gesamte Datenbasis
– b) temporär: für jede Suchanfrage
•
(2) mit Dokumentationswerkzeug (Schlagwortliste,
Klassifikationssystem, Thesaurus): Dokumentanalyse –
Zuordnung von Notationen, Schlagworten bzw. Deskriptoren
HHU Düsseldorf – SS 2005
Wissensrepräsentation
311
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
•
•
•
•
•
•
Ziel: Zusammenfassen ähnlicher Dokumente unter eine Klasse
(möglichst große Ähnlichkeit innerhalb der Klasse, möglichst
große Unähnlichkeit zu anderen Dokumenten bzw. Klassen)
Basis: Worte und (erkannte) Phrasen von jeweils zwei
Dokumenten in Grundform oder Wortstamm
Anzahl der Worte/Phrasen in Dokument A: a
Anzahl der Worte/Phrasen in Dokument B: b
Anzahl der in A und B gemeinsam vorkommenden
Worte/Phrasen: g
ggf. zusätzlich: jeweils Gewichtungswert (IDF, WDF, Position)
jedes Wortes bzw. jeder Phrase (i)
Edie Rasmussen: Clustering Algorithms. – In: William B. Frakes; Ricardo Baezo-Yates (Hrsg.): Information
Retrieval. Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 419-442.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
312
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
• Ähnlichkeitsmaße
•
Koeffizient nach DICE
•
Ähnlichkeit(A,B) = 2g / (a + b)
•
2 * Σ (Gewicht(i,A) * Gewicht(i,B))
gewichtete Ähnlichkeit(A,B) = ------------------------------------------------
Σ (Gewicht(i,A))2
+
Σ (Gewicht(i,B))2
wobei i : Wort/Phrase in A und B
HHU Düsseldorf – SS 2005
Wissensrepräsentation
313
Automatische Indexierung
•
•
Klassifikation von Dokumenten nach Ähnlichkeit
Ähnlichkeitsmaße
•
Koeffizient nach JACCARD
•
Ähnlichkeit(A,B) = g / (a + b - g)
Σ (Gewicht(i,A) * Gewicht(i,B))
•
Ä(A,B) = --------------------------------------------------------------------------------------------
Σ (Gewicht(i,A))2
+
Σ (Gewicht(i,B))2 – Σ (Gewicht(i,A) * Gewicht(i,B))
wobei i : Wort/Phrase in A und B
HHU Düsseldorf – SS 2005
Wissensrepräsentation
314
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
• Ähnlichkeitsmaße
•
Cosinus-Koeffizient
•
Ähnlichkeit(A,B) = g / (a * b)1/2
Σ (Gewicht(i,A) * Gewicht(i,B))
•
Gew. Ähnlichkeit(A,B) = -----------------------------------------------------------( Σ (Gewicht )2 * Σ (Gewicht )2 )1/2
(i,A)
(i,B)
wobei i : Wort/Phrase in A und B
HHU Düsseldorf – SS 2005
Wissensrepräsentation
315
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
• Ähnlichkeitsmaße
•
•
•
•
Beispiel: Dokument A: 100 Worte (a=100); Dokument B= 200 Worte
(b=200); gemeinsame Worte in A und B: 15 (g=15)
Ähnlichkeit(A,B) nach DICE = 2g / (a + b), also: 30 / (100 + 200) = 0,1
Ähnlichkeit(A,B) nach JACCARD = g / (a + b - g), also
15 / (100 + 200 – 15) = 15 / 285 = 0,053
Cosinus-Ähnlichkeit(A,B) = g / (a * b)1/2, also: 15 / (100 * 200)1/2 =
15 / (20.000)1/2 = 15 / 141,42 = 0,106
HHU Düsseldorf – SS 2005
Wissensrepräsentation
316
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
•
•
Errechnung der Ähnlichkeit für alle Dokumentpaare (einer
Datenbank oder eines Suchergebnisses)
Herstellen einer Ähnlichkeitsmatrix
Dok1
Dok2
Dok3
...
Dokn
Dok1
1
Ä(2,1)
Ä(3,1)
Dok2
Dok3
1
Ä(3,2)
1
Ä(n,1)
Ä(n,2)
Ä(n,3)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
Dokn
1
317
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
•
•
Clusteranalyse
Single-Link-Verfahren:
– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem
Cluster enthalten ist
– Hinzufügen von allen Dokumenten, die mit A ähnlich sind (d.h. die
einen Schwellenwert überschreiten), sagen wir: C und D
– Hinzufügen von allen Dokumenten, die mit B ähnlich sind, sagen wir:
E, F und G
– Hinzufügen von allen Dokumenten, die mit C ähnlich sind
– usw. ...
– ... bis kein Dokument mehr vorhanden ist, das den Schwellenwert
überschreitet
– nächstes Paar (wie oben)
•
das Single-Link-Verfahren erzeugt u.U. sehr große Cluster
HHU Düsseldorf – SS 2005
Wissensrepräsentation
318
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
•
Single-Link-Verfahren. Beispiel. Schwellenwert Ähnlichkeit = 0,2
0,30
A
B
Klasse
0,25
0,25
0,24
C
D
0,27
0,21
H
0,29
E
F
0,29
I
0,22
J
G
HHU Düsseldorf – SS 2005
Wissensrepräsentation
319
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
•
Clusteranalyse
•
Complete-Link-Verfahren:
– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem
Cluster enthalten ist
– Hinzufügen von allen Dokumenten, die mit A und B ähnlich sind (d.h.
einen Schwellenwert überschreiten)
– und die untereinander ähnlich sind (d.h. den Schwellenwert
überschreiten)
•
das Complete-Link-Verfahren erzeugt u.U. sehr kleine Cluster
HHU Düsseldorf – SS 2005
Wissensrepräsentation
320
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
•
Complete-Link-Verfahren. Beispiel. Alle Ähnlichkeitswerte liegen
über dem Schwellenwert
A
B
C
Klasse
F
H
G
HHU Düsseldorf – SS 2005
Wissensrepräsentation
321
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
•
Clusteranalyse
•
Group-Average-Link-Verfahren:
– Mittelstellung zwischen Single-Link- und Complete-Link-Verfahren
– Ausgang: wie Single-Link-Verfahren
– Errechnung der durchschnittlichen Ähnlichkeit aller Paare
– durchschnittliche Ähnlichkeit als Schwellenwert
– alle Paare verbleiben im Cluster, deren Ähnlichkeit über dem
Schwellenwert liegen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
322
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
•
Group-Average-Link-Verfahren. Beispiel. Entfernen der Paare, die
unter der Durchschnittsähnlichkeit im Single-Link-Cluster (im
Beispiel: 24,9) liegen
A
0,30
B
Klasse
0,25
0,29
0,25
C
E
F
0,27
H
0,29
G
HHU Düsseldorf – SS 2005
Wissensrepräsentation
323
Automatische Indexierung
• Klassifikation von Dokumenten nach Ähnlichkeit
•
Nicht-hierarchische Klassifikation
•
Hierarchische Klassifikation
– mehrfache Anwendung der Clusterbildung innerhalb bereits
erkannter Cluster
– Abbruch, wenn unterer Schwellenwert (minimale Anzahl von
Dokumenten im Cluster) erreicht wird
•
letzter Schritt: Finden einer aussagekräftige Klassenbenennung
(Wort(e)/Phrase(n) mit höchsten Gewichtungswerten)
•
Einsatzgebiet der Klassifikation nach Ähnlichkeit
– unternehmensinterne Dokumentsammlungen, die überhaupt nicht
indexiert worden sind
HHU Düsseldorf – SS 2005
Wissensrepräsentation
324
Automatische Indexierung
• Automatische Zuordnung von Schlagworten
•
•
Voraussetzung: Dokumentationswerkzeug (Schlagwortliste, Klassifikationssystem, Thesaurus) liegt vor
Ansatz 1. Probabilistische Verfahren:
Wie groß ist die Wahrscheinlichkeit, dass einem gegebenen
Dokument ein bestimmtes Schlagwort (Schlagwort i.e.S.,
Notation, Deskriptor) zuzuordnen ist?
– Voraussetzung: Vorliegen von Wahrscheinlichkeitsinformationen (zum „Training“ des Systems)
– Beispiel: AIR/PHYS
HHU Düsseldorf – SS 2005
Wissensrepräsentation
325
Automatische Indexierung
• Automatische Zuordnung von Schlagworten
•
•
•
Ansatz 2: Textstatistische Verfahren: Welche Textworte
(Phrasen) mit welcher Gewichtung müssen vorliegen, damit
ein bestimmtes Schlagwort zuzuordnen ist?
Ansatz 3: Regelbasierte Verfahren: Wenn Textworte und
ihre Umgebung gewissen Regeln folgen, wird ein
bestimmtes Schlagwort zugeordnet.
Im praktischen Einsatz: Mischformen aus den drei
Ansätzen
– Beispiele: Reuters – Factiva („Intelligent Indexing“),
Dialog Profound („InfoSort“), Dialog NewsEdge („Realtime Content Refinery System“) – Convera
(„RetrievalWare“)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
326
Automatische Indexierung
• Automatische Zuordnung von Schlagworten probabilistisches Verfahren
•
Beispiel AIR/PHYS
•
Projekt der TH Darmstadt mit FIZ Karlsruhe
•
Physikdatenbank – Erschließungsbasis: Abstracts –
Sprache: englisch
•
Erschließungswerkzeug: Physik-Thesaurus
•
ca. 392.000 intellektuell indexierte Dokumente (Abstracts
und Deskriptoren) liegen vor und dienen als Basis für das
Wörterbuch PHYS-PILOT
Peter Biebricher; Norbert Fuhr; Gerhard Lustig; Michael Schwantner; Gerhard Knorz: The automatic indexing
system AIR/PHYS – From research to application. – In: Proceedings of the 11th Annual International Conference
on Research and Development in Information Retrieval. – New York: ACM, 1988, 333-342.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
327
Automatische Indexierung
• AIR/PHYS
•
•
Wörterbuch PHYS/PILOT
Vokabular aus den intellektuell indexierten Dokumenten
– #Dok(t) : Anzahl der Dokumente, die den Term t im Abstract
enthalten
– #Dok(t,s) : Anzahl der Dokumente aus #Dok(t), die den
Deskriptor s enthalten
•
•
Wahrscheinlichkeit für ein Term-Deskriptor-Paar
z(t,s) = #Dok(t,s) / #Dok(t)
Schwellenwerte
– #Dok(t,s) = 2
– z(t,s) = 0,29
•
Ergebnis: 800.000 Term-Deskriptor-Paare, davon 350.000
genutzt
HHU Düsseldorf – SS 2005
Wissensrepräsentation
328
Automatische Indexierung
• AIR/PHYS - Wörterbuch PHYS/PILOT – Beispiel
Term
Deskriptor
stellar wind
STELLARS WINDS
molecular outflow
hot star wind
terminal stellar wind velocity
#Dok(t,s)
359
11
13
12
#Dok(t)
479
19
17
13
z(t,s)
0,74
0,57
0,76
0,92
Relationen im Thesaurus
• Nicht-Deskriptor – Deskriptor
• Hierarchie
• Antonymie
• formaler Einschluss (Bsp.: collision – atom collision)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
329
Automatische Indexierung
• AIR/PHYS - Indexierung
Dokument d – Deskriptor s
Indexierungsgewicht
g = a(x(d,s))
Relevanzbeschreibung
x(d,s)
•
a(x(d,s)) ist abhängig von
–
–
–
–
z(t,s) – t ist im Abstract vorhanden, t-s ist als Relation erkannt
Häufigkeit des Auftretens von s im Abstract
Auftreten von s im Titel
... weitere 30 Komponenten
HHU Düsseldorf – SS 2005
Wissensrepräsentation
330
Automatische Indexierung
• AIR/PHYS – Indexierung
•
•
•
a ist weiterhin abhängig von Deskriptor – Deskriptor – Relationen
(etwa Begriff – Oberbegriff)
die Berechnung von a(x(d,s)) durchläuft mehrere Iterationsrunden
Transformation der gewichteten Deskriptorkandidaten in
ungewichtete (0-1-Entscheidung)
– wenn a(x(d,s)) größer als / gleich Schwellenwert Æ d wird durch s
indexiert
– wenn a(x(d,s)) kleiner als Schwellenwert Æ s wird nicht
berücksichtigt
•
Güte der automatischen Indexierung (Stand: 1987)
– 19% der Dokumente: von Indexern als brauchbar gewertet
– 63%: brauchbar bei kleineren Korrekturen
– 18%: unbrauchbar
HHU Düsseldorf – SS 2005
Wissensrepräsentation
331
Automatische Indexierung
• AIR/PHYS – Indexierung
•
•
•
•
•
•
nur 44% der Deskriptoren sind durch die Relation z fundiert (also
durch die bereits erkannten Zusammenhänge zwischen
intellektuell zugeteilten Deskriptoren und Termen im Abstract)
bei halbautomatischer Indexierung (d.h. Fehlerkorrektur der
automatisch generierten Deskriptoren durch professionelle
Indexer) steigt die Anzahl der erkannten Zusammenhänge
zwischen t und s
das Wörterbuch wird fortgeschrieben
das System wird dadurch „trainiert“
das System müsste entsprechend fortlaufend besser werden
... dies allerdings nur in der Theorie – die Datenbank PHYS und
damit deren automatische Indexierung wurden inzwischen
eingestellt
HHU Düsseldorf – SS 2005
Wissensrepräsentation
332
Automatische Indexierung
• Automatische Zuordnung von Schlagworten –
regelbasiertes Verfahren
•
Beispiel Construe-TIS
•
Projekt von Reuters Ltd. in Kooperation mit der Carnegie
Group (Pittsburgh)
•
Datenbank mit Agenturmeldungen und Zeitungsartikeln –
Erschließungsbasis: Volltexte – Sprachen: zunächst
englisch, derzeit: 22
•
Erschließungswerkzeug: Reuters-Thesaurus (derzeit:
„Factiva Intelligent Indexing“)
Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news
stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications
of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
333
Automatische Indexierung
• Topic Identification System (TIS)
•
Phase 1: Begriffserkennung
•
Begriff wird durch das Vorkommen bzw. Nicht-Vorkommen
von Worten bzw. von Phrasen erkannt
•
Beispiel: Begriff GOLD (im Sinne einer Ware)
•
Operator &n : „und nicht in der selben Phrase“ (weitere
Operatoren: „im selben Satz“, „im selben Dokument“)
•
beim Begriffssatz GOLD hinterlegt:
(gold (&n (reserve ! medal ! jewelry))
•
im Text: „... gold production ...“ Æ GOLD
•
im Text: „... gold medal ...“ Æ NULL
HHU Düsseldorf – SS 2005
Wissensrepräsentation
334
Automatische Indexierung
• Topic Identification System (TIS)
•
Phase 1: Begriffserkennung
•
Zuordnung eines Gewichtungswertes zu den Begriffen in
Abhängigkeit von gemeinsam vorkommenden Termen
•
Beispiel: Begriff FOREIGN EXCHANGE
•
Satz 1: „... the Fed intervented in the money market ...“
•
Satz 2: „... currency speculation ...“
•
Satz 1 hat eine höhere Wahrscheinlichkeit für FOREIGN
EXCHANGE als Satz 2
HHU Düsseldorf – SS 2005
Wissensrepräsentation
335
Automatische Indexierung
• Topic Identification System (TIS)
•
Phase 2: Regeln für Kategorisierung (Klassierung)
•
Wenn-dann-Regeln mit Booleschen Operatoren; angewandt
auf erkannte Begriffe
•
erkannter Begriff: „concept“; vorgegebener Deskriptor:
„category“
•
Beispiel: Zuordnung des Deskriptors AUSTRALIAN
DOLLAR zu einem Dokument
•
zu beachten: Dollars gibt es auch in den USA, in Singapur
usw.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
336
Automatische Indexierung
• Topic Identification System (TIS)
•
•
Phase 2: Regeln für Kategorisierung (Klassenbildung)
Regel:
(if
test:
(or
[australian-dollar-concept]
(and [dollar-concept]
[australia-concept]
(not [us-dollar-concept])
(not [singapure-dollar-concept])
(not ...))
action:
(assign australian-dollar-category))
•
Solche Regeln können auf Satz-, Absatz- oder Textebene
angewandt werden, alternativ auch auf Wortabstände.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
337
Automatische Indexierung
• Topic Identification System (TIS)
•
Phase 2: Regeln für Kategorisierung (Klassenbildung)
•
Ein Text mit dem Satz
„Australia announced today that it would devalue the
dollar.“
bekommt nach der Regel den Deskriptor AUSTRALIAN
DOLLAR zugeordnet.
•
weitere Regeln berücksichtigen die Anzahl des
Vorkommens eines Begriffs oder die Position im Text
HHU Düsseldorf – SS 2005
Wissensrepräsentation
338
Automatische Indexierung
• Topic Identification System (TIS)
•
Phase 2: Regeln für Kategorisierung (Klassenbildung)
•
Regel
(if
test: or
(and
[gold-concept :scope headline 1]
[gold-concept :scope body 1])
[gold-concept :scope body 4])
action: (assign gold catagory))
•
Anmerkung: Diese Regel kann durch textstatistische Maße
(WDF, IDF, Positionswert) noch verfeinert werden.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
339
Automatische Indexierung
Weiteres Beispiel:
Convera
RetrievalWare
HHU Düsseldorf – SS 2005
Wissensrepräsentation
340
Abstracts
HHU Düsseldorf – SS 2005
Wissensrepräsentation
341
Abstracts
Grundlegende Literatur
•
•
•
•
•
•
Brigitte Endres-Niggemeyer: Summarizing Information. –
Berlin [u.a.]: Springer, 1998.
Edward T. Cremmins: The Art of Abstracting. - Philadelphia:
ISI Press, 1982.
Harold Borko; C.L.Bernier: Abstracting Concepts and
Methods. – New York: Academic Press, 1975.
Josef Koblitz: Methoden des Referierens von Dokumenten.
– Leipzig: Bibliographisches Institut, 21968.
Rainer Kuhlen: Informationsaufbereitung III: Referieren
(Abstracts – Abstracting – Grundlagen). – In: Grundlagen
der praktischen Information und Dokumentation. –
München: Saur, 52004, 189-206.
DIN 1426: Kurzreferate.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
342
Abstracts
• Inhaltsangaben nach DIN 1426
– Formen von Inhaltsangaben:
• Auszug (Inf.verdichtung: nicht geeignet, da selektiv)
• Zusammenfassung (Inf.verdichtung: nicht geeignet, da Kenntnis
des Textes vorausgesetzt wird)
• Rezension (Inf.verdichtung: nur sehr bedingt geeignet; i.d.R. zu
lang – günstig aber als Zusatzinformation)
• Literaturbericht (Inf.verdichtung über mehrere Dokumente,
wegen zu großer Länge nicht geeignet)
• Annotation (Inf.verdichtung über Stichworte: nicht geeignet, so
etwas macht man mittels Thesaurus, Klassifikation oder
Textwortmethode)
• Inhaltsverzeichnis (Inf.verdichtung: bei Monographien bedingt
geeignet)
• Sammelreferat (Inf.verdichtung über mehrere Dokumente; sehr
geeignet)
• Kurzreferat / Abstract (Inf.verdichtung eines Dokuments; sehr
geeignet)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
343
Abstracts
• Inhaltsangaben nach DIN 1426
– Kurzreferat / Abstract (bei genau einer DBE – der Standardfall)
Sammelreferat (bei mehreren DBE):
•
•
•
•
•
Vollständigkeit
Genauigkeit
Objektivität
Kürze
Verständlichkeit
– Ziele:
• grundlegende Inhalte der Dokumente sollen vom Nutzer schnell
und exakt erkannt werden
• die Relevanz der Dokumente für eine Fragestellung muss klar
werden
• Nutzer muss entscheiden können, ob der Volltext benötigt wird
• letztlich: Fundierung einer ja/nein-Entscheidung, ob der Volltext
eingesehen wird (dem Link gefolgt wird; das Dokument gekauft
oder eine Übersetzung in Auftrag gegeben wird)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
344
Abstracts
• Kurzreferat / Abstract
– Gliederung nach DIN 1463
• zentrale Aussage des Dokuments
• ggf. Dokumenttyp spezifizieren (etwa: Forschungsbericht; Letter)
• ggf. Art der Themenbehandlung nennen (Überblick, theoretische
Arbeit, empirische Arbeit)
• Hypothesen
• Zielsetzung
• Bezug zu anderen Arbeiten
• Methodik (Untersuchungsgegenstand, -methoden, -techniken)
• Ergebnisse und Schlussfolgerungen
• Herkunftsvermerk: entweder „Autor“ oder Kürzel des Bearbeiters
– Länge
• Kurzmitteilung: max. 200 Zeichen
• Zeitschriftenartikel: max. 500 Zeichen
• umfangreiche Monographie: max. 1.000 Zeichen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
345
Abstracts
• Kurzreferat / Abstract
– Autorenabstract
• Vorteile:
– liegt mit der Publikation direkt vor
– Autor bringt einschlägiges Fachwissen mit
• Nachteile:
– Autor ist nie objektiv
– Autorensprache kann durchaus unverständlich sein
– Inter-Abstractor-Konsistenz nicht gegeben
– Fremdabstract
• Vorteile:
– objektiver (und wahrscheinlich verständlicher) als ein
Autorenabstract
– Konsistenz ist trainierbar
– dokumentarisch-informationswissenschaftlicher Sachverstand
• Nachteile:
– muss erstellt werden (es fallen Kosten an)
– Fachwissen ist nicht immer ausreichend vorhanden
HHU Düsseldorf – SS 2005
Wissensrepräsentation
346
Abstracts
• Kurzreferat / Abstract
– Sprache
• in Zielsprache(n) der Datenbasis
• Vorteil für Nutzer: Kurzüberblick auch über Dokumente in
Sprachen, die der Nutzer nicht beherrscht
• deshalb sinnvoll anzuschließen: Übersetzungsservice für
die Volltexte
• bei digital vorliegenden Dokumenten: u.U. langt zunächst
eine automatische Übersetzung (Bsp.: AltaVista‘s
Babelfish oder Google‘s „translate tool“)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
347
Abstracts
• Kurzreferat / Abstract
– NICHT ins Abstract gehören
• Titel (wäre redundant)
• Negativa (wäre im Retrieval über den Abstract-Index irreführend)
– Problem: Wahrheitsgehalt
• Lösung 1: Referieren ohne Überprüfung des Wahrheitsgehalts
der Vorlage („... Die Quadratur des Kreises arbeitet nach der
Methode ...“)
• Lösung 2: Überprüfung des Wahrheitsgehaltes der Vorlage und
Markieren von zweifelhaften Aussagen („... Verf. behauptet, die
Quadratur des Kreises geschehe nach der Methode ...“)
– Typen des Kurzreferats / Abstracts
• indikatives Referat
• informatives Referat
• analytisches Referat
HHU Düsseldorf – SS 2005
Wissensrepräsentation
348
Abstracts
• Kurzreferat / Abstract: Was wird aufgenommen?
– das, worum es in einem Text geht – „aboutness“
• extensionale Aboutness: inhärente Aboutness eines
Textes – diese ist Basis für Abstracts
• intensionale Aboutness: Bedeutung (Stellenwert) eines
Textes im Kontext anderer Texte – nicht für Abstracts
geeignet (für Intertextualität ist die Zitationsindexierung
zuständig)
– im Sinne der Textlinguistik: „Makrostruktur“ eines
Textes
• Entscheidung, was weggelassen wird
• Entscheidung, was (aus den speziellen Aussagen)
verallgemeinert wird
Helen R. Tibbo: Abstracting, Information Retrieval and the Humanities. – Chicago; London: American Library
Association, 1993. (Chapter 2: Abstracts and Abstracting. Fundamental Considerations, 18-39).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
349
Abstracts
• Kurzreferat / Abstract: homomorphe versus
paramorphe Reduktion
Text mit
Makrostruktur
homomorphe Reduktion
HHU Düsseldorf – SS 2005
paramorphe Reduktion
Wissensrepräsentation
350
Abstracts
• Kurzreferat / Abstract: homomorphe versus
paramorphe Reduktion
– isomorphe Reduktion: die Makrostrukturen von Text
und Abstract sind gleich (etwa: Thema A im Text 25%
und Thema B im Text 16% des Umfangs, dann auch im
Abstract A 25% und B 16%) – faktisch nicht
durchführbar
– homomorphe Reduktion: die Makrostrukturen von Text
und Abstract sind ähnlich – bei Abstracts anzustreben
– paramorphe Reduktion: die Makrostrukturen von Text
und Abstract sind unterschiedlich (böse gesagt: das
Abstract liegt „daneben“ [para, grch. = neben]) – oder
u.U. positiv: perspektivisches Abstract
HHU Düsseldorf – SS 2005
Wissensrepräsentation
351
Abstracts
• Texttypologie
– erzählende Texte (Geschichten, Geschichte, ...)
– prozedurale Texte (Gebrauchsanweisungen, Rezepte, ...)
– verhaltensbeeinflussende Texte (politische Reden,
Werbetexte, ...)
– erklärende Texte (wissenschaftliche Literatur, „Essays“, ...)
• disziplinspezifische Texte
– etwa: naturwissenschaftliche Texte mit i.d.R. straffer und
anerkannter Strukturierung (hieran orientiert sich die
deutsche Norm DIN 1463)
– etwa: geisteswissenschaftliche Texte mit i.d.R. eher loser
Strukturierung, wobei die Struktur allgemein kaum
vorgegeben ist
• Abstracts sind abhängig vom Texttyp der Vorlage
und (bei erklärenden Texten) von der Fachdisziplin
HHU Düsseldorf – SS 2005
Wissensrepräsentation
352
Abstracts
•
•
disziplinspezifisches Abstracting. Beispiel
bei technischen Dokumenten (etwa Patenten oder
Gebrauchsmustern): zusätzlich zentral wichtige Zeichnung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
353
Abstracts
• Indikatives Kurzreferat / Abstract
Inhaltsanalyse
referierwürdiges Dokument
referierwürdige Inhaltskomponenten
- Themen (weiße Kästen)
- Aussagen zu den Themen
(schraffierte Kästen)
Indikatives Abstract:
Wiedergabe der Themen in vollständigen Sätzen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
354
Abstracts
• Indikatives Kurzreferat / Abstract - Beispiel
•
•
•
Russ, Hans: Einzelhandel (Ost): Optimistische
Geschäftserwartungen
Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3
Abstract: Die Geschäftslage des ostdeutschen Einzelhandels im
Januar 1993 wird beschrieben. Skizziert wird der in den nächsten
sechs Monaten zu erwartende Geschäftsverlauf. Im einzelnen
geht es um den Gebrauchsgüterbereich und den Verbrauchsgüterbereich.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
355
Abstracts
• Informatives Kurzreferat / Abstract
Inhaltsanalyse
referierwürdiges Dokument
referierwürdige Inhaltskomponenten
- Themen (weiße Kästen)
- Aussagen zu den Themen
(schraffierte Kästen)
Informatives Abstract:
Wiedergabe der Aussagen zu den Themen
in vollständigen Sätzen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
356
Abstracts
• Informatives Kurzreferat / Abstract – Beispiel
•
•
•
Russ, Hans: Einzelhandel (Ost): Optimistische
Geschäftserwartungen
Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3
Abstract: Die Geschäftslage des ostdeutschen Einzelhandels hat
sich im Januar 1993 im Vergleich zum Vormonat deutlich
verschlechtert. Hinsichtlich des in den nächsten sechs Monaten
zu erwartenden Geschäftsverlaufs äußerten sich die Teilnehmer
am ifo Konjunkturtest allerdings zuversichtlich. Im Gebrauchsgüterbereich ist die Geschäftslage im Durchschnitt zufriedenstellend; im Verbrauchsgüterbereich überwiegen negative Urteile.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
357
Abstracts
• Analytisches Kurzreferat / Abstract (Strukturreferat)
Inhaltsanalyse
referierwürdiges Dokument
referierwürdige Inhaltskomponenten
- Themen (weiße Kästen)
- Aussagen zu den Themen
(schraffierte Kästen)
Analytisches Abstract:
Wiedergabe der Themen sowie der
Aussagen zu den Themen
in tabellarischer Form
HHU Düsseldorf – SS 2005
Wissensrepräsentation
358
Abstracts
• Analytisches Kurzreferat / Abstract – Beispiel
•
•
•
•
•
•
•
•
•
•
Russ, Hans: Einzelhandel (Ost): Optimistische
Geschäftserwartungen
Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3
Inhalt:
Gegenstand:
Ostdeutscher Einzelhandel im Januar 1993
Methode:
ifo Konjunkturtest
Ergebnisse:
--- Geschäftslage: merklich verschlechtert gegenüber Vormonat
--- Erwartungen:
zuversichtlich (für die nächsten 6 Monate)
--- Gebrauchsgüter: schwache Umsatzeinbußen, zufriedenstellend
--- Verbrauchsgüter: starke Umsatzeinbußen, 1/3 aller
Testteilnehmer äußern sich unzufrieden
HHU Düsseldorf – SS 2005
Wissensrepräsentation
359
Abstracts
• Kurzreferat / Abstract - Vor- und Nachteile
Vorteile
Nachteile
indikativ
kostengünstig
informationsarm
unübersichtlich
informativ
informationsreich
bei langen Vorlagen kaum
durchzuführen
unübersichtlich
teuer
analytisch
informationsreich
strukturiert
sehr teuer
nicht für jede Art von
Vorlagen geeignet
HHU Düsseldorf – SS 2005
Wissensrepräsentation
360
Abstracts
• Sammelreferat
– Auswahl eines aktuellen („heißen“) Themas
– Zusammenstellung der Menge einschlägiger Dokumente
– Abstractingprozess wie bei Einzelabstract; jeweils
jedoch bezug auf die Einzeldokumente nehmen (etwa
durch End- oder Fußnoten)
– außer Abstracting auch redaktionelle Arbeiten
– Länge: 1 bis 3 Seiten
– in den Endnoten oder in einer Bibliographie die
bibliographischen Angaben der Dokumente nennen
(ggf. dahin verlinken)
– Einsatzgebiet: thematischer Pushdienst
HHU Düsseldorf – SS 2005
Wissensrepräsentation
361
Abstracts
• Sammelreferat – Beispiel: KnowledgeSummaries
Willi Bredemeier: Knowledge Summaries. Journalistische Professionalität mit Verbesserungsmöglichkeiten bei
Themenfindung und Quellenauswahl. – In: Password Nr. 3 (2004), 10-15.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
362
Abstracts
• Sammelreferat – Beispiel: KnowledgeSummaries
HHU Düsseldorf – SS 2005
Wissensrepräsentation
363
Abstracts
• Automatisches Abstracting
– Bemühungen seit Jahrzehnten; jedoch bisher in der Praxis wenig
erfolgreich; nur experimentelle Systeme
– Basismethode: Extraktion der „wichtigen“ Sätze aus einem Text
anhand von Wahrscheinlichkeitswerten (P) für „Wichtigkeit“
• (1) Satzlänge (Mindestlänge: etwa 5 Worte):
P(1) = 0 für Sätze mit weniger als 5 Worten); P(1) = 1 für alle anderen
Sätze
• (2) Indikatorphrasen (Sätze, die gewisse Phrasen – z.B. „in
conclusion“ – enthalten, werden hoch bewertet):
P(2) für Sätze mit Indikatorphrasen > P(2) für Sätze ohne
Indikatorphrasen
Brigitte Endres-Niggemeyer: Textzusammenfassung. – In: Computerlinguistik und Sprachtechnologie. Eine
Einführung. – München: Elsevier – Spektrum 22004, 511-516.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
364
Abstracts
• Automatisches Abstracting
• (3) Absatzstruktur (Sätze in den vorderen und hinteren Ansätzen
werden höher bewertet als solche in mittleren Absätzen):
P(3) für Sätze in den ersten n Absätzen bzw. in den letzten m
Absätzen > P(3) für alle anderen Sätze
• (4) Sätze ranken nach Termgewichten (für alle Terme WDF und IDF
berechnen – Termgewichte jedes Satzes addieren):
P(4) = Summe der Termgewichte im Satz
• (5) ggf. Sätze, in denen Akronyme vorkommen (z.B. IBM, SPD), höher
bewerten:
P(5) für Sätze mit einem Akronym > P(5) für Sätze ohne Akronyme
• Errechnung der Wichtigkeitswahrscheinlichkeit für jeden Satz:
P(Satz) = P(1) * P(2) * P(3) * P(4) * P(5)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
365
Abstracts
• Automatisches Abstracting
• Sortierung der Sätze nach P(Satz)
• Auszählen der Länge (Anzahl der Zeichen) für jeden Satz
• Vergleich mit Schwellenwert (maximale Länge des Abstracts)
• Markieren der ersten n Sätze, deren Gesamtzeichenanzahl unter der
maximalen Abstractlänge liegt
• Herstellen der ursprünglichen Reihenfolge für diese n Sätze
• diese n Sätze bilden das Abstract
– verfeinerte Methoden
• Vergleiche mit „Trainingsdaten“ (Abstracts professioneller –
menschlicher – Abstracter sowie ihrer Ausgangstexte)
• Kürzen von Sätzen
• Zusammenfassen mehrerer Sätze
HHU Düsseldorf – SS 2005
Wissensrepräsentation
366
Abstracts
• Abstracts. Fazit
– Referate ergänzen den Titel einer DE und ermöglichen dem
Nutzer zu entscheiden, ob die DBE benötigt wird (auch bei
fremdsprachlicher Literatur: Übersetzung!)
– außer bei sehr kurzen Dokumenten (z.B. Kurzmeldungen bei
Zeitungsartikeln) benötigt jede DE ein Abstract
– die Informationsverdichtung geschieht so knapp, aber auch so
aussagekräftig wie möglich, die Makrostruktur der Vorlage bleibt
(nahezu) erhalten (homomorphe Reduktion)
– Referate sind abhängig vom Texttyp und vom Fach der DBE
– Typen der Informationsverdichtung des Inhalts eines Dokuments
sind das indikative, informative (Standard) und das analytische
Abstract
– technische Dokumente benötigen u.U. eine Zeichnung zur
Unterstützung des Abstracts
– Informationsverdichtung mehrerer Dokumente geschieht über
Sammelreferate, eingesetzt als thematischer Pushdienst
HHU Düsseldorf – SS 2005
Wissensrepräsentation
367
Abstracts
• Abstracts. Fazit
– automatisches Abstracting: Berechnung der „Wichtigkeit“ von
Sätzen innerhalb eines Dokuments (derzeit wenig ausgereifte
Systeme)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
368
Informationsextraktion
HHU Düsseldorf – SS 2005
Wissensrepräsentation
369
Informationsextraktion
• Informationsextraktion
– bei der Suche nach oder der laufenden Beobachtung von
konkreten Sachverhalten im WWW
– nicht: Angabe einer Webseite
– sondern: Angabe des Sachverhalts (und nur diesen) analog zu den analytischen Kurzreferaten
– die Sachverhalte werden den Webseiten entnommen (aus
diesen „extrahiert“)
– derzeitige Einsatzgebiete: vergleichende Informationen
aus Webseiten bei Spezialsuchmaschinen oder Shopping
Malls (z.B. Preisvergleiche); Informationsagenten
Günter Neumann: Informationsextraktion. – In: Computerlinguistik und Sprachtechnologie. Eine
Einführung. – München: Elsevier – Spektrum 22004, 502-510.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
370
Informationsextraktion
• Informationsextraktion
– vorgegeben: Menge von Objekten bzw. Merkmalen, die einen
Sachverhalt bilden (z.B. Produktbezeichnung und Preis, Autor und
Buch)
– Extraktionsprozess: Wrapper („Einpacker“)
• Startmenge: „typische“ Webseiten für die gesuchte Relation (bei Brin: 5
Bücher mit deren Autorennamen)
• Retrieval: Suche nach Webseiten, in denen die gesuchte Relation
vorkommt (also die 5 Bücher und Autorennamen)
• Erkennen der Muster des Ausdrucks des Sachverhaltes (der „patterns“)
– Worte, die den Zusammenhang ausdrücken – z.B. „by author“,
„written by“
• Suche nach allen Webseiten, die einen solchen Sachverhalt
ausdrücken
– Ergebnis: konkrete Werte der Merkmale (z.B. Karl May - Winnetou)
Sergey Brin: Extracting patterns and relations from the World Wide Web. – In: Lecture Notes in Computer Science,
Vol. 1590. – Berlin [u.a.]: Springer, 1998, 172-183.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
371
Informationsextraktion
hier: bis Rang 80
Meldung /data sheet oder Katalog
hier: ab Rang 81
automatisch
(Informationsextraktion)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
372
Informationsextraktion
HHU Düsseldorf – SS 2005
Wissensrepräsentation
373
Informationsextraktion
• Informationsextraktion
– Ansätze:
– (1) „Knowledge Engineering Approach“
die Sachverhalte sowie die Muster (patterns) werden
intellektuell erstellt
– (2) „Automatically Trainable Systems“
Suche nach Sachverhalten und Mustern mittels
informationsstatistischer und –linguistischer
Algorithmen (z.T. Verwendung von Trainingsdaten –
etwa indexierte Korpora)
– Weiterentwicklung der Forschungen zur Informationsextraktion durch MUC („Message Unterstanding
Conferences“ – seit 1987)
Douglas E. Appelt; David J. Israel: Introduction to Information Extraction Technology. – In: International Joint
Conference on Artificial Intelligence 1999 (IJCAI-99).
Line Eikvil: Information Extraction from World Wide Web. A Survey. – Oslo: Norwegian Computing Center,
1999. – (Technical Report; 945).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
374
Informationsextraktion
• Informationsextraktion
– Einsatz beim konkreten Informationsbedarf (Faktenfrage)
• Kennzeichnung des Typs des Informationsbedarfs
durch Nutzer
• Beschreibung des gesuchten Sachverhalt (etwa
1. „Wie heißt die Hauptstadt von NRW?“
2. „Wie heißen die Hauptstädte aller 25 EU-Länder?“
• automatisches Vorgehen nach Ansatz (2)
„Automatically Trainable Systems“ – ggf. Dialog zur
Abklärung der Mustererkennung
• Aufsuchen der Webseiten – Informationsextraktion
• Ausgabe nur des nachgefragten Sachverhalts
zu Frage 1: Hauptstadt NRW : Düsseldorf (URL: ...)
zu Frage 2: Hauptstadt Belgien : Brüssel (URL: ...)
Hauptstadt Dänemark : Kopenhagen ...
Hauptstadt Zypern : Nikosia (URL: ...)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
375
Informationsextraktion
• Informationsagenten
– laufende Beobachtung von Sachverhalten (Fakten) im
WWW
– periodischer Einsatz der Informationsextraktion („SDI
für Fakten“)
– Einsatzgebiet (Beispiel):
• Wettbewerberbeobachtung (Personen im
Management, Preisänderungen, Umsatzzahlen, ...)
Nicholas Kushmerick; Bernd Thomas: Adaptive Information Extraction. Core Technologies for Information Agents. –
Koblenz: Universität Koblenz-Landau / Institut für Informatik, 2003. – (Fachberichte Informatik 9/2003).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
376
Informationsextraktion
• Informationsextraktion. Fazit
– Informationsextraktion: Erkennen einzelner Sachverhalte,
Extrahieren konkreter Sachverhalte aus digitalen Dokumenten
• Einsatz innerhalb spezifischer Wissensbereiche (z.B.
Produkte) – recht ausgereifte Systeme (z.B. Froogle)
• Einsatz im WWW allgemein (beim konkreten
Informationsbedarf) – derzeit Ansätze, keine laufenden
Systeme)
– Informationsagenten: SDI für Sachverhalte
HHU Düsseldorf – SS 2005
Wissensrepräsentation
377
Das „semantische Web“:
Ontologien – Topic Maps
HHU Düsseldorf – SS 2005
Wissensrepräsentation
378
Semantisches Web
Grundlegende Literatur
•
Dieter Fensel et al. (Eds.): Spinning the Semantic Web. –
Cambridge, Mass.; London: MIT, 2003.
•
Richard Widhalm; Thomas Mück: Topic Maps. Semantische
Suche im Internet. – Berlin [u.a.]: Springer, 2002.
•
Tim Berners-Lee: Semantic Web – XML 2000. (Folien).
Online: www.w3.org/2000/Talks/1206-xml/2k-tbl
HHU Düsseldorf – SS 2005
Wissensrepräsentation
379
Semantisches Web
• Ontologien
– bilden ab: Objekte (durch Begriffe) – analog zu
Dokumentationssprachen und
– (zumindest rudimentär) Sachverhalte (durch Sätze in
einer formalisierten Sprache) – analog zu Abstracts
– Die „Ontologie“ ist die explizite Spezifizierung eines
(i.d.R. sehr kleinen) Wissensbereiches, so dass dieser in
einem Informationssystem abgebildet werden kann.
– Aspekte
•
•
•
•
•
•
Relationen (2-stellig)
Funktionen (n-stellige Relationen)
Feldschema (Kategorien – Top Level Begriffe)
Klassen (Allgemeinbegriffe)
Instanzen (Individualbegriffe)
Axiome (Regeln)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
380
Semantisches Web
• Ontologien
– Ursprung: Forschungen zur Künstlichen Intelligenz (u.a.
von Tom R. Gruber – Stanford Knowledge Systems Lab)
– da Ontologien jeweils einen engen
Wissensbereich repräsentieren, sind
Konkordanzen zwischen unterschiedlichen Ontologien nötig
– Realisierung in XML
– RDF: Resource Description Framework
– innerhalb RDF: URI (Universal Resource
Identifier) – benutzt wie eine URL bei Links
(enthält die Relationen bzw. Funktionen zwischen den
Klassen bzw. Instanzen)
Tom R. Gruber: A translation approach to portable ontologies. – In: Knowledge Acquisition 5 (1993), 199-220.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
381
Semantisches Web
• Ontologien
Das
World Wide
Web in
heutiger
Form
Quelle:
W3C
HHU Düsseldorf – SS 2005
Wissensrepräsentation
382
Semantisches Web
• Ontologien
Das
World Wide
Web
mit
Ontologie
Quelle:
W3C
HHU Düsseldorf – SS 2005
Wissensrepräsentation
383
Semantisches Web
• Ontologien
– Schichtenmodell von
Berners-Lee
Tim Berners-Lee: Semantic Web – XML 2000. (Folien). Online: www.w3.org/2000/Talks/1206-xml/2k-tbl
HHU Düsseldorf – SS 2005
Wissensrepräsentation
384
Semantisches Web
• Ontologien
– Abfrageagenten
• übersetzen die Frage des Nutzers
• kommunizieren via Ontologien mit Informationssystemen
• geben bei (einfachen) Faktenfragen eine Antwort
• bereiten Transaktionen vor
• können sich auch auf (intelligente) Geräte richten
– Beispiel 1: Gerätesteuerung
• Stereoanlage läuft – Telefon klingelt: wenn Nutzer ans
Telefon geht, schaltet sich die Stereoanlage leiser (Vor.:
Stereoanlage ist URI; Regel: Wenn Telefongespräch, dann
Anlage leise)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
385
Semantisches Web
• Ontologien
– Beispiel 2: Faktenfrage
•
•
•
•
•
•
•
•
•
•
•
•
Anfrage: „Welche Arznei hilft gegen Vampirbisse?“
Klassen: in Kategorie Arznei: Arznei, Vampirbissarznei
... in Kategorie Krankheit: Vampirbiss
... in Kategorie Nebenwirkungen: Unsterblichkeit
Instanz: Dracuex
Funktion: ... hilft gegen ... mit Nebenwirkung ... - 3-stellige
Relation
Axiom: [Arznei] hilft gegen [Krankheit] mit Nebenwirkung
[Nebenwirkung]
Relation: Vampirbissarznei OB Arznei
Relationen: ... ist ein/e ...; ... hat Nebenwirkung ...
Axiom: Dracuex ist eine Vampirbissarznei
Axiom: Dracuex hat Nebenwirkung Unsterblichkeit
Ausgabe: Dracuex hilft gegen Vampirbisse mit
Nebenwirkung Unsterblichkeit
HHU Düsseldorf – SS 2005
Wissensrepräsentation
386
Semantisches Web
• Ontologien
– Beispiel 3: Transaktionsvorbereitung
• Anfrage: Wo ist das nächstgelegene koreanische
Restaurant, das gebratenen Hund führt und in einer halben
Stunde für zwei Personen einen Tisch frei hat?
– Einsatzbereiche von Ontologien
• Intranet von Unternehmen
• Kataloge im E-Commerce
• Informationssysteme in (überschaubaren)
Wissensbereichen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
387
Semantisches Web
• Topic Maps
– Begriffe und (rudimentär) Sachverhalte
(wie bei Ontologien)
– Topic Maps sind eigene Dokumente, die
auf andere Dokumente verweisen (letztere
haben mit den Topic Maps nichts zu tun)
– aufgebaut seit Beginn der 90er Jahre;
federführend u.a. Steven R. Newcomb
und Michel Biezunski
– geregelt durch ISO 13.250 (1999)
– Basistechnik: XML (wichtig: DTD)
– unter Verwendung von: URI
– Einsatzbereiche:
• Aufbaustruktur einer Website
• Zugriff auf Dokumentmengen mittels
unterschiedlicher Topic Maps
HHU Düsseldorf – SS 2005
Wissensrepräsentation
Michel Biezunski
Steve Newcomb
388
Semantisches Web
• Topic Maps
– Topic: Begriff
– Topic Name: ähnlich wie Deskriptor im Thesaurus (mit
Nicht-Deskriptoren als Synonymen)
– Scope: Lösung des Homonymproblems (durch Zusatz)
– Type: Einordnung eines Topic in eine Kategorie („vom
Typ“)
– Association Role: (n-stellige) Relation
– Facet: Aussage zu einem Topic
– Occurrence: Dokument (u.a. Webseite) – liegt außerhalb
des Topic Map
HHU Düsseldorf – SS 2005
Wissensrepräsentation
389
Semantisches Web
• Topic Map (Beispiel)
Occurrence
Type
Land
vom Typ
Frankreich
vom Typ
grenzt an
hat
10 Mio.
Einwohner
ist HauptStadt von
Paris
Scope
HHU Düsseldorf – SS 2005
Deutschland
war
Währung in
Role
Facet
Mark
Geographie
Topic
„D-Mark“
„Deutsche Mark“
Wissensrepräsentation
390
Semantisches Web
• Topic Maps
•
Website mit
Topic Map
Michel Biezunski; Steven R. Newcomb: Topic Maps: The Inventor‘s Perspective on Subject-based Access.
(Vortrag bei der Library of Congress, Okt. 2003).
Online: www.coolheads.com/PUBS/LC2003/
HHU Düsseldorf – SS 2005
Wissensrepräsentation
391
Semantisches Web
• Informationsverdichtung durch Ontologien oder
Topic Maps
– Vorteile
• nicht nur Begriffssysteme, sondern (zumindest
rudimentär) Sachverhalte
• „semantisches Retrieval“
• zur Wissensabbildung in kleinen (überschaubaren)
Wissensdomänen geeignet
– Nachteile
• der Wissensstand einer Zeit wird festgeschrieben (zwar
nicht prinzipiell, aber faktisch wegen riesigem Aufwand,
das semantische Netz aktuell zu halten)
• sehr aufwendig in der Entwicklung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
392
Informationsfilter und
Informationsverdichter im Überblick
HHU Düsseldorf – SS 2005
Wissensrepräsentation
393
Informationsfilter und –verdichter im Überblick
Informationsfilter
Thematische Filter
Textsprachl. Methoden
Volltext (ASCII)
Titelindexierung
Textwortmethode
Nicht-thematische Filter
Dokumentationsmethoden
Klassifikation
Schlagwortmethode
Thesaurus
Zielgruppe
Themenbehandlung
Zitationsindexierung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
394
Informationsfilter und –verdichter im Überblick
Informationsverdichter
Referate
Informationsextraktion
Informationsagent
semantisches Web
Kurzreferat
indikativ
Ontologie
informativ
Topic Map
analytisch
Sammelreferat
HHU Düsseldorf – SS 2005
Wissensrepräsentation
395
Informationsfilter und –verdichter im Überblick
Informationsarchitektur
•
•
•
•
•
•
•
•
Aufbau eines unternehmensweiten Informationssystems
Zusammenwirken von (Wirtschafts-)Informatik (Hardware,
Software, Netze), Betriebswirtschaftslehre (Management,
Organisation) und Informationswissenschaft (Content,
Informationsfilter, Informationsverdichter)
Sicherstellen der Interoperabilität (etwa mittels XML)
Metadaten (Aufbau von Regelwerken für Dokumentauswertung)
Informationsfilter (Aufbau einer oder mehrerer Begriffsordnungen)
Informationsverdichtung (Aufbau von Regelwerken für Abstracting)
Nutzerschnittstellen
Organisation des laufenden Betriebs
Alan Gilchrist; Barry Mahon (Eds.): Information Architecture. Designing Information Environments for
Purpose. – London: Facet Publ., 2004.
HHU Düsseldorf – SS 2005
Wissensrepräsentation
396
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – strategisches
Management der Informationsfilter und -verdichter
•
•
•
•
Aufbau des/der grundlegenden Informationsfilter/s
Grundsatzentscheidung: Welche Methoden einsetzen?
Kandidaten:
– Klassifikation
– Schlagwortmethode
– Thesaurus
– Textwortmethode
– Zitationsindexierung
– Ontologie / Topic Map
stets zusätzlich: Informationsverdichtung durch Abstracting
HHU Düsseldorf – SS 2005
Wissensrepräsentation
397
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – strategisches Management der
Informationsfilter und -verdichter
•
•
•
Festlegen von dokumentarischer/n Bezugseinheit/en und
Dokumentationswürdigkeit
Variante 1: ein Kriterienpaket für alle Dokumente, stets
gleichbleibende DBE
Variante 2: mehrere Kriterienpakete, abhängig von der Relevanz der
Dokumente für die Datenbank („Schalenmodell“ von Krause)
– Kern (hochrelevante Dokumente): tiefe und qualitativ hochwertige
Erschließung; Abstracts
– Schale 1 (weniger relevante Dokumente): nur Erschließung (mit
Thesaurus, Klassifikation, Schlagwortmethode), keine Abstracts
– ...
– Schale n (noch weniger relevante Dokumente): nur automatische
Titelindexierung
Jürgen Krause: Informationserschließung und –bereitstellung zwischen Deregulierung, Kommerzialisierung und
weltweiter Vernutzung – Schalenmodell. – Bonn: IZ Sozialwissenschaften, 1996. – (IZ-Arbeitsbericht; 6).
HHU Düsseldorf – SS 2005
Wissensrepräsentation
398
Informationsfilter und –verdichter im Überblick
HHU Düsseldorf – SS 2005
Wissensrepräsentation
399
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – strategisches
Management der Informationsfilter und –verdichter
• Dokumentationseinheiten selbst erstellen und/oder
zukaufen?
•
soweit externe Dokumentationseinheiten vorhanden sind:
kaufen!
•
mittels unternehmensinternen Indexierungsmethoden und
Hilfsmitteln neu indexieren (möglichst vollautomatisch)
•
interne Dokumente können nur selbst bearbeitet werden
HHU Düsseldorf – SS 2005
Wissensrepräsentation
400
Informationsfilter und –verdichter im Überblick
externe
Dokumentationseinheiten:
zukaufen! neu indexieren!
Quelle:
Factiva
interne Dokumente:
selbst indexieren!
HHU Düsseldorf – SS 2005
Wissensrepräsentation
401
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – Organisation des
laufenden Betriebs
•
•
•
•
Input: Wer erstellt die Dokumentationseinheiten?
Variante 1: intellektuell
– zuerst: Verfasser der dokumentarischen Bezugseinheiten
(Abstracts, Deskriptoren/Notationen/Schlagworte)
– dann: Korrekturen / Ergänzungen durch Informationswissenschaftler
Variante 2: automatisch
– Verfasser stellen die Dokumente in das Informationssystem (Abstracts möglichst intellektuell erstellen!)
– Indexieren erfolgt durch Software (etwa FAST, Convera
oder Verity)
Variante 3: semiautomatisch
HHU Düsseldorf – SS 2005
Wissensrepräsentation
402
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – Organisation des
laufenden Betriebs
•
•
Datenbank: Wer pflegt die Datenbank und die Informationsfilter?
– technisch: Netzwerkadministration
– Content: Content-Administration (Informationswissenschaftler)
Output: Wer recherchiert?
– einfache Anfragen; Bearbeiten der SDI: Endnutzer
– komplizierte Anfragen; Anlegen der SDI: ContentAdministration
– weitere Dienste (z.B. Mitarbeiterzeitschrift, nicht georderte
Pushdienste): Content-Administration
HHU Düsseldorf – SS 2005
Wissensrepräsentation
403
Informationsfilter und –verdichter im Überblick
Informationsarchitektur – Organisation des
laufenden Betriebs
•
•
Aufbau der grundlegenden Informationskompetenz beim
Endnutzer
– Einführung in die Systemtechnik (Softwareschulung)
– Einführung in die Informationsfilter (zum Selbstindexieren
und zum Recherchieren)
– Einführung in die Informationsverdichtung (zum
Verfassen der Abstracts)
– laufende Betreuung („Coaching“) der Nutzer
Wie?
– Seminare (werden nicht immer besucht, da die laufende
Arbeit Vorrang hat)
– „Lunch-time Kurse“ (Nutzung der Mittagspausen)
HHU Düsseldorf – SS 2005
Wissensrepräsentation
404
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich
Präkombinationsgrad der Begriffe
Präkombination
Klassifikation
++
Schlagwortmethode 0
Thesaurus
0
Textwortmethode
0
Zitationsindexierung 0
Abstracts
0
Ontologie / Topic Map ++
HHU Düsseldorf – SS 2005
Präkoordination
+
+
+
++
0
0
++
Wissensrepräsentation
Postkoordination
0
++
++
0
+
0
+
405
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich Suchen
und Stöbern („Browsen“)
Klassifikation
Schlagwortmethode
Thesaurus
Textwortmethode
Zitationsindexierung
Abstracts
Ontologie / Topic Map
Suchen
+
+
++
+**
+
0
++
Stöbern
++
0
++*
+***
0
0
++
* : nur bei graphischer Aufbereitung
** : Probleme wg. Vielfalt der Textworte und deren Sprachen
*** : nur bei informetrischer Aufbereitung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
406
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich Spracheinsatz
kontroll.
Vokabular*
Klassifikation
0
Schlagwortmethode +
Thesaurus
+
Textwortmethode
0
Zitationsindexierung 0
Abstracts
0
Ontologie / Topic Map +
Notationssprache
+
0
0
0
0
0
0
natürliche
Sprache**
0
0
0
+
+***
+
0
* : Vokabular einer natürlichen Sprache
** : ohne jede terminologische Kontrolle
*** : Zitation als Teil natürlicher Sprache
HHU Düsseldorf – SS 2005
Wissensrepräsentation
407
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter in einem
multinationalen (mehrsprachigen) Unternehmen
mehrsprachig einsetzbar?
Klassifikation
++
Schlagwortmethode
+*
Thesaurus
++**
Textwortmethode
0
Zitationsindexierung
++
Abstracts
+*
Ontologie / Topic Map
+**
* : Zugriff nur über genau eine Sprache
** : nur wenn multilingual, ansonsten Zugriff nur über genau eine
Sprache
HHU Düsseldorf – SS 2005
Wissensrepräsentation
408
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich
paradigmatischer und syntagmatischer Relationen
paradigm.
Relation
+
0
+
0
0
0
+
Klassifikation
Schlagwortmethode
Thesaurus
Textwortmethode
Zitationsindexierung
Abstracts
Ontologie / Topic Map
syntagmatische
Relation
+
+
+
+
+
+*
0
* : nur beim Einsatz von Text Mining
HHU Düsseldorf – SS 2005
Wissensrepräsentation
409
Informationsfilter und –verdichter im Überblick
Informationsfilter und –verdichter hinsichtlich
Änderbarkeit (neue Begriffe aufnehmen, alte ändern)
keinerlei
Änderung
Änderung
Aufwand
„unten“
in Struktur
Klassifikation
0
+
0 (aufwendig)
Schlagwortmethode + (nur Aufwand für Abstimmung)
Thesaurus
0
+
+
Textwortmethode
+
Zitationsindexierung + (da keine Ordnung vorhanden)
Abstracts
+ (da keine Ordnung vorhanden)
Ontologie / Topic Map 0
+
+
HHU Düsseldorf – SS 2005
Wissensrepräsentation
410
Informationsfilter und –verdichter im Überblick
Fazit
– Die Informationsarchitektur liegt im Bereich des strategischen
Management und definiert die Grundlagen der Informationsversorgung eines Unternehmens.
• Grundsatzentscheidung: Welche(r) Informationsfilter?
• u.U. Schalenmodell realisieren
• Entscheidung, welche Informationen gekauft und welche selbst
erstellt werden
• Organisation des laufenden Betriebs
– Klärung der Anforderungen an die Informationsarchitektur
(etwa: Ausbaufähigkeit der Begriffsordnung; Darstellbarkeit
syntagmatischer Relationen) hinsichtlich der Informationsfilter
und der Methoden zur Informationsverdichtung
HHU Düsseldorf – SS 2005
Wissensrepräsentation
411
Wissensrepräsentation
... das war‘s
Lehr-/Lernziele: Hörer/innen haben eine solide
Basis in theoretischen Ansätzen sowie Methoden
der Wissensrepräsentation und wissen, diese
Methoden in der Praxis einzusetzen
HHU Düsseldorf – SS 2005
Wissensrepräsentation
412

Documentos relacionados