Geschichte der Wissensrepräsentation

Transcrição

Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft
Wissensrepräsentation
Wolfgang G. Stock
HHU Düsseldorf – SS 2005
1
Wissensrepräsentation – Was ist das?
Wissen – Informationsinhalt – „Content“
Erschließen von Wissen
Erschließen von Dokumenten
genauer: Erschließen des Inhalts von Dokumenten
2
ASPEKT 1
Aufbau von Werkzeugen
der
ASPEKT 2
Inhaltserschließung
konkreter
Dokumente
z.B.
Aufbau eines Klassifikationssystems
Thesaurusaufbau
Regelwerk für Abstracting
z.B.
Klassieren eines Buches nach dem
Klassifikationssystem
Indexieren nach dem Thesaurus
Verfassen eines Abstracts
3
•
•
•
„Wissensrepräsentation“ : Abbildung von Wissen
(„Content“) vor allem in digitalen Systemen; Erschließung
des Informationsinhalts
Ziel: Wissen bei Bedarf (möglichst) exakt zu finden und in
die aktuellen Arbeitsläufe einzubinden
hierbei benötigt:
– METHODEN der Wissensrepräsentation (wie Thesaurus,
Klassifikation usw.)
– und konkrete WERKZEUGE (etwa den StandardThesaurus Wirtschaft oder die IPC)
– praktische Tätigkeit: INDEXIEREN
4
•
inhaltlich erschlossene Retrievalsysteme finden Einsatz
als
– Suchwerkzeug für das WWW oder für einen
Ausschnitt daraus (derzeit kaum realisiert)
– Suchwerkzeug bei kommerziellen Anbietern
elektronischer Informationsdienste (nahezu
durchgängig realisiert)
– Suchwerkzeug bei unternehmensweiten Intranets
oder „Enterprise Information Portals“ (derzeit in
„Boomphase“ im Zusammenhang mit Knowledge
Management)
5
Wissens-
repräsentation
DE
Treffer
Dokumentationseinheiten
DBE
Informationsbedarf
Frage
Information
Retrieval
Dok.
Bezugseinheiten
Vergleich
der
Begriffe
Information
Indexing
6
Wissensrepräsentation / Themen (1)
Begriffe und Begriffsordnungen:
Gegenstände, Begriffe, Synonyme, Homonyme, Definitionen,
Begriffsordnungen, paradigmatische und syntagmatische
Relationen, Mono- und Polyhierarchie, Dimensionalität,
Facetten
Dokumente und ihre Strukturierung:
Dokumente: Texte und Objekte - Datenstrukturierung
(Metadaten) - Datenbankdesign - formale Erfassung,
inhaltliche Erschließung
7
Dokumentationssprachen I: Klassifikationssysteme
Klasse und Notation, Universalklassifikationen (Bsp.: Dezimalklassifikation), Technikklassifikationen (Bsp.: Internationale
Patentklassifikation), Wirtschaftsklassifikationen (Bsp.: Branchen- und
Produktklassifikationen), Klassifikationen im WWW (Bsp.: Yahoo!),
Medizinklassifikation (Bsp.: ICD-10)
Dokumentationssprachen II: Schlagwortmethode
Dokumentationssprachen III: Thesauri
Thesauruserstellung nach DIN 1463, Deskriptoren und Relationen,
multilinguale Thesauri, gleichordnendes Indexieren, syntaktisches
Indexieren, „höhere“ Thesaurusformen
Bsp.: Standard-Thesaurus Wirtschaft, Thesaurus Technik und
Management, EXPO-INFO 2000
8
Textsprachliche Methoden:
Volltextspeicherung, Titelindexierung,
Textwortmethode, Bsp.: Datenbank zur österreichischen Philosophie,
Zitationsindexierung, Bsp.: Web of Science (ISI)
Nicht-thematische Informationsfilter:
Zielgruppe, Art der Themenbehandlung, Verfallsdatum
Automatische Indexierung:
Klassifikation nach Ähnlichkeit – zuteilende Indexierung bei Einsatz einer
Dokumentationsmethode
9
Abstracts:
Inhaltsangaben nach DIN 1426, indikative, informative, analytische
Abstracts, Sammelreferate, automatisches Abstracting
Informationsextraktion:
Extraktionsmethoden, Informationsagenten
Das semantische Web:
Ontologien, Topic Maps
Informationsfilter und –verdichter im Überblick:
Informationsarchitektur, Zusammenfassung der Methoden der
10
Wissensrepräsentation - Basisliteratur
•
•
•
•
•
•
•
•
Rainer Kuhlen, Thomas Seeger, Dietmar Strauch (Hrsg.): Grundlagen der
praktischen Information und Dokumentation. – München: Saur, 52004.
Donald B. Cleveland; Ana D.Cleveland: Introduction to Indexing and
Abstracting. – Englewood, NJ: Libraries Unlimited, 1990.
Heting Chu: Information Representation and Retrieval in the Digital Age. –
Medford, NJ: Information Today, 2003. – (Chap. 1 – 4).
Robert Fugmann: Inhaltserschließung durch Indexieren: Prinzipien und
Praxis. – Frankfurt: DGD, 1999.
Wilhelm Gaus: Dokumentations- und Ordnungslehre. – Berlin: Springer,
2002.
Christa Ladewig: Grundlagen der inhaltlichen Erschließung. – Potsdam:
Institut für Information und Dokumentation, 1997.
F. Wilfrid Lancaster: Indexing and Abstracting in Theory and Practice. –
Champaigne, IL.: Graduate School of Library and Information Science,
21998.
Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens.
- München; Wien: Oldenbourg, 2000. – (Kapitel 3).
11
•
•
•
•
•
•
•
•
•
•
Aufstellordnungen in Bibliotheken (ab Antike)
Abstracts (19. Jahrhundert)
Wortschätze (19. Jahrhundert)
Klassifikationssysteme (19. Jahrhundert)
Thesauri (ca. 1950)
Zitationsindexierung (ca. 1960)
Textwortmethode (ca. 1970)
automatische Indexierung mit kontrolliertem Vokabular (ca.
1990)
Topic Maps und Ontologien (ca. 1990)
semantisches Web (ca. 2010 – wenn überhaupt)
Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen Klassifikation. – Pullach:
Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2).
Ingetraut Dahlberg: Grundlagen universaler Wissensordnung. – Pullach: Verl. Dokumentation, 1974.
13
•
•
•
•
„Pinakes“ des Kallimachos von Kyrene
(ca. 310 – 240 v.Chr.)
systematischer Katalog der Bibliothek
von Alexandria
Systematik für rund 120.000 Schriftrollen
Hauptklassen:
–
–
–
–
–
–
–
–
–
–
–
Rhetorik
Recht
Epik
Tragödie
Komödie
Lyrik
Geschichte
Medizin
Mathematik
Naturwissenschaft
Verschiedenes
Rudolf Blum: Kallimachos: The Alexandrian Library and the Origins of
Bibliography. – Madison, Wisc.: Univ. of Wisconsin Press, 1991.
14
•
Systematik der Buchaufstellung im Mittelalter:
„Geheimwissenschaft“
Umberto Eco: Il nome della rosa. – Milano:
Ed. Fabbri-Bompiani, 1980.
Eco‘s „Labyrinth“ in „Der Name der Rose“
15
•
•
•
•
„Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)
universelles Begriffssystem
auf der Basis der Kombinatorik
konzentrische Scheiben, jeweils mit
zentralen Begriffen einer Kategorie
Scheiben können gedreht werden,
so dass Kombinationen der Begriffe
entstehen
Norbert Henrichs: Wissensmanagement auf Pergament und
Schweinsleder. Die ars magna des Raimundus Lullus. – In:
Josef Herget; Rainer Kuhlen (Hrsg.): Pragmatische Aspekte
beim Entwurf und Betrieb von Informationssystemen,
Konstanz: Universitätsverl. Konstanz, 1990, S. 567-573.
16
•
„Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)
17
•
•
•
•
•
•
Frühe Zeitschriften als Medium der
Wissensverdichtung
„Journal des Scavans“: erste Zeitschrift,
gegründet 1665
Aufgabe: zunächst Überblicksartikel, da
das Wissen in Büchern zu umfangreich
wurde
später: Publikation von Forschungsberichten
Aufschwung der Zeitschriftenliteratur
Folge: auch das Wissen in Zeitschriften
wurde zu umfangreich
Manfred Bonitz: Notes on the development of secondary periodicals from the „Journal des Scavans“ to the
„Pharmaceutisches Central-Blatt“. – In: International Forum on Information and Documentation 2 (1977) 1, S. 26-31.
18
Geschichte
•
•
•
•
Gründung von
Referatezeitschriften
„Geburt“ der Abstracts als
Form der
Wissensverdichtung
1830: Pharmaceutisches
Central-Blatt; später:
Chemisches Zentralblatt
1907: Chemical Abstracts
19
•
•
•
•
•
•
•
Thesaurus of English Words and Phrases (1852)
Peter Mark Roget (1779 – 1869)
Sekretär der „Royal Society“ - London
Thesaurus kreiert: 1805; publiziert: 1852
System „of the ideas which are expressible
by language“ – rund 15.000 Worte
Klassen:
– I: Abstract Relations
– II: Space
– III: Matter
– IV: Intellectual Faculties
Werner Hüllen: A History of Roget‘s Thesaurus – Origins,
Development, and Design. – Oxford: Oxford Univ. Press,
– V: Voluntary Powers
2003.
Synonymwörterbuch
20
•
•
•
•
•
•
Roget. Faksimile des ersten Eintrags
(Skript zur ersten Auflage)
„Existence“
CLASS I: WORDS EXPRESSING
ABSTRACT RELATIONS
SECTION I. EXISTENCE
1. BEING, IN THE ABSTRACT
#1. Existence.-- N. existence, being,
entity, ens[Lat], esse[Lat],subsistence.
reality, actuality; positiveness c. adj.; fact,
matter of fact, soberreality; truth c. 494;
actual existence. presence c. (existence
in space) 186; coexistence c. 120.
stubborn fact, hard fact; ...
21
•
•
•
•
•
•
DDC (Dewey Decimal Classification) – 1876
Melvil (Melville Louis Kossuth) Dewey
(1851 – 1931)
1870: Student am Amherst College
stud. Hilfskraft an der Bibliothek
1874: Abschluss in Bibliothekswesen
Aufbau eines Klassifikationssystem für die
Bibliothek des Amherst College
Stephen Gordon; Judith Kramer-Greene: Melvil Dewey: The Man and the Classification. – Albany: Forest Press,
1983.
Fremont Rider: American Library Pioneers VI: Melvil Dewey. – Chicago: American Library Association,
1972.
Sarah Vahn: Melvin Dewey: His Enduring Presence in Librarianship. – Littletown: Libraries Unlimited,
1978.
22
•
•
•
•
•
DDC (Dewey Decimal Classification) – 1876
„A Classification and Subject Index for Cataloguing and
Arranging the Books and Pamphlets of a Library“ (1876;
anonym)
1876: Bibliothekar in Boston
1883: Bibliothekar am
Columbia College (später:
Direktor der New York State
Library)
1890: Präsident der ALA
(American Library Association)
Bibliothek des Amherst College
23
•
•
DDC. Grundidee: Notationen der Klassen als Dezimalzahlen
– 000
Generalities
– 100
Philosophy
– 200
Religion
– 300
Social Sciences
– 400
Language
– 500
Natural Sciences, Mathematics
– 600
Technology (Applied Sciences)
– 700
The Fine Arts
– 800
Literature and Rhetoric
– 900
Geography, History
Die Grundidee erweist sich als sehr
erfolgreich.
24
•
•
•
•
DDC. Beispiel einer Katalogkarte
Original von Dewey
Class 207:
Religion: Study and
Teaching
Book P:
Princeton
25
• Paul Otlet (1868 - 1944 ) und Henri La Fontaine
(1854 – 1943)
• (1) „Väter“ der Dokumentation
• (2) Einführung der dezimalen Klassifikation in
Europa
• (3) Gründung eines internationalen Verbandes für
Dokumentation
W. Boyd Rayward: The Universe of Information. The Work of Paul Otlet for Documentation and International
Organization. – Moscow: VINITI, 1975.
Eric H.W. van Binsbergen: La philosophie de la Classification décimale universelle. – Liège: Centre de
Lecture Publique, 1994.
Georges Lorphèvre: Henri LaFontaine, 1854-1943 – Paul Otlet, 1868-1944. – In: Revue de la Documentation
21 (1954) 3, 89-103.
Hervé Hasquin: Henri la Fontaine – un Prix Nobel de la Paix: tracé(s) d‘une vie. – Mons: Mundaneum, 2002.
26
• Henri La Fontaine
•
•
•
•
•
•
geb. 1854 in Brüssel
Prof. für Internationales Recht
Mitglied des belgischen Senats
Friedensbewegung (u.a. Präsident
des „International Peace Bureau“)
1895: Gründung des „Institut
International de Bibliographie“ (mit
Otlet)
Friedensnobelpreis 1913
27
• Paul Otlet
•
•
•
•
•
geb. 1868 in Brüssel
1895: Gründung des „Institut
International de Bibliographie“ (mit La
Fontaine)
ab 90er Jahre: Reorganisation und
(französische) Übersetzung von Deweys
Dezimalklassifikation
1904-1907: Erste komplette Ausgabe der
„Classification Décimale Universelle“ –
CDU („Universal Decimal Classification“
– UDC bzw. „Dezimalklassifikation“ DK)
DK: Haupttafel (wie DDC) und
„Anhängezahlen“
28
• Paul Otlet
•
•
(mit La Fontaine): ab 1919 in
Brüssel: Plan eines Zentrums für
das gesamte Weltwissen –
systematisch geordnet als Weltbibliographie: „Mundaneum“ (Plan
scheiterte – Mundaneum heute
Museum in Mons)
1934: „Traité de documentation“ . –
Bruxelles: Ed. Mundaneum.
(Grundlagenwerk der
Dokumentation)
www.mundaneum.be
29
• FID
•
•
•
•
1895: Institut International de
Bibliographie (von Otlet und La
Fontaine in Brüssel gegründet)
ab 1895: Publikation einzelner DKTafeln
1931: Institut International de
Documentation
1986: Fédération Internationale
d‘Information et de Documentation
Sonderstempel der österreichischen Post
– FID (heute in Den Haag)
www.fid.nl
Cent ans de l‘Office International de Bibliographie: 1895 – 1995. – Mons: Ed. Mundaneum, 1995.
30
• Shiyali Ramamrita Ranganathan (1892 – 1972)
Facettenklassifikation
•
•
•
•
zunächst Bibliothekar (in Madras), danach
Professor für Bibliothekswissenschaft (in
Varanasi und Delhi), später Leiter des
„Documentation Research and Training
Centre“ (Bangalore)
Kritik der DDC / DK: zu starr
Einsatz von Facetten: „Colon Classification“
(1933)
syntaktisches Indexieren mittels Ketten: „Headings and
Canons“ (1955)
Eugene Garfield: A tribute to S.R.Ranganathan. Part 1: Life and works. – In: Eugene Garfield: Essays of an
Information Scientist. Vol. 7. – Philadelphia, PA: ISI Press, 1984, 37-44.
31
• Shiyali Ramamrita Ranganathan (1892 – 1972)
Facettenklassifikation
•
•
fünf Grundfacetten (PMEST)
– Wer? – Personalität (Trennzeichen: , )
– Was? – Material ( ; )
– Wie? – Energie ( : „colon“)
– Wo? – Raum ( . )
– Wann? – Zeit ( ' )
– zusätzlich: Disziplin
Beispiel: L,45;421:6;253:f.44‘N5
Medizin , Lunge ; (Tuberkulose : Behandlung) ;
(Röntgenstrahlen : Forschung) . Indien ' 2004
32
• Thesauri: DAS Vorbild
MeSH
•
•
•
•
Medical Subject Headings (MeSH)
erstellt von der National Library of Medicine (USA)
entworfen ab ca. 1954 (Vorläufer ab ca. 1940)
publiziert mit dem neuen „Index Medicus“ 1960
Carolyn E. Lipscomb: Medical Subject Headings (MeSH). – In: Bulletin of the Medical Library Association 88
(2000), 265-266.
W.D.Miles: A History of the National Library of Medicine. – Bethesda, MD: U.S. Dept. of Health and Human
Services, 1982.
33
• MeSH
•
•
•
•
•
•
•
•
•
kontrolliertes Vokabular
Relationen zwischen den Begriffen
alphabetische Ordnung der Worte
systematische Ordnung der Begriffe
syntaktisches Indexieren durch Aspekte („subheadings“)
möglich
gewichtete Indexierung im Zwei-Klassen-Verfahren
Thesaurus wird als dynamische Liste der Begriffe
verstanden. Änderungen sind jederzeit möglich
1960: Start des Projektes MEDLARS (Medical Literature
Analysis and Retrieval System) unter Einsatz von Computern
auch MeSH wird mittels EDVA gepflegt
34
Fokus-Deskriptor
mit Subheading
Deskriptor mit
Subheading
Fokus-Deskriptor
35
• Thesauri
•
•
•
•
•
erweisen sich im Laufe der 60er Jahre (und später) als
erfolgreich
eine Periode der Zweiteilung der Methoden der
Wissensrepräsentation beginnt:
(1) Klassifikationssysteme: Einsatz vor allem in Bibliotheken;
Einsatz ohne Zuhilfenahme der EDV
(2) Thesauri: Einsatz vor allem bei fachlichen Datenbanken;
EDV-Einsatz
zusätzlich: Suche nach alternativen Ansätzen
I.Lerch: Das Dokumentationshilfsmittel Thesaurus. – In: Bibliothek. Forschung und Praxis 6 (1982), 47-73.
N. Roberts: Historical studies in documentation: The pre-history of the information retrieval thesaurus. – In:
Journal of Documentation 40 (1984), 271-285.
36
• Zitationsindexierung
• Eugene Garfield (1925 - )
•
•
•
•
ab 1951: Mitarbeit bei der
Medizindokumentation
Kritik an MeSH: Indexierung ist zu
langsam; Vokabular ist zu starr;
Indexierung fremdsprachiger
Artikel problematisch
Entdeckung der wissenschaftlichen Fußnote als Hilfsmittel der
1958: Gründung des Institute for Scientific Information (ISI)
Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. - Eugene Garfield; Wolfgang G. Stock:
Citation Consciousness (Interview mit Garfield). – In: Password Nr. 6 (2002), 22-25.
37
• Titelindexierung
• Hans Peter Luhn (1896 – 1964)
•
•
•
•
•
geb. 1896 in Barmen; ab 1924 in den
USA; ab 1941 bei IBM
Extraktion von Stichworten aus den
Sachtiteln der Dokumente
1958: Keyword in Context: KWIC
„Entdeckung“ des Leerzeichens
Stoppworte
Claire K.Schultz: H.P.Luhn: Pioneer of Information Science – Selected Works. – London: Macmillan, 1968.
38
• Textwortmethode
• Norbert Henrichs (1935 - )
• wörterbuchunabhängige
Dokumentationsmethode
• entwickelt an der
Forschungsabteilung für philosophische
Information und Dokumentation der Universität
Düsseldorf
• ab ca. 1967
Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969),
122-131.
39
• Erste Online-Informationsanbieter („Hosts“)
• Entwicklungen in den 60er und frühen 70er Jahren
•
•
•
•
•
DIALOG (maßgeblich: Roger Summit); online: 1972
ORBIT (Carlos Cuadra); online: 1972 (heute: Questel-Orbit)
Mead Data Central (Richard Giering); online: 1973 (heute:
LexisNexis)
BRS (Jan Edgeland; Linda Palmer; Ron Quake); online: 1977
(heute: Ovid Technologies)
Methoden und Werkzeuge der Wissensrepräsentation
müssen online-tauglich werden.
Charles P. Bourne; Trudi Bellardo Hahn: A History of Online Information Services, 1963-1976. – Cambridge, Mass.;
London: MIT Press, 2003.
40
•
•
•
•
•
1989: Einführung der automatischen Indexierung beim Einsatz
einer Dokumentationssprache
bei Reuters Ltd. London
eingesetzt wird CONSTRUE – TIS
(Categorization of News STories Rapidly, Uniformly, and
Extensible – Topic Identification System)
CONSTRUE-TIS: Entwicklung bei der Carnegie Group in
Pittsburgh
arbeitet mit einer Zuverlässigkeit von 90% gegenüber
menschlichen Indexern (zumindest nach eigenen Aussagen)
Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news
stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications
of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.
41
•
•
•
•
•
Tim Berners-Lee (1955 - )
Sir Timothy John Berners-Lee
geb. 1955 in London
ab 1984: Mitarbeiter beim CERN
Entwicklung des WWW
August 1991: erste Webseite (CERN)
1994: Gründung des World Wide Web
Consortiums (Laboratory for Computer
Science / MIT)
seit 90er Jahre: Bemühungen um das
semantische Web
T.Berners-Lee; R.Cailliau; A.Luotonen; H.F.Nielsen; A.Secret: The World Wide Web. – In:
Communications of the ACM 37 (1994) 8, 76-82.
Tim Berners-Lee; Mark Fischetti: Weaving the Web. – San Francisco: Harper, 1999.
42
•
Winfried Gödert
•
der Experte für Wissensrepräsentation im
deutschsprachigen Raum
Leiter des Labors für bibliographisches Information
Retrieval der FH Köln
bibliographische Datenbank zur Inhaltserschließung
Linkliste zu Klassifikationssystemen und Thesauri im WWW
dt. Übersetzung der DDC
•
•
•
•
Winfried Gödert: Einführung in Probleme und Methoden der inhaltlichen Dokumenterschließung. – Köln: FH Köln,
1997. – [Begleitmaterial zu Lehrveranstaltungen].
Datenbank: www.fbi.fh-koeln.de/institut/labor/bir/suche.htm
Linkliste: www.fbi.fh-koeln.de/institut/labor/bir/thesauri_new/index.htm
43
Begriffe und Begriffsordnungen
Begriffe / Begriffsordnungen
Grundlegende Literatur
•
•
•
•
•
•
DIN 2330: Begriffe und Benennungen
DIN 2331: Begriffssysteme und ihre Darstellung
ISO 704:2000: Terminology Work – Principles and Methods
Albert Menne: Einführung in die Methodologie. –
Darmstadt: Wissenschaftliche Buchgesellschaft, 1980.
Tadeusz Pawlowski: Begriffsbildung und Definition. – Berlin
/ New York: de Gruyter, 1980
Ingetraut Dahlberg: Die gegenstandsbezogene, analytische
Begriffstheorie und ihre Definitionsarten. – In: Beiträge zur
Begriffsanalyse. – Mannheim [u.a.]: BI Wissenschaftsverl.,
1987, 9-22.
45
GEGENSTAND
•
Gegenstand: “alles, was uns entgegensteht”, “etwas als
etwas erkennen”
•
Gegenstände im Rahmen der “Gegenstandstheorie”
(Alexius Meinong):
Gegenstand
Objekt
Sachverhalt
psychischer Akt
Empfindung / Phantasie
Urteil / Annahme
Erlebnis
Vorstellen
Denken
Alexius Meinng: Über Gegenstandstheorie. – In: A.Meinong (Hrsg.): Untersuchungen zur Gegenstandstheorie und
Psychologie. – Leipzig: Barth, 1904, 1-50.
46
GEGENSTAND einer dokumentarischen Bezugseinheit (DBE)
• Empfindungsobjekt: Information über reale Gegenstände (Bsp.: Baker
Street in London)
• Phantasieobjekt: Information über fiktive Gegenstände (Bsp.: Sherlock
Holmes Wohnung in der Baker Street)
• Urteilssachverhalt: Information über Tatsachenaussagen (im Rahmen
einer Theorie für wahr angesehene Aussage)
• Annahmesachverhalt: Information über hypothetische Aussagen (im
Rahmen einer Theorie für plausibel angesehene Aussage, deren
Wahrheit offen ist)
OBJEKTE in DBE werden in DE durch Begriffe, SACHVERHALTE der
DBE werden in DE durch Sätze beschrieben.
47
BEGRIFF
•
•
Ein Begriff ist die Zusammenfassung gewisser Objekte
unter eine Klasse.
Begriffsbestimmung
– extensional (Begriffsumfang; Aufzählung der Elemente
der Klasse). M =df {x1, x2, ...., xi, ...}
Bsp.: „Deutsche Bundesländer“ =df {NordrheinWestfalen, Bayern, ..., Berlin}
– intensional (Begriffsinhalt; Angabe der klassenbildenden Merkmale). M =df ∀x. f(x) u f‘(x) u f‘‘(x) ...
Bsp.: „Deutsche Bundesländer“ =df „ist ein
Bundesland“ u „liegt in der Bundesrepublik
Deutschland“
48
BEGRIFF
Merkmale
Objekt(e)
Benennung(en)
z.B. Wort
Begriff (Klasse)
49
„Wirklichkeit“
(andere) Zeichen
BEGRIFF
Merkmale
Objekt(e)
Benennung(en)
z.B. Wort
Begriff (Klasse)
Nutzer
48
50
BEGRIFF
• SYNTAKTIK. Struktur der Benennung;
Beziehungen der Benennung (Zeichen) zu anderen
Zeichen
• SEMANTIK: Beziehungen zwischen Benennung
(Zeichen) und Objekt (bzw. Vorstellungsinhalt)
• PRAGMATIK: Beziehungen zwischen Benennung
(Zeichen) und Zeichenbenutzer
Was heißt das?
BAPHA
51
BEGRIFF
•
Begriffsarten
– Individualbegriff (Klasse hat genau ein Element) –
Benennung: (Eigen-)Name
Bsp.: Karl Marx; Sherlock Holmes; Bayessches Theorem,
2. Hauptsatz der Thermodynamik
– Allgemeinbegriff (Klasse hat mehrere Elemente)
Bsp.: Stuhl, Zahl, Studentin der Informationswissenschaft, NaCl
– Kategorie (Begriff allgemeinster Art)
Bsp.: Person, Materie, Energie, Raum, Zeit (à la
Ranganathan)
oder: Branche, Raum, Aspekt (im Kontext der Wirtschaft)
52
EXAKTHEIT von Begriffen
•
•
exakter Begriff: Klassengrenze ist genau bestimmbar
vager Begriff: Klassengrenze ist - an den „Rändern“ - nicht genau
bestimmbar, „fuzzy“)
Beispiel: Stuhl-Museum von Max Black
Max Black: Vagueness. An exercise in logical analysis. – In: Philosophy of Science 4 (1937), 425-455.
SELBSTÄNDIGKEIT von Begriffen
•
•
kategorematischer Begriff: Begriff steht für sich allein
synkategorematischer Begriff: Begriff kann in einem Kontext nicht
allein stehen
Beispiel:
Zigarette
10 - 12
... mit Filter
53
•
•
•
•
•
•
Wort: (nicht unbedingt eindeutiger) sprachlicher Ausdruck
eines Begriffs
Synonym: Begriff, der durch mehrere Worte ausgedrückt
werden kann (Beispiel: Samstag, Sonnabend)
Homonym: Wort, das mehrere unterschiedliche Begriffe
ausdrückt, wobei die Worte unterschiedlichen Ursprüngen
entstammen (Beispiel: kosten [„schmecken“ - althochdt.
koston], kosten [„wert sein“ - altfrz. coster])
Homophon: Homonym im Laut (Beispiel: Leere – Lehre)
Polysem: Wort, das mehrere unterschiedliche Begriffe
ausdrückt, wobei die Worte einen gleichen Ursprung haben
(Beispiel: Knie [Gelenk am Körper], Knie [Werkstück])
Der Unterschied zwischen Homonym und Polysem ist nicht
immer klar; in der Informationswissenschaft werden die
hierdurch entstehenden Probleme gemeinsam behandelt.
54
STICHWORT - SCHLAGWORT
•
•
•
•
•
Stichwort: Wort, das faktisch in einer dokumentarischen
Bezugseinheit vorkommt („token“: konkrete Realisierung
eines Wortes, eines „types“)
Lexem: grammatikalische Grundform eines Wortes
Beispiel: ... den Kühen ... ; Lexem: Kuh
Wortstamm: entsteht durch Präfix- oder Suffixabtrennung
Beispiel: ... retrieved ...; Stamm: retriev
Schlagwort: Wort (in Grundform), das einer dokumentarischen Bezugseinheit zugeordnet wird
Thema: Objekt, das in einer dokumentarischen
Bezugseinheit abgehandelt wird; „das, worüber es geht“;
Repräsentation eines Thema in einer Dokumentationseinheit: durch Stich- oder Schlagworte
55
DEFINITION
•
(1) Definition als Abkürzung. Definiendum =df Definiens
Beispiele:
M =df 1.000
Erpel =df männliche Ente
•
(2) Deutungsvorschrift von Kalkülen.
Deutung bzw. Interpretation von Zeichen
Beispiel:
p ---> ( q v ~q)
w w
w w f
w w
f
w w
f
w
w
w f
f
w
f
w w
Deutung: p, q Aussagevariablen; w, f Wahrheitswerte
~ Negation; --> Implikation; v Disjunktion
56
•
•
•
•
(3) Begriffserklärung
Begriff =df Teilbegriff1 + Teilbegriff2 + ...
Begriffssynthese: ausgehend von Teilbegriffen
Begriffsanalyse: ausgehend vom Begriff
“Klassische” Variante: Definition durch genus und differentia
– genus: Artbegriff
– differentia: “wesenskonstitutiver” Unterschied
– accidens: zufällige Eigenschaft (darf nicht verwendet werden)
Beispiel “Homo est animal rationale”:
Mensch =df Lebewesen + vernunftbegabt
nicht: Mensch =df Lebewesen + Haarfarbe nicht blond
Begriffserklärungen eignen sich besonders gut für hierarchische
Begriffsordnungen (Klassifikation oder Thesaurus)
57
•
•
•
(4) Zeichenerklärung (Nominaldefinition)
Feststellung der Bedeutung eines Begriffes in einem
bestimmten Kontext. Aussage mit (zu begründendem)
Wahrheitsanspruch.
Beispiele: “Metaphysik” bei Aristoteles
“Steuererhöhung” bei der Bundesregierung
“Armut” in der empirischen Sozialforschung
(5) Sacherklärung (Realdefinition)
Feststellung der Bedeutung eines Begriffes durch das
“Wesen” seines Gegenstandes. Aussage mit (zu
begründendem) Wahrheitsanspruch.
Beispiel: Artikel „Geschirrspülmaschine“ im Brockhaus
Zeichen- und Sacherklärungen kommen typisch in
enzyklopädischen Wörterbüchern vor.
58
•
•
(6) Explikation
Übernahme (ggf. ungenauer) Alltagsbegriffe in die
Wissenschaftssprache, dabei Präzisierung
Bedingungen:
– wissenschaftliche Nützlichkeit
– Präzision
– Ähnlichkeit mit dem Ausgangsbegriff
– Einfachheit
Beispiel: Alltagsbegriff: Arbeit
Physik: Arbeit =df Kraft * Weg * Winkel
Soziologie: Arbeit =df auf ein wirtschaftliches
Ziel gerichtete, planmäßige menschliche
Tätigkeit
59
•
(7) Definition von Bedeutungsfamilien
Einige Begriffe können nicht über eine Konjunktion von
Merkmalen definiert werden, die für alle gelten; vielmehr
liegen unterschiedliche Teilmengen vor (Ludwig
Wittgenstein: “Familienähnlichkeit”)
Beispiel: Gemüse =df Wurzel- und Knollengemüse, Blattund Stielgemüse, Fruchtgemüse, Kohlgemüse
•
(8) Persuasive Definition
Begriffsbildung mit emotionalen Einstellungen (gefühlsmäßigen Assoziationen)
Beispiele: rein (Waschmittelwerbung; positive Einstellung)
Jude (Nazi-Deutschland; negative Einstellung)
60
• Im Überblick:
Definitionsarten
•
•
•
•
•
•
•
•
(1) Definition als
Abkürzung
(2) Deutungsvorschrift
eines Kalküls
(3) Begriffserklärung
(4) Nominaldefinition
(5) Realdefinition
(6) Explikation
(7) Bedeutungsfamilien
(8) persuasive Definition
• Definitionen in Systemen
der
Wissensrepräsentation:
•
•
jeder in einer Dokumentationssprache verwendete
Begriff sollte in Extension
und Intension klar und deutlich sein
für hierarchische Systeme
eignen sich besonders
Begriffserklärungen und
Definitionen mit Bedeutungsfamilien
61
Ordnung
•
•
•
•
Gesamt einer Menge M von Objekten x, y, ... und einer
Menge von Relationen ρ zwischen den Objekten
O = M, ρ
Bei Begriffsordnungen sind die Objekte Begriffe und die
Relationen Beziehungen zwischen Begriffen
Es gibt zweistellige Relationen (Bsp.: ρ = „x ist Oberbegriff
von y“) und mehrstellige Relationen (Bsp.: ρ = „heilt x
[jemanden] mittels y [Arznei] von z [Krankheit]“)
Relationen sind reflexiv (irreflexiv), symmetrisch
(asymmetrisch) bzw. transitiv (intransitiv)
R - S - T
62
RST (bei zweistelligen Relationen)
•
•
•
•
•
•
Reflexivität: x ρ x (Bsp.: „ist identisch mit“)
Irreflexivität: -(x ρ x) (Bsp.: „ist Ursache von“)
Symmetrie: x ρ y Æ y ρ x (Bsp.: „ist gleich“)
Asymmetrie: x ρ y Æ -(y ρ x) (Bsp.: „liebt unglücklich)“
Transitivität: [(x ρ y) u (y ρ z)] Æ (x ρ z) (Bsp.: „ist größer als“)
Intransitivität: [(x ρ y) u (y ρ z)] Æ -(x ρ z) (Bsp.: „ist ähnlich mit“)
Allgemeine Relationen in Begriffsordnungen
•
•
•
•
Äquivalenz: x ist äquivalent y
Unterbegriff*: x ist Unterbegriff von y
Oberbegriff*: x ist Oberbegriff von y
verwandter Begriff: x ist mit y verwandt
(R
(-R
(-R
(-R
-
S
-S
-S
S
-
T)
T)
T)
-T)
* (Abstraktionsrelation)
63
Relationen in Begriffssystemen
g
e
B
s
f
f
ri
A
er
t
i
le
Topterm
B
C
Hierarchierelation
D Begriffs- E
-reihe
F
Polyhierarchie
G
Assoziationsrelation
H
I
Bottomterms
64
Terminologische Kontrolle
•
•
•
•
•
durch Zusammenfassung bestimmter Bezeichnungen zu
einem Begriff (Synonyme, Akronyme, Quasi-Synonyme)
mittels Äquivalenzrelation
durch Trennung homonymer Bezeichnungen zu unterschiedlichen Begriffen
ggf. durch Zerlegung („Zerlegungskontrolle“)
wenn möglich; stets wenn nötig: Definition
Arten terminologischer Kontrolle:
– mit Vorzugsbenennungen (gearbeitet wird ausschließlich mit
der Vorzugsbenennung; von den äquivalenten Bezeichnungen
wird verwiesen)
– ohne Vorzugsbenennungen (alle äquivalenten Bezeichnungen
sind zugelassen; in der Datenbank werden sie zu einem Begriff
zusammengefasst)
65
Relationen
•
Hierarchierelation (Begriffsleiter: Oberbegriff - Unterbegriff,
Begriffsreihe: Begriffe in gleicher hierarchischen Ebene)
– Abstraktionsrelation (logische Sicht)
• Ein Unterbegriff im Sinne der Abstraktionsrelation hat alle
Merkmale des Ausgangsbegriffs, dazu aber mindestens ein
weiteres (Bsp.: Vogel - Singvogel)
• stets transitiv
– Bestandsrelation (gegenständliche Sicht: Meronyme
[Teil einer Ganzheit]; Holonyme [Ganzheit von Teilen])
• Ein Unterbegriff im Sinne der Bestandsrelation drückt
einen Teil des Ausgangsbegriffs aus (Bsp.: Vogel - Kralle)
• Geographika sind i.d.R. Begriffe in Bestandsrelation (Bsp.:
Deutschland - Nordrhein-Westfalen - Regierungsbezirk
Köln – Rhein-Erft-Kreis - Kerpen - Kerpen-Sindorf)
• zwei Varianten: (a) transitiv – (b) intransitiv
66
Bestandsrelation / Meronymie
Variante 1: transitiv (z.B. Geographica)
•
Deutschland
D
NRW
Variante 2: nicht transitiv
•
–
Es gibt Bäume im Wald;
aber auch welche außerhalb
von Wäldern.
Wald
Baum
Rinde
67
Relationen
•
•
•
•
Element-Klasse-Relation für Individualbegriffe
„... ist ein(e) ...“: x ist ein M
M =df {x1, x2, ...., xi, ...}, wobei xi Namen von
Individualbegriffen sind
Beispiele:
– {G.Schröder, J.Fischer, H.Eichel, P.Struck, ...} ist ein Mitglied
der derzeitigen Bundesregierung
– {G.Schröder, H.Eichel, P.Struck, R.Scharping, ...} ist ein
Mitglied der SPD
– Persil ist ein Waschmittel
– Donald Duck ist ein Bewohner Entenhausens
68
Relationen
•
weitere Relationen
– Antonymie-Relation (Gegensätze)
– Ähnlichkeitsrelation
– Nachfolgerelation (Vorgänger - Nachfolger)
– Kausalrelation (Ursache - Wirkung)
• Nützlichkeitsrelation
• Schädlichkeitsrelation
genetische Relation (Produzent - Produkt)
Herstellungsrelation (Material - Produkt)
Transmissionsrelation (Sender - Empfänger)
instrumentelle Relation (Werkzeug - Anwendung des
Werkzeugs)
– funktionelle Relation (Argument - Funktion)
– usw.
–
–
–
–
69
•
Präkombinationsgrad (bei Begriffen mit mehreren
Komponenten) - Zerlegungskontrolle
– Präkombination: Kombination mehrerer Begriffe zu
genau einen [zusammengesetzten] Begriff in der
Begriffsordnung
(Bsp.: Mädchenhandelsschule)
– Präkoordination: Kombination der Begriffe, die in der
Begriffsordnung vorkommen, durch Verkettung beim
Information Indexing
(Bsp.: Mädchen + Handelsschule bzw. Mädchenhandel +
Schule) – macht der Indexer
– Postkoordination: Kombination der Begriffe erst beim
Information Retrieval
(Bsp.: Mädchen UND Handelsschule bzw.
Mädchenhandel UND Schule) – macht der
Recherchierende
70
Monohierarchie:
jeder Begriff hat entweder keinen oder genau einen
Oberbegriff
Obstbaum
Kernobstbaum
Apfelbaum
Birnbaum
Steinobstbaum
Kirschbaum
Pfirsichbaum
Margarete Burkart: Dokumentationssprachen. – In: Grundlagen der praktischen Information und Dokumentation. –
München [u.a.]: Saur, 31990, 143-182.
71
Polyhierarchie:
ein Begriff kann mehrere Oberbegriffe haben
Holzwirtschaft
Obstbaum
Kernobstbaum
Apfelbaum
Nutzholz
Birnbaum
Buche
72
Dimensionalität: Anzahl der Dimensionen der klassenbildenden
Merkmale bei der Bildung von Unterbegriffen
– monodimensional (nur genau eine Dimension zugelassen).
Bsp.:
Obstbaum
» Kernobstbaum
» Steinobstbaum
Klassenbildung durch die Dimension: Beschaffenheit des Samens
– polydimensional (mehrere Dimensionen zugelassen)
Bsp.:
Obstbaum
» Kernobstbaum
» Steinobstbaum
» hochstämmiger Obstbaum
» niederstämmiger Obstbaum
Klassenbildung durch die zwei Dimensionen: Beschaffenheit des Samens
und: Größe des Stammes
73
Auflösung der Polydimensionalität
•
•
aus einer polydimensionalen Ordnung soll eine
monodimensionale gebildet werden
schafft eine übersichtliche und logische Struktur
Bsp.: Obstbaum
• Obstbaum nach Samenbeschaffenheit
– Steinobstbaum
– Kernobstbaum
Stützbegriff
• Obstbaum nach Stammgröße
– hochstämmiger Obstbaum
– niederstämmiger Obstbaum
•
•
bei der Auflösung der Polydimensionalität werden „Zwischenbegriffe“ bzw. „Stützbegriffe“ kreiert
sehr wahrscheinlich gibt es keine DBE über solche Stützbegriffe
74
Facettierte Begriffsordnung
•
Mehrere unterschiedliche Begriffsordnungen innerhalb
eines Systems, aufgeteilt nach Kategorien
Bsp.: drei Facetten (Obstbäume):
Kategorie 1:
Kategorie 2:
Kategorie 3:
Frucht
Stammgröße
Erntezeit
Apfel
hoch
früh
Birne
nieder
spät
Bsp.: vier Facetten (Wirtschaftsnachrichten / Factiva):
•
•
•
•
Branche
Region
Aspekt
Unternehmen
75
Begriffsordnung und natürliche Sprache
•
unabhängig von natürlicher Sprache: Verwendung eines
eigenen Vokabulars aus Ziffern und Buchstaben
Bsp.: 291.213.4 (in der Dezimalklassifikation: Bezeichnung für
„Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten“)
Bsp.: H05B-3/00 (in der Internationalen Patentklassifikation:
Bezeichnung für „elektrische Heizung / Widerstandsheizung“)
•
sprachabhängig (Verwendung von national- bzw. fachsprachigen Bezeichnungen)
76
• Paradigmatische
Relation
•
•
• Syntagmatische Relation
•
„fest verdrahtete“ Begriffe
durch Relationen in
Begriffsordnungen
Bsp.: Obstbaum sei Oberbegriff zu Kernobstbaum
•
Begriffe, deren Beziehung
dadurch zustande kommt,
dass sie gemeinsam in DE
auftreten
Bsp.: Eine DE enthalte:
Obstbaum, Bauer, Steiermark
Obstbaum
Obstbaum
paradigmatische
Relation
Kernobstbaum
syntagmatische
Relation
Steiermark
77
Paradigmatische und syntagmatische Relation
Singvögel
Meisen
Blaumeisen
füttern ihre Jungen
füttern ihre Jungen mit
füttern ihre Jungen mit
paradigmatisch
„fest verdrahtet“
hier:
Hierarchierelation
Insekten
grünen Raupen
syntagmatisch
„im konkreten
Kontext“
78
Dokumente und ihre Strukturierung
Was ist ein Dokument?
•
•
•
„Dokumentation“ (d.h. die Repräsentation des Wissens
durch Indexieren oder Referieren) kommt von „Dokument“
klar: (gedruckter) Text ist „Dokument“
aber: Objekte als Dokumente? (Ansatz von Suzanne Briet)
Gegenstand
Stern am Himmel
Foto des Sterns
Stein in einem Fluss
Stein in einem Museum
Tier in der Wildnis
Tier im Zoo
Dokument?
nein
ja
nein
ja
nein
ja
Michael K. Buckland: What is a document? – In: Journal of the American Society for Information Science 48
(1997), 804-809.
80
Was ist ein Dokument?
Kriterien:
•
•
•
•
1. Materialität (physikalisch, einschließlich digital)
2. Intentionalität (trägt Sinn bzw. Bedeutung)
3. Erarbeitung (wird geschaffen)
4. Wahrnehmung (wird als Dokument bezeichnet)
Dokument
•
•
•
(A) Text
(B) (nicht-textuelles) Objekt
alle Dokumentformen werden sprachlich indexiert
81
•
(A 1) Publikationen
Bücher
(wissenschaftliche) Artikel
Zeitungsartikel, Agenturmeldungen
Gesetze, Erlasse
Urteile
Normen
Patente, Gebrauchsmuster,
Geschmacksmuster, Marken
– Hochschulschriften
– Noten
– Kartenwerke
–
–
–
–
–
–
–
82
•
(A 2) andere, nicht (formal) publizierte Texte
– digitale Dokumente im Internet (Sonderform:
Wikis – kooperativ geprüft)
– Akten
– andere Archivmaterialien
(z.B. Nachlässe)
83
•
(B 1) WTM-Fakten (Wissenschaft / Technik / Medizin)
–
–
–
–
–
Stoffe und ihre Eigenschaften
Krankheiten und ihre Symptome
Patienten (Krankenakten)
demographische Daten
statistische Daten
84
•
(B 2) Wirtschaft
– Branchen
– Unternehmen
– Produkte
85
•
(B 3) audiovisuelle Dokumente
– Bilder
– Filme / Filmsequenzen
• Sonderform: generische Sequenzen
86
•
(B 3) audiovisuelle Dokumente
– Ton (Schall)
• Musik
• gesprochene Sprache („Wortarchiv“)
• Geräusche
•
(B 4) multimediale Dokumente (Mischformen)
87
•
(B 5) Museumsdokumente
– archäologische Funde
– Kunstwerke
– kulturgeschichtliche Gegenstände
88
• Die Einheit der Dokumente (Texte – Objekte):
Dokumentarische Bezugseinheit (DBE)
stets gleichbleibende Einheit der Vorlagen, die in einen
Informationsspeicher aufgenommen werden, hierbei ggf.
analytische „Zerlegung“ der Vorlagen
Beispiele:
Buch (als Ganzes)
Buchkapitel
dto.
Abbildung; Tabelle
Zeitschrift (als Ganzes)
Artikel
Korrespondenz
einzelner Brief
Film
Filmsequenz
Münzsammlung
-
einzelne Münze
89
• Was wird in die Datenbank aufgenommen?
Dokumentationswürdigkeit
Kriterienkatalog, der die Entscheidung fundiert, ob eine
bestimmte DBE in den Informationsspeicher aufgenommen
wird oder nicht
Grundaspekte:
– Relevanz des Dokuments
– Informationsbedarf der Nutzer
– bisheriger Stand der Datenbank
Spezifische Aspekte:
– thematische Kriterien
– formale Kriterien (Bsp.: nur wissenschaftliche Artikel;
nur HTML-Dateien)
– Finanzrahmen - Personalressourcen - Zeit
– ggf.: Neuigkeit
– ggf.: kritische Prüfung des Inhalts
90
• Datenstrukturierung:
•
Identifikation kleinster
Beschreibungseinheiten für
bestimmte Typen von
dokumentarischen
Bezugseinheiten (DBE)
Bsp.: wissenschaftlicher
Aufsatz. FELDER:
•
•
•
•
Autor(en)
Sachtitel
Zeitschriftentitel
Jahrgang
Meta• Seitenzahl
daten • Themen usw.
• Dokumentstrukturierung:
•
Zerlegung eines bestimmten Types
von dokumentarischen
Bezugseinheiten (DBE) - auch - im
Sinne von Markup-Sprachen
Bsp.: wissenschaftlicher Aufsatz.
STRUKTUR:
Sachtitel
Autor(en)
Titel des 1. Abschnitts
Text des 1. Abschnitts:
Problemstellung
• darin: Fußnote(n)
• Titel des 2. Abschnitts
• Text des 2. Abschnitts: Methodik
usw.
•
•
•
•
Strukturdaten
91
Dokumentstrukturierung (bei digitalen Dokumenten)
– Beschreibung einer Dokumentstruktur innerhalb des
Dokuments mittels einer besonderen Sprache (Markup
Language, Seitenbeschreibungssprache)
– für Textverarbeitung und -publikation (seit 1986): Standardized
Generalized Markup Language (SGML). Umfassendes Konzept
einer Markup-Sprache
– für Beschreibung verlinkter Dokumente (seit 1989): Hypertext
Markup Language (HTML). Eingeschränkte Sprache (ohne
Möglichkeit zur wissensabbildenden Dokumentstrukturierung),
dafür aber für Hypertextstrukturen anwendbar
– Seitenbeschreibung und Hypertext: eXtensible Markup
Language (XML). Bündelung der Vorteile von SGML und
HTML. „Industriestandard“. Wissensrepräsentation möglich.
92
• Datenstrukturierung / Definition der Metadaten:
Vorgehen
•
•
•
1. Datenbankdesign: Feldschema
2. Zusammenspiel der Datenbanken (falls mehrere)
3. Beschreibung der Felder
– Suchfelder (möglichst kontrolliertes Vokabular)
– Anzeigefelder
•
•
4. Regelwerk (konkrete Anweisungen für jedes Feld)
5. (ggf.) Nutzung von Hilfsmitteln (z.B. Normlisten von
Ländernamen oder Thesauri)
93
Datenstrukturierung
•
Datenbankdesign: Beschreibung des Dokuments in einem
Feldschema, dabei Festlegung von Merkmalen für jedes Feld
–
–
–
–
–
–
–
–
Feldname
Kurzbezeichnung
Schlüsselfeld (ja, nein)
Anzahl Werte (ein Wert,
mehrere Werte: Subfelder)
Typ der Feldwerte (alphanumerisch, Formel, Datum,
Betrag, Text, ganze Zahl, ...)
Normdaten
ggf.: Feldlänge
Index (ja, nein)
• Wortindex
• Phrasenindex
Jahrgang
YR
nein
genau 1 Wert
ganze Zahl
ja
4 Stellen
ja
ja
nein
94
•
•
•
•
Zusammenspiel der Datenbanken
Beispiel:
Kunstwerke
Categories for the
Descriptions of Works
of Art (CDWA)
Getty Standards
Program
Categories for the Descriptions of Works of Art.
www.getty.edu/research/conducting_research/standards/cdwa/index.html
95
•
Feldsschema. Beispiel: Kunstwerke
96
•
Feldbeschreibung. Beispiel: Feld: Abmessungen - Subfeld:
Dimensionen
97
•
Feldschema.
Beispiel:
Wissenschaftliche
Literatur
98
Ansicht
einer
Webseite
Metadaten
in
„Meta Tags“
Beispiel: Webseite
99
Metadaten
formalbibliographische
Metadaten
inhaltsbezogene
Metadaten
formale
Erfassung
100
Metadaten: Formale Erfassung
•
•
•
•
•
Abbildung nicht inhaltsbezogener Informationen der
dokumentarischen Bezugseinheit auf die Erfassungsfelder
einer Datenbank
für jedes Feld werden Erfassungsregeln definiert
soweit möglich: für jedes Feld werden Normdaten
gesammelt
Regelwerk für formale Erfassung von
Bibliotheksmaterialen: AACR (Anglo-American Cataloging
Rules) (mit Sonderregeln für audiovisuelle Materialien,
Musikalien, Karten und unselbständig erschienener Werke)
für die Erfassung von Internet-Dokumenten werden die
Dublin-Core-Elements diskutiert
101
Formale Erfassung / Regelwerk / Normdaten
Beispiel: ... wenn man versucht, ohne auszukommen
Register:
Henzinger M
Henzinger Monika
Henzinger Monika R
Henzinger Monika Rauch
Henzinger Monika R.
Henzinger, M
Henzinger, Monika
Henzinger, Monika R
Henzinger, Monika Rauch
Henzinger, Monika R.
Monika Henzinger
Monika R Henzinger
Monika Rauch Henzinger
Monika Rauch-Henzinger
Monika R. Henzinger
Rauch Henzinger Monika
Rauch Henzinger, Monika
Rauch-Henzinger Monika
Rauch-Henzinger, Monika
102
Formale Erfassung / Regelwerk / Normdaten
• mit Regel: bei Personennamen Ansetzung: Nachname
Komma Leerzeichen Vorname (ausgeschrieben)
Leerzeichen zweiter Vorname oder Mittelname (nur erster
Buchstabe mit Punkt)
• Beispiel: Register: Henzinger, Monika R.
Rauch, Monika
•
•
mit Normdaten: je Person ein Datensatz
Name in Normform: Henzinger, Monika R.
Geburtsdatum:
tt.mm.jjjj
Zusatzinformationen: ehemalige Forschungsleiterin Google
Verweis:
Rauch, Monika
Beispiel: Register: Henzinger, Monika R.
103
Formale Erfassung / Regelwerk / Normdaten. Beispiele:
Gertrud von Le Fort
Ernst Aus‘m Weerth
Julia Rauh-von der Schule
Jean de la Fontaine
Louis de Broglie
Louis de Rouvroy Duc de
Saint-Simon
Ali ibn Haduga
Lola Réz (verh.: Kosáry)
Anton der Kinderen
Anton Du Perron
Andrej N. Rimskij-Korsakov
Constance Lytton (Tochter
eines Dukes)
Le Fort, Gertrud von (dt.)
Aus‘m Weerth, Ernst (dt.)
Rauh-von der Schule, Julia (dt.)
La Fontaine, Jean de (fr.)
Broglie, Louis de (fr.)
Saint-Simon, Louis de Rouvroy
Duc de (fr.)
Ibn Haduga, Ali (arab.)
Kosáryné-Réz, Lola (ungar.)
Kinderen, Anton der (nl.)
Du Perron, Anton (nl.)
Rimskij-Korsakov, Andrej Nikolajevich (russ.)
Lytton, Lady Constance (engl. UK)
104
Formale Erfassung
• Ansetzung der Namen von Körperschaften
– Beispiel „untergeordnete Körperschaft“: Referat Frauenpolitik der SPD.
Ansetzungsform: Sozialdemokratische Partei Deutschlands / Referat
Frauenpolitik
– Beispiel „selbständige Körperschaft“: ifo Institut, München.
Ansetzungsform: ifo Institut für Wirtschaftsforschung e.V. <München>
– Beispiel „Gebietskörperschaft“: Kongeriget Danmark.
Ansetzungsform: Danmark. Bsp.: Polizeidirektion Bonn.
Ansetzungsform: Nordrhein-Westfalen / Polizeidirektion <Bonn>
•
bei nicht-lateinischen Schriften: Transliteration (etwa nach: ISO)
– Beispiel: BAPHA (bulg.). Transliteration: Varna
•
bei allen Ansetzungen: Verweise von möglichen Varianten auf die
Normansetzung
Uta Krischker: Formale Analyse (Erfassung) von Dokumenten. – In: Grundlagen der praktischen
Information und Dokumentation. – München [u.a.]: Saur, 31990, 63-89.
105
Formale Erfassung.
• Erfassung von Webseiten
• „Dublin Core Elements“
Feldname (Version 1.0)
– Titel
title
– Autor/Urheber
creator
– Thema/Schlagwörter
subject
(vorgeschlagen: kontrolliertes Vokabular oder Klassifikation)
– Inhaltsbeschreibung
description
(Abstract bzw. Beschreibung nicht-textueller Dokumente)
– Herausgeber/Verlag
publisher
– anderer Beteiligter
contributor
(etwa: Illustrator, Übersetzer)
– Datum (in der Form: yyyy-mm-dd) date
– Dokumenttyp
resource type
(etwa: Homepage, Arbeitspapier, Gedicht, Foto)
106
•
„Dublin Core Elements“ (2)
Feldname (Version 1.0)
– Datenformat
format
(Dateityp, ggf. Dateigröße)
– Identifikation der Ressource
identifier
(URL [uniform resource locator], DOI [digital object identifier], ...)
– Quelle
source
– Sprache
language
– Beziehungen
relation
– thematische Abdeckung
coverage
(räumliche und zeitliche Charakteristika des Inhalts)
– Rechte
rights
(Vermerk über Rechteinhaber)
•
Bisher konnten sich die „Dublin Core Elements“ im WWW [noch?]
nicht durchsetzen.
107
• Metadaten: Inhaltserschließung
•
•
Abbildung inhaltsbezogener Informationen der dokumentarischen Bezugseinheit auf die Erschließungsfelder einer Datenbank
Inhaltserschließung geschieht durch INDEXIEREN und
REFERIEREN
– Indexieren ist die Abbildung der Themen (ggf. der
Themenkomplexe) durch Begriffe (Ursprung des Wortes:
Buchindex)
– Referieren ist die Abbildung der thematisierten Sachverhalte
durch (wenige) Sätze
•
•
Inhaltserschließung geschieht entweder automatisch oder
intellektuell (oder Mischform)
Inhaltserschließung macht von eigenen Methoden und von
spezifischen Werkzeugen Gebrauch.
108
Funktion 1:
Informationsfilter
Funktion 2:
Informationsverdichtung
Indexieren
Referieren
Optimales Suchen und Finden von Dokumenten
109
Dokumentationssprachen I:
Klassifikationssysteme
(Taxonomien)
Klassifikation - Grundlegende Literatur
•
•
•
•
•
•
Brian Buchanan: Bibliothekarische Klassifikationstheorie. –
München: Saur, 1989.
DIN 32705: Klassifikationssysteme
Konrad Umlauf: Einführung in die bibliothekarische Klassifikationstheorie und –praxis. – Berlin: HU / Inst. f. Bibl.wiss., 1999.
(www.ib.hu-berlin.de/~kumlau/handreichungen/h67/).
Advances in Classification Research. Proceedings of the xxth ASIS&T
SIG/CR Workshop. – Medford: Information Today (derzeit Bd. 13,
2004).
Hans-Jürgen Manecke: Klassifikation, Klassieren. – In: Grundlagen
der praktischen Information und Dokumentation. – München: Saur,
52004, 127-140.
Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1),
1968 (Bd. 2).
111
Klassifikation ist ein Hilfsmittel zur ORDNUNG von
Gegenständen oder von Wissen über Gegenstände
– praktische Aufgabe: Ordnen von Gegenständen (in einem
Lager, im Supermarkt, im Küchenschrank, ...)
– informationswissenschaftliche und -praktische Aufgabe:
Anordnen, Bei-, Neben- und Einordnen, Einteilen,
Gruppieren, Unterordnen, Zusammenordnen, Zuordnen von
Wissen
– wissenschaftliche Aufgabe: angemessene Darstellung von
Wissenseinheiten (z.B. Taxonomie in der Biologie:
„Systema naturae“ von Carl von Linné, oder Physik:
Periodensystem der Elemente)
– erkenntnisvermittelnde Aufgabe: Aufhellung von
Zusammenhängen anhand geordneten Wissens
112
Grundbegriffe
•
•
•
•
•
•
•
Klasse: (intensional oder extensional) definierter Gegenstand
(Allgemein- oder Individualbegriff)
Klassifizieren: Erstellen eines Klassifikationssystems; Bilden
von Klassen
Klassieren: Einordnen von DBE in Klassen
Notation: nicht-natürlichsprachiges Wort als Name einer
Klasse
Bezeichnungen: natürlichsprachige Übersetzungen einer
Notation
Die Erstellung und Weiterentwicklung von Klassifikationssystemen ist in Deutschland normiert.
DIN 32705. Klassifikationssysteme (1987)
113
Notationsformen
•
strukturabbildend hierarchische Notation (Notation bildet
Hierarchierelation ab). Bsp.:
Klasse A: Notation: 1
Klasse B: Notation: 11
Klasse D: Notation: 111
Klasse C: Notation: 15
•
A
r
ite
e
l
s
i ff
r
g
B
Be
Topterm
C
Hierarchierelation
sequentielle Notation. Bsp.:
Klasse A: Notation: 1
Klasse B: Notation: 3
Klasse D: Notation: 8
Klasse C: Notation: 5
•
Relationen in Begriffssystemen
D Begriffs- E
-reihe
F
Polyhierarchie
G
H
I
Bottomterms
hierarchisch-sequentielle Notation - Mischform (Notation auf
gewissen Hierarchieebenen hierarchisch, sonst sequentiell)
114
• Vorteil der Notation: international einsetzbar
Beispiel:
vacuum cleaner
Staubsauger
dammsugaren
aspirateur
aspiratore di polvere
aspirador de polvo
odkurzacz
DK 648.525
• Nachteil der Notation: mnemotechnisch nicht
beherrschbar
115
•
•
•
•
Präkombinationsgrad der Begriffe: i.d.R. hoch (präkombinierte
Begriffe bevorzugt). Bsp.: „Witterungsabläufe in Mittelgebirgslagen subtropischer Zonen“ als 1 Klasse
i.d.R. monohierarchisch (ohne Unterscheidung nach Abstraktionsund Bestandsrelation); zusätzlich: (Quasi-)Synonyme;
Assoziationsrelation sehr eingeschränkt
häufig: neben einer Basiskategorie weitere spezielle Kategorien
(als „Anhängezahlen“, „Ergänzungszahlen“ oder „Indexcodes“)
Klassifikationssystem:
– (1) Lexikon: systematische Tafeln, ggf. Hilfstafeln (jeweils Notationen
und Bezeichnung/en); hierzu: Register (mit Synonymen)
– (2) Grammatik: spezielle Zeichen, Regeln für den Umgang mit den
Zeichen
– (3) Hinweise: u.a. Anmerkungen, Querverweise oder Vorrangregeln
116
•
Grundlegende Regeln:
– ein Objekt - eine Klasse
– damit: ein Objekt - eine Notation
– eine Notation - mehrere Bezeichnungen (Fremdsprachen,
Akronyme, Synonyme)
– jede Bezeichnung sollte für sich selbst sprechen (u.U.
definierende Zusätze anbringen)
– Einstieg für Nutzer über Systematik (Notationen) und
Bezeichnungen (möglichst in unterschiedlichen natürlichen
Sprachen) gewährleisten
– homonyme Bezeichnungen in die einzelnen Objekte überführen
und auf unterschiedliche Klassen verweisen
– i.d.R. monodimensional (polydimensional nur in Ausnahmefällen)
– Polyhierarchie schlecht oder gar nicht ausdrückbar
117
Klassifikationstypen nach Einsatzgebieten
– Universalklassifikationen
• zur Ordnung von Beständen (sprachlich wie fachlich)
universal ausgerichteter Informationseinrichtungen (z.B.
Universitätsbibliotheken)
• als Zugangshilfe zu Dokumenten im World Wide Web
– Klassifikationen gewerblicher Schutzrechte
– Wirtschaftsklassifikationen
• Branchenklassifikationen (auch zum Zwecke amtlicher
Statistik)
• Produktklassifikationen
– Geographische Klassifikationen
– Medizinische Klassifikationen
118
Universalklassifikationen
•
•
•
•
•
•
Dewey Decimal Classification (DDC) - von Melvil
Dewey 1876 erstmals eingeführt
DK:
Dezimalklassifikation (DK / UDC / CDU) - auf der
unser
Basis der DDC von Paul Otlet und Henri LaFontaine
1. Beispiel
um 1900 entwickelt
Colon Classification (CC) - facettierte Klassifikation
von S.R.Ranganathan (1. Aufl. 1933)
Allgemeine Systematik für Öffentliche Bibliotheken
(ASB) - als Aufstellordnung in ÖBs (seit 1956)
verwendet
Yahoo!
unser
Yahoo! - Klassifikation
2. Beispiel
Open Directory Project (ODP) - Systeme zur
Klassierung von Websites
119
Dezimalklassifikation (DK)
•
Haupttafel / Aufbau:
– 0
Allgemeines
– 1
Philosophie, Psychologie
– 2
Religion, Theologie
– 3
Sozialwissenschaften
– 4
[derzeit frei]
– 5
Mathematik, Naturwissenschaften
– 6
Angewandte Wissenschaften, Medizin, Technik
– 7
Kunst, Musik, Sport, Spiele
– 8
Literaturwissenschaft, Sprachwissenschaft
– 9
Geographie, Biographien, Geschichte
I.C.McIlwaine: The Universal Decimal Classification: Guide to its Use. – The Hague: UDC Consortium, 2000.
Karl Fill: Einführung in das Wesen der Dezimalklassifikation. - Berlin, Köln: Beuth Verl., 1981.
Online: www.udcc.org/ (Ausschnitte aus der DK)
120
Dezimalklassifikation (DK) - Notationsbeispiel 1
2 Religion, Theologie
29 Nichtchristliche Religionen
291 Allgemeine und vergleichende Religionswissenschaft
291.2 Religiöse Lehren. Dogmen
291.21 Gottheiten. Gegenstand der Religion. Verehrung der
Gottheiten. Göttersagen. Funktionen der Götter. Götterund Geisterwelten
291.213 Verehrung von Menschen, Halbgöttern, Helden,
Heiligen, Herrschern (Apotheose)
291.213.4 Ahnenkult. Kult der Hausgötter: Manen, Laren,
Penaten
121
Dezimalklassifikation (DK) - Notationsbeispiel 2
669 Metallurgie. Metalle und Legierungen
669.1 Eisenhüttenkunde. Eisen und Stahl
669.16 Herstellung von Roheisen
669.162 Roheisenerzeugung. Erste Schmelzung
669.162.2 Hochöfen
669.162.26 Betrieb von Hochöfen
669.162.266 Hochofenabstich
669.162.266.2 Roheisenabstich
669.162.266.23 Abstechen in Gießbetten und Herstellen der Masselbetten
669.162.266.232 Abstechen in Gießbetten
669.162.266.232.6 Abstechen in Gießmaschinen
669.162.266.232.64 in Gießmaschinen mit endlosen Bändern
synkategorematischer Begriff; wird erst mit nächsthöherer Ebene vollständig.
122
•
Neben den Systematischen Tafeln hat die DK für spezielle
Kategorien Ergänzungstafeln
•
Allgemeine Ergänzungszahlen
KATEGORIE
– Sprache
– Form
– Ort
– Zeit
– Materialien
– Personen
Besondere Ergänzungszahlen
– Kennzeichnungen
– Aspekte u.a.
– Synthese
•
SYMBOL
=...
(0...)
(1/... bis 9/...)
„...“
-03
-05
(-...)
(.0...)
(’...)
123
•
der Sprache (Beispiele)
– =00
mehrsprachig
– =20
englisch
– =30
deutsch
– =392
friesisch
– =393
niederländisch
– =393.2
flämisch
– =393.6
afrikaans
– =40
französisch
– =490
provenzalisch
– =499
katalanisch
– =50
italienisch
– =60
spanisch
•
der Zeit (Beispiele)
– „-“
vorchristliche Zeit
– „+“
christliche Zeit
– „04/14“
Mittelalter
– „15/19“
Neuzeit
– „32“
Jahreszeiten
– „321“
Frühling
– „322“
Sommer
– ...
– „36“
Zeit in Sicht der
Not
– „362“
Friedenszeit
– „364“
Kriegszeit
124
•
Besondere Ergänzungszahlen
(Aspekte) im Bereich DK 7
(Beispiele)
– 7.061
Fälschungen
– 7.07
Arten der
Beschäftigung mit
Kunst
– 7.071
Künstler
– 7.072
Kunstwissenschaft
– 7.073
Kunstliebhaber
– 7.075
Kunsthändler
– 7.078
öffentliche
Förderung der
Kunst
•
Systematische Tafel im Bereich
DK 7 (Ausschnitt)
– 737.1
– 738.5
– 739.8
•
Münzen
Mosaik
Nippes
Kombination Systematik-Notation
und besondere Ergänzungszahl
– 737.1.061 Fälschungen von
Münzen
– 738.5.061 Fälschungen von
Mosaiken
– 739.8.075 Händler von
Nippes
125
DK-Register
•
•
•
•
enthält in einer natürlichen Sprache alle Benennungen der
Notationen aus den systematischen Tafeln und aus den
Ergänzungstafeln
enthält Synonyme und Quasi-Synonyme der Benennungen
Assoziationsrelation („siehe auch“)
Notation aus
systematischer Tafel
unterscheidet Homonyme bzw. Polyseme
Ausschnittbeispiele:
Deutschland (Geographie)
--- (Geschichte)
--- (Ortsanhängezahl)
Dock ... siehe auch Trockendocks
Pinakothek siehe Gemäldegalerien
Schlangen (Zoologie)
Schlangen (Tierzucht)
914.3
943
(43)
Notation aus
Ergänzungstafel
Synonym
598.12
636.98
Homonymkontrolle
126
Mehrere Klassen verbinden
(syntaktisches Indexieren)
– (1.) Beziehung. Symbol: :
Beispiel: Lichtbrechung von
Rubinen
Rubin
549.517.1
Lichtbrechung
535.323
also: 549.517.1:535.323
– (2.) Beiordnung. Symbol: +
Beispiel: Mathematik und Physik
Mathematik
51
Physik
53
also: 51+53
– (3.) gerichtete Beziehung
Symbol: ::
Beispiel: Verkehrsmedizin
Verkehr
656
Medizin
61
also: 61::656
– (4.) Erstreckung (von-bis)
Symbol: /
Beispiel: der Gesamtbereich
Biologie, Botanik, Zoologie
Biologie
57
Botanik
58
Zoologie
59
also: 57/59
127
•
•
•
(5.) Kombination einer DKZahl der Haupttafel mit einer
allgemeinen Ergänzungszahl
Zahl aus Haupttafel [Zeichen
für Typ der Ergänzungszahl]
Ergänzungszahl
Beispiel: Prostitution in
Deutschland
Prostitution
176.5
Zeichen für Ort
(...)
allgemeine Ergänzungszahl
Deutschland
43
also: 176.5(43)
•
(6.) Kombination einer DK-Zahl
der Haupttafel mit einer
speziellen Ergänzungszahl
Zahl aus Haupttafel [Zeichen für
Typ der Ergänzungszahl]
Ergänzungszahl für markierten
Bereich
Beispiel: Fälschungen von
Mosaiken (siehe oben!)
Mosaik
738.5
Zeichen Ergänzungszahl .0 ...
spezielle Ergänzungszahl
Fälschungen
61
(darf im Bereich 7 eingesetzt
werden)
also: 738.5.061
128
Fallbeispiel: DK-Suche beim Katalog der ETH Zürich: Index
Suchargument
129
DK-Suche beim Katalog der ETH Zürich: Katalogkarte
130
Yahoo!
•
Gründer und derzeitige
CEOs: Jerry Yang und
David Filo
•
entstanden 1993 aus
einem Verzeichnis von
Bookmarks
•
Yahoo: (unsympathische)
Wesen aus „Gullivers
Reisen“; Akronym für „yet
another hierarchical
officious oracle“ oder
auch schlicht Ausruf
131
@: Wechsel der Begriffsleiter
(unechte) Polyhierarchie
Polydimensionale Ordnung
132
Zuordnung einer
Website zu mehreren
Klassen
133
88mal
Frauen als
Benennung
für
unterschiedliche
Klassen
Klassenbezeichnungen bei
Yahoo! sind
synkategorematisch.
134
Yahoo ! - Baumstruktur (Ausschnitt / fingiertes Beispiel: Suche
nach: „The Game of Go“) - Patent US 5991756
Yahoo's Main Menu
1 Recreation
16 Restaurants
2 Games
9 Boating
„Game$“
20 Food To Go
„Go$“
3 Board Games
21 Joe's Pizza To Go
4 Go
7 Chess
22 "To Go" Delivery Services
5 URL
6 URL
8 Tournaments
Kein direkter
Treffer
135
Yahoo! Suchalgorithmus
•
bei Phrase: Anzeige der direkten Treffer (Categories [d.h.:
Klassenbenennungen], Sites, News)
•
sonst: Elimination von Stoppwörtern
•
automatische Rechtsfragmentierung (stets: SUCHTERM*)
•
bei genau 1 Suchwort sowie bei mit ODER verknüpften
Suchwörtern: Anzeige der direkten Treffer
•
bei mehreren mit UND verknüpften Suchwörtern:
•
1. Anzeige der direkten Treffer
•
2. Anzeige der indirekten Treffer (min. 1 Suchwort direkter Treffer,
anderes Suchwort Unterbegriff eines direkten Treffers) Aufhebung der Probleme mit den Synkategoremata
Jiong Wu: Information Retrieval from Hierarchical Compound Documents / Yahoo Inc. – Patent US 5991756 vom
23.11.1999. – Mechtild Stock; Wolfgang G. Stock: Recherchieren im Internet. – Renningen: expert-verl., 2004, Kap. 2.
136
1
2
3
4
5
6
7
8
9
Dokumentenspeicher
9
8
8
6
8
...
...
1
2
3
4
4
3
7
1
Recreation
Games
Board Games
Go
Title / URL
Title / URL
Chess
Tournements
Boating
Desc. Fun Cat.
Desc. Cat.
Desc. Cat.
Desc. Cat.
Desc. Site
Desc. Site
Desc. Cat.
Desc. Contests Cat.
Desc. Sailing Cat.
Anfrage
Dokument
...
Game: 2, 3, Null
Gamele: 10,12, Null
Gander: 39, 67, 102, Null
...
Go: 4, 20, 21, 22, ...
Gobble: 82, 102, Null
...
The: Ignore
Trefferliste
Suchmaschine
Anfrage
The Game
of Go
Wortindex
Dok.
1
2
3
4
5
6
Ausgabeliste
xxx
xxx
xxx
xxx
xxx
xxx
Zeit Intervall der "Kinder"
00/00/0000
2-9
00/00/0000
3-8
00/00/0000
4-8
00/00/0000
5-6
00/00/0000
∅
10
00/00/0000
5
∅
Gewichtung
Struktur der
Indices
bei
Yahoo!
Patent
US 5991756
137
Klassifikation gewerblicher Schutzrechte
•
Patente und Gebrauchsmuster:
– Internationale Patentklassifikation (IPC)
– ECLA
•
unsere
Beispiele
Marken:
– Wiener Klassifikation der figürlichen Darstellungen
– Nizza Klassifikation der Waren
•
Geschmacksmuster:
– Locarno Klassifikation der Waren
•
alle Klassifikationen gewerblicher Schutzrechte werden von
der World Intellectual Property Organization (WIPO) in Genf
gepflegt
Online: classifications.wipo.int
138
Internationale Patentklassifikation / International
Patent Classification (IPC)
•
•
•
•
nach dem Straßburger Abkommen über die IPC (1971; in
Kraft getreten 1975) einheitliche Klassierung aller
Patentschriften weltweit
neben den Patentämtern halten sich alle Datenbankproduzenten beim Indexieren an die IPC
Gegenstandsbereich: alles, was patentiert werden kann,
d.h. alle technischen Gegenstände (Anm.: Dieser Bereich
kann sich von Zeit zu Zeit wandeln; z.Z. etwa bei den
Softwarepatenten)
derzeit (7.Aufl.) rund 69.000 Klassen
139
IPC - Lexikon in 8 Sektionen:
–
–
–
–
–
–
A
B
C
D
E
F
– G
– H
Täglicher Lebensbedarf (ca. 7.500 Gruppen)
Arbeitsverfahren; Transportieren (16.500)
Chemie; Hüttenwesen (13.500)
Textilien; Papier (3.000)
Bauwesen; Erdbohren; Bergbau (3.000)
Maschinenbau; Beleuchtung; Heizung;
Waffen; Sprengen (8.000)
Physik (7.000)
Elektrotechnik (7.000)
140
Struktur der IPC
•
•
Sektion: 1 Stelle (z.B. B)
- Klasse: 2 weitere Stellen (z.B. B64)
- Unterklasse: 1 Stelle (z.B. B64C)
- Gruppen: 3 Stellen (z.B. B64C 025)
- Hauptgruppe: 2 Stellen stets 00 (z.B. B64C 025/00)
- Untergruppe: i.d.R 2 Stellen (nicht 00), u.U. bis zu
4 Stellen (z.B. B64C 025/02)
bis zur Gruppenebene: Notationen strukturabbildend hierarchisch
Untergruppenebene: Notationen sequentiell
141
B
B64
B64C
B64C 025
B64C 025/00
B64C 025/02
B64C 025/08
B64C 025/10
B64C 025/18
B64C 025/26
B64C 025/30
Arbeitsverfahren; Transportieren
Luftfahrzeuge; Flugwesen; Raumfahrt
Flugzeuge; Hubschrauber; Drehflügelflugz.
-Start- bzw. Landegestelle
. Fahrgestelle
.. nicht fest angeordnet, z.B. abwerfbar
... einfahrbar, klappbar oder dgl.
.... Betätigungsmittel
..... Steuerung oder Verriegelung dafür
...... Notbetätigung
142
Hinweise
– allgemeine Querverweise
Beispiel: H05B 3/03 Widerstandsheizung / Elektroden
(elektrothermische Behandlung von Erzen C22B 4/00)
– Vorrangregel (falls ein Gegenstand an mehreren Stellen
klassiert werden kann, aber nur an einer Stelle klassiert
werden sollte)
Beispiel: H05B 3/40 Heizelemente ... (3/62, 3/68, 3/78
haben Vorrang)
– Orientierungsverweis (Hinweis auf verwandte
Gegenstände)
143
Hybrid-System
– Hybrid-Systeme: an manchen Stellen der IPC sind Index-Codes
vorgesehen, die nur in Verbindung mit (dort definierten) anderen
Notationen zu verwenden sind (statt des Schrägstriches hier:
Doppelpunkt). Beispiel: B62D (Motorfahrzeuge), B62D 101:00
(Fahrgeschwindigkeit)
– analog zu den speziellen Ergänzungstafeln der DK
– verbundene Index-Codes: Darstellung einer Notation und eines
Index-Codes in einer Klammer; Beispiel: (C08F 210/16, 214:06) Themenkette i.S. syntaktischen Indexierens
– nicht verbundene Index-Codes: Darstellung des Index-Codes
allein als allgemeine Zusatzinformation
144
•
Klassierung von Erfindungsobjekten
– Funktionsorientierung eines Gegenstandes (z.B. Kolben) und
Anwendungsorientierung eines Gegenstandes (z.B. Anordnung von
Kolben in einem Motor) berücksichtigen!
– System als Ganzes sei Gegenstand: dann auch die nicht trivialen
Einzelheiten klassieren (z.B. gesamte Radaufhängung: wenn wichtig,
auch die Blattfeder berücksichtigen)!
– chemische Formeln (insb. organische Verbindungen): alle vollständig
identifizierten Verbindungen berücksichtigen!
– soviele IPC-Notationen wie nötig, um alle Ansprüche des Patentes
wiederzugeben
– die Notation(en) des Hauptanspruches als erste nennen, dann
Nebenansprüche (einige Patentämter klassieren nur den
Hauptanspruch)
– X-Notationen: X (an beliebiger Stelle einer Notation) zeigt an, dass die
IPC den abzubildenden Gegenstand nicht genau trifft; hier ist
Handlungsbedarf für Weiterentwicklungen der IPC
145
• Klassierung von Erfindungsobjekten
– Hauptklasse(n)
Hauptansprüche der Erfindungsschrift
– Nebenklasse(n)
Nebenansprüche der Erfindungsschrift
– Doppelstrichklasse(n)
„Zusatzinformationen“; nicht rechtlicher, sondern
ausschließlich technischer Natur (von den
Erfindungsinformationen durch einen Doppelstrich //
getrennt)
– Indexklasse(n)
verbundene / unverbundene Indexcodes
146
Fallbeispiel: IPC bei DEPATISnet (DPMA)
•
Suche in der IPC: mit schwarzem Balken am Rand:
Indexcodes; sonst: Notationen
Notationen
IndexCodes
147
IPC in der Version bei DEPATISnet
Indexcodes
148
Detailsuche
der Expertenmaske
nach:
Hauptklasse,
Nebenklasse,
Doppelstrichklasse,
Indexklasse
möglich
149
Anzeige der
bibliographischen
und
inhaltserschließenden
Informationen
zusätzlich:
Volltext
(PDF)
150
ECLA: European Classification System
– IPC: in gewissen Technikbereichen nicht tief genug
gegliedert
– ECLA erweitert IPC „nach unten“ und verfeinert das
System
– erarbeitet beim Europäischen Patentamt; wird bei
einigen großen Patentdatenbanken bei Questel-Orbit
eingesetzt
– Bsp.:
H04N-007/24C12M2
IPC
ECLA
– z.T. diverse neue Klassen (und damit lange Notationen)
David T. Dickens: The ECLA Classification System. – In: World Patent Information 16 (1994), 28-32.
151
ECLA: Bsp. G06F-17/30 Information Retrieval
Online: l2.espacenet.com/espacenet/eclasrch
152
Wiener Klassifikation der figürlichen Darstellungen
– Einsatz bei Markendatenbanken zur inhaltlichen
Beschreibung von Bildmarken (wie die „lila Kuh“ von
Milka)
– seit 1973 (verabschiedet in Wien) international
eingesetzt
– 3 Hierarchieebenen:
• 29 Kategorien
• 144 Abteilungen
• 1.634 Sektionen (in Haupt- und Hilfstafeln)
– formale Graphikelemente (etwa 26: geometrische
Figuren oder 29: Farben) und inhaltliche Aspekte (etwa
2: Menschen oder 22: Musikinstrumente)
153
Wiener Klassifikation der figürlichen Darstellungen / Ausschnitt
– 03 Animals
• 03.01 Quadrupeds (Series I)
– 03.01.01. Lions
– 03.01.04. Tigers or other large felines
– 03.01.06. Cats or other small felines
– 03.01.08. Dogs, wolves, foxes
• ... (gekürzt)
• Auxiliary Section Associated with Principal Section 3.1.1
– A 03.01.02 Heraldic lions
– Auxiliary Section Associated with Principal Section 3.1.1-3.1.15
– A 03.01.17 Animals of Series I standing
– A 03.01.24 Animals of Series I stylized
– Klassierungsbeispiel: stilisierter Hund
– 03.01.08 / 03.01.24
154
Wirtschaftsklassifikationen
•
•
•
Klassifikationen der Amtlichen Statistik
– NACE (Europäische Union)
– WZ 03 (Deutschland)
– SIC (USA - veraltet)
– NAICS (Nordamerika)
Spezielle Branchenklassifikationen
– European Business Classification (Schober)
Produktklassifikationen
– Predicasts Product Codes (Gale Group)
– Kompass
– Dun & Bradstreet SIC
Anneliese Krobath: Analyse von amtlichen und proprietären Wirtschaftsklassifikationen anhand eines Kriterienkatalogs. – Dipl.-Arb. Karl-Franzens-Univ. Graz, 2004.
Mechtild Stock; Wolfgang G. Stock: Qualität professioneller Firmeninformationen im World Wide Web. - In:
Willi Bredemeier et al.: Die Branche elektronischer Geschäftsinformation in Deutschland 2000/2001. –
Hattingen; Kerpen; Köln, 2001, Kap. 3.2: Branchen- und Produktklassifikationen, 355-377.
155
NACE
Nomenclature général des activités économiques dans les
Communautés Européens
• NACE (Rev. 1) seit 1993 verbindliche Klassifikation der
Wirtschaftszweige in der EU
• 4-stellige Notationen; derzeit 640 Klassen
• 3 Hierarchieebenen
Beispiel
– Abteilung (2 Stellen)
29
– Gruppen (1 weitere Stelle)
29.5
– Klassen (1 weitere Stelle)
29.56
– zusätzlich: Abschnitte (Buchstabennotationen),die
Abteilungen sequentiell zusammenfassen, Bsp.: D für die
Abteilungen
15 - 37
NACE Rev.
1: Statistische Systematik
der Wirtschaftszweige in der Europäischen Gemeinschaft. – Luxembourg:
•
Amt für Amtliche Veröffentlichungen der Europäischen Gemeinschaften, 1996. – (Themenkreis 2: Wirtschaft
und Finanzen; Reihe E: Methoden). - Letzte Änderung: NACE Rev. 1.1 (2003).
Online: europa.eu.int/comm/eurostat/ramon/geninfo/geninfo_de.html
156
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
Land- und Fortwirtschaft
Fischerei und Fischzucht
NACE
Bergbau und Gewinnung von Steinen und Erden
Verarbeitendes Gewerbe
1. HierarchieEnergie- und Wasserversorgung
ebene
Baugewerbe
Handel, Instandhaltung und Reparatur von Kraftfahrzeugen und Gebrauchsgütern
Gastgewerbe
Verkehr und Nachrichtenübermittlung
Kredit- und Versicherungsgewerbe
Grundstücks- und Wohnungswesen, Vermietung beweglicher
Sachen, Erbringung von Dienstleistungen f. Unternehmen
Öffentliche Verwaltung, Verteidigung, Sozialversicherung
Erziehung und Unterricht
Gesundheits-, Veterinär- und Sozialwesen
Erbringung von sonstigen öffentlichen und
persönlichen Dienstleistungen
Private Haushalte
Exterritoriale Organisationen und Körperschaften
01, 02
05
10 bis 14
15 bis 37
40, 41
45
50 bis 52
55
60 bis 64
65 bis 67
70 bis 74
75
80
85
90 bis 93
95
99
157
WZ 93 / WZ 03
•
•
•
•
Übernahme der NACE in die deutsche amtliche Statistik ab
1993 als „Klassifikation der Wirtschaftszweige“ (WZ 93) –
Überarbeitung 2003
5-stelliger Code (die letzte Stelle gilt nur für Deutschland)
1.700 Klassen
Einsatz bei
– Statistisches Bundesamt, Bürgel, Creditreform, Hoppenstedt,
AZ Bertelsmann, Schober
•
•
Achtung: z.T. Klassen ohne Änderung der Definition gegenüber
Oberbegriffen
Beispiel: 35.3 (Luft- und Raumfahrzeugbau)
– 35.30 (Luft- und Raumfahrzeugbau (bis hierhin: NACE Rev. 1) - ohne
Informationsgewinn
» 35.30.0 (Luft- und Raumfahrzeugbau (5. Stelle der WZ 93) - wiederum
ohne Informationsgewinn
158
NACE - WZ 03 / Beispiel: Druckmaschinen
• 29 (Maschinenbau)
• 29.5 (Herstellung von Maschinen für sonstige
bestimmte Wirtschaftszweige)
• 29.56 (Herstellung von Maschinen für bestimmte
Wirtschaftszweige a.n.g.) - bis hierhin: NACE
• 29.56.1 (Herstellung von Maschinen für das
Druckgewerbe) - nur für den Gebrauch in Deutschland
Alphabetisches Verzeichnis zur Klassifikation der Wirtschaftszweige, Ausgabe 1993. – Stuttgart:
Metzler-Poeschel, 1993.
Online: www.destatis.de/allg/d/klassif/wz2003.htm
159
Standard Industrial Classification (SIC)
•
•
•
•
•
•
•
1939 - 1997 Klassifikation der Amtlichen Statistik der USA
letzte erschienene Revision: 1987
abgelöst durch NAICS 1997
wird derzeit noch von vielen Informationsproduzenten
eingesetzt, u.a. Information Access Group, Dun &
Bradstreet, Hoppenstedt, Schober
4-stellige Notationen - rund 1.000 Klassen
hierarchischer Notationsaufbau, 4 Hierarchieebenen
stets mit „0“ auf vier Stellen aufgefüllt
Online: www.osha.gov/oshstats/sicser.html
160
SIC / Grundstruktur
– 0 Landwirtschaft, Forstwirtschaft, Fischerei
– 1 Bergbau, Rohstoffe, Hoch- und Tiefbau
– 2 Herstellung kurzlebiger Verbrauchsgüter
– 3 Herstellung langlebiger Gebrauchsgüter
– 4 Transport, Nachrichtentechnik, Versorgungsbetriebe
– 5 Groß- und Einzelhandel
– 6 Finanzdienstleistungen
– 7 (andere) Dienstleistungen
– 8 Gesundheit und Bildung
– 9 Staat, Regierung
SIC / Beispiel: Druckmaschinen
3000 (Herstellung langlebiger Gebrauchsgüter)
3500 (Maschinenbau)
3550 (Maschinenbau - Spezialmaschinen)
3555 (Maschinenbau - Druck)
161
NAICS / North American Industry Classification System
•
keine SIC-Revision, sondern neues System
– durchgehend neu: Notationen
– aus SIC unverändert übernommen: 422 Klassen
– aus SIC revidiert übernommen: 390 Klassen
– neue Klassen: 358 Klassen (z.B. „51 Information“)
– 6-stelliger Code - 1.170 Klassen
– 5 Hierarchieebenen
•
•
•
•
•
Sektoren (2 Stellen) - sequentielle Notationen
Subsektor (1 weitere Stelle) - ab hier hierarchische Notationen
Branchengruppe (1 Stelle)
Branche (1 Stelle) - bis hierhin international (NAFTA-Länder)
Teilbranche (1 Stelle) - landesspezifisch für USA, Kanada,
Mexiko
162
•
•
•
•
•
•
•
•
•
•
•
•
11
Agriculture, Forestry, Fishing
and Hunting
21
Mining
22
Utilities
23
Construction
31-33 Manufacturing
42
Wholesale Trade
44-45 Retail Trade
48-49 Transportation and
Warehousing
51
Information
52
Finance and Insurance
53
Real Estate and Rental and
Leasing
54
Professional, Scientific, and
Technical Services
•
55
•
56
•
•
61
62
•
71
•
72
•
81
•
92
Management of Companies and
Enterprises
Administrative and Support and
Waste Management and
Remediation Services
Educational Services
Health Care and Social
Assistance
Arts, Entertainment, and
Recreation
Accommodation and Food
Services
Other Services (except Public
Administration)
Public Administration
NAICS: 1. Hierarchieebene
163
NAICS
•
•
eingesetzt bei:
– Amtlicher Statistik USA, Kanada und Mexiko
– Datenbanken der Gale Group (u.a. PROMT)
– (einigen) Firmendatenbanken in den USA
Beispiel: Druckmaschinen
– 31 - 33 (Manufacturing)
– 333 (Machinery Manufacturing)
– 3332 (Industrial Machinery Manufacturing)
– 33329 (Other Industrial Machinery Manufacturing)
– 333293 (Printing Machinery and Equipment
Manufacturing)
North American Industry Classification System. – Lanham, MD: Bernan Press, 1998. Letzte Änderung: NAICS 2002.
Ruth A. Pagell; Patricia J.S. Weaver: NAICS: NAFTA‘s industrial classification system. – In: Business Information
Review 14 (1997) 1, 36-44.
Online: www.naics.com
164
Spezielle Branchenklassifikation: Schober
– „European Business Classification“ (EBC)
– rund 10.000 Klassen für Wirtschaftsbranchen und
Wirtschaftsaktivitäten zur Unterstützung der Suche in einer
B-to-B-Adressdatenbank
– Beispiele für Klassen der Wirtschaftsaktivitäten
• 6679 DIMA Düsseldorf
• 5273 INFOBASE Intern. Fachmesse für Kommunikation Frankfurt
– Beispiel Druckmaschinen
• 703
Druckmaschinen Hersteller
• 2557 Papier- und Druckmaschinen Hersteller
165
Produktklassifikation 1: Gale-Codes (Predicasts-Codes)
•
•
angelehnt an SIC; erweitert auf 7 Stellen
Beispiel: 0174 (Zitrusfrüchte)
–
–
–
–
–
–
–
–
–
•
0174007
0174012
0174013
0174015
0174019
0174021
0174022
0174024
0174099
Pampelmusen
Zitronen
Limonen
Apfelsinen
Mandarinen
Tangelos
Temples
Orangen, Valencia
Zítrusfrüchte, sonstige
Einsatz: in diversen Gale-Datenbanken
Online: support.dialog.com/searchaids/dialog/galecodes/
166
Produktklassifikation 2: Dun & Bradstreet SIC
•
•
•
•
•
•
•
Erweiterung der SIC um zwei weitere Hierarchieebenen
(jeweils 2-stellig)
über 18.000 Klassen
Stellen 1 bis 4: SIC
Stellen 5 und 6: Produktgruppe
Stellen 7 und 8: Produkte
wie bei SIC üblich: Auffüllen nach rechts freier Stellen
durch Nullen
Einsatz: (geplant bzw. derzeit in Arbeit): bei der D&BFirmendatenbank
167
D&B SIC. Beispiel Druckmaschinen
35550000 (Printing Trades M achinery)
35550100 (Printing Presses)
35550101 (Presses, Envelope, Printing)
35550102 (Presses, Gravure)
35550200 (Printing Plades)
35550201 (Plates, M etal: Engravers')
35550202 (Plates, Offset)
usw . (gekürzt)
35559900 (Printing Trades M achinery, NEC)
35559901 (Bronzing or Dusting M achines for the Printing Trade)
usw . (gekürzt)
35559906 (Typographic Num bering M achines).
168
Produktklassifikation 3: Kompass
•
•
•
•
•
Eigenes Produktklassifikationssystem der KompassFirmendatenbanken
Gegenstand: B-to-B Produkte und Dienstleistungen - rund
50.000 Klassen
3 Hierarchieebenen:
– Branche (2-stellig)
– Fachgruppen (weitere 3 Stellen)
– Produkte (weitere 2 Stellen)
auf der Ebene der Fachgruppe zusätzlich: I / E (Import- bzw.
Exportaktivitäten einer Firma)
auf der Ebene der Produkte zusätzlich P / D / S (Produktion,
Distribution, Service)
Online: www.kompass.com/
169
Kompass
Meist hierarchisch strukturiert:
•
20 (Nahrungs- und Genussmittel)
•
20420 (Fische in Konserven und anderen Verpackungen)
•
2042052 (Fischfrikadellen, -bällchen und -kuchen in Dosen)
•
... aber mit Ausnahmen:
•
20427 (Fische in Konserven und anderen Verpackungen /
Landesspezifische Produkte / Frankreich)
2042701 (Bouillabaisse in Konserven)
•
170
44 (Maschinen und Anlagen für die Zellstoff-, Papier- und Druckindustrie.
Büromaschinen und Anlagen für die elektronische Datenverarbeitung)
44140 (Druckmaschinen und Zubehör / Teil 1)
4414001 (Druckmaschinen, Hochdruck, Flachdruckprinzip)
4414002 (Druckmaschinen, Hochdruck, Rotationsoffsetprinzip)
usw. (gekürzt)
4414053 (Druckmaschinen, Heliografieverfahren)
44141 (Druckmaschinen und Zubehör / Teil 2)
4414122 (Druckmaschinen, Mehrfarben)
Kompass.
Bsp.: Druckmaschinen
4414124 (Druckmaschinen, multifunktional)
usw. (gekürzt)
4414151 (Zylinder für Druckmaschinen)
4414152 (Trockner für Druckmaschinen)
usw. (gekürzt)
Achtung
bei 44140
und 44141:
44149 (Druckmaschinen und Zubehör)
4414901 (Andruckpressen, Flexodruck, Anilindruck)
44160 (Spezielle Druckmaschinen und Zubehör)
usw. (gekürzt)
Sequentielle
Notation!
171
Branchen-Ebene:
Import / Export
Produkt-Ebene:
Produzent / Handel /
Dienstleister
Kompass-Klassifikation
Suchoberfläche
172
Geographische Klassifikationen
– finden in diversen Datenbanken (auch Wirtschaftsdatenbanken) zusätzlich zu anderen Systemen Einsatz
– haben ihre Wurzeln teilweise in der amtlichen Statistik
und finden auch dort ihren Einsatz
– werden auch als Gebietsbeschreibungen in wissenschaftlichen Untersuchungen (etwa Regionalforschung
oder Ökonomie) verwendet
– bedeutende Klassifikationssysteme
• NUTS
• Gale Group Country Codes
• sowie Derivate davon
173
NUTS. Nomenclature des unités
territoriales statistiques
– entwickelt von der EU zur
amtlichen Statistik und zur
Verwendung bei eigenen
Datenbanken (etwa TED)
– hierarchisches System
Beispiele:
AT Österreich
AT2 Südösterreich
AT22 Steiermark
AT221 Graz
• Landesbezeichnung (2-stellig
mit Buchstaben)
• Untereinheit (1-stellig mit
Zahlen; falls mehr als 10
Untereinheiten: zusätzlich mit
Buchstaben)
• weitere Untereinheiten (bis zur
Kreisebene bzw. bis zu den
kreisfreien Städten)
DE Deutschland
DEA Nordrhein-Westfalen
DEA2 Regierungsbezirk Köln
DEA27
Rhein-Erft-Kreis
DEA2A
Oberbergischer
Kreis
Online: europa.eu.int/comm/ramon/nuts/home_regions_de.html
174
NUTS: Suche via Landkarten
175
GALE Group Country Codes
– entwickelt von Predicasts, übernommen von Gale
– derzeit Industriestandard im Bereich der Wirtschaftsdatenbanken
– beinhaltet Weltregionen (0 bis 9), Staatengemeinschaften (soweit
vorhanden) und einzelne Länder
– Gliederung
•
•
•
•
•
•
•
•
•
•
0
1
2
3
4
5
6
7
8
9
Internationales
Nordamerika
Mittelamerika
Südamerika
Europa
Karibik
Afrika
Mittlerer Osten
Australien, Ozeanien
Asien
Online: support.dialog.com/searchaids/dialog/galecodes/
176
GALE Group Country Codes
– Beispiele:
Hier nicht strukturabbildend
hierarchische Notation
1 Nordamerika
1USA USA gesamt
1U9
Staaten der Westküste
1U9CA Kalifornien
Achtung: Suchen nach USA gesamt und ihrer Staaten in der
Form: 1U*
4 Europa
4EU Europäische Union
4EUGE Deutschland
177
Derivate der GALE Group Country Codes
•
•
•
•
•
•
•
da die Gale CC nur bis zur Länderebene reichen, gibt es
Erweiterungen
Beispiel: Ländercode der ifo Literaturdatenbank für Deutschland
bis Länderebene: wie Gale CC (also für Deutschland: 4EUGE)
Bundesländergruppe (1-stellig, N für neue Länder, A für alte
Bundesländer)
Bundesland (3-stellig, Buchstabencodes)
Kreise, Städte (Autokennzeichen)
Beispiel:
–
–
–
–
–
4EUGE Deutschland
4EUGEA alte Bundesländer
4EUGEABAY Bayern
4EUGEABAYFFB Landkreis Fürstenfeldbruck
4EUGEABAYFS
Landkreis Freising
Bei letzter Hierarchieebene: sequentielle
Notation
178
Medizinklassifikation: International Statistical Classification
of Diseases – Ausgabe 10 (ICD-10)
• Auf internationaler Ebene erstellt von der World Health
Organization (WHO)
• In Deutschland gepflegt von DIMDI (Köln)
• Einsatz:
– Abrechnung im öffentlichen Gesundheitswesen (u.a.
Krankenhäusern)
– Abrechnung der niedergelassenen Ärzte
– Statistik (u.a. Todesursachenstatistik)
• Haupttafeln mit „Schlüsselnummern“ (Notationen)
• Bei den Klassen (i.d.R. bei den Dreistellern): Definitionen
• Klassierregeln für die jeweiligen Klassen
• Allgemeine Klassierregeln
• Zusatzkennzeichen (allgemeine Ergänzungszeichen)
Online: www.dimdi.de/dynamic/de/klassi/download/index.html
179
ICD-10 – Haupttafel in 21 Kapiteln. Beispiele:
A00-B99
C00-D48
D50-D89
E00-E90
F00-F99
G00-G99
H00-H59
H60-H95
...
S00-T98
V01-Y98
Z00-Z99
I. Infektiöse und parasitäre Krankheiten
II. Neubildungen
III. Krankheiten des Blutes
IV. Ernährungs- und Stoffwechselkrankheiten
V. Psychische und Verhaltensstörungen
VI. Krankheiten des Nervensystems
VII. Augenkrankheiten
VIII. Ohrenkrankheiten
XIX. Verletzungen, Vergiftungen und andere Folgen
äußerer Ursachen
XX. Äußere Ursachen von Morbidität und Mortalität
XXI. Faktoren, die den Gesundheitszustand beeinflussen
und zur Inanspruchnahme des Gesundheitswesens
führen
180
ICD-10. Beispiel Haupttafel: Verletzung nach Fahrradunfall
V01-Y98 Äußere Ursachen von Morbidität und Mortalität
V01-X59 Unfälle
V01-V99 Transportmittelunfälle
V01-V09 Fußgänger bei Transportmittelunfall verletzt
V10-V19 Benutzer eines Fahrrades bei Transportmittelunfall verletzt
V10
V11
...
V18
Benutzer eines Fahrrades bei Zusammenstoß mit
Fußgänger oder Tier verletzt
Benutzer eines Fahrrades bei Zusammenstoß mit
einem anderen Fahrrad verletzt
Benutzer eines Fahrrades bei Transportmittelunfall
ohne Zusammenstoß verletzt
jeweils: 4. Stelle: besondere Ergänzungszahl
181
ICD-10. Beispiel Haupttafel: Fahrradunfall
Besondere Ergänzungszahlen bei V10-V18:
.0
.1
...
.3
...
Fahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt
Mitfahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt
Person beim Auf- und Absteigen verletzt
Notation einer Verletzung durch Stürzen beim Aufsteigen auf ein
Fahrrad (ohne Zusammenstoß)
V18.3
182
ICD-10. Allgemeine Klassierregeln
(1) Kreuz-Stern-System
–
–
–
Mit einem Kreuz (+) versehene Klassen bedürfen einer Ergänzung
Mit einem Stern (*) versehene Klassen dürfen nur an eine KreuzKlasse angebunden werden.
Beispiel: diabetische Retinopathie bei Typ I-Diabetes
•
•
•
•
E10
.3+
H36.0*
Also:
Primär insulinabhängiger Diabetes mellitus
(besondere Ergänzungszahl) mit Augenkomplikationen
Retinopathia diabetica
E10.3+H36.0*
(2) Optionale Klassen
–
Mit einem Ausrufezeichen (!) versehene Klassen dürfen an eine
andere Klasse angebunden werden.
Beispiel: Z51.0! Strahlentherapie-Sitzung
183
ICD-10
–
–
–
–
–
–
–
–
Zusatzkennzeichen (allgemeine
Ergänzungsnotationen)
Es sind max. 2 (der 6) Zusatzkennzeichen hinter
einer Notation zugelassen
R
rechts
L
links
B
beidseits
V
Verdachtsdiagnose
Z
(symptomloser) Zustand nach der
betreffenden Diagnose
A
ausgeschlossene Diagnose
184
ICD-10
Diagnosethesaurus
–
–
Register zur ICD
rund 60.000 Einträge
185
ICD-10 bei DIMDI
186
Klassifikationen. Fazit
•
•
•
•
•
•
Klassifikationssysteme spielen eine nicht umgehbare Rolle
in der Informationswirtschaft
Universalklassifikationen: Nutzung vorwiegend in großen
Bibliotheken
WWW: Wenn im Web überhaupt intellektuell ausgewertet
wird, dann klassifikatorisch
Gewerbliche Schutzrechte (Patente, Gebrauchsmuster,
Marken, Geschmacksmuster): international eingesetzte und
akzeptierte Systeme. Die professionelle Suche nach
Schutzrechtsdokumente geht ausschließlich über die
jeweiligen Klassifikationssysteme.
Wirtschaft: in vielen Wirtschaftsdatenbanken werden
Branchen- oder Produktklassifikationen eingesetzt
Medizin: keine Abrechnung, keine Statistik ohne ICD
187
•
Es gibt einige Klassifikationssysteme, die sich herstellerübergreifend durchgesetzt haben:
– Wirtschaft
• in Europa: NACE
• in Nordamerika: NAICS
• weltweit (obwohl veraltet): SIC
– Gewerbliche Schutzrechte
• Patente, Gebrauchsmuster: IPC
• Marken: Wiener Klassifikation, Nizza Klassifikation
– Länder
• Gale CC
• NUTS
– Medizin: ICD
188
•
Aus den „Standardsystemen“ werden Derivate abgeleitet:
•
•
•
•
•
•
WZ 93 aus NACE
Gale Product-Codes aus SIC
D&B-Product-Codes aus SIC
ifo Ländercode aus Gale CC
zusätzlich existieren herstellerspezifische Klassifikationssysteme (Schobers EBC, Kompass, ...)
Eigene, selbsterstellte Klassifikationen eignen sich zum
Einsatz in unternehmensweiten Netzen (Intranets,
Enterprise Information Portals) sowie zur Strukturierung
von Katalogen (im E-Commerce)
189
Vorteile von Klassifikationen (egal, ob bei
professionellen Datenbanken oder in [irgendeinem]
Unternehmen)
– übersichtliche Navigation durch die Hierarchieebenen
– sprachunabhängiges System (ggf. Nachteil: Notationen sind
für Laien kaum recherchierbar; Ausgleich durch
natürlichsprachige Oberflächen)
– vielfältige Ausdrucksmöglichkeiten durch Trennung von
Haupttafeln und Ergänzungstafeln
– einfaches hierarchisches Retrieval durch Truncation (bei
strukturabbildend hierarchischen Notationen)
190
Nachteile von Klassifikationen
– Die Struktur ist zwar nach unten hin stetig erweiterbar, aber
nur sehr schwer im Grundaufbau zu verändern.
Beispiele für Probleme:
• DK: bildet die Wissenschaftsstruktur des späten
19.Jahrhunderts ab
• SIC: musste als Ganzes abgelöst werden, da die neueren
wirtschaftlichen Entwicklungen (etwa: Aufkommen der
Dienstleistungen) nicht integriert werden konnten
– Bei den Relationen dominiert eindeutig die Hierarchierelation
(in der monohierarchischen Variante). Alle Gegenstände, die
sich „natürlich“ monohierarchisch gliedern, können gut
klassifikatorisch erfasst werden; alle anderen nicht.
191
Dokumentationssprachen II:
Schlagwortmethode
192
Schlagwortmethode
Schlagwortmethode
•
•
•
•
•
einfache Form der verbalen Inhaltserschließung
kontrolliertes Vokabular (Schlagworte)
Vokabular wird der natürlichen Sprache entnommen
Einteilung des Gesamtvokabulars in Facetten
(empfehlenswert, aber nicht zwingend)
Relationen:
– (Quasi-)Synonymie (BF: benutzt für)
– Assoziation (allgemeiner „siehe auch“-Verweis;
VB: verwandter Begriff))
– chronologische Verweisung (falls nötig)
– keine Hierarchierelationen (ansonsten läge ein Thesaurus
vor)
193
Schlagwortmethode
Beispiel: RSWK („Regeln für den Schlagwortkatalog“ und SWD („Schlagwortnormdatei“)
•
•
•
•
eingesetzt bei deutschen Bibliotheken
erarbeitet ab 80er Jahre des 20. Jahrhunderts von der DBIKommission für Sacherschließung; Publikation 1986
Einsatz von Facetten (Person – Ort – „Sache“ – Zeit –
Form)
teilweise Verwendung hierarchischer Relationen („auf dem
Weg zu einem Thesaurus“; hier nicht berücksichtigt)
Regeln für den Schlagwortkatalog: RSWK. – Berlin: Deutsches Bibliotheksinstitut, 31998.
Beispielsammlung zu den Regeln für den Schlagwortkatalog. – Berlin: Deutsches Bibliotheksinstitut, 1991.
Konrad Umlauf: Regeln für den Schlagwortkatalog. Die Grundregeln der RSWK. – Berlin: HU Berlin / Institut
für Bibliothekswissenschaft, 1999. – (Berliner Handreichungen zur Bibliothekswissenschaft; 66).
194
Schlagwortmethode
RSWK / SWD
•
•
•
•
syntaktisches Indexieren durch Schlagwortketten
Schlagwortketten sind stets in der Reihenfolge Person –
Ort – „Sache“ – Zeit – Form anzugeben
jede Kette drückt ein Objekt der dokumentarischen
Bezugseinheit möglichst präzise und vollständig aus
Wahl des engsten Schlagwortes
– Bsp.: Objekt „Untersuchungen zum HAWIK“
– Schlagwort: HAWIK
– nicht: Intelligenztest / Kind / HAWIK (mitunter problematisch!)
•
Vermeiden von Pleonasmen
– überflüssige Häufung sinngleicher Bezeichnungen (z.B.
Zukunftsprognose)
– problematisch bei wenig bekannten Begriffen (z.B.
Nuraghenkultur; hier entfällt „Sardinien“ als pleonastisch)
•
Homonymzusatz (z.B. Atlas <Gebirge>)
195
Schlagwortmethode
RSWK / SWD.
Personenschlagwort
•
•
•
•
Eigennamen von Personen
(einschließlich fiktiver
Personen)
Familiennamen (z.B.
Fugger <Familie>)
umfassende Liste von
Ansetzungsvarianten
in SWD in Facette p
196
Schlagwortmethode
RSWK / SWD.
Geographisches und
ethnographische
Schlagwort
•
•
•
•
Namen von
Gebietskörperschaften
Namen von Landschaften,
Flüssen, Gebirgen,
Wegstrecken usw.
Namen von Völkern,
Rassen, Stämmen
in SWD in Facette g
197
Schlagwortmethode
RSWK / SWD. Geographisches und
ethnographische Schlagwort
•
•
Namensänderungen (z.B. St. Piterburch - St. Petersburg –
Petrograd – Leningrad – St. Petersburg)
Variante 1:
aktueller Name
als Schlagwort,
Verweise von
allen anderen
Namen
198
Schlagwortmethode
RSWK / SWD. Geographisches und
ethnographische Schlagwort
•
•
Namensänderungen (z.B. St. Piterburch - St. Petersburg –
Petrograd – Leningrad – St. Petersburg)
Variante 2: Chronologische Relation (früher – später)
– CF (chronologisch früher) – CS (chronologisch später)
– zusätzlich: Hinweis auf den Zeitraum
•
Leningrad (Hinweis: 1924 – 1991)
CF Petrograd (dort Hinweis: 1919 – 1924)
CS Sankt Petersburg (dort Hinweis: ab 1991)
199
Schlagwortmethode
RSWK / SWD. Sachschlagwort
•
in SWD in Facette s
MO: mehrgliedriger Oberbegriff
200
Schlagwortmethode
RSWK / SWD. Sachschlagwort
•
•
•
•
•
•
Einzelbegriff (Bsp.: Pest)
Kompositum (Bsp.: Luftverschmutzung)
Adjektiv-Substantiv-Verbindung (Bsp.: Juristische Person)
ggf. mit Homonymzusatz (Bsp.: Krebs <Medizin>)
stehende Wendung (Bsp.: Information und Dokumentation)
Besonderheit: Werktitel (Facette t)
201
Schlagwortmethode
RSWK / SWD. Zeitschlagwort
•
Variante 1: Verbale Epochenbezeichnung oder historische
Einzelereignisse (als Sachschlagwort)
202
Schlagwortmethode
RSWK / SWD. Zeitschlagwort
•
•
Variante 2: konkrete Jahresangaben in Verbindung mit
„Geschichte“ (oder „Prognose“ o.ä.)
nicht in SWD enthalten
203
Schlagwortmethode
RSWK / SWD. Formschlagwort
•
•
Erscheinungsweise, literarische oder physische Form der
dokumentarischen Bezugseinheit
nur zu berücksichtigen, wenn der Inhalt tangiert wird
(ansonsten bei formalen Angaben unter Dokumenttyp)
204
Schlagwortmethode
RSWK / SWD. Ansetzung von Namen von
Körperschaften
•
•
ortsgebundene Körperschaften (stets unter dem Ort
anzusetzen)
Facette c
205
Schlagwortmethode
RSWK / SWD. Ansetzung von Namen von
Körperschaften
•
nicht ortsgebundene Körperschaften, darunter alle
Wirtschaftsbetriebe (unter dem Körperschaftsnamen
anzusetzen) – Facette k
•
bei Namenswechsel: chronologische Relation (CF – CS)
206
Schlagwortmethode
RSWK / SWD. Syntaktisches Indexieren durch
Schlagwortketten
•
•
pro Kette ein Objekt
so viele Ketten wie unterschiedliche Objekte
207
Dokumentationssprachen III:
Thesauri
208
Thesauri
•
•
•
•
•
•
•
Jean Aitchison, Alan Gilchrist, David Bowden: Thesaurus
Construction and Use. - London: Fitzroy Dearborn, 42000
Margarete Burkart: Thesaurus. – In: Grundlagen der praktischen
Information und Dokumentation. – München: Saur, 52004, 141154.
DIN 1463/1: Erstellung und Weiterentwicklung von Thesauri
DIN 1463/2: Multilinguale Thesauri
DIN 31623/1; DIN31623/2; DIN 31623/3: Indexierung zur
inhaltlichen Erschließung von Dokumenten
Winfried Schmitz-Esser: EXPO-INFO 2000. - Berlin [u.a.]:
Springer, 2000
Gernot Wersig: Thesaurus-Leitfaden. – München [u.a.]: Saur,
21985
209
Thesauri
Thesaurus
Einsatzgebiete
– in eng umgrenzten Fachgebieten
• Terminologie eines Faches
• Terminologie eines Unternehmens
– in Gebieten, wo fachliches Wissen durch ein (von den
betreffenden Fachleuten akzeptiertes) Begriffssystem
repräsentiert werden kann
– wenn ausschließlich mit Begriffen der natürlichen Sprache
gearbeitet werden soll
– wenn die Struktur des Gebietes über eine monohierarchische
Ordnung hinausgeht
– Anmerkung: Klassifikation und Thesaurus schließen sich
nicht gegenseitig aus. Geschickt eingesetzt, ergänzen sie
sich.
210
Thesauri
„Thesaurus“ nach DIN 1463/1
•
•
•
•
„Ein Thesaurus im Bereich der Information und Dokumentation
ist eine geordnete Zusammenstellung von Begriffen und ihren
(vorwiegend natürlichsprachigen) Bezeichnungen, die in einem
Dokumentationsgebiet zum Indexieren, Speichern und
Wiederauffinden dient.“
Merkmale eines Thesaurus:
1. Terminologische Kontrolle durch natürlichsprachige
DESKRIPTOREN
2. Beziehungen zwischen den Begriffen bzw. Bezeichnungen
durch (zweistellige) RELATIONEN
Thesaurus-Software (Freeware, nicht optimal, aber zum Üben
geeignet):
• Thew33 von Tim Craven (Univ. of Western Ontario)
• http://publish.uwo.ca/~craven/freeware.htm
211
Thesauri
Terminologische Kontrolle
– durch Deskriptoren (Vorzugsbenennungen)
– durch Nicht-Deskriptoren (Verweise auf Deskriptoren)
– der Deskriptor und die zugehörigen Nicht-Deskriptoren sind
entweder Synonyme (Bsp.: Heirat, Eheschließung) oder
Quasi-Synonyme, je nach Zweck des Thesaurus als synonym
„erklärte“ Bezeichnungen (Bsp.: Retrieval, Recherche in
einem Wirtschaftsthesaurus)
– sowohl beim Indexieren als auch bei Recherchieren wird
ausschließlich mit Deskriptoren gearbeitet werden
– eine Recherche mit einem Nicht-Deskriptor im CT-Feld einer
professionellen Datenbank führt stets zu null Treffern
212
Thesauri
Deskriptoren
– sollten in der Fachliteratur verwendete Terminologie
widerspiegeln
– Einwort- wie Mehrwort-Deskriptoren sind möglich
– Mehrwort-Deskriptoren in der natürlichen Wortfolge
belassen
– bei Mehrwortbegriffen, die in ihre Aspekte zerlegt
werden sollen: Zerlegungskontrolle
• morphologische Zerlegung (Bsp.: Blumengesteck Æ
Blume, Gesteck; falsches Bsp.: Eisenbahn Æ Eisen, Bahn)
• semantische Zerlegung (Bsp.: Eisenbahn: Schienenbahn,
Überlandverkehr)
– zerlegen? (Postkoordination)
• nur dann, wenn die Kombination der Einzelbegriffe den
korrekten Mehrwortbegriff ergibt
• nicht, wenn eine hohe begriffliche Spezifizierung
angestrebt wird
213
Thesauri
Deskriptoren
– nicht zerlegen? (Präkombination)
• dann, wenn die Einzelbegriffe eine andere Bedeutung als die
Präkombination haben (Bsp.: Schlüsselbein,
Öffentlichkeitsarbeit)
• wenn ballastarme Suche ermöglicht werden soll
• ggf. Einsatz eines Kombinationsverweises (Bsp.:
Bibliotheksstatistik Æ benutze Kombination Æ Statistik,
Bibliothek
– Wortarten
• vorzugsweise Substantive; Verben in substantivierter Form
• Adjektive an Substantiv gebunden (Bsp.: Internationale
Beziehungen)
• Substantiv im Nominativ Singular; Ausnahmen bei nicht
gebräuchlichen Singularformen (Bsp.: Eltern) oder bei
Bedeutungsunterschied Singular – Plural (Bsp.: Kosten)
• Abkürzungen bzw. Akronyme nur bei Bekanntheit (Bsp.: UKW)
214
Thesauri
Deskriptoren
– Homonyme / Polyseme:
• Unterscheidung durch Klammerzusatz als klärendes Element
Bsp. Homonym: Kiefer [Knochen] – Kiefer [Nadelholz]
Bsp. Polysem: Knie [Gelenk] – Knie [Werkstück]
• Unterscheidung durch Verweise von homonymen Nicht-Deskriptoren
auf eindeutige Deskriptoren
Bsp.: Eiweiß Æ benutze Synonym Æ Eiklar Æ oder Æ Protein
– Deskriptorsatz
• Bezeichnung des Deskriptors
• Auflistung aller Nicht-Deskriptoren
• Auflistung aller Deskriptoren, mit denen der Deskriptor in direkter
Beziehung steht
• Erläuterung zum Gebrauch (nicht zwingend) – Abk.: H (Hinweis) oder
SN (Scope Note)
• Definition (nicht zwingend)
• Übersetzungen (nicht zwingend)
• Konkordanzen zu anderen Erschließungssystemen (nicht zwingend)
215
Thesauri
Nicht-Deskriptoren
–
–
–
–
verweisen auf „ihren“ Deskriptor
alle Synonyme des Deskriptors auflisten
alle Quasi-Synonyme und weitere Bezeichnungen auflisten
Varianten:
• Äquivalenz (Synonyme und Quasi-Synonyme)
Bsp: Heirat Æ benutze Synonym (BS) Æ Eheschließung
• Begriffskombination (Verweis von einem Mehrwort-NichtDeskriptor auf die einzelnen zerlegten Deskriptoren)
Bsp.: Lehrerbildungsgesetz Æ benutze Kombination (BK) Æ
Lehrer – Bildung – Gesetz
• Bündelung (Verweis auf einen Oberbegriff)
Bsp.: Zitrone Æ benutze Oberbegriff (BO) Æ Zitrusfrucht
216
Thesauri
Deskriptorsatz / Beispiel: Standard-Thesaurus Wirtschaft
HWWA
Deskriptor
Oberbegriffe
Erläuterung
Klasse
NACEKonkordanz
Unterbegriffe
verwandte
Begriffe
NichtDeskriptoren
217
Thesauri
Relationen
•
Äquivalenzrelation
– Synonyme
– Quasi-Synonyme
– abweichender Sprachgebrauch (Bsp.:
Massenkommunikationsmittel - Massenmedien)
– Abkürzung (Bsp.: DNS – Desoxyribonucleinsäure)
– gebräuchliche fremdsprachliche Bezeichnung (Bsp.:
Computer – Rechenanlage)
– Schreibweise (Bsp.: Fotografie, Photographie)
– invertierte Form (Bsp.: verarbeitendes Gewerbe – Gewerbe,
verarbeitendes)
218
Thesauri
Relationen
•
Äquivalenzrelation
– Nichtdeskriptor – Deskriptor – Relation
Abk.:
BS (benutze Synonym) – BF (benutzt für)
USE – UF (used for)
Bsp.:
Auto BF Personenkraftwagen
Personenkraftwagen BS Auto
– Nichtdeskriptor – Begriffskombination – Relation
Abk.:
BK (benutze Kombination) – KB (benutzt in Kombination)
Bsp.:
Binnenschifffahrt KB Binnenschifffahrtsstatistik
Schifffahrtsstatistik KB Binnenschifffahrtsstatistik
Binnenschifffahrtsstatistik BK Binnenschifffahrt Schifffahrtsstatistik
219
Thesauri
Relationen
Hierarchierelation
Abstraktionsrelation
logische Sicht
Bestandsrelation
gegenständliche Sicht
220
Thesauri
Relationen
•
Hierarchierelation (allgemein)
– Nichtdeskriptor – Deskriptor – Hierarchierelation (Bündelung)
Abk.:
BO (benutze Oberbegriff) – FU (benutzt für Unterbegriff)
Bsp.:
Zitrusfrucht FU Zitrone
Zitrone BO Zitrusfrucht
– Deskriptor – Deskriptor – Relation (der Normalfall)
Abk.:
OB (Oberbegriff) – UB (Unterbegriff)
BT (broader term) – NT (narrower term)
Bsp.:
Universität OB Hochschule
Hochschule UB Universität
– Deskriptor – oberes Ende der Begriffsleiter
Abk.:
TT (Top Term)
Bsp.:
Universität TT Bildungseinrichtung
221
Thesauri
Relationen
•
•
•
•
Hierarchierelation. Version 1: Abstraktionsrelation
Der Begriffsinhalt des Unterbegriffs enthält mindestens ein
Merkmal mehr als der Begriffsinhalt des Oberbegriffs.
Ober- und Unterbegriff gehören i.d.R. derselben Dimension an.
Abk.:
OA (Oberbegriff Abstraktionsrelation) – UA
BTG (broader term – generic) – NTG
Bsp.:
Meise OA Singvogel
Singvogel UA Meise
Aus logischen Gründen kann es u.U. zwingend sein, Hierarchieebenen einzuführen, auch wenn es dazu keine Dokumente gibt
(Stützdeskriptoren).
222
Thesauri
•
•
Stützdeskriptor. Beispiel: Thesaurus Technik und Management
Stützdeskriptoren
223
Thesauri
•
•
Stützdeskriptor. Beispiel: Thesaurus Technik und Management
Stützdeskriptor
224
Thesauri
•
•
Beispiel einer Begriffsleiter als Baum
Quelle: EMBASE
bei Ovid
225
Thesauri
Relationen
•
•
•
Hierarchierelation. Version 2: Bestandsrelation
Der übergeordnete Begriff (Holonym) entspricht einem Ganzen,
der untergeordnete Begriff einem Bestandteil dieses Ganzen
(Meronym).
alle Geographika sind Bestandsrelationen
Abk.:
SP (Verbandsbegriff) – TP (Teilbegriff)
BTP (broader term – partitive) – NTP
Bsp.:
Putenkeule SP Truthahn
Truthahn TP Putenkeule
Kerpen SP Erftkreis
Erftkreis TP Kerpen
226
Thesauri
Relationen
•
•
•
Hierarchierelation.
Version 2:
Bestandsrelation
Transitive
Bestandsrelationen
eignen sich gut für
graphische
Darstellungen
Beispiel:
Hoppenstedt
Firmendatenbank
227
Thesauri
Thesaurus als Recherchehilfsmittel bei der
hierarchischen Suche. Beispiel: STW bei GBI
Suchargument:
EU sowie alle Mitgliedsländer
Begriffe einsammeln:
-Deskriptor
-alle Unterbegriffe
-alle Oberbegriffe
-alle verwandten Begriffe
-einzelne Begriffe
228
Thesauri
ausgewählte Begriffe
„Begriffskorb“
nächster Schritt:
Auswahl der Datenbank
229
Thesauri
Die ausgewählten
Begriffe werden
in die Suchmaske
übernommen und
mit dem Booleschen
ODER verbunden.
230
Thesauri
Relationen
• Assoziationsrelation
– nach DIN 1463 sehr allgemeine und unspezifische
Relation
– „verwandter“ Begriff
– Begriffsbeziehung, die weder hierarchischer noch
äquivalenter Art ist
– im Sinne von „siehe auch“ oder „denke auch an“
Abk.:
VB (verwandter Begriff)
RT (related term)
Bsp.:
Apfel VB Birne
Birne VB Apfel
231
Thesauri
Multilinguale Thesauri (nach DIN 1463/2)
•
•
•
Deskriptoren: müssen stets in allen Sprachen vorhanden
sein
Nicht-Deskriptoren: es können zusätzlich zu übersetzten
Nicht-Deskriptoren weitere Nicht-Deskriptoren für jede
Sprache eingeführt werden
Hierarchierelation(en): es gibt nur genau EINE
hierarchische Struktur
– ggf. Stützdeskriptoren verwendet
– ggf. neue Fremdworte in Sprache einführen
•
Assoziationsrelation: die Strukturen sollten multilingual
übereinstimmen, es kann jedoch sprachabhängige
Ausnahmen geben
232
Thesauri
Multilinguale Thesauri
•
•
Fremdwort in einer Sprache (aufnehmen; ggf. Definition)
Bsp.:
deutsch: Teenager
englisch: teenagers
D: Person zwischen 13 und 19 Jahren
Wortprägung (wenn nicht als Fremdwort aufnehmbar, dann
Übersetzung, ggf. mit Hinweis)
Bsp.:
französisch: enfant a cle
deutsch: Schlüsselkind
NE: equivalent du terme allemand
„Schlüsselkind“
233
Thesauri
•
Äquivalenz (problemlose Eins-zu-eins-Übersetzung)
– sprachliche Verwandtschaft
Bsp.: Physik (dt.) – physics (engl.) – physique (franz.)
– sprachliche Unabhängigkeit; semantische Gleichheit
Bsp.: Amsel (dt.) – blackbirds (engl.) – merle (franz.)
– gleicher oder ähnlicher Begriffsumfang, anderer Begriffsinhalt
Bsp.: alkoholfreies Getränk (dt.) – soft drinks (engl.) – boisson non
alcoolisee (franz.)
•
Probleme mit der Äquivalenz
– Teil-Äquivalenz (engerer oder weiterer Begriffsumfang)
Bsp.: Wissenschaft – science
Lösungsmöglichkeit: einen der Terme als Fremdwort einführen
Deskriptorsatz englisch: Wissenschaft; SN: loan term adopted from
German; NT science
Deskriptorsatz deutsch: Wissenschaft; UB Naturwissenschaft
234
Thesauri
•
Probleme mit der Äquivalenz
– Begriffszerlegung bzw. –kombination
Bsp.: skidding (engl.): rutschen und schleudern
Lösungsmöglichkeit: jeweils parallele Begriffe konstruieren
Deskriptorsatz englisch: skidding; NT skidding (forwards), NT skidding
(sideways)
Deskriptorsatz deutsch: Rutschen/Schleudern; UB Rutschen; UB
Schleudern
•
Homonym / Polysem sprachübergreifend
– Lösung: Sprachkürzel als Homonymzusatz
Bsp.: Gift (de) – poison; Geschenk – gift (en)
•
International gebräuchliche Abkürzungen
– Lösung: internationale Variante verwenden; nationale Variante als
Nicht-Deskriptor
– nur nationale gebräuchliche Abkürzungen vermeiden
235
Thesauri
Multilinguale Thesauri. Beispiel: Thesaurus Technik und Management
Zielsprache deutsch
Wörterbücher dt. – engl. und
engl. - dt.
236
Thesauri
Multilinguale Thesauri. Beispiel: UNESCO Thesaurus
Beispiel
Zielsprache englisch
Wörterbücher engl. – franz. –
span.
237
Thesauri
Multilinguale Thesauri. Beispiel: UNESCO Thesaurus
Deskriptorsatz
Abk.: MT: Micro-Thesaurus
FR: Deskriptor französisch
SP: Deskriptor spanisch
238
Thesauri
Aspekte
•
•
nähere Erläuterung eines Deskriptors mittels eines „Aspektes“
der Deskriptor bildet zusammen mit seinem Aspekt eine Einheit
(keine UND-Verknüpfung)
Quelle: EMBASE
bei Ovid
239
Thesauri
Relationen im Thesaurus, die über den DIN-Thesaurus
hinausgehen
• (Quasi-)Synonymie-Relation zwischen Deskriptoren
– haben wir bereits bei der Schlagwortmethode kennengelernt
– chronologische Relation (früher – später)
Abk.: Deskriptor(en) des früheren Gegenstandes CS
(chronologisch später) Deskriptor(en) des späteren
Gegenstandes; umgekehrt: CF (chronologisch früher)
– bei den Deskriptoren als Hinweis den Zeitraum angeben!
Bsp.:
Sindorf. H: eigenständige Gemeinde bis 31.12.1974
Kerpen-Sindorf. H: Ortsteil von Kerpen ab 1.1.1975
240
Thesauri
•
chronologische Relation
Bsp. (eineindeutige Relation):
Sindorf CS Kerpen-Sindorf
Kerpen-Sindorf CF Sindorf
Bsp.: (einmehrdeutige Relation):
Garmisch CS Garmisch-Partenkirchen
Partenkirchen CS Garmisch-Partenkirchen
Garmisch-Partenkirchen
CF Garmisch
CF Partenkirchen
– Die chronologische Relation kann u.U. über mehrere Schritte
laufen.
Bsp.:
Chemnitz CF Karl-Marx-Stadt
Karl-Marx-Stadt CF Chemnitz [vor 1953]
241
Thesauri
weitere Relationen (Vorschlag: Winfried Schmitz-Esser
für die EXPO 2000)
– Generik (analog zur Abstraktionsrelation des DIN-Thesaurus)
Abk.:
weiterer/engerer Begriff: WB – EB
Bsp.:
vegetal products EB coconuts
coconuts WB vegetal products
– Nützlichkeit
Abk.:
nützlich für (NF) – profitiert von (PV)
Bsp.:
tree planting NF water balance regulation
water balance regulation PV tree planting
– Schädlichkeit
Abk.:
schädlich für (SF) – wird beeinträchtigt von (WG)
Bsp.:
overfertilization SF biotopes
biotopes WG overfertilization
242
Thesauri
weitere Relationen (Vorschlag: Winfried
Schmitz-Esser für die EXPO 2000)
– Partition 1 (dinglich, gedanklich, ideell)
Abk.: ist Bestandteil von (BV) – setzt sich
zusammen
aus (BA)
Bsp.: booster BV missile
missile BA booster
– Partition 2 (geographisch, topographisch,
administrativ)
Abk.: ist Teil von (TV) – besteht aus den Teilen
(BT)
Winfried
Schmitz-Esser:
EXPO – INFO
2000. Visuelles
Bsp.:
South
America
TVBesucherinformationssystem
Latin Americafür Weltausstellungen. –
Berlin [u.a.]: Springer, 2000.
Latin American
BT South America
243
Thesauri
Allgemeine Thesaurusstruktur
Deskriptor m in
Sprache i
Deskriptor n in
Sprache 1
Deskriptor m in
Sprache 1
Deskriptor 1 in
Sprache n
Deskriptor n in
Sprache i
Rel 1
Rel 2
Nicht-Deskriptor
Sprache i
Deskriptor 1 in
Sprache i
Nicht-Deskriptor
Sprache i
Nicht-Deskriptor
Sprache i
Rel 2
Nicht-Deskriptor
Sprache i
Rel 1
Deskriptor 1 in
Sprache 1
244
Thesauri
Visualisierung eines Thesaurus für Laien
Darstellung eines Deskriptors
Deskriptor
Definition / Hinweise:
Graphik
oder
Videosequenz
text text text text text text text
Anzahl der Dokumente: [Zahl]
Thema merken
zurück zum Themenraum
245
Thesauri
Darstellung eines Deskriptors. Beispiel
Butter
Definition:
Graphik
oder
Videosequenz
(grch. „bútyron“: Kuhquark)
Speisefett, das aus Kuhmilch
gewonnen wird. Beim Buttern in der
Molkerei wird der reife Milchrahm
mechanisch bearbeitet, bis sich die
Fettkügelchen absetzen.
Anzahl der Dokumente: 13
Thema merken
zurück zum Themenraum
246
Thesauri
Darstellung der Relationen (Themenraum)
ist Bestandteil von
Deskriptor
Deskriptor
Deskriptor
Deskriptor
ist nützlich für
Deskriptor
Deskriptor
Deskriptor
Deskriptor
Deskriptor
Deskriptor
ist schädlich für
Deskriptor
Deskriptor
Deskriptor
Deskriptor
besteht aus den
Teilen
Deskriptor
Deskriptor
Deskriptor
Deskriptor
Deskriptor
Deskriptor
247
Thesauri
Darstellung der Relationen (Themenraum). Beispiel
ist Bestandteil von
Brotbelag
Brotbelag
Milch
Milch
ist nützlich für
Butter
Butter
Braten
Braten
Butterfett
Butterfett
besteht aus den
Teilen
CholesterinCholesterinspiegel
spiegel
ist schädlich für
Herz
Herz
Magen
Magen
Molke
Molke
Salz
Salz
248
Thesauri
• Thesaurusauf- und –ausbau
– Thesaurusaufbau
• Sammlung der Fachbegriffe durch (sprach-)empirische
Erhebungen; Quellen: Terminologie der Fachliteratur,
Experten, potentielle Benutzer
• Zusammenfassen (quasi-)synonymer Bezeichnungen;
Auswahl der (vorläufigen) Vorzugsbenennungen
• Überprüfung jeder Vorzugsbenennung („DeskriptorKandidat“); Kriterien für Deskriptoren:
–
–
–
–
–
relative Häufigkeit in der Literatur
erwartetes Vorkommen bei Abfragen
Art der Relationen zu bereits akzeptierten Deskriptoren
Authentizität der Terminologie des Fachgebiets
Zweckmäßigkeit für die Erfassung von Inhalt und Umfang des
Begriffs
249
Thesauri
• Thesaurusauf- und –ausbau
– Thesaurusausbau (Thesauruspflege)
• Eliminierung von Deskriptoren (sofern diese beim
Indexieren nicht oder kaum genutzt werden)
– alle Relationen des Deskriptors werden mit gelöscht
– beim Deskriptorsatz vermerken: verwendet bis ... [Datum]
– oder: Dokumente neu indexieren
• Differenzierung von Deskriptoren (sofern sehr viele
Dokumente darunter fallen)
– neue Deskriptoren als Unterbegriffe in den Thesaurus
einführen
– beim Deskriptorsatz vermerken: ohne Unterbegriffe
verwendet bis ... [Datum]
– oder: Dokumente neu indexieren
• Aufnahme neuer Deskriptoren (beim Aufkommen neuer
Terme im Fachgebiet)
– neue Deskriptoren in die Relationen einhängen
– beim Deskriptorsatz vermerken: verwendet ab ... [Datum]
250
Thesauri
• Indexieren mittels eines Thesaurus
– gleichordnendes Indexieren (nach DIN 31.623/2)
Deskriptoren werden einem Dokument gleichrangig und
unstrukturiert zugeordnet
Beispiel: Ein Dokument behandle im ersten Teil den
Export italienischer Weine nach Deutschland und im
zweiten Teil den Import deutscher Autos nach Italien.
Indexat:
Export; Import; Italien; Deutschland; Wein; Auto
Problem: führt u.U. zu Informationsballast (Bsp.: Suche
nach dem Export deutscher Weine mit dem Argument
„Wein AND Deutschland AND Export“ findet fälschlich
unser Beispiel)
251
Thesauri
•
Indexieren mittels eines Thesaurus
– syntaktisches Indexieren (nach DIN 31.623/3)
Deskriptoren werden einem Dokument unter Wahrung ihrer
thematischen Zusammenhänge zugeordnet (Bildung von
thematischen Teilmengen)
Indexat:
Wein – Export – Italien.
Wein – Import – Deutschland.
Auto – Export – Deutschland.
Auto – Import – Italien.
Italien – Deutschland – Außenhandel - Wein.
Italien – Deutschland – Außenhandel - Auto.
– Themenketten werden mit Abstandsoperator (etwa: SAME) und
nicht mit dem Booleschen UND durchsucht
– Probleme: wird ggf. von den Nutzern nicht verstanden; ist teuer
252
Thesauri
Syntaktisches Indexieren
Beispiel: HWWA
Zwei Themenketten
253
Thesauri
• Gewichtetes Indexieren
• Vorgehen
– Variante 1: intellektuelle Zuordnung von numerischen
Werten zu den einzelnen Deskriptoren (wird derzeit nicht
durchgeführt)
– Variante 2: Zwei-Klassen-Verfahren:
• Auszeichnung der zentralen Deskriptoren zu einem
Dokument als „Fokus“ (besonders wichtig in der
dokumentarischen Bezugseinheit abgehandelt)
• Ziel: Ermöglichen des Suchens nach nur solchen
Dokumenten, in denen das Thema zentral vorkommt
254
Thesauri
Klasse 1 – Deskriptoren
wichtig – Fokus
(mit Sternchen *)
Klasse 2 – Deskriptoren
Quelle: EMBASE bei Ovid
255
Thesauri
• Indexieren mittels eines Thesaurus. Vorgehen
– dokumentarische Bezugseinheit (quer)lesen
– Verstehen des Dokumenteninhalts
– besondere Konzentration auf Terme aus:
Titel
Einleitung
Zusammenfassung
Autorenabstract
Kapitelüberschriften
Bildtitel
hervorgehobene Textstellen
Sätze, die Schlussfolgerungen enthalten („Reizterme“:
also, somit, ...)
• häufig vorkommende Terme
•
•
•
•
•
•
•
•
256
Thesauri
• Indexieren
– Ermittlung der Terme
• Extraktionsmethode:
Entnahme von Termen, die im vorliegenden Text
vorkommen (Minimierung der Gefahr von
Missverständnissen)
• Additionsmethode:
Zuteilung von Termen, die im Text nicht enthalten
sind (Achtung: Fehlinterpretationen sind möglich)
einzig mögliche Methode bei nicht-textuellen Medien
(Bildern, Videosequenzen, ...)
– alle ermittelten Terme notieren
257
Thesauri
• Indexieren
– Aufsuchen der ermittelten Terme im Thesaurus
• ermittelter Term ist Deskriptor: Deskriptor übernehmen
• ermittelter Term ist Nicht-Deskriptor: zugehörigen
Deskriptor übernehmen
• ermittelter Term ist weder Deskriptor noch NichtDeskriptor: Gibt es einen bestpassenden anderen
Deskriptor? Wenn ja: diesen übernehmen
• Wenn nein: 1) Term in Vorschlagsliste für die Modifikation
des Thesaurus notieren; 2) ggf. Term als „freien Begriff“
dem Dokument zuordnen
• bei jedem Deskriptor den Relationen folgen: gibt es weitere
passende Deskriptoren bei Oberbegriffen, Unterbegriffen,
verwandten Begriffen usw.?
• bei mehreren Kandidaten in der selben Begriffsleiter: ggf.
nur den spezifischeren Deskriptor wählen (muss durch
Regelwerk geklärt werden)
258
Thesauri
• Kriterien der Deskriptor-Auswahl: Indexierungstiefe
• muss durch Regelwerk eindeutig vorgegeben sein (sonst
würde die Datenbasis uneinheitlich indexiert)
• Kriterium 1: Indexierungsbreite. Anzahl der zu vergebenden
Deskriptoren (pro Dokument, pro Seite, pro Zeichen, ...)
Bsp.: ifo Literaturdatenbank: ca. 0,5 bis 2 Deskriptoren pro
Textseite
Bsp.: Bibliodata: ca. 1 bis 2 Schlagworte pro Buch
• Kriterium 2: Indexierungsspezifität. Trennschärfe der
Deskriptoren
– bereits häufig vergebene Deskriptoren sind wenig selektiv
– Deskriptoren, die hoch in einer Begriffsleiter stehen, sind u.U.
wenig selektiv
– deshalb: wenig spezifische Deskriptoren möglichst mit anderen,
trennscharfen Deskriptoren kombinieren
259
Thesauri
• Kriterien der Deskriptor-Auswahl:
Dokumentationswürdigkeit von Deskriptoren
– analog zur Dokumentationswürdigkeit von Dokumenten
– (1) Relevanz im Dokument: Ist der Deskriptor im Rahmen
des Dokumentes wichtig?
– (2) Informationsbedarf der Nutzer: Braucht ein Nutzer das
Dokument, der nach dem Deskriptor sucht? Sucht ein
Nutzer überhaupt unter diesem Deskriptor nach dem
Dokument?
– (3) Bisheriger Stand der Datenbank: Gibt es „bessere“
Dokumente zu dem Deskriptor? Sagt das Dokument zum
Deskriptor etwas Neues aus?
260
Thesauri
•
Indexierungstiefe: Wie das Optimum finden?
– zu wenige oder zu spezifische Deskriptoren: Informationsverlust
– zu viele oder zu unspezifische Deskriptoren: Informationsballast
– „gute“ Indexierung: Gratwanderung zwischen Informationsverlust
und Informationsballast
•
Indexierungstiefe und Nutzertyp (Laie vs. Experte)
– Laie sucht Überblick UND Indexierungstiefe niedrig:
Rechercheergebnis zufriedenstellend (+)
– Laie sucht Überblick UND Indexierungstiefe hoch:
Rechercheergebnis bringt zu viele Treffer (-)
– Experte sucht Spezialwissen UND Indexierungstiefe niedrig:
Rechercheergebnis bringt zu wenige genaue Treffer (-)
– Experte sucht Spezialwissen UND Indexierungstiefe hoch:
Rechercheergebnis zufriedenstellend (+)
261
Thesauri
• Sicherung gleichbleibender Indexierungsqualität:
Indexierungskonsistenz
– Inter-Indexer-Konsistenz (Vergleich der Indexate zur
selben DBE verschiedener Indexer)
– Intra-Indexer-Konsistenz (Vergleich der Indexate des
selben Indexers zur selben DBE zu unterschiedlichen
Zeiten)
– bei der Produktion der Datenbasis ist eine möglichst
hohe Indexierungskonsistenz zu gewährleisten
– Methode: in periodischen Abständen (etwa: monatlich)
Tests durchführen; die Ergebnisse im Indexierer-Team
besprechen; dabei:
• Verbesserungen des Thesaurus (Thesauruspflege)
• Verbesserungen des Indexierungshandbuchs
262
Thesauri
• Thesauri. Fazit
– In der kommerziellen Informationswirtschaft sind die
Thesauri DIE Methode der Wissensrepräsentation.
– Thesauri eignen sich auch für den Einsatz bei Intranets
bzw. Enterprise Information Portals.
– Es existieren weltweit weit über 1.000 Thesauri.
– Der „Standard“: Der DIN-Thesaurus kennt Synonyme
(Nicht-Deskriptor – Deskriptor-Relation), Hierarchierelationen (Abstraktions- und Bestandsrelation) sowie
die Assoziationsrelation.
– Weitere (2-stellige) Relationen sind problemlos
hinzufügbar (etwa: Nützlichkeit – Schädlichkeit).
263
Thesauri
• Thesauri. Fazit
– Neben Profi-Oberflächen sollte man ThesaurusOberflächen für Laien herstellen, die diesen die
Navigation erleichtern.
– Thesauri werden ständig überarbeitet und dem Stand
der Terminologie eines Faches angepasst (Thesauruspflege).
– Indexierung geschieht entweder gleichordnend (der
Standardfall) oder syntaktisch (durch Markierung der
Themenketten).
– Die Qualität der Indexierung einer Datenbasis ist von der
Indexierungstiefe (Indexierungsbreite und –spezifität)
und von der Indexierungskonsistenz abhängig.
264
Thesauri
• Vorteile von Thesauri
– Navigation durch diverse Relationen möglich
– Können die Strukturen eines Fachgebiets umfassend
terminologisch abbilden
– Arbeiten mit der natürlichen Sprache (ggf. Nachteil:
Beschränkung auf eine Sprache; Ausgleich durch
multilinguale Thesauri)
– Sind (relativ) leicht modifizierbar (zumindest leichter als
Klassifikationssysteme)
265
Thesauri
• Nachteile von Thesauri
– Der Thesaurusaufbau und die Thesauruspflege ist
aufwendig und damit (z.T.: sehr) teuer.
– Laien kommen u.U. (insbesondere, wenn keine eigenen
Laien-Oberflächen geschaffen werden) mit Thesauri
nicht zurecht.
– Der Einsatz eines Thesaurus erfordert zusätzlich den
Einsatz spezifischer Software (etwa: Weiterleitung bei
der Eingabe von Nicht-Deskriptoren, Einbeziehen von
Deskriptoren aus Relationen in eine Suche)
– Wie bei der Klassifikation bildet ein Thesaurus nur
Begriffe und deren Relationen ab, aber nicht die
Sachverhalte, die dazu ausgesagt werden (und die das
Wissen des Fachbereichs repräsentieren)
266
Textsprachliche Methoden
Volltextspeicherung
Titelindexierung
Textwortmethode
Zitationsindexierung
267
•
Volltextspeicherung
– Speicherung des Fließtextes im ASCII-Format (für die Suche)
– Speicherung des Originallayouts im PDF-Format (für die
Anzeige)
– falls PDF nicht möglich: Fließtext (wenn möglich in QuasiFaksimile) und Links zu Graphiken oder Abbildungen
– Grundsatz: Volltexte nie „solo“ (ohne intellektuelle Inhaltserschließung oder ohne automatische Indexierung) ablegen
•
Suchfunktionalität bei Volltexten
– einfache Boolesche Retrievalsysteme ungeeignet
– Boolesche Systeme mit Abstandsoperatoren
Mindestanforderung
– Systeme mit automatischer Indexierung und mit Relevance
Ranking erforderlich
268
• Volltextspeicherung: Warum nicht den Volltext
ohne Inhaltserschließung?
– Das Vorkommen eines Wortes bedeutet nicht, dass auch
etwas darüber ausgesagt wird („Dieser Artikel sagt
nichts über die Zustände in Ungarn aus“ als Treffer
einer Suchfrage nach „Ungarn“).
– keinerlei kontrolliertes Vokabular zur Suche vorhanden:
• Probleme mit Synonymen und Homonymen
• Probleme mit Fremdsprachen
• elliptische Formulierungen oder Wortspiele
– Der Volltext solo erfüllt nicht die Anforderung eines
Informationsfilters.
– Volltext (ASCII) ist nur zur ergänzenden Suche geeignet.
269
• Volltextspeicherung
Zusammenspiel von:
Metadaten,
ASCII-Volltext,
Faksimile (bei
digitalen Dokumenten),
Kopien-Service
(bei nicht-digitalen
Dokumenten)
Beispiel:
Konzeption der deutschen
Virtuellen Fachbibliotheken
( EconDoc; GetInfo;
infoconnex; MedPilot)
270
– Übernahme von Stichworten aus den Sachtiteln von
Büchern oder Artikeln
– frühes Verfahren der Wissensrepräsentation; eingesetzt
vor allem bei Registern
– Methoden:
• KWIC (Keyword in Context)
• KWOC (Keyword out of Context)
• KWAC (Keyword and Context)
• Permutierte Stichworte
• Stichworte in grammatischer Grundform
• stets: Elimination von Stoppworten
271
Beispiel: Titel: Mehrwerte von Information – Professionalisierung
der Informationsarbeit (lfd.Nr.: 5)
KWIC
Mehrwerte von Information – Professionalisierung der Informationsarbeit
5
5
5
5
KWOC
Information
Informationsarbeit
Mehrwerte
Professionalisierung
Mehrwerte von ... – Professionalisierung der Informationsarbeit
Mehrwerte von Information – Professionalisierung der ...
... von Information – Professionalisierung der Informationsarbeit
Mehrwerte von Information – ... der Informationsarbeit
5
5
5
5
272
Beispiel: Titel: Mehrwerte von Information – Professionalisierung
der Informationsarbeit (lfd.Nr.: 5)
KWAC
Information
Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
Mehrwerte
Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
Professionalisierung Mehrwerte von Information – Professionalisierung der Informationsarbeit 5
Permutierte Stichworte (mit grammatischer Grundform)
Information – Informationsarbeit
Information – Mehrwert(e)
Information – Professionalisierung
Informationsarbeit – Information
...
5
5
5
5
273
– Vorteile
• schnell zu erstellen
• kostengünstig
• bei gewissen bibliothekarischen Projekten (etwa
Retrokatalogisierung): einzig praktikable Methode
– Nachteile:
• kein kontrolliertes Vokabular (analog zu den Problemen
der Volltextspeicherung)
• Informationsverlust
– je nach Dokumenttyp (sehr hoch bei Zeitungsartikeln, bei
Patenten und bei Büchern, weniger hoch bei wissenschaftlichen Artikeln)
– je nach Fach (hoch bei Geisteswissenschaften, weniger hoch
bei Naturwissenschaften und Medizin)
– Beispiel: Philosophie / Artikel: Verlust von über 80% im
Vergleich zur Textwortmethode
274
– die Nachteile überwiegen
– als einzige Methode der Wissensrepräsentation nicht
geeignet
– trotzdem: in Datenbanken spezielles Feld (bzw.
speziellen Tag bei HTML- bzw. XML-Dokumenten) für die
Aufnahme der Titel definieren, das u.U. im Retrieval
genutzt werden kann
– KWIC im Volltext bei der Ausgabe nutzen: die
Suchargumente im Kontext (hervorgehoben) anzeigen
KWIC bei der
Trefferliste von Google
275
Textwortmethode
entwickelt von:
Norbert Henrichs
an der
Forschungsabt. für
philosophische Information
und Dokumentation der
Universität Düsseldorf
(Ende der 60er Jahre des 20.
Jahrhunderts)
Ziel:
Entwicklung einer
wörterbuchunabhängigen
Dokumentationsmethode.
ursprünglicher Einsatzbereich:
Philosophie
Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969),
122-131.
276
• Textwortmethode
– Einsatzgebiet
• außerhalb fester Terminologien
– als einzige Methode (in Disziplinen mit prinzipiell nicht-fester
Terminologie; etwa: Philosophie)
– oder ergänzende Methode (zur Aufnahme von Begriffen, die
ein aktuell eingesetztes Klassifikationssystem oder ein
Thesaurus nicht enthalten)
• wenn noch keine Terminologie vorhanden ist
(Textwortmethode bringt empirisches Termmaterial für den
Aufbau von Dokumentationssprachen)
– Basis der Wissensabbildung
• ausschließlich der konkret vorliegende Text
• KEIN vorgegebenes Begriffssystem
277
• Textwortmethode
– Methode
• Auswahlverfahren zur Markierung von „Sucheinstiegen“ in
Texte (N.B.: „Die Sprache ist das HAUS des Seins“,
Heidegger. Texte werden als Häuser verstanden, die durch
unterschiedliche Einstiege betreten werden.)
• syntaktisches Indexieren: keine Einzelthemen, sondern
thematische Ketten
– Auswahlregeln
Textwörter aus Titeln und Zwischentiteln
häufig vorkommende Textwörter
Textwörter aus textlichen Schlüsselstellen
Bevorzugung von Neologismen
Bevorzugung von informationsreichen (Mehrwort-)
Ausdrücken
• je nach Textdichte ca. 0,5 bis 2 Textwörter pro Textseite im
Durchschnitt
•
•
•
•
•
278
• Textwortmethode
– Varianten
• nur originalsprachig (Henrichs‘ Methode). Problem: Nutzer
muss alle einschlägigen Textwörter in allen Textsprachen
der Datenbank kennen
• originalsprachig mit zusätzlicher Übersetzung in eine
Zielsprache (Methode der Datenbank „Grazer Schule“)
– Indexierung
• intellektuell (sehr aufwendig, daher sehr teuer)
• Variante eines automatischen Indexierens (bislang noch
nicht erprobt)
• ermöglicht stets gewichtetes Retrieval
279
• Textwortmethode
– informetrische Verdichtungsmethoden
• innerhalb genau einer Dokumentationseinheit
– Gewichtungswert der Terme
• gesamte Datenbasis oder Teilmenge davon
– Wortfelder
– Häufigkeit und Wichtigkeit von Termen
– semantische Netze von Termen (Themennetze)
Wolfgang G. Stock: Textwortmethode [Norbert Henrichs zum 65.]. – In: Password Nr 7+8 (2000), S. 26-35.
280
•
Textwortmethode. Beispiel eines Indexats
Meinong, Alexius: Über Gegenstandstheorie, in: Untersuchungen
zur Gegenstandstheorie und Psychologie, hg. v. Alexius Meinong.
Leipzig: Johann Ambrosius Barth, 1904, 1-50.
Thematischer Rahmen:
Sachthemen: Gegenstandstheorie (1-18); Etwas (1); Gegenstand
(1-15); Wirkliche, das (2-3); Erkenntnis (2,10); Objektiv (3,10); Sein
(4,6-8); Existenz (4-5); Bestand (4); Sosein (5-6); Nichtsein (5);
Unabhängigkeit (6); Gegenstand, reiner (7-8); Außersein (7-8);
Quasisein (7); Psychologie (9); Erkenntnisgegenstand (10); Objekt
(10); Logik, reine (11); Psychologismus (11-12); Erkenntnistheorie
(12); Mathematik (13,18); Wissenschaft (14,18);
Gegenstandstheorie, allgemeine (15); Gegenstandstheorie,
spezielle (15,18); Philosophie (17); Metaphysik (17); Gegebene, das
(17); Empirie (17); Apriorische, das (17); Gesamtheit-derWissenschaften (18)
Namen: Mally, Ernst (6); Husserl, Edmund (11); Höfler, Alois (16)
281
•
Textwortmethode mit Übersetzungsrelation. Beispiel eines
Indexats
Veber, France: 07. O samoopazovanju kot posebni metodi
znanstvenega raziskovanja, in: France Veber: Analiticna
Psihologija. - Ljubljana: Kleinmayr & Bamberg, 1924, 39-50.
Thematischer Rahmen:
Sachthemen in Originalsprache: Sachthemen in Einheitssprache:
samoopazovanje (1-6)
Selbstbeobachtung (1-6)
metoda (1)
Methode (1)
dozivljaj (2,5)
Erlebnis (2,5)
psihologija (3)
Psychologie (3)
opazovanje (4)
Beobachtung (4)
pristnost (5)
Echtheit (5)
dozivljanje (5)
Erleben (5)
spoznanje (6)
Erkenntnis (6)
282
Syntagmatische Relationen zwischen den Begriffen
Basis für
– Thesaurusaufbau
– Wissenschaftsgeschichte
– Nutzung als
„einstellbarer“
Thesaurus
– Syntagma als
Basis für
Paradigma
283
• Textwortmethode
– Vorteile
• nimmt die Sprache der Autoren ernst
• keinerlei paradigmatische Relationen, kein kontrolliertes
Vokabular
• einsetzbar in Gebieten, in denen Dokumentationssprachen nicht
anwendbar sind
• objektive Basis (im Gegensatz zu Dokumentationssprachen, die
die Texte stets durch die Brille ihres Systems sehen); damit
relativ interpretationsarm
• Basis für diverse Weiterverarbeitungen (Thesaurusaufbau,
Wissenschaftsgeschichte usw.)
– Nachteile
• aufwendig und teuer
• u.U. mangelhafte Indexierungskonsistenz
• Retrieval schwierig (kann jedoch durch Übersetzungen und
durch informetrische Funktionen gemildert werden)
284
(Citation Indexing)
entwickelt von:
Eugene Garfield
am
Institute for Scientific
Information (Philadelphia;
europäische Zentrale: London)
(Mitte/Ende der 50er Jahre des
20. Jahrhunderts)
Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979.
285
•
Einsatzgebiete: überall, wo zitiert wird
– Recht: Urteile
– Patente
– wissenschaftliche Literatur
•
•
•
Grundidee: Das Notieren von Fußnoten (oder anderen
bibliographischen Angaben) gibt über den Inhalt eines
wissenschaftlichen Artikels Auskunft
das Verfahren erfordert nur minimalen intellektuellen
Aufwand und ist daher - als Methode der
Inhaltserschließung - relativ kostengünstig herzustellen
das Institute for Scientific Information (ISI) verfügt nahezu
über eine Monopolstellung bei der zitatenanalytischen
Auswertung wissenschaftlicher Literatur (Ausnahme: u.a.
CiteSeer)
286
Zitat 1
Zitat 2
1 Stegmüller, Wolfgang: Probleme und Resultate der
Wissenschaftstheorie und Analytischen Philosophie. Band 4: Personelle und Statistische Wahrscheinlichkeit.
Studienausgabe Teil A. - Berlin; Heidelberg; New York:
Springer, 1973, S. 5.
2 ebd., S. 5.
3 ebd., S. 5.
Mehrfachnennungen werden übergangen
4 ebd., S. 6.
5 ebd., S. 6.
6 Haller, Rudolf: Wandlungen der Wissenschaftsauffassung. In: Erhard Busek; Wolfgang Mantl; Meinrad Peterlik (Hrsg.):
Wissenschaft und Freiheit. - Wien: Verlag für Geschichte
und Politik; München: Oldenbourg, 1989, S. 46-58, hier: S.
57.
7 vgl. ebd., S. 55.
287
Zeit
Zitierender Artikel
„Zitation“
Informationsübermittlung
Reputation
„Referenz“
Zitierter Artikel
288
• Zitationsindexierung beim ISI. Geschichte
•
•
•
•
•
•
•
•
•
•
Vorgeschichte: Shepards‘ Citations, Zitationsindex für
Gerichtsurteile (das Vorbild)
1955: Garfield entwickelt die Idee wissenschaftlicher
Zitationsindices
1958: Gründung des Institute for Scientific Information (ISI)
in Philadelphia, MA
erstes Produkt des ISI: Current Contents (CC)
1961: Science Citation Index (SCI)
1973: Social Sciences Citation Index (SSCI)
1976: Journal Citation Reports (JCR)
1978: Arts & Humanities Citation Index (A&HCI)
1997: Web of Science (WoS)
2001: Essential Science Indicators (ESI); Web of Knowledge
289
• Zitatenindexierung wissenschaftlicher
Zeitschriftenliteratur beim Web of Science:
– SCI. Zuwachs: 17.000 Quellenartikel mit 300.000
Zitationen pro Update (d.h. pro Woche); ab 1945
– SSCI. Zuwachs: 2.800 Quellenartikel mit 50.000
Zitationen pro Woche; ab 1956
– A&HCI. Zuwachs: 2.200 Quellenartikel mit 15.000
Zitationen; ab 1975
• zusätzlich via Online-Archive (z.B. DIALOG)
recherchierbar sowie (als Auftragsforschung)
beim ISI (Research Services Group)
290
•
Kriterien der Zeitschriftenauswahl (derzeit: rund 8.000 ausgewertet)
•
Kernzeitschriften pro Disziplin (Ausnutzung des Garfieldschen Gesetzes) Problem: Gesetz sagt etwas über eine Anzahl von Zeitschriften im Kern aus,
welche Titel jeweils darin sind, ändert sich andauernd
deshalb: intellektuelle Durchsicht neuer (oder neu angebotener) Zeitschriften
(ca. 2000 Zeitschriften jährlich, Auswahl von rund 10-12%)
Auswahlkriterien nach „Basic Standards“
– regelmäßige und termingerechte Erscheinungsweise
– aussagekräftiger Zeitschriftentitel
– aussagekräftige Artikeltitel
– vollständige bibliographische Angaben bei Fuß- und Endnoten
– englische Artikeltitel (bei nicht-englischer Literatur: Übersetzungen)
– englische Abstracts, englische Keywords
– Peer Review
– internationale Ausrichtung (ggf. auch wichtige regionale Ausrichtung)
– Neuigkeit des Inhalts (liegen schon ähnliche Zeitschriften beim ISI vor?)
Expertenurteile
•
•
•
291
• Retrievalfunktionen bei Zitationsdatenbanken
– Rekonstruktion der
Informationsübermittlungen nach „hinten“,
d.h. zur zitierten Literatur (via Referenzen)
– Rekonstruktion der
Informationsübermittlungen nach „vorne“, d.h.
zur zitierenden Literatur (via Zitationen)
– assoziatives Retrieval nach „verwandter“
Literatur (über gemeinsame Referenzen)
– (Zugang zu den Volltexten)
292
Referenzen
Zitationen
Web of Science
Trefferanzeige
293
Web of Science
Anzeige der Zitationen
294
• Zitationsindexierung. Probleme
– Autoren zitieren nicht alle einschlägigen Quellen (u.a.
„Super-Klassiker“)
– Autoren zitieren Quellen, die nicht einschlägig sind (u.a.,
weil sie die eigene Meinung stützen)
– Autoren haben unterschiedliche Zitationsstile
– Selbstzitationen („Inzest“)
– Zitationskartell (Selbstzitation einer Gruppe)
– Zitationsebenen (nach Blaise Cronin)
•
•
•
•
•
V. Lebenswerk (im Text, zitatenanalytisch nicht erfasst)
IV. Motiv (im Text, zitatenanalytisch nicht erfasst)
III. Werk: Buch, Artikel (zitatenanalytisch sauber fassbar)
II. Kapitel, Abschnitt (wird Ebene III zugeschrieben)
I. Detail (wird Ebene III zugeschrieben)
295
• Zitationsindexierung beim ISI. Probleme
– Repräsentativität der selektierten Zeitschriften von
Disziplin zu Disziplin (und von Land zu Land)
unterschiedlich
– Titel der Quellenartikel nur in englisch
– Zitationen werden (mehr oder minder) einheitlich
abgekürzt; für Laien: „Verstümmelung von Fußnoten“
– versteckte Literaturangaben im Text werden nicht immer
(bei SCI und SSCI: gar nicht) berücksichtigt
– Publikations- und Zitationsraten des ISI haben große
Bedeutung in der Wissenschaftsforschung und
Wissenschaftsevaluation (auch z.B. bei
Lehrstuhlbesetzungen); deshalb sehr wichtig: Kenntnis
der methodischen Probleme bei der
Zitationsindexierung)
296
• Navigation auf den
Zitationen bei
CrossRef
– CrossRef:
Zusammenschluss
wichtiger
Wissenschaftsverlage mit
digitalen Volltexten
– Die Artikel sind –
über die
Referenzen –
miteinander verlinkt
– Technik: DOI
(digital object
identifyer)
297
• Shepardizing
–
–
–
–
bewertende Zitationsindexierung
Anwendungsfeld: juristische Entscheidungen
eingesetzt bei LexisNexis
Klassen (1. Hierarchieebene)
• Warnung: negative Referenz (Signalfarbe: rot)
• in Frage gestellt – Gültigkeit eines Urteils wird hinterfragt
(orange)
• Vorsicht: mögliche negative Sicht (gelb)
• positiv – Fall wird zustimmend diskutiert (grün)
• neutral – weder negativ noch positiv (blaues "A")
• Zitationsinformationen in anderen Quellen zugänglich (blaues
"I")
298
• Shepardizing
299
• Assoziative Suche über Zitationen / LexisNexis
300
• Zitatenindexierung
– Vorteile:
• ergänzt durch die besondere Form der Wissensabbildung
jede andere Erschließungsmethode
• ermöglicht Navigation über die Referenzen (CrossRef, ISI)
und Zitationen (ISI, CiteSeer, Shepards‘)
• ermöglicht assoziatives Retrieval über die Menge gemeinsamer Referenzen bei unterschiedlichen Artikeln
– Nachteile:
• nur Artikel in Zeitschriften, Proceedings und
Sammelbänden (keine Monographien) als Quellen
• bei Referenzen wird u.U. „geschummelt“
• praktische Probleme beim ISI: u.a. Auswahl der
Quellenwerke
301
Nicht-thematische Informationsfilter
302
Nicht-thematischer Informationsfilter (1):
Zielgruppe
•
•
•
jeder dokumentarischen Bezugseinheit die spezifische(n)
Zielgruppe(n) zuordnen
Grund: nicht jedes Dokument ist für jeden Nutzertyp
interessant
Bsp.: bei fachlicher Literaturdatenbank:
–
–
–
–
–
–
•
interessierter Laie
Schüler (Oberstufe – Leistungskursniveau)
Student (B.A.-Niveau)
Student (M.A.-Niveau)
Forscher (mit allgemeinem Fachwissen)
Forscher (mit speziellem Fachwissen)
im Bsp.: Abfrage im Feld „Zielgruppe“ frei selektierbar;
keine Zugangsbeschränkung
303
Zielgruppe
•
Bsp.: bei unternehmensspezifischer Datenbank (im Intranet
und Extranet):
–
–
–
–
–
–
–
–
–
•
(registrierter) Zulieferer
(anderer) Zulieferer
(registrierter) Kunde
(anderer) Kunde
Unternehmensmitarbeiter
Management
Forscher / Entwickler
Marketing
Betriebsrat
im Bsp.: Zugang zu bestimmten Dokumentationseinheiten
nur mit gesondertem Passwort
304
Zielgruppe
•
Bsp.: bei Datenbank über Kunstwerke:
–
–
–
–
–
–
•
interessierter Laie
Kaufinteressent
Künstler
Kunsthistoriker
Politiker
Journalist
für jede Datenbank sind die Zielgruppen zu bestimmen
(Segmentierung über empirische Erhebung oder –
einfacher, aber unzuverlässiger – über „intuitive“
Definition)
305
Art der Themenbehandlung
•
•
•
Niveau der dokumentarischen Bezugseinheit hinsichtlich
der Darstellung
nicht zu verwechseln mit dem Dokumenttyp (wie Zeitschriftenartikel, Artikel in Proceedings, Buch, Rezension)
Bsp.: bei fachlicher Literaturdatenbank
–
–
–
–
•
Überblicksartikel
empirische Studie
theoretische Abhandlung
methodologische Studie
Die Bezeichnungen für das Dokumentniveau sind als
kontrolliertes Vokabular abzulegen.
306
Variante 1: Art der Themenbehandlung als Deskriptor
Nachteil: „versteckt“ bei den thematischen Deskriptoren
Quelle: EMBASE
bei Ovid
307
Variante 2: Art der Themenbehandlung als separates Feld
Quelle: TEMA bei
FIZ Technik
308
Verfallsdatum
•
•
•
•
nur bei zeitkritischen Dokumenten
Angabe eines Datums, nach dem die Dokumentationseinheit aus dem aktiven Informationssystem entfernt wird
entweder: löschen
oder: im Archiv weiterhin bereithalten
309
Automatische Indexierung
310
•
•
•
•
•
Automatische Indexierung unter Nutzung von Informationsfiltern
Hinweis: ohne definierte Informationsfilter: Textstatistik /
Linktopologie (Vorl. „Einführung in die Informationswissenschaft“)
Voraussetzung: Einsatz informationslinguistischer Verfahren
Varianten:
(1) ohne Dokumentationswerkzeug: Klassifikation von
Dokumenten nach Ähnlichkeit
– a) permanent: Klassifikation über die gesamte Datenbasis
– b) temporär: für jede Suchanfrage
•
(2) mit Dokumentationswerkzeug (Schlagwortliste,
Klassifikationssystem, Thesaurus): Dokumentanalyse –
Zuordnung von Notationen, Schlagworten bzw. Deskriptoren
311
• Klassifikation von Dokumenten nach Ähnlichkeit
•
•
•
•
•
•
Ziel: Zusammenfassen ähnlicher Dokumente unter eine Klasse
(möglichst große Ähnlichkeit innerhalb der Klasse, möglichst
große Unähnlichkeit zu anderen Dokumenten bzw. Klassen)
Basis: Worte und (erkannte) Phrasen von jeweils zwei
Dokumenten in Grundform oder Wortstamm
Anzahl der Worte/Phrasen in Dokument A: a
Anzahl der Worte/Phrasen in Dokument B: b
Anzahl der in A und B gemeinsam vorkommenden
Worte/Phrasen: g
ggf. zusätzlich: jeweils Gewichtungswert (IDF, WDF, Position)
jedes Wortes bzw. jeder Phrase (i)
Edie Rasmussen: Clustering Algorithms. – In: William B. Frakes; Ricardo Baezo-Yates (Hrsg.): Information
Retrieval. Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 419-442.
312
• Ähnlichkeitsmaße
•
Koeffizient nach DICE
•
Ähnlichkeit(A,B) = 2g / (a + b)
•
2 * Σ (Gewicht(i,A) * Gewicht(i,B))
gewichtete Ähnlichkeit(A,B) = ------------------------------------------------
Σ (Gewicht(i,A))2
+
Σ (Gewicht(i,B))2
wobei i : Wort/Phrase in A und B
313
•
•
Klassifikation von Dokumenten nach Ähnlichkeit
Ähnlichkeitsmaße
•
Koeffizient nach JACCARD
•
Ähnlichkeit(A,B) = g / (a + b - g)
Σ (Gewicht(i,A) * Gewicht(i,B))
•
Ä(A,B) = --------------------------------------------------------------------------------------------
Σ (Gewicht(i,A))2
+
Σ (Gewicht(i,B))2 – Σ (Gewicht(i,A) * Gewicht(i,B))
314
•
Cosinus-Koeffizient
•
Ähnlichkeit(A,B) = g / (a * b)1/2
Σ (Gewicht(i,A) * Gewicht(i,B))
•
Gew. Ähnlichkeit(A,B) = -----------------------------------------------------------( Σ (Gewicht )2 * Σ (Gewicht )2 )1/2
(i,A)
(i,B)
315
•
•
•
•
Beispiel: Dokument A: 100 Worte (a=100); Dokument B= 200 Worte
(b=200); gemeinsame Worte in A und B: 15 (g=15)
Ähnlichkeit(A,B) nach DICE = 2g / (a + b), also: 30 / (100 + 200) = 0,1
Ähnlichkeit(A,B) nach JACCARD = g / (a + b - g), also
15 / (100 + 200 – 15) = 15 / 285 = 0,053
Cosinus-Ähnlichkeit(A,B) = g / (a * b)1/2, also: 15 / (100 * 200)1/2 =
15 / (20.000)1/2 = 15 / 141,42 = 0,106
316
•
•
Errechnung der Ähnlichkeit für alle Dokumentpaare (einer
Datenbank oder eines Suchergebnisses)
Herstellen einer Ähnlichkeitsmatrix
Dok1
Dok2
Dok3
...
Dokn
Dok1
1
Ä(2,1)
Ä(3,1)
Dok2
Dok3
1
Ä(3,2)
1
Ä(n,1)
Ä(n,2)
Ä(n,3)
Dokn
1
317
•
•
Clusteranalyse
Single-Link-Verfahren:
– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem
Cluster enthalten ist
– Hinzufügen von allen Dokumenten, die mit A ähnlich sind (d.h. die
einen Schwellenwert überschreiten), sagen wir: C und D
– Hinzufügen von allen Dokumenten, die mit B ähnlich sind, sagen wir:
E, F und G
– Hinzufügen von allen Dokumenten, die mit C ähnlich sind
– usw. ...
– ... bis kein Dokument mehr vorhanden ist, das den Schwellenwert
überschreitet
– nächstes Paar (wie oben)
•
das Single-Link-Verfahren erzeugt u.U. sehr große Cluster
318
•
Single-Link-Verfahren. Beispiel. Schwellenwert Ähnlichkeit = 0,2
0,30
A
B
Klasse
0,25
0,25
0,24
C
D
0,27
0,21
H
0,29
E
F
0,29
I
0,22
J
G
319
•
Clusteranalyse
•
Complete-Link-Verfahren:
– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem
Cluster enthalten ist
– Hinzufügen von allen Dokumenten, die mit A und B ähnlich sind (d.h.
einen Schwellenwert überschreiten)
– und die untereinander ähnlich sind (d.h. den Schwellenwert
überschreiten)
•
das Complete-Link-Verfahren erzeugt u.U. sehr kleine Cluster
320
•
Complete-Link-Verfahren. Beispiel. Alle Ähnlichkeitswerte liegen
über dem Schwellenwert
A
B
C
Klasse
F
H
G
321
•
Clusteranalyse
•
Group-Average-Link-Verfahren:
– Mittelstellung zwischen Single-Link- und Complete-Link-Verfahren
– Ausgang: wie Single-Link-Verfahren
– Errechnung der durchschnittlichen Ähnlichkeit aller Paare
– durchschnittliche Ähnlichkeit als Schwellenwert
– alle Paare verbleiben im Cluster, deren Ähnlichkeit über dem
Schwellenwert liegen
322
•
Group-Average-Link-Verfahren. Beispiel. Entfernen der Paare, die
unter der Durchschnittsähnlichkeit im Single-Link-Cluster (im
Beispiel: 24,9) liegen
A
0,30
B
Klasse
0,25
0,29
0,25
C
E
F
0,27
H
0,29
G
323
•
Nicht-hierarchische Klassifikation
•
Hierarchische Klassifikation
– mehrfache Anwendung der Clusterbildung innerhalb bereits
erkannter Cluster
– Abbruch, wenn unterer Schwellenwert (minimale Anzahl von
Dokumenten im Cluster) erreicht wird
•
letzter Schritt: Finden einer aussagekräftige Klassenbenennung
(Wort(e)/Phrase(n) mit höchsten Gewichtungswerten)
•
Einsatzgebiet der Klassifikation nach Ähnlichkeit
– unternehmensinterne Dokumentsammlungen, die überhaupt nicht
indexiert worden sind
324
• Automatische Zuordnung von Schlagworten
•
•
Voraussetzung: Dokumentationswerkzeug (Schlagwortliste, Klassifikationssystem, Thesaurus) liegt vor
Ansatz 1. Probabilistische Verfahren:
Wie groß ist die Wahrscheinlichkeit, dass einem gegebenen
Dokument ein bestimmtes Schlagwort (Schlagwort i.e.S.,
Notation, Deskriptor) zuzuordnen ist?
– Voraussetzung: Vorliegen von Wahrscheinlichkeitsinformationen (zum „Training“ des Systems)
– Beispiel: AIR/PHYS
325
• Automatische Zuordnung von Schlagworten
•
•
•
Ansatz 2: Textstatistische Verfahren: Welche Textworte
(Phrasen) mit welcher Gewichtung müssen vorliegen, damit
ein bestimmtes Schlagwort zuzuordnen ist?
Ansatz 3: Regelbasierte Verfahren: Wenn Textworte und
ihre Umgebung gewissen Regeln folgen, wird ein
bestimmtes Schlagwort zugeordnet.
Im praktischen Einsatz: Mischformen aus den drei
Ansätzen
– Beispiele: Reuters – Factiva („Intelligent Indexing“),
Dialog Profound („InfoSort“), Dialog NewsEdge („Realtime Content Refinery System“) – Convera
(„RetrievalWare“)
326
• Automatische Zuordnung von Schlagworten probabilistisches Verfahren
•
Beispiel AIR/PHYS
•
Projekt der TH Darmstadt mit FIZ Karlsruhe
•
Physikdatenbank – Erschließungsbasis: Abstracts –
Sprache: englisch
•
Erschließungswerkzeug: Physik-Thesaurus
•
ca. 392.000 intellektuell indexierte Dokumente (Abstracts
und Deskriptoren) liegen vor und dienen als Basis für das
Wörterbuch PHYS-PILOT
Peter Biebricher; Norbert Fuhr; Gerhard Lustig; Michael Schwantner; Gerhard Knorz: The automatic indexing
system AIR/PHYS – From research to application. – In: Proceedings of the 11th Annual International Conference
on Research and Development in Information Retrieval. – New York: ACM, 1988, 333-342.
327
• AIR/PHYS
•
•
Wörterbuch PHYS/PILOT
Vokabular aus den intellektuell indexierten Dokumenten
– #Dok(t) : Anzahl der Dokumente, die den Term t im Abstract
enthalten
– #Dok(t,s) : Anzahl der Dokumente aus #Dok(t), die den
Deskriptor s enthalten
•
•
Wahrscheinlichkeit für ein Term-Deskriptor-Paar
z(t,s) = #Dok(t,s) / #Dok(t)
Schwellenwerte
– #Dok(t,s) = 2
– z(t,s) = 0,29
•
Ergebnis: 800.000 Term-Deskriptor-Paare, davon 350.000
genutzt
328
• AIR/PHYS - Wörterbuch PHYS/PILOT – Beispiel
Term
Deskriptor
stellar wind
STELLARS WINDS
molecular outflow
hot star wind
terminal stellar wind velocity
#Dok(t,s)
359
11
13
12
#Dok(t)
479
19
17
13
z(t,s)
0,74
0,57
0,76
0,92
Relationen im Thesaurus
• Nicht-Deskriptor – Deskriptor
• Hierarchie
• Antonymie
• formaler Einschluss (Bsp.: collision – atom collision)
329
• AIR/PHYS - Indexierung
Dokument d – Deskriptor s
Indexierungsgewicht
g = a(x(d,s))
Relevanzbeschreibung
x(d,s)
•
a(x(d,s)) ist abhängig von
–
–
–
–
z(t,s) – t ist im Abstract vorhanden, t-s ist als Relation erkannt
Häufigkeit des Auftretens von s im Abstract
Auftreten von s im Titel
... weitere 30 Komponenten
330
• AIR/PHYS – Indexierung
•
•
•
a ist weiterhin abhängig von Deskriptor – Deskriptor – Relationen
(etwa Begriff – Oberbegriff)
die Berechnung von a(x(d,s)) durchläuft mehrere Iterationsrunden
Transformation der gewichteten Deskriptorkandidaten in
ungewichtete (0-1-Entscheidung)
– wenn a(x(d,s)) größer als / gleich Schwellenwert Æ d wird durch s
indexiert
– wenn a(x(d,s)) kleiner als Schwellenwert Æ s wird nicht
berücksichtigt
•
Güte der automatischen Indexierung (Stand: 1987)
– 19% der Dokumente: von Indexern als brauchbar gewertet
– 63%: brauchbar bei kleineren Korrekturen
– 18%: unbrauchbar
331
• AIR/PHYS – Indexierung
•
•
•
•
•
•
nur 44% der Deskriptoren sind durch die Relation z fundiert (also
durch die bereits erkannten Zusammenhänge zwischen
intellektuell zugeteilten Deskriptoren und Termen im Abstract)
bei halbautomatischer Indexierung (d.h. Fehlerkorrektur der
automatisch generierten Deskriptoren durch professionelle
Indexer) steigt die Anzahl der erkannten Zusammenhänge
zwischen t und s
das Wörterbuch wird fortgeschrieben
das System wird dadurch „trainiert“
das System müsste entsprechend fortlaufend besser werden
... dies allerdings nur in der Theorie – die Datenbank PHYS und
damit deren automatische Indexierung wurden inzwischen
eingestellt
332
• Automatische Zuordnung von Schlagworten –
regelbasiertes Verfahren
•
Beispiel Construe-TIS
•
Projekt von Reuters Ltd. in Kooperation mit der Carnegie
Group (Pittsburgh)
•
Datenbank mit Agenturmeldungen und Zeitungsartikeln –
Erschließungsbasis: Volltexte – Sprachen: zunächst
englisch, derzeit: 22
•
Erschließungswerkzeug: Reuters-Thesaurus (derzeit:
„Factiva Intelligent Indexing“)
Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news
stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications
of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.
333
• Topic Identification System (TIS)
•
Phase 1: Begriffserkennung
•
Begriff wird durch das Vorkommen bzw. Nicht-Vorkommen
von Worten bzw. von Phrasen erkannt
•
Beispiel: Begriff GOLD (im Sinne einer Ware)
•
Operator &n : „und nicht in der selben Phrase“ (weitere
Operatoren: „im selben Satz“, „im selben Dokument“)
•
beim Begriffssatz GOLD hinterlegt:
(gold (&n (reserve ! medal ! jewelry))
•
im Text: „... gold production ...“ Æ GOLD
•
im Text: „... gold medal ...“ Æ NULL
334
•
Phase 1: Begriffserkennung
•
Zuordnung eines Gewichtungswertes zu den Begriffen in
Abhängigkeit von gemeinsam vorkommenden Termen
•
Beispiel: Begriff FOREIGN EXCHANGE
•
Satz 1: „... the Fed intervented in the money market ...“
•
Satz 2: „... currency speculation ...“
•
Satz 1 hat eine höhere Wahrscheinlichkeit für FOREIGN
EXCHANGE als Satz 2
335
•
Phase 2: Regeln für Kategorisierung (Klassierung)
•
Wenn-dann-Regeln mit Booleschen Operatoren; angewandt
auf erkannte Begriffe
•
erkannter Begriff: „concept“; vorgegebener Deskriptor:
„category“
•
Beispiel: Zuordnung des Deskriptors AUSTRALIAN
DOLLAR zu einem Dokument
•
zu beachten: Dollars gibt es auch in den USA, in Singapur
usw.
336
•
•
Phase 2: Regeln für Kategorisierung (Klassenbildung)
Regel:
(if
test:
(or
[australian-dollar-concept]
(and [dollar-concept]
[australia-concept]
(not [us-dollar-concept])
(not [singapure-dollar-concept])
(not ...))
action:
(assign australian-dollar-category))
•
Solche Regeln können auf Satz-, Absatz- oder Textebene
angewandt werden, alternativ auch auf Wortabstände.
337
•
•
Ein Text mit dem Satz
„Australia announced today that it would devalue the
dollar.“
bekommt nach der Regel den Deskriptor AUSTRALIAN
DOLLAR zugeordnet.
•
weitere Regeln berücksichtigen die Anzahl des
Vorkommens eines Begriffs oder die Position im Text
338
•
•
Regel
(if
test: or
(and
[gold-concept :scope headline 1]
[gold-concept :scope body 1])
[gold-concept :scope body 4])
action: (assign gold catagory))
•
Anmerkung: Diese Regel kann durch textstatistische Maße
(WDF, IDF, Positionswert) noch verfeinert werden.
339
Weiteres Beispiel:
Convera
RetrievalWare
340
Abstracts
341
Abstracts
•
•
•
•
•
•
Brigitte Endres-Niggemeyer: Summarizing Information. –
Berlin [u.a.]: Springer, 1998.
Edward T. Cremmins: The Art of Abstracting. - Philadelphia:
ISI Press, 1982.
Harold Borko; C.L.Bernier: Abstracting Concepts and
Methods. – New York: Academic Press, 1975.
Josef Koblitz: Methoden des Referierens von Dokumenten.
– Leipzig: Bibliographisches Institut, 21968.
Rainer Kuhlen: Informationsaufbereitung III: Referieren
(Abstracts – Abstracting – Grundlagen). – In: Grundlagen
der praktischen Information und Dokumentation. –
München: Saur, 52004, 189-206.
DIN 1426: Kurzreferate.
342
Abstracts
• Inhaltsangaben nach DIN 1426
– Formen von Inhaltsangaben:
• Auszug (Inf.verdichtung: nicht geeignet, da selektiv)
• Zusammenfassung (Inf.verdichtung: nicht geeignet, da Kenntnis
des Textes vorausgesetzt wird)
• Rezension (Inf.verdichtung: nur sehr bedingt geeignet; i.d.R. zu
lang – günstig aber als Zusatzinformation)
• Literaturbericht (Inf.verdichtung über mehrere Dokumente,
wegen zu großer Länge nicht geeignet)
• Annotation (Inf.verdichtung über Stichworte: nicht geeignet, so
etwas macht man mittels Thesaurus, Klassifikation oder
Textwortmethode)
• Inhaltsverzeichnis (Inf.verdichtung: bei Monographien bedingt
geeignet)
• Sammelreferat (Inf.verdichtung über mehrere Dokumente; sehr
geeignet)
• Kurzreferat / Abstract (Inf.verdichtung eines Dokuments; sehr
geeignet)
343
Abstracts
• Inhaltsangaben nach DIN 1426
– Kurzreferat / Abstract (bei genau einer DBE – der Standardfall)
Sammelreferat (bei mehreren DBE):
•
•
•
•
•
Vollständigkeit
Genauigkeit
Objektivität
Kürze
Verständlichkeit
– Ziele:
• grundlegende Inhalte der Dokumente sollen vom Nutzer schnell
und exakt erkannt werden
• die Relevanz der Dokumente für eine Fragestellung muss klar
werden
• Nutzer muss entscheiden können, ob der Volltext benötigt wird
• letztlich: Fundierung einer ja/nein-Entscheidung, ob der Volltext
eingesehen wird (dem Link gefolgt wird; das Dokument gekauft
oder eine Übersetzung in Auftrag gegeben wird)
344
Abstracts
• Kurzreferat / Abstract
– Gliederung nach DIN 1463
• zentrale Aussage des Dokuments
• ggf. Dokumenttyp spezifizieren (etwa: Forschungsbericht; Letter)
• ggf. Art der Themenbehandlung nennen (Überblick, theoretische
Arbeit, empirische Arbeit)
• Hypothesen
• Zielsetzung
• Bezug zu anderen Arbeiten
• Methodik (Untersuchungsgegenstand, -methoden, -techniken)
• Ergebnisse und Schlussfolgerungen
• Herkunftsvermerk: entweder „Autor“ oder Kürzel des Bearbeiters
– Länge
• Kurzmitteilung: max. 200 Zeichen
• Zeitschriftenartikel: max. 500 Zeichen
• umfangreiche Monographie: max. 1.000 Zeichen
345
Abstracts
– Autorenabstract
• Vorteile:
– liegt mit der Publikation direkt vor
– Autor bringt einschlägiges Fachwissen mit
• Nachteile:
– Autor ist nie objektiv
– Autorensprache kann durchaus unverständlich sein
– Inter-Abstractor-Konsistenz nicht gegeben
– Fremdabstract
• Vorteile:
– objektiver (und wahrscheinlich verständlicher) als ein
Autorenabstract
– Konsistenz ist trainierbar
– dokumentarisch-informationswissenschaftlicher Sachverstand
• Nachteile:
– muss erstellt werden (es fallen Kosten an)
– Fachwissen ist nicht immer ausreichend vorhanden
346
Abstracts
– Sprache
• in Zielsprache(n) der Datenbasis
• Vorteil für Nutzer: Kurzüberblick auch über Dokumente in
Sprachen, die der Nutzer nicht beherrscht
• deshalb sinnvoll anzuschließen: Übersetzungsservice für
die Volltexte
• bei digital vorliegenden Dokumenten: u.U. langt zunächst
eine automatische Übersetzung (Bsp.: AltaVista‘s
Babelfish oder Google‘s „translate tool“)
347
Abstracts
– NICHT ins Abstract gehören
• Titel (wäre redundant)
• Negativa (wäre im Retrieval über den Abstract-Index irreführend)
– Problem: Wahrheitsgehalt
• Lösung 1: Referieren ohne Überprüfung des Wahrheitsgehalts
der Vorlage („... Die Quadratur des Kreises arbeitet nach der
Methode ...“)
• Lösung 2: Überprüfung des Wahrheitsgehaltes der Vorlage und
Markieren von zweifelhaften Aussagen („... Verf. behauptet, die
Quadratur des Kreises geschehe nach der Methode ...“)
– Typen des Kurzreferats / Abstracts
• indikatives Referat
• informatives Referat
• analytisches Referat
348
Abstracts
• Kurzreferat / Abstract: Was wird aufgenommen?
– das, worum es in einem Text geht – „aboutness“
• extensionale Aboutness: inhärente Aboutness eines
Textes – diese ist Basis für Abstracts
• intensionale Aboutness: Bedeutung (Stellenwert) eines
Textes im Kontext anderer Texte – nicht für Abstracts
geeignet (für Intertextualität ist die Zitationsindexierung
zuständig)
– im Sinne der Textlinguistik: „Makrostruktur“ eines
Textes
• Entscheidung, was weggelassen wird
• Entscheidung, was (aus den speziellen Aussagen)
verallgemeinert wird
Helen R. Tibbo: Abstracting, Information Retrieval and the Humanities. – Chicago; London: American Library
Association, 1993. (Chapter 2: Abstracts and Abstracting. Fundamental Considerations, 18-39).
349
Abstracts
• Kurzreferat / Abstract: homomorphe versus
paramorphe Reduktion
Text mit
Makrostruktur
homomorphe Reduktion
350
Abstracts
• Kurzreferat / Abstract: homomorphe versus
– isomorphe Reduktion: die Makrostrukturen von Text
und Abstract sind gleich (etwa: Thema A im Text 25%
und Thema B im Text 16% des Umfangs, dann auch im
Abstract A 25% und B 16%) – faktisch nicht
durchführbar
– homomorphe Reduktion: die Makrostrukturen von Text
und Abstract sind ähnlich – bei Abstracts anzustreben
– paramorphe Reduktion: die Makrostrukturen von Text
und Abstract sind unterschiedlich (böse gesagt: das
Abstract liegt „daneben“ [para, grch. = neben]) – oder
u.U. positiv: perspektivisches Abstract
351
Abstracts
• Texttypologie
– erzählende Texte (Geschichten, Geschichte, ...)
– prozedurale Texte (Gebrauchsanweisungen, Rezepte, ...)
– verhaltensbeeinflussende Texte (politische Reden,
Werbetexte, ...)
– erklärende Texte (wissenschaftliche Literatur, „Essays“, ...)
• disziplinspezifische Texte
– etwa: naturwissenschaftliche Texte mit i.d.R. straffer und
anerkannter Strukturierung (hieran orientiert sich die
deutsche Norm DIN 1463)
– etwa: geisteswissenschaftliche Texte mit i.d.R. eher loser
Strukturierung, wobei die Struktur allgemein kaum
vorgegeben ist
• Abstracts sind abhängig vom Texttyp der Vorlage
und (bei erklärenden Texten) von der Fachdisziplin
352
Abstracts
•
•
disziplinspezifisches Abstracting. Beispiel
bei technischen Dokumenten (etwa Patenten oder
Gebrauchsmustern): zusätzlich zentral wichtige Zeichnung
353
Abstracts
• Indikatives Kurzreferat / Abstract
Inhaltsanalyse
referierwürdiges Dokument
referierwürdige Inhaltskomponenten
- Themen (weiße Kästen)
- Aussagen zu den Themen
(schraffierte Kästen)
Indikatives Abstract:
Wiedergabe der Themen in vollständigen Sätzen
354
Abstracts
• Indikatives Kurzreferat / Abstract - Beispiel
•
•
•
Russ, Hans: Einzelhandel (Ost): Optimistische
Geschäftserwartungen
Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3
Abstract: Die Geschäftslage des ostdeutschen Einzelhandels im
Januar 1993 wird beschrieben. Skizziert wird der in den nächsten
sechs Monaten zu erwartende Geschäftsverlauf. Im einzelnen
geht es um den Gebrauchsgüterbereich und den Verbrauchsgüterbereich.
355
Abstracts
• Informatives Kurzreferat / Abstract
Inhaltsanalyse
Informatives Abstract:
Wiedergabe der Aussagen zu den Themen
in vollständigen Sätzen
356
Abstracts
• Informatives Kurzreferat / Abstract – Beispiel
•
•
•
Abstract: Die Geschäftslage des ostdeutschen Einzelhandels hat
sich im Januar 1993 im Vergleich zum Vormonat deutlich
verschlechtert. Hinsichtlich des in den nächsten sechs Monaten
zu erwartenden Geschäftsverlaufs äußerten sich die Teilnehmer
am ifo Konjunkturtest allerdings zuversichtlich. Im Gebrauchsgüterbereich ist die Geschäftslage im Durchschnitt zufriedenstellend; im Verbrauchsgüterbereich überwiegen negative Urteile.
357
Abstracts
• Analytisches Kurzreferat / Abstract (Strukturreferat)
Inhaltsanalyse
Analytisches Abstract:
Wiedergabe der Themen sowie der
Aussagen zu den Themen
in tabellarischer Form
358
Abstracts
• Analytisches Kurzreferat / Abstract – Beispiel
•
•
•
•
•
•
•
•
•
•
Inhalt:
Gegenstand:
Ostdeutscher Einzelhandel im Januar 1993
Methode:
ifo Konjunkturtest
Ergebnisse:
--- Geschäftslage: merklich verschlechtert gegenüber Vormonat
--- Erwartungen:
zuversichtlich (für die nächsten 6 Monate)
--- Gebrauchsgüter: schwache Umsatzeinbußen, zufriedenstellend
--- Verbrauchsgüter: starke Umsatzeinbußen, 1/3 aller
Testteilnehmer äußern sich unzufrieden
359
Abstracts
• Kurzreferat / Abstract - Vor- und Nachteile
Vorteile
Nachteile
indikativ
kostengünstig
informationsarm
unübersichtlich
informativ
informationsreich
bei langen Vorlagen kaum
durchzuführen
unübersichtlich
teuer
analytisch
informationsreich
strukturiert
sehr teuer
nicht für jede Art von
Vorlagen geeignet
360
Abstracts
• Sammelreferat
– Auswahl eines aktuellen („heißen“) Themas
– Zusammenstellung der Menge einschlägiger Dokumente
– Abstractingprozess wie bei Einzelabstract; jeweils
jedoch bezug auf die Einzeldokumente nehmen (etwa
durch End- oder Fußnoten)
– außer Abstracting auch redaktionelle Arbeiten
– Länge: 1 bis 3 Seiten
– in den Endnoten oder in einer Bibliographie die
bibliographischen Angaben der Dokumente nennen
(ggf. dahin verlinken)
– Einsatzgebiet: thematischer Pushdienst
361
Abstracts
• Sammelreferat – Beispiel: KnowledgeSummaries
Willi Bredemeier: Knowledge Summaries. Journalistische Professionalität mit Verbesserungsmöglichkeiten bei
Themenfindung und Quellenauswahl. – In: Password Nr. 3 (2004), 10-15.
362
Abstracts
• Sammelreferat – Beispiel: KnowledgeSummaries
363
Abstracts
• Automatisches Abstracting
– Bemühungen seit Jahrzehnten; jedoch bisher in der Praxis wenig
erfolgreich; nur experimentelle Systeme
– Basismethode: Extraktion der „wichtigen“ Sätze aus einem Text
anhand von Wahrscheinlichkeitswerten (P) für „Wichtigkeit“
• (1) Satzlänge (Mindestlänge: etwa 5 Worte):
P(1) = 0 für Sätze mit weniger als 5 Worten); P(1) = 1 für alle anderen
Sätze
• (2) Indikatorphrasen (Sätze, die gewisse Phrasen – z.B. „in
conclusion“ – enthalten, werden hoch bewertet):
P(2) für Sätze mit Indikatorphrasen > P(2) für Sätze ohne
Indikatorphrasen
Brigitte Endres-Niggemeyer: Textzusammenfassung. – In: Computerlinguistik und Sprachtechnologie. Eine
Einführung. – München: Elsevier – Spektrum 22004, 511-516.
364
Abstracts
• (3) Absatzstruktur (Sätze in den vorderen und hinteren Ansätzen
werden höher bewertet als solche in mittleren Absätzen):
P(3) für Sätze in den ersten n Absätzen bzw. in den letzten m
Absätzen > P(3) für alle anderen Sätze
• (4) Sätze ranken nach Termgewichten (für alle Terme WDF und IDF
berechnen – Termgewichte jedes Satzes addieren):
P(4) = Summe der Termgewichte im Satz
• (5) ggf. Sätze, in denen Akronyme vorkommen (z.B. IBM, SPD), höher
bewerten:
P(5) für Sätze mit einem Akronym > P(5) für Sätze ohne Akronyme
• Errechnung der Wichtigkeitswahrscheinlichkeit für jeden Satz:
P(Satz) = P(1) * P(2) * P(3) * P(4) * P(5)
365
Abstracts
• Sortierung der Sätze nach P(Satz)
• Auszählen der Länge (Anzahl der Zeichen) für jeden Satz
• Vergleich mit Schwellenwert (maximale Länge des Abstracts)
• Markieren der ersten n Sätze, deren Gesamtzeichenanzahl unter der
maximalen Abstractlänge liegt
• Herstellen der ursprünglichen Reihenfolge für diese n Sätze
• diese n Sätze bilden das Abstract
– verfeinerte Methoden
• Vergleiche mit „Trainingsdaten“ (Abstracts professioneller –
menschlicher – Abstracter sowie ihrer Ausgangstexte)
• Kürzen von Sätzen
• Zusammenfassen mehrerer Sätze
366
Abstracts
• Abstracts. Fazit
– Referate ergänzen den Titel einer DE und ermöglichen dem
Nutzer zu entscheiden, ob die DBE benötigt wird (auch bei
fremdsprachlicher Literatur: Übersetzung!)
– außer bei sehr kurzen Dokumenten (z.B. Kurzmeldungen bei
Zeitungsartikeln) benötigt jede DE ein Abstract
– die Informationsverdichtung geschieht so knapp, aber auch so
aussagekräftig wie möglich, die Makrostruktur der Vorlage bleibt
(nahezu) erhalten (homomorphe Reduktion)
– Referate sind abhängig vom Texttyp und vom Fach der DBE
– Typen der Informationsverdichtung des Inhalts eines Dokuments
sind das indikative, informative (Standard) und das analytische
Abstract
– technische Dokumente benötigen u.U. eine Zeichnung zur
Unterstützung des Abstracts
– Informationsverdichtung mehrerer Dokumente geschieht über
Sammelreferate, eingesetzt als thematischer Pushdienst
367
Abstracts
• Abstracts. Fazit
– automatisches Abstracting: Berechnung der „Wichtigkeit“ von
Sätzen innerhalb eines Dokuments (derzeit wenig ausgereifte
Systeme)
368
Informationsextraktion
369
• Informationsextraktion
– bei der Suche nach oder der laufenden Beobachtung von
konkreten Sachverhalten im WWW
– nicht: Angabe einer Webseite
– sondern: Angabe des Sachverhalts (und nur diesen) analog zu den analytischen Kurzreferaten
– die Sachverhalte werden den Webseiten entnommen (aus
diesen „extrahiert“)
– derzeitige Einsatzgebiete: vergleichende Informationen
aus Webseiten bei Spezialsuchmaschinen oder Shopping
Malls (z.B. Preisvergleiche); Informationsagenten
Günter Neumann: Informationsextraktion. – In: Computerlinguistik und Sprachtechnologie. Eine
Einführung. – München: Elsevier – Spektrum 22004, 502-510.
370
– vorgegeben: Menge von Objekten bzw. Merkmalen, die einen
Sachverhalt bilden (z.B. Produktbezeichnung und Preis, Autor und
Buch)
– Extraktionsprozess: Wrapper („Einpacker“)
• Startmenge: „typische“ Webseiten für die gesuchte Relation (bei Brin: 5
Bücher mit deren Autorennamen)
• Retrieval: Suche nach Webseiten, in denen die gesuchte Relation
vorkommt (also die 5 Bücher und Autorennamen)
• Erkennen der Muster des Ausdrucks des Sachverhaltes (der „patterns“)
– Worte, die den Zusammenhang ausdrücken – z.B. „by author“,
„written by“
• Suche nach allen Webseiten, die einen solchen Sachverhalt
ausdrücken
– Ergebnis: konkrete Werte der Merkmale (z.B. Karl May - Winnetou)
Sergey Brin: Extracting patterns and relations from the World Wide Web. – In: Lecture Notes in Computer Science,
Vol. 1590. – Berlin [u.a.]: Springer, 1998, 172-183.
371
hier: bis Rang 80
Meldung /data sheet oder Katalog
hier: ab Rang 81
automatisch
(Informationsextraktion)
372
373
– Ansätze:
– (1) „Knowledge Engineering Approach“
die Sachverhalte sowie die Muster (patterns) werden
intellektuell erstellt
– (2) „Automatically Trainable Systems“
Suche nach Sachverhalten und Mustern mittels
informationsstatistischer und –linguistischer
Algorithmen (z.T. Verwendung von Trainingsdaten –
etwa indexierte Korpora)
– Weiterentwicklung der Forschungen zur Informationsextraktion durch MUC („Message Unterstanding
Conferences“ – seit 1987)
Douglas E. Appelt; David J. Israel: Introduction to Information Extraction Technology. – In: International Joint
Conference on Artificial Intelligence 1999 (IJCAI-99).
Line Eikvil: Information Extraction from World Wide Web. A Survey. – Oslo: Norwegian Computing Center,
1999. – (Technical Report; 945).
374
– Einsatz beim konkreten Informationsbedarf (Faktenfrage)
• Kennzeichnung des Typs des Informationsbedarfs
durch Nutzer
• Beschreibung des gesuchten Sachverhalt (etwa
1. „Wie heißt die Hauptstadt von NRW?“
2. „Wie heißen die Hauptstädte aller 25 EU-Länder?“
• automatisches Vorgehen nach Ansatz (2)
„Automatically Trainable Systems“ – ggf. Dialog zur
Abklärung der Mustererkennung
• Aufsuchen der Webseiten – Informationsextraktion
• Ausgabe nur des nachgefragten Sachverhalts
zu Frage 1: Hauptstadt NRW : Düsseldorf (URL: ...)
zu Frage 2: Hauptstadt Belgien : Brüssel (URL: ...)
Hauptstadt Dänemark : Kopenhagen ...
Hauptstadt Zypern : Nikosia (URL: ...)
375
• Informationsagenten
– laufende Beobachtung von Sachverhalten (Fakten) im
WWW
– periodischer Einsatz der Informationsextraktion („SDI
für Fakten“)
– Einsatzgebiet (Beispiel):
• Wettbewerberbeobachtung (Personen im
Management, Preisänderungen, Umsatzzahlen, ...)
Nicholas Kushmerick; Bernd Thomas: Adaptive Information Extraction. Core Technologies for Information Agents. –
Koblenz: Universität Koblenz-Landau / Institut für Informatik, 2003. – (Fachberichte Informatik 9/2003).
376
• Informationsextraktion. Fazit
– Informationsextraktion: Erkennen einzelner Sachverhalte,
Extrahieren konkreter Sachverhalte aus digitalen Dokumenten
• Einsatz innerhalb spezifischer Wissensbereiche (z.B.
Produkte) – recht ausgereifte Systeme (z.B. Froogle)
• Einsatz im WWW allgemein (beim konkreten
Informationsbedarf) – derzeit Ansätze, keine laufenden
Systeme)
– Informationsagenten: SDI für Sachverhalte
377
Das „semantische Web“:
Ontologien – Topic Maps
378
Semantisches Web
•
Dieter Fensel et al. (Eds.): Spinning the Semantic Web. –
Cambridge, Mass.; London: MIT, 2003.
•
Richard Widhalm; Thomas Mück: Topic Maps. Semantische
Suche im Internet. – Berlin [u.a.]: Springer, 2002.
•
Tim Berners-Lee: Semantic Web – XML 2000. (Folien).
Online: www.w3.org/2000/Talks/1206-xml/2k-tbl
379
Semantisches Web
• Ontologien
– bilden ab: Objekte (durch Begriffe) – analog zu
Dokumentationssprachen und
– (zumindest rudimentär) Sachverhalte (durch Sätze in
einer formalisierten Sprache) – analog zu Abstracts
– Die „Ontologie“ ist die explizite Spezifizierung eines
(i.d.R. sehr kleinen) Wissensbereiches, so dass dieser in
einem Informationssystem abgebildet werden kann.
– Aspekte
•
•
•
•
•
•
Relationen (2-stellig)
Funktionen (n-stellige Relationen)
Feldschema (Kategorien – Top Level Begriffe)
Klassen (Allgemeinbegriffe)
Instanzen (Individualbegriffe)
Axiome (Regeln)
380
Semantisches Web
• Ontologien
– Ursprung: Forschungen zur Künstlichen Intelligenz (u.a.
von Tom R. Gruber – Stanford Knowledge Systems Lab)
– da Ontologien jeweils einen engen
Wissensbereich repräsentieren, sind
Konkordanzen zwischen unterschiedlichen Ontologien nötig
– Realisierung in XML
– RDF: Resource Description Framework
– innerhalb RDF: URI (Universal Resource
Identifier) – benutzt wie eine URL bei Links
(enthält die Relationen bzw. Funktionen zwischen den
Klassen bzw. Instanzen)
Tom R. Gruber: A translation approach to portable ontologies. – In: Knowledge Acquisition 5 (1993), 199-220.
381
Semantisches Web
• Ontologien
Das
World Wide
Web in
heutiger
Form
Quelle:
W3C
382
Semantisches Web
• Ontologien
Das
World Wide
Web
mit
Ontologie
Quelle:
W3C
383
Semantisches Web
• Ontologien
– Schichtenmodell von
Berners-Lee
Tim Berners-Lee: Semantic Web – XML 2000. (Folien). Online: www.w3.org/2000/Talks/1206-xml/2k-tbl
384
Semantisches Web
• Ontologien
– Abfrageagenten
• übersetzen die Frage des Nutzers
• kommunizieren via Ontologien mit Informationssystemen
• geben bei (einfachen) Faktenfragen eine Antwort
• bereiten Transaktionen vor
• können sich auch auf (intelligente) Geräte richten
– Beispiel 1: Gerätesteuerung
• Stereoanlage läuft – Telefon klingelt: wenn Nutzer ans
Telefon geht, schaltet sich die Stereoanlage leiser (Vor.:
Stereoanlage ist URI; Regel: Wenn Telefongespräch, dann
Anlage leise)
385
Semantisches Web
• Ontologien
– Beispiel 2: Faktenfrage
•
•
•
•
•
•
•
•
•
•
•
•
Anfrage: „Welche Arznei hilft gegen Vampirbisse?“
Klassen: in Kategorie Arznei: Arznei, Vampirbissarznei
... in Kategorie Krankheit: Vampirbiss
... in Kategorie Nebenwirkungen: Unsterblichkeit
Instanz: Dracuex
Funktion: ... hilft gegen ... mit Nebenwirkung ... - 3-stellige
Relation
Axiom: [Arznei] hilft gegen [Krankheit] mit Nebenwirkung
[Nebenwirkung]
Relation: Vampirbissarznei OB Arznei
Relationen: ... ist ein/e ...; ... hat Nebenwirkung ...
Axiom: Dracuex ist eine Vampirbissarznei
Axiom: Dracuex hat Nebenwirkung Unsterblichkeit
Ausgabe: Dracuex hilft gegen Vampirbisse mit
Nebenwirkung Unsterblichkeit
386
Semantisches Web
• Ontologien
– Beispiel 3: Transaktionsvorbereitung
• Anfrage: Wo ist das nächstgelegene koreanische
Restaurant, das gebratenen Hund führt und in einer halben
Stunde für zwei Personen einen Tisch frei hat?
– Einsatzbereiche von Ontologien
• Intranet von Unternehmen
• Kataloge im E-Commerce
• Informationssysteme in (überschaubaren)
Wissensbereichen
387
Semantisches Web
• Topic Maps
– Begriffe und (rudimentär) Sachverhalte
(wie bei Ontologien)
– Topic Maps sind eigene Dokumente, die
auf andere Dokumente verweisen (letztere
haben mit den Topic Maps nichts zu tun)
– aufgebaut seit Beginn der 90er Jahre;
federführend u.a. Steven R. Newcomb
und Michel Biezunski
– geregelt durch ISO 13.250 (1999)
– Basistechnik: XML (wichtig: DTD)
– unter Verwendung von: URI
– Einsatzbereiche:
• Aufbaustruktur einer Website
• Zugriff auf Dokumentmengen mittels
unterschiedlicher Topic Maps
Michel Biezunski
Steve Newcomb
388
Semantisches Web
• Topic Maps
– Topic: Begriff
– Topic Name: ähnlich wie Deskriptor im Thesaurus (mit
Nicht-Deskriptoren als Synonymen)
– Scope: Lösung des Homonymproblems (durch Zusatz)
– Type: Einordnung eines Topic in eine Kategorie („vom
Typ“)
– Association Role: (n-stellige) Relation
– Facet: Aussage zu einem Topic
– Occurrence: Dokument (u.a. Webseite) – liegt außerhalb
des Topic Map
389
Semantisches Web
• Topic Map (Beispiel)
Occurrence
Type
Land
vom Typ
Frankreich
vom Typ
grenzt an
hat
10 Mio.
Einwohner
ist HauptStadt von
Paris
Scope
Deutschland
war
Währung in
Role
Facet
Mark
Geographie
Topic
„D-Mark“
„Deutsche Mark“
390
Semantisches Web
• Topic Maps
•
Website mit
Topic Map
Michel Biezunski; Steven R. Newcomb: Topic Maps: The Inventor‘s Perspective on Subject-based Access.
(Vortrag bei der Library of Congress, Okt. 2003).
Online: www.coolheads.com/PUBS/LC2003/
391
Semantisches Web
• Informationsverdichtung durch Ontologien oder
Topic Maps
– Vorteile
• nicht nur Begriffssysteme, sondern (zumindest
rudimentär) Sachverhalte
• „semantisches Retrieval“
• zur Wissensabbildung in kleinen (überschaubaren)
Wissensdomänen geeignet
– Nachteile
• der Wissensstand einer Zeit wird festgeschrieben (zwar
nicht prinzipiell, aber faktisch wegen riesigem Aufwand,
das semantische Netz aktuell zu halten)
• sehr aufwendig in der Entwicklung
392
Informationsfilter und
Informationsverdichter im Überblick
393
Informationsfilter und –verdichter im Überblick
Informationsfilter
Thematische Filter
Textsprachl. Methoden
Volltext (ASCII)
Titelindexierung
Textwortmethode
Nicht-thematische Filter
Dokumentationsmethoden
Klassifikation
Schlagwortmethode
Thesaurus
Zielgruppe
Themenbehandlung
394
Informationsverdichter
Referate
Informationsagent
semantisches Web
Kurzreferat
indikativ
Ontologie
informativ
Topic Map
analytisch
Sammelreferat
395
Informationsarchitektur
•
•
•
•
•
•
•
•
Aufbau eines unternehmensweiten Informationssystems
Zusammenwirken von (Wirtschafts-)Informatik (Hardware,
Software, Netze), Betriebswirtschaftslehre (Management,
Organisation) und Informationswissenschaft (Content,
Informationsfilter, Informationsverdichter)
Sicherstellen der Interoperabilität (etwa mittels XML)
Metadaten (Aufbau von Regelwerken für Dokumentauswertung)
Informationsfilter (Aufbau einer oder mehrerer Begriffsordnungen)
Informationsverdichtung (Aufbau von Regelwerken für Abstracting)
Nutzerschnittstellen
Organisation des laufenden Betriebs
Alan Gilchrist; Barry Mahon (Eds.): Information Architecture. Designing Information Environments for
Purpose. – London: Facet Publ., 2004.
396
Informationsarchitektur – strategisches
Management der Informationsfilter und -verdichter
•
•
•
•
Aufbau des/der grundlegenden Informationsfilter/s
Grundsatzentscheidung: Welche Methoden einsetzen?
Kandidaten:
– Klassifikation
– Schlagwortmethode
– Thesaurus
– Textwortmethode
– Zitationsindexierung
– Ontologie / Topic Map
stets zusätzlich: Informationsverdichtung durch Abstracting
397
Informationsarchitektur – strategisches Management der
Informationsfilter und -verdichter
•
•
•
Festlegen von dokumentarischer/n Bezugseinheit/en und
Dokumentationswürdigkeit
Variante 1: ein Kriterienpaket für alle Dokumente, stets
gleichbleibende DBE
Variante 2: mehrere Kriterienpakete, abhängig von der Relevanz der
Dokumente für die Datenbank („Schalenmodell“ von Krause)
– Kern (hochrelevante Dokumente): tiefe und qualitativ hochwertige
Erschließung; Abstracts
– Schale 1 (weniger relevante Dokumente): nur Erschließung (mit
Thesaurus, Klassifikation, Schlagwortmethode), keine Abstracts
– ...
– Schale n (noch weniger relevante Dokumente): nur automatische
Titelindexierung
Jürgen Krause: Informationserschließung und –bereitstellung zwischen Deregulierung, Kommerzialisierung und
weltweiter Vernutzung – Schalenmodell. – Bonn: IZ Sozialwissenschaften, 1996. – (IZ-Arbeitsbericht; 6).
398
399
Informationsarchitektur – strategisches
Management der Informationsfilter und –verdichter
• Dokumentationseinheiten selbst erstellen und/oder
zukaufen?
•
soweit externe Dokumentationseinheiten vorhanden sind:
kaufen!
•
mittels unternehmensinternen Indexierungsmethoden und
Hilfsmitteln neu indexieren (möglichst vollautomatisch)
•
interne Dokumente können nur selbst bearbeitet werden
400
externe
Dokumentationseinheiten:
zukaufen! neu indexieren!
Quelle:
Factiva
interne Dokumente:
selbst indexieren!
401
Informationsarchitektur – Organisation des
laufenden Betriebs
•
•
•
•
Input: Wer erstellt die Dokumentationseinheiten?
Variante 1: intellektuell
– zuerst: Verfasser der dokumentarischen Bezugseinheiten
(Abstracts, Deskriptoren/Notationen/Schlagworte)
– dann: Korrekturen / Ergänzungen durch Informationswissenschaftler
Variante 2: automatisch
– Verfasser stellen die Dokumente in das Informationssystem (Abstracts möglichst intellektuell erstellen!)
– Indexieren erfolgt durch Software (etwa FAST, Convera
oder Verity)
Variante 3: semiautomatisch
402
laufenden Betriebs
•
•
Datenbank: Wer pflegt die Datenbank und die Informationsfilter?
– technisch: Netzwerkadministration
– Content: Content-Administration (Informationswissenschaftler)
Output: Wer recherchiert?
– einfache Anfragen; Bearbeiten der SDI: Endnutzer
– komplizierte Anfragen; Anlegen der SDI: ContentAdministration
– weitere Dienste (z.B. Mitarbeiterzeitschrift, nicht georderte
Pushdienste): Content-Administration
403
laufenden Betriebs
•
•
Aufbau der grundlegenden Informationskompetenz beim
Endnutzer
– Einführung in die Systemtechnik (Softwareschulung)
– Einführung in die Informationsfilter (zum Selbstindexieren
und zum Recherchieren)
– Einführung in die Informationsverdichtung (zum
Verfassen der Abstracts)
– laufende Betreuung („Coaching“) der Nutzer
Wie?
– Seminare (werden nicht immer besucht, da die laufende
Arbeit Vorrang hat)
– „Lunch-time Kurse“ (Nutzung der Mittagspausen)
404
Informationsfilter und –verdichter hinsichtlich
Präkombinationsgrad der Begriffe
Präkombination
Klassifikation
++
Schlagwortmethode 0
Thesaurus
0
Textwortmethode
0
Zitationsindexierung 0
Abstracts
0
Ontologie / Topic Map ++
Präkoordination
+
+
+
++
0
0
++
Postkoordination
0
++
++
0
+
0
+
405
Informationsfilter und –verdichter hinsichtlich Suchen
und Stöbern („Browsen“)
Klassifikation
Schlagwortmethode
Thesaurus
Textwortmethode
Abstracts
Ontologie / Topic Map
Suchen
+
+
++
+**
+
0
++
Stöbern
++
0
++*
+***
0
0
++
* : nur bei graphischer Aufbereitung
** : Probleme wg. Vielfalt der Textworte und deren Sprachen
*** : nur bei informetrischer Aufbereitung
406
Informationsfilter und –verdichter hinsichtlich Spracheinsatz
kontroll.
Vokabular*
Klassifikation
0
Schlagwortmethode +
Thesaurus
+
Textwortmethode
0
Zitationsindexierung 0
Abstracts
0
Ontologie / Topic Map +
Notationssprache
+
0
0
0
0
0
0
natürliche
Sprache**
0
0
0
+
+***
+
0
* : Vokabular einer natürlichen Sprache
** : ohne jede terminologische Kontrolle
*** : Zitation als Teil natürlicher Sprache
407
Informationsfilter und –verdichter in einem
multinationalen (mehrsprachigen) Unternehmen
mehrsprachig einsetzbar?
Klassifikation
++
Schlagwortmethode
+*
Thesaurus
++**
Textwortmethode
0
++
Abstracts
+*
+**
* : Zugriff nur über genau eine Sprache
** : nur wenn multilingual, ansonsten Zugriff nur über genau eine
Sprache
408
paradigmatischer und syntagmatischer Relationen
paradigm.
Relation
+
0
+
0
0
0
+
Klassifikation
Schlagwortmethode
Thesaurus
Textwortmethode
Abstracts
syntagmatische
Relation
+
+
+
+
+
+*
0
* : nur beim Einsatz von Text Mining
409
Änderbarkeit (neue Begriffe aufnehmen, alte ändern)
keinerlei
Änderung
Änderung
Aufwand
„unten“
in Struktur
Klassifikation
0
+
0 (aufwendig)
Schlagwortmethode + (nur Aufwand für Abstimmung)
Thesaurus
0
+
+
Textwortmethode
+
Zitationsindexierung + (da keine Ordnung vorhanden)
Abstracts
+ (da keine Ordnung vorhanden)
Ontologie / Topic Map 0
+
+
410
Fazit
– Die Informationsarchitektur liegt im Bereich des strategischen
Management und definiert die Grundlagen der Informationsversorgung eines Unternehmens.
• Grundsatzentscheidung: Welche(r) Informationsfilter?
• u.U. Schalenmodell realisieren
• Entscheidung, welche Informationen gekauft und welche selbst
erstellt werden
• Organisation des laufenden Betriebs
– Klärung der Anforderungen an die Informationsarchitektur
(etwa: Ausbaufähigkeit der Begriffsordnung; Darstellbarkeit
syntagmatischer Relationen) hinsichtlich der Informationsfilter
und der Methoden zur Informationsverdichtung
411
... das war‘s
Lehr-/Lernziele: Hörer/innen haben eine solide
Basis in theoretischen Ansätzen sowie Methoden
der Wissensrepräsentation und wissen, diese
Methoden in der Praxis einzusetzen
412

Geschichte der Wissensrepräsentation

Transcrição

Documentos relacionados

KINDERFLOHMARKT - Familienfreundliche Wissenschaft

Gasthörer 03_2016 v2.indd - Heinrich-Heine

PR(A) = 0,15 + 0,85*(1/1)

Kunstvermittlung - Heinrich-Heine

Perspektive

grundsteInlegung - Heinrich-Heine

Sprachen lernen: Tandem-Partnerschaften - Heinrich

Life-Sciences-Standort Düsseldorf – Führend in Wissenschaft und

Zur Ausschreibung DGNI-Pflege

Sonderbeilage "HHU 50 Jahre" der RP Düsseldorf