Terminologie - Abteilung Automatische Sprachverarbeitung

Transcrição

Terminologie - Abteilung Automatische Sprachverarbeitung
Terminologie,
Terminologiemanagement und
Terminologie-Extraktion
Vorlesung "Wissens- und Contentmanagement" WS 2009/2010
im Modul "Wissens- und Contentmanagement"
Dr. Lutz Maicher
Universität Leipzig
[email protected]
Institut für Informatik
Automatische
Sprachverarbeitung
Terminologie
Wichtigkeit von Wording (Terminologiearbeit) - Beispiel
Tesco checks out wording change
Tesco is to change the wording of signs on its
fast-track checkouts to avoid any linguistic dispute.
The supermarket giant is to replace its current
"10 items or less" notices with signs saying
"Up to 10 items".
Tesco's move follows uncertainty over whether the current notices should use "fewer" instead of "less".
The new wording was suggested to Tesco by language watchdog The Plain English Campaign. Tesco
said the change would be phased in across its stores. "Saying up to 10 items is easy to understand and
avoids any debate," said a spokesman for The Plain English Campaign.
"Fewer" should be used when you are talking about items that can be counted individually, for example,
"fewer than 10 apples". "Less" is correct when quantities cannot be individually counted in that case,
e.g. "I would like less water".
Quelle: http://news.bbc.co.uk/1/hi/business/7590440.stm (31.08.2008)
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
2
Terminologie
Wichtigkeit von Wording (Terminologiearbeit) - Beispiel
Wording Change Skewed Poll After Speech
In Monday's survey, taken after the President's speech, respondents were asked:
''Now thinking about Bill Clinton as a person, do you have a favorable or
unfavorable opinion of him?'' That elicited responses from the public that were 40
percent favorable and 48 percent unfavorable. In previous Gallup polls the wording
was: ''Now I'd like to get your opinion about some people in the news. As I read
the name, please say if you have a favorable or unfavorable opinion of this
person.''
Last week, that traditional wording resulted in public impressions of Mr. Clinton that
were 60 percent favorable and 38 percent unfavorable. Thus, it appeared on
Monday that there had been a 20-percentage point drop in Mr. Clinton's personal
ratings.
In a poll on Tuesday, Gallup used the traditional wording and measured 55 percent
favorable views of Mr. Clinton and 42 percent unfavorable.
Quelle: New York Times 20.08.1998
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
3
Terminologie
Wording
Verwendung, Bilden oder (Neu-)Definieren von Begriffen
z.B. von Werbeabteilungen beim Vermarkten neuer Produkte und
Dienstleistungen ('aprilfrisch', 'Advanced-Telebanking'),
von Wissenschaftler für neue Effekte, Techniken, Verfahren und
Zusammenhänge ('Genscanning', 'Kernspintomograf', 'Waldsterben'),
in der Politik ('Nullwachstum', 'sozialverträgliches Ableben',
'Politikverdrossenheit', 'Change', ‚kalte Progression‘),
von der Unternehmensführung zur Festlegung des Sprachgebrauchs in
einem Unternehmen ('Assessment-Center', 'Benchmark', 'Kick-OffMeeting', 'Portfolio', 'Freistellung')
…. weitere Bereiche ?
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
4
Terminologie
Terminologie
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
5
Terminologie
Definition Terminologie
„Das Begriffs- und Benennungssystem eines Fachgebietes,
das alle Fachausdrücke umfasst, die allgemein üblich sind“
(E.Wüster)
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
6
Terminologie
information
supplier
(humans)
information
customer
(humans)
information
supply
information
supplier
(machines)
n
context
m
matching processes
information
demand
information
customer
(machines)
community
(organisation)
community
(organisation)
Terminologie und Kommunikationsmodell
Terminologie unterstützt das Matching von Angebot und Nachfrage
im Kommunikationsprozess
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
7
Terminologie
Was sind Herausforderungen in der Terminologiearbeit?
•
Aufgaben der terminologischen Sprachnormierung:
– Erkennen von Fachbegriffen (Terminologieextraktion)
– Disambiguierung und Definition
– Festlegung und Vereinheitlichung (Normung, vgl. ISO, DIN)
– Übersetzung
– Repräsentation von Terminologie
– Veröffentlichung und Verteilung
– Produktion von Publikationen mit normierter Terminologie
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
8
Terminologie
Repräsentation von Terminologie
• Kontrolliertes Vokabular
• Taxonomie
• Thesaurus
• Ontologie
• Kontrollierte Sprache
• Folksonomie
Quelle: Lars Marius Garshol: Metadata? Thesauri? Taxonomies? Topic Maps!
in Proceedings of XML Europe 2004
weiterer Link: http://www.metamodel.com/article.php?story=20030115211223271
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
9
Terminologie
Was ist ein Kontrolliertes Vokabular?
•
eine Liste von Termen
– jeder Term besitzt eindeutige und nicht-redundante Definition
– keine Homonymie = Ambiguitäten (Mehrdeutigkeiten) sind aufgelöst
– Synonymie ist definiert = existieren mehrere Terme für dasselbe
Konzept, so muss eine Zugangsbenennung und eine Liste von
Benennungsvarianten bestimmt werden
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
10
Terminologie
Kontrolliertes Vokabular – Beispiel – Topic-Maps-Terminologie
Quelle: http://www.informatik.uni-leipzig.de/~maicher/tmt/TMT.html
Auch: http://www.topicmapslab.de/glossary
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
11
Terminologie
Kontrolliertes Vokabular - Beispiele
Struktur
Beispiel Term
Substantiv
Restseitenbandübertragung
Schwefelfarbstoffe
Substantiv mit
Präpositionalphrase
Sammelstelle für
Sondermüll
Substantiv mit
Genitivphrase
Adjektiv + Substantiv
Gesetz der großen Zahlen
Adjektiv + Adjektiv +
Substantiv
langzeitige linksseitige
Herzinsuffizienz
Substantiv + Substantiv
Microsoft Word
Gefleckter Schierling
hydraulischer Stoßdämpfer
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
12
Terminologie
Kontrolliertes Vokabular - Beispiele
•
Fachausdrücke als Worte
– einzelne Worte sein,
wie z. B. Maschine (de), machine (en),
– oder zusammengesetzte Wörter (bzw. Komposita oder Mehrwortbegriffe),
wie z. B. Nähmaschine (de), sewing machine (en) oder machine à coudre (fr).
– Merke: Schreibweise eines Terms als Kompositum oder Mehrwortbegriff hängt
stark von sprachlichen Konventionen ab.
•
Fachausdrücke als Phrasen,
– wie z. B. Tag und Nacht (de), night and day (en),
– die für bestimmte Fachsprachen, etwa die juristische Fachsprache, stark
standardisiert sein können, z. B. bevollmächtigen (de) = nominate, constitute,
and appoint as attorney-in-fact (en).
•
Fachausdrücke als typische Kombinationen von Nomina und Verben,
– wie z. B. ein Patent erlangen (de), file a patent (en).
•
Fachausdrücke als Abkürzungen
– z. B. TCP/IP
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
13
Terminologie
Was ist eine Taxonomie?
•
ein kontrolliertes Vokabular, das in Hierarchie organisiert ist
– jeder Term steht in einer oder mehreren Eltern-Kind-Beziehungen zu
anderen Termen
• Ursprünge in der Linné‘schen botanischen und zoologischen Klassifikation
– Beziehungen können typisiert sein
•
•
•
•
Teil-Ganzes-Beziehung
Typ-Instanz-Beziehung
Art-Spezie-Beziehung
von einem Elternterm sollten nur Beziehungen des selben Typs abgehen
– Polyhierarchien können erlaubt sein
• ein Kindterm hat verschiedene Elternterme
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
14
Terminologie
Was ist ein Thesaurus?
•
ein kontrolliertes Vokabular, das eine Vielzahl von Aussagen
über die Terme zulässt
– BT (broader term) / NT (narrower term)
• in Taxonomien sind alle Kanten BT/NT
– SN (scope note) - ist eine Zeichenkette um die Bedeutung des Terms
zu beschreiben
– USE – Link zu einem Term welcher alternativ genutzt werden sollte
• Synonym
– RT (related term) - Term, der in Beziehung zu einem Term steht
• keine USE oder BT/NT Beziehung
– und einige mehr … (siehe Standards)
•
Standardisierung von Thesauri
– ISO 2788 für monolinguale Thesauri
– ISO 5964 für multilinguale Thesauri
– siehe http://www.techquila.com/psi/thesaurus/ (für Überblick)
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
15
Terminologie
Was ist eine Ontologie?
•
Ontologie ist ein semantisches Datenmodell
(Konzeptualisierung) einer Domäne
– Klassen
• extensionale Definition (durch Individuen der Klasse)
• intensionale Definition (durch eine Menge von Eigenschaften)
– Attribute
• Benennungen (z.B. Geburtsname)
• Properties, Features, Characteristics, Parameter, Eigenschaftem
– Beziehungen
• verschiedene Beziehungsmodelle sind möglich
– Individuen (von Klassen und Beziehungen)
• z.B. Clara Schumann als Person
• z.B. Leipzig als Geburtsort von Clara Schumann
– Regeln
• z.B. alle Personen mit einem Alter von mind. 18 Jahren haben die
Eigenschaft "volljährig"
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
16
Terminologie
Taxonomie und Ontologie - Beispiel
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
17
Terminologie
Was ist eine kontrollierte Sprache?
•
ist eine natürliche Sprache wie Deutsch oder Englisch, die nach
bestimmten Regeln eingeschränkt wird
–
–
–
–
•
Wortschatz (allgemeiner Kennwortschatz),
Terminologie (Fachwortschatz)
Sprachstil,
Grammatik und Satzbau (z. B. Länge von Sätzen und Absätzen,
Verwendung von Aktiv in Anleitungen)
Zweck:
– technische Dokumentationen und Handbücher verständlicher und
effizienter zu gestalten,
– zukünftige Übersetzungen von Texten bei Entstehung erleichtern
•
Beispiel:
– Die eingegebenen Orte werden in die Zieltabelle übertragen. (falsch)
– Übertragen Sie die eingegebenen Orte in die Zieltabelle. (richtig)
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
18
Terminologie
Was ist eine Folksonomy?
•
ein "kontrolliertes" Vokabular für eine Domäne, dass durch
gemeinschaftliche Nutzung entsteht
– entsteht durch kollaboratives tagging
– Normierung durch Recommender
• eingetretene Pfade werden genutzt …
– tag clouds sind beliebte Repräsentation
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
19
Terminologie
Was ist eine Folksology?
•
eine Ontologie, die durch gemeinschaftliche Nutzung entsteht
– Folksonomy + kollaborativ erstellte Beziehungen zwischen den Termen
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
20
Terminologie
Wer weiß noch was …
•
•
•
•
•
•
•
ein kontrolliertes Vokabular
eine Taxonomie
ein Thesaurus
eine Ontologie
eine kontrollierte Sprache
eine Folksonomy
eine Folksology ist?
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
21
Terminologie
Terminologiemanagement
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
22
Terminologie
Was sind die Ursachen für terminologische Inkonsistenzen?
•
Verschieden Autoren / Übersetzer
– Terminologiearbeit ist gerade bei Mehrsprachigkeit wichtig
•
Keine Terminologiepolitik und Terminologiemanagement
– meist aus Zeit bzw. Kostengründen
•
Keine organisatorische Einbettung
– Verteilung von Rechten und Pflichten (in der Organisation)
•
Keine Werkzeugunterstützung
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
23
Terminologie
Gibt es Standards für die Terminologiearbeit?
•
ISO 704:1987 Principles and methods of terminology
– outlines the principles of conceptual analysis, definition writing and term
formation as well as the methods used in terminology work.
•
ISO 860:1996 Terminology work – Harmonization of concepts
and terms
– deals with the principles which are the basis upon which concept
systems can be harmonized and with the development of harmonized
terminologies, in order to improve the efficiency in interlinguistic
communication.
•
ISO 1087:1990 Terminology – Vocabulary
– consists of a set of terminological entries covering the basic concepts in
the field of theory and application of terminology work.
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
24
Terminologie
Ein Weg zur eigenen Terminologie …
1.
2.
3.
4.
5.
Konzept und Planung festlegen
Ausgangsterminologie als Rohliste extrahieren
Bereinigung der Rohliste
Übersetzung
Verteilung und Verwaltung
Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
25
Terminologie
Konzept und Planung
•
Gestaltung: Was gehört zum Fachbereich?
– Umfang der Terminologie muss festgelegt werden
– Bsp.: Asthma bronchiale ist medizinischer Term; ist dieser Begriff auch
ein Term im Bereich spezieller Lungenkrankheiten?
•
Ressourcen:
– Wer kann beitragen?
– Wo gibt es bereits Terminologie?
•
Organisatorische Maßnahmen
– Welche Bereiche sollen die Terminologie verwenden?
– Wer gibt die Terminologie frei?
– Wer hat die Nutzung der Terminologie zu verantworten?
•
Wiederverwendung bestehender Terminologie
– bestehende (Industrie-)Standards
Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
26
Terminologie
Planung der Repräsentation der Terminologie
•
Minimalistisch oder Maximalistisch?
–
–
–
–
–
–
Begriff
Übersetzung (in die notwendigen Zielsprachen)
Wortart
Definition
Status
Quellen und Belegstellen
• wichtig als Anwendungsbeispiele
– Synonyme
• Nutzung von Standards für Repräsentation von Terminologie
• Aufwand/Nutzen bei der Erstellung im Auge behalten
Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
27
Terminologie
Rohliste & Terminologie festlegen
•
Rohliste zusammentragen
– Bestehende interne und externe Terminologie
– Nutzung automatischer Verfahren zur Terminologieextraktion
• Aufgabe: Sammeln von Text des Fachbereichs
• siehe letztes Kapitel dieser Vorlesung
•
Festlegen der Terminologie entsprechend der Planung der
Repräsentation
– manueller Akt
– auch verbotene Terme/Phrasen sind Teil der Terminologiearbeit
Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
28
Terminologie
Wortbildungsregeln
•
Nach welchem Prinzip soll ein neues Teil benannt werden?
•
Strategie für das Prägen neuer Begriffe
– siehe "Bedeutung des Wordings" zu Beginn der Vorlesung
Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
29
Terminologie
Übersetzung
•
•
Integration der Terminologie mit bestehenden Translation
Memory Systemen
Keine 1:1 Übereinstimmung von Terminologie in zwei Sprachen
– u.a. aus Gründen der Sprachökonomie
• published subject identifier vs. die Adresse der veröffentlichten
Beschreibung eines Aussagegegenstandes
– Begriffe nicht immer spiegelgleich
• cutter Æ Fräser / Schneider (abhängig von Anwendung)
– Teilkomposita führen zu Fehlübersetzungen
• „Gerät“ statt „Meßgerät“
– getrennte Terminologieextraktion erscheint sinnvoll
Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
30
Terminologie
Verwaltung und Verteilung
•
Abbildung des IST-Zustands ist nicht ausreichend
– Pflichten und Rechte bzgl. der Terminologie muss definiert werden
– Fortschreibung muss institutionalisiert werden
•
Einbindung der Terminologie in die Redaktionsprozesse
– "Fachwörterbuch" oder Thesaurus für eigene Terminologie
• Papierform
• elektronisch
– Recommender / Autovervollständigen
– automatische Filter
• z.B. für verbotene Terme und Phrasen
– Qualitätstests
Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
31
Terminologie
Verwaltung durch (öffentliche) Repositories
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
32
Terminologie
Verwaltung durch (öffentliche) Repositories
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
33
Terminologie
Terminologieextraktion
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
34
Terminologie
Welche Ansätze zur Terminologiedefinition gibt es?
•
Top-Down-Ansatz
•
– manuelle Modellierung der
Domäne mit bestehender
Terminologie
– Experten oder kollaborativ
Getriebe
Bottom-Up-Ansatz
– (semi-)automatische Extraktion
von Terminologie der Domäne
• bspw. Named Entity Recogniction
– (semi-)automatische Modellierung
der Domäne mit dieser
Terminologie
Getriebe
Beziehung:
wird angetrieben von
Kontext-Beziehung
Achse
Kontext-Beziehung
Beziehung:
sitzt auf
Rad
Synonym-Beziehung
Synonyme:
• Räder, Wheels
Achse
Rad
Räder
Synonym-Beziehung
Wheels
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
35
Terminologie
Was ist die Herausforderung autom. Terminologieextraktion?
•
Problemstellung:
Terminologie in Texten automatisch identifizieren
– was als allgemein üblich empfunden wird,
hängt jedoch stark vom Betrachter ab
(bei nicht genormten Terminologien…)
•
Gleiches Problem wie im Information Retrieval:
– Welche Dokumente sind relevant Æ
welche Wörter sind terminologisch?
– Idee aus dem IR: Relevance Feedback
• „Ist Content Syndication ein Term der Domäne Content Management?“
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
36
Terminologie
Was sind statistische Merkmale von Terminologien?
•
Fachtermini sind Wörter, die in Fachtexten einer Domäne (und
nur dort) wesentlich häufiger auftreten als in anderen Texten:
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
37
Terminologie
Was sind linguistische Merkmale von Termen? - Morphologie
•
Morphologie:
– Morphem: kleinste bedeutungstragende Einheit der Sprache
• Bsp: „/zer-/ /leg-/ /-en/“
– in bestimmten Fachsprachen sind bestimmte Derivative/Suffixe häufiger
bzw. produktiver
• Bsp.: „-itis“ in der Medizin
• Bsp.: „-ase“ in der Chemie, Biologie, Medizin
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
38
Terminologie
Was sind linguistische Merkmale von Termen? - Syntax
•
Syntax:
– Einwortterme sind immer Autosemantika, meist N, A
– viele Fachtermini sind Mehrwortbegriffe (NPs) mit typischen POSMustern (z.B. [A N] oder [N N])
• meist unvariiert (keine Umstellungen)
• nicht trennbar (weder im Englischen noch im Deutschen „split NP“ möglich)
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
39
Terminologie
Ansätze zur Terminologie-Extraktion
•
Drei Hauptrichtungen (fast alles für Englisch!!)
– Statistisch: meist per TF/IDF oder ähnlichen Maßen;
Differenzanalysen…
– Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen
(Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern.
– Hybrid: Kombinationen von linguistischen und statistischen Ansätzen,
meist Extraktion von Phrasen und danach statistische Filter.
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
40
Terminologie
Ansätze: Erkenntnisse (1)
•
Statistische Verfahren:
– [Salton 1975]: TF/IDF funktioniert nur für Kollektionen, für Analyse
einzelner Dokumente ungeeignet
– [Cohen 1995]: Differenzanalyse für Buchstaben-n-gramme kann gute
Ergebnisse bringen
– [Dunning 1993]: Verfahren ohne korrektes statistisches Modell
überbewerten seltene Ereignisse
•
Linguistische Verfahren:
– Contra POS-Muster: mittels [N N] wird aus „the man gave the girl
biscuits“ die Phrase „girl biscuits“ extrahiert.
– Contra Parser: Braucht zuviel Wissen im Lexikon (Valenzrahmen,
Wortarten etc.) über die Wörter eines Textes
• Aber: das Lexikon soll erst aufgebaut werden!
– Chunking als Kompromiß?
• Aufteilung eines Textes in syntaktisch aufeinander bezogene Wortgruppen
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
41
Terminologie
Ansätze: Erkenntnisse (2)
•
Hybride Verfahren:
– [Daille 1994], [Justeson 1995]: Der beste statistische Filter für Phrasen
(egal wie extrahiert) ist deren pure Frequenz
•
Verfahren für das Deutsche
– [Heid 1998]: Semantisch komplexe Begriffe werden im Deutschen
(meist) durch Komposita statt Mehrwortbegriffe ausgedrückt =>
Phrasenextraktion sinnlos
Über Kompositazerlegung und Suche nach „domänenspezifischen
Basismorphemen“ läßt sich das aber voll kompensieren!
– [Witschel 2005]: Durch interaktive Integration von statistischen
Verfahren für die Morphem- und Wortebene und musterbasierten
Verfahren für Mehrwortbegriffe lässt sich die Qualität der Ergebnisse
deutlich verbessern
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
42
Terminologie
Fragen – ggf. für Master- / Diplomarbeiten
•
Terminologie-Extraktion:
– Wie können Mehrwortbegriffe effektiv extrahiert werden?
– Wie können verschiedene terminologische Ausdrücke für das gleiche
(oder ähnliche Konzept) identifiziert werden? (z. B. über ähnliche
Kontexte oder Definitionen)
– Wie können die Definitionen zu terminologischen Konzepten extrahiert
werden?
•
Taxonomien und Ontologien:
– Wie können automatisch extrahierte Fachbegriffe für den automatischen
Aufbau von Taxonomien und Ontologien verwendet werden? (z. B. über
Entscheidungsbäume)
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
43
Terminologie
Literatur
•
Statistische Verfahren:
– [Cohen 1995] Cohen, J.D. (1995): Highlights: language and domain independent
automatic indexing terms for abstracting. In: Journal of the American Society for
Information Science, 46(3), S. 162-174.
– [Dunning 1993] Dunning, T. (1993): Accurate Methods for the Statistics of
Surprise and Coincidence. In: Computational Linguistics, 19(1), S. 61-74.
•
Hybride Verfahren:
– [Justeson 1995] Justeson, J.S., Katz, S.M. (1995): Technical terminology: some
linguistic properties and an algorithm for identification in text. In: Natural
Language Engineering, 1(1), S. 9-27.
– [Daille 1994] Daille, B., Gaussier, E., Lang´e, J. (1994): Towards Automatic
Extraction of Monolingual and Bilingual Terminology. In: Proceedings of
COLING94, S. 515-521.
•
Deutsch:
– [Heid 1998] Heid, U. (1998): A linguistic bootstrapping approach to the extraction
of term candidates from German text. In: Terminology, 5(2), S. 161-181.
– [Witschel 2005] Witschel, F. (2005): Terminologie-Extraktion, Ergon Verlag:
Würzburg 2005
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
44
Terminologie
Link für automatische Terminologie-Extraktion
ASV-Verfahren:
http://wortschatz.uni-leipzig.de/~fwitschel/terminology.html
auch in der ASV-Toolbox
http://www.asv.informatik.uni-leipzig.de/asv/17
WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Institut für Informatik
45

Documentos relacionados