Terminologie - Abteilung Automatische Sprachverarbeitung
Transcrição
Terminologie - Abteilung Automatische Sprachverarbeitung
Terminologie, Terminologiemanagement und Terminologie-Extraktion Vorlesung "Wissens- und Contentmanagement" WS 2009/2010 im Modul "Wissens- und Contentmanagement" Dr. Lutz Maicher Universität Leipzig [email protected] Institut für Informatik Automatische Sprachverarbeitung Terminologie Wichtigkeit von Wording (Terminologiearbeit) - Beispiel Tesco checks out wording change Tesco is to change the wording of signs on its fast-track checkouts to avoid any linguistic dispute. The supermarket giant is to replace its current "10 items or less" notices with signs saying "Up to 10 items". Tesco's move follows uncertainty over whether the current notices should use "fewer" instead of "less". The new wording was suggested to Tesco by language watchdog The Plain English Campaign. Tesco said the change would be phased in across its stores. "Saying up to 10 items is easy to understand and avoids any debate," said a spokesman for The Plain English Campaign. "Fewer" should be used when you are talking about items that can be counted individually, for example, "fewer than 10 apples". "Less" is correct when quantities cannot be individually counted in that case, e.g. "I would like less water". Quelle: http://news.bbc.co.uk/1/hi/business/7590440.stm (31.08.2008) WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 2 Terminologie Wichtigkeit von Wording (Terminologiearbeit) - Beispiel Wording Change Skewed Poll After Speech In Monday's survey, taken after the President's speech, respondents were asked: ''Now thinking about Bill Clinton as a person, do you have a favorable or unfavorable opinion of him?'' That elicited responses from the public that were 40 percent favorable and 48 percent unfavorable. In previous Gallup polls the wording was: ''Now I'd like to get your opinion about some people in the news. As I read the name, please say if you have a favorable or unfavorable opinion of this person.'' Last week, that traditional wording resulted in public impressions of Mr. Clinton that were 60 percent favorable and 38 percent unfavorable. Thus, it appeared on Monday that there had been a 20-percentage point drop in Mr. Clinton's personal ratings. In a poll on Tuesday, Gallup used the traditional wording and measured 55 percent favorable views of Mr. Clinton and 42 percent unfavorable. Quelle: New York Times 20.08.1998 WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 3 Terminologie Wording Verwendung, Bilden oder (Neu-)Definieren von Begriffen z.B. von Werbeabteilungen beim Vermarkten neuer Produkte und Dienstleistungen ('aprilfrisch', 'Advanced-Telebanking'), von Wissenschaftler für neue Effekte, Techniken, Verfahren und Zusammenhänge ('Genscanning', 'Kernspintomograf', 'Waldsterben'), in der Politik ('Nullwachstum', 'sozialverträgliches Ableben', 'Politikverdrossenheit', 'Change', ‚kalte Progression‘), von der Unternehmensführung zur Festlegung des Sprachgebrauchs in einem Unternehmen ('Assessment-Center', 'Benchmark', 'Kick-OffMeeting', 'Portfolio', 'Freistellung') …. weitere Bereiche ? WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 4 Terminologie Terminologie WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 5 Terminologie Definition Terminologie „Das Begriffs- und Benennungssystem eines Fachgebietes, das alle Fachausdrücke umfasst, die allgemein üblich sind“ (E.Wüster) WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 6 Terminologie information supplier (humans) information customer (humans) information supply information supplier (machines) n context m matching processes information demand information customer (machines) community (organisation) community (organisation) Terminologie und Kommunikationsmodell Terminologie unterstützt das Matching von Angebot und Nachfrage im Kommunikationsprozess WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 7 Terminologie Was sind Herausforderungen in der Terminologiearbeit? • Aufgaben der terminologischen Sprachnormierung: – Erkennen von Fachbegriffen (Terminologieextraktion) – Disambiguierung und Definition – Festlegung und Vereinheitlichung (Normung, vgl. ISO, DIN) – Übersetzung – Repräsentation von Terminologie – Veröffentlichung und Verteilung – Produktion von Publikationen mit normierter Terminologie WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 8 Terminologie Repräsentation von Terminologie • Kontrolliertes Vokabular • Taxonomie • Thesaurus • Ontologie • Kontrollierte Sprache • Folksonomie Quelle: Lars Marius Garshol: Metadata? Thesauri? Taxonomies? Topic Maps! in Proceedings of XML Europe 2004 weiterer Link: http://www.metamodel.com/article.php?story=20030115211223271 WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 9 Terminologie Was ist ein Kontrolliertes Vokabular? • eine Liste von Termen – jeder Term besitzt eindeutige und nicht-redundante Definition – keine Homonymie = Ambiguitäten (Mehrdeutigkeiten) sind aufgelöst – Synonymie ist definiert = existieren mehrere Terme für dasselbe Konzept, so muss eine Zugangsbenennung und eine Liste von Benennungsvarianten bestimmt werden WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 10 Terminologie Kontrolliertes Vokabular – Beispiel – Topic-Maps-Terminologie Quelle: http://www.informatik.uni-leipzig.de/~maicher/tmt/TMT.html Auch: http://www.topicmapslab.de/glossary WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 11 Terminologie Kontrolliertes Vokabular - Beispiele Struktur Beispiel Term Substantiv Restseitenbandübertragung Schwefelfarbstoffe Substantiv mit Präpositionalphrase Sammelstelle für Sondermüll Substantiv mit Genitivphrase Adjektiv + Substantiv Gesetz der großen Zahlen Adjektiv + Adjektiv + Substantiv langzeitige linksseitige Herzinsuffizienz Substantiv + Substantiv Microsoft Word Gefleckter Schierling hydraulischer Stoßdämpfer WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 12 Terminologie Kontrolliertes Vokabular - Beispiele • Fachausdrücke als Worte – einzelne Worte sein, wie z. B. Maschine (de), machine (en), – oder zusammengesetzte Wörter (bzw. Komposita oder Mehrwortbegriffe), wie z. B. Nähmaschine (de), sewing machine (en) oder machine à coudre (fr). – Merke: Schreibweise eines Terms als Kompositum oder Mehrwortbegriff hängt stark von sprachlichen Konventionen ab. • Fachausdrücke als Phrasen, – wie z. B. Tag und Nacht (de), night and day (en), – die für bestimmte Fachsprachen, etwa die juristische Fachsprache, stark standardisiert sein können, z. B. bevollmächtigen (de) = nominate, constitute, and appoint as attorney-in-fact (en). • Fachausdrücke als typische Kombinationen von Nomina und Verben, – wie z. B. ein Patent erlangen (de), file a patent (en). • Fachausdrücke als Abkürzungen – z. B. TCP/IP WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 13 Terminologie Was ist eine Taxonomie? • ein kontrolliertes Vokabular, das in Hierarchie organisiert ist – jeder Term steht in einer oder mehreren Eltern-Kind-Beziehungen zu anderen Termen • Ursprünge in der Linné‘schen botanischen und zoologischen Klassifikation – Beziehungen können typisiert sein • • • • Teil-Ganzes-Beziehung Typ-Instanz-Beziehung Art-Spezie-Beziehung von einem Elternterm sollten nur Beziehungen des selben Typs abgehen – Polyhierarchien können erlaubt sein • ein Kindterm hat verschiedene Elternterme WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 14 Terminologie Was ist ein Thesaurus? • ein kontrolliertes Vokabular, das eine Vielzahl von Aussagen über die Terme zulässt – BT (broader term) / NT (narrower term) • in Taxonomien sind alle Kanten BT/NT – SN (scope note) - ist eine Zeichenkette um die Bedeutung des Terms zu beschreiben – USE – Link zu einem Term welcher alternativ genutzt werden sollte • Synonym – RT (related term) - Term, der in Beziehung zu einem Term steht • keine USE oder BT/NT Beziehung – und einige mehr … (siehe Standards) • Standardisierung von Thesauri – ISO 2788 für monolinguale Thesauri – ISO 5964 für multilinguale Thesauri – siehe http://www.techquila.com/psi/thesaurus/ (für Überblick) WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 15 Terminologie Was ist eine Ontologie? • Ontologie ist ein semantisches Datenmodell (Konzeptualisierung) einer Domäne – Klassen • extensionale Definition (durch Individuen der Klasse) • intensionale Definition (durch eine Menge von Eigenschaften) – Attribute • Benennungen (z.B. Geburtsname) • Properties, Features, Characteristics, Parameter, Eigenschaftem – Beziehungen • verschiedene Beziehungsmodelle sind möglich – Individuen (von Klassen und Beziehungen) • z.B. Clara Schumann als Person • z.B. Leipzig als Geburtsort von Clara Schumann – Regeln • z.B. alle Personen mit einem Alter von mind. 18 Jahren haben die Eigenschaft "volljährig" WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 16 Terminologie Taxonomie und Ontologie - Beispiel WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 17 Terminologie Was ist eine kontrollierte Sprache? • ist eine natürliche Sprache wie Deutsch oder Englisch, die nach bestimmten Regeln eingeschränkt wird – – – – • Wortschatz (allgemeiner Kennwortschatz), Terminologie (Fachwortschatz) Sprachstil, Grammatik und Satzbau (z. B. Länge von Sätzen und Absätzen, Verwendung von Aktiv in Anleitungen) Zweck: – technische Dokumentationen und Handbücher verständlicher und effizienter zu gestalten, – zukünftige Übersetzungen von Texten bei Entstehung erleichtern • Beispiel: – Die eingegebenen Orte werden in die Zieltabelle übertragen. (falsch) – Übertragen Sie die eingegebenen Orte in die Zieltabelle. (richtig) WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 18 Terminologie Was ist eine Folksonomy? • ein "kontrolliertes" Vokabular für eine Domäne, dass durch gemeinschaftliche Nutzung entsteht – entsteht durch kollaboratives tagging – Normierung durch Recommender • eingetretene Pfade werden genutzt … – tag clouds sind beliebte Repräsentation WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 19 Terminologie Was ist eine Folksology? • eine Ontologie, die durch gemeinschaftliche Nutzung entsteht – Folksonomy + kollaborativ erstellte Beziehungen zwischen den Termen WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 20 Terminologie Wer weiß noch was … • • • • • • • ein kontrolliertes Vokabular eine Taxonomie ein Thesaurus eine Ontologie eine kontrollierte Sprache eine Folksonomy eine Folksology ist? WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 21 Terminologie Terminologiemanagement WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 22 Terminologie Was sind die Ursachen für terminologische Inkonsistenzen? • Verschieden Autoren / Übersetzer – Terminologiearbeit ist gerade bei Mehrsprachigkeit wichtig • Keine Terminologiepolitik und Terminologiemanagement – meist aus Zeit bzw. Kostengründen • Keine organisatorische Einbettung – Verteilung von Rechten und Pflichten (in der Organisation) • Keine Werkzeugunterstützung WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 23 Terminologie Gibt es Standards für die Terminologiearbeit? • ISO 704:1987 Principles and methods of terminology – outlines the principles of conceptual analysis, definition writing and term formation as well as the methods used in terminology work. • ISO 860:1996 Terminology work – Harmonization of concepts and terms – deals with the principles which are the basis upon which concept systems can be harmonized and with the development of harmonized terminologies, in order to improve the efficiency in interlinguistic communication. • ISO 1087:1990 Terminology – Vocabulary – consists of a set of terminological entries covering the basic concepts in the field of theory and application of terminology work. WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 24 Terminologie Ein Weg zur eigenen Terminologie … 1. 2. 3. 4. 5. Konzept und Planung festlegen Ausgangsterminologie als Rohliste extrahieren Bereinigung der Rohliste Übersetzung Verteilung und Verwaltung Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 25 Terminologie Konzept und Planung • Gestaltung: Was gehört zum Fachbereich? – Umfang der Terminologie muss festgelegt werden – Bsp.: Asthma bronchiale ist medizinischer Term; ist dieser Begriff auch ein Term im Bereich spezieller Lungenkrankheiten? • Ressourcen: – Wer kann beitragen? – Wo gibt es bereits Terminologie? • Organisatorische Maßnahmen – Welche Bereiche sollen die Terminologie verwenden? – Wer gibt die Terminologie frei? – Wer hat die Nutzung der Terminologie zu verantworten? • Wiederverwendung bestehender Terminologie – bestehende (Industrie-)Standards Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 26 Terminologie Planung der Repräsentation der Terminologie • Minimalistisch oder Maximalistisch? – – – – – – Begriff Übersetzung (in die notwendigen Zielsprachen) Wortart Definition Status Quellen und Belegstellen • wichtig als Anwendungsbeispiele – Synonyme • Nutzung von Standards für Repräsentation von Terminologie • Aufwand/Nutzen bei der Erstellung im Auge behalten Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 27 Terminologie Rohliste & Terminologie festlegen • Rohliste zusammentragen – Bestehende interne und externe Terminologie – Nutzung automatischer Verfahren zur Terminologieextraktion • Aufgabe: Sammeln von Text des Fachbereichs • siehe letztes Kapitel dieser Vorlesung • Festlegen der Terminologie entsprechend der Planung der Repräsentation – manueller Akt – auch verbotene Terme/Phrasen sind Teil der Terminologiearbeit Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 28 Terminologie Wortbildungsregeln • Nach welchem Prinzip soll ein neues Teil benannt werden? • Strategie für das Prägen neuer Begriffe – siehe "Bedeutung des Wordings" zu Beginn der Vorlesung Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 29 Terminologie Übersetzung • • Integration der Terminologie mit bestehenden Translation Memory Systemen Keine 1:1 Übereinstimmung von Terminologie in zwei Sprachen – u.a. aus Gründen der Sprachökonomie • published subject identifier vs. die Adresse der veröffentlichten Beschreibung eines Aussagegegenstandes – Begriffe nicht immer spiegelgleich • cutter Æ Fräser / Schneider (abhängig von Anwendung) – Teilkomposita führen zu Fehlübersetzungen • „Gerät“ statt „Meßgerät“ – getrennte Terminologieextraktion erscheint sinnvoll Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 30 Terminologie Verwaltung und Verteilung • Abbildung des IST-Zustands ist nicht ausreichend – Pflichten und Rechte bzgl. der Terminologie muss definiert werden – Fortschreibung muss institutionalisiert werden • Einbindung der Terminologie in die Redaktionsprozesse – "Fachwörterbuch" oder Thesaurus für eigene Terminologie • Papierform • elektronisch – Recommender / Autovervollständigen – automatische Filter • z.B. für verbotene Terme und Phrasen – Qualitätstests Konzept & Planung Æ Rohliste & Repräsentation Æ Übersetzung Æ Verteilung&Verwaltung WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 31 Terminologie Verwaltung durch (öffentliche) Repositories WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 32 Terminologie Verwaltung durch (öffentliche) Repositories WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 33 Terminologie Terminologieextraktion WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 34 Terminologie Welche Ansätze zur Terminologiedefinition gibt es? • Top-Down-Ansatz • – manuelle Modellierung der Domäne mit bestehender Terminologie – Experten oder kollaborativ Getriebe Bottom-Up-Ansatz – (semi-)automatische Extraktion von Terminologie der Domäne • bspw. Named Entity Recogniction – (semi-)automatische Modellierung der Domäne mit dieser Terminologie Getriebe Beziehung: wird angetrieben von Kontext-Beziehung Achse Kontext-Beziehung Beziehung: sitzt auf Rad Synonym-Beziehung Synonyme: • Räder, Wheels Achse Rad Räder Synonym-Beziehung Wheels WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 35 Terminologie Was ist die Herausforderung autom. Terminologieextraktion? • Problemstellung: Terminologie in Texten automatisch identifizieren – was als allgemein üblich empfunden wird, hängt jedoch stark vom Betrachter ab (bei nicht genormten Terminologien…) • Gleiches Problem wie im Information Retrieval: – Welche Dokumente sind relevant Æ welche Wörter sind terminologisch? – Idee aus dem IR: Relevance Feedback • „Ist Content Syndication ein Term der Domäne Content Management?“ WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 36 Terminologie Was sind statistische Merkmale von Terminologien? • Fachtermini sind Wörter, die in Fachtexten einer Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten: WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 37 Terminologie Was sind linguistische Merkmale von Termen? - Morphologie • Morphologie: – Morphem: kleinste bedeutungstragende Einheit der Sprache • Bsp: „/zer-/ /leg-/ /-en/“ – in bestimmten Fachsprachen sind bestimmte Derivative/Suffixe häufiger bzw. produktiver • Bsp.: „-itis“ in der Medizin • Bsp.: „-ase“ in der Chemie, Biologie, Medizin WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 38 Terminologie Was sind linguistische Merkmale von Termen? - Syntax • Syntax: – Einwortterme sind immer Autosemantika, meist N, A – viele Fachtermini sind Mehrwortbegriffe (NPs) mit typischen POSMustern (z.B. [A N] oder [N N]) • meist unvariiert (keine Umstellungen) • nicht trennbar (weder im Englischen noch im Deutschen „split NP“ möglich) WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 39 Terminologie Ansätze zur Terminologie-Extraktion • Drei Hauptrichtungen (fast alles für Englisch!!) – Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen… – Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. – Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter. WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 40 Terminologie Ansätze: Erkenntnisse (1) • Statistische Verfahren: – [Salton 1975]: TF/IDF funktioniert nur für Kollektionen, für Analyse einzelner Dokumente ungeeignet – [Cohen 1995]: Differenzanalyse für Buchstaben-n-gramme kann gute Ergebnisse bringen – [Dunning 1993]: Verfahren ohne korrektes statistisches Modell überbewerten seltene Ereignisse • Linguistische Verfahren: – Contra POS-Muster: mittels [N N] wird aus „the man gave the girl biscuits“ die Phrase „girl biscuits“ extrahiert. – Contra Parser: Braucht zuviel Wissen im Lexikon (Valenzrahmen, Wortarten etc.) über die Wörter eines Textes • Aber: das Lexikon soll erst aufgebaut werden! – Chunking als Kompromiß? • Aufteilung eines Textes in syntaktisch aufeinander bezogene Wortgruppen WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 41 Terminologie Ansätze: Erkenntnisse (2) • Hybride Verfahren: – [Daille 1994], [Justeson 1995]: Der beste statistische Filter für Phrasen (egal wie extrahiert) ist deren pure Frequenz • Verfahren für das Deutsche – [Heid 1998]: Semantisch komplexe Begriffe werden im Deutschen (meist) durch Komposita statt Mehrwortbegriffe ausgedrückt => Phrasenextraktion sinnlos Über Kompositazerlegung und Suche nach „domänenspezifischen Basismorphemen“ läßt sich das aber voll kompensieren! – [Witschel 2005]: Durch interaktive Integration von statistischen Verfahren für die Morphem- und Wortebene und musterbasierten Verfahren für Mehrwortbegriffe lässt sich die Qualität der Ergebnisse deutlich verbessern WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 42 Terminologie Fragen – ggf. für Master- / Diplomarbeiten • Terminologie-Extraktion: – Wie können Mehrwortbegriffe effektiv extrahiert werden? – Wie können verschiedene terminologische Ausdrücke für das gleiche (oder ähnliche Konzept) identifiziert werden? (z. B. über ähnliche Kontexte oder Definitionen) – Wie können die Definitionen zu terminologischen Konzepten extrahiert werden? • Taxonomien und Ontologien: – Wie können automatisch extrahierte Fachbegriffe für den automatischen Aufbau von Taxonomien und Ontologien verwendet werden? (z. B. über Entscheidungsbäume) WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 43 Terminologie Literatur • Statistische Verfahren: – [Cohen 1995] Cohen, J.D. (1995): Highlights: language and domain independent automatic indexing terms for abstracting. In: Journal of the American Society for Information Science, 46(3), S. 162-174. – [Dunning 1993] Dunning, T. (1993): Accurate Methods for the Statistics of Surprise and Coincidence. In: Computational Linguistics, 19(1), S. 61-74. • Hybride Verfahren: – [Justeson 1995] Justeson, J.S., Katz, S.M. (1995): Technical terminology: some linguistic properties and an algorithm for identification in text. In: Natural Language Engineering, 1(1), S. 9-27. – [Daille 1994] Daille, B., Gaussier, E., Lang´e, J. (1994): Towards Automatic Extraction of Monolingual and Bilingual Terminology. In: Proceedings of COLING94, S. 515-521. • Deutsch: – [Heid 1998] Heid, U. (1998): A linguistic bootstrapping approach to the extraction of term candidates from German text. In: Terminology, 5(2), S. 161-181. – [Witschel 2005] Witschel, F. (2005): Terminologie-Extraktion, Ergon Verlag: Würzburg 2005 WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 44 Terminologie Link für automatische Terminologie-Extraktion ASV-Verfahren: http://wortschatz.uni-leipzig.de/~fwitschel/terminology.html auch in der ASV-Toolbox http://www.asv.informatik.uni-leipzig.de/asv/17 WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher Institut für Informatik 45