TAL Traitement Automatique due Langage Naturel TAL Programme
Transcrição
TAL Traitement Automatique due Langage Naturel TAL Programme
Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Traitement Automatique due Langage Naturel SUPELEC, METZ ANNEE UNIVERSITAIRE 2009/2010 Folker Caroli IAI, Saarbrücken Institut für Angewandte Sprachwissenschaft Université Hildesheim Marienburger Platz 22 D-31141 Hildeseheim Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 1 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Programme du cours • • Concepts de base (08/03/10 Metz) – Domaines d'application du TAL – Niveaux et concepts de base de l'analyse linguistique – Modèles de formalisation der données linguistiques – Concepts principaux du TAL Adresse: IAI – Approches basé sur des règles Martin-Luther-Str.14 66111 Saarbrücken – Approches probalistiques Tel.: +49 681 38951-0 Systèmes et applications (09/3/10) journée de présentation à l‘IAI, Sarrebruck Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 2 1 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Déroulement de la journée de présentation à l'IAI (09/03/10) 9:30-10:00 : Présentation de l´institut (Johann Haller) 10:00-10:45 : 11:00-11:45 : Introduction à la morphologie française (Johann Haller ) CLAT – Contrôle linguistique dans la documentation technique (Johann Haller) - Qu’est-ce que la documentation technique? - Qu’est-ce qu’un contrôle linguistique? - Qu’apporte un contrôle linguistique à la documentation technique? - Démonstration du programme CLAT Pour de plus amples informations (en anglais) concernant CLAT, voir le site: http://www.iai.uni-sb.deiaifr/en/clat.htm Automatic. Indexation (Paul Schmidt) Page web : http://www.iai.uni-sb.de/en/produkte/autindex.htm Déjeuner 12:00-13:00 13:00 -14:30 Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 3 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Déroulement de la journée de présentation à l'IAI (III) 15:15-16:00 16:00-16:30 TAL METIS : Automatic Translation (Paul Schmidt) information sur ce projet: http://www.iai.uni-sb.de/iaide/de/metis.htm (en allemand) Résumé, débat et clôture de la journée Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 4 2 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Traitement automatique des langues naturelles (TALN) TAL TALN Vérification de théories linguistiques simulations de comportement linguistiques Applications Réelles Traduction automatique Aide à l ’écriture et à la génération Interfaces en langage naturel Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 5 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft La Traduction Automatique • TAL Concepts – Vision idéaliste: simulation de l'activité de traduction humaine – Vision réaliste: activité de traduction à l'aide d'un ordinateur • Approches – Traduction automatiques basé sur des règles – Approches probalistiques – Approches hybrides • Conditions d'application: – Textes d'une structure homogène – Volume important de textes – taches de traduction répétitives Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 6 3 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Aide à la génération et à l’exploitation de textes • • • • TAL Correcteurs d’orthographe Correcteurs syntaxiques Générateurs de textes Aide à la rédaction – Contrôle de la terminologie – Contrôle de la syntaxe – Contrôle de style • Aide au résumé automatique • Techniques d'indexation • Orientation du courrier électronique Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 7 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Interface en langage naturelles • • • • • TAL Accès aux banques de données Systèmes experts Systèmes de renseignements Contrôle et manipulation d ’ordinateur Information Retrieval Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 8 4 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Aproches et applications TALN Approches basés sur des règles Approches hybrides Approches probalistiques Traduction automatique Indexation/ Information Retrieval Reconnaissance du langage parlé Aide à l'écriture Traduction automatique Indexation/ Information Retrieval Génération de textes Resumé automatique Resumé automatique Interfaces en langage naturel Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Traduction automatique Folker Caroli, 9 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Aspects sémiologiques de la langue TAL 〈 U n e la n g u e n a tu r e lle e s t u n s y s tè m e d e s ig n e s q u i s e r t à la c o m m u n ic a ti o n 〈 D é f in itio n s : S ign e A s s o c ia ti o n d ’ u n s i g n if ia n t a v e c u n s ig n if ié S i g n if ia n t F o r m e m a té r ie lle , p e r c e p ti b l e d u s ig n e S i g n if ié C o n c e p t d é n o t é p a r le s i g n e C o m m u n ic a tio n E c h a n g e d ’ in f o r m a tio n E c h a n g e d ’ é ta ts d ’ é m o t io n O r ie n ta tio n d a n s d e s a c ti o n s Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 10 5 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Modèle de la Communication d‘après Saussure Phonation Audition R C TAL E C = Concept C I I I = image acoustique R E Audition Phonation Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 11 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Modèles de la Communication d‘après Bühler TAL objets et faits représentation expression appel S emetteur Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes récepteur Folker Caroli, 12 6 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Actes de communications • • • • • Interroger: Demander á un agent de clarifier un aspects du monde (en posant des questions) Avez-vous senti le Wumpus quelque part? Informer: Avertir un agent sur un aspect du monde Il y a un courant d'air ici Directives: Demander a un agent d'effectuer des actions S'il vous plaît, aider moi á transporter l'or Commissives: s'engager d'effectuer une action Je te promets de ne pas bouger Accuser réception: indiquer qu'on a reçu et compris un message J'ai compris, je ne bouge pas Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 13 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Les étapes composantes de la communication • L'intention: Le locuteur décide qu'une proposition P est utile/ digne/ nécessaire d'être communiqué. • Génération: TAL Le locuteur planifie comment transformer la proposition en un énoncé approprié. • • • Synthèse: Le locuteur produit la réalisation physique de l'énoncé. Perception: Le récepteur perçoit la réalisation physique de l'énoncé. Analyse: Le récepteur infère que l'énoncé les signigications possible P1…, Pn Niveaux d'analyse: – – – • Analyse syntaxique (Parsing): Structure syntaxique de l'énoncé Analyse sémantique: détermination de la / des signification(s) de l'énoncé Analyse pragmatique: détermination de la fonction communicative de l'énoncé Désambiguation: Le locuteur infère des éléments pertinents de la situation quelle signification P1…, Pn est celle que le locuteur a voulu transmettre Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 14 7 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Analyse de Dialogues I • • Dialogue 1: A-: Il y a un courant d'air ici. B-: La fenêtre doit reste ouverte. A-: Mais j'ai froid. B-: Il y a un puanteur épouvantable dans la salle Dialogue 2: A-: Pardon Monsieur, Savez vous où est la gare? B-: C’est facile. Vous suivez cette rue jusqu’à la place de la liberté. Là vous tournez à gauche dans la rue de la gare. Après 200 mètres vous avez la gare devant vous. A-: Merci beaucoup Monsieur. B-: de rien. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 15 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Analyse de Dialogues II • • Dialogue 3: A-: Pardon Monsieur, savez vous où est la gare? B-: Je regrette Madame je ne suis pas d'ici. Mais j'ai vu un plan de la ville au bout de la rue A-: Merci Monsieur Dialogue 4: A-: Ces places sont réservées pour des handicapés. B-: J'ai le droit de me mettre ici. A-: Vous êtes donc und handicapé mental? Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 16 8 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft complexité de l'analyse TAL Champs d'analyse d'un ennoncé complexité du savoir investi Pragmatique fonction communicative Sémantique signification Syntaxe grammaticalité Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 17 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Nivaux et concepts de base de l'analyse linguistique TAL texte pragmatique phrase sémantique syntagme syntaxe morphologie mot syllabe phonèmes phonétique/ phonologie Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 18 9 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Relations syntagmatiques et relations paradigmatiques I syntagmatiques Relations p a r a d i g m a t i q u e s TAL Jean mange une pomme L‘artisan habile fabrique une commode élégante L‘enfant boit un chocolat Marie achète une veste Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 19 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Relations syntagmatiques et relations paradigmatiques II Marie boit une pomme L ’artisan une table fabrique fabrique L ’artisan mange achète Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes TAL une table une veste Folker Caroli, 20 10 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Syntaxe: Définitions • • • • La syntaxe décrit les relations syntagmatiques entres classes paradigmatiques d'une langue. La phrase est l'unité syntagmatique maximale. Les unités obtenues par division de la phrase en suites de morphèmes plus restreints sont les constituants de la phrase. Les constituants obtenus par division du même constituant plus étendu sont les constituants immédiats du constituant divisé. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 21 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Tableau términologique Anglais S NP VP PP Prep N Name P Det SRel Adj Adv Conj Dig TAL Français (sentence) (nominal phrase) (verbal phrase) (prepositional phrase) (Preposition) (noun) (name) (pronoun) (determiner) (relative phrase) (adjectiv) (adverb) (conjunction) (digit) Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Ph (phrase) GN (groupe nominal) GV (groupe verbal) GP (groupe prépositionnel) Prep (préposition) N (nom commun) Nom (nom propre) P (pronom) Art (article) PropRel (phrase relative) Adj (adjective) Adv (adverbe) Conj (conjonction) ´Chiffre (chiffre) Folker Caroli, 22 11 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Structure de constituants I S NP Det N VP Adj V NP Det Le menusier habile Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes fabrique une N Adj commode élégante Folker Caroli, 23 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Analyse en constituants immédiats • • • • • • • • TAL Je sens une brise et je tourne à l‘est. Le Wumpus pue. Jean voit le Wumpus. Le Wumpus est mort. Marie va à Boston. Le Wumpus est à 3 4 Le Wumpus sent mauvais. Je cherche le Wumpus dans la partie ouest. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 24 12 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Grammaire ε0 pour un fragment du français TAL Catégorie de départ: S (= phrase) Vocabulaire terminal: le, (l'), une, sent, tourne, pue, Wumpus, Jean, devant … Catégories auxiliaires: NP (= syntagme nominal), VP (= syntagme verbal), Det (= Déterminant, N (= nom), V = (verbe) Pron (= pronom) … Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 25 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Vocabulaire terminal: Lexique N Name P V Det Adj Adv Prep Conj Dig {puanteuer | brise | est | wumpus | puits | agent | agent | or | … } {Jean | Marie | Boston | Metz | SUPELEC | …} {me | te | tu | je | il | …} {est | vois | sens | sent | tire | pue | trouve | trouves | va | prend | porte | tue | tourne | … } {le | la | les | un | une | … } {droite | gauche | mauvais | mort | puant | … } {ici | là | loin | devant | derrière | … } {dans | sur | en | à | devant | derière | … } {et | ou | mais | … } {0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 26 13 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Règles non-terminales: Grammaire S S Conj S VP V S NP VP VP VP NP NP Det N VP VP Adj NP Name VP VP PP NP P VP VP Adv NP Dig Dig NP Np PP NP Np SRel PP Prep Np SRel qui Vp Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 27 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Parse I TAL Parse (´´le wumpus est mort´´, ε0 , S) doit retourner un arbre: S [S:[Np:[Det:le ][N:wumpus ]] [Vp:[Vp:[V:est]][Adj:mort]]] NP VP VP Det N V Adj Le wumpus est mort Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 28 14 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Parse déscendant • • Etat initial: arbre initial: S avec des enfants iconnus: [S:[S:?] [Conj:?][S:?]] (règle S1) [S:[NP:?][VP:?]] (règle S2) Fonction successeur: sélection du nœd le plus à gauche; expansion de ce nœd en applicant les règles de la grammaire S:[NP:[Det?][N:?]][VP:?]] S:[NP:[Name:?]][VP:?]] S:[NP:[P:?]][VP:?]] ::: • Test du but: vérification que les feuilles de l’arbre correspondent exactement à la chaîne entrée, sans inconnues ni mots non pris e en compte Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 29 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Parse ascendant • • • Etat initial: liste des mots de la chaîne traitée. Chaque mot est un arbre constitué d’un seul feuille. Chaque étape de l’espace de la recherche est une liste d’arbre Fonction successeur: examine chaque position i de la liste et la compare avec chaque partie droite d’une règle. Si i apparaît en premier position en partie droite la sous-séquence est remplacé par un nouvel arbre, dont la catégorie est la partie gauche de la règle Test du but: vérification de l’atteinte d’un seul arbre dont la racine est S Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 30 15 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Parse ascendant: exemple Étape Liste de noeuds Sous-séq. Règle INITIAL le Wumpus est mort 2 Det wumpus est mort 3 Det N est mort 4 NP est mort 5 NP V mort 6 NP V Ad 7 NP VP Adj 8 NP VP BUT S le wumpus Det N est mort V VP Adj NP VP Det → le N →wumpus NP → Det N V → est Adj → mort VP → V VP → VP Adj S → NP VP Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 31 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Règles non-terminales: Grammaire S S Conj S VP V S NP VP VP VP NP NP Det N VP VP Adj NP Name VP VP PP NP P VP VP Adv NP Dig Dig NP Np PP NP Np SRel Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes PP Prep Np SRel qui Vp TAL Folker Caroli, 32 16 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Structures de traits notions de base TAL Des structures de traits représentent des propriétés d‘objets (linguistiques) Des structures de traits sont représentées par des ensembles structurés de pairs attribut-valeur Attribut Dénomination d‘une propriété: p. E: . personne, nombre valeur Spécification d‘une propriété p. Ex. 1.Pers., 2.Pers, 3.Pers singulier, pluriel Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 33 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Structures de traits: notations TAL Traits à valeurs atomique pers=3p {pers=3p} Traits structurés pers = 3p num = sing traits à valeurs complexes agr = pers = 3p num = sing Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes [pers 3p] pers ⇒ 3p traits à valeurs complexes structurés cat = v agr = num = sing pers = 3p Folker Caroli, 34 17 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Subsumption Une structure de traits D subsume une structure de traits D‘ si D contients uns sous-ensemble de l‘information de D‘: D ⊆ D' Exemples {_ } {cat = n} cat = n agr = num = sing { cat = n agr = num = sing pers = 3p Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes } Folker Caroli, 35 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Unification I L‘unification de deux structures de traits est la structure de traits la plus générale subsumée par les deux structures unifiés D = D' U D' ' : D' ⊆ D und D' ' U D Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 36 18 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Unification II Unification de 1 et 2 cat = n num = sing agr = pers = 3p case = nom structure 1 structure 2 cat = n agr = num = sing pers = 3p cat = n agr = num = sing case = nom Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 37 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Unification III Unification de 1 et 2 impossible cat = n num = sing agr = pers = 3p case = nom | gen structure 1 cat = n num = sing agr = pers = 3p case = gen Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes structure 2 cat = n agr = num = sing case = nom Folker Caroli, 38 19 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Traits pour l‘accord (simplifiées) TAL introduction des traits suivants: num (s, p) = nombre (singulier, pluriel) gen (m, f) = genre (masculin, féminin) pers (1p, 2p, 3p) = personne (1., 2., 3. personne) agr (num,pers) = accord de personne et nombre Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 39 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Règles non-terminales: Grammaire S S Conj S VP V S NP VP VP VP NP NP Det N VP VP Adj NP Name VP VP PP NP P VP VP Adv NP Dig Dig NP Np PP NP Np SRel Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes PP Prep Np SRel qui Vp TAL Folker Caroli, 40 20 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Grammaire augmentée I règles non-terminales: TAL règles pour la phrase cat=s {cat=s},{cat=conj},{cat=s} cat=s {cat=np,agr=A}, {cat=vp,agr=A} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 41 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Grammaire augmentée II règles non-terminales: TAL règles pour le groupe nominal {cat=np,agr=A, gen=G} {cat=det,agr=A, gen=G}, {cat=n,agr=A,gen=G} {cat=np,agr=A,gen=G} {cat=name,agr=A,gen=G} {cat=np,agr=A,gen=G} {cat=p,agr=A,gen=G} {cat=np,agr=A, gen=G} {cat=dig,agr=A, gen=G}, {cat=dig,agr=A,gen=G} {cat=np,agr=A, gen=G} {cat=np,agr=A, gen=G}, {cat=pp} {cat=np,agr=A, gen=G} {cat=np,agr=A, gen=G}, {cat=srel} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 42 21 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Grammaire augmentée II règles non-terminales: TAL règles pour le groupe verbal {cat=v,agr=A} {cat=vp,agr=A} {cat=vp,agr=A} {cat=vp,agr=A}, {cat=np} {cat=vp,agr=A} {cat=vp,agr=A}, {cat=adj} {cat=vp,agr=A} {cat=vp,agr=A}, {cat=pp} {cat=vp,agr=A} {cat=vp,agr=A}, {cat=adv} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 43 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Grammaire augmentée I règles non-terminales: TAL règles pour les autres groupes cat=srel cat=pp Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes {cat=rel,lex=qui}, {cat=vp,agr={pers=3p}} {cat=p}, {cat=np} Folker Caroli, 44 22 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Entrées lexicales noms,nom propre et pronoms TAL agent : {cat=n, string=agent,agr={num=s, pers=3p}, gen=m, } agents : {cat=n, string=agents,agr={num=p,pers=3p}, gen=m} wumpus : {cat=n, string=wumpus,agr={num=(s;p), pers=3p}, gen=m, } puanteur : {cat=n, string=puanteur,agr={num=s, pers=3p}, gen=m, } brise : {cat=n, string=brise,agr={num=s, pers=3p}, gen=f } brises : {cat=n, string=brises,agr={num=p,pers=3p}, gen=f} marie : {cat=name, lex=Marie, agr={ num=s, pers=3p}, gen=f} jean : {cat=name, string=Jean, agr={ num=s, pers=3p}, gen=m} il : {cat=p, string=il, agr={ num=s, pers=3p}, gen=m} je : {cat=name, string=je, agr={ num=s, pers=1p}} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 45 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Entrées lexicales verbes TAL trouve : {cat=v,string=trouve, agr={num=s, pers=(1p;3p)}} trouves : {cat=v,string=trouves,agr={ num=s, pers=2}} sens : {cat=v,string=sens,agr={num=p, pers=(1p;2p)}} est : {cat=v,string=est, agr={num=s, pers=3p}} va : {cat=v,string=va,agr={num=p, pers=3p}} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 46 23 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Entrées lexicales adjectives droite : {cat= adj,string=droite agr={num=s}} droites : {cat= adj,string=droites agr={num=p}} mauvais : {cat= det,string=mauvais,gen=m} TAL mauvaise : {cat= adj,string=mauvaise,agr={num=s},gen=f} mauvaises : {cat= adj,string=mauvaises,agr={num=p},gen=f} mort : {cat= adj,string=morts,agr={num=s},gen=m} morts : {cat= adj,string=morts,agr={num=p},gen=m} morte : {cat= adj,string=mortes,agr={num=s},gen=f} mortes : {cat= adj,string=mortes,agr={num=p},gen=f} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 47 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Entrées lexicales déterminants le : {cat= det,string=le agr={num=s}, gen=m} la : {cat= det,string=la,agr={num=s},gen=f} l‘ : {cat= det,string=l‘,agr={ num=s}} les : {cat= det,lex=dt,string=les,num=p} un : {cat= det,string=un,agr={num=s},gen=m} une : {cat= det,string=une,agr={num=s}, gen=f} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes TAL Folker Caroli, 48 24 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Entrés lexicales: Adverbes, Preposition, Conjonctions dans : {cat= prep,string=dans} sur : {cat= prep,string=sur} devant : {cat= prep,string=devant} à : {cat= prep,string=à} ici : devant : maintenant : mal : et mais TAL {cat= adv,string=ici} {cat= adv,string=devant} {cat= adv,string=maintenant} {cat= adv,string=mal} : {cat= conj,string=et} : {cat= conj,string=mais} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 49 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Sous-catégorisation du verbe Verbe Sous-catégories Exemple de groupe verbal donne sent [NP, PP] [NP] [Adj] [PP] [Adj] [PP] [NP] [] [SCompl] Jean donne l’or à Marie Jean sent un wumpus Jean sent mauvais Jean sent comme un wumpus Jean est puant Jean est à Boston Jean est un imbécile Jean meurt Jean crois que le Wumpus est mort est meurt crois Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 50 25 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Entrées lexicales verbes avec sous-categorisation donne donne sent sent sent est est TAL : {cat=v,string=donne, agr={num=s, pers=(1p;&3p)}, scat=[cat=np,cat=pp]} : {cat=v,string=donne,agr={ num=s, pers=2}, scat=[cat=np,cat=np]} : {cat=v,string=sent,agr={num=p, pers=3p, scat=[cat=np]}} : {cat=v,string=sent,agr={num=p, pers=3p, scat=[cat=adj]}} : {cat=v,string=sent,agr={num=p, pers=3p, scat=[cat=pp]}} : {cat=v,string=est, agr={num=s, pers=3p},scat=[adj]} : {cat=v,string=est, agr={num=s, pers=3p},scat=[pp]} meurt : {cat=v,string=est, agr={num=s, pers=3p},scat=[np]} : {cat=v,string=meurt,agr={num=p, pers=3p},scat=[ ]} croit : {cat=v,string=croit,agr={num=p, pers=3p},scat=[scompl]} est Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 51 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Règles pour le groupe verbal: sous-catégorisation {cat=vp,agr=A,scat=S} {cat=vp,agr=A,scat=R} {cat=vp,agr=A,scat=[ ]} {cat=v,agr=A,scat=S} {cat=vp,agr=A,scat=([cat=C|R])}, {cat=C} {cat=vp,agr=A, scat=([])}, {cat=(adv;pp)} {cat=np,agr=A}, {cat=vp,agr=A,scat=([ ])} cat=s Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 52 26 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Analyse morphologique • La morphologie décrit les unités élémentaires d'une langue désignant un sens ou une fonction grammaticale – Morphologie de la flexion – Morphologie de la dérivation – Morphologie de la composition • Analyse morphologique – Définition des unités retenues – description des types d'information associées à ces unités – définition d'une méthode de reconnaissances des unités Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 53 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Morphologie de la flexion • Exemple: aimer aim(v) aim(v) e (prés&sing& (pers1;pers3) es (prés&sing&pers2) aim( v) aim(v) ons (prés&plur&pers1) ai- (imp) s (sing&(pers1;2)) aim (v) i..(imp) ons (plur&pers1) Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 54 27 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Tableau de conjugaison: aimer Verb Présent Imparfait Passé simple Futur aimer aim – e aim – ai – s aim - ai aim – er - ai aim – es aim – ai – s aim - as aim - er - as aim – e aim – ai – t aim - a aim - er - a aim – ons aim – i – ons aim – âmes aim – er - ons aim – ez aim – i – ez aim – âtes aim – er - ez aim – ent aim – ai – ent aim – èrent TAL aim – er - ont Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 55 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Tableau de conjugaison: rire Verb Présent Imparfait Passé simple Futur rire ri – s ri – ai – s ri - s ri – r - ai ri – s ri – ai – s ri - s ri - r - as ri – t ri – ai – t ri - t ri - r - a ri – ons ri – i – ons r – îmes ri – r - ons ri – ez ri – i – ez r – îtes ri – r - ez ri – ent ri – ai – ent ri – rent ri – r - ont Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 56 28 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Les morphèmes TAL racines verbales: aim- ; rir- infixes verbales: suffixes verbales: -e (1ère / 3ème personne singulier -es (2ème personne singulier) -s (1ère / 2ème personne singulier -t (3ème personne singulier) -ai (1ère personne singulier) -as (2ème personne singulier) -a (3ème personne singulier) -ons (1ère personne pluriel) -mes (1ère personne pluriel) -ez (2ème personne pluriel) -tes (2ème personne pluriel) -ai- (imparfait) -ent (3ème personne pluriel) -i- (imparfait) -ont (3ème personne pluriel) -â- (passé simple) -rent (3ème personne pluriel) -î- (passé simple) -èrent (3ème personne pluriel) Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 57 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Traits pour l‘analyse morphologique: traits grammaticales string=(<string>) lex =(<string>) cat=(v;n;adj;det;p) tense=(praes,imp, pas_s,fut) pers=(1p,2p,3p) num=(s,p) Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes TAL suite de charactère reconue à la surface lemmatisation de la forme catégorie des racines traits pour le temps traits pour la personne traits pour le nombre Folker Caroli, 58 29 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Traits pour l‘analyse morphologique: traits combinatoire morphtype=(vstem;vflex; nstem;nflex; ...., word) first=(yes,no) last=(yes,no) flextype(conj1,conj2… ) TAL indique si le mophème est une rcine ou un morphème de flexion indique que l‘analyse est complète indique si un morphème peut apparaître au début d‘un mot indique si un morphème peut apparaître à la fin d‘un mot indique la conjugaison Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 59 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Entrées lexicales morphologiques: racines verbales TAL aim : {cat=v,string=aim, lex=aimer, morphtype=vstem, first=yes, last=no, flexttype=conj1} ri : {cat=v,string=ri, lex=rire, morphtype=vstem, first=yes, last=no, flexttype=conj2} r : {cat=v,string=r, lex=rire, morphtype=vstem, first=yes, last=no,flexttype=conj2,tense=pas_s} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 60 30 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Entrées lexicales morphologiques: morphème de flexion verbales TAL e : {cat=v,string=e, morphtype=vflex, first=no, last=yes, flexttype=conj1, agr={num=s,pers=(1p;3p)},tense=praes} ent : {cat=v,string=e, morphtype=vflex, first=no, last=yes, flexttype=conj1, agr={num=p,pers=3p}} ai : {cat=v,string=ai, morphtype=vflex, first=no, last=yes, flexttype=conj1, agr={num=s,pers=1p},tense=pas_s} ai : {cat=v,string=ai, morphtype=vflex, first=no, last=yes, flexttype=(conj1;conj2), agr={num=s, pers=1p}, tense=fut} ai : {cat=v,string=ai, morphtype=vflex, first=no, last=no, flexttype=(conj1), tense=imp} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 61 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Règles pour l’analyse morphologique TAL règles pour la concatenation des morphèmes {string=S1+S2, cat=C, morphtype=vstem, first=yes,last=L, flextype=T, tense=Temp, agr=A } {string=S1, cat=C, morphtype=vstem, first=yes, last=no, flextype=T, tense=Temp} {string=S2, morphtype=vflex, first=no last=L, flextype=T, tense=Temp, agr=A} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 62 31 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Règles pour l’analyse morphologique TAL règles pour términer l’analyse {string=S1, cat=C, morphtype=word, first=yes,last=yes, flextype=T, tense=Temp, agr=A } {string=S1, cat=C, morphtype=vstem, first=yes, last=yes, flextype=T, tense=Temp,agr=A} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 63 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Règles pour l’analyse morphologique TAL règles défaut atribuer le temps présent {string=S1, cat=C, morphtype=word, first=yes,last=yes, flextype=conj1, tense=praes, tense=Temp, agr=A } Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes {string=S1, cat=C, morphtype=word, first=yes, last=yes, flextype=conj1, tense=Temp,agr=A} Folker Caroli, 64 32 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Composition de mots • Exemples FRANÇAIS ALLEMAND pomme-de-terre Kartoffel tire-bouchon Korkenzieher voyage présidentielle Präsidentenreise escalope de veau Kalbsschnitzel escalope chasseur Jägerschnitzel eau potable Trinkwasser salle à manger Eßzimmer Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 65 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Dérivation • Exemples Verbe Nom mentir menteur monter montage produire production Nom Verbe marteau marteler Adjectif Verbe blanc blanchir Verbe Adjectif manger mangeable Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 66 33 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Concepts de base du TAL • Formalismes Grammaticaux – outil précis de description des langues naturelles – modélisation formelle des langues naturelles, interprétable par un ordinateur – Réalisation par des types différents de programmation logique • Grammaires locales – exploitation des régularités de transition de séquences d` ’éléments lexicales – Réalisation par Automates à nombre fini d ’états Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 67 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Automates à nombre fini d'états I glandulaire une insuffisance de la TAL thyroïdienne E glande thyroïde hypothyroïdie Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 68 34 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Automates à nombre fini d'états II <E> me te se nous vous Analyse des pronoms proclytiques <E> ne le la les il on l‘# l‘# les lui leur m‘# t‘# l‘# s‘# lui leur nous vous TAL Verbe en y Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes n‘# Folker Caroli, 69 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Règles pour le groupe verbal: sous-catégorisation {cat=vp,agr=A,scat=S} {cat=vp,agr=A,scat=R} {cat=vp,agr=A,scat=[ ]} {cat=v,agr=A,scat=S} {cat=vp,agr=A,scat=([cat=C|R])}, {cat=C} {cat=vp,agr=A, scat=([])}, {cat=(adv;pp)} {cat=np,agr=A}, {cat=vp,agr=A,scat=([ ])} cat=s Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 70 35 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Le Problème de l’ordre des mots TAL Langues avec une variation de l‘ordre de mots riches: Hans wittert einen Wumpus in der Höhle Hans wittert in der Höhle einen Wumpus Hans sent un wumpus dans la grotte Hans riecht heute nach Knoblauch Heute riecht Hans nach Knoblauch Hans sent l‘ail aujourd‘hui Différences de l‘order des mots entre deux langues Le meunusier habile fabrique und commode élégante Der geschickte Schreiner tischlert eine elegante Kommode Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 71 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Structure de constituants I S NP Det N VP Adj V NP Det Le menusier habile Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes fabrique une N Adj commode élégante Folker Caroli, 72 36 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Structure de constituants II S NP Det Der VP Adj N V geschickte Schreiner NP tischlert Det Adj N eine elegante Kommode Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 73 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Structure de dépendance tischlert fabrique Schreiner menusier Der Le geschickte habile Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Kommode commode eine une elegante élégante Folker Caroli, 74 37 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Structure de dépendance isst mange Kinder enfant dt Apfel pomme klein dt dt petit rot dt rouge Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 75 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Relation prédicat-argument – forme logique TAL tischlern A tischlert B A tischlern (A, B) B clause v-pred arg1 tischlern A Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes arg2 B Folker Caroli, 76 38 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Structures avec des arguments modifiés TAL clause v-pred arg1 n-pred mod arg2 mod tischlern Schreiner geschickt der fabriquerInstitut meunisier der Gesellschaft zurhabile Förderung n-pred mod mod Kommode elegant eine le der Angewandten Informationsforschung e.V. an der Universität des Saarlandes commode elegante une Folker Caroli, 77 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Transfer simple {lex=der} {lex=le} {lex=art} {lex=art} {lex=geschickt} {lex=habile} {lex=schreiner} {lex=meunisier} {lex=tischlern} {lex=fabriquer} {lex=eine} {lex=une} {lex=elegant} {lex=élégant} {lex=Kommode} {lex=commode} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 78 39 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Poblèmes de traduciton The man knows the result of the investigation L’homme connaît le résultat de l’investigation The man knows that the investigation was closed without any result. L’homme sait que l’investigation a été terminée sans résultat. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 79 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Sémantique • La sémantique décrit la structure du concept du signe. – Sémantique lexicale: Description du sens des unités du lexique – Sémantique de la phrase: Description des relations sémantiques entres les unités d'une phrase Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 80 40 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Analyse sémantique • Analyse de sémantique lexicale – Délimiter les traits différentiels de sens des unités lexicales – Description des relation de sens entre les unités lexicales d'une langue – trait sémantique: différence de signification minimale qui distingue des sens d’un mot ou de deux mots • Analyse de sémantique de la phrase – Délimiter les relations de dépendance – Classification des prédicats et des arguments associés – Délimiter les restrictions sémantiques enter arguments et prédicats Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 81 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft classification rudimentaire de traits sémantiques TAL chose animé nonhum animal chien oiseau inst hum concr abstr contable masse conseil auto sable conseillé parlement table vin clou acier géneral élève comité Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes intel investigation Projet de loi budget sent colère joie tristessse Folker Caroli, 82 41 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Rôles sémantiques types de prédicats (exemple) TAL Type de prédicat: procès mental rôles: processeur, procès mental Prédicat RS exemple centré sur le processeur processeur seul Léa rêve processeur / procès mental Jean connaît le résultat Jean sait, que l‘investigation a été terminée sans résultat . centré sur le procès processeur / procès mental Que l‘investigation a été terminée sans résultat agace Jean. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 83 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Roles sémantiques et trait sémantiques TAL {cat=clause} {role=v-pred} frame={arg1={semrole=processor, at=n,sem=hum}}, {arg2={semrole=phen, cat=scompl}} {role=arg1} {role=arg2} semrole=processor semrole=phen cat=n,sem=hum cat=scompl know Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes man That the investigation was closed without any result Folker Caroli, 84 42 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Transfer: généralisation TAL {cat=clause} {role=v-pred} {role=arg1} {role=arg2} semrole=R1, semrole=R2 sem=Sem1,cat=C1 sem=Sem2,cat=C2 frame={arg1=A1, arg2=A2} _C1 _B1 {cat=clause} _A1 {role=arg1} {role=arg2} semrole=R1 semrole=R2 sem=Sem1,cat=C1 sem=Sem2,cat=C2 frame={arg1=A1, arg2=A2} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes _C2 _B2 Folker Caroli, 85 _A2 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Transfer lexical {lex=know, frame={arg1={semrole=processor, cat=n sem=hum}}, {arg2={role=phenom, cat=scompl}}} {lex=savoir, frame={arg1={semrole=processor, cat=n sem=hum}}, {arg2={role=phenom, cat=scompl}}} {lex=know, frame={arg1={semrole=processor, cat=n sem=hum}}, {arg2={role=phenom, cat=n,sem=abstr}}} {lex=connaître, frame={arg1={semrole=processor, cat=n sem=hum}}, {arg2={role=phenom, cat=n,sem=abstr}}} Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 86 43 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft La Traduction Automatique TAL Recherche et développement (I) • Les approches différentes – Approche direct • traduction directe: L’ unité de traduction est le lexème – Approche linguistique • traduction à la base d’une analyse plus ou moins complexe de la phrase de la lange source: L’unité de traduction est en général – la phrase – Approche intelligence artificielle • L’analyse linguistique est améliorée par le recours aux informations pertinent de la situation et du contexte représentées en utilisant des méthodes de l’ IA: L’unité de la traduction est variable. Elle peut comprendre plusieurs phrase Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 87 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft La Traduction Automatique TAL Recherche et développement (II) • Les Modèles de la traduction – Transfert • l’analyse vise une représentation canonique de la strucure de la phrase qui est identique pour la lange source et la langue cible en gardant les lexèmes de la langue source. La traduction est fait sur cette représentation en traduisant les lexèmes en fonction de la structure de la phrase – Interlingua • l’analyse vise une représentation abstraite aussi bien de de la structure de la phrase que pour la sémantique des lexèmes qui identique pour la lange source et la langue cible. La génération de la phrase dans la langue cible utilise cette représentation comme point de départ. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 88 44 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Modèle de la traduction approche transfert TAL Langue source Input dictionnaire analyse grammaire transfert IR Langue source grammaire dictionnaire IR langue cible génération grammaire dictionnaire Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes langue cible Output Folker Caroli, 89 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft Modèle de la traduction Approche Interlingua TAL Langue source dictionnaire analyse Input grammaire interlingua dictionnaire génération Output grammaire langue cible Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 90 45 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft La Traduction Automatique TAL Recherche et développement (III) • Stratégies pour améliorer la performance – Domaines restreintes • Limitations des ressources linguistiques (grammaire et lexiques) à des domaines d’applications bien définis – Langage contrôlé • Standardisation de la langue utilisés pour la rédaction de documents (syntaxe, lexique générale, terminologie) Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 91 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Quelques Systèmes • • • • • • • SYSTRAN (approche hybride) TAUMETEO (approche direct) EUROTRA (Transfert) CAT2 (Transfert) LOGOS (approche hybride) METAL/T1 (Transfert) KANT (Interlingua, langage contrôlé) Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 92 46 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Texte authentique Les pompes à chaleur séduisent les Français LE MONDE | 06.03.07 | 17h58 • Mis à jour le 06.03.07 | 17h58 La France possède un trésor géothermique dans son sous-sol, dont elle n'exploite qu'une infime partie. Il pourrait être mieux utilisé pour le chauffage, qui représente 30 % de la consommation énergétique du secteur tertiaire et 75 % de celle du secteur résidentiel. Le Bassin parisien, par exemple, recèle cinq grands réservoirs géothermiques d'eau chaude, dont le Dogger, qui offre des températures de 56 0C à 85 0C à 1 800 mètres de profondeur et qui alimente des réseaux de chaleur urbains. Le Bassin aquitain est lui aussi bien doté, de même que d'autres régions. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 93 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Grammaire de discours I Possibilité ou cause. Ph1 provoque un changement d’état (éventuellement implicite) qui cause ou permet Ph2. Exemple : « Je suis sorti. J’ai conduit jusqu’à l’école. » (Sortir permet l’acte implicite de monter en voiture.) • Explication. Le contraire de la cause : Ph2 cause ou permet Ph1 et en constitue donc une explication. Exemple : « J’étais en retard à l’école. Je ne m’étais pas réveillé. » • Rapport fond-figure. Ph1 décrit l’environnement ou l’arrière-plan de Ph2. Exemple : « Il faisait nuit noire et la tempête faisait rage. Reste de l’histoire. » Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 94 47 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Grammaire de discours II Évaluation: À partir de Ph2, inférer que Ph1 fait partie du plan du locuteur d’exécuter le segment comme un acte de langage. Exemple : « Il s’est passé quelque chose de drôle. Reste de l’histoire. » Exemplification: Ph2 est un exemple du principe général contenu dans Ph1. Exemple : « Cet algorithme inverse une liste. L’entrée [A, B, C] est transformée en [C,B, A]. » Généralisation: Ph1 est un exemple du principe général contenu dans Ph2. Exemple : « [A, B, C] est transformé en [C, B, A]. En général, l’algorithme inverse une liste. » Paradoxe: Inférer P de Ph2, en niant l’inférence normale de P à partir de Ph1. Exemple : « Cet article est un peu faible. En revanche, il est intéressant. » Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 95 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Une petite histoire (1) Quelque chose de drôle est arrivé hier. (2) Jean est allé dans un restaurant chic. (3) Il a choisi le canard. (4) L’addition se montait à 50 BC. (5) Jean eut un choc quand il se rendit compte qu’il n’avait pas d’argent. (6) Il avait oublié son portefeuille à la maison. (7) Le serveur a dit qu’il pouvait payer plus tard. (8) Il était très gêné de son étourderie. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 96 48 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Repères bibliographiques • • • • • • Allen, James (1995). Natural Language Understanding. Benjamin / Cummings, Redwood City. Bouillion, Pierrette, André Clas (1993). La traductique. Études et recherches d traduction par ordinateur. Montréal: Presse de l‘Université Batori, I. W. Lenders, W. Putschke (1989). Computational Linguistics. An International Handbook on Computer Oriented Language Research and Applications. Berlin, New York: De Gruyter. (=Handbücher zur Sprach- und Kommunikationswissenschaft 4). Bresnan, J. (1982). Control and Complementation. The Mental Representation of Grammatical Relations. Cambridge MA: MIT Press. Carré R. et al. (1991). Langage humain et machine. Paris: Presse du CNRS. Cole, R. (ed.) (1997). Survey of the State of the Art in Human Language Technology. Cambirdge: Cambridge University Press. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 97 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Repères bibliographiques • • • • • • • • • Fuchs, C. et al. (1993). Linguistique et Traitement Automatique des Langues. Paris: Hachette.. Gazdar, G. et al. (1985). Generalized Phrase Structure Grammar. Oxford: Basic Gibbon, Dafyd (2000). Handbook of Multimodal and Spoken Dialog Systems. Doodrecht: Kluwer. Hausser, Blackwell, R. (1999) Foundations of Computational Linguistics. Machine Communication in Natural Language. Berlin, New York: Springer. Miller, P. et T. Torris (1990). Formalismes syntaxiques pour le traitement automatique du langage naturel. Paris: Hermes. Pollard, C. et I. A. Sag (1994) Head Driven Phrase Structure Grammar. Chicago/London: University of Chicago Press. Russell, S. et P. Norvig (2003) Artificial Intelligence. A Modern Approach. Second Ed. Prentice Hall. Shieber, S. (1986). An Introduction to Unification-based Approaches to Grammar. CSLI Lecture Notes 4. Stanford University California. Traitement automatique de la langue 1995. Actes du Colloque « Traitement automatique de la langue et industrie de l ’information. Problématiqaue 1995. Paris. Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 98 49 Uinversität Hildesheim Institut für Angewandte Sprachwissenschaft TAL Sites Internet intéressants • • • • Euromap Technologies de la Langue http://www.elda.org/fr/proj/euromap/directory.php IlPGA Université de Paris III http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/index.htm Traitment automatique du langage (glossaire) http://perso.wanadoo.fr/ldelafosse/Tln.htm ATALA Association du Traitement automatique du langage http://www.atala.org/article.php3?id_article=90 Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.V. an der Universität des Saarlandes Folker Caroli, 99 50