TAL Traitement Automatique due Langage Naturel TAL Programme

Transcrição

TAL Traitement Automatique due Langage Naturel TAL Programme
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Traitement Automatique due Langage Naturel
SUPELEC, METZ
ANNEE UNIVERSITAIRE 2009/2010
Folker Caroli
IAI, Saarbrücken
Institut für Angewandte Sprachwissenschaft
Université Hildesheim
Marienburger Platz 22
D-31141 Hildeseheim
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 1
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Programme du cours
•
•
Concepts de base (08/03/10 Metz)
– Domaines d'application du TAL
– Niveaux et concepts de base de l'analyse
linguistique
– Modèles de formalisation der données linguistiques
– Concepts principaux du TAL
Adresse:
IAI
– Approches basé sur des règles
Martin-Luther-Str.14
66111 Saarbrücken
– Approches probalistiques
Tel.: +49 681 38951-0
Systèmes et applications (09/3/10)
journée de présentation à l‘IAI, Sarrebruck
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 2
1
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Déroulement de la journée de
présentation à l'IAI (09/03/10)
9:30-10:00 :
Présentation de l´institut (Johann Haller)
10:00-10:45 :
11:00-11:45 :
Introduction à la morphologie française (Johann Haller )
CLAT – Contrôle linguistique dans la documentation technique
(Johann Haller)
- Qu’est-ce que la documentation technique?
- Qu’est-ce qu’un contrôle linguistique?
- Qu’apporte un contrôle linguistique à la documentation
technique?
- Démonstration du programme CLAT
Pour de plus amples informations (en anglais) concernant CLAT,
voir le site: http://www.iai.uni-sb.deiaifr/en/clat.htm
Automatic. Indexation (Paul Schmidt)
Page web :
http://www.iai.uni-sb.de/en/produkte/autindex.htm
Déjeuner
12:00-13:00
13:00 -14:30
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 3
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Déroulement de la journée
de présentation à l'IAI (III)
15:15-16:00
16:00-16:30
TAL
METIS : Automatic Translation
(Paul Schmidt)
information sur ce projet:
http://www.iai.uni-sb.de/iaide/de/metis.htm (en allemand)
Résumé, débat et clôture de la journée
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 4
2
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Traitement automatique des
langues naturelles (TALN)
TAL
TALN
Vérification de
théories linguistiques
simulations de
comportement linguistiques
Applications Réelles
Traduction
automatique
Aide à l ’écriture
et à la génération
Interfaces en
langage naturel
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 5
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
La Traduction Automatique
•
TAL
Concepts
– Vision idéaliste:
simulation de l'activité de traduction humaine
– Vision réaliste:
activité de traduction à l'aide d'un ordinateur
•
Approches
– Traduction automatiques basé sur des règles
– Approches probalistiques
– Approches hybrides
•
Conditions d'application:
– Textes d'une structure homogène
– Volume important de textes
– taches de traduction répétitives
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 6
3
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Aide à la génération et à
l’exploitation de textes
•
•
•
•
TAL
Correcteurs d’orthographe
Correcteurs syntaxiques
Générateurs de textes
Aide à la rédaction
– Contrôle de la terminologie
– Contrôle de la syntaxe
– Contrôle de style
• Aide au résumé automatique
• Techniques d'indexation
• Orientation du courrier électronique
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 7
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Interface en langage
naturelles
•
•
•
•
•
TAL
Accès aux banques de données
Systèmes experts
Systèmes de renseignements
Contrôle et manipulation d ’ordinateur
Information Retrieval
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 8
4
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Aproches et applications
TALN
Approches basés
sur des règles
Approches
hybrides
Approches
probalistiques
Traduction
automatique
Indexation/
Information Retrieval
Reconnaissance du
langage parlé
Aide à l'écriture
Traduction
automatique
Indexation/
Information Retrieval
Génération de
textes
Resumé automatique
Resumé automatique
Interfaces en
langage naturel
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Traduction
automatique
Folker Caroli, 9
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Aspects sémiologiques de la
langue
TAL
〈 U n e la n g u e n a tu r e lle e s t u n s y s tè m e d e s ig n e s q u i
s e r t à la c o m m u n ic a ti o n
〈 D é f in itio n s :
S ign e
A s s o c ia ti o n d ’ u n s i g n if ia n t a v e c
u n s ig n if ié
S i g n if ia n t
F o r m e m a té r ie lle , p e r c e p ti b l e d u
s ig n e
S i g n if ié
C o n c e p t d é n o t é p a r le s i g n e
C o m m u n ic a tio n
E c h a n g e d ’ in f o r m a tio n
E c h a n g e d ’ é ta ts d ’ é m o t io n
O r ie n ta tio n d a n s d e s a c ti o n s
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 10
5
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Modèle de la Communication d‘après Saussure
Phonation
Audition
R
C
TAL
E
C = Concept
C
I
I
I = image acoustique
R
E
Audition
Phonation
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 11
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Modèles de la
Communication d‘après
Bühler
TAL
objets et faits
représentation
expression
appel
S
emetteur
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
récepteur
Folker Caroli, 12
6
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Actes de communications
•
•
•
•
•
Interroger:
Demander á un agent de clarifier un aspects du monde (en
posant des questions)
Avez-vous senti le Wumpus quelque part?
Informer:
Avertir un agent sur un aspect du monde
Il y a un courant d'air ici
Directives:
Demander a un agent d'effectuer des actions
S'il vous plaît, aider moi á transporter l'or
Commissives:
s'engager d'effectuer une action
Je te promets de ne pas bouger
Accuser réception:
indiquer qu'on a reçu et compris un message
J'ai compris, je ne bouge pas
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 13
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Les étapes composantes de la communication
•
L'intention:
Le locuteur décide qu'une proposition P est utile/ digne/
nécessaire d'être communiqué.
•
Génération:
TAL
Le locuteur planifie comment transformer la proposition en un
énoncé approprié.
•
•
•
Synthèse:
Le locuteur produit la réalisation physique de l'énoncé.
Perception:
Le récepteur perçoit la réalisation physique de l'énoncé.
Analyse:
Le récepteur infère que l'énoncé les signigications possible P1…, Pn
Niveaux d'analyse:
–
–
–
•
Analyse syntaxique (Parsing): Structure syntaxique de l'énoncé
Analyse sémantique: détermination de la / des signification(s) de l'énoncé
Analyse pragmatique: détermination de la fonction communicative de l'énoncé
Désambiguation:
Le locuteur infère des éléments pertinents de la situation quelle
signification P1…, Pn est celle que le locuteur a voulu transmettre
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 14
7
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Analyse de Dialogues I
•
•
Dialogue 1:
A-: Il y a un courant d'air ici.
B-: La fenêtre doit reste ouverte.
A-: Mais j'ai froid.
B-: Il y a un puanteur épouvantable dans la salle
Dialogue 2:
A-: Pardon Monsieur, Savez vous où est la gare?
B-: C’est facile. Vous suivez cette rue jusqu’à la place de la
liberté.
Là vous tournez à gauche dans la rue de la gare.
Après 200 mètres vous avez la gare devant vous.
A-: Merci beaucoup Monsieur.
B-: de rien.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 15
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Analyse de Dialogues II
•
•
Dialogue 3:
A-: Pardon Monsieur, savez vous où est la gare?
B-: Je regrette Madame je ne suis pas d'ici. Mais j'ai vu un plan
de la ville au bout de la rue
A-: Merci Monsieur
Dialogue 4:
A-: Ces places sont réservées pour des handicapés.
B-: J'ai le droit de me mettre ici.
A-: Vous êtes donc und handicapé mental?
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 16
8
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
complexité
de l'analyse
TAL
Champs d'analyse d'un ennoncé
complexité du
savoir investi
Pragmatique
fonction communicative
Sémantique
signification
Syntaxe
grammaticalité
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 17
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Nivaux et concepts de base
de l'analyse linguistique
TAL
texte
pragmatique
phrase
sémantique
syntagme
syntaxe
morphologie
mot
syllabe
phonèmes
phonétique/
phonologie
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 18
9
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Relations syntagmatiques et
relations paradigmatiques I
syntagmatiques
Relations
p
a
r
a
d
i
g
m
a
t
i
q
u
e
s
TAL
Jean
mange
une pomme
L‘artisan habile
fabrique
une commode élégante
L‘enfant
boit
un chocolat
Marie
achète
une veste
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 19
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Relations syntagmatiques et
relations paradigmatiques II
Marie
boit
une pomme
L ’artisan
une table
fabrique
fabrique
L ’artisan
mange
achète
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
TAL
une table
une veste
Folker Caroli, 20
10
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Syntaxe: Définitions
•
•
•
•
La syntaxe décrit les relations syntagmatiques entres
classes paradigmatiques d'une langue.
La phrase est l'unité syntagmatique maximale.
Les unités obtenues par division de la phrase en suites de
morphèmes plus restreints sont les constituants de la
phrase.
Les constituants obtenus par division du même constituant
plus étendu sont les constituants immédiats du constituant
divisé.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 21
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Tableau términologique
Anglais
S
NP
VP
PP
Prep
N
Name
P
Det
SRel
Adj
Adv
Conj
Dig
TAL
Français
(sentence)
(nominal phrase)
(verbal phrase)
(prepositional phrase)
(Preposition)
(noun)
(name)
(pronoun)
(determiner)
(relative phrase)
(adjectiv)
(adverb)
(conjunction)
(digit)
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Ph
(phrase)
GN
(groupe nominal)
GV
(groupe verbal)
GP
(groupe prépositionnel)
Prep
(préposition)
N
(nom commun)
Nom
(nom propre)
P
(pronom)
Art
(article)
PropRel (phrase relative)
Adj
(adjective)
Adv
(adverbe)
Conj
(conjonction)
´Chiffre (chiffre)
Folker Caroli, 22
11
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Structure de constituants I
S
NP
Det
N
VP
Adj
V
NP
Det
Le
menusier
habile
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
fabrique
une
N
Adj
commode élégante
Folker Caroli, 23
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Analyse en constituants immédiats
•
•
•
•
•
•
•
•
TAL
Je sens une brise et je tourne à l‘est.
Le Wumpus pue.
Jean voit le Wumpus.
Le Wumpus est mort.
Marie va à Boston.
Le Wumpus est à 3 4
Le Wumpus sent mauvais.
Je cherche le Wumpus dans la partie ouest.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 24
12
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Grammaire ε0 pour un fragment du
français
TAL
Catégorie de départ:
S (= phrase)
Vocabulaire terminal:
le, (l'), une, sent, tourne, pue,
Wumpus, Jean, devant …
Catégories auxiliaires:
NP (= syntagme nominal),
VP (= syntagme verbal),
Det (= Déterminant,
N (= nom),
V = (verbe)
Pron (= pronom)
…
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 25
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Vocabulaire terminal: Lexique
N
Name P
V
Det
Adj
Adv
Prep
Conj
Dig
{puanteuer | brise | est | wumpus | puits | agent
| agent | or | … }
{Jean | Marie | Boston | Metz | SUPELEC | …}
{me | te | tu | je | il | …}
{est | vois | sens | sent | tire | pue | trouve |
trouves | va | prend | porte | tue | tourne | … }
{le | la | les | un | une | … }
{droite | gauche | mauvais | mort | puant | … }
{ici | là | loin | devant | derrière | … }
{dans | sur | en | à | devant | derière | … }
{et | ou | mais | … }
{0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 26
13
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Règles non-terminales: Grammaire
S
S Conj S
VP
V
S
NP VP
VP
VP NP
NP
Det N
VP
VP Adj
NP
Name
VP
VP PP
NP
P
VP
VP Adv
NP
Dig Dig
NP
Np PP
NP
Np SRel
PP
Prep Np
SRel
qui Vp
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 27
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Parse I
TAL
Parse (´´le wumpus est mort´´, ε0 , S)
doit retourner un arbre:
S
[S:[Np:[Det:le ][N:wumpus ]]
[Vp:[Vp:[V:est]][Adj:mort]]]
NP
VP
VP
Det
N
V
Adj
Le
wumpus
est
mort
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 28
14
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Parse déscendant
•
•
Etat initial:
arbre initial: S avec des enfants iconnus:
[S:[S:?] [Conj:?][S:?]]
(règle S1)
[S:[NP:?][VP:?]]
(règle S2)
Fonction successeur:
sélection du nœd le plus à gauche; expansion de ce nœd
en applicant les règles de la grammaire
S:[NP:[Det?][N:?]][VP:?]]
S:[NP:[Name:?]][VP:?]]
S:[NP:[P:?]][VP:?]]
:::
•
Test du but:
vérification que les feuilles de l’arbre correspondent
exactement à la chaîne entrée, sans inconnues ni mots non
pris e en compte
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 29
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Parse ascendant
•
•
•
Etat initial:
liste des mots de la chaîne traitée. Chaque mot est un
arbre constitué d’un seul feuille. Chaque étape de l’espace
de la recherche est une liste d’arbre
Fonction successeur:
examine chaque position i de la liste et la compare avec
chaque partie droite d’une règle. Si i apparaît en premier
position en partie droite la sous-séquence est remplacé par
un nouvel arbre, dont la catégorie est la partie gauche de la
règle
Test du but:
vérification de l’atteinte d’un seul arbre dont la racine est S
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 30
15
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Parse ascendant: exemple
Étape Liste de noeuds
Sous-séq.
Règle
INITIAL le Wumpus est mort
2
Det wumpus est mort
3
Det N est mort
4
NP est mort
5
NP V mort
6
NP V Ad
7
NP VP Adj
8
NP VP
BUT
S
le
wumpus
Det N
est
mort
V
VP Adj
NP VP
Det → le
N →wumpus
NP → Det N
V → est
Adj → mort
VP → V
VP → VP Adj
S → NP VP
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 31
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Règles non-terminales: Grammaire
S
S Conj S
VP
V
S
NP VP
VP
VP NP
NP
Det N
VP
VP Adj
NP
Name
VP
VP PP
NP
P
VP
VP Adv
NP
Dig Dig
NP
Np PP
NP
Np SRel
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
PP
Prep Np
SRel
qui Vp
TAL
Folker Caroli, 32
16
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Structures de traits
notions de base
TAL
Des structures de traits représentent des propriétés d‘objets
(linguistiques)
Des structures de traits sont représentées par des ensembles
structurés de pairs attribut-valeur
Attribut
Dénomination d‘une
propriété: p. E:
. personne, nombre
valeur
Spécification d‘une propriété
p. Ex. 1.Pers., 2.Pers, 3.Pers
singulier, pluriel
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 33
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Structures de traits:
notations
TAL
Traits à valeurs atomique
pers=3p
{pers=3p}
Traits structurés
 pers = 3p 


 num = sing 
traits à valeurs complexes

 agr =

pers = 3p 


num = sing 
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
[pers 3p]
pers ⇒ 3p
traits à valeurs complexes
structurés
 cat = v



 agr = num = sing 

pers = 3p 
Folker Caroli, 34
17
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Subsumption
Une structure de traits D subsume une structure de traits D‘ si D
contients uns sous-ensemble de l‘information de D‘:
D ⊆ D'
Exemples
{_ }
{cat = n}
 cat = n

 agr = num = sing 


{
 cat = n

 agr = num = sing 



pers = 3p 
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
}
Folker Caroli, 35
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Unification I
L‘unification de deux structures de traits est la structure de traits
la plus générale subsumée par les deux structures unifiés
D = D' U D' ' : D' ⊆ D und D' ' U D
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 36
18
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Unification II
Unification
de 1 et 2
 cat = n


num = sing 
 agr = pers = 3p 

case = nom 



structure 1
structure 2
 cat = n

 agr = num = sing 



pers = 3p 
 cat = n

 agr = num = sing 



case = nom 
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 37
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Unification III
Unification
de 1 et 2
impossible
 cat = n


num = sing

 agr = pers = 3p


case = nom | gen 



structure 1
 cat = n


num = sing 
 agr = pers = 3p 

case = gen 



Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
structure 2
 cat = n

 agr = num = sing 



case = nom 
Folker Caroli, 38
19
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Traits pour l‘accord
(simplifiées)
TAL
introduction des traits suivants:
num (s, p)
= nombre (singulier, pluriel)
gen (m, f)
= genre (masculin, féminin)
pers (1p, 2p, 3p)
= personne (1., 2., 3. personne)
agr (num,pers)
= accord de personne et nombre
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 39
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Règles non-terminales: Grammaire
S
S Conj S
VP
V
S
NP VP
VP
VP NP
NP
Det N
VP
VP Adj
NP
Name
VP
VP PP
NP
P
VP
VP Adv
NP
Dig Dig
NP
Np PP
NP
Np SRel
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
PP
Prep Np
SRel
qui Vp
TAL
Folker Caroli, 40
20
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Grammaire augmentée I
règles non-terminales:
TAL
règles pour la phrase
cat=s
{cat=s},{cat=conj},{cat=s}
cat=s
{cat=np,agr=A},
{cat=vp,agr=A}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 41
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Grammaire augmentée II
règles non-terminales:
TAL
règles pour le groupe nominal
{cat=np,agr=A, gen=G}
{cat=det,agr=A, gen=G},
{cat=n,agr=A,gen=G}
{cat=np,agr=A,gen=G}
{cat=name,agr=A,gen=G}
{cat=np,agr=A,gen=G}
{cat=p,agr=A,gen=G}
{cat=np,agr=A, gen=G}
{cat=dig,agr=A, gen=G},
{cat=dig,agr=A,gen=G}
{cat=np,agr=A, gen=G}
{cat=np,agr=A, gen=G},
{cat=pp}
{cat=np,agr=A, gen=G}
{cat=np,agr=A, gen=G},
{cat=srel}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 42
21
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Grammaire augmentée II
règles non-terminales:
TAL
règles pour le groupe verbal
{cat=v,agr=A}
{cat=vp,agr=A}
{cat=vp,agr=A}
{cat=vp,agr=A},
{cat=np}
{cat=vp,agr=A}
{cat=vp,agr=A},
{cat=adj}
{cat=vp,agr=A}
{cat=vp,agr=A},
{cat=pp}
{cat=vp,agr=A}
{cat=vp,agr=A},
{cat=adv}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 43
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Grammaire augmentée I
règles non-terminales:
TAL
règles pour les autres groupes
cat=srel
cat=pp
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
{cat=rel,lex=qui},
{cat=vp,agr={pers=3p}}
{cat=p},
{cat=np}
Folker Caroli, 44
22
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Entrées lexicales
noms,nom propre et pronoms
TAL
agent
: {cat=n, string=agent,agr={num=s, pers=3p}, gen=m, }
agents
: {cat=n, string=agents,agr={num=p,pers=3p}, gen=m}
wumpus
: {cat=n, string=wumpus,agr={num=(s;p), pers=3p}, gen=m, }
puanteur
: {cat=n, string=puanteur,agr={num=s, pers=3p}, gen=m, }
brise
: {cat=n, string=brise,agr={num=s, pers=3p}, gen=f }
brises
: {cat=n, string=brises,agr={num=p,pers=3p}, gen=f}
marie
: {cat=name, lex=Marie, agr={ num=s, pers=3p}, gen=f}
jean
: {cat=name, string=Jean, agr={ num=s, pers=3p}, gen=m}
il
: {cat=p, string=il, agr={ num=s, pers=3p}, gen=m}
je
: {cat=name, string=je, agr={ num=s, pers=1p}}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 45
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Entrées lexicales
verbes
TAL
trouve
: {cat=v,string=trouve, agr={num=s, pers=(1p;3p)}}
trouves
: {cat=v,string=trouves,agr={ num=s, pers=2}}
sens
: {cat=v,string=sens,agr={num=p, pers=(1p;2p)}}
est
: {cat=v,string=est, agr={num=s, pers=3p}}
va
: {cat=v,string=va,agr={num=p, pers=3p}}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 46
23
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Entrées lexicales adjectives
droite
: {cat= adj,string=droite agr={num=s}}
droites
: {cat= adj,string=droites agr={num=p}}
mauvais
: {cat= det,string=mauvais,gen=m}
TAL
mauvaise : {cat= adj,string=mauvaise,agr={num=s},gen=f}
mauvaises : {cat= adj,string=mauvaises,agr={num=p},gen=f}
mort
: {cat= adj,string=morts,agr={num=s},gen=m}
morts
: {cat= adj,string=morts,agr={num=p},gen=m}
morte
: {cat= adj,string=mortes,agr={num=s},gen=f}
mortes
: {cat= adj,string=mortes,agr={num=p},gen=f}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 47
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Entrées lexicales déterminants
le
: {cat= det,string=le agr={num=s}, gen=m}
la
: {cat= det,string=la,agr={num=s},gen=f}
l‘
: {cat= det,string=l‘,agr={ num=s}}
les
: {cat= det,lex=dt,string=les,num=p}
un
: {cat= det,string=un,agr={num=s},gen=m}
une
: {cat= det,string=une,agr={num=s}, gen=f}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
TAL
Folker Caroli, 48
24
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Entrés lexicales:
Adverbes, Preposition, Conjonctions
dans
: {cat= prep,string=dans}
sur
: {cat= prep,string=sur}
devant
: {cat= prep,string=devant}
à
: {cat= prep,string=à}
ici
:
devant
:
maintenant :
mal
:
et
mais
TAL
{cat= adv,string=ici}
{cat= adv,string=devant}
{cat= adv,string=maintenant}
{cat= adv,string=mal}
: {cat= conj,string=et}
: {cat= conj,string=mais}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 49
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Sous-catégorisation du verbe
Verbe
Sous-catégories
Exemple de groupe verbal
donne
sent
[NP, PP]
[NP]
[Adj]
[PP]
[Adj]
[PP]
[NP]
[]
[SCompl]
Jean donne l’or à Marie
Jean sent un wumpus
Jean sent mauvais
Jean sent comme un wumpus
Jean est puant
Jean est à Boston
Jean est un imbécile
Jean meurt
Jean crois que le Wumpus
est mort
est
meurt
crois
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 50
25
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Entrées lexicales
verbes avec sous-categorisation
donne
donne
sent
sent
sent
est
est
TAL
: {cat=v,string=donne, agr={num=s, pers=(1p;&3p)},
scat=[cat=np,cat=pp]}
: {cat=v,string=donne,agr={ num=s, pers=2},
scat=[cat=np,cat=np]}
: {cat=v,string=sent,agr={num=p, pers=3p, scat=[cat=np]}}
: {cat=v,string=sent,agr={num=p, pers=3p, scat=[cat=adj]}}
: {cat=v,string=sent,agr={num=p, pers=3p, scat=[cat=pp]}}
: {cat=v,string=est, agr={num=s, pers=3p},scat=[adj]}
: {cat=v,string=est, agr={num=s, pers=3p},scat=[pp]}
meurt
: {cat=v,string=est, agr={num=s, pers=3p},scat=[np]}
: {cat=v,string=meurt,agr={num=p, pers=3p},scat=[ ]}
croit
: {cat=v,string=croit,agr={num=p, pers=3p},scat=[scompl]}
est
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 51
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Règles pour le groupe verbal:
sous-catégorisation
{cat=vp,agr=A,scat=S}
{cat=vp,agr=A,scat=R}
{cat=vp,agr=A,scat=[ ]}
{cat=v,agr=A,scat=S}
{cat=vp,agr=A,scat=([cat=C|R])},
{cat=C}
{cat=vp,agr=A,
scat=([])},
{cat=(adv;pp)}
{cat=np,agr=A},
{cat=vp,agr=A,scat=([ ])}
cat=s
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 52
26
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Analyse morphologique
•
La morphologie décrit les unités élémentaires d'une
langue désignant un sens ou une fonction
grammaticale
– Morphologie de la flexion
– Morphologie de la dérivation
– Morphologie de la composition
•
Analyse morphologique
– Définition des unités retenues
– description des types d'information associées à ces
unités
– définition d'une méthode de reconnaissances des unités
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 53
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Morphologie de la flexion
• Exemple:
aimer aim(v)
aim(v)
e
(prés&sing&
(pers1;pers3)
es
(prés&sing&pers2)
aim( v)
aim(v)
ons (prés&plur&pers1)
ai- (imp)
s (sing&(pers1;2))
aim
(v)
i..(imp)
ons
(plur&pers1)
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 54
27
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Tableau de conjugaison: aimer
Verb
Présent
Imparfait
Passé simple Futur
aimer
aim – e
aim – ai – s
aim - ai
aim – er - ai
aim – es
aim – ai – s
aim - as
aim - er - as
aim – e
aim – ai – t
aim - a
aim - er - a
aim – ons
aim – i – ons
aim – âmes
aim – er - ons
aim – ez
aim – i – ez
aim – âtes
aim – er - ez
aim – ent
aim – ai – ent aim – èrent
TAL
aim – er - ont
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 55
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Tableau de conjugaison: rire
Verb
Présent
Imparfait
Passé simple
Futur
rire
ri – s
ri – ai – s
ri - s
ri – r - ai
ri – s
ri – ai – s
ri - s
ri - r - as
ri – t
ri – ai – t
ri - t
ri - r - a
ri – ons
ri – i – ons
r – îmes
ri – r - ons
ri – ez
ri – i – ez
r – îtes
ri – r - ez
ri – ent
ri – ai – ent
ri – rent
ri – r - ont
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 56
28
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Les morphèmes
TAL
racines verbales: aim- ;
rir-
infixes verbales:
suffixes verbales: -e (1ère / 3ème personne singulier
-es (2ème personne singulier)
-s (1ère / 2ème personne singulier
-t (3ème personne singulier)
-ai (1ère personne singulier)
-as (2ème personne singulier)
-a (3ème personne singulier)
-ons (1ère personne pluriel)
-mes (1ère personne pluriel)
-ez (2ème personne pluriel)
-tes (2ème personne pluriel)
-ai- (imparfait)
-ent (3ème personne pluriel)
-i- (imparfait)
-ont (3ème personne pluriel)
-â- (passé simple)
-rent (3ème personne pluriel)
-î- (passé simple)
-èrent (3ème personne pluriel)
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 57
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Traits pour l‘analyse morphologique:
traits grammaticales
string=(<string>)
lex =(<string>)
cat=(v;n;adj;det;p)
tense=(praes,imp, pas_s,fut)
pers=(1p,2p,3p)
num=(s,p)
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
TAL
suite de charactère reconue
à la surface
lemmatisation de la forme
catégorie des racines
traits pour le temps
traits pour la personne
traits pour le nombre
Folker Caroli, 58
29
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Traits pour l‘analyse morphologique:
traits combinatoire
morphtype=(vstem;vflex;
nstem;nflex; ....,
word)
first=(yes,no)
last=(yes,no)
flextype(conj1,conj2… )
TAL
indique si le mophème est une rcine
ou un morphème de flexion
indique que l‘analyse est complète
indique si un morphème peut
apparaître au début d‘un mot
indique si un morphème peut
apparaître à la fin d‘un mot
indique la conjugaison
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 59
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Entrées lexicales morphologiques:
racines verbales
TAL
aim
: {cat=v,string=aim, lex=aimer, morphtype=vstem,
first=yes, last=no, flexttype=conj1}
ri
: {cat=v,string=ri, lex=rire, morphtype=vstem, first=yes,
last=no, flexttype=conj2}
r
: {cat=v,string=r, lex=rire, morphtype=vstem, first=yes,
last=no,flexttype=conj2,tense=pas_s}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 60
30
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Entrées lexicales morphologiques:
morphème de flexion verbales
TAL
e
: {cat=v,string=e, morphtype=vflex, first=no, last=yes,
flexttype=conj1, agr={num=s,pers=(1p;3p)},tense=praes}
ent
: {cat=v,string=e, morphtype=vflex, first=no, last=yes,
flexttype=conj1, agr={num=p,pers=3p}}
ai
: {cat=v,string=ai, morphtype=vflex, first=no, last=yes,
flexttype=conj1, agr={num=s,pers=1p},tense=pas_s}
ai
: {cat=v,string=ai, morphtype=vflex, first=no, last=yes,
flexttype=(conj1;conj2), agr={num=s, pers=1p},
tense=fut}
ai
: {cat=v,string=ai, morphtype=vflex, first=no, last=no,
flexttype=(conj1), tense=imp}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 61
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Règles pour l’analyse morphologique
TAL
règles pour la concatenation des morphèmes
{string=S1+S2, cat=C,
morphtype=vstem,
first=yes,last=L, flextype=T,
tense=Temp,
agr=A }
{string=S1, cat=C,
morphtype=vstem, first=yes,
last=no, flextype=T,
tense=Temp}
{string=S2,
morphtype=vflex, first=no
last=L, flextype=T,
tense=Temp, agr=A}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 62
31
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Règles pour l’analyse morphologique
TAL
règles pour términer l’analyse
{string=S1, cat=C,
morphtype=word,
first=yes,last=yes, flextype=T,
tense=Temp,
agr=A }
{string=S1, cat=C,
morphtype=vstem, first=yes,
last=yes, flextype=T,
tense=Temp,agr=A}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 63
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Règles pour l’analyse morphologique
TAL
règles défaut atribuer le temps présent
{string=S1, cat=C,
morphtype=word,
first=yes,last=yes,
flextype=conj1,
tense=praes, tense=Temp,
agr=A }
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
{string=S1, cat=C,
morphtype=word, first=yes,
last=yes, flextype=conj1,
tense=Temp,agr=A}
Folker Caroli, 64
32
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Composition de mots
• Exemples
FRANÇAIS
ALLEMAND
pomme-de-terre
Kartoffel
tire-bouchon
Korkenzieher
voyage présidentielle
Präsidentenreise
escalope de veau
Kalbsschnitzel
escalope chasseur
Jägerschnitzel
eau potable
Trinkwasser
salle à manger
Eßzimmer
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 65
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Dérivation
• Exemples
Verbe
Nom
mentir
menteur
monter
montage
produire
production
Nom
Verbe
marteau
marteler
Adjectif
Verbe
blanc
blanchir
Verbe
Adjectif
manger
mangeable
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 66
33
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Concepts de base du TAL
• Formalismes Grammaticaux
– outil précis de description des langues naturelles
– modélisation formelle des langues naturelles,
interprétable par un ordinateur
– Réalisation par des types différents de programmation
logique
• Grammaires locales
– exploitation des régularités de transition de séquences
d` ’éléments lexicales
– Réalisation par Automates à nombre fini d ’états
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 67
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Automates à nombre fini
d'états I
glandulaire
une
insuffisance
de
la
TAL
thyroïdienne
E
glande
thyroïde
hypothyroïdie
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 68
34
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Automates à nombre fini d'états II
<E>
me
te
se
nous
vous
Analyse des
pronoms proclytiques
<E>
ne
le
la
les
il
on
l‘#
l‘#
les
lui
leur
m‘#
t‘#
l‘#
s‘#
lui
leur
nous
vous
TAL
Verbe
en
y
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
n‘#
Folker Caroli, 69
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Règles pour le groupe verbal:
sous-catégorisation
{cat=vp,agr=A,scat=S}
{cat=vp,agr=A,scat=R}
{cat=vp,agr=A,scat=[ ]}
{cat=v,agr=A,scat=S}
{cat=vp,agr=A,scat=([cat=C|R])},
{cat=C}
{cat=vp,agr=A,
scat=([])},
{cat=(adv;pp)}
{cat=np,agr=A},
{cat=vp,agr=A,scat=([ ])}
cat=s
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 70
35
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Le Problème de l’ordre des
mots
TAL
Langues avec une variation de l‘ordre de mots riches:
Hans wittert einen Wumpus in der Höhle
Hans wittert in der Höhle einen Wumpus
Hans sent un wumpus dans la grotte
Hans riecht heute nach Knoblauch
Heute riecht Hans nach Knoblauch
Hans sent l‘ail aujourd‘hui
Différences de l‘order des mots entre deux langues
Le meunusier habile fabrique und commode élégante
Der geschickte Schreiner tischlert eine elegante Kommode
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 71
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Structure de constituants I
S
NP
Det
N
VP
Adj
V
NP
Det
Le
menusier
habile
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
fabrique
une
N
Adj
commode élégante
Folker Caroli, 72
36
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Structure de constituants II
S
NP
Det
Der
VP
Adj
N
V
geschickte Schreiner
NP
tischlert
Det
Adj
N
eine
elegante
Kommode
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 73
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Structure de dépendance
tischlert
fabrique
Schreiner
menusier
Der
Le
geschickte
habile
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Kommode
commode
eine
une
elegante
élégante
Folker Caroli, 74
37
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Structure de dépendance
isst
mange
Kinder
enfant
dt
Apfel
pomme
klein
dt
dt
petit
rot
dt
rouge
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 75
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Relation prédicat-argument – forme logique
TAL
tischlern
A tischlert B
A
tischlern (A, B)
B
clause
v-pred
arg1
tischlern
A
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
arg2
B
Folker Caroli, 76
38
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Structures avec des
arguments modifiés
TAL
clause
v-pred
arg1
n-pred
mod
arg2
mod
tischlern Schreiner geschickt der
fabriquerInstitut
meunisier
der Gesellschaft zurhabile
Förderung
n-pred
mod
mod
Kommode elegant eine
le
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
commode
elegante une
Folker Caroli, 77
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Transfer simple
{lex=der}
{lex=le}
{lex=art}
{lex=art}
{lex=geschickt}
{lex=habile}
{lex=schreiner}
{lex=meunisier}
{lex=tischlern}
{lex=fabriquer}
{lex=eine}
{lex=une}
{lex=elegant}
{lex=élégant}
{lex=Kommode}
{lex=commode}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 78
39
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Poblèmes de traduciton
The man knows the result of the
investigation
L’homme connaît le résultat de
l’investigation
The man knows that the
investigation was
closed without any result.
L’homme sait que l’investigation
a été terminée sans résultat.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 79
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Sémantique
• La sémantique décrit la structure du concept du
signe.
– Sémantique lexicale: Description du sens des unités du
lexique
– Sémantique de la phrase: Description des relations
sémantiques entres les unités d'une phrase
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 80
40
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Analyse sémantique
• Analyse de sémantique lexicale
– Délimiter les traits différentiels de sens des unités
lexicales
– Description des relation de sens entre les unités
lexicales d'une langue
– trait sémantique: différence de signification minimale
qui distingue des sens d’un mot ou de deux mots
• Analyse de sémantique de la phrase
– Délimiter les relations de dépendance
– Classification des prédicats et des arguments associés
– Délimiter les restrictions sémantiques enter arguments et
prédicats
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 81
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
classification rudimentaire
de traits sémantiques
TAL
chose
animé
nonhum
animal
chien
oiseau
inst
hum
concr
abstr
contable
masse
conseil
auto
sable
conseillé parlement
table
vin
clou
acier
géneral
élève
comité
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
intel
investigation
Projet de loi
budget
sent
colère
joie
tristessse
Folker Caroli, 82
41
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Rôles sémantiques
types de prédicats (exemple)
TAL
Type de prédicat: procès mental
rôles: processeur, procès mental
Prédicat
RS
exemple
centré sur le
processeur
processeur seul
Léa rêve
processeur /
procès mental
Jean connaît le résultat
Jean sait, que l‘investigation a été
terminée sans résultat .
centré sur le
procès
processeur /
procès mental
Que l‘investigation a été
terminée sans résultat agace Jean.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 83
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Roles sémantiques et trait
sémantiques
TAL
{cat=clause}
{role=v-pred}
frame={arg1={semrole=processor,
at=n,sem=hum}},
{arg2={semrole=phen,
cat=scompl}}
{role=arg1}
{role=arg2}
semrole=processor semrole=phen
cat=n,sem=hum
cat=scompl
know
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
man
That the investigation was
closed without any result
Folker Caroli, 84
42
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Transfer: généralisation
TAL
{cat=clause}
{role=v-pred}
{role=arg1}
{role=arg2}
semrole=R1,
semrole=R2
sem=Sem1,cat=C1 sem=Sem2,cat=C2
frame={arg1=A1,
arg2=A2}
_C1
_B1
{cat=clause}
_A1
{role=arg1}
{role=arg2}
semrole=R1
semrole=R2
sem=Sem1,cat=C1 sem=Sem2,cat=C2
frame={arg1=A1,
arg2=A2}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
_C2
_B2
Folker Caroli, 85
_A2
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Transfer lexical
{lex=know,
frame={arg1={semrole=processor,
cat=n
sem=hum}},
{arg2={role=phenom,
cat=scompl}}}
{lex=savoir,
frame={arg1={semrole=processor,
cat=n
sem=hum}},
{arg2={role=phenom,
cat=scompl}}}
{lex=know,
frame={arg1={semrole=processor,
cat=n
sem=hum}},
{arg2={role=phenom,
cat=n,sem=abstr}}}
{lex=connaître,
frame={arg1={semrole=processor,
cat=n
sem=hum}},
{arg2={role=phenom,
cat=n,sem=abstr}}}
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 86
43
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
La Traduction Automatique
TAL
Recherche et développement (I)
•
Les approches différentes
– Approche direct
• traduction directe: L’ unité de traduction est le lexème
– Approche linguistique
• traduction à la base d’une analyse plus ou moins complexe
de la phrase de la lange source: L’unité de traduction est en général – la phrase
– Approche intelligence artificielle
• L’analyse linguistique est améliorée par le recours aux
informations pertinent de la situation et du contexte
représentées en utilisant des méthodes de l’ IA: L’unité de
la traduction est variable. Elle peut comprendre plusieurs
phrase
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 87
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
La Traduction Automatique
TAL
Recherche et développement (II)
•
Les Modèles de la traduction
– Transfert
• l’analyse vise une représentation canonique de la strucure
de la phrase qui est identique pour la lange source et la
langue cible en gardant les lexèmes de la langue source. La
traduction est fait sur cette représentation en traduisant les
lexèmes en fonction de la structure de la phrase
– Interlingua
• l’analyse vise une représentation abstraite aussi bien de de
la structure de la phrase que pour la sémantique des
lexèmes qui identique pour la lange source et la langue
cible. La génération de la phrase dans la langue cible utilise
cette représentation comme point de départ.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 88
44
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Modèle de la traduction
approche transfert
TAL
Langue source
Input
dictionnaire
analyse
grammaire
transfert
IR
Langue source
grammaire
dictionnaire
IR
langue cible
génération
grammaire
dictionnaire
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
langue cible
Output
Folker Caroli, 89
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
Modèle de la traduction
Approche Interlingua
TAL
Langue source
dictionnaire
analyse
Input
grammaire
interlingua
dictionnaire
génération
Output
grammaire
langue cible
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 90
45
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
La Traduction Automatique
TAL
Recherche et développement (III)
• Stratégies pour améliorer la performance
– Domaines restreintes
• Limitations des ressources linguistiques (grammaire et
lexiques) à des domaines d’applications bien définis
– Langage contrôlé
• Standardisation de la langue utilisés pour la rédaction
de documents (syntaxe, lexique générale,
terminologie)
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 91
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Quelques Systèmes
•
•
•
•
•
•
•
SYSTRAN (approche hybride)
TAUMETEO (approche direct)
EUROTRA (Transfert)
CAT2 (Transfert)
LOGOS (approche hybride)
METAL/T1 (Transfert)
KANT (Interlingua, langage contrôlé)
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 92
46
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Texte authentique
Les pompes à chaleur séduisent les Français
LE MONDE | 06.03.07 | 17h58 • Mis à jour le 06.03.07 | 17h58
La France possède un trésor géothermique dans son sous-sol, dont
elle n'exploite qu'une infime partie. Il pourrait être mieux utilisé pour
le chauffage, qui représente 30 % de la consommation énergétique
du secteur tertiaire et 75 % de celle du secteur résidentiel.
Le Bassin parisien, par exemple, recèle cinq grands réservoirs
géothermiques d'eau chaude, dont le Dogger, qui offre des
températures de 56 0C à 85 0C à 1 800 mètres de profondeur et qui
alimente des réseaux de chaleur urbains. Le Bassin aquitain est lui
aussi bien doté, de même que d'autres régions.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 93
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Grammaire de discours I
Possibilité ou cause.
Ph1 provoque un changement d’état (éventuellement implicite)
qui cause ou permet Ph2.
Exemple : « Je suis sorti. J’ai conduit jusqu’à l’école. »
(Sortir permet l’acte implicite de monter en voiture.)
• Explication.
Le contraire de la cause : Ph2 cause ou permet Ph1 et en
constitue donc une explication.
Exemple : « J’étais en retard à l’école. Je ne m’étais pas réveillé. »
• Rapport fond-figure.
Ph1 décrit l’environnement ou l’arrière-plan de Ph2.
Exemple : « Il faisait nuit noire et la tempête faisait rage.
Reste de l’histoire. »
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 94
47
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Grammaire de discours II
Évaluation:
À partir de Ph2, inférer que Ph1 fait partie du plan du locuteur
d’exécuter le segment comme un acte de langage.
Exemple : « Il s’est passé quelque chose de drôle. Reste de l’histoire. »
Exemplification:
Ph2 est un exemple du principe général contenu dans Ph1.
Exemple : « Cet algorithme inverse une liste. L’entrée [A, B, C]
est transformée en [C,B, A]. »
Généralisation: Ph1 est un exemple du principe général
contenu dans Ph2.
Exemple : « [A, B, C] est transformé en [C, B, A].
En général, l’algorithme inverse une liste. »
Paradoxe:
Inférer P de Ph2, en niant l’inférence normale de P à partir de Ph1.
Exemple : « Cet article est un peu faible. En revanche, il est intéressant. »
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 95
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Une petite histoire
(1) Quelque chose de drôle est arrivé hier.
(2) Jean est allé dans un restaurant chic.
(3) Il a choisi le canard.
(4) L’addition se montait à 50 BC.
(5) Jean eut un choc quand il se rendit compte
qu’il n’avait pas d’argent.
(6) Il avait oublié son portefeuille à la maison.
(7) Le serveur a dit qu’il pouvait payer plus tard.
(8) Il était très gêné de son étourderie.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 96
48
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Repères bibliographiques
•
•
•
•
•
•
Allen, James (1995). Natural Language Understanding. Benjamin / Cummings, Redwood
City.
Bouillion, Pierrette, André Clas (1993). La traductique. Études et recherches d traduction par
ordinateur. Montréal: Presse de l‘Université
Batori, I. W. Lenders, W. Putschke (1989). Computational Linguistics. An International
Handbook on Computer Oriented Language Research and Applications. Berlin, New York:
De Gruyter. (=Handbücher zur Sprach- und Kommunikationswissenschaft 4).
Bresnan, J. (1982). Control and Complementation. The Mental Representation of
Grammatical Relations. Cambridge MA: MIT Press.
Carré R. et al. (1991). Langage humain et machine. Paris: Presse du CNRS.
Cole, R. (ed.) (1997). Survey of the State of the Art in Human Language Technology.
Cambirdge: Cambridge University Press.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 97
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Repères bibliographiques
•
•
•
•
•
•
•
•
•
Fuchs, C. et al. (1993). Linguistique et Traitement Automatique des Langues. Paris:
Hachette..
Gazdar, G. et al. (1985). Generalized Phrase Structure Grammar. Oxford: Basic
Gibbon, Dafyd (2000). Handbook of Multimodal and Spoken Dialog Systems. Doodrecht:
Kluwer.
Hausser, Blackwell, R. (1999) Foundations of Computational Linguistics. Machine
Communication in Natural Language. Berlin, New York: Springer.
Miller, P. et T. Torris (1990). Formalismes syntaxiques pour le traitement automatique du
langage naturel. Paris: Hermes.
Pollard, C. et I. A. Sag (1994) Head Driven Phrase Structure Grammar. Chicago/London:
University of Chicago Press.
Russell, S. et P. Norvig (2003) Artificial Intelligence. A Modern Approach. Second Ed.
Prentice Hall.
Shieber, S. (1986). An Introduction to Unification-based Approaches to Grammar. CSLI
Lecture Notes 4. Stanford University California.
Traitement automatique de la langue 1995. Actes du Colloque « Traitement automatique de
la langue et industrie de l ’information. Problématiqaue 1995. Paris.
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 98
49
Uinversität Hildesheim
Institut für Angewandte Sprachwissenschaft
TAL
Sites Internet intéressants
•
•
•
•
Euromap Technologies de la Langue
http://www.elda.org/fr/proj/euromap/directory.php
IlPGA Université de Paris III
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/index.htm
Traitment automatique du langage (glossaire)
http://perso.wanadoo.fr/ldelafosse/Tln.htm
ATALA Association du Traitement automatique du langage
http://www.atala.org/article.php3?id_article=90
Institut der Gesellschaft zur Förderung
der Angewandten Informationsforschung e.V.
an der Universität des Saarlandes
Folker Caroli, 99
50

Documentos relacionados