NoSta-D Chat - Institut für deutsche Sprache und Linguistik

Transcrição

NoSta-D Chat - Institut für deutsche Sprache und Linguistik
CLARIN-D-Kurationsprojekt:
Linguistische Annotation von Nichtstandardvarietäten
Guidelines und „Best Practices“ (F-AG 7)
Anke Lüdeling*, Stefanie Dipper†,
Marc Reznicek+*, Burkhard Dietterle*
† Ruhr-Universität Bochum, * Humboldt-Universität zu Berlin
2. CLARIN-D-Disseminationsworkshop der F-AGs - Digitale Ressourcen, Anwendungsszenarien und 'Best Practices‚
20.09.2013 - Leipzig
Übersicht
2
• Projekt und Projektziele
• Nichtstandardsprachliche Strukturen
• Vorverarbeitung und Annotation
• Output
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Clarin-D F-AG7 Kurationsproject (KP2)
Linguistische Annotation von NichtstandardVarietäten Guidelines und „Best Practices“ (FAG 7)
3
 Annotationschemata, Guidelines und automatische
Tools basieren auf Zeitungssprache
 Pilotprojekt: Erweiterung existierender Ressourcen für
 5 Nichtstandard-Varietäten
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Clarin-D F-AG7 Kurationsproject (KP2)
4
Linguistische Annotation von NichtstandardVarietäten Guidelines und „Best Practices“ (FAG 7)
 Annotationschemata, Guidelines und automatische
Tools basieren auf Zeitungssprache
 Pilotprojekt: Erweiterung existierender Ressourcen für
 5 Nichtstandard-Varietäten
 3 Anntotationstypen
 Dependenzanalyse
 Named Entities
 Koreferenz
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
NoSta-D
Nichtstandard-Varietäten-Korpus des Deutschen
5
L2-Lerneraufsätze:
Falko
6,762 Tokens
 Wortstellungsabweichungen
 kreative Wortbildung
 nicht-kanonische syntaktische
Argumentstruktur
 abweichende morphologische
Markierung
gespr. Map Tasks:
(Dipper et al. erscheint)
6,664 Tokens
 Wiederholungen
 Selbstkorrekturen
 Anakoluth
 Online-Argumententwicklung
Zeitung:
Kafka – Der Prozeß
 mehrfache
Argumentbesetzung
 komplexe Parenthesen
BeMaTac
6,731 Tokens
Literarische Prosa:
7,294 Tokens
Chat-Protokolle:
5,000 Tokens
TüBa-DZ
Standard-Varietät
DCK – Plauderchat
 Schreibfehler
 Inflektive (Vend)
 Asterisk-Ausdrücke
 @-Adressierung
 Emoticons
 Verkettungen
Historische Texte:
2,348 + 4,705 Tokens
DDB & Anselm
 keine Satzsegmentierung
 eher freie Wortstellung
 keine standardisierte
Schreibung
https://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/clarin-d
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Guidelines & Best Practices
6
 Dokumentation der Datenverarbeitung
 Evaluation bestehender Annotationsrichtlinien
 Erweiterung der Annotationsschemata für NoSta-DVarietäten
Named Entity
 STTS
(Schiller et al. 1999)
Dependenz
 Constraint Dependenz
Grammatik
 Tüba D/Z
(Telljohan et al. 2012)
 MUC-6
(Grishman 1995)
(Foth 2006)
 TiGer
(Albert et al. 2003)
Koreferenz
 Tüba-D/Z
(Naumann 2007)
 PoCos erweitertes
Schema
(Kaupat et al. 2013)
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Annotation & NoSta-D Guidelines
7
Interessante
Nichtstandard-Phänomene
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Named Entities (Chat)
 Kreative Namensschreibung
#
Sprecher
25 system
26 Lantonie
27 quaki
28 Lantonie
29 zora
34 marc30
35 TomcatMJ
8
Beitrag
Lantonie betritt den Raum.
:)
lantonieeeeee
Hallo. :)
LANTOOO :)))
Lantöööö :o)
hi lanto
221006_unicum_21-02-2003_1
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Named Entities (Chat)
 Kreative Namensschreibung
#
Sprecher
25 system
26 Lantonie
27 quaki
28 Lantonie
29 zora
34 marc30
35 TomcatMJ
9
Beitrag
Lantonie betritt den Raum.
:)
lantonieeeeee
Hallo. :)
LANTOOO :)))
Lantöööö :o)
hi lanto
 Kreative Namensgebung
#
Sprecher
434 system
Beitrag
zurück betritt den Raum.
221006_unicum_21-02-2003_1
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Syntax (Map Task & Chat)
 Selbstkorrekturen
 Satzfragmente
10
 deswegen würde ich dir vorschlagen dass
du bis zum Burger gehst
 okay
 auf der rechten auf der rechten in der rechten oberen Ecke
 rechte obere Ecke
Bematac_2011-12-14-B:108
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Syntax (Map Task & Chat)
 Selbstkorrekturen
 Satzfragmente
11
 deswegen würde ich dir vorschlagen dass
du bis zum Burger gehst
 okay
 auf der rechten auf der rechten in der rechten oberen Ecke
 rechte obere Ecke
 @-Adressierungen
#
Sprecher
514 TomcatMJ
Bematac_2011-12-14-B:108
Beitrag
ja,mit dem ast in der hand im teich am
rumsitzen@stoeps*G*
221006_unicum_21-02-2003_1
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Koreferenz (Lerner & Chat)
12
 Fehlerhafte Verwendung von Pronomen
Wenn man sich mit dieser Frage im Rahmen der Ethik beschäftigt,
wird er fast auf jeden Fall sagen dass Kriminalität sich nicht auszahlt.
Falko_fk002_2006_08
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Koreferenz (Lerner & Chat)
13
 Fehlerhafte Verwendung von Pronomen
Wenn man sich mit dieser Frage im Rahmen der Ethik beschäftigt,
wird er fast auf jeden Fall sagen dass Kriminalität sich nicht auszahlt.
Falko_fk002_2006_08
 Nicht-realisierte Referenten
516
519
524
528
534
Erdbeer$
quaki
Erdbeere$
Erdbeere$
Erdbeere$
bochum ist ne stadt im pott
Bochum is dunkelgrün???
ne  grau
 im grauen pott
 hell schwarz?
221006_unicum_21-02-2003_1
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
14
Vorverarbeitung




Linearisierung
Segmentierung
Tokenisierung
Normalisierung
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Linerarisierung
Überlappende Redebeiträge in Map Tasks
Sprecher 1 Sprecher 2
äh
und
gehst
jetzt
nach
warte
mal
Tür
is
noch
nich
ganz
zu
15
Sprecher 1 Sprecher 2
äh
Sprecher 1
und
gehst
jetzt
Sprecher 1
nach
warte
mal
Tür
Sprecher 2
is
noch
nich
ganz
zu
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
16
Vorverarbeitung




Linearisierung
Segmentierung
Tokenisierung
Normalisierung
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Segmentierung
Fehlende Satzgrenzen in historischen Texten
17
 Pro Segment: 1 Matrixsatz mit Abhängigen
sente anshelmus bat marien manch iar
myt heysen trenen das sy ym offenbarte
wy vnser here ih-us cristus syne marter
irleden hatte
do sprach vnse vrouwe Anshelme ich sage
dir das myn here ihesus cristus alzo grose
martir irleden hot . das sy nyrkeyn
mensche usgelegen mak
Doch salt u wissen daz ich an sotane
wirdekeit komen byn das ich nvmmermer
betrubet mak werden
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
18
Vorverarbeitung




Linearisierung
Segmentierung
Tokenisierung
Normalisierung
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Tokenisierung
Kontatenationen in Chat
 Lexeme werden in einzelne Tokens getrennt
 mit „|“ markiert
165 quaki
19
*nagut50cmlauflaufleine*
165 quaki * na| gut| 50| cm| lauflaufleine| *
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
20
Vorverarbeitung




Linearisierung
Segmentierung
Tokenisierung
Normalisierung
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Motivation
Named Entity:
21
 Uneinheitliche Namensschreibung
Einheitliche Schreibung erleichtert nachvollziehbare Klassifizierung
 Normalisierung auf Sprecheralias (Chat), Lexikoneinträge
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Motivation
Named Entity:
22
 Uneinheitliche Namensschreibung
Einheitliche Schreibung erleichtert nachvollziehbare Klassifizierung
 Normalisierung auf Sprecheralias (Chat), Lexikoneinträge
Dependenz:
 Satzfragmente
Nur Verben können grammatische Rolle im Satz verteilen.
 Ergänzung von Auslassungen und Ellipsen
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Motivation
Named Entity:
23
 Uneinheitliche Namensschreibung
Einheitliche Schreibung erleichtert nachvollziehbare Klassifizierung
 Normalisierung auf Sprecheralias (Chat), Lexikoneinträge
Dependenz:
 Satzfragmente
Nur Verben können grammatische Rolle im Satz verteilen.
 Ergänzung von Auslassungen und Ellipsen
Koreferenz:
 Nicht/falsch an der sprachlichen Oberfläche realisierte Referenzen
Explizierung nicht-realisierter Referenten erlaubt Einbindung in
referenzielle Kette
 Ergänzung und Korrektur von Referenzausdrücken
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Perspektiven
Zwei Perspektiven
❶
24
Zwei Repräsentationen
Variationistischer Ansatz:
Normalisierung = Index zur Klassifizierung vergleichbarer Phänomene in Korpora
 Annotation der Normalisierung
Wie variiert die Realisierung
von Subjekten zwischen
Varietäten?
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Perspektiven
Zwei Perspektiven
❶
25
Zwei Repräsentationen
Variationistischer Ansatz:
Normalisierung = Index zur Klassifizierung vergleichbarer Phänomene in Korpora
 Annotation der Normalisierung
Wie variiert die Realisierung
von Subjekten zwischen
Varietäten?
❷
Computerlinguistischer Ansatz:
Normalisierung = minimaler Vorverarbeitungsschritt für weitere Verarbeitung
 Annotation des Originaltextes
auf Grundlage der Normalisierung
Wie annotiert man Fragmente?
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Named Entities
26
Regel (Chat): Normalisierung = Alias  PER
# Sprecher
Original
[Lantonie]PER betritt den
25 system
Raum.
26 Lantonie :)
27 quaki
[lantonieeeeee]PER
28 Lantonie Hallo. :)
29 zora
[LANTOOO]PER :)))
34 marc30
[Lantöööö]PER :o)
35 TomcatMJ hi [lanto]PER
Normalisierung
[Lantonie]PER betritt den
Raum.
:)
[Lantonie]PER!
Hallo :)
[Lantonie]PER :)))
[Lantonie]PER :o)
Hi, [Lantonie]PER!
221006_unicum_21-02-2003_1
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Named Entities
27
Normalisierung = Organisation  ORG
Sprech
#
er
Original
429
Normalisierung
boah... ich bekomm echt
Emon augenkrebs von
bochum...
436
ich vom [has]ORG emon
Thor…
*g*
Boah! Ich bekomme echt
Augenkrebs von
Bochum.
Ich vom [HSV]ORG,
Emon *g*
439
[HSV]ORG
Thor… [hasv]ORG
453 Emon
[hsv]ORG heisst dat
[HSV]ORG
heißt das.
221006_unicum_21-02-2003_1
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Koreferenz
28
Norm. hat Antezedens  Orig. hat gleichen Antezedens
Norm-Regel: Ersetze in Kombinationen von “man” und ”er/sie”
Letzteres durch Ersteres, wenn Letzteres im Kontext keinen
Antezedenten besitzt!
Wenn man sich mit dieser Frage im Rahmen der Ethik beschäftigt, wird
(er/ man) fast auf jeden Fall sagen dass Kriminalität sich nicht auszahlt.
ANAPHORIC
Falko_fk002_2006_08
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Dependenz
Explizite Einfügung prototypischer Verben mit
passender Argumentstruktur in verblose Sätze.
 Motivation der Fragmentfunktionen
29
Original
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalisierung: Dependenz
Explizite Einfügung prototypischer Verben mit
passender Argumentstruktur in verblose Sätze.
 Motivation der Fragmentfunktionen
30
Original
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Normalization: Motivation
Explizite Einfügung prototypischer Verben mit
passender Argumentstruktur in verblose Sätze.
 Motivation der Fragmentfunktionen
31
Normalisierung
ROOT
Original
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Retokenisierung : @-Adressierung
Explizite Einfügung prototypischer Verben mit
passender Argumentstruktur in verblose Sätze.
 Motivation der Fragmentfunktionen
32
Normalisierung
ROOT
Original
ROOT
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Retokenisierung: @-Adressierung
33
mit dem ast in der hand im teich am rumsitzen@stoeps
mit dem ast in der hand im teich am rumsitzen
@ stoeps
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Retokenisierung : @-Adressierung
34
mit dem ast in der hand im teich am rumsitzen@stoeps
mit dem ast in der hand im teich am rumsitzen
XX
message
@ stoeps
PN
@
addressee
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Retokenisierung : @-Adressierung
35
mit dem ast in der hand im teich am rumsitzen@stoeps
XX
message
PN
@
addressee
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Retokenisierung : @-Adressierung
@-attached arguments are of variable type:
36
Modification: MOD
Sentence root: S
Inflective root: SINFL
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Annotation
37
Annotation mit
NoSta-D Guidelines
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
NoSta-D
Du
38
hast gegessen und geraucht
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
TiGer Annotationsschema (Albert et al. 2003)
Du
NoSta-D
39
hast gegessen und geraucht
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
TiGer AS 2003
S.117, Bsp. 2
Koordination von Verbalphrasen
Du
NoSta-D
40
hast gegessen und geraucht
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
TiGer 2003
NoSta-D
S.117, Bsp. 2
41
NoSta-D Guidelines für Dependenzen
https://www.linguistik.hu-berlin.de/institut/professuren/
korpuslinguistik/forschung/clarin-d
Du
hast gegessen und geraucht
Dependens
(C…)-[CD]
Was
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
TiGer 2003
NoSta-D
S.117, Bsp. 2
42
NoSta-D Guidelines für Dependenzen
https://www.linguistik.hu-berlin.de/institut/professuren/
korpuslinguistik/forschung/clarin-d
Du
hast gegessen und geraucht
Dependens
(C…)-[CD]
Was
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
TiGer 2003
NoSta-D
S.117, Bsp. 2
43
NoSta-D Guidelines für Dependenzen
https://www.linguistik.hu-berlin.de/institut/professuren/
korpuslinguistik/forschung/clarin-d
Du
hast gegessen und geraucht
Dependens
Regens
(C…)-[CD]
das innerhalb derselben (C…) unmittelbar vorangehende
(C…)-[CJ], es sei denn …
Was
ist Tochter von
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
TiGer 2003
NoSta-D
S.117, Bsp. 2
44
NoSta-D Guidelines für Dependenzen
https://www.linguistik.hu-berlin.de/institut/professuren/
korpuslinguistik/forschung/clarin-d
Du
Dependens
(C…)-[CD]
Was
Regens
hast gegessen und geraucht
Label
das innerhalb derselben (C…) unmittelbar vorangehende
KON
(C…)-[CJ], es sei denn …
ist Tochter von
wie
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
TiGer 2003
NoSta-D
S.117, Bsp. 2
45
NoSta-D Guidelines für Dependenzen
https://www.linguistik.hu-berlin.de/institut/professuren/
korpuslinguistik/forschung/clarin-d
Du
Dependens
(C…)-[CD]
Was
Regens
hast gegessen und geraucht
Label Beispiel
das innerhalb derselben (C…) unmittelbar vorangehende
KON
(C…)-[CJ], es sei denn …
ist Tochter von
wie
S.117,
Bsp. 2
?
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
TiGer 2003
NoSta-D
S.117, Bsp. 2
46
NoSta-D Guidelines für Dependenzen
https://www.linguistik.hu-berlin.de/institut/professuren/
korpuslinguistik/forschung/clarin-d
C…
Du
Dependens
(C…)-[CJ]
Was
hast gegessen und geraucht
Regens
das innerhalb derselben (C…) unmittelbar links stehende
(C…)-[C…], sofern …
ist Tochter von
Label Beispiel
C…
S.117,
Bsp. 2
wie
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
TiGer 2003
NoSta-D
S.117, Bsp. 2
47
NoSta-D Guidelines für Dependenzen
https://www.linguistik.hu-berlin.de/institut/professuren/
korpuslinguistik/forschung/clarin-d
CAUX
Du
Dependens
(C…)-[CJ]
Was
hast gegessen und geraucht
Regens
das innerhalb derselben (C…) unmittelbar links stehende
(C…)-[C…], sofern …
Das Restlabel ergibt sich aus der direkten Relation der
Mutter des ersten koordinierten Elements zum Dependens.
ist Tochter von
Label Beispiel
C…
S.117,
Bsp. 2
wie
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
48
Kreuzklasse C
Koordination
SUBJ
CSUBJ
KON
 CSUBJ
Steinbrück und Merkel machen Handzeichen.
PN
 CPN
Ich wähle mit Herz
OBJA
 COBJI
KON
CPN
und Seele.
KON
COBJI
Manche mögen kein Fleisch und ins Parlament kommen.
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependenzen (Guidelines)
49
Kreuzklasse COR
Korrektur
Die höchste Mutter, ab der ein Korrektur beginnt.
 CORMOD  MOD-Kante, ab der korrigiert wird
 [auf der rechten]CORMOD … [in der reichten oberen Ecke]MOD
Bematac_2011-12-14-B:108
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Dependency annotation
Annotation with WebAnno
https://clarin.ukp.informatik.tu-darmstadt.de
50
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Daten und Guidelines
51
https://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/clarin-d/
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Zusammenfassung
52
 NoSta-D  Deutsche Pilot-Ressource für Training und
Entwicklung für Nichtstandard-Varietät verfügbar
 Ergänzungen zu gängigen Richtlinien (NER,
Dependenzen und Koreferenzen)  gute Abdeckung
von NoSta-D
 Normalisierung explizit in die Korpora integrieren 
Nachvollziehbarkeit strittiger Annotationen erhöhen
 Parallele Annotation von Normalisierung und abgeleitet
daraus der Originaldaten  Vereinbarkeit
komplementärer Untersuchungsansätze
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Zukünftige Aufgaben
 Aufbau größerer Ressourcen und weiterer Varietäten für
Training
53
 Untersuchung zusätzlicher Annotationstypen
 Grundsätzliche Kritik an der linguistischen Adäquatheit
dependenzgrammatischer Modelle auch für den deutschen
Standard
 u.a. Koordination finiter Verben
 Generell stärkerer Fokus auf den Einsatz von
Mehrebenenarchitekturen in Annotations-, Such- und
Analysetools
 u.a. Gleichzeitige Darstellung und Verarbeitung
konkurrierender Normalisierungsebenen
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
54
Danke!
Projektseite:
https://www.linguistik.huberlin.de/institut/professuren/korpuslinguistik/forschung/clarin-d
Kontakt:
[email protected]
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig
Bibliography
55
Albert, Stefanie; Anderssen, Jan; Bader, Regine; Becker, Stefanie; Bracht, Tobias; Brants, Thorsten
et al. (2003): TiGer Annotationsschema.
Dipper, Stefanie; Lüdeling, Anke; Reznicek, Marc (erscheint): NoSta-D. A Corpus of German NonStandard Varieties. In: Zampieri, Marcos; Diwersy, Sascha (Hgg.): Non-Standard Data Sources in
Corpus-Based Research (ZMS-Studien - Schriften des Zentrums Sprachenvielfalt und
Mehrsprachigkeit der Universität zu Köln 5), Hamburg: Shaker.
Foth, Kilian A. (2006): Eine umfassende Constraint-Dependenz-Grammatik des Deutschen.
Technischer Report. Universität Hamburg. Hamburg.
Kaupat, David; Warzecha, Saskia; Stede, Manfred (2013): Koreferenz. Chapter 5. Erweiterung des
PoCoS-Kernschemas.
Naumann, Karin (2007): Manual for the Annotation of In-Document Referential Relations. Seminar
für Sprachwissenschaft, Abt. Computerlinguistik Universität Tübingen, http://www.sfb441.unituebingen.de/a1/Publikationen/tuebadz_relations_man.pdf
Schiller, Anne; Teufel, Simone; Stöckert, Christine; Thielen, Christine (1999): Guidelines für das
Tagging deutscher Textkorpora mit STTS. Technical Report. University of Stuttgart; University of
Tübingen, http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf.
Telljohann, Heike; Hinrichs, Erhard W.; Kübler, Sandra; Zinsmeister, Heike; Beck (2012): Stylebook
for the Tübingen Treebank of Written German (TüBa-D/Z). Seminar für Sprachwissenschaft.
Universität Tübingen, http://www.sfs.uni-tuebingen.de/resources/tuebadz-stylebook1201.pdf.
Stand: 26.09.2013
2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig