NoSta-D Chat - Institut für deutsche Sprache und Linguistik
Transcrição
NoSta-D Chat - Institut für deutsche Sprache und Linguistik
CLARIN-D-Kurationsprojekt: Linguistische Annotation von Nichtstandardvarietäten Guidelines und „Best Practices“ (F-AG 7) Anke Lüdeling*, Stefanie Dipper†, Marc Reznicek+*, Burkhard Dietterle* † Ruhr-Universität Bochum, * Humboldt-Universität zu Berlin 2. CLARIN-D-Disseminationsworkshop der F-AGs - Digitale Ressourcen, Anwendungsszenarien und 'Best Practices‚ 20.09.2013 - Leipzig Übersicht 2 • Projekt und Projektziele • Nichtstandardsprachliche Strukturen • Vorverarbeitung und Annotation • Output 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Clarin-D F-AG7 Kurationsproject (KP2) Linguistische Annotation von NichtstandardVarietäten Guidelines und „Best Practices“ (FAG 7) 3 Annotationschemata, Guidelines und automatische Tools basieren auf Zeitungssprache Pilotprojekt: Erweiterung existierender Ressourcen für 5 Nichtstandard-Varietäten 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Clarin-D F-AG7 Kurationsproject (KP2) 4 Linguistische Annotation von NichtstandardVarietäten Guidelines und „Best Practices“ (FAG 7) Annotationschemata, Guidelines und automatische Tools basieren auf Zeitungssprache Pilotprojekt: Erweiterung existierender Ressourcen für 5 Nichtstandard-Varietäten 3 Anntotationstypen Dependenzanalyse Named Entities Koreferenz 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig NoSta-D Nichtstandard-Varietäten-Korpus des Deutschen 5 L2-Lerneraufsätze: Falko 6,762 Tokens Wortstellungsabweichungen kreative Wortbildung nicht-kanonische syntaktische Argumentstruktur abweichende morphologische Markierung gespr. Map Tasks: (Dipper et al. erscheint) 6,664 Tokens Wiederholungen Selbstkorrekturen Anakoluth Online-Argumententwicklung Zeitung: Kafka – Der Prozeß mehrfache Argumentbesetzung komplexe Parenthesen BeMaTac 6,731 Tokens Literarische Prosa: 7,294 Tokens Chat-Protokolle: 5,000 Tokens TüBa-DZ Standard-Varietät DCK – Plauderchat Schreibfehler Inflektive (Vend) Asterisk-Ausdrücke @-Adressierung Emoticons Verkettungen Historische Texte: 2,348 + 4,705 Tokens DDB & Anselm keine Satzsegmentierung eher freie Wortstellung keine standardisierte Schreibung https://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/clarin-d 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Guidelines & Best Practices 6 Dokumentation der Datenverarbeitung Evaluation bestehender Annotationsrichtlinien Erweiterung der Annotationsschemata für NoSta-DVarietäten Named Entity STTS (Schiller et al. 1999) Dependenz Constraint Dependenz Grammatik Tüba D/Z (Telljohan et al. 2012) MUC-6 (Grishman 1995) (Foth 2006) TiGer (Albert et al. 2003) Koreferenz Tüba-D/Z (Naumann 2007) PoCos erweitertes Schema (Kaupat et al. 2013) 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Annotation & NoSta-D Guidelines 7 Interessante Nichtstandard-Phänomene 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Named Entities (Chat) Kreative Namensschreibung # Sprecher 25 system 26 Lantonie 27 quaki 28 Lantonie 29 zora 34 marc30 35 TomcatMJ 8 Beitrag Lantonie betritt den Raum. :) lantonieeeeee Hallo. :) LANTOOO :))) Lantöööö :o) hi lanto 221006_unicum_21-02-2003_1 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Named Entities (Chat) Kreative Namensschreibung # Sprecher 25 system 26 Lantonie 27 quaki 28 Lantonie 29 zora 34 marc30 35 TomcatMJ 9 Beitrag Lantonie betritt den Raum. :) lantonieeeeee Hallo. :) LANTOOO :))) Lantöööö :o) hi lanto Kreative Namensgebung # Sprecher 434 system Beitrag zurück betritt den Raum. 221006_unicum_21-02-2003_1 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Syntax (Map Task & Chat) Selbstkorrekturen Satzfragmente 10 deswegen würde ich dir vorschlagen dass du bis zum Burger gehst okay auf der rechten auf der rechten in der rechten oberen Ecke rechte obere Ecke Bematac_2011-12-14-B:108 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Syntax (Map Task & Chat) Selbstkorrekturen Satzfragmente 11 deswegen würde ich dir vorschlagen dass du bis zum Burger gehst okay auf der rechten auf der rechten in der rechten oberen Ecke rechte obere Ecke @-Adressierungen # Sprecher 514 TomcatMJ Bematac_2011-12-14-B:108 Beitrag ja,mit dem ast in der hand im teich am rumsitzen@stoeps*G* 221006_unicum_21-02-2003_1 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Koreferenz (Lerner & Chat) 12 Fehlerhafte Verwendung von Pronomen Wenn man sich mit dieser Frage im Rahmen der Ethik beschäftigt, wird er fast auf jeden Fall sagen dass Kriminalität sich nicht auszahlt. Falko_fk002_2006_08 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Koreferenz (Lerner & Chat) 13 Fehlerhafte Verwendung von Pronomen Wenn man sich mit dieser Frage im Rahmen der Ethik beschäftigt, wird er fast auf jeden Fall sagen dass Kriminalität sich nicht auszahlt. Falko_fk002_2006_08 Nicht-realisierte Referenten 516 519 524 528 534 Erdbeer$ quaki Erdbeere$ Erdbeere$ Erdbeere$ bochum ist ne stadt im pott Bochum is dunkelgrün??? ne grau im grauen pott hell schwarz? 221006_unicum_21-02-2003_1 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig 14 Vorverarbeitung Linearisierung Segmentierung Tokenisierung Normalisierung 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Linerarisierung Überlappende Redebeiträge in Map Tasks Sprecher 1 Sprecher 2 äh und gehst jetzt nach warte mal Tür is noch nich ganz zu 15 Sprecher 1 Sprecher 2 äh Sprecher 1 und gehst jetzt Sprecher 1 nach warte mal Tür Sprecher 2 is noch nich ganz zu 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig 16 Vorverarbeitung Linearisierung Segmentierung Tokenisierung Normalisierung 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Segmentierung Fehlende Satzgrenzen in historischen Texten 17 Pro Segment: 1 Matrixsatz mit Abhängigen sente anshelmus bat marien manch iar myt heysen trenen das sy ym offenbarte wy vnser here ih-us cristus syne marter irleden hatte do sprach vnse vrouwe Anshelme ich sage dir das myn here ihesus cristus alzo grose martir irleden hot . das sy nyrkeyn mensche usgelegen mak Doch salt u wissen daz ich an sotane wirdekeit komen byn das ich nvmmermer betrubet mak werden 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig 18 Vorverarbeitung Linearisierung Segmentierung Tokenisierung Normalisierung 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Tokenisierung Kontatenationen in Chat Lexeme werden in einzelne Tokens getrennt mit „|“ markiert 165 quaki 19 *nagut50cmlauflaufleine* 165 quaki * na| gut| 50| cm| lauflaufleine| * 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig 20 Vorverarbeitung Linearisierung Segmentierung Tokenisierung Normalisierung 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Motivation Named Entity: 21 Uneinheitliche Namensschreibung Einheitliche Schreibung erleichtert nachvollziehbare Klassifizierung Normalisierung auf Sprecheralias (Chat), Lexikoneinträge 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Motivation Named Entity: 22 Uneinheitliche Namensschreibung Einheitliche Schreibung erleichtert nachvollziehbare Klassifizierung Normalisierung auf Sprecheralias (Chat), Lexikoneinträge Dependenz: Satzfragmente Nur Verben können grammatische Rolle im Satz verteilen. Ergänzung von Auslassungen und Ellipsen 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Motivation Named Entity: 23 Uneinheitliche Namensschreibung Einheitliche Schreibung erleichtert nachvollziehbare Klassifizierung Normalisierung auf Sprecheralias (Chat), Lexikoneinträge Dependenz: Satzfragmente Nur Verben können grammatische Rolle im Satz verteilen. Ergänzung von Auslassungen und Ellipsen Koreferenz: Nicht/falsch an der sprachlichen Oberfläche realisierte Referenzen Explizierung nicht-realisierter Referenten erlaubt Einbindung in referenzielle Kette Ergänzung und Korrektur von Referenzausdrücken 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Perspektiven Zwei Perspektiven ❶ 24 Zwei Repräsentationen Variationistischer Ansatz: Normalisierung = Index zur Klassifizierung vergleichbarer Phänomene in Korpora Annotation der Normalisierung Wie variiert die Realisierung von Subjekten zwischen Varietäten? 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Perspektiven Zwei Perspektiven ❶ 25 Zwei Repräsentationen Variationistischer Ansatz: Normalisierung = Index zur Klassifizierung vergleichbarer Phänomene in Korpora Annotation der Normalisierung Wie variiert die Realisierung von Subjekten zwischen Varietäten? ❷ Computerlinguistischer Ansatz: Normalisierung = minimaler Vorverarbeitungsschritt für weitere Verarbeitung Annotation des Originaltextes auf Grundlage der Normalisierung Wie annotiert man Fragmente? 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Named Entities 26 Regel (Chat): Normalisierung = Alias PER # Sprecher Original [Lantonie]PER betritt den 25 system Raum. 26 Lantonie :) 27 quaki [lantonieeeeee]PER 28 Lantonie Hallo. :) 29 zora [LANTOOO]PER :))) 34 marc30 [Lantöööö]PER :o) 35 TomcatMJ hi [lanto]PER Normalisierung [Lantonie]PER betritt den Raum. :) [Lantonie]PER! Hallo :) [Lantonie]PER :))) [Lantonie]PER :o) Hi, [Lantonie]PER! 221006_unicum_21-02-2003_1 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Named Entities 27 Normalisierung = Organisation ORG Sprech # er Original 429 Normalisierung boah... ich bekomm echt Emon augenkrebs von bochum... 436 ich vom [has]ORG emon Thor… *g* Boah! Ich bekomme echt Augenkrebs von Bochum. Ich vom [HSV]ORG, Emon *g* 439 [HSV]ORG Thor… [hasv]ORG 453 Emon [hsv]ORG heisst dat [HSV]ORG heißt das. 221006_unicum_21-02-2003_1 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Koreferenz 28 Norm. hat Antezedens Orig. hat gleichen Antezedens Norm-Regel: Ersetze in Kombinationen von “man” und ”er/sie” Letzteres durch Ersteres, wenn Letzteres im Kontext keinen Antezedenten besitzt! Wenn man sich mit dieser Frage im Rahmen der Ethik beschäftigt, wird (er/ man) fast auf jeden Fall sagen dass Kriminalität sich nicht auszahlt. ANAPHORIC Falko_fk002_2006_08 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Dependenz Explizite Einfügung prototypischer Verben mit passender Argumentstruktur in verblose Sätze. Motivation der Fragmentfunktionen 29 Original 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalisierung: Dependenz Explizite Einfügung prototypischer Verben mit passender Argumentstruktur in verblose Sätze. Motivation der Fragmentfunktionen 30 Original 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Normalization: Motivation Explizite Einfügung prototypischer Verben mit passender Argumentstruktur in verblose Sätze. Motivation der Fragmentfunktionen 31 Normalisierung ROOT Original 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Retokenisierung : @-Adressierung Explizite Einfügung prototypischer Verben mit passender Argumentstruktur in verblose Sätze. Motivation der Fragmentfunktionen 32 Normalisierung ROOT Original ROOT 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Retokenisierung: @-Adressierung 33 mit dem ast in der hand im teich am rumsitzen@stoeps mit dem ast in der hand im teich am rumsitzen @ stoeps 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Retokenisierung : @-Adressierung 34 mit dem ast in der hand im teich am rumsitzen@stoeps mit dem ast in der hand im teich am rumsitzen XX message @ stoeps PN @ addressee 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Retokenisierung : @-Adressierung 35 mit dem ast in der hand im teich am rumsitzen@stoeps XX message PN @ addressee 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Retokenisierung : @-Adressierung @-attached arguments are of variable type: 36 Modification: MOD Sentence root: S Inflective root: SINFL 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Annotation 37 Annotation mit NoSta-D Guidelines 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) NoSta-D Du 38 hast gegessen und geraucht 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) TiGer Annotationsschema (Albert et al. 2003) Du NoSta-D 39 hast gegessen und geraucht 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) TiGer AS 2003 S.117, Bsp. 2 Koordination von Verbalphrasen Du NoSta-D 40 hast gegessen und geraucht 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) TiGer 2003 NoSta-D S.117, Bsp. 2 41 NoSta-D Guidelines für Dependenzen https://www.linguistik.hu-berlin.de/institut/professuren/ korpuslinguistik/forschung/clarin-d Du hast gegessen und geraucht Dependens (C…)-[CD] Was 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) TiGer 2003 NoSta-D S.117, Bsp. 2 42 NoSta-D Guidelines für Dependenzen https://www.linguistik.hu-berlin.de/institut/professuren/ korpuslinguistik/forschung/clarin-d Du hast gegessen und geraucht Dependens (C…)-[CD] Was 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) TiGer 2003 NoSta-D S.117, Bsp. 2 43 NoSta-D Guidelines für Dependenzen https://www.linguistik.hu-berlin.de/institut/professuren/ korpuslinguistik/forschung/clarin-d Du hast gegessen und geraucht Dependens Regens (C…)-[CD] das innerhalb derselben (C…) unmittelbar vorangehende (C…)-[CJ], es sei denn … Was ist Tochter von 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) TiGer 2003 NoSta-D S.117, Bsp. 2 44 NoSta-D Guidelines für Dependenzen https://www.linguistik.hu-berlin.de/institut/professuren/ korpuslinguistik/forschung/clarin-d Du Dependens (C…)-[CD] Was Regens hast gegessen und geraucht Label das innerhalb derselben (C…) unmittelbar vorangehende KON (C…)-[CJ], es sei denn … ist Tochter von wie 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) TiGer 2003 NoSta-D S.117, Bsp. 2 45 NoSta-D Guidelines für Dependenzen https://www.linguistik.hu-berlin.de/institut/professuren/ korpuslinguistik/forschung/clarin-d Du Dependens (C…)-[CD] Was Regens hast gegessen und geraucht Label Beispiel das innerhalb derselben (C…) unmittelbar vorangehende KON (C…)-[CJ], es sei denn … ist Tochter von wie S.117, Bsp. 2 ? 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) TiGer 2003 NoSta-D S.117, Bsp. 2 46 NoSta-D Guidelines für Dependenzen https://www.linguistik.hu-berlin.de/institut/professuren/ korpuslinguistik/forschung/clarin-d C… Du Dependens (C…)-[CJ] Was hast gegessen und geraucht Regens das innerhalb derselben (C…) unmittelbar links stehende (C…)-[C…], sofern … ist Tochter von Label Beispiel C… S.117, Bsp. 2 wie 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) TiGer 2003 NoSta-D S.117, Bsp. 2 47 NoSta-D Guidelines für Dependenzen https://www.linguistik.hu-berlin.de/institut/professuren/ korpuslinguistik/forschung/clarin-d CAUX Du Dependens (C…)-[CJ] Was hast gegessen und geraucht Regens das innerhalb derselben (C…) unmittelbar links stehende (C…)-[C…], sofern … Das Restlabel ergibt sich aus der direkten Relation der Mutter des ersten koordinierten Elements zum Dependens. ist Tochter von Label Beispiel C… S.117, Bsp. 2 wie 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) 48 Kreuzklasse C Koordination SUBJ CSUBJ KON CSUBJ Steinbrück und Merkel machen Handzeichen. PN CPN Ich wähle mit Herz OBJA COBJI KON CPN und Seele. KON COBJI Manche mögen kein Fleisch und ins Parlament kommen. 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependenzen (Guidelines) 49 Kreuzklasse COR Korrektur Die höchste Mutter, ab der ein Korrektur beginnt. CORMOD MOD-Kante, ab der korrigiert wird [auf der rechten]CORMOD … [in der reichten oberen Ecke]MOD Bematac_2011-12-14-B:108 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Dependency annotation Annotation with WebAnno https://clarin.ukp.informatik.tu-darmstadt.de 50 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Daten und Guidelines 51 https://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/clarin-d/ 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Zusammenfassung 52 NoSta-D Deutsche Pilot-Ressource für Training und Entwicklung für Nichtstandard-Varietät verfügbar Ergänzungen zu gängigen Richtlinien (NER, Dependenzen und Koreferenzen) gute Abdeckung von NoSta-D Normalisierung explizit in die Korpora integrieren Nachvollziehbarkeit strittiger Annotationen erhöhen Parallele Annotation von Normalisierung und abgeleitet daraus der Originaldaten Vereinbarkeit komplementärer Untersuchungsansätze 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Zukünftige Aufgaben Aufbau größerer Ressourcen und weiterer Varietäten für Training 53 Untersuchung zusätzlicher Annotationstypen Grundsätzliche Kritik an der linguistischen Adäquatheit dependenzgrammatischer Modelle auch für den deutschen Standard u.a. Koordination finiter Verben Generell stärkerer Fokus auf den Einsatz von Mehrebenenarchitekturen in Annotations-, Such- und Analysetools u.a. Gleichzeitige Darstellung und Verarbeitung konkurrierender Normalisierungsebenen 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig 54 Danke! Projektseite: https://www.linguistik.huberlin.de/institut/professuren/korpuslinguistik/forschung/clarin-d Kontakt: [email protected] 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig Bibliography 55 Albert, Stefanie; Anderssen, Jan; Bader, Regine; Becker, Stefanie; Bracht, Tobias; Brants, Thorsten et al. (2003): TiGer Annotationsschema. Dipper, Stefanie; Lüdeling, Anke; Reznicek, Marc (erscheint): NoSta-D. A Corpus of German NonStandard Varieties. In: Zampieri, Marcos; Diwersy, Sascha (Hgg.): Non-Standard Data Sources in Corpus-Based Research (ZMS-Studien - Schriften des Zentrums Sprachenvielfalt und Mehrsprachigkeit der Universität zu Köln 5), Hamburg: Shaker. Foth, Kilian A. (2006): Eine umfassende Constraint-Dependenz-Grammatik des Deutschen. Technischer Report. Universität Hamburg. Hamburg. Kaupat, David; Warzecha, Saskia; Stede, Manfred (2013): Koreferenz. Chapter 5. Erweiterung des PoCoS-Kernschemas. Naumann, Karin (2007): Manual for the Annotation of In-Document Referential Relations. Seminar für Sprachwissenschaft, Abt. Computerlinguistik Universität Tübingen, http://www.sfb441.unituebingen.de/a1/Publikationen/tuebadz_relations_man.pdf Schiller, Anne; Teufel, Simone; Stöckert, Christine; Thielen, Christine (1999): Guidelines für das Tagging deutscher Textkorpora mit STTS. Technical Report. University of Stuttgart; University of Tübingen, http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf. Telljohann, Heike; Hinrichs, Erhard W.; Kübler, Sandra; Zinsmeister, Heike; Beck (2012): Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z). Seminar für Sprachwissenschaft. Universität Tübingen, http://www.sfs.uni-tuebingen.de/resources/tuebadz-stylebook1201.pdf. Stand: 26.09.2013 2. CLARIN-D-Disseminationsworkshop: Digitale Ressourcen, Anwendungsszenarien und 'Best Practices - 20.09.2013 - Leipzig