106: Konzept zur Verbesserung eines klinischen Information

Transcrição

106: Konzept zur Verbesserung eines klinischen Information
HEALTH
Institut für Biomedizin und Gesundheitswissenschaften
Konzept zur Verbesserung eines klinischen Information
Retrieval Systems unter Verwendung von Apache UIMA
und medizinischen Ontologien
Georg Petritsch, Stephan Spat, Christian Gütl, Peter Beck
Agenda
Ausgangslage
Zielsetzung
Übersichtsgrafik
Einführung Apache UIMA
NLP Verarbeitungsschritte
Lessons Learned
Fazit
Ausblick
2
1
Ausgangslage
Prototyp eines klinischen Information Retrieval
Systems (Stephan Spat, 2006)
Anonymisierter Testdatensatz
extrahiert aus KIS des LKH Bruck
29 Dokumenttypen
17611 Dokumenten (davon 1462 manuell klassifiziert)
Hauptaugenmerk auf multi-label Klassifikation in 8
medizinischen Fachbereiche
Untersuchung bezüglich der Auswirkung von Text
Pre-Processing auf die Klassifikation
Ergebnisse vielversprechend (Micro-averaged FMeasure mit j48 = 90%)
3
Zielsetzung
Einschränkungen des Prototyps:
Bag of Words Prinzip – keine semantische Erfassung des Inhalts
Prototyp speziell für die Aufgabenstellung konzipiert:
Textverarbeitung erfolgt an mehreren Stellen (Weka, WVT, Lucene)
nur limitiert konfigurierbar
tiefgreifende Änderungen nur schwer umsetzbar
Neukonzeption notwendig:
Dokumente sollen nicht als Menge von Termen interpretiert,
sondern auf struktureller, syntaktischer und semantischer Ebene
analysiert werden:
Kurzfristiges Ziel: Verbesserung von Precision und Recall der
Klassifikation durch den Einsatz von semantischen Methoden
Allgemeines Ziel: Modulare, wieder verwendbare Basis für zukünftige
Projekte schaffen
4
2
Übersicht
5
Apache UIMA
Unstructured Information Management Architecture
OASIS Standard (ursprünglich von IBM entwickelt)
Fokus auf Performance, Skalierbarkeit und
Modularität
Java API, Tooling in Eclipse & GUI Anwendungen
XML-Deskriptor und Java Klasse formen
Verarbeitungskomponente
holistische Architektur: Input (Reader) – Verarbeitung
(Analysis Engines) – Output (Consumer)
frei definierbares Typensystem
Resultat eines Verarbeitungsschritts = Annotation
6
3
Apache UIMA
UIMA selbst nur Standard bzw. Framework
Großteil der Analysekomponenten von Dritten zur
Verfügung gestellt:
Clinical Text Analysis and Knowledge Extraction System
(cTAKES) - Mayo Clinic / OHNLP
Medical Knowledge Analysis Tool (MedKAT/P) – IBM / OHNLP
JULIE Lab NLP Toolsuite - Universität Jena
U-Compare - University of Tokyo
BioNLP Wrappers - University of Colorado
...
UIMA Komponenten nur so kompatibel wie ihr
Typensystem, gemeinsames Typensystem wichtiges
Thema für die Zukunft
7
NLP Verarbeitungsschritte
Clinical Notes Collection Reader [JR]
Testdatensatz bestehend aus 347 klassifizierten Dokumenten
(Ärztliche Berichte, Ambulanzkarten, Befunde)
Metadata Annotator [JR]
Fall-, Patienten- und Dokument-ID, Dokumenttyp, ICD-10 und
MEL Codes
Document Preprocessor [JR]
Text muss für weitere Verarbeitung normalisiert werden
Testdatenformat ähnlich PDF zu Text Export
Sentence Detector and Tokenizer Annotator [cTAKES]
Satz- und unterschiedliche Token Annotationen
z.B. Symbole, Aufzählungszeichen, Satzzeichen, Wörter, ...
8
4
NLP Verarbeitungsschritte
Context Dependent Tokenizer [cTAKES]
versucht Folge von Tokens spezielle Bedeutungen zuzuweisen
Finite State Machine (FSM)
z.B. Personentitel, Römische Ziffern, kommagetrennte Zahlen,
Zeit- und Datumsangaben, Spanne von Werten, ...
Part-of-Speech (POS) Tagger [cTAKES]
Wortarten Erkennung
Training mit NEGRA Corpus (Maximum-Entropie-Methode)
z.B. NN (normales Nomen) – Tisch, Herr
z.B. ADJA (attributives Adjektiv) – [das] große [Haus]
Chunker (Shallow Parser) [cTAKES]
Erkennung von zusammenhängende Phrasen
z.B. NP (noun phrase)
9
NLP Verarbeitungsschritte
Concept Mapper Annotator [MedKAT/P]
regelbasierter Dictionary Lookup
für die Anwendung erstelltes Wörterbuch besteht aus MeSH und
ICD-10 Termen in Deutscher Sprache (verknüpft mit UMLS)
Named Entity Contexts [cTAKES]
Analyse der erkannten Entitäten im Kontext
Verneinungen, zeitliche Relevanz, ...
Document Classification [JR]
Klassifikationskomponente basierend auf Weka und Mulan
Output:
XMI (XML Metadata Interchange) – serialisierte CAS Objekte
Weka Arff Files
Lucene Index
10
5
Lessons Learned
Deutsche Sprache enormes Erschwernis:
Englisch und Deutsch unterscheiden sich stark bezüglich ihrer
morphologischen Variabilität (Weske-Heck et al. 2002)
Wissenschaftliche Arbeiten in diesem Bereich befassen sich zu
einem großen Teil mit englische Artikeln (PubMed)
fehlende (frei zugängliche) Textcorpora für med. Gebiet
andere Ressourcen (Thesauri, Ontologien, ...) im Vergleich zum
englischsprachigen Raum nicht im gleichen Maß verfügbar
Anfänglicher Overhead durch UIMA
Einarbeitungszeit
Komponenten sollten möglichst allgemein Gehalten sein
erst bei kollaborativen Tätigkeiten und großen Projekten wirklich
stark
11
Fazit und Ausblick
Fazit:
Aufbau einer NLP Pipeline für deutschsprachige, klinische
Dokumentation mit Open Source Komponenten möglich
Apache UIMA erweist sich als solide Basis für das Vorhaben
funktional gegenüber dem ursprünglichen Prototyp (noch) kein
Quantensprung
jedoch zahlreiche Verbesserungen in anderen Dimensionen wie
Performance, Skalierbarkeit und Modularität
Ausblick:
2 Jähriges Forschungsprojekt in Zusammenarbeit mit Steirischen
Wirtschaftspartnern derzeit im Planungsstadium
Ausbau des bestehenden Systems
Integration in eine Mobile Device Plattform
Pilotprojekt
12
6
Danke für die Aufmerksamkeit!
JOANNEUM RESEARCH
Forschungsgesellschaft mbH
HEALTH
Institut für
Biomedizin und Gesundheitswissenschaften
Elisabethstraße 11a
8010 Graz, Austria
Georg Petritsch
eHealth, Softwareentwicklung
Tel: +43 316 876-21 63
Fax: +43 316 876-21 30
[email protected]
http://www.joanneum.at/health
13
7