106: Konzept zur Verbesserung eines klinischen Information
Transcrição
106: Konzept zur Verbesserung eines klinischen Information
HEALTH Institut für Biomedizin und Gesundheitswissenschaften Konzept zur Verbesserung eines klinischen Information Retrieval Systems unter Verwendung von Apache UIMA und medizinischen Ontologien Georg Petritsch, Stephan Spat, Christian Gütl, Peter Beck Agenda Ausgangslage Zielsetzung Übersichtsgrafik Einführung Apache UIMA NLP Verarbeitungsschritte Lessons Learned Fazit Ausblick 2 1 Ausgangslage Prototyp eines klinischen Information Retrieval Systems (Stephan Spat, 2006) Anonymisierter Testdatensatz extrahiert aus KIS des LKH Bruck 29 Dokumenttypen 17611 Dokumenten (davon 1462 manuell klassifiziert) Hauptaugenmerk auf multi-label Klassifikation in 8 medizinischen Fachbereiche Untersuchung bezüglich der Auswirkung von Text Pre-Processing auf die Klassifikation Ergebnisse vielversprechend (Micro-averaged FMeasure mit j48 = 90%) 3 Zielsetzung Einschränkungen des Prototyps: Bag of Words Prinzip – keine semantische Erfassung des Inhalts Prototyp speziell für die Aufgabenstellung konzipiert: Textverarbeitung erfolgt an mehreren Stellen (Weka, WVT, Lucene) nur limitiert konfigurierbar tiefgreifende Änderungen nur schwer umsetzbar Neukonzeption notwendig: Dokumente sollen nicht als Menge von Termen interpretiert, sondern auf struktureller, syntaktischer und semantischer Ebene analysiert werden: Kurzfristiges Ziel: Verbesserung von Precision und Recall der Klassifikation durch den Einsatz von semantischen Methoden Allgemeines Ziel: Modulare, wieder verwendbare Basis für zukünftige Projekte schaffen 4 2 Übersicht 5 Apache UIMA Unstructured Information Management Architecture OASIS Standard (ursprünglich von IBM entwickelt) Fokus auf Performance, Skalierbarkeit und Modularität Java API, Tooling in Eclipse & GUI Anwendungen XML-Deskriptor und Java Klasse formen Verarbeitungskomponente holistische Architektur: Input (Reader) – Verarbeitung (Analysis Engines) – Output (Consumer) frei definierbares Typensystem Resultat eines Verarbeitungsschritts = Annotation 6 3 Apache UIMA UIMA selbst nur Standard bzw. Framework Großteil der Analysekomponenten von Dritten zur Verfügung gestellt: Clinical Text Analysis and Knowledge Extraction System (cTAKES) - Mayo Clinic / OHNLP Medical Knowledge Analysis Tool (MedKAT/P) – IBM / OHNLP JULIE Lab NLP Toolsuite - Universität Jena U-Compare - University of Tokyo BioNLP Wrappers - University of Colorado ... UIMA Komponenten nur so kompatibel wie ihr Typensystem, gemeinsames Typensystem wichtiges Thema für die Zukunft 7 NLP Verarbeitungsschritte Clinical Notes Collection Reader [JR] Testdatensatz bestehend aus 347 klassifizierten Dokumenten (Ärztliche Berichte, Ambulanzkarten, Befunde) Metadata Annotator [JR] Fall-, Patienten- und Dokument-ID, Dokumenttyp, ICD-10 und MEL Codes Document Preprocessor [JR] Text muss für weitere Verarbeitung normalisiert werden Testdatenformat ähnlich PDF zu Text Export Sentence Detector and Tokenizer Annotator [cTAKES] Satz- und unterschiedliche Token Annotationen z.B. Symbole, Aufzählungszeichen, Satzzeichen, Wörter, ... 8 4 NLP Verarbeitungsschritte Context Dependent Tokenizer [cTAKES] versucht Folge von Tokens spezielle Bedeutungen zuzuweisen Finite State Machine (FSM) z.B. Personentitel, Römische Ziffern, kommagetrennte Zahlen, Zeit- und Datumsangaben, Spanne von Werten, ... Part-of-Speech (POS) Tagger [cTAKES] Wortarten Erkennung Training mit NEGRA Corpus (Maximum-Entropie-Methode) z.B. NN (normales Nomen) – Tisch, Herr z.B. ADJA (attributives Adjektiv) – [das] große [Haus] Chunker (Shallow Parser) [cTAKES] Erkennung von zusammenhängende Phrasen z.B. NP (noun phrase) 9 NLP Verarbeitungsschritte Concept Mapper Annotator [MedKAT/P] regelbasierter Dictionary Lookup für die Anwendung erstelltes Wörterbuch besteht aus MeSH und ICD-10 Termen in Deutscher Sprache (verknüpft mit UMLS) Named Entity Contexts [cTAKES] Analyse der erkannten Entitäten im Kontext Verneinungen, zeitliche Relevanz, ... Document Classification [JR] Klassifikationskomponente basierend auf Weka und Mulan Output: XMI (XML Metadata Interchange) – serialisierte CAS Objekte Weka Arff Files Lucene Index 10 5 Lessons Learned Deutsche Sprache enormes Erschwernis: Englisch und Deutsch unterscheiden sich stark bezüglich ihrer morphologischen Variabilität (Weske-Heck et al. 2002) Wissenschaftliche Arbeiten in diesem Bereich befassen sich zu einem großen Teil mit englische Artikeln (PubMed) fehlende (frei zugängliche) Textcorpora für med. Gebiet andere Ressourcen (Thesauri, Ontologien, ...) im Vergleich zum englischsprachigen Raum nicht im gleichen Maß verfügbar Anfänglicher Overhead durch UIMA Einarbeitungszeit Komponenten sollten möglichst allgemein Gehalten sein erst bei kollaborativen Tätigkeiten und großen Projekten wirklich stark 11 Fazit und Ausblick Fazit: Aufbau einer NLP Pipeline für deutschsprachige, klinische Dokumentation mit Open Source Komponenten möglich Apache UIMA erweist sich als solide Basis für das Vorhaben funktional gegenüber dem ursprünglichen Prototyp (noch) kein Quantensprung jedoch zahlreiche Verbesserungen in anderen Dimensionen wie Performance, Skalierbarkeit und Modularität Ausblick: 2 Jähriges Forschungsprojekt in Zusammenarbeit mit Steirischen Wirtschaftspartnern derzeit im Planungsstadium Ausbau des bestehenden Systems Integration in eine Mobile Device Plattform Pilotprojekt 12 6 Danke für die Aufmerksamkeit! JOANNEUM RESEARCH Forschungsgesellschaft mbH HEALTH Institut für Biomedizin und Gesundheitswissenschaften Elisabethstraße 11a 8010 Graz, Austria Georg Petritsch eHealth, Softwareentwicklung Tel: +43 316 876-21 63 Fax: +43 316 876-21 30 [email protected] http://www.joanneum.at/health 13 7