View
Transcrição
View
ALBERT und XML Eine Symbiose Tobias Höhnow Bibliothek des Wissenschaftsparks Albert Einstein Vorlesung an der Fachhochschule Potsdam im Rahmen der Veranstaltung „XML für Informationswissenschaftler“ am 5. Juni 2012 Überblick • ALBERT: Bibliothekssuchmaschine oder Discoverysystem: Quellen und Funktionen • Katalog: Von MAB zu MABXML zu MARCXML (iwann) • Zeitschriften: ERM > MySQL/PHP, Statistik XML, Schema • Neueste Artikel: RSS > XML, Probleme, Anreicherung • Zeitschriften + RSS = XSLT, Ant, OPML usw. • Artikel-Archiv: Nationallizenzen > Aufgabe? • Forschungsdaten: OAI-PMH Dublin Core Wissenschaftspark Albert Einstein • Bibliothek des Wissenschaftsparks Albert Einstein – Deutsches GeoForschungsZentrum GFZ (Helmholtz) – Potsdam-Institut für Klimafolgenforschung, PIK (Leibniz) – Alfred-Wegener-Institut für Polar- und Meeresforschung, Forschungsstelle Potsdam, AWI (Helmholtz) – Institute for Advanced Sustainability Studies, IASS • zuständig für ~1.600 Mitarbeiter Verständnis der Bibliothek • Bibliothek ist elementarer Teil der wissenschaftlichen Informationsinfrastruktur • Bibliothek ist serviceorientierter Dienstleister der Wissenschaft • Nah an der Forschung = „embedded“ / Module für virtuelle Forschungsumgebungen • Wissensportal für die digitale Wissenschaft Über ALBERT • Projekt in Zusammenarbeit mit dem KOBV > seit 2007 in Betrieb • Open Source-Software: Lucene/Solr • Discovery-Software für Forschungs- und Spezialbibliotheken als SaaS-Lösung • Integration heterogener Datenquellen • Modul für integrierte Forschungsumgebung • Zentraler Einstiegspunkt für die Services der Bibliothek ALBERT Features • „Google-like“-Suche über sämtliche Quellen: Bücher, Karten, Zeitschriften, Artikel (aktuell, OA, Nationallizenzen), Forschungsdaten, Publikationsdatenbanken, Bibliografien • Fachgebietsauswahl Thematisches Portal • kontextabhängiges facettiertes Browsen • Alerting-Dienste, z. B. neueste Artikel eines Themas • Export von Suchergebnissen, z. B. COinS Was soll ALBERT Live-Demo ALBERT Und was ist mit XML? XML Varianten Katalogdaten im MAB-Format • MAB = Maschinelles Austauschformat für Bibliotheken, Weiterentwicklung MAB2 • WAE: Export aus Bibliothekssystem als MAB2 • Transformation MAB2 zu MABXML mittels Konvertierungs-Tool der DNB: MabToMabxml Export MAB2 Konvertierung MabToMabxml ÜGs XSLT Bereinigung Perl <LiveDemo><MabToMabxml/><XSLT/><XSD/></LiveDemo> MAB2 >> MABXML http://waesearch.kobv.de/uid.do?query=gfz_sisis_118213 MABXML >> XSL Transformation • Problem: MAB-Export enthält kein Verbindungselement mehrbändiger Werke > Beispiel • Lösung: XSLT Stylesheet verbindet zusammengehörige Records > XML Mapping Übergeordnetes Werk XSLT Stylesheet <xsl:key name="band" match="ddb:datensatz[ddb:feld/@nr='453']" use="ddb:feld[@nr='453']"/> <xsl:choose> <xsl:when test="key ('band',ddb:feld[@nr='001'])"> <feld nr="600" ind=" ">ueg</feld> </xsl:when> <xsl:otherwise/> </xsl:choose> MABXML >> XSL Transformation XSLT Stylesheet Assoziierter Band <xsl:key name="titel" match="ddb:datensatz[ddb:feld/@nr='001']" use="ddb:feld[@nr='001']"/> <xsl:if test="key('titel',ddb:feld[@nr='453'])"> <feld nr="331" ind=" "> <xsl:value-of select="key('titel',ddb:feld[@nr='453']) /normalize-space(ddb:feld[@nr='331'])"/> <xsl:if test="ddb:feld[@nr='089']"> /<xsl:value-of select="ddb:feld[@nr='089']"/> </xsl:if>: <xsl:value-of select="ddb:feld[@nr='331']"/> </feld> </xsl:if> MAB zu MABXML zu MARCXML • Versuche erster Konvertierungstools von MABXML zu MARCXML • www.dnb.de/DE/Standardisierung/Formate/M ARC21/marc21_node.html • http://vufind.org/jira/browse/VUFIND-461 • http://www.loc.gov/standards/marcxml/ Zeitschriften: ERM als Backend • ERM = Electronic Resource Management • kein kommerzielles System, sondern Eigenentwicklung • basiert auf LAMP vielfach verwendet, Open Source • Zugriff für alle Teilbibliotheken, da webbasiert • kooperative Pflege der Online-Bestände in der EZB Import ins ERM Backend des Bibliothekars keine Nutzersicht ERM – Update, Anreicherung, Analyse ERM: Zeitschrift ERM: Zugriffsstatistik, Konsortialinfo Export von Zs-XML aus ERM Zs-XML: Validierung gegen XSD Zs-XML: Validierung gegen XSD ERM: E-Books Stay up-to-date with RSS Was ist RSS? Was bringt mir RSS? Was braucht man dafür? RSS und ALBERT RSS und XML Praktische Anwendungen Ausblick Informationsverhalten Datenbanken Zeitschriften News Blogs Proaktiv informiert mit RSS Datenbanken Zeitschriften News Blogs Was ist RSS? Bedeutung: Rich Site Summary – RSS Version .91 (1999) Really Simple Syndication – RSS Version 2.0 (2002) eine Datei, die über neue Inhalte einer Webseite informiert (auch Newsfeed) XML-Format Was bringt mir das? Hält Sie auf dem Laufenden sofort nach Aktualisierung der Zeitschrift/Website werden Sie informiert benachrichtigt Sie, wenn eine Datenbank-Suche neue Treffer findet Zeitersparnis Zeitschriften, Webseiten, Datenbanken müssen nicht individuell besucht werden zusammenfassende Präsentation der Ergebnisse Keine Werbung, kein Spam keine Angabe von persönlichen Informationen kein Spam oder Junk Mail Was braucht man dafür? Einen Ort, um den Inhalt zu aggregieren = RSS Reader Online oder Desktop Anwendung Inhalt in einem speziellen Format = RSS Feeds bieten nahezu sämtliche Zeitungen, Zeitschriften, Blogs, Wikis, … an Übersicht http://www.rss-verzeichnis.de/ RSS Readers Desktop Anwendungen Thunderbird, Firefox, 1.000 andere Vorteile: schnell – braucht keine Ladezeit im Browser kann off-line gelesen werden viele Optionen und Features Web-basiert Google Reader, Bloglines, 1.000 andere Vorteile: kann von jedem Rechner/Smartphone gelesen werden (Voraussetzung Online-Zugang) frei verfügbar RSS und ALBERT RSS ersetzt ZIV schließt Lücke zwischen Publikationsdatum und bibliographischer Datenbank (z. B. WoS, GeoRef) Inhaltsverzeichnisse von > 1.000 Zeitschriften integriert ~ 250.000 Artikel für 1 Jahr in ALBERT vorwiegend „ahead of print“, „article first“, „early view“ Bedingungen: Volltext der Zeitschrift verfügbar thematisch relevant RSS Feed vorhanden Nachteile: keine Zeitschriften, deren Volltext nicht verfügbar ist keine Zeitschriften, die nur als Print verfügbar sind keine Zeitschriften, die keinen RSS Feed anbieten XML und RSS Probleme bei RSS-XML • sehr heterogene Qualität: auf Schemaebene (strukturell, semantisch) sowie auf Datenebene • viele Format-Varianten: RSS 1.0, 2.0, Atom, RDF, Dublin Core in RDF… • Encoding unterschiedlich • unzulässige, kryptische, falsch zugeordnete Werte • Wohlgeformtheit verletzt = Validierung unmöglich nehmen das, was da ist Praktische Anwendungen RSS per Suchanfrage RSS per Zeitschriftenauswahl RSS auf Suchanfragen in Datenbanken (WoS) http://www.gfzpotsdam.de/portal/cms/Bibliothek/Tipps/News+RSS/RSS-Feeds Abo mit Thunderbird Abo mit Firefox Abo mit Google Reader Besuch von ALBERT (Bookmark statt RSS) Möglichkeiten und Ausblick Feeds/Core Journals für Forschergruppen RSS Feeds auf Ihrer Webseite einbinden Lesen auf mobilen Endgeräten personalisierte Suche Integration weiterer Feeds ohne VolltextZugriff Integration von Wissenschaftsnews, Job Postings, Webseiten Einbindung der Dokumentenlieferung: „Ihr Dokument/Fernleihe ist da!“ Wikimedia Commons Ohne ERM zur Zeitschrift: XSLT • Alternative zum ERM: XSLT Anwendung • Herunterladen institutsspezifischer Zeitschriften aus der EZB (Elektronische Zeitschriftenbibliothek, Uni Regensburg) • optionales Hinzufügen der Print-Bestände einer Institution aus der ZDB (Zeitschriftendatenbank) • Herunterladen neuester Artikel definierter Zeitschriften vis RSS • Anreicherung der Daten, Maximalisierung der Bezugszeiträume • tägliches Update und Auslieferung an ALBERT Voraussetzungen • technisch: Server, Java, Ant, PHP, FTP, einmaliges Einrichten der Cronjobs (Admin) • Pflege lizensierter Zeitschriften in der EZB (manuell aber auch möglich) • Abonnieren von Feeds in JournalTocs oder manuelle Generierung von OPML einmalig • nicht notwendig: Programmierkenntnisse, Konsole XSLT Werkzeuge • Apache Ant: Build Tool, javabasierter Prozessor, Anweisungen in XML-Datei, kann Tasks ausführen (z.B. Erzeugen/Löschen von Dateien/Verzeichnissen, Herunterladen, …) • XSL: XSLT (Umwandeln) und XSL FO (Formatieren) • XPath: Adressierung von Knoten innerhalb einer XMLDatei, verwendet Pfade entlang der XML-Struktur • XSLT: Anweisungen für Transformation in Stylesheet Live-Demo XSLT • EZB: XML-Output (Beispiel Umwelt, Beispiel XML) &xmloutput=1 • ZDB: XML-Output (Gemeinsame Verfügbarkeitsrecherche, Beispiel XML) • Beispiel Online+Print: Archives of Environmental Contamination and Toxicology • JournalTOCs: OPML-Datei erzeugen • RSS runterladen Beispiel Topic Transformation <xsl:template match="Link_zur_Zeitschrift"> <url> <xsl:value-of select="."/> </url> </xsl:template> XSLT | XPath <xsl:when test="contains(substring-before($topic,';'), 'Anglistik')"> <topic>H</topic> <xsl:call-template name="Fach"> <xsl:with-param name="topic" select="substring-after($topic,';')"/> </xsl:call-template> </xsl:when> Beispiel Bestandszeitraum Anreicherung der XML-Dateien • ZS – Maximalisierung der Bestandsangaben XML XML >> macht bspw. aus 1.1973 – 22.1994, 20.1992 – 30.2002 = 1.1973 – 30.2002 bei identischer URL XML – Fügt Print-Bestände aus der ZDB ein – Kumuliert verschiedene Records bei gleicher URL und gleicher ZDB-ID >> vereint gelbe sowie grüne Records mit maximalisiertem Bestandseintrag bzw. Moving Wall Mehrwert – Fügt Feed-ID und Archiv (Nationallizenzen) hinzu – Fügt ggf. zusätzliche Angaben wie alternative Titel, Beschreibung, Schlagwörter ein • RSS – Fügt Topic hinzu (thematisches Portal) – Fügt fehlende Elemente hinzu wie ISSNs Nationallizenzen • • • • ca. 20 Mio Metadaten > aber nicht vollständig verfügbar ~ 5 Mio in ALBERT integriert (Springer, Wiley, CUP, AIP,…) Metadaten im MAB-Format, Transformation in MABXML Anreicherung mit Topics (thematisches Portal) und ggf. weiteren Metatdaten • „Zuschneiden“ in kleinere Portionen Aufgabe? • Erstellung einer nachnutzbaren XSLT • generelle Einsatzfähigkeit unabhängig von der Quelle • Anreicherung von ca. 3 Mio Datensätzen der Nationallizenzen des Verlags Elsevier mit diversen Metadaten > Grundlage EZB • Eliminierung von strukturellen Fehlern sowie Validierungsmechanismen OAI-PMH Dublin Core • Forschungsdaten: PANGAEA® Data Publisher for Earth & Environmental Science, Scientific Drilling Project • http://wiki.pangaea.de/wiki/OAI-PMH • Publikationsdatenbanken • Institutional Repositories • OAI-PMH DC Schema: http://www.openarchives.org/OAI/2.0/oai_dc.xsd Future: Build your own Portal • • • • Personalisierung Topic Selection Dokumentenlieferung kooperative Literaturverwaltung • Identifizierbarkeit, Researcher ID • Text Mining Stellenausschreibung vom 30.05.2012 • Thomson Reuters sucht für den Standort München zum nächstmöglichen Zeitpunkt eine Fachkraft für Datenkonvertierung (Sachbearbeiter/in Datenverarbeitung). Die Stelle ist auch für Bibliothekare/Bibliothekarinnen und Dokumentare/Dokumentarinnen mit guten EDV-Kenntnissen geeignet. • Wünschenswert sind Kenntnisse und praktische Erfahrung u.a. in folgenden Bereichen: SGML, XML, HTML, DTDs, XML Schema Fazit • ALBERT ohne XML = undenkbar Vielen Dank für Ihre Aufmerksamkeit! http://waesearch.kobv.de/