View

Transcrição

View
ALBERT und XML
Eine Symbiose
Tobias Höhnow
Bibliothek des Wissenschaftsparks Albert Einstein
Vorlesung an der Fachhochschule Potsdam im Rahmen der Veranstaltung „XML für Informationswissenschaftler“ am 5. Juni 2012
Überblick
• ALBERT: Bibliothekssuchmaschine oder Discoverysystem:
Quellen und Funktionen
• Katalog: Von MAB zu MABXML zu MARCXML (iwann)
• Zeitschriften: ERM > MySQL/PHP, Statistik XML, Schema
• Neueste Artikel: RSS > XML, Probleme, Anreicherung
• Zeitschriften + RSS = XSLT, Ant, OPML usw.
• Artikel-Archiv: Nationallizenzen > Aufgabe?
• Forschungsdaten: OAI-PMH Dublin Core
Wissenschaftspark Albert Einstein
• Bibliothek des Wissenschaftsparks Albert
Einstein
– Deutsches GeoForschungsZentrum GFZ (Helmholtz)
– Potsdam-Institut für Klimafolgenforschung, PIK (Leibniz)
– Alfred-Wegener-Institut für Polar- und Meeresforschung,
Forschungsstelle Potsdam, AWI (Helmholtz)
– Institute for Advanced Sustainability Studies, IASS
• zuständig für ~1.600 Mitarbeiter
Verständnis der Bibliothek
• Bibliothek ist elementarer Teil
der wissenschaftlichen
Informationsinfrastruktur
• Bibliothek ist serviceorientierter
Dienstleister der Wissenschaft
• Nah an der Forschung =
„embedded“ / Module für
virtuelle Forschungsumgebungen
• Wissensportal für die digitale
Wissenschaft
Über ALBERT
• Projekt in Zusammenarbeit
mit dem KOBV > seit 2007 in Betrieb
• Open Source-Software: Lucene/Solr
• Discovery-Software für Forschungs- und
Spezialbibliotheken als SaaS-Lösung
• Integration heterogener Datenquellen
• Modul für integrierte Forschungsumgebung
• Zentraler Einstiegspunkt für die Services der
Bibliothek
ALBERT Features
• „Google-like“-Suche über sämtliche
Quellen: Bücher, Karten, Zeitschriften,
Artikel (aktuell, OA, Nationallizenzen),
Forschungsdaten, Publikationsdatenbanken,
Bibliografien
• Fachgebietsauswahl  Thematisches Portal
• kontextabhängiges facettiertes Browsen
• Alerting-Dienste, z. B. neueste Artikel eines Themas
• Export von Suchergebnissen, z. B. COinS
Was soll ALBERT
Live-Demo ALBERT
Und was ist mit XML?
XML Varianten
Katalogdaten im MAB-Format
• MAB = Maschinelles Austauschformat für
Bibliotheken, Weiterentwicklung MAB2
• WAE: Export aus Bibliothekssystem als MAB2
• Transformation MAB2 zu MABXML mittels
Konvertierungs-Tool der DNB: MabToMabxml
Export MAB2
Konvertierung
MabToMabxml
ÜGs
XSLT
Bereinigung
Perl
<LiveDemo><MabToMabxml/><XSLT/><XSD/></LiveDemo>
MAB2
>>
MABXML
http://waesearch.kobv.de/uid.do?query=gfz_sisis_118213
MABXML >> XSL Transformation
• Problem: MAB-Export enthält kein Verbindungselement
mehrbändiger Werke > Beispiel
• Lösung: XSLT Stylesheet verbindet zusammengehörige
Records > XML Mapping
Übergeordnetes Werk
XSLT Stylesheet
<xsl:key name="band"
match="ddb:datensatz[ddb:feld/@nr='453']"
use="ddb:feld[@nr='453']"/>
<xsl:choose>
<xsl:when test="key ('band',ddb:feld[@nr='001'])">
<feld nr="600" ind=" ">ueg</feld>
</xsl:when>
<xsl:otherwise/>
</xsl:choose>
MABXML >> XSL Transformation
XSLT Stylesheet
Assoziierter Band
<xsl:key name="titel"
match="ddb:datensatz[ddb:feld/@nr='001']"
use="ddb:feld[@nr='001']"/>
<xsl:if test="key('titel',ddb:feld[@nr='453'])">
<feld nr="331" ind=" ">
<xsl:value-of
select="key('titel',ddb:feld[@nr='453'])
/normalize-space(ddb:feld[@nr='331'])"/>
<xsl:if test="ddb:feld[@nr='089']">
/<xsl:value-of
select="ddb:feld[@nr='089']"/>
</xsl:if>:
<xsl:value-of select="ddb:feld[@nr='331']"/>
</feld>
</xsl:if>
MAB zu MABXML zu MARCXML
• Versuche erster Konvertierungstools von
MABXML zu MARCXML
• www.dnb.de/DE/Standardisierung/Formate/M
ARC21/marc21_node.html
• http://vufind.org/jira/browse/VUFIND-461
• http://www.loc.gov/standards/marcxml/
Zeitschriften: ERM als Backend
• ERM = Electronic Resource Management
• kein kommerzielles System,
sondern Eigenentwicklung
• basiert auf LAMP
 vielfach verwendet, Open Source
• Zugriff für alle Teilbibliotheken, da webbasiert
• kooperative Pflege der Online-Bestände in der EZB 
Import ins ERM
Backend des Bibliothekars  keine Nutzersicht
ERM – Update, Anreicherung, Analyse
ERM: Zeitschrift
ERM: Zugriffsstatistik, Konsortialinfo
Export von Zs-XML aus ERM
Zs-XML: Validierung gegen XSD
Zs-XML: Validierung gegen XSD
ERM: E-Books
Stay up-to-date with RSS
Was ist RSS?
Was bringt mir RSS?
Was braucht man dafür?
RSS und ALBERT
RSS und XML
Praktische Anwendungen
Ausblick
Informationsverhalten
Datenbanken
Zeitschriften
News
Blogs
Proaktiv informiert mit RSS
Datenbanken
Zeitschriften
News
Blogs
Was ist RSS?
Bedeutung:
Rich Site Summary – RSS Version .91 (1999)
Really Simple Syndication – RSS Version 2.0 (2002)
eine Datei, die über neue Inhalte einer Webseite
informiert (auch Newsfeed)
XML-Format
Was bringt mir das?
Hält Sie auf dem Laufenden
sofort nach Aktualisierung der Zeitschrift/Website werden Sie informiert
benachrichtigt Sie, wenn eine Datenbank-Suche neue Treffer findet
Zeitersparnis
Zeitschriften, Webseiten, Datenbanken müssen nicht individuell besucht
werden
zusammenfassende Präsentation der Ergebnisse
Keine Werbung, kein Spam
keine Angabe von persönlichen Informationen
kein Spam oder Junk Mail
Was braucht man dafür?
Einen Ort, um den Inhalt zu
aggregieren = RSS Reader
Online oder Desktop Anwendung
Inhalt in einem speziellen Format =
RSS Feeds
bieten nahezu sämtliche Zeitungen,
Zeitschriften, Blogs, Wikis, … an
Übersicht http://www.rss-verzeichnis.de/
RSS Readers
Desktop Anwendungen  Thunderbird, Firefox, 1.000 andere
Vorteile:
schnell – braucht keine Ladezeit im Browser
kann off-line gelesen werden
viele Optionen und Features
Web-basiert  Google Reader, Bloglines, 1.000 andere
Vorteile:
kann von jedem Rechner/Smartphone gelesen werden (Voraussetzung
Online-Zugang)
frei verfügbar
RSS und ALBERT
RSS ersetzt ZIV
schließt Lücke zwischen Publikationsdatum und
bibliographischer Datenbank (z. B. WoS, GeoRef)
Inhaltsverzeichnisse von > 1.000 Zeitschriften integriert
~ 250.000 Artikel für 1 Jahr in ALBERT
vorwiegend „ahead of print“, „article first“, „early view“
Bedingungen:
Volltext der Zeitschrift verfügbar
thematisch relevant
RSS Feed vorhanden
Nachteile:
keine Zeitschriften, deren Volltext nicht verfügbar ist
keine Zeitschriften, die nur als Print verfügbar sind
keine Zeitschriften, die keinen RSS Feed anbieten
XML und RSS
Probleme bei RSS-XML
• sehr heterogene Qualität: auf Schemaebene
(strukturell, semantisch) sowie auf Datenebene
• viele Format-Varianten: RSS 1.0, 2.0, Atom, RDF,
Dublin Core in RDF…
• Encoding unterschiedlich
• unzulässige, kryptische, falsch zugeordnete Werte
• Wohlgeformtheit verletzt
= Validierung unmöglich nehmen das, was da ist
Praktische Anwendungen
RSS per Suchanfrage
RSS per Zeitschriftenauswahl
RSS auf Suchanfragen in Datenbanken (WoS)
http://www.gfzpotsdam.de/portal/cms/Bibliothek/Tipps/News+RSS/RSS-Feeds
Abo mit Thunderbird
Abo mit Firefox
Abo mit Google Reader
Besuch von ALBERT (Bookmark statt RSS)
Möglichkeiten und Ausblick
Feeds/Core Journals für Forschergruppen
RSS Feeds auf Ihrer Webseite einbinden
Lesen auf mobilen Endgeräten
personalisierte Suche
Integration weiterer Feeds ohne VolltextZugriff
Integration von Wissenschaftsnews, Job
Postings, Webseiten
Einbindung der Dokumentenlieferung: „Ihr
Dokument/Fernleihe ist da!“
Wikimedia Commons
Ohne ERM zur Zeitschrift: XSLT
• Alternative zum ERM: XSLT Anwendung
• Herunterladen institutsspezifischer Zeitschriften
aus der EZB (Elektronische
Zeitschriftenbibliothek, Uni Regensburg)
• optionales Hinzufügen der Print-Bestände einer
Institution aus der ZDB (Zeitschriftendatenbank)
• Herunterladen neuester Artikel definierter
Zeitschriften vis RSS
• Anreicherung der Daten, Maximalisierung der
Bezugszeiträume
• tägliches Update und Auslieferung an ALBERT
Voraussetzungen
• technisch: Server, Java, Ant, PHP, FTP, einmaliges
Einrichten der Cronjobs (Admin)
• Pflege lizensierter Zeitschriften in
der EZB (manuell aber auch möglich)
• Abonnieren von Feeds in JournalTocs
oder manuelle Generierung von
OPML  einmalig
• nicht notwendig: Programmierkenntnisse, Konsole
XSLT Werkzeuge
• Apache Ant: Build Tool, javabasierter
Prozessor, Anweisungen in XML-Datei,
kann Tasks ausführen
(z.B. Erzeugen/Löschen von
Dateien/Verzeichnissen, Herunterladen, …)
• XSL: XSLT (Umwandeln) und XSL FO (Formatieren)
• XPath: Adressierung von Knoten innerhalb einer XMLDatei, verwendet Pfade entlang der XML-Struktur
• XSLT: Anweisungen für Transformation in Stylesheet
Live-Demo XSLT
• EZB: XML-Output (Beispiel Umwelt, Beispiel
XML)  &xmloutput=1
• ZDB: XML-Output (Gemeinsame
Verfügbarkeitsrecherche, Beispiel XML)
• Beispiel Online+Print: Archives of
Environmental Contamination and Toxicology
• JournalTOCs: OPML-Datei erzeugen
• RSS runterladen
Beispiel Topic Transformation
<xsl:template match="Link_zur_Zeitschrift">
<url>
<xsl:value-of select="."/>
</url>
</xsl:template>
XSLT | XPath
<xsl:when test="contains(substring-before($topic,';'), 'Anglistik')">
<topic>H</topic>
<xsl:call-template name="Fach">
<xsl:with-param name="topic" select="substring-after($topic,';')"/>
</xsl:call-template>
</xsl:when>
Beispiel Bestandszeitraum
Anreicherung der XML-Dateien
• ZS
– Maximalisierung der Bestandsangaben
XML
XML
>> macht bspw. aus 1.1973 – 22.1994, 20.1992 – 30.2002
= 1.1973 – 30.2002 bei identischer URL
XML
– Fügt Print-Bestände aus der ZDB ein
– Kumuliert verschiedene Records bei gleicher URL
und gleicher ZDB-ID >> vereint gelbe sowie grüne Records
mit maximalisiertem Bestandseintrag bzw. Moving Wall
Mehrwert
– Fügt Feed-ID und Archiv (Nationallizenzen) hinzu
– Fügt ggf. zusätzliche Angaben wie alternative Titel, Beschreibung, Schlagwörter ein
• RSS
– Fügt Topic hinzu (thematisches Portal)
– Fügt fehlende Elemente hinzu wie ISSNs
Nationallizenzen
•
•
•
•
ca. 20 Mio Metadaten > aber nicht vollständig verfügbar
~ 5 Mio in ALBERT integriert (Springer, Wiley, CUP, AIP,…)
Metadaten im MAB-Format, Transformation in MABXML
Anreicherung mit Topics (thematisches Portal) und ggf.
weiteren Metatdaten
• „Zuschneiden“ in kleinere Portionen
Aufgabe?
• Erstellung einer nachnutzbaren XSLT
• generelle Einsatzfähigkeit
unabhängig von der Quelle
• Anreicherung von ca. 3 Mio
Datensätzen der Nationallizenzen
des Verlags Elsevier mit diversen
Metadaten > Grundlage EZB
• Eliminierung von strukturellen
Fehlern sowie Validierungsmechanismen
OAI-PMH Dublin Core
• Forschungsdaten: PANGAEA® Data Publisher
for Earth & Environmental Science,
Scientific Drilling Project
• http://wiki.pangaea.de/wiki/OAI-PMH
• Publikationsdatenbanken
• Institutional Repositories
• OAI-PMH DC Schema:
http://www.openarchives.org/OAI/2.0/oai_dc.xsd
Future: Build your own Portal
•
•
•
•
Personalisierung
Topic Selection
Dokumentenlieferung
kooperative
Literaturverwaltung
• Identifizierbarkeit,
Researcher ID
• Text Mining
Stellenausschreibung vom 30.05.2012
• Thomson Reuters sucht für den Standort München zum
nächstmöglichen Zeitpunkt eine Fachkraft für Datenkonvertierung
(Sachbearbeiter/in Datenverarbeitung). Die Stelle ist auch für
Bibliothekare/Bibliothekarinnen und
Dokumentare/Dokumentarinnen mit guten EDV-Kenntnissen
geeignet.
• Wünschenswert sind Kenntnisse und praktische Erfahrung u.a. in
folgenden Bereichen:
SGML, XML, HTML, DTDs, XML Schema
Fazit
• ALBERT ohne XML = undenkbar
Vielen Dank für Ihre Aufmerksamkeit!
http://waesearch.kobv.de/