Resolving- und Lookup-Dienst fuer bibliothekarische Identifier in culturegraph.org

 Inhalt:

Was ist culturegraph.org?

Die Domäne culturegraph.org ist eine Linked-Open-Data-Services anbietende Plattform, mit dem Ziel, kulturelle Entitäten durch URIs zu identifizieren. Dies soll eine verlässliche und persistente Referenzierbarkeit gewährleisten. Der Dienst wurde in einer Kooperation der Deutschen Nationalbibliothek (DNB) und des Hochschulbibliothekszentrums des Landes Nordrhein-Westfalen (hbz) mit Unterstützung der AG der Verbundsysteme im Rahmen des initialen Unterprojektes "Resolving- und Lookup-Dienst bibliothekarischer Identifier unter culturegraph.org" aufgebaut.

Eine Kurzbeschreibung des Projekts befindet sich auf der Projektseite:http://www.culturegraph.org hier gibt es auch weiterführende Informationen über die Plattform als solches.

Für allgemeine Hintergrundinformationen zu Linked Open Data, was es bedeutet, auf welchen Technologien es basiert und welche Vorteile für bibliothekarische Institutionen es mit sich bringt siehe etwa Adrian Pohl und Felix Ostrowski: 'Linked Data' - und warum wir uns im hbz-Verbund damit beschäftigen und Jan Hannemann und Jürgen Kett: Linked Data for Libraries.

Initiales Projekt: Resolving- und Lookup-Dienst für bibliothekarische Identifier

Projektstammdaten

Name: Resolving- und Lookup-Dienst für bibliothekarische Identifier in culturegraph.org
Unterprojekt von: culturegraph.org
Projektlaufzeit: bis Ende 2011
Hashtag: #culturegraph
SVN-Repository: svn co https://culturegraph.svn.sourceforge.net/svnroot/culturegraph
Mailingliste: http://lists.d-nb.de/pipermail/culturegraph/ (englisch)

Personen & Funktionen

  • Ansprechpartner Softwareentwicklung/Technik: Daniel Schäfer (DNB), Markus Geipel (DNB), Pascal Christoph (hbz)
  • Ansprechpartner externe Kommunikation: Adrian Pohl (hbz), Katja Mecklinger (DNB)
  • Projektmanagement: Adrian Pohl (hbz) und Daniel Schäfer (DNB)
  • Projektleitung: Daniel Schäfer (DNB)
  • RDF-Datenmodellierung: Adrian Pohl (hbz), Lars Svensson (DNB)
  • Hosting: Guido Jäkel (DNB), Thomas Seidel (DNB)
  • weitere Beteiligte: Anette Seiler (hbz), Jan Hannemann (DNB), Jürgen Kett (DNB), Stephani Scholz (hbz), Thomas Schulz (DNB)  

Ausgangslage

Die Existenz vieler verschiedener bibliographischer Datenbanken von Verlagen, Bibliotheken und Bibliotheksverbünden führt dazu, dass für jede bibliographische Ressource eine Vielzahl von Beschreibungen und Identifikatoren existieren. Diese Vielfalt birgt eine Menge Probleme, deren Lösung im Rahmen der Migration bibliographischer Daten in das Semantic Web angegangen werden kann.
Betrachtet man diese Problematik nun im Hinblick auf aktuelle Linked-Data-Angebote, stellt sich der Sachverhalt folgendermaßen dar:
Die Publikation von Linked Data ist von Grund auf dezentral organisiert. Dies führt - nicht nur im Zusammenhang bibliographischer Daten - zu einer stetigen Vermehrung von Identifikatoren und Beschreibungen für ein und dieselbe Ressource. Dieser Problematik soll durch die Entwicklung eines kooperativen Identifikationssystems begegnet werden. Die Nutzung gemeinsamer, globaler Identifikatoren bietet optimale Voraussetzungen für die Verknüpfung webbasierter Informationsquellen von Gedächtnisinstitutionen. Eine solche Praxis garantiert letztlich eine stärkere Sichtbarkeit von Gedächtnisinstitutionen und ihren Beständen im World Wide Web.
Die AG Kooperative Verbundanwendungen (AG KVA) hat den Projektpartnern den Auftrag erteilt, eine Lösung für die Integration bibliographischer Daten aus verschiedenen Quellen zu entwickeln, insbesondere im Hinblick auf die zunehmende dezentrale Publikation von Linked Data durch verschiedene Institutionen.

Ziel

Die gemeinsamen Bestrebungen zielen zunächst darauf ab, zentrale URIs (im folgenden: CG- (d.h. Culturegraph-) URIs zu prägen, mit denen andere Identifier verknüpft werden. Ähnlich dem Dienst sameas.org sollen auf dieser Basis Identifier für identische bzw. verwandte Ressourcen gebündelt werden.
Um eine solche Bündelung zu ermöglichen, werden Matchingalgorithmen benötigt, die den Inhalt bestimmter Datenfelder analysieren. Das bedeutet allerdings nicht, dass die Informationen dieser Felder extern verfügbar sein werden. Es gilt hier zwischen den Informationen in der internen Datenbank und den Informationen, die tatsächlich veröffentlicht werden zu unterscheiden. Die für die Matchingverfahren relevanten Felder werden nicht veröffentlicht, sondern die CG-URI mit den gebündelten lokalen Identifiern der jeweiligen Ressourcen. Diese Verknüpfungsstruktur muss unter einer offenen Lizenz publiziert werden.
Folgende Projektziele wurden identifiziert:

  • Aggregation und Speicherung von lokalen Identifiern, damit verknüpften anderen bibliographischen Identifiern und sonstigen für Matchingverfahren relevanten Feldern aus den Titeldatensätzen der deutschsprachigen Verbundkataloge.
  • Entwicklung von einfachen Matchingalgorithmen zur Zusammenführung/Gruppierung der verteilt vorliegenden Ressourcenbeschreibungen.
  • Prägung von übergeordneten URIs (CG-URIs) für die zusammengeführten/gruppierten Ressourcenbeschreibungen.
  • Angebot eines Resolving-und Lookup-Dienstes, der bei Eingabe einer CG-URI sämtliche lokal daran hängenden Titeldatensätze ausgibt bzw. bei Eingabe eines beliebigen bibliographischen Identifiers dazugehörige CG-URIs ausgibt.
  • Bereitstellung einer Schnittstelle zum Importieren von Datensätzen inkl. Rückmeldung von CG-URIs.

Anwendungsfälle

siehe hier

Planung

Aufbauend auf den Ergebnissen des letzten Jahres (erster öffentlicher Prototyp) wurde im Januar die Planung für 2011 entwickelt.
Grob lässt sich das Projekt in zwei Abschnitte unterteilen. Die erste Hälfte des Projektes von Januar bis Ende Juni 2011 beschäftigt sich vor allem mit dem Aufbau der Basis-Infrastruktur für den Resolving- und Lookup-Service und der Einarbeitung in die Thematik und in neue Technologien (wie zum Beispiel NoSQL-Datenbanken). Der Ablauf der zweiten Projekthälfte wird bestimmt durch die Ergebnisse und das Feedback der ersten Hälfte. Die Algorithmen werden verfeinert und die Schnittstellen und GUIs müssen intensiv getestet werden, auch durch die Verbundpartner. Der Service geht in die produktive Phase über. Folgende Meilensteine wurden für die erste Hälfte des Projektes festgelegt:

Meilenstein 1 (bis Anfang Februar 2011):

  • Import erster Datenlieferungen hbz, DNB.
  • Entwicklung von Tools zum Extrahieren der relevanten Felder von MAB/MARC zu einem datenbankinternen Format (JSON).
  • Recherche zur Vorauswahl eines Vokabulars zur RDF-Repräsentation der Identifier-Verknüpfungen und Titelsatz-Matches

Meilenstein 2 (bis Anfang April 2011):

  • Daten aus weiteren Verbünden werden importiert.
  • Erste Matching-Algorithmen werden entwickelt.
  • Bündelung der verschiedenen Titeldatensätzen auf Basis der Matching-Algorithmen.
  • Erste interne Vergabe von Culturegraph-URIs für zusammengeführte/gruppierte Ressourcenbeschreibungen.

Meilenstein 3 (ab Anfang April 2011):

  • Entwicklung einer Schnittstelle zum Befüllen von Culturegraph (siehe Anwendungsfall „Daten hochladen“).
  • Organisation eines Arbeitstreffen mit den interessierten Verbünden zum Präsentieren erster Ergebnisse.
  • Sammeln von Feedback der Verbünde bezüglich der verwendeten Matching-Algorithmen.
  • Konvertierung und Darstellung ausgewählter Informationen in RDF.
  • Auswertung dieser Informationen und Anpassen der Algorithmen.

Releaseplan

Der momentan laufende und veraltete Prototyp 1 wird im Juni 2011 auf den aktuellen Stand der Implementierung gebracht.

Early Alpha: Anfang Juni 2011.
Diese Version spiegelt die Funktionalitäten wieder, die wir während des Arbeitstreffen mit der AG KVA vorstellen möchten.

First Release im Testbetrieb: September 2011.
Erste URIs werden vergeben. Die Stabilität dieser URIs ist aber noch nicht gewährleistet.

First Release im Produktionsbetrieb (URIs sind stabil): November 2011

Prototyp 1

Ein erster Prototyp wurde bereits Ende 2010 implementiert. Der Prototyp ist in der Lage culturegraph-URIs aufzulösen und alterntive-Identifier der zugehörigen Ressource anzuzeigen.
Der Implementierung liegt eine erst Datenlieferung durch das HBZ zugrunde. Die Datenliefung enthält ein Mapping zwischen lobid.org-URIs und culturegraph-URIs.
(lobid,org ist das LOD-Dataset des HBZ und enthält umter anderem alle Titeldaten des HBZ). Culturegraph-URIs sind URNs der Form urn:nbn:de:eki-<ID>. Die ID enspricht, wo vorhanden, der Erstkatalogisierungs-ID (EKI), die von den Verbünden vergeben wird. Für Bestände vor Einführung des EKI-Verfahrens (2007) gilt die Regelung, dass in diesen Fällen die DNB einen Idenitifier vergeben darf. Dort wo die DNB selbst Titeldaten hat, wird dies vermutlich die IDN sein, aber eine endgültige Entscheidung hierzu muss in der DNB noch getroffen werden.

Prototyp 2

Nachdem Meilenstein 1 abgeschlossen wurde existierte eine erste Basis der Software mit der Möglichkeit Datensätze im MAB2/MARC/JSON-Format (aufgrund der Testdaten lag die Konzentration bei der Entwicklung vor allem beim MAB2-Import ) in die NoSQL-Datenbank zu überführen und diese anschließend zu analysieren. Es wurden erste Erfahrungen mit NoSQL-Datenbanken gesammelt (MongoDB und CouchDB). Eine Liste mit relevanten Identifikatoren für die Ähnlichkeitssuche wurde erarbeitet. Die gemeinsame Entwicklung der Software wird über ein SVN-System ermöglicht.
Meilenstein 2 wurde ebenfalls abgearbeitet: Testdaten aus weiteren Verbünden wurden importiert (Bibliotheksservice-Zentrum Baden-Württemberg (BSZ-BW), Bibliotheksverbund Bayern (BVB), DNB, Hochschulbibliothekszentrum (HBZ), Hessisches Bibliotheksinformationszentrum (HEBIS)). Erste Matching-Algorithmen werden entwickelt. Adrian Pohl (hbz) und Lars Svensson (DNB) arbeiten an der Thematik Vokabulare zur Abbildung von Matches und Ähnlichkeiten. Auf dieser Seite findet man eine Übereinkunft über die verschiedenen CG-URIs und die Erläuterung, was sie jeweils identifizieren. 

Early Alpha Version

Anfang Juni werden wir unter www.culturegraph.org eine Version des Resolving- und Lookup-Service zur Verfügung stellen, die den aktuellen Stand der Implementierung widerspiegelt. Somit wird die alte Version, die zum Stand 30.05.2011 noch aktiv ist überschrieben.

Stichwörter

projekt projekt Löschen
identifier identifier Löschen
culturegraph culturegraph Löschen
anwendungsfälle anwendungsfälle Löschen
case case Löschen
releaseplan releaseplan Löschen
prototyp prototyp Löschen
Geben Sie Stichwörter ein, die dieser Seite hinzugefügt werden sollen:
Please wait 
Sie suchen ein Stichwort? Beginnen Sie einfach zu schreiben.