Dokumentation • Organisationsbeschreibungen in RDF


See also:

Deutsche Version: Aufbau eines Linked-Data-Verzeichnisses von bibliothekarischen Institutionen

Bei unseren Bemühungen, bibliographische Daten in Linked Data zu konvertieren, wurde uns bewusst wie problematisch das Fehlen von Linked-Data-URIs (d.h. HTTP-URIs) für bibliothekarische Institutionen ist. [1] Da solche Institutionen eine wichtige Rolle in der Welt bibliothekarischer Daten spielen, begannen wir damit solche URIs als erstes Angebot von lobid.org zu implementieren. Dies ermöglicht nicht nur die Referenzierung von Institutionen im Linked-Data-Netz, sondern auch eine Nachnutzung der URIs durch andere Institutionen in anderen Kontexten.

Die URIs basieren auf den existierenden, etablierten International Standard Identifier for Libraries and Related Organizations (ISIL), die auch als MARC Organization Codes dienen. ISILs werden bibliothekarischen Institutionen durch nationale oder internationale ISIL-Agenturen vergeben. Bei amerikanischen Bibliotheken haben wir deren MARC Organization Code das Präfix "US-" hinzugefügt. Allerdings ist die Vergabe von URIs nur der allererste Schritt. Die Linked Data Design Issues empfehlen: "[w]hen someone looks up a URI, provide useful information, using the standards", so dass wir nach nützlichen Informationen suchten, die wir anbieten könnten. Diese Informationen wurden von zwei Quellen gesammelt: dem deutschen ISIL- und Sigelverzeichnis online und der MARC Organization Codes Database der Library of Congress. Die Daten aus diesen beiden Quellen unterscheiden sich teilweise sehr stark: die MARC Organization Codes Database beinhaltet Name und Adresse von Institutionen in unterschiedlichem Detailgrad während das ISIL- und Sigelverzeichnis auch Kontaktinformationen und Öffnungszeiten (die leider, schwierig zu parsen sind, weil sie in verschiedenen Formen gespeichert sind) enthält.

Nachdem wir die Arbeit an einem ersten Prototypen beendet hatten, haben wir angefangen zu überlegen, wie wir die Qualität der Daten verbessern können. Hintergrund ist, dass die Daten oft sehr knapp oder womöglich nicht aktuell sind (besonders bei den Öffnungszeiten ist dies ein Problem). Eine mögliche Lösung wäre die Bereitstellung von Editiermöglichkeiten im zentralen Verzeichnis. Allerdings haben die meisten bibliothekarischen Institutionen bereits Webseiten und diese Seiten sind die Orte, an denen die relevanten Informationen aktualisiert werden. Das zusätzliche Verwalten der Informationen in einem zentralen Verzeichnis ist im Grunde überflüssig und wird häufig versäumt. Man könnte dafür argumentieren, die Informationen aus dem zentralen Verzeichnis in den lokalen Seiten einzubetten (mit AJAX o.ä.). Dies würde allerdings die Abhängigkeit von einem zentralen Dienst bedeuten.

Deshalb haben wir überlegt, die Lösung eines ähnlich gelagerten Problems zu übernehmen, die Mark Birbeck hier beschrieben hat. Diese Lösung basiert auf dem Gedanken, von einzelnen Institutionen bereitgestellte Daten zu aggregieren. Der Vorschlag zum Aufbau eines zentralen Verzeichnisses lautet, eine Schnittstelle zu benutzen, die bereits existiert: die Webseite der Institutionen. Die meisten Bibliotheken stellen die benötigten Informationen wahrscheinlich - regelmäßig aktualisiert - auf ihrer Webseite bereit. Mit einer kleinen Anreicherung dieser Daten, durch das Hinzufügen einiger zusätzlicher Attribute, wird auf einfachem Wege eine RDF-Repräsentation der Daten angeboten, die in HTML bereits bestehen. Diese Technik nennt sich RDFa, RDF in Attributes. Suchmaschinen haben begonnen, RDFa zu unterstützen, so dass eine RDFa-Anreicherung Ihrer Webseite nicht nur für eine Datenaggregierung auf lobid.org nützlich ist, sondern auch für viele andere Dienste im Web.

Die große Herausforderung dieses Ansatzes ist es, in den betroffenen Einrichtungen Interesse an der Notwendigkeit dieser Dienste aufzubauen, somit Daten über ihre Institutionen in dieser Form zur Verfügung zu stellen. Höchstwahrscheinlich müssen die Content-Management-Systeme für Bibliothekswebseiten angepasst werden, damit Informationen in HTML automatisch mit diesen XML-Snippets angereichert werden. Sollten Institutionsbeschreibungen mit RDFa-Anreicherungen in der Bibliothekswelt eine breite Aufnahme erfahren, muss eine Methode zum automatischen Einsammeln der Daten und ihrer Integration in lobid.org implementiert werden. Webseiten, die RDF-Beschreibungen anbieten, müssen identifiziert und regelmäßig abgefragt werden, damit die Informationen auf lobid.org aktuell bleiben und von anderen nachgenutzt werden können.

Disclaimer

Das hbz benutzt zur Zeit Daten, die über Googles Geocoding-API gewonnen wurden und deshalb alles andere als offen sind. Sobald Institutionen ihre Beschreibungen unter freien Lizenzen (im besten Fall unter einer Public-Domain-Lizenz wie der PDDL oder der CC-0) publizieren, können wir auch die Sammlung dieser Beschreibungen als Open Data publizieren.

[1] Laut der deutschen Wikipedia wurde der info:isil-Namensraum beantragt, um darin Nicht-HTTP-URIs auf der Basis von ISILs zu prägen. Dieser Namensraum scheint allerdings nicht registriert worden zu sein und seit dem 22. Mai 2010 ist die Registrierung von "info"-Namensräumen geschlossen. Falls es sich herausstellt, dass info:isil-URIs benutzt worden sind, werden wir sie mit den HTTP-URIs mittels owl:sameas verbinden.

English Original: Building a Linked Data based index of library institutions

Taken from http://blog.lobid.org/2010/07/building-linked-data-based-index-of.html.

As a side-effect of our efforts to convert bibliographic data to Linked Data, we realized that the community is not yet identified by Linked-Data-URIs (i.e. HTTP-URIs) [1]. Since these institutions play a significant role in linked bibliographic data, we set out to provide such URIs as the first segment of lobid.org. This would not only enable us to reference to institutions by URIs, but the URIs could be used by other institutions in other contexts as well.

The URIs are based on the existing and well established International Standard Identifier for Libraries and Related Organizations (ISIL) which can also act as MARC Organization Codes. They are assigned to library institutions by national or institutional agencies. Note that for US-libraries, we prefixed the MARC Organization Code with "US-". But these HTTP-URIs are just a small first step. The Linked Data Design Issues advise that "[w]hen someone looks up a URI, provide useful information, using the standards", so we went out looking for some useful information we could serve. It is currently aggregated from two sources: the address database for german libraries and the MARC Organization Codes Database. The data we found in those sources differ in detail: the MARC Organization Codes Database provides the name and address of an institution in varying levels of detail, the database for german libraries additionally contains contact information and opening hours (which are unfortunately hard to parse since they are provided as an arbitrary literal descriptions).

After finishing a first quick-and-dirty prototype, we began to think about how to enhance the quality of the data, since it is often sparse and/or out of date (esp. the opening hours). One solution would be to provide editing capabilities on the central website directly. But most library institutions already have websites, and that is where the information in question is created and updated in the first and often also only place. Additionally administering the same information in a central database is repetitive and would probably be ceased at some point. One might argue that the information held in the central database could somehow be included on the institutions website by AJAX or whatnot, but this would imply being dependent on the centralized service.

This is why we decided to try to adapt a solution for a similar problem that Mark Birbeck describes here. It is based on the idea of aggregating data provided by the individual institutions directly. The suggestion is to use an interface that you already have: your institutional website. Libraries probably provide all the information for their human visitors there already. With just a litte enhancement, by adding a couple of additional attributes, that information can be made available to machines, too. By providing these additional attributes, you effectively provide an RDF description embedded in the HTML you serve anyway. This technique is called RDFa. Search engines are beginning to support RDFa, so enriching a web-site is useful not only for us to aggregate the data but for just about every other machine agent on the web.

A challenge with this approach is that libraries need to be made aware of the necessity to encode their data in this form (after all this is the reason why we started out by converting existing databases). Most probably the CMS used for library websites need to be adapted to include this xml-snippet automatically when a person who does not know any markup enters the relevant data in some database through a web form. Should this mechanism be adopted by libraries, a method for harvesting the library data and integrating it with the lobid.org list must be implemented. Websites that provide this data need to be identified and visited regularly or on the fly by a web spider in order to update the information on the lobid.org database and serve it to users of this service.

Disclaimer

We are currently using data provided by Google’s Geocoding API which may not be distributed. As soon as institutions publish their data under an open licence, we can also provide the aggregate as Open Data.

[1] According to the German Wikipedia, the info:isil namespace was requested to be used as non-HTTP-URIs based on ISILs. That namespace does not seem to have been registered though, and as of May 22 2010 the registration of "info" namespaces has been closed. If it turns out that info:isil-URIs have been used, we will owl:sameas them to the HTTP-URIs.

Geben Sie Stichwörter ein, die dieser Seite hinzugefügt werden sollen:
Please wait 
Sie suchen ein Stichwort? Beginnen Sie einfach zu schreiben.