RDF-ISO2709 - eine RDF-Serialisierung fuer ISO 2709-basierte bibliografische Formate (MARC, MAB)

For the english version look a little bit below.

RDF/ISO2709 - eine RDF-Serialisierung für ISO 2709-basierte bibliografische Formate (MARC, MAB)

Hinweis: RDF/ISO2709 wird vom hbz als verlustfreies Zwischenformat für die Umwandlung von MAB-Daten in Linked Data benutzt. Für den weiteren Konvertierungsprozess - zur Zeit basierend auf der Bibliographic Ontology (Bibo) - siehe hier. Die Bibo-basierten RDF-Daten sind Teil des vom hbz betriebenen Dienstes lobid.org.

1. Unter der ISO-2709-Formatfamilie werden alle Formate verstanden, die auf dem ISO-2709-Standard aufbauen. Das ist die MARC-Familie, MAB, CDS/ISIS und noch ein paar andere exotische Formate. ISO 2709 entspricht - bis auf Details - dem amerikanischen Standard Z39.2 aus dem Jahr 1971. Der ISO-Standard ist von 1973 und dient dem Austausch bibliografischer Daten auf Magnetband.

2. ISO-2709 macht keinerlei Angaben zu verwendeten Regelwerken oder Datentypen. Es unterteilt serielle Datenströme in Sätze, die wiederum in Datenfelder eingeteilt sind. RDF (Semantic Web) kennt ein Modell aus Ressourcen, Properties, und Values (bzw. Subjects, Predicates, Objects). Values können Literale oder URIs sein. Die Objekte im Semantic Web sind in einem Graphenmodell abgelegt und weisen Typeigenschaften auf, wie sie von XML-Schema her bekannt sind.

3. Daraus ergibt sich die Notwendigkeit, Inhalte von ISO-2709-Datenfeldern einer Darstellungsmethode zu unterziehen ("RDF-Serialisierung"), um diese auf möglichst einfache Weise einer rudimentären Bearbeitung mit den Werkzeugen des Semantic Web zugänglich zu machen, z.B. Laden in Triplestores und Abfragen per SPARQL.

4. Für die Darstellung in RDF wird eine triviale Ontologie benötigt, mit der sich ISO-2709-Altdaten automatisch darstellen lassen. Automatisch heisst, ohne manuelle Datenaufbereitung, ohne Anwendung bibliothekarischer Regelwerke, aber auch ohne Erstellung von Ontologien. Allein das Vorliegen eines Altdatensatzes soll zur Darstellung genügen.

5. Als Hilfs-URI-Schema zur Darstellung von Subjekt- und Prädikat-URIs in der rudimentären Darstellung wird "rdfiso2709" gewählt, daneben ist auch "rdfmarc" und "rdfmab" möglich.

6. Eine spezielle Interpretation erfährt der Identifier, der unter dem Tag 001, gespeichert ist. Er wird als Subject-URI im RDF/ISO2709-Graphen verwendet.

7. Eine weitere, Subject-URI bezogene Interpretation erfolgt durch eine ausserhalb des eigentlichen Datensatzes vorliegende selbstbeschreibende Zweck-Information, nämlich die "Formatfamilie" oder der "Kontext" des ISO-2709-Satzes. Z.B. "MAB-TITEL ", oder "MAB-PND" usw. Zur Definition der Felder siehe: DNB-MAB Definition. Obacht: MAB ist nicht immer gleich MAB, es gibt Felder deren Semantik institutionsspezifisch sind.

8. Die triviale Ontologie wird mit Hilfe der "tags" und "indicators" bzw. derjenigen bis zu sechs Zeichen umfassenden "field designators" (Feld-Designatoren) gebildet, die im jeweiligen Record Verwendung gefunden haben. Die Auflösung ist unterfeldgenau (falls Unterfelder vorhanden sind). Es gibt drei Ziffern für den "Tag", maximal zwei Indikatoren, und ein Unterfeldsymbol. Wird ein Indikator oder Unterfeldsymbol nicht verwendet oder enthält das Symbol den Inhalt "blank symbol" (Leerzeichen), so wird stattdessen ein Unterstrich ("underscore") verwendet, um eine gültige URI bilden zu können.

9. Jeder Feld-Designator erhält eine Prädikat-URI zugeordnet in der Form: <schema> ":" <purpose> "/" <field-designator>

10. Alle Feldinhalte in ISO-2709 sind typenlos. Sie sind als "Zeichen" zu interpretieren, wobei zum Zeichenvorrat normalerweise Z39.47 (ANSEL) oder auch ISO-5426 (MAB) zu zählen sind. In jüngster Zeit wird auch UTF-8 verwendet. Alle Feldinhalte werden in RDF/ISO-2709 zu Literalen gewandelt. Das gilt auch für solche Feldinhalte, die offensichtlich eine URL (und damit eine URI) darstellen.

RDF/ISO2709 - an RDF serialization for ISO 2709-based bibliographic formats (MARC, MAB)

Note: RDF/ISO2709 is used by the hbz as a lossless intermediate format in the process of converting MAB data to Linked Data. For informations on the further conversion process - currently based on the Bibliographic Ontology (Bibo) - see here. The Bibo-based RDF data is part of the hbz-driven service lobid.org.

1. The ISO-2709 format family consists of all formats based on the ISO-2709 standard. This is the MARC family, MAB, CDS / ISIS, and a few other exotic formats. ISO 2709 mostly corresponds to the American Standard Z39.2 from the year 1971. The ISO standard originated in 1973 and was originally intended to be used to exchange bibliographic data on magnetic tape.

2. ISO-2709 makes no details of any cataloging rules or data types. It divides serial data streams into records, which are in turn divided into data fields. RDF (Semantic Web) is based on a model of resources, properties, and values (or subjects, predicates, and objects). Values can be literals or URIs. The entities in the Semantic Web are represented in a graph model and literals may include type properties as known from XML Schema.

3. Hence there is a need for content of ISO-2709-data fields to be serialized in such a way as to make it as simple as possible to rudimentarily work with the tools of the Semantic Web, e.g. loading it into triplestores and query it using SPARQL.

4. For the representation in RDF a trivial ontology is needed which can be used to serialize old ISO-2709-data automatically. Automatically means that there is no need for manual data preparation or the application of cataloging rules. The existence of a legacy record should suffice to render a simple RDF-representation.

5. As an auxiliary URI scheme for the representation of subject and predicate URIs in the rudimentary representation, "rdfiso2709" is chosen. "rdfmarc" and "rdfmab" are also possible.

6. The identifier that is stored under the tag 001 is handled in a special way: it is used to form the subject URI in RDF/ISO-2709-graphs.

7. Furthermore, the "format family" or the "context" of the ISO-2709-record - e.g. "MAB-TITLE", or "MAB-PND" - is used in the subject-URI. Have a look at the : DNB-MAB Definition. Be aware, though: MAB is not equal MAB because there may be fields where the semantic differs between institutions.

8. The trivial ontology is formed by using the "tags" and "indicators" or "field designators" (up to six-character) respectively that are encountered in a given record. The resolution is exact to the subfield level (if subfields are present). There are three digits for the tag, a maximum of two indicators, and subfield symbol. If an indicator or subfield symbol is not used, or the content contains the symbol "blank symbol" (space), an underscore is used instead to form a valid URI.

9. Each field-designator is given a predicate URI in the form: <schema> ":" <purpose> "/" <field-designator>

10. All field content in ISO-2709 is typeless. They are interpreted as a characters, the character set normally being Z39.47 (ANSEL) or ISO-5426 (MAB). Recently also UTF-8 is being used. All field content is thus interpreted as literals in RDF/ISO-2709. This also applies to such content that is obviously a URL (and thus a URI).

Beispiele / Examples

N-Triple-Format (siehe http://www.w3.org/TR/rdf-testcases/#ntriples)

Geben Sie Stichwörter ein, die dieser Seite hinzugefügt werden sollen:
Please wait 
Sie suchen ein Stichwort? Beginnen Sie einfach zu schreiben.