Beispiel für einen Parserbaum für RG III 213

Sprachliche Uneinheitlichkeit - Spannungsfeld zwischen Quellensprache und maschineller Lesbarkeit

In früheren Blog-Beiträgen haben wir bereits unsere automatische Auswertung mit Hilfe von Antlr, einem Parsergenerator für strukturierten Text, und einer darauf basierenden Grammatik vorgestellt.[1] Trotz der generellen Strukturiertheit der vatikanischen Supplikenregister stoßen wir immer wieder auf Probleme, wenn im gedruckten RG von der im Grunde normierten Struktur der Register abgewichen wird. In dem vorliegenden Blog-Beitrag wollen wir auf die unterschiedlichen Gründe für diese Abweichungen eingehen und vorstellen, wie wir damit umgehen.
Beispiel für einen Parserbaum für RG III 213
Foto: MEPHISTO

Meldung vom: | Verfasser/in: Clemens Beck & Jan Engelhardt

Das Repertorium Germanicum als formalisierte Quelle

An der römischen Kurie bildete sich bereits im Mittelalter eine ausgereifte Verwaltungsbürokratie heraus. Deswegen ist auch das Repertorium Germanicum eine der fomalisiertesten Quellen des Europäischen Mittelalters. Die Struktur der Einträge besteht aus festen Regeln, da auch die zugrunde liegenden Urkunden festen Schemata folgen. Aus Platzmangel und Zeitersparnis wurden die Suppliken im RG noch einmal in hohem Maße abgekürzt und vereinheitlicht. Und dennoch sind diese Regeln nicht in Stein gemeißelt.  Denn weder die Kurienschreiber noch Johannes Haller und alle ihm folgenden Bearbeiter des Repertorium Germanicums hätten sich jemals vorstellen können, dass das RG von Maschinen gelesen werden soll oder kann. So ergibt es sich, dass ein Kurienschreiber in einer Provisionsbulle aus dem Jahr 1411 einem Gewissen Johannes Westfahl das Recht auf folgende Pfarrkirche verlieh: „Par eccl. In villa Wiskow e.m. op. Noui Trettow Camin dioc.”[1] Eine Pfarrkirche im Dorf Wiskow außerhalb der Mauern der Stadt Neu-Treptow in der Diözese Kammin. Dies sind deutlich mehr Informationen als in einer Provisionsbulle üblich. In einer Provision, die Heinrich von Bochold ein Jahr zuvor erhielt, ist nur von einer „par. Eccl. In Bodegrauen Traiect dioc.“[2] die Rede -  eine Pfarrkirche in Bodegrauen in der Utrechter Diözese. Es gibt keine nähere Erläuterung, wie der nächste größere Ort heißt, ob Bodegrauen eine Stadt oder ein Dorf ist. All diese Informationen ergeben sich nur aus dem Kontext. Mehr als die Tatsache, dass der Ort eine Pfarrkirche besitzt und in der Utrechter Diözese liegt, ist nicht relevant für die entsprechende Bulle und mehr wurde zu Beginn des 20. Jahrhundert nicht in das Regest aufgenommen. Der Aufbau für Provisionen steht fest: Art der Pfründe, Ort der Pfründe, Diözese des Ortes. Fehlt etztere, handelt es sich um den Hauptort.

Und doch gibt es einige Ausnahmen. Johannes Westfahl schreibt explizit in seiner schon genannten Supplik[3], nach deren Aufbau die Bulle formuliert wurde, dass es sich um ein Dorf außerhalb einer Stadt handelte. Er erwähnte sogar, dass es sich bei der Stadt um ein oppidum, nicht um eine civitas, handelte, die Leute dort also kein Bürgerrecht besaßen.  Diese zusätzliche Information wurde von den Bearbeitern des RG III aufgenommen, da man keine Informationen weglassen wollte.  Um die Quelle korrekt wiederzugeben, wurde das strenge Schema leicht aufgebrochen.

Die Abweichung von der Norm am Beispiel der Ortsnamen 

Für eine maschinelle Auswertung sind diese Abweichungen von dem eigentlich normierten und strukturierten Text Steine im Weg. Es ist relativ einfach, eine Grammatik zu entwickeln, die in dem Text nach dem Muster „Pfründenart – Ortsname – Diözesenname“ sucht und die gefundenen Informationen aufschlüsselt. Dieses Muster ist sogar doppelt wertvoll, da es nicht nur hilft, die Quelle maschinell zu lesen, sondern auch die Identifizierung der Strings, aus denen die Namen der Orte bestehen, unterstützt.

Die Menge an Pfründenarten, ebenso wie die Menge an Diözesennamen ist finit, sodass sie sehr sicher erkannt werden und die Zeichenkette, die zwischen ihnen steht, muss ein Ortsname sein. Wird dieses Schema aufgebrochen, muss dies einem Programm mühsam für jeden einzelnen möglichen Fall erklärt werden, indem in der Grammatik verschiedene optional vorkommende Informationen aufnehmen. Was ein Mensch in Sekunden erfasst: „Aha, hier bekommen wir zu den üblichen drei Informationen noch ein paar hinzu“ erfordert für Computer, Programmierer*innen und Historiker*innnen erheblichen Mehraufwand.

Trotzdem können diese Informationen nicht einfach ignoriert werden, denn diese Informationen sind nicht ohne Grund angegeben. Die Sprache der Quelle zu verändern, hieße eine Interpretation vorzunehmen, was bei einer digitalen Quelle die Aufgabe von Historiker*innen und nicht von Editor*innen sein sollte.

Das Abändern der Quellensprache

Handelt es sich nur um die Sprache der ursprünglichen RG-Bearbeiter*nnen, so sind Änderungen nicht nur unproblematisch, sondern oftmals auch sinnvoll. Beispielsweise taucht der Begriff „Annaten“ (eine Zahlung in Höhe eines halben Jahresertrages) zwar im gesamten RG auf, seine Häufigkeit nimmt jedoch zu. In RG I und RG III wird Annaten als „annat.“ abgekürzt, in RG II, IV und allen folgenden Bänden als „ann.“ Die ersten Bände entstanden parallel, sodass sich diese Unregelmäßigkeit durch eine mangelnde Abstimmung der Bearbeiter*innen einschlich. Für unsere Antlr-Grammatik stellt es kein Problem dar, beide Informationen nicht nur gleich zu behandeln, sondern irgendwann auch einmal gleich darzustellen.

Ähnlich verhält es sich auch mit der Abkürzung für „vacans per obitum“ („freigeworden durch den Tod [des Vorbesitzers]“). Hier wechselt im Laufe der Bände die Schreibweise. Denn durch einen Fehler bei der OCR-Erkennung des Textes werden in einigen Bänden die die Leerzeichen in der Abkürzung „vac. per ob.“ weggelassen. Im gedruckten Satz war so etwas unproblematisch, für die Maschinelle Lesbarkeit ist jedoch Einheitlichkeit von größter Bedeutung.

Man muss also unterscheiden zwischen den Uneinheitlichkeiten innerhalb des RG, die aus der möglichst wortgetreuen Wiedergabe der originalen Quelle resultieren, und solchen, die durch die Unachtsamkeit der Bearbeiter*innen in den Text eingearbeitet wurden. Während Letzteres an das Erste angeglichen werden kann, ist bei ersterem große Vorsicht angebracht, um nicht den Inhalt der Quelle zu verfälschen.

Das Problem als Chance - Die Regesten Grammatik als Ontologievorlage

Das Einarbeiten der Unregelmäßigkeiten der Quellensprachen sorgt für eine komplexe und sehr umfassende Grammatik, die in der Lage ist, auch sehr kleine Nuancen des mittelalterlichen Kirchenrechtes darzustellen. Wir dürfen eben nicht vereinfachen, sondern müssen der Vielschichtigkeit der Materie gerecht werden. Die so entstehende Grammatik kann deswegen als Grundlage für weitere Projekte verwendet werden. Als ein normiertes Vokabular können diese Zusammenhänge die Grundlage für eine ontologische Darstellung bilden und damit eine wertvolle Grundlage für die weitere (digitale) Erschließung der kurialen Quellen des Mittelalters (schaffen).

Referenzen

[1] http://rg-online.dhi-roma.it/RG/3/147.

[2] http://rg-online.dhi-roma.it/RG/3/57Externer Link.

[3] http://rg-online.dhi-roma.it/RG/3/147.