Lokalisierte Orte in Diözesen

Probleme und Ergebnisse der digitalen Lokalisierung historischer Orte

Im folgenden Blog-Beitrag wollen wir unser Vorgehen bei der semi-automatischen Lokalisierung von Orten vorstellen.
Lokalisierte Orte in Diözesen
Foto: MEPHISTO

Meldung vom: | Verfasser/in: Clemens Beck & Oskar Jauch

Einleitung

Neben Personen sind die am häufigsten im Repertorium Germanicum vorkommenden Entitäten geographischer Art. Dörfer, Städte und Orte, an denen Klöster oder Stiftskirchen liegen, werden genannt, da ein Großteil der Regesten die Bewerbungen von Klerikern um Pfründen in kirchlichen Orten in diesen Institutionen behandeln. Für eine netzwerkanalytische oder statistische Auswertung unserer Daten ist es unerlässlich herauszufinden, an welchen Stellen die angegebenen Orte liegen. Eine manuelle Lokalisierung jedes einzelnen Ortes würde aber unverhältnismäßig viel Aufwand bedeuten. Deswegen haben wir ein Tool entwickelt, welches Geo-Koordinaten für die Orte abfragt und überprüft. Im folgenden Blog-Beitrag wollen wir unser Vorgehen bei der semi-automatischen Lokalisierung von Orten vorstellen.

Die Lokalisierung der Orte und Diözesen

Orte werden im RG immer mit dem lateinischen Namen angegeben. Dahinter folgt der lateinische Name der Diözese und eine „dioc.“ Abkürzung. Ausnahmen gibt es allerdings, wenn die Institution in dem jeweiligen Hauptort des Bistums liegt. Dann steht im Text nur der lateinische Name der Bischofsstadt – ohne dioc. Abkürzung. Beispielsweise wird die Stiftskirche St. Severin in Erfurt in der Mainzer Diözese als „eccl. s. Seueri Erford. Magunt. Dioc.“ angegeben. Aufgrund dieser Struktur des RG ist in unserer Datenbank jeder Ort mit der Diözese verknüpft, in der er liegt.

Für die semi-automatische Lokalisierung nutzen wir diese Angaben.  Zuerst haben wir die Register des RG mit Hilfe von OCR digitalisiert. Danach haben wir durch die Verwendung eines String-Matching-Ansatzes die (teilweise verschiedenen) lateinischen Schreibweisen des Namens eines Ortes in der Datenbank mit dem – in den Registern angegebenen – modernen, normierten Namen zusammengeführt, so dass in der Datenbank zu einer geographische Entität mehrere Namensvarianten hinterlegt sind.

Für den zweiten Schritt benötigen wir die Grenzen der Bistümer. Bei den deutschen Diözesen gestaltet sich dies einfach, weil deren Grenzen durch die Germania Sacra aufgearbeitet wurden und als kml-File vorliegen.[1] Bei Diözesen, die nicht in Deutschland liegen, haben wir händisch die Geo-Koordinaten der

jeweiligen Bischofssitze erhoben. Diese nutzen wir als Fallback-Option, falls ein Ort in einer Diözese liegt, deren Grenzen wir nicht genau kennen. Dies trifft beispielsweise auf französische oder italienische Bistümer zu.

Für alle Ortsnamen in unserer Datenbank wird eine automatische Abfrage an Geonames[2] gestellt. Hierfür nutzen wir die Python Bibliothek geopy. Danach prüft das Tool die Art und Anzahl der Ergebnisse. Dabei gibt es drei verschiedene Optionen: Entweder es wurde keine, genau eine oder mehrere Optionen gefunden. Werden für einen Ort keine Geo-Koordinaten gefunden, werden die in der Datenbank hinterlegten Namensvarianten so lange durchgeprüft, bis ein Treffer gefunden wurde. Wird dann immer noch kein Ort gefunden, dann wird eine Fehlermeldung herausgegeben, damit ein*e Historiker*in überprüfen kann, ob es sich um einen Schreibfehler, eine alte Namensform oder eine Wüstung handelt.

Wird mit Hilfe der Abfrage in Geonames nur ein Ort, dessen Name mit einem Ort in unserer Datenbank übereinstimmt, gefunden, wird im nächsten Schritt abgefragt, ob die Grenzen der Diözese, in der dieser Ort liegt, vorhanden sind. Ist dies der Fall, dann wird geprüft, ob die Geo-Koordinaten von Geonames innerhalb dieser Grenzen liegen. Wenn ja, dann werden die entsprechenden Koordinaten in die Datenbank übernommen. Wenn die Koordinaten nicht innerhalb der Grenzen liegen, wird ein Logbericht zurückgegeben, dass für den Ort keine Geo-Koordinaten gefunden werden konnten, so dass dies noch einmal manuell nachkontrolliert werden kann.

Falls ein Ort gefunden wird, der in einer Diözese liegt, deren Grenzen uns unbekannt sind, dann prüft unser Tool, ob der Ort in einem Umkreis (beispielsweise 200 Kilometer) um den Hauptort der Diözese liegt, so dass er noch realistisch zu dieser Diözese gehören kann. Damit wurde beispielsweise die Lokalisierung des englischen Stadt York, deren Geo-Koordinaten bei der ersten Abfrage auf dem Gebiet der Vereinigten Staaten (New York) lagen, korrigieren können.

Problematisch ist dabei die unterschiedliche Ausdehnung der Diözesen. Beispielsweise ist das Erzbistum Mainz sehr groß, so dass zwischen Mainz und Jena, welches noch zu dieser Diözese gehörte, knapp 300 Kilometer liegen, während andere Diözesen deutlich kleiner sind. Zurzeit experimentieren wir hier noch mit verschiedenen Parametern, um eine optimale Lokalisierung der Orte zu erreichen.

Liegen die Geo-Koordinaten eines Ortes innerhalb des von uns definierten Abstandes um den Bischofssitz, wird ein Logbericht darüber zurückgegeben, dass die Identifikation noch einmal händisch überprüft werden muss. Ebenfalls wird ein Logbericht erstellt, wenn zu einem Ort keine Geo-Koordinaten gefunden werden.

Werden bei Geonames mehrere verschiedene Sets von Geo-Koordinaten zu einem Ortsnamen gefunden, dann prüft unser Tool, ob zu dessen Diözese Grenzen vorhanden sind. Wenn dies der Fall ist, dann wird für jeden der möglichen Orte abgeprüft, ob er sich innerhalb dieser Grenzen befindet. Am Ende wird eine Liste der Orte gespeichert und ausgegeben, die innerhalb dieser Grenzen liegen. Handelt es sich nur um einen Ort, dann werden die Koordinaten dieses Ortes übernommen. Wenn es mehrere Treffer gibt (beispielsweise sind Ortsnamen wie Neustadt oder Altendorf in so gut wie jeder Diözese mehrfach vertreten), dann wird eine entsprechende Liste ausgegeben, damit sie händisch überprüft werden kann.

Sind für die Diözese, in welcher der Ort liegt, keine Grenzen vorhanden, dann wird für jeden Ort geprüft, wie weit die Koordinaten vom Hauptort des Bistums entfernt sind und die Koordinaten des nächstgelegenen Ortes werden zur Überprüfung herausgegeben. Falls innerhalb des von uns definierten Bischofssitz kein Ort gefunden wird, wird eine Fehlermeldung ausgegeben.

Die einzelnen Geo-Koordinaten, die wir durch die Abfrage bei Geonames erhalten haben, tragen wir dann auf eine Karte mit den Grenzen der Diözesen ab und prüfen diese Karte noch einmal manuell. Dabei färben wir die Orte, die in der gleichen Diözese liegen mit der gleichen Farbe ein, damit fehlerhafte Zuordnungen deutlich erkennbar sind. Die daraus resultierende Karte sieht dann so aus:  

 

 

 

Lokalisierte Orte in Diözesen

Foto: MEPHISTO

Ergebnisse

Bei einem genaueren Blick auf die Karte zeigt sich, dass die Geo-Lokalisierung insgesamt schon sehr gut funktioniert. Dies zeigt sich auch bei einer statistischen Auswertung der Geo-Koordinaten. So liegen bei ungefähr 10% der Orte (blau) für nur genau einem Ort die Geo-innerhalb der Grenzen der zugehörigen Diözese. Bei knapp der Hälfte der Orte (orange) werden mehrere Orte innerhalb der Grenzen einer Diözese gefunden. Bei einem Sechstel der Orte (grün) wurden die Orte nach der Distanz zum Hauptort des Bistums identifiziert. Bei dem restlichen Viertel konnte kein Treffer in Geonames gefunden werden oder die ausgegebenen Geo-Koordinaten ließen sich nicht mit Grenzen oder räumlicher Nähe zum Bischofssitz verifizieren. Diese Orte werden aktuell noch einmal manuell durch Mitglieder unserer Arbeitsgruppe nachgeprüft. Danach werden wir diese validierten Ergebnisse als eine Datenbank mittelalterlicher Ortsnamen, ihrer Varianten und Geo-Koordinaten auf unserer Website publizieren und der Forschungscommunity zur Verfügung stellen.

 

Diagramm von lokalisierten Orten

Foto: Mephisto

Referenzen

[1] Siehe http://www.geonames.org/Externer Link (zuletzt eingesehen am 04.12.2021).

 

[2] Siehe Die Grenzen der Bistümer des Alten Reiches um 1500. Rekonstruktion der Germania Sacra anhand publizierter Karten und Quellenmaterialien (Datensammlungen der Germania Sacra. Materialien zur Kirche des Alten Reiches 4), Göttingen 2020. URI:  https://doi.org/10.26015/adwdocs-34 (zuletzt eingesehen am 07.12.2021).