Die (semi-)automatische Identifikation von Orten

Erkennung von Städten, Gemeinden, Kommunen und Dörfern im Repertorium Germanicum

Karte mit alten Ortsnamen

Foto: Pixabay Creative Commons

Meldung vom: 3. November 2021, 11:43 Uhr

Einleitung

In den letzten Blog-Beiträgen haben wir uns mit den Problemen und Potentialen des von uns entwickelten RG-Parsers[1] und den Herausforderungen bei der Identifikation von mittelalterlichen Namen beschäftigt[2] sowie unseren Erkenntnissen zum Wandel von Namen im Mittelalter beschäftigt[3]. Neben Personen sind die zweithäufigsten nicht ausgezeichnete Entitäten im Repertorium Germanicum die Ortschaften. Dieser Blog-Beitrag befasst sich daher mit der Identifikation von Städten, Gemeinden, Kommunen und Dörfern.

Das Problem mit der fehlenden Auszeichnung

Im Gegensatz zu den Personen sind Orte im Repertorium teilweise ausgezeichnet. Nämlich dann, wen es sich um den Hauptort eines Bistums handelt. Beispielsweise wird das Erzbistum Köln mit dem Tag '<abk ref="11">Colon.</abk>' abgekürzt. Dabei sind allerdings keinesfalls alle Bistümer erfasst, da nur 72 Abkürzungen für Bistümer vergeben wurden. So gibt es beispielsweise für das Bistum Kurland eine abgekürzte Form „Queron.“[4], aber dieser Abkürzung fehlt eine entsprechende XML-Auszeichnung. Auch die bereits ausgezeichneten Diözesen können ohne entsprechende Abkürzung erneut im Text auftauchen. Während Köln als „Colon.“ ausgezeichnet sind, wendet sich in RG III 434 das Kölner Domkapitel als „Colonia <abk ref="184">capit.</abk> <abk ref="312">eccl.</abk>“[5] an die päpstliche Kurie. Andere Diözesen werden ausschließlich ausgeschrieben und ohne entsprechende XML-Auszeichnung m Text genannt.

Das Problem mit den unterschiedlichen Schreibweisen

Ähnlich wie bei den Namen sind auch die Schreibweisen von Ortschaften im Spätmittelalter noch nicht normiert ist und können Orte auch verschiedene Namen tragen. So ist der heutige Ort Bergheim in der Diözese Regensburg allein im dritten Band des Repertorium Germanicum unter den den drei verschiedenen Bezeichnungen „Perchen“, „Percheim al. Talkerchen“ und „Talkirchen“ verzeichnet. Solche unterschiedlichen Namen erschweren auch eine manuelle Identifikation, da die jeweiligen Hilfskräfte alle möglichen Namensformen im Kopf haben müssen.

Unsere Lösung: String-Matching-Algorithmen

Deswegen haben wir eine neue Lösung entwickelt, die auf der Erschließung des gedruckten Bände des RG durch die Register beruhte. Diese Register haben wir in einem ersten Schritt eingescannt. Danach wurden die gescannten Seiten mit einer kostenlosen OCR-Software in Text umgewandelt. Dadurch, dass die Seiten des Registers in zwei Spalten aufgeteilt waren, kam es zu einigen fehlerhaften Erkennungen. Aus diesem Grund mussten die gescannten Register manuell korrigiert werden. Zuletzt haben wir die gescannten Daten und die Korrekturen in eine Datenbank übernommen. Dabei haben wir jeweils die modernen normierten Ortsnamen als auch die unterschiedlichen historischen Schreibweisen der Orte berücksichtigt.

Aus den Regesten des RG III haben wir die relevanten Strings herausgefiltert, in denen Orte stehen können. Dabei haben wir uns vor allem auf die Strings vor den „dioc.“ Abkürzungen konzentriert, da die reguläre Form der Ortsangaben im RG aus dem Namen einem Ortsnamen, dem Namen der Diözese, zu dem dieser Ort gehört, und der Abkürzung „dioc.“ besteht.

Zwischen diesen Srings und der Datenbank der Orte mit den normierten Namen und den unterschiedlichen Schreibweisen der Orte haben wir einen automatischen Abgleich durch String-Matching-Algorithmen durchgeführt. Die identifizierten Orte wurden wiederum ausgegeben, damit sie überprüft und gegebenenfalls manuell korrigiert werden konnten.

Problematisch stellte sich bei den Orten heraus, dass in dem Algorithmus des Vergleichs nur genaue Treffer zugeordnet wurden. Bei einem Teil der Orte, die von uns nachgetragen wurden, waren beispielsweise noch Punkte am Ende eines Ortes oder einzelne Buchstaben-Verdopplungen innerhalb eines Ortes. Mit einer unscharfen Suche mit 1-2 möglichen Buchstaben Abweichung wäre ein Großteil der nachträglichen Korrekturen nicht notwendig gewesen.

Trotzdem konnten wir durch die richtige automatische Zuordnung von ungefähr 75-80% der Orte mehr Zeit für nachträgliche intensive Recherchen zur Identifikation aufwenden. Dabei gelang es uns auch durch den Einsatz von Google, Google Maps und Wikipedia Identifikationen vorzunehmen, die über die durch die Bearbeiter des RG 3 getroffenen Ortsidentifizierungen hinaus gehen. Durch den Einsatz dieser Tools konnten mehr Orte identifiziert werden, als im RG verzeichnet waren. Beispielsweise, dass sich das in RG 3 icht lokalisierte „capel. hosp. paup. Pontisreni“ [6] in Konstanz befindet.

Ausschnitt des Ebstorfer Stichs ca. 1300
Foto: Wikimedia Commons

Zusammenfassung und Ausblick

Nach dem ersten Versuch String-Matching-Algorithmen zur (semi-) automatischen Identifikation von Entitäten im dritten Band des RG einzusetzen, bietet sich aus unserer Sicht der Versuch an, das gleiche Verfahren wie bei Personen auch bei Personen zu besuchen. Bedenken, dass die Namen von Personen zu wenig normiert sind, um sie automatisch zuordnen zu können, lassen sich widerlegen sowie, dass sogenannte String-Matching-Algorithmen fehlertolerant sind und unterschiedliche Schreibungen ausgleichen.

Referenzen

[1] Siehe https://www.mephisto.uni-jena.de/blog/probleme+und+potentiale+eines+rg-parsers

[2] Siehe https://www.mephisto.uni-jena.de/blog/%E2%80%9Ees+ist+kompliziert%E2%80%9CExterner Link.

[3] Siehe https://www.mephisto.uni-jena.de/blog/es+bleibt+kompliziert.

[4] Siehe RG Online, RG III 00216, URL: <http://rg-online.dhi-roma.it/RG/3/216> (Datum 05.10.2021).

[5] [2]Siehe RG Online, RG III 00434, URL: <http://rg-online.dhi-roma.it/RG/3/434> (Datum 05.10.2021).

[6] Siehe RG Online, RG III 01582, URL: <http://rg-online.dhi-roma.it/RG/3/1582> (Datum 05.10.2021).