Woran wir arbeiten: Ein KI-gestützter Kandidatenraum für mittelalterliche Abkürzungen
Warum Cappelli, Abbreviationes und MUFI in HistoriaMP nicht zu automatischen Wahrheiten werden, sondern zu prüfbaren Kandidaten.
HistoriaMP entwickelt eine Analyseebene, die mittelalterliche Abkürzungen nicht sofort glättet. Aus Bildbefund, Zeichenform, Referenzabgleich und Unsicherheitsbewertung entsteht ein Kandidatenraum - kein fertiger Befund.
Bei HistoriaMP arbeiten wir an einer Analyseumgebung für historische Handschriften, die nicht einfach aus einem Bild einen fertigen Text erzeugt.
Gerade mittelalterliche Quellen bestehen nicht nur aus Buchstaben im modernen Sinn. Sie enthalten Kürzungszeichen, Ligaturen, Sonderformen, beschädigte Stellen, Schreibergewohnheiten und visuelle Details, die für eine belastbare Lesung entscheidend sein können.
Unser Ziel ist deshalb nicht:
Bild hinein - Text heraus.
Unser Ziel ist ein nachvollziehbarer Weg:
Bildbefund - Zeichenform - Referenzabgleich - Kandidatenbildung - Prüfung - Befund
Der zentrale Gedanke dahinter lautet:
Kandidat ist nicht Befund.
Eine mögliche Lesung wird nicht dadurch belastbar, dass sie sprachlich glatt klingt. Sie wird belastbar, wenn nachvollziehbar bleibt, wie sie entstanden ist.
Cappelli, Abbreviationes und MUFI: drei verschiedene Ebenen
Ein wichtiger Baustein unserer Arbeit ist die Einbindung klassischer und digitaler Hilfsmittel. Besonders interessant sind dabei Cappelli, Abbreviationes und MUFI.
Cappellis Lexicon abbreviaturarum ist eines der klassischen Referenzwerke für lateinische und italienische Abkürzungen in Handschriften, Urkunden und Inschriften. Es hilft bei der Frage, welche Abkürzungsformen historisch belegt sind und welche Auflösungen möglich sein könnten.
Abbreviationes ist eine digitale Datenbank mittelalterlicher lateinischer Abkürzungen. Sie kann Recherche beschleunigen und Vergleichsformen zugänglich machen.
MUFI, die Medieval Unicode Font Initiative, arbeitet auf einer anderen Ebene. Hier geht es nicht primär um die Bedeutung eines Zeichens, sondern um dessen digitale Repräsentation: Wie lassen sich mittelalterliche Sonderzeichen, Ligaturen oder besondere Abkürzungszeichen so darstellen, dass sie nicht einfach in modernen Klartext aufgelöst und dadurch unsichtbar gemacht werden?
Vereinfacht gesagt:
- Cappelli hilft beim historischen Abkürzungswissen.
- Abbreviationes hilft bei der digitalen Vergleichssuche.
- MUFI hilft bei der kontrollierten Zeichenrepräsentation.
Diese Trennung ist entscheidend. Denn ein sichtbares Zeichen, eine mögliche Auflösung und eine digitale Kodierung sind drei verschiedene Dinge.
Was wir daraus entwickeln
Wir arbeiten daran, diese drei Ebenen als strukturierte Referenzebene innerhalb von HistoriaMP nutzbar zu machen.
Eine eigene KI-Schicht soll Cappelli, Abbreviationes und MUFI gemeinsam auswerten. Dabei geht es nicht darum, sofort eine endgültige Lesung zu erzeugen. Stattdessen soll ein Kandidatenraum entstehen.
Technisch denken wir diese Ebene als Kombination aus visueller Zeichenanalyse, regelbasierten Vorfiltern, referenzbasiertem Retrieval, Ranking und Unsicherheitsbewertung.
Für eine beobachtete Zeichenform oder Abkürzung werden mögliche Auflösungen, Vergleichstreffer und digitale Zeichenrepräsentationen zusammengeführt. Daraus entstehen mehrere prüfbare Kandidaten, die später im Kontext bewertet werden können.
Die KI wird damit nicht zur letzten Autorität. Sie wird zu einem strukturierenden Werkzeug zwischen Bildbefund, Referenzwissen und späterer Reviewentscheidung.
Ein vereinfachtes Beispiel
Angenommen, in einer Handschrift erscheint ein p-ähnliches Zeichen mit Kürzungsstrich.
Ein automatisches System könnte daraus direkt ein Wort machen. Je nach Modell vielleicht "per", "pro" oder eine andere sprachlich plausible Form.
HistoriaMP würde diesen Schritt nicht sofort glätten. Stattdessen könnte das System mehrere Kandidaten erzeugen:
| Kandidat | Vorschlag | Stütze | Status | Unsicherheit | Hinweis |
|---|---|---|---|---|---|
| A | per | vergleichbare Abkürzungsform in Cappelli | möglich | mittel | Zeichenform passt grundsätzlich, Kontextprüfung erforderlich |
| B | pro | möglicher Vergleichstreffer in Abbreviationes | möglich | hoch | Zeichenform könnte passen, sprachlicher Kontext noch nicht ausreichend geprüft |
| C | erhaltenes Kürzungszeichen nach MUFI-/Unicode-Logik | kontrollierte Zeichenrepräsentation | diplomatische Repräsentation | offen | Bedeutung noch nicht aufgelöst, Zeichenform soll zunächst erhalten bleiben |
Das System erzeugt also keinen fertigen Text, sondern dokumentierte Möglichkeiten.
Jeder Kandidat bleibt prüfbar. Es bleibt sichtbar, welche Referenz herangezogen wurde, welche Unsicherheit besteht und ob es sich um eine mögliche Auflösung oder nur um eine kontrollierte Zeichenrepräsentation handelt.
Unsicherheit als Teil der Analyse
Unsicherheit ist in historischen Handschriften kein Fehler. Sie ist Teil des Materials.
Ein Kandidat kann unsicher sein, weil die Bildstelle beschädigt ist, die Zeichenform mehreren Abkürzungen ähnelt, die Referenzlage uneindeutig bleibt, der sprachliche Kontext mehrere Varianten zulässt oder die Schreiberhand von bekannten Vergleichsbeispielen abweicht.
Deshalb soll Unsicherheit in HistoriaMP nicht verborgen werden. Sie soll sichtbar, beschreibbar und überprüfbar bleiben.
Ein Kandidat ist also nicht nur ein Wortvorschlag. Er ist ein kleines Paket aus Bildbezug, Referenzbezug, möglicher Bedeutung, Zeichenrepräsentation und Unsicherheitsstatus.
Wie das sichtbar werden soll
In der Arbeitsoberfläche sollen Kandidaten nicht einfach als fertiger Text erscheinen. Sie sollen als prüfbare Optionen sichtbar werden.
Denkbar ist eine Ansicht, in der mehrere Kandidaten nebeneinander stehen: mit Bildausschnitt, markierter Zeichenform, möglicher Lesung, Referenzquelle, Unsicherheitsgrad, Begründung, alternativen Vorschlägen und Reviewstatus.
Ein Nutzer soll also nicht nur sehen:
Das System schlägt per vor.
Sondern:
Das System schlägt per vor, weil die Zeichenform mit einer Cappelli-Referenz vergleichbar ist. Gleichzeitig gibt es einen möglichen Abbreviationes-Treffer für pro. Die MUFI-/Unicode-Repräsentation hält das Kürzungszeichen zunächst diplomatisch fest. Die Stelle bleibt prüfbedürftig.
Das ist der Unterschied zwischen einer Ausgabe und einer nachvollziehbaren Analyse.
Zielbild
Vereinfacht lässt sich die angestrebte Arbeitslogik so beschreiben:
Bildbefund
- Zeichenform / Glyph / Abkürzungszeichen
- Abgleich mit Cappelli, Abbreviationes und MUFI
- KI-gestützter Kandidatenraum
- Kontextprüfung
- Unsicherheitsbewertung
- Reviewentscheidung
- geprüfter Befund
Die Kontextprüfung umfasst dabei nicht nur den Satzzusammenhang, sondern auch Grammatik, Wortposition, Schreiberhand und Vergleichsformen im selben Manuskript.
Damit werden klassische Paläographie, digitale Hilfsmittel und KI nicht gegeneinander ausgespielt. Sie werden in eine gemeinsame, überprüfbare Analysearchitektur eingebunden.
- Cappelli liefert historisches Abkürzungswissen.
- Abbreviationes liefert digitale Vergleichsmöglichkeiten.
- MUFI unterstützt die kontrollierte Zeichenrepräsentation.
- Die KI strukturiert daraus Kandidaten.
- Die Prüfung entscheidet später, was daraus belastbar wird.
Fazit
Mit HistoriaMP arbeiten wir an einer Analyseumgebung, die historische Handschriften nicht vorschnell in glatten Text verwandelt.
Ein wichtiger Teil dieser Arbeit ist der Aufbau eines KI-gestützten Kandidatenraums für mittelalterliche Abkürzungen und Sonderzeichen.
Das Ziel ist eine Analyse, bei der sichtbar bleibt, was beobachtet wurde, welche Referenzen herangezogen wurden, welche Alternativen möglich sind und wo Unsicherheit bestehen bleibt.
Oder kurz gesagt:
HistoriaMP soll nicht nur lesen helfen. HistoriaMP soll zeigen, wie eine Lesung entsteht.
Genannte Hilfsmittel und Quellen
- Adriano Cappelli: Lexicon abbreviaturarum
- Klassisches Nachschlagewerk für lateinische und italienische Abkürzungen in Handschriften, Urkunden und Inschriften. Das Werk erschien erstmals 1899 und wurde später mehrfach überarbeitet und erweitert.
- Abbreviationes
- Elektronische Datenbank mittelalterlicher lateinischer Abkürzungen. Sie dient der digitalen Recherche und Kandidatenbildung bei der Arbeit mit abgekürzten lateinischen Texten.
- MUFI - Medieval Unicode Font Initiative
- Initiative zur Kodierung und Darstellung spezieller mittelalterlicher Schriftzeichen, Ligaturen, Abbreviaturen und Zeichenformen für digitale Editionen und wissenschaftliche Textverarbeitung.
- HTR - Handwritten Text Recognition
- Automatische Handschriftenerkennung. Für HistoriaMP grundsätzlich als mögliche Kandidatenebene interessant, aber nicht als endgültiger Befund.
- LLM - Large Language Model
- Sprachmodell zur Analyse, Erklärung und Generierung von Text. Für HistoriaMP als Hilfsmittel nützlich, aber nicht als Ersatz für Bildbefund, Referenzprüfung und quellenkritische Bewertung.
Kurzfassung
HistoriaMP entwickelt einen KI-gestützten Kandidatenraum für mittelalterliche Abkürzungen. Cappelli, Abbreviationes und MUFI werden dabei als getrennte Referenzebenen genutzt: historisches Abkürzungswissen, digitale Vergleichssuche und kontrollierte Zeichenrepräsentation. Ein Kandidat ist noch kein Befund. Belastbar wird eine Lesung erst, wenn Bildbezug, Referenzbezug, Unsicherheit und Reviewentscheidung nachvollziehbar dokumentiert sind.
Häufige Fragen
Was ist ein Kandidatenraum?
Ein Kandidatenraum ist eine strukturierte Sammlung möglicher Lesungen, Zeichenrepräsentationen und Referenztreffer. Er ersetzt keine Prüfung, sondern macht Alternativen sichtbar.
Warum ist ein Kandidat kein Befund?
Ein Kandidat kann plausibel sein, bleibt aber ein Vorschlag. Ein Befund muss an eine sichtbare Bildstelle, eine dokumentierte Referenz und eine überprüfbare Entscheidung gebunden sein.
Welche Rolle spielen Cappelli, Abbreviationes und MUFI?
Cappelli unterstützt historisches Abkürzungswissen, Abbreviationes digitale Vergleichssuche und MUFI kontrollierte Zeichenrepräsentation. Die Ebenen dürfen nicht vermischt werden.
Projektkontext
Dieser Beitrag gehört zum methodischen Aufbau von HistoriaMP. Mehr zur Positionierung, zu den Grenzen und zum Kontaktweg steht auf der Projektseite.
