Wenn der Modellinput nicht die Quelle ist
Warum Bildskalierung bei KI-Analysen dokumentiert werden muss
Wer ein Bild in ein KI-System hochlädt, geht oft unausgesprochen davon aus: Das Modell sieht genau die Datei, die hochgeladen wurde.
Diese Annahme ist verständlich, aber methodisch gefährlich.
Denn zwischen der ursprünglichen Bilddatei und dem Bild, das ein KI-Modell tatsächlich verarbeitet, können mehrere technische Zwischenschritte liegen: Upload, Komprimierung, Größenanpassung, Formatumwandlung, interne Optimierung oder automatische Reduktion für die Modellverarbeitung.
Das bedeutet: Das Modell analysiert nicht zwingend das Originalbild, sondern möglicherweise eine abgeleitete Version davon.
Für viele alltägliche Anwendungen ist das unproblematisch. Wenn es darum geht, ein Gebäude, eine Landschaft, ein Produkt oder eine grobe Bildszene zu erkennen, reicht eine reduzierte Bildfassung oft aus.
Für detailkritische Analysen ist der Unterschied jedoch entscheidend.
Denn dann stellt sich nicht nur die Frage:
Was erkennt die KI?
Sondern vorher:
Welche Bildfassung hat die KI überhaupt gesehen?
Ein konkretes Beispiel
In einem Test wurde ein hochaufgelöstes Manuskriptbild an ein KI-System übergeben.
Die Ausgangsdatei hatte folgende Maße:
- 2393 × 3434 Pixel
- ca. 8,22 Megapixel
Beim Modell kam jedoch nicht diese vollständige Bildgröße an, sondern ungefähr:
- 1070 × 1536 Pixel
- ca. 1,64 Megapixel
Der lineare Skalierungsfaktor lag damit bei etwa 0,447. Beide Achsen wurden also auf weniger als die halbe Kantenlänge reduziert.
Flächenbezogen blieb nur rund ein Fünftel der ursprünglichen Pixelmenge übrig. Anders gesagt: Etwa 80 Prozent der ursprünglichen Pixelpositionen standen dem Modell nicht mehr zur Verfügung.
Wichtig ist die genaue Formulierung: Das bedeutet nicht, dass automatisch 80 Prozent der Bildbedeutung verloren gehen. Aber es bedeutet sehr wohl, dass 80 Prozent der ursprünglichen Abtastpunkte nicht mehr in der verarbeiteten Bildfassung vorhanden sind.
Das kann bei groben Bildinhalten nebensächlich sein.
Bei feinen Linien, kleinen Abständen, schwachen Kontrasten, beschädigten Strukturen, Handschriften, Kürzungszeichen oder winzigen Markierungen ist es zentral.
Bildskalierung ist kein neutraler Vorgang
Eine Bildverkleinerung ist nicht einfach nur ein kleineres Anzeigen desselben Bildes.
Wenn ein großes Bild auf eine kleinere Fassung reduziert wird, muss das System entscheiden, wie mehrere ursprüngliche Pixel zu weniger neuen Pixeln zusammengefasst werden. Dieser Vorgang heißt Resampling.
Dabei können sichtbare Details verändert werden:
- dünne Linien werden schwächer oder verschwinden
- kleine Punkte verschmelzen mit dem Hintergrund
- feine Kontraste werden geglättet
- beschädigte Strukturen wirken sauberer, als sie tatsächlich sind
- Ränder und Übergänge verlieren Schärfe
- kleine Zeichen oder Markierungen werden uneindeutig
- minimale Tonwertunterschiede können im Rauschen verschwinden
Das verkleinerte Bild kann für das menschliche Auge noch immer „gleich“ aussehen.
Technisch ist es aber nicht mehr dieselbe Datei.
Und methodisch ist es nicht mehr dieselbe visuelle Evidenz.
Was große KI-Anbieter technisch tun
KI-Systeme müssen Bilddaten in eine für das Modell verarbeitbare Form bringen. Deshalb gibt es interne Grenzen für Auflösung, Patch-Anzahl, Token-Budget oder maximale Bilddimensionen.
Bei OpenAI wird für bestimmte Vision-Modelle ein patchbasiertes Verfahren verwendet. Bilder werden dabei in 32 × 32 Pixel große Patches zerlegt. Je nach Modell und Detailstufe gibt es Grenzen für die Anzahl dieser Patches und für die maximale Bilddimension. Wird eine Grenze überschritten, wird das Bild proportional verkleinert.
Bei Anthropic gibt es für Claude ebenfalls dokumentierte Auflösungsgrenzen. Claude Opus 4.7 unterstützt eine lange Bildkante bis 2576 Pixel. Frühere bzw. andere Claude-Modelle liegen bei 1568 Pixeln als Grenze für die lange Kante.
Der entscheidende Punkt ist nicht, dass diese Systeme „schlecht“ arbeiten. Im Gegenteil: Solche Grenzen sind technisch nachvollziehbar, weil Bildverarbeitung Rechenleistung und Tokenbudget benötigt.
Der entscheidende Punkt ist:
Der Default-Zustand ist nicht automatisch Originaltreue.
Wer keine bewussten Vorkehrungen trifft, arbeitet möglicherweise mit einer reduzierten Bildfassung.
Pixelverlust ist nicht gleich Informationsverlust
Man muss hier präzise bleiben.
Wenn eine Bildfassung nur noch 20 Prozent der ursprünglichen Pixelmenge enthält, bedeutet das nicht automatisch, dass 80 Prozent der relevanten Information verloren sind.
Niederfrequente Strukturen bleiben oft gut erhalten:
- Seitenränder
- Spalten
- große Bildbereiche
- Layout
- grobe Formen
- allgemeine Bildkomposition
- größere Schriftzonen
Diese Elemente können auch in reduzierter Auflösung zuverlässig analysiert werden.
Anders ist es bei hochfrequenten Details:
- Haarlinien
- feine Schriftzüge
- kleine Punkte
- Kürzungszeichen
- Tilden
- diakritische Zeichen
- feine Korrekturen
- Rasuren
- dünne Verbindungsstriche
- minimale Tonwertdifferenzen
- winzige Sicherheitsmerkmale
- beschädigte oder verblasste Strukturen
Diese Details liegen oft im Bereich weniger Pixel. Wenn die Bildgröße reduziert wird, können sie verschwinden, geglättet oder durch neue Artefakte ersetzt werden.
Für eine grobe Bildbeschreibung ist das meist egal.
Für eine belastbare Detailanalyse ist es nicht egal.
Wann ist eine reduzierte Bildfassung unproblematisch?
Eine reduzierte Bildfassung kann völlig ausreichend sein für:
- grobe Bildbeschreibung
- Objekterkennung
- Layoutanalyse
- Seitenaufbau
- Bildkomposition
- Farbwirkung
- visuelle Orientierung
- Sortierung von Bildmaterial
- Erkennung großer Strukturen
- Auswahl relevanter Bildbereiche
Auch bei Dokumenten oder Manuskripten kann eine reduzierte Gesamtansicht sinnvoll sein. Sie kann helfen, Spalten, Randbereiche, größere Beschädigungen, Bildzonen oder auffällige Bereiche zu erkennen.
Für diese Aufgaben ist die Übersicht wichtiger als das letzte Detail.
Wann wird Bildskalierung kritisch?
Kritisch wird Skalierung immer dann, wenn kleinste visuelle Unterschiede Bedeutung tragen.
Das betrifft zum Beispiel:
- historische Handschriften
- beschädigte Dokumente
- technische Zeichnungen
- medizinische Bilder
- Materialanalysen
- Mikroskopie
- Karten
- Siegel
- Unterschriften
- Sicherheitsmerkmale
- feine Druckdetails
- kleine Symbole
- forensische Bildanalysen
In solchen Fällen kann eine automatische Skalierung die Grundlage der Analyse verändern.
Ein Modell kann dann zwar immer noch eine plausible Antwort geben.
Aber die methodische Frage lautet:
Worauf stützt sich diese Antwort?
Auf das Original?
Oder auf eine reduzierte, geglättete, komprimierte oder anderweitig veränderte Kopie?
Diese Unterscheidung entscheidet darüber, ob eine Analyse nachvollziehbar, überprüfbar und zitierfähig ist.
Das Problem der Scheingenauigkeit
Besonders gefährlich ist nicht, dass ein Modell aus einem reduzierten Bild nichts erkennt.
Oft erkennt es noch sehr viel.
Gefährlich ist etwas anderes: Das Modell kann aus einer unsicheren Bildgrundlage eine sehr sichere Antwort erzeugen.
Das führt zu Scheingenauigkeit.
Ein Detail kann im Original vielleicht sichtbar sein. In der reduzierten Fassung ist es aber nur noch unscharf oder gar nicht mehr eindeutig vorhanden.
Das Modell entscheidet trotzdem eindeutig.
Die Antwort wirkt präzise.
Die visuelle Grundlage war es aber nicht mehr.
Für einfache Alltagsanwendungen ist das meist kein Problem. Für wissenschaftliche, technische, medizinische, juristische oder archivische Anwendungen ist es ein methodischer Fehler.
Dort reicht eine plausible Antwort nicht aus.
Es muss nachvollziehbar sein, aus welcher Datei, welcher Auflösung, welchem Bearbeitungsstand und welchem konkreten Modellinput die Aussage entstanden ist.
Der Modellinput ist nicht automatisch die Quelle
Der zentrale methodische Satz lautet:
Eine KI-Aussage über ein Bild gilt zunächst nur für die konkrete Bildfassung, die dem Modell tatsächlich vorlag.
Nicht automatisch für das Original.
Deshalb muss man unterscheiden zwischen:
- Originalobjekt
- digitaler Masterdatei
- gespeicherter Ausgangsdatei
- bearbeiteter Arbeitskopie
- Crop oder Segment
- Uploadfassung
- vom Modell tatsächlich verarbeiteter Input
- intern skalierter oder optimierter Bildfassung
Nur eine dieser Ebenen ist der unmittelbare Analyseinput des Modells.
Wenn ein Modell eine Aussage erzeugt, bezieht sich diese Aussage zunächst auf genau diesen Input.
Alles Weitere muss dokumentiert und begründet werden.
Chain of Custody: Die Herkunft des Bildes muss nachvollziehbar bleiben
Das Problem ist nicht nur technisch. Es ist vor allem methodisch.
In Archiven, Museen, Bibliotheken und wissenschaftlichen Editionen ist die Unterscheidung zwischen Original, Reproduktion und Bearbeitung selbstverständlich.
Eine Reproduktion darf nicht kommentarlos als Original behandelt werden.
Eine bearbeitete Fassung darf nicht so zitiert werden, als sei sie die Quelle selbst.
Dasselbe gilt für KI-Analysen.
Wenn ein Bild vor der Analyse skaliert, komprimiert, zugeschnitten oder technisch verändert wurde, muss diese Änderung dokumentiert werden.
Nicht, weil KI dadurch unbrauchbar wird.
Sondern weil nur so klar bleibt, was eigentlich analysiert wurde.
Was eine saubere Bildanalyse dokumentieren sollte
Wer KI-gestützte Bildanalyse ernsthaft einsetzt, sollte nicht nur das Ergebnis speichern, sondern auch den Analyseinput.
Mindestens sinnvoll sind folgende Metadaten:
- Dateiname
- Dateiformat
- Breite in Pixeln
- Höhe in Pixeln
- Pixelanzahl
- Dateigröße
- SHA-256-Hash
- Farbraum
- ICC-Profil, falls vorhanden
- EXIF-Daten, falls vorhanden
- Quelle der Datei
- Zeitpunkt des Imports
- Bearbeitungsschritte
- Skalierungsfaktor gegenüber dem Master
- Kompressionsstatus
- verwendetes KI-Modell
- verwendeter API-Endpunkt oder Uploadweg
- gesetzte Detailstufe, falls verfügbar
- tatsächlich analysierte Datei oder Bildversion
Der wichtigste Punkt ist der Hash.
Ein SHA-256-Hash ist ein digitaler Fingerabdruck der Datei. Wenn sich auch nur ein Byte ändert, ändert sich der Hash. Dadurch lässt sich prüfen, ob zwei Dateien wirklich identisch sind oder nur ähnlich aussehen.
Praktische Regel für sensible Bildanalysen
Eine einfache Regel lautet:
Eine KI-Aussage über ein Bild gilt zunächst nur für die konkrete Bilddatei, die dem Modell tatsächlich vorlag.
Daraus folgt:
Wenn die analysierte Datei nicht mit dem registrierten Original oder Master identisch ist, muss sie als abgeleitete Bildfassung behandelt werden.
Mögliche Statuswerte wären zum Beispiel:
- original_or_master_input
- derived_image
- resized_input
- cropped_input
- compressed_input
- unknown_fidelity_input
Das ist keine übertriebene Vorsicht.
Es ist die Grundbedingung für Nachvollziehbarkeit.
Die richtige Arbeitsteilung: Gesamtbild und Detailbild
Ein sinnvoller Workflow trennt zwischen Übersicht und Detail.
Für die Übersicht kann eine reduzierte Gesamtansicht ausreichen:
- Wo befinden sich relevante Bereiche?
- Gibt es Spalten?
- Gibt es Randbereiche?
- Gibt es auffällige Zonen?
- Welche Ausschnitte müssen genauer betrachtet werden?
Für die Detailanalyse sollte dagegen mit kontrollierten Ausschnitten aus der bestmöglichen Ausgangsdatei gearbeitet werden:
- kleine Bildbereiche
- hohe effektive Auflösung
- eigener Hash
- dokumentierter Ursprung
- klarer Bezug zum Master
- keine unkontrollierte Verkleinerung
Statt eine große Seite unkontrolliert verkleinern zu lassen, erzeugt man gezielte Crops aus dem Master.
Das Modell bekommt dann weniger Fläche, aber mehr relevante Detailinformation.
Konsequenz für Handschriften und historische Dokumente
Bei historischen Handschriften ist diese Unterscheidung besonders wichtig.
Eine reduzierte Gesamtansicht kann für Layout, Seitenstruktur und grobe Orientierung nützlich sein.
Für paläographische Details ist sie häufig nicht ausreichend.
Besonders betroffen sind:
- einzelne Glyphen
- Minim-Cluster
- Kürzungszeichen
- Nasalstriche
- hochgestellte Buchstaben
- kleine Korrekturen
- Rasuren
- Randnotizen
- beschädigte oder verblasste Stellen
- diplomatische Lesungen
Eine diplomatische Lesung soll den konkreten sichtbaren Befund möglichst genau wiedergeben. Aus einer unkontrolliert reduzierten Bildfassung kann deshalb keine voll belastbare diplomatische Lesung entstehen.
Sie kann höchstens eine vorläufige, zu verifizierende Lesung liefern.
Der eigentliche Befund muss am geeigneten Bildinput überprüft werden.
Beispiel für eine sinnvolle Analyse-Matrix
Eine einfache Matrix kann festlegen, welche Analyseebene mit welcher Bildqualität erlaubt ist:
| Analyseebene | Abgeleitete Gesamtansicht | Skalierter Modellinput | Unbekannte Bildtreue |
|---|---|---|---|
| Layout / Seitenstruktur | erlaubt | erlaubt | mit Vorbehalt |
| Spalten / größere Zonen | erlaubt | erlaubt | mit Vorbehalt |
| Grobe Schriftwirkung | erlaubt | erlaubt | mit Vorbehalt |
| Glyphanalyse | nur an hochaufgelöstem Crop | nur an hochaufgelöstem Crop | gesperrt |
| Minim-Cluster | nur an hochaufgelöstem Crop | nur an hochaufgelöstem Crop | gesperrt |
| Kürzungszeichen | nur an hochaufgelöstem Crop | nur an hochaufgelöstem Crop | gesperrt |
| Diplomatische Lesung | nicht ausreichend | nicht ausreichend | gesperrt |
Diese Matrix verhindert nicht die Analyse.
Sie verhindert nur, dass ein Befund mehr Genauigkeit behauptet, als der Input hergibt.
Besserer Workflow für KI-gestützte Bildanalyse
Für sensible Bildanalysen empfiehlt sich ein kontrollierter Workflow:
- Original oder Masterdatei speichern
- SHA-256-Hash berechnen
- technische Metadaten erfassen
- Arbeitskopien kontrolliert erzeugen
- Crops oder Segmente gezielt aus dem Master ableiten
- jede Ableitung separat speichern und hashen
- Modell nur mit dokumentierten Inputs arbeiten lassen
- Ergebnis immer mit dem konkreten Input verknüpfen
- unsichere Stellen an höher aufgelösten Crops verifizieren
- Analyseebene an Bildqualität koppeln
So bleibt nachvollziehbar:
- Welche Datei wurde analysiert?
- War es das Original?
- War es ein Ausschnitt?
- Wurde es skaliert?
- Wurde es komprimiert?
- Welche Bildqualität lag dem Modell vor?
- Welche Aussagen sind damit belastbar?
- Welche Aussagen müssen gesperrt oder verifiziert werden?
Fazit
Bildskalierung ist kein Nebenthema.
Sie entscheidet darüber, worauf eine KI-Analyse tatsächlich basiert.
Ein KI-Modell sieht nicht automatisch das Originalbild. Es sieht den Input, der ihm technisch übergeben und intern verarbeitet wurde.
Wenn dieser Input skaliert, komprimiert, zugeschnitten oder anderweitig verändert wurde, muss das dokumentiert werden.
Für grobe Analysen ist das oft unproblematisch.
Für detailkritische Aufgaben ist es zentral.
Die entscheidende Frage lautet daher nicht nur:
Was erkennt die KI?
Sondern vorher:
Welche Bildfassung hat die KI überhaupt gesehen?
Erst wenn diese Frage beantwortet ist, kann eine KI-gestützte Bildanalyse nachvollziehbar, überprüfbar und belastbar sein.
Der Modellinput ist nicht automatisch die Quelle.
Und genau diese Unterscheidung ist die Voraussetzung für seriöse Arbeit mit KI-Bildanalyse.
Häufige Fragen
Warum ist der Modellinput nicht automatisch die Quelle?
Weil ein KI-System häufig eine technisch vorbereitete Bildfassung verarbeitet, etwa eine skalierte, komprimierte oder zugeschnittene Version der Ausgangsdatei.
Projektkontext
Dieser Beitrag gehört zum methodischen Aufbau von HistoriaMP. Mehr zur Positionierung, zu den Grenzen und zum Kontaktweg steht auf der Projektseite.
Warum ist Bildskalierung bei historischen Handschriften kritisch?
Weil kleine Zeichen, Kürzungsstriche, Punkte, Rasuren und feine Kontraste bei Skalierung geglättet oder verändert werden können.
Projektkontext
Dieser Beitrag gehört zum methodischen Aufbau von HistoriaMP. Mehr zur Positionierung, zu den Grenzen und zum Kontaktweg steht auf der Projektseite.
Was sollte dokumentiert werden?
Mindestens Dateiname, Bildgröße, Dateiformat, Hash, Bearbeitungsschritte, verwendetes Modell und die tatsächlich analysierte Bildfassung.
Projektkontext
Dieser Beitrag gehört zum methodischen Aufbau von HistoriaMP. Mehr zur Positionierung, zu den Grenzen und zum Kontaktweg steht auf der Projektseite.
Projektkontext
Dieser Beitrag gehört zum methodischen Aufbau von HistoriaMP. Mehr zur Positionierung, zu den Grenzen und zum Kontaktweg steht auf der Projektseite.
