11/25: OCR-Pipeline für historische Zeitschriften verfügbar

Eine OCR-Pipeline für die Stapelverarbeitung gescannter historischer Zeitschriften ist auf Zenodo verfügbar und unter MIT-Lizenz zur Nachnutzung freigegeben.

Die Pipeline nutzt die Vision-API von Mistral AI und wurde für die Anforderungen historischer Druckerzeugnisse entwickelt. Sie bietet strukturierte Markdown-Ausgabe mit Erhalt des Dokumentlayouts, automatische Teilung großer PDF-Dateien sowie ein Checkpoint-System für unterbrechungssichere Verarbeitung. Mehrere Ausgabeformate (Markdown, Plain Text, JSON) werden unterstützt. Die Verarbeitung erfolgt über europäische Server mit Zero Data Retention und DSGVO-Konformität.

Das Tool wurde im Rahmen von Forschungsarbeiten zu DDR-Zeitschriften entwickelt und eignet sich für historische Zeitschriften und andere periodische Publikationen. Die Dokumentation umfasst Installationsanleitung, Systemarchitektur und Details zum Prompt Engineering.

DOI: 10.5281/zenodo.17631912
Repository: github.com/ma-wi-lo/pubs
Autor: Marco Lorenz

17. November 2025 | Veröffentlicht von m_lorenz
Veröffentlicht unter Allgemein

Schreiben Sie einen Kommentar

(erforderlich)