Archiv für November 2025

11/25: OCR-Pipeline für historische Zeitschriften verfügbar

Eine OCR-Pipeline für die Stapelverarbeitung gescannter historischer Zeitschriften ist auf Zenodo verfügbar und unter MIT-Lizenz zur Nachnutzung freigegeben.

Die Pipeline nutzt die Vision-API von Mistral AI und wurde für die Anforderungen historischer Druckerzeugnisse entwickelt. Sie bietet strukturierte Markdown-Ausgabe mit Erhalt des Dokumentlayouts, automatische Teilung großer PDF-Dateien sowie ein Checkpoint-System für unterbrechungssichere Verarbeitung. Mehrere Ausgabeformate (Markdown, Plain Text, JSON) werden unterstützt. Die Verarbeitung erfolgt über europäische Server mit Zero Data Retention und DSGVO-Konformität.

Das Tool wurde im Rahmen von Forschungsarbeiten zu DDR-Zeitschriften entwickelt und eignet sich für historische Zeitschriften und andere periodische Publikationen. Die Dokumentation umfasst Installationsanleitung, Systemarchitektur und Details zum Prompt Engineering.

DOI: 10.5281/zenodo.17631912
Repository: github.com/ma-wi-lo/pubs
Autor: Marco Lorenz

17. November 2025 | Veröffentlicht von m_lorenz | Kein Kommentar »
Veröffentlicht unter Allgemein

11/25: Bildungshistorisches Kolloquium

Marco Lorenz präsentierte am 14. November im gemeinsamen Kolloquium des Zentrums für Schulgeschichte der Pädagogischen Hochschule Zürich, der Bibliothek für Bildungsgeschichtliche Forschung des DIPF und der Historischen Bildungsforschung an der Ruhr-Universität Bochum einen Werkstattbericht zu spezialisierten KI-Tools.

14. November 2025 | Veröffentlicht von m_lorenz | Kein Kommentar »
Veröffentlicht unter Veranstaltung, Vortrag