Archiv für Schlagwort OCR

[Vortrag] Clemens Neudecker (Staatsbibliothek zu Berlin): Wie funktioniert OCR? Grundlagen, Stand der Technik und aktuelle Herausforderungen.

Do 15.02., 14-16 Uhr, Grimm-Zentrum, Auditorium

Texterkennung (Optical Character Recognition, OCR) ist die Technologie um aus Scans (also Bildern) von Dokumenten digitale, editierbare und durchsuchbare Volltexte zu erzeugen. Sowohl durch Digital Humanities als auch Künstliche Intelligenz steigt der Bedarf von Wissenschaft und Forschung an digitalen Texten. Jedoch ist die Texterkennung, insbesondere für historische Dokumente, noch stets eine sowohl technisch als auch organisatorisch hoch komplexe Aufgabe. Der Vortrag hat daher zum Ziel die Grundlagen, technischen Verfahren und den aktuellen Stand der Entwicklungen im Bereich der OCR vorzustellen um so einen gründlichen Überblick über die Möglichkeiten und Herausforderungen zu geben. Dabei werden neben Ursprung und Geschichte der OCR insbesondere die vielfältigen Verarbeitungsschritte in einem typischen OCR-Workflow, die besonderen Anforderungen von historischem Material sowie aktuelle Forschungsprojekte und technologische Entwicklungen im Zentrum stehen.

Clemens Neudecker arbeitet als Forscher, Projektmanager und Library Hacker an der Staatsbibliothek zu Berlin. Er ist dort unter anderem eingebunden in das umfangreiche Verbundprojekt OCR-D. Seine Arbeitsschwerpunkte sind Computer Vision, Natural Language Processing, Machine Learning & Artificial Intelligence und ihr Einsatz in den Bereichen Digitale Bibliotheken und Digital Humanities.

Der Vortrag ist Teil unserer „Werkzeug“-Reihe. Infos zur Reihe: https://hu.berlin/werkzeug.


4. Januar 2024 | Veröffentlicht von Claus-Michael
Veröffentlicht unter Allgemein, Termine, Veranstaltung
A Matrix with numbers from 0 to 1, Examples from the MNIST Database.

[Workshop] Automatische Texterkennung von Drucken und Handschriften mit OCR4all


Termin: 26.01.2024, 9-15 Uhr

Ort: Humboldt-Universität, Hauptgebäude UdL 6

Anmeldung: bis 25.01.2024 per Email an ub.makerspace@hu-berlin.de

OCR (Optical Character Recognition) und HTR (Handwritten Text Recognition) stellen in den Geistes- und Kulturwissenschaften nach wie vor eine Herausforderung dar. OCR4all bietet allen Nutzer:innen eine frei verfügbare und einfach zu bedienende Möglichkeit, eigene OCR/HTR-Workflows durchzuführen. Dieser Workshop wird die allgemeinen Grundlagen und Konzepte von OCR vorstellen sowie in die Software OCR4all einführen.

Im Rahmen des Workshops wird weiterhin geklärt werden, welche Daten und Dateitypen für OCR erforderlich sind, wie sich je nach Ausgangsmaterial die Anwendung des in OCR4all integrierten OCR- bzw. HTR-Workflows verändert, mit welchem (manuellen) Aufwand zu rechnen ist und inwiefern sich der Workflow automatisieren lässt. Zusätzlich wird thematisiert, was Modelle sind, wie diese eigenständig trainiert werden können und welche Erkennungsgenauigkeiten zu erwarten sind.
Nach Abschluss des Workshops, werden alle Teilnehmer:innen in der Lage sein, selbstständig komplexe OCR/HTR-Projekte zu bearbeiten.

Arbeitsmaterial und Beispieltexte verschiedener Epochen und Zeichensystemen wird zur Verfügung gestellt. Für eine Teilnahme ist keinerlei Vorwissen notwendig.

Der Workshop wird durchgeführt vom Entwicklungs- und Support-Team von OCR4all in Zusammenarbeit mit der Kompetenzwerkstatt Digital Humanities.

Veranstaltungshinweis: Passend zum Workshop findet am 15.02.2024 im Rahmen unserer Werkzeug-Reihe ein Vortrag zum Thema OCR statt, der sich unter anderem mit einigen erkenntnispraktischen und -theoretischen Konsequenzen beschäftigt, die der Einsatz von OCR und die Arbeit mit OCR-Ergebnissen mit sich bringt. Der Vortrag geht auch auf die OCR-Technologien ein, die im Rahmen des Langzeitprojekts OCR-D entwickelt werden und die auch in der Software OCR4all Verwendung finden.

Das Bild oben zeigt Beispiele aus der MNIST-Datenbank, die fürs Training von OCR-Software verwendet wird. Bild: Josef Steppan, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons (bearbeitet).


18. November 2023 | Veröffentlicht von Claus-Michael
Veröffentlicht unter Allgemein, Termine, Veranstaltung
Verschlagwortet mit , , ,