Der Termin entfällt und wird voraussichtlich im Sommersemester 2024 nachgeholt.
Do 01.02., 14-16 Uhr, Grimm-Zentrum, Auditorium
Topic Modeling ist eine in den digitalen Geistes- und Geschichtswissenschaften etablierte Methode zur Exploration und quantitativen Analyse umfangreicher Textkorpora. Sie ermöglicht die automatisierte Identifikation gemeinsamer Sprachgebrauchsmuster, die wie Themen, Motive oder Diskurse interpretiert werden können. Allerdings gehen mit Topic Modeling auch einige methodologische und epistemologische Herausforderungen einher. Vor diesem Hintergrund wird der Vortrag aus geschichtswissenschaftlicher und methodenkritischer Perspektive die Potenziale und Grenzen von Topic Modeling diskutieren und einen Workflow vorschlagen. Dazu wird einerseits in die Grundprinzipien der Methode eingeführt und die Entwicklungsgeschichte skizziert sowie andererseits ein Überblick über den aktuellen Entwicklungsstand gegeben. Betont wird zudem die Relevanz des Preprocessings der Textdaten sowie die kritische Beurteilung der Modellierungsergebnisse.
Melanie Althage ist wissenschaftliche Mitarbeiterin an der Professur für Digital History (Institut für Geschichtswissenschaften, Humboldt-Universität zu Berlin). In ihrem Dissertationsprojekt widmet sie sich der methodenkritischen Untersuchung der Adaptierbarkeit etablierter Textanalysemethoden der Digital Humanities und Computerwissenschaften für historische Quellen und Forschungsfragen am Beispiel der digitalen historischen Fachkommunikation. Ziel ist dabei die Etablierung einer Methodenkritik als Erweiterung der historisch-kritischen Methode der Geschichtswissenschaften.
Der Vortrag ist Teil der Reihe „Werkzeug. Zur Praxis computergestützter Forschung in den Geistes- und Kulturwissenschaften“.
Do 18.01., 14-16 Uhr, Grimm-Zentrum, Auditorium
Zitate sind ein wichtiges Indiz für intertextuelle Verhältnisse. Insbesondere direkte, wörtliche Übernahmen weisen auf Stellen hin, die so bedeutend sind, dass sie nicht in ‘eigenen Worten’ wiedergegeben werden können oder durch eigene Worte ersetzt werden sollen. In unseren Projekten zur Identifikation von “Schlüsselstellen” sowie zur (Nach-)Nutzung vorhandenen Expert*innenwissens in den Computational Literary Studies haben wir Verfahren zur Text-Reuse-Detection entwickelt, die sich insbesondere auf die bislang systematisch ungeklärte Beziehung von Quellen und wissenschaftlichen Texten konzentrieren, aber auch andere Formen von Intertextualität erfassen.
Steffen Martus ist Professor für Neuere deutsche Literatur am Institut für deutsche Literatur der Humboldt–Universität zu Berlin. Seine Forschungsschwerpunkte liegen in der Literaturgeschichte vom 18. Jahrhundert bis zur Gegenwart, in der Literaturtheorie (insbesondere Theorien des literarischen Werks) sowie der Wissenschaftstheorie und -geschichte der Geisteswissenschaften. Im Rahmen des DFG-Schwerpunktprogramms 2207 Computational Literary Studies leitet er gemeinsam mit Rober Jäschke ein Projekt zu Schlüsselstellen in der Literatur (2020-2026). Gemeinsam mit Jörn Kreutel (Berliner Hochschule für Technik) leitet er das DFG-Projekt „Forschungsplattform Literarisches Feld DDR: Autor*innen, Werke, Netzwerke“.
Robert Jäschke ist Professor für Information Processing and Analytics am Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin. Sein Forschungsschwerpunkt sind Verfahren (vorrangig des maschinellen Lernens) zur Verarbeitung und Analyse großer Datenmengen. Beispielsweise erforscht er im DFG-Projekt Unknown Data (2022-2025) Verfahren zum Finden und Katalogisieren von Long-Tail-Forschungsdaten der Informatik und der Sozialwissenschaften. Im Rahmen des DFG-Schwerpunktprogramms 2207 Computational Literary Studies leitet er gemeinsam mit Steffen Martus ein Projekt zu Schlüsselstellen in der Literatur (2020-2026). Robert Jäschke ist Mitbegründer des Social-Bookmarking-Dienstes BibSonomy und Gründer und Mitherausgeber des Blogs weltliteratur.net, einem „Schwarzmarkt für die Digitalen Geisteswissenschaften“.
Frederik Arnold ist akademischer Mitarbeiter am Lehrstuhl für Information Processing and Analytics am Institut für Bibliotheks- und Informationswissenschaft. Er forscht im Rahmen des DFG-Schwerpunktprogramms 2207 Computational Literary Studies zu Schlüsselstellen in der Literatur mit Fokus auf der automatisierten Entdeckung. Er hat seinen Master in Computerlinguistik an der Universität des Saarlandes erworben.
Der Vortrag ist Teil unserer „Werkzeug“-Reihe. Infos zur Reihe: https://hu.berlin/werkzeug.
Do 15.02., 14-16 Uhr, Grimm-Zentrum, Auditorium
Texterkennung (Optical Character Recognition, OCR) ist die Technologie um aus Scans (also Bildern) von Dokumenten digitale, editierbare und durchsuchbare Volltexte zu erzeugen. Sowohl durch Digital Humanities als auch Künstliche Intelligenz steigt der Bedarf von Wissenschaft und Forschung an digitalen Texten. Jedoch ist die Texterkennung, insbesondere für historische Dokumente, noch stets eine sowohl technisch als auch organisatorisch hoch komplexe Aufgabe. Der Vortrag hat daher zum Ziel die Grundlagen, technischen Verfahren und den aktuellen Stand der Entwicklungen im Bereich der OCR vorzustellen um so einen gründlichen Überblick über die Möglichkeiten und Herausforderungen zu geben. Dabei werden neben Ursprung und Geschichte der OCR insbesondere die vielfältigen Verarbeitungsschritte in einem typischen OCR-Workflow, die besonderen Anforderungen von historischem Material sowie aktuelle Forschungsprojekte und technologische Entwicklungen im Zentrum stehen.
Clemens Neudecker arbeitet als Forscher, Projektmanager und Library Hacker an der Staatsbibliothek zu Berlin. Er ist dort unter anderem eingebunden in das umfangreiche Verbundprojekt OCR-D. Seine Arbeitsschwerpunkte sind Computer Vision, Natural Language Processing, Machine Learning & Artificial Intelligence und ihr Einsatz in den Bereichen Digitale Bibliotheken und Digital Humanities.
Der Vortrag ist Teil unserer „Werkzeug“-Reihe. Infos zur Reihe: https://hu.berlin/werkzeug.
Mi 20.12., 14-16 Uhr, Grimm-Zentrum, Auditorium
Vortrag und Gespräch auf englisch.
This talk is about the science of visualizing networks. Although the field of graph drawing, as we call it, has no shortage of theoretical contributions, those have always followed practices; and with a sensible delay. Mathieu Jacomy, co-founder of the network visualization tool Gephi, will sketch the double story of the craftsmanship and the academic evaluation of representing networks as dots and lines, from Jacob Moreno’s sociograms, to Peter Eades‘ first force-driven layout algorithms, to Helen Purchase’s aesthetic criteria, and finally to the data deluge and the availability of large complex networks, paving the way to network science. This story will show how practices shape cultures in ways that escape the control of academics, at once bad and good, uninformed yet innovative, unjustified yet meaningful. Reading a large complex network is not the same as a small diagram, and the talk will provide illustrations of the ideas that had to be left behind to properly frame graph drawing as a mediation driven by technology. Which will also help you read large network maps properly.
Mathieu Jacomy is Doctor of Techno-Anthropology and assistant professor at the Aalborg University Tantlab, and MASSHINE center. He was a research engineer for 10 years at the Sciences Po médialab in Paris, and is a co-founder of Gephi, a popular network visualization tool. He develops digital instruments involving data visualization and network analysis for the social science and humanities. His current research focuses on visual network analysis, digital controversy mapping, and computational social science. He toots at @jacomyma@mas.to and blogs at reticular.hypotheses.org.
Der Vortrag ist Teil der Reihe „Werkzeug. Zur Praxis computergestützter Forschung in den Geistes- und Kulturwissenschaften“. Weitere Termine der Reihe: https://hu.berlin/werkzeug.
Bild oben: Netzwerk mit 1000 Knoten und sichtbaren Clustern, mit Gephi erstellt. Martin Grandjean, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons, https://commons.wikimedia.org/wiki/File:Social_Network_Visualization.png.
Termin: 26.01.2024, 9-15 Uhr
Ort: Humboldt-Universität, Hauptgebäude UdL 6
Anmeldung: bis 25.01.2024 per Email an ub.makerspace@hu-berlin.de
OCR (Optical Character Recognition) und HTR (Handwritten Text Recognition) stellen in den Geistes- und Kulturwissenschaften nach wie vor eine Herausforderung dar. OCR4all bietet allen Nutzer:innen eine frei verfügbare und einfach zu bedienende Möglichkeit, eigene OCR/HTR-Workflows durchzuführen. Dieser Workshop wird die allgemeinen Grundlagen und Konzepte von OCR vorstellen sowie in die Software OCR4all einführen.
Im Rahmen des Workshops wird weiterhin geklärt werden, welche Daten und Dateitypen für OCR erforderlich sind, wie sich je nach Ausgangsmaterial die Anwendung des in OCR4all integrierten OCR- bzw. HTR-Workflows verändert, mit welchem (manuellen) Aufwand zu rechnen ist und inwiefern sich der Workflow automatisieren lässt. Zusätzlich wird thematisiert, was Modelle sind, wie diese eigenständig trainiert werden können und welche Erkennungsgenauigkeiten zu erwarten sind.
Nach Abschluss des Workshops, werden alle Teilnehmer:innen in der Lage sein, selbstständig komplexe OCR/HTR-Projekte zu bearbeiten.
Arbeitsmaterial und Beispieltexte verschiedener Epochen und Zeichensystemen wird zur Verfügung gestellt. Für eine Teilnahme ist keinerlei Vorwissen notwendig.
Der Workshop wird durchgeführt vom Entwicklungs- und Support-Team von OCR4all in Zusammenarbeit mit der Kompetenzwerkstatt Digital Humanities.
Veranstaltungshinweis: Passend zum Workshop findet am 15.02.2024 im Rahmen unserer Werkzeug-Reihe ein Vortrag zum Thema OCR statt, der sich unter anderem mit einigen erkenntnispraktischen und -theoretischen Konsequenzen beschäftigt, die der Einsatz von OCR und die Arbeit mit OCR-Ergebnissen mit sich bringt. Der Vortrag geht auch auf die OCR-Technologien ein, die im Rahmen des Langzeitprojekts OCR-D entwickelt werden und die auch in der Software OCR4all Verwendung finden.
Das Bild oben zeigt Beispiele aus der MNIST-Datenbank, die fürs Training von OCR-Software verwendet wird. Bild: Josef Steppan, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons (bearbeitet).