OCR4all libraries

Volltexterkennung historischer Sammlungen

Das Kooperationsprojekt zwischen der Forschungsbibliothek des Leibniz-Instituts für Bildungsmedien | Georg-Eckert-Institut (GEI), dem Würzburger Zentrum für Philologie und Digitalität „Kallimachos“ (ZPD) und dem Lehrstuhl Human-Computer Interaction (HCI) an der Universität Würzburg wird im Rahmen der DFG-Förderinitiative „Implementierung der OCR-D-Software zur Volltextdigitalisierung“ (OCR-D) gefördert. Im Projekt fungiert die Forschungsbibliothek des GEI mit ihren digitalisierten Schulbüchern des 17. und 18. Jahrhunderts als Use Case. Der digitale Bestand weist erhebliche Unterschiede in der OCR-Qualität auf, auch weil ein komplexes Layout und uneinheitliche Typographien noch immer große Hürden für eine hochwertige Volltexterkennung darstellen.

Um die OCR-Qualität gezielt zu verbessern, wird im Projekt ein generisch anwendbares Verfahren implementiert, das eine nach Sammlungen mit jeweils ähnlicher Materialgrundlage organisierte Volltexterkennung erlaubt. Die vom ZPD auf Open-Source-Basis entwickelte Software OCR4all kombiniert verschiedene Optical-Charakter-Recognition-Lösungen zu einem einheitlichen Workflow. Die Bedienung erfolgt über eine grafische Nutzeroberfläche, so dass auch weniger technisch versierte Nutzer*innen eine selbstständige und hochqualitative Erfassung anspruchsvoller Materialien durchführen können. Um zunehmende Komplexitäten der so entstehenden OCR-Lösung nutzerorientiert aufzufangen, wird die grafische Benutzerschnittstelle in enger Kooperation und unter Anleitung der HCI angepasst und weiterentwickelt.

  • Publikationen
    • Anke Hertling, Sebastian Klaes (2022): Volltexterkennung für die Forschung: OCR partizipativ, iterativ und on demand. In: o-bib. Das offene Bibliotheksjournal. (in Vorb.)

Projektteam

sroll-to-top