Springen Sie zum Katalogsuchfeld Springen Sie zum Website-Suchfeld Springen Sie zur Seite mit Informationen zur Barrierearmut Springen Sie zum Inhalt

gefördert durch

ESF (Europäischer Sozialfonds)
Freistaat Sachsen

Laufzeit

2013–2014

Projektbeteiligte

Leiter:
Prof. Ulrich Johannes Schneider

Leiter Kooperationspartner:
Prof. Dr. Gerhard Heyer (ASV)
Prof. Dr. Gerik Scheuermann (BSV)

Projektkoordination:
André Lahmann
Dirk Goldhahn

Beteiligte:
Constantijn Blondel
Dirk Goldhahn
Steffen Köhler
Uwe Kretschmar
Nico Kunze
André Lahmann
Sören Laube
Martin Reckziegel
Rico Simke
Christoph Teichmann
Jochen Tiepmar

Kontakt

Mail: billionwords@ub.uni-leipzig.de

Die Bibliothek der Milliarden Wörter

ESF-Nachwuchsforschergruppen-Projekt in Kooperation mit der Abteilung Automatische Sprachverarbeitung (ASV) und der Abteilung Bild- und Signalverarbeitung des Instituts für Informatik (BSV)

Genauso wie Bücher die Grundlage für traditionelle geistes­wissen­schaftliche Arbeit sind, werden im Forschungsgebiet der Digitalen Geisteswissenschaften (Digital Humanities) Text-Datenbanken benötigt. Gedruckte Texte sind leicht zugänglich, nicht zuletzt durch Bibliotheken wird der Zugang gewährleistet. Das Angebot an digitalen Textformaten hingegen ist stark heterogen und erschwert so die Nutzung. Die Nachwuchsforscher im Projekt "Die Bibliothek der Milliarden Wörter" entwickeln einen Prozeß mit dem sowohl neue als auch alte Werke als Volltext nachhaltig verfügbar gemacht werden sollen. Hierbei steht die Nutzung von bereits existierenden Open-Source-Softwarelösungen, sowie etablierte Daten-Standards im Vordergrund. Die Bibliothek soll als Lieferant für qualitativ hochwertige Texte, und weiter ihrer atomaren Bestandteile, Wörtern, gedacht und entworfen werden - die Bibliothek der Milliarden Wörter.

Konkret werden gedruckt vorliegende Texte aus Digitalisaten mittels OCR-Verfahren in das Datenformat hOCR überführt und anschließend in XML-TEI Volltexte transformiert. Die strukturierten Volltexte werden über CTS (Canonical Text Service) zur Verfügung gestellt. Um Nutzern einen strukturierten Zugang zu den digitalisierten Texten zu gewährleisten, werden bibliographische Beziehungen zwischen den digitalisierten Werken semi-automatisch ermittelt und mittels eines darauf optimierten Kataloges zur Verfügung gestellt. Zur Verdeutlichung von Beziehungen zwischen den Werken und den auf ihnen ausgeführten Operationen werden bildgebende Verfahren entwickelt, die den Nutzer bei der Arbeit mit den digitalen Volltexten unterstützen sollen.
Digital vorliegende Texte sollen mittels eines Redaktionstools effektiver verwaltet und für die Nachnutzung im Kontext Digitaler Geistes­wissen­schaften aufbereitet werden. Ziel ist es, den ForscherInnen an der Universität Leipzig mit dem Redaktionstool sinnvolle Unterstützung im akademischen Publikationsalltag zu bieten und ihre Publikationen bestmöglich nachnutzbar zu halten.