Archivo de texto alemán

El Archivo de Texto Alemán (DTA) ha sido un archivo de texto digital científico en la Academia de Ciencias y Humanidades de Berlín-Brandenburgo desde julio de 2007 y financiado por la Fundación de Investigación Alemana . El Archivo de Texto Alemán se ha propuesto la tarea de digitalizar una selección interdisciplinaria de textos en lengua alemana de alrededor de 1600 a 1900 sobre la base de las primeras ediciones y ponerlos a disposición en Internet como un corpus de texto completo anotado lingüísticamente.

Estructura y estructura del archivo

El objetivo declarado del Archivo de Texto Alemán es proporcionar al usuario una selección representativa e interdisciplinaria de textos digitalizados en alemán. Además de las obras literarias canónicas, la concepción del Archivo de Texto Alemán hace hincapié en los textos menos conocidos y, en particular, no literarios. Para garantizar una selección representativa de las obras, el Archivo de Texto Alemán utiliza su propia lista de selección basada en bibliografías. El archivo también contendrá una gran parte del corpus de texto del diccionario alemán ("diccionario de Grimm"), que también se encuentra en la academia . En un paso final, se pidió a los miembros interdisciplinarios de la Academia de Ciencias y Humanidades de Berlín-Brandenburgo que evaluaran la lista que ahora se había elaborado y que sugirieran trabajos faltantes desde su perspectiva profesional.

Bajo la dirección del psicolingüista alemán Wolfgang Klein , un equipo interdisciplinario de científicos del libro y de la información , germanistas , lingüistas informáticos e informáticos , así como varios estudiantes asistentes, trabajan en el Archivo de Texto Alemán para establecer y mantener los fondos .

realización técnica

A la hora de digitalizar los fondos, la DTA colabora con numerosas instituciones científicas y bibliotecas, que ponen a disposición para su digitalización las copias correspondientes de sus fondos. Desde el inicio del inventario se han realizado alrededor de 600.000 imágenes digitales con un volumen total de datos de casi diez terabytes. Estas copias digitales forman la base para la creación de los textos completos. Dependiendo de la calidad y complejidad de las plantillas, los textos se graban y corrigen mediante un software de reconocimiento de texto (OCR) desarrollado internamente o un socio externo los graba mediante el proceso de doble codificación . En un paso final, los textos se indexan lingüísticamente utilizando ayudas lingüísticas informáticas.

Los textos están disponibles para su descarga tanto en formato HTML como en formato TEI-P5 . Aunque se trata de textos de dominio público que se pueden utilizar libremente y son puras transcripciones, la licencia de los textos completos bajo la licencia CC-BY-NC , que excluye el uso comercial , sugiere la existencia de derechos de autor (ver Copyfraud ).

Perspectivas

Para una fase posterior del proyecto, el Archivo de Texto Alemán ha decidido convertir los fondos en un archivo activo. La selección de texto privado, la configuración de marcadores persistentes en pasajes de texto y la adición de anotaciones deberían ser posibles para el usuario. Si el personal y los requisitos técnicos están disponibles en el futuro, el objetivo ha sido otorgar a los usuarios registrados el derecho a integrar textos en el DTA de forma independiente sobre la base de las directrices del archivo.

Además de los estudios lingüísticos y literarios, la digitalización en el Archivo de Texto Alemán también abre perspectivas de investigación sobre los estudios del libro y la comunicación, como la investigación sobre la historia de la tipografía y la publicación.

enlaces web