Objectif
La numérisation des données primaires et secondaires d’un corpus permet d’en assurer la conservation et l’exploitation. Cette étape est particulièrement importante pour les corpus anciens dont les divers éléments sont souvent conservés sur des supports obsolètes et menacés de destruction. Elle est également indispensable pour l’exploitation des corpus contemporains, puisque la numérisation permet de les traiter avec des logiciels de lecture, d’alignement et d’interrogation performants.
Principes et solutions
La numérisation des différents éléments d’un corpus doit respecter le plus fidèlement possible les originaux, car les données numérisées deviendront les futurs masters. En outre, pour les analyses que ces données rendront ensuite possibles, il est important de veiller au maintien de la qualité des données originales non digitales, que ce soit lors des phases de numérisation ou de compression.
Alors que la plupart des transcriptions récentes et leurs conventions sont informatisées (Microsoft Word TM, Praat, CLAN…), les plus anciennes peuvent être manuscrites ou dactylographiées (transcriptions tapées à la machine ou transcriptions publiées et dont les originaux sont perdus). Ces données sont alors numérisées sous forme d’image, l’original étant conservé par la médiathèque.
De même, de nombreuses données primaires (photos, données manuscrites, ouvrages utilisés pendant l’interaction…) ou secondaires (notes du collecteur…) peuvent être numérisées sous forme d’image, aux formats BMP et PICT. Dans certains cas, une partie seulement des documents est numérisée (par exemple quelques copies d’élèves), le reste étant stocké dans la médiathèque.
Les enregistrements en format original les plus anciens posent des problèmes de pérennité (dégradation du support, lecture impossible faute de matériel) qui obligent à les transférer sur des supports plus contemporains.
Les enregistrements considérés comme masters/originaux ne subissent pas de coupures, ni de montage, selon le double principe de respect de l’original et de conservation de l’enregistrement le plus continu possible d’une interaction (qui font éviter le morcellement en clips ou en extraits discontinus).
Les formats des données informatiques ont été choisis (voir conversion) pour assurer la compatibilité la plus grande avec les lecteurs et les outils d’exploitation existants.
Enregistrements audio : le format de stockage dans la médiathèque est .WAV. Les données audio mises en ligne sont au format .mp3 pour minimiser le poids des fichier et faciliter leurs accès (par streaming ou par téléchargement).
Enregistrements video : les données vidéo originales sont conservées sous forme de cassettes DV ou sous la forme de fichiers DV-natifs lorsqu’elles ont été capturées directement sur disque dur. Diverses compressions sont effectuées, afin de stocker des fichiers de qualité et de poids différents, répondant à différentes exigences d’analyse et de traitement. Le format adopté est généralement Quicktime (.MOV) ou AVI (Audio Video Interleave)
Pour plus d’informations sur la numérisation et la compression des données, consultez le documents suivants :
Acquisition et la compression des données vidéo (Présentation Powerpoint)
Tableau comparatif des algorithmes de compression
Les formats de l’audio et de la video déposés dans CLAPI vont dépendre du lieu définitif d’hébergement de la base et du mode de streaming (lecture des fichiers audio/video en ligne) utilisé par l’hébergeur. Les données primaires ou secondaires numérisées déposées dans CLAPI et pouvant être téléchargées sont anonymisées ; par contre une version sans anonymisation est conservée dans la médiathèque.