Une fois recueillies sur le terrain, les données audio ou vidéo ne sont pas directement exploitables : elles doivent subir une série d’opérations qui en font des objets d’analyse et permettent leur traitement notamment informatique. Les corpus de données interactionnelles ainsi constitués jouent un rôle essentiel pour la description du français parlé en interaction, et pour la linguistique interactionnelle d’un façon générale. Les corpus dont bien autre chose que des réservoirs d’attestations, à l’aide desquelles on illustre les phénomènes et catégories construits théoriquement ; ils sont la source des théorisations et des formalisations. Les corpus pour l’analyse d’interaction ont amplement évolué au cours des dernières décennies, qualitativement, quantitativement et quant à leur nature. (Traverso, 2016). Il convient alors pour le chercheur en Linguistique Interactionnelle de s’attacher à numériser, monter, anonymiser, transcrire, aligner et convertir avec soin les données interactionnelles du corpus d’étude qu’il cherche à confectionner.
1. La numérisation
Afin de pouvoir être lues, transcrites, annotées et alignées, les données primaires doivent être numérisées dans des formats informatiques adaptés à leur exploitation et à leur stockage.
2. Le montage
Le corpus de données interactionnelles peut être constitué de plusieurs angles de vue de l’interaction et plusieurs sources audios qui doivent faire sens et pour faire sens être triées, organisées, montées, synchronisées, mises en relation. Un montage multiscope au moyen de logiciels de traitement vidéo permet alors de mettre en regard les vues sur un même écran afin d’apprécier l’écologie globale de l’interaction ou au contraire porter l’attention sur un phénomène spécifique au grès des angles et objets de recherche.
3. L’anonymisation
Elle vise à effacer ou à remplacer les informations qui pourraient permettre d’identifier les locuteurs enregistrés dans les données primaires comme dans les données secondaires. L’anonymisation est une opération délicate, régie par des principes qui permettent à la fois de respecter le droit de la personne et de préserver l’objet d’étude.
4. La transcription
Les informations accessibles dans les données primaires sont représentées sous forme de notations textuelles, rendant compte notamment de la temporalité des phénomènes. Cette opération, régie par différents principes et conventions, est essentielle dans la mesure où les requêtes automatisées sont aujourd’hui effectuées à partir de la transcription alignée avec le signal audio/vidéo.
5. L’alignement
La transcription ne saurait avoir de sens indépendamment de sa source, le signal. Cette relation étroite entre la donnée primaire et la donnée secondaire est garantie par l’alignement du texte et du signal, à l’aide de balises temporelles.
6. La conversion
La question de compatibilité et d’interopérabilité des formats est centrale pour les opérations successivement effectuées sur les corpus. Ces opérations nécessitent l’utilisation de différents logiciels qui souvent ont leur propre format, ce qui rend les conversions indispensables.