Le recueil de données, la constitution du corpus, le recours à des outils de traitement et analyse des données constituent désormais une part cruciale de l’activité scientifique des chercheur.e.s en Sciences Humaines et Sociales. La constitution et l’annotation des corpus oraux se révèlent particulièrement complexes et longues à réaliser, il apparaît donc judicieux de rendre disponibles de telles données à la communauté scientifique pour permettre à d’autres chercheurs de les réutiliser pour différentes études.
La réutilisation des corpus oraux nécessite de bien les documenter par un jeu de métadonnées adapté à la recherche, de délivrer les enregistrements (audio ou vidéo) et les annotations (transcriptions, annotations automatiques, …) dans un format facilement réutilisable sans avoir besoin de connaître de logiciels spécifiques, de choisir une licence de diffusion largement utilisée dans la communauté et ne bloquant pas l’usage à une période donnée ou à une liste nominative de chercheurs ou d’équipes. Une fois ce travail effectué, la dernière étape consiste à déposer les métadonnées et les données dans une archive pérenne accessible à la communauté scientifique en France et à l’étranger.
Cette étape d’archivage des corpus oraux dans une infrastructure nationale est indispensable pour préserver le travail conséquent de constitution des corpus oraux même si les corpus sont hébergés par ailleurs dans une base de données du laboratoire ou d’un projet de recherche qui ne constitue pas une archive pérenne, les sites web locaux n’étant pas toujours accessibles quelques années après la fin d’un projet. L’archivage dans une infrastructure nationale garantit par ailleurs une meilleure visibilité des corpus en France et à l’étranger.
*****
Les infrastructures nationales
ORTOLANG : plateforme d’archivage des corpus de linguistique et des outils, Nancy
La France a proposé dès les années 2010 différentes solutions d’archivage pérenne pour les corpus de linguistique, dans un premier temps avec les centres de ressources Cocoon et SLDR, puis actuellement avec l’équipex ORTOLANG, un équipement d’excellence validé dans le cadre des investissements d’avenir, qui permet l’archivage des données de linguistique ainsi que des outils.
Les corpus archivés dans ORTOLANG ont vocation à être diffusés même s’ils peuvent dans un premier temps rester en accès restreint pour les besoins d’une thèse ou d’une publication. Le chercheur bénéficie d’un accompagnement personnalisé et de conseils pour l’aider à déposer ses données.
ORTOLANG est un service spécialisé pour la linguistique, complémentaire de l’offre générale proposée par Huma-Num dans les sciences humaines et sociales.
Huma-Num : ensemble de services en Sciences Humaines et Sociales, Paris et Lyon
Huma-Num (Très Grande Infrastructure de Recherche) en sciences humaines et sociales met à disposition de la communauté un ensemble de services pour le stockage, le traitement, l’exposition, le signalement, la diffusion et la conservation sur le long terme des données numériques de la recherche en sciences humaines et sociales. Le stockage des corpus oraux est réalisé dans Cocoon, COllections de COrpus Oraux Numériques, avant son archivage à long terme.
Huma-Num pilote des consortiums qui regroupent plusieurs unités et équipes de recherche autour de thématiques et d’objets communs pour lesquels ils définissent des procédures et standards numériques partagés (méthodes, outils, partages d’expériences).
CORLI : consortium CORpus Langues et Interactions, Paris
CORLI, consortium piloté par Huma-Num, fédère les équipes et laboratoires de recherche engagés dans la production et le traitement des corpus numériques écrits et oraux, quels que soient les langues et/ou les systèmes d’écriture, et a pour principaux objectifs :
- le recensement et la mutualisation des méthodes, des pratiques et des outils pour définir des procédures et des standards
- le développement et la valorisation des ressources existantes pour augmenter leur visibilité et faciliter leur réutilisation
- l’organisation de formations et d’ateliers
- l’aide à la finalisation de corpus
Il est organisé en groupes de travail auxquels chacun est invité à contribuer selon ses disponibilités et ses intérêts même pour des interventions ponctuelles.
*****
Les infrastructures européennes CLARIN et DARIAH
L’infrastructure européenne CLARIN (Common Language Resources and Technology Infrastructure) regroupe les ressources linguistiques et technologiques sur un large ensemble de langues. La France a actuellement le statut d’observateur et devra se prononcer en décembre 2021 pour décider si elle veut devenir membre de CLARIN.
Le consortium CORLI est devenu en 2020 une centre de ressources K de CLARIN.
L’infrastructure européenne DARIAH (Digital Research Infrastructure in the Arts and Humanities) soutient et développe la recherche dans toutes les disciplines des sciences humaines et sociales. La France est partenaire de cette infrastructure.
*****
Les plateformes des laboratoires et des projets de recherche : l’exemple de CLAPI
En parallèle des infrastructures nationales et européennes, des initiatives ont vu le jour dans les laboratoires depuis de nombreuses années pour permettre l’accès à leurs corpus. S’il est impossible de les citer de manière exhaustive, on peut nommer les ressources CLAPI, TCOF, ESLO, CFPP, VALIBEL, OFROM et plus récemment le projet ORFEO qui regroupe 3.5 millions de mots à l’oral issus d’une quinzaine de sources de données.
Nous allons détailler la plateforme CLAPI conçue et développée au laboratoire ICAR, qui est hébergée dans la plateforme nationale ORTOLANG.
CLAPI, Corpus de LAngue Parlée en Interaction, est une banque de données multimédia de corpus enregistrés en situation réelle, dans des contextes variés : interactions professionnelles ou privées, dans des commerces, en réunion, en consultation, en classe, collectées à l’endroit où elles se déroulent sans consigne ni intervention du chercheur.
Les corpus hébergés dans la médiathèque et la plate-forme CLAPI sont collectés depuis les années 80 à partir de programmes de recherche individuels (mémoires, thèses…) ou collectifs (projets d’équipe, réponses à des appels d’offres) dans le laboratoire ICAR (anciennement GRIC) ou dans d’autres équipes de recherche (Fonds Bielefeld, corpus Frog Story…) pour une exploitation généralement dans le cadre de recherches sur les interactions.
Parmi l’ensemble des corpus archivés et numérisés à la médiathèque, seul un sous-ensemble a fait l’objet d’une description, d’un traitement des enregistrements et des transcriptions pour être intégrés à la plateforme en ligne CLAPI en raison du temps nécessaire à la préparation et à la vérification de l’ensemble des données. Dans CLAPI, un corpus est composé de :
– données primaires (enregistrements audio ou vidéo, documents numérisés divers produits ou manipulés par les interactants…) ;
– données secondaires (transcriptions et conventions de transcription) ;
– documents annexes (autorisations d’enregistrement et de diffusion signés par les participants …).
À ces corpus, s’ajoute un ensemble d’outils de requête qui permettent d’exploiter les transcriptions qu’ils s’agissent de fonctions classiques en linguistique de corpus (lexique, concordanciers, co-occurrences, segments répétés, …) ou adaptées à l’étude des phénomènes interactionnels (co-occurrences d’un phénomène, contexte d’emploi d’un mot, hétéro-répétitions, …) ainsi qu’un outil de requête pour répondre à un besoin spécifique en combinant des séquences de mots avec des phénomènes interactionnels et des métadonnées. Quel que soit l’outil, l’affichage des résultats dans le concordancier multimédia permet de jouer et télécharger la vidéo ou l’audio, de visualiser les métadonnées (contexte, locuteur, convention de transcription…), d’afficher une transcription simplifiée ou détaillée, d’imprimer l’extrait.
Fin 2021, CLAPI comprend 70 corpus soit 67h de données requêtables par un ensemble d’outils de requêtes et 50h de données téléchargeables mais la banque de données continue à être enrichie à intervalles réguliers. CLAPI-FLE, une plateforme dédiée à l’enseignement du français à partir des corpus de CLAPI, est présentée dans la rubrique Actions de formation et d’enseignement.