NOMEX-CLAPI Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

1- Présentation génerale du projet	2- Corpus: définitions et entités qui s'y rattachent	3- Traitement des corpus en vue de leur intégration dans CLAPI	4- Questions de transcription	5- Outils de transcription et d'analyse de corpus
6- Plate-forme CLAPI	7- Analyses et requêtes	8- Perspectives	Bibliographie du programme et générale	Annexes accès réservé aux équipes du projet

3. Traitement des corpus en vue de leur intégration dans CLAPI

Depuis plus de 20 ans, des corpus ont été recueillis au sein de l’UMR GRIC (aujourd’hui UMR ICAR) dans le cadre de l'analyse des interactions et de la linguistique interactionnelle. Afin de localiser ces corpus alors dispersés, une base de données, CLAPI 1, avait été élaborée et développée par Matthieu Quignard, en 2001. Cette base, CLAPI 1, accessible en ligne, est encore en usage actuellement et permet d’identifier chaque corpus au moyen d’une fiche descriptive standardisée composée d’une vingtaine de descripteurs principaux et de consulter de brefs extraits audio ou vidéo accompagnés de leur transcription.

Dans le cadre du projet ACI-TTT « NOMEX-CLAPI », nous avons conçu et mis en place une procédure raisonnée de traitement et d’intégration de ces corpus afin d’assurer leur pérennité et de faciliter leur exploitation. La mise en œuvre de cette procédure a permis la constitution d’une médiathèque de corpus – la Médiathèque CLAPI – et une rationalisation de l’intégration des corpus dans la nouvelle base de données, CLAPI 2.

3.1. Traitement des corpus CLAPI

Pour pouvoir être intégré dans la médiathèque CLAPI et être à terme hébergé dans la base de données CLAPI 2, un corpus doit subir un traitement spécifique. Ce traitement est assuré par l’équipe Médiathèque, équipe de quatre membres pilotée par Michel Bert dont le poste est financé par l’ACI TTT. Le traitement est constitué d’étapes successives :

Procédure de recueil auprès du ou des détenteur(s) des différents éléments du corpus (données primaires et secondaires) et des autorisations signées par les personnes enregistrées (du premier contact jusqu’à la signature de la convention (voir ci-dessus) et le dépôt définitif du corpus).
Numérisation des données primaires et secondaires selon des formats standardisés. Les documents papiers (ex. documents produits ou utilisés par les participants) sont scannés sauf quand ils sont très nombreux pour un même corpus (par ex. les copies d’élèves). Les choix arrêtés pour la numérisation sont le résultat des réflexions/évaluations sur les modes de compression et sur l’accessibilité, lisibilité pour le plus grand nombre de chercheurs et pérennité dans le temps des standards choisis. Les différents formats de compression de la vidéo font actuellement l’objet de tests (cf. Annexe CLAPI – Définition des formats vidéo).
Préparation du corpus :
- évaluation de l’application de la convention de transcriptions à partir d’échantillons : le résultat de cette évaluation est conservé parmi les pièces archivées dans la médiathèque.
- éventuellement, révision de la transcription. Le plus souvent, il s’agit d’un « toilettage » léger. Les corrections sont soumises à l’approbation du responsable du corpus.
- Pour les transcriptions au format texte brut (aux formats rtf, doc…), minutage de la transcription (en moyenne toutes les 2 minutes pour un enregistrement d’une heure).
- Pour certains corpus, alignement d’extrait conséquent ou de l’intégralité de la transcription. A l’avenir, il est envisagé de demander au dépositaire l’alignement d’extraits de son corpus.
Anonymisation

La diffusion de certains corpus requiert l’anonymisation des transcriptions, le bippage des données audio ou même des transformations de l’image vidéo (s’il y en a). Les critères d’anonymisation sont établis par le responsable du corpus. L’expérience acquise à partir de différents corpus nous a conduit à concevoir une liste de recommandations pour l’anonymisation, qui spécifie les paramètres à prendre en compte lors de cette étape(pour l’instant, les transformations de l’image vidéo sont en cours de test).

Mise en forme d’extraits servant d’échantillons :
- Alignement d’un extrait des transcriptions au format texte brut sous Praat ou Clan.
- Préparation de l’extrait audio ou vidéo correspondant à l’échantillon aligné (une minute environ).
Ces extraits et leurs transcriptions illustrant les corpus sont accessibles en ligne sans restriction.
Gravure d’un ou plusieurs CD-ROM(S). Un double du corpus numérisé est rendu au responsable. Les données originales (avant traitement) ou intermédiaires (ex. transcription ou données audio non anonymisées) sont également parfois conservées.
Identification des corpus dans la base de données CLAPI 1 et dans la base de données CLAPI 2, appelée à la remplacer. Les données secondaires et certaines données primaires commencent à être stockées dans cette base, actuellement à l’état de prototype. Les droits d’accès aux différentes pièces du corpus hébergés dans CLAPI 2 font à ce jour l’objet de tests (cf. section 6 Plate-forme CLAPI).

L’intégration de corpus nombreux et très divers a permis d’évaluer le coût de traitement des corpus. Selon la nature des corpus et les compétences des personnes qui y travaillent, le temps de traitement peut aller du simple au multiple (cf. Annexe Traitement d’un corpus : évaluations). L’expérience montre que cette durée est très souvent sous-estimée a priori.

3.1.1. Conception de documents-supports à l’intégration de corpus

Chaque étape de la procédure d’intégration a nécessité la rédaction de documents contractuels ou de documents d’aide aux utilisateurs (cf. Annexe Organigramme « Construction de Corpus Langues Parlées en Interaction (CLAPI ) » ; ce document détaille les différentes étapes ainsi que les documents requis pour leurs réalisation et les acteurs concernés).

Documents contractuels :

Dans l’état actuel de l’avancement du programme, la médiathèque recense les différents types de convention/accord pour l’enregistrement et la diffusion à faire signer aux personnes enregistrées.
Convention pour l’hébergement de corpus dans CLAPI. Ce document doit être signé par le responsable du corpus, le conseil de gestion CLAPI et l’UMR ICAR (cf. Annexe Convention « Intégration d’un corpus dans CLAPI »).
Une charte précisant les droits et devoirs des différentes parties est en cours d’élaboration.
Convention de legs de corpus signé par un responsable de corpus cédant ses droits sur le corpus au conseil de gestion.
Convention d’échange. L’accès à un corpus pour recherches est soumis à la signature d’une convention entre le responsable du corpus, le demandeur et l’UMR ICAR (cf. Annexe Convention de prêt de corpus CLAPI).

Ces documents sont en cours d’analyse et d’amélioration

Documents d’aides :

recommandations techniques pour la numérisation, guide et recommandation
guide d’anonymisation
manuels logiciels de transcription
manuel logiciels d’édition
aide à l’identification et l’hébergement d’un corpus dans la base CLAPI 2

3.1.2. Etat actuel de CLAPI (Médiathèque et base de données)

L’ACI TTT a permis la mise en place de la Médiathèque et de la base de données CLAPI 2. A ce jour, leur état d’alimentation est le suivant :

	Corpus référencés dans CLAPI	Corpus numérisés	Corpus alignés
Nombre de corpus	80	35	2 corpus intégraux + 30 extraits des corpus numérisés
Nombre de CD-ROMS	250	200	2 corpus intégraux
Nombre d’heures	600	200	1,5
Nombre de mots	non encore estimé	~1 million	~100 000

La majorité des corpus de LPI sont en français, mais d’autres langues sont également représentées (arabe, langues régionales de France - francoprovençal, nord-occitan -, etc.).

La majorité des corpus a été référencées dans la base de données CLAPI 1. Le référencement dans CLAPI 2 est en cours.

L’intégration de nouveaux corpus se poursuit. Le rythme de ces dépôts dépend des moyens qui seront disponibles pour assurer le traitement des corpus proposés à CLAPI.

3.2. Organisation de formations

La diffusion du savoir-faire concernant le traitement des corpus ne s’est pas limité à la rédaction de documents-support. Elle se réalise aussi par des formations régulières à l’intérieur et à l’extérieur du laboratoire.

A l’intérieur du laboratoire ICAR :

Organisation de formations annuelles :
La procédure d’intégration de corpus dans la médiathèque est présentée chaque année aux étudiants travaillant à partir d’enregistrements.
Enseignement de l’usage des logiciels de transcription et d’alignement transcription/signal audiovisuel.
Assistance technique : une assistance est offerte pour la réalisation de certaines étapes de l’intégration des corpus dans la médiathèque par des intéressés extérieurs au laboratoire, ainsi que pour la réalisation de transcriptions alignées avec Praat et Clan ou pour l’identification de corpus dans CLAPI.

Interventions extérieures (pour les laboratoires partenaires et les laboratoires français ou étrangers intéressés) :

Organisation de formations :
- Présentation du fonctionnement de la base CLAPI, des choix techniques sous-jacentes, ainsi que des travaux scientifiques réalisés sur les corpus CLAPI.
- Enseignement de l’usage des logiciels de transcription et d’alignement transcription/signal audio-visuel.

Assistance technique : assistance de la médiathèque à l’intégration de corpus issus d’autres laboratoires (actuellement 20 heures d’enregistrements environ).

Ce document fait actuellement l’objet d’une expertise par des juristes grâce à une collaboration dans le cadre du PSI Patrimoine et archivage documentaire avec l’UMR Centre d’Etudes sur la Coopération Juridique Internationale (CECOJI).

En ce qui concerne les logiciels Praat et Clan, cf. section 5.

Cf. la collaboration dans le cadre du PSI Patrimoine et archivage documentaire avec l’UMR Centre d’Etudes sur la Coopération Juridique Internationale (CECOJI).