NOMEX-CLAPI     Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

ICAR    Retour   Suite

1- Présentation génerale
 du projet

2-  Corpus: définitions   et
entités qui s'y rattachent
3-  Traitement des corpus
en vue de leur intégration
dans CLAPI
4- Questions de transcription 5- Outils de transcription et d'analyse de corpus

6- Plate-forme CLAPI 7- Analyses et requêtes

8- Perspectives Bibliographie du programme et générale Annexes Attention accès réservé aux équipes du projet

3.       Traitement des corpus en vue de leur intégration dans CLAPI

Depuis plus de 20 ans, des corpus ont été recueillis au sein de l’UMR GRIC (aujourd’hui UMR ICAR) dans le cadre de l'analyse des interactions et de la linguistique interactionnelle. Afin de localiser ces corpus alors dispersés, une base de données, CLAPI 1, avait été élaborée et développée par Matthieu Quignard, en 2001. Cette base, CLAPI 1, accessible en ligne, est encore en usage actuellement et permet d’identifier chaque corpus au moyen d’une fiche descriptive standardisée composée d’une vingtaine de descripteurs principaux et de consulter de brefs extraits audio ou vidéo accompagnés de leur transcription.

Dans le cadre du projet ACI-TTT « NOMEX-CLAPI », nous avons conçu et mis en place une procédure raisonnée de traitement et d’intégration de ces corpus afin d’assurer leur pérennité et de faciliter leur exploitation. La mise en œuvre de cette procédure a permis la constitution d’une médiathèque de corpus – la Médiathèque CLAPI – et une rationalisation de l’intégration des corpus dans la nouvelle base de données, CLAPI 2.

3.1.    Traitement des corpus CLAPI

Pour pouvoir être intégré dans la médiathèque CLAPI et être à terme hébergé dans la base de données CLAPI 2, un corpus doit subir un traitement spécifique. Ce traitement est assuré par l’équipe Médiathèque, équipe de quatre membres pilotée par Michel Bert dont le poste est financé par l’ACI TTT. Le traitement est constitué d’étapes successives :

La diffusion de certains corpus requiert l’anonymisation des transcriptions, le bippage des données audio ou même des transformations de l’image vidéo (s’il y en a). Les critères d’anonymisation sont établis par le responsable du corpus. L’expérience acquise à partir de différents corpus nous a conduit à concevoir une liste de recommandations pour l’anonymisation, qui spécifie les paramètres à prendre en compte lors de cette étape(pour l’instant, les transformations de l’image vidéo sont en cours de test).

L’intégration de corpus nombreux et très divers a permis d’évaluer le coût de traitement des corpus. Selon la nature des corpus et les compétences des personnes qui y travaillent, le temps de traitement peut aller du simple au multiple (cf. Annexe Traitement d’un corpus : évaluations). L’expérience montre que cette durée est très souvent sous-estimée a priori.

3.1.1. Conception de documents-supports à l’intégration de corpus

Chaque étape de la procédure d’intégration a nécessité la rédaction de documents contractuels ou de documents d’aide aux utilisateurs (cf. Annexe Organigramme « Construction de Corpus Langues Parlées en Interaction (CLAPI ) » ; ce document détaille les différentes étapes ainsi que les documents requis pour leurs réalisation et les acteurs concernés).

Documents contractuels :

Ces documents sont en cours d’analyse et d’amélioration

Documents d’aides :

3.1.2. Etat actuel de CLAPI (Médiathèque et base de données)

L’ACI TTT a permis la mise en place de la Médiathèque et de la base de données CLAPI 2. A ce jour, leur état d’alimentation est le suivant :

 

Corpus référencés dans CLAPI

Corpus numérisés

Corpus alignés

Nombre de corpus

80

35

2 corpus intégraux + 30 extraits des corpus numérisés

Nombre de CD-ROMS

250

200

2 corpus intégraux

Nombre d’heures

600

200

1,5

Nombre de mots

non encore estimé

~1 million

~100 000

La majorité des corpus de LPI sont en français, mais d’autres langues sont également représentées (arabe, langues régionales de France - francoprovençal, nord-occitan -, etc.).

La majorité des corpus a été référencées dans la base de données CLAPI 1. Le référencement dans CLAPI 2 est en cours.

L’intégration de nouveaux corpus se poursuit. Le rythme de ces dépôts dépend des moyens qui seront disponibles pour assurer le traitement des corpus proposés à CLAPI.

3.2.    Organisation de formations

La diffusion du savoir-faire concernant le traitement des corpus ne s’est pas limité à la rédaction de documents-support. Elle se réalise aussi par des formations régulières à l’intérieur et à l’extérieur du laboratoire.

A l’intérieur du laboratoire ICAR :

Interventions extérieures (pour les laboratoires partenaires et les laboratoires français ou étrangers intéressés) :



 Ce document fait actuellement l’objet d’une expertise par des juristes grâce à une collaboration dans le cadre du PSI Patrimoine et archivage documentaire avec l’UMR Centre d’Etudes sur la Coopération Juridique Internationale (CECOJI).

En ce qui concerne les logiciels Praat et Clan, cf. section 5.

 Cf. la collaboration dans le cadre du PSI Patrimoine et archivage documentaire avec l’UMR Centre d’Etudes sur la Coopération Juridique Internationale (CECOJI).

ICAR Retour          Suite