Depuis plus de 20 ans, des corpus ont été recueillis au sein de l’UMR GRIC (aujourd’hui UMR ICAR) dans le cadre de l'analyse des interactions et de la linguistique interactionnelle. Afin de localiser ces corpus alors dispersés, une base de données, CLAPI 1, avait été élaborée et développée par Matthieu Quignard, en 2001. Cette base, CLAPI 1, accessible en ligne, est encore en usage actuellement et permet d’identifier chaque corpus au moyen d’une fiche descriptive standardisée composée d’une vingtaine de descripteurs principaux et de consulter de brefs extraits audio ou vidéo accompagnés de leur transcription.
Dans le cadre du projet ACI-TTT « NOMEX-CLAPI », nous avons conçu et mis en place une procédure raisonnée de traitement et d’intégration de ces corpus afin d’assurer leur pérennité et de faciliter leur exploitation. La mise en œuvre de cette procédure a permis la constitution d’une médiathèque de corpus – la Médiathèque CLAPI – et une rationalisation de l’intégration des corpus dans la nouvelle base de données, CLAPI 2.
Pour pouvoir
être intégré dans la
médiathèque CLAPI et être à terme
hébergé dans la base de données CLAPI 2, un
corpus doit subir un traitement spécifique. Ce traitement est
assuré par
l’équipe Médiathèque, équipe de quatre
membres pilotée par Michel Bert dont le
poste est financé par l’ACI TTT. Le traitement est
constitué d’étapes
successives :
La diffusion de
certains corpus
requiert l’anonymisation des transcriptions, le bippage des
données audio ou
même des transformations de l’image vidéo (s’il y en a).
Les critères
d’anonymisation sont établis par le responsable du corpus.
L’expérience acquise
à partir de différents corpus nous a conduit à
concevoir une liste
de
recommandations pour l’anonymisation, qui spécifie les
paramètres à prendre en
compte lors de cette étape(pour l’instant, les transformations
de l’image vidéo sont en
cours de test).
L’intégration de corpus nombreux et très divers a permis d’évaluer le coût de traitement des corpus. Selon la nature des corpus et les compétences des personnes qui y travaillent, le temps de traitement peut aller du simple au multiple (cf. Annexe Traitement d’un corpus : évaluations). L’expérience montre que cette durée est très souvent sous-estimée a priori.
Chaque étape de la procédure d’intégration a nécessité la rédaction de documents contractuels ou de documents d’aide aux utilisateurs (cf. Annexe Organigramme « Construction de Corpus Langues Parlées en Interaction (CLAPI ) » ; ce document détaille les différentes étapes ainsi que les documents requis pour leurs réalisation et les acteurs concernés).
Documents contractuels :
Ces documents sont en cours d’analyse et d’amélioration
Documents d’aides :
L’ACI TTT a permis la mise en place de la Médiathèque et de la base de données CLAPI 2. A ce jour, leur état d’alimentation est le suivant :
|
Corpus
référencés dans CLAPI |
Corpus numérisés |
Corpus alignés |
Nombre de
corpus |
80 |
35 |
2 corpus intégraux + 30
extraits des corpus numérisés |
Nombre de CD-ROMS |
250 |
200 |
2 corpus intégraux |
Nombre d’heures |
600 |
200 |
1,5 |
Nombre de mots |
non encore estimé |
~1 million |
~100 000 |
La majorité des corpus de LPI sont en français, mais d’autres langues sont également représentées (arabe, langues régionales de France - francoprovençal, nord-occitan -, etc.).
La majorité des corpus a été référencées dans la base de données CLAPI 1. Le référencement dans CLAPI 2 est en cours.
L’intégration de nouveaux corpus se poursuit. Le rythme de ces dépôts dépend des moyens qui seront disponibles pour assurer le traitement des corpus proposés à CLAPI.
La diffusion du
savoir-faire
concernant le traitement des corpus ne s’est pas limité à
la rédaction de
documents-support. Elle se réalise aussi par des formations
régulières à
l’intérieur et à l’extérieur du laboratoire.
A
l’intérieur du laboratoire ICAR :
Interventions
extérieures (pour les laboratoires partenaires et les
laboratoires
français ou étrangers intéressés) :
Ce document
fait actuellement l’objet d’une expertise par des juristes grâce
à une
collaboration dans le cadre du PSI Patrimoine et archivage documentaire
avec
l’UMR Centre d’Etudes sur la Coopération Juridique Internationale
(CECOJI).
Cf. la collaboration dans le cadre du PSI Patrimoine et archivage documentaire avec l’UMR Centre d’Etudes sur la Coopération Juridique Internationale (CECOJI).