NOMEX-CLAPI Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

1- Présentation génerale du projet	2- Corpus: définitions et entités qui s'y rattachent	3- Traitement des corpus en vue de leur intégration dans CLAPI	4- Questions de transcription	5- Outils de transcription et d'analyse de corpus
6- Plate-forme CLAPI	7- Analyses et requêtes	8- Perspectives	Bibliographie du programme et générale	Annexes accès réservé aux équipes du projet

6. Plate-forme CLAPI

6.1. Historique de la base CLAPI

L'ex-UMR 5612 GRIC a mis sur pied à la fin des années 1990 le projet « Corpus de Français Parlé en Interaction » dans le but de recenser les corpus constitués par les membres de l’équipe depuis la fondation de l’UMR. Ceci avait donné lieu à la réalisation de la base de données CLAPI 1 (cf. section 3. Traitement des corpus dans CLAPI).

L’ACI TTT a permis la conception et le développement d’une nouvelle version de la base CLAPI : CLAPI 2. Le développement en cours vise une amélioration substantielle de la base de données en termes de richesse, de robustesse, d’accessibilité et d’extraction.

6.2. Objectifs

L’application informatique CLAPI 2 devra ainsi permettre :

la gestion d’un nombre important de corpus/unités documentaires (enregistrements, transcriptions, documents annexes…) ;
l’interrogation par des requêtes fines portant sur les descripteurs et sur les transcriptions, éventuellement enrichies par des balises : recherche sur des chaînes de caractères, mais aussi sur la temporalité de phénomènes balisés.
l’intégration de nouveaux corpus, internes ou constitués à l’extérieur de l’UMR ICAR (cf. Annexe Organigramme de corpus CLAPI) ;
la consultation et le téléchargement de corpus gérés par des droits d’accès sécurisés.

6.3. Conception de CLAPI 2

6.3.1. Les descripteurs

CLAPI 1 comportait une liste de descripteurs dans le but de permettre la localisation des corpus, leur identification ainsi que celle de l’ensemble des personnes ayant participé à leurs constitutions.

Dans le cadre de l’ACI TTT, nous avons enrichi ce travail de description afin de caractériser plus précisément les corpus et leur contenu dans la perspective d’analyses des interactions.

NB : le choix de cette orientation interactionniste implique une description spécifique qui autorise toutefois des exploitations émanant de problématiques différentes (autres domaines de la linguistique, ethnologie, psychosociologie…).

La liste actuelle des descripteurs comporte 75 rubriques hiérarchisées (génériques ou spécifiques) couvrant les champs suivants (cf. Annexe Liste simplifiée des descripteurs) :

Informations générales (nom du corpus, dates et lieux de recueil…)
Auteurs (responsable, collecteurs, transcripteurs…)
Enregistrements (nom, date et lieu de recueil, durée, audio/vidéo/traces informatiques…)
Transcriptions (exhaustivité, convention, logiciels, alignement et balisage)
Locuteurs (identifiant et caractérisation sociolinguistique)
Genre interactionnel (nombre d’interactants, type d’interaction…)
Exploitation (bibliographie)
Condition de diffusion des enregistrements, transcriptions, …(sans limitation, dans le cadre de la signature d’une convention, non accessible).

Cette liste est provisoirement close pour la mise en ligne de la base mais nous avons prévu son évolution en fonction de l’émergence de nouveaux besoins.

6.3.2. Les droits d’accès aux corpus

Les spécificités des corpus de LPI à partir desquels la base a été conçue ont conduit à établir deux principes centraux concernant l'utilisation de la base :

§ les corpus hébergés dans la base CLAPI ne sont pas donnés à CLAPI (représenté par son administrateur et son conseil de gestion), ils restent contrôlés par leur responsable qui a pleine liberté pour la définition des conditions d’accès.

§ l'accès aux corpus n'est pas accordé de façon automatique à toute personne qui consulte la base, étant donné la nature des données hébergées dans CLAPI 2 (informations soumises aux droits du respect de la vie privée, de la diffamation, de la propriété intellectuelle…).

Nous avons donc défini différents types d’utilisateurs, auxquels sont attribués des droits spécifiques (cf. Annexe Tableau des droits d’accès par utilisateur).

Tout accès à un corpus n'est possible que pour un usage strictement scientifique et après signature d'une convention de prêt entre le responsable, le demandeur (une personne physique exclusivement) et l’UMR ICAR. Il est conçu comme une forme d'échange, le demandeur s'engageant, en contre-partie de l'accès au corpus, à fournir des éléments — corpus complémentaire, transcription pour les corpus partiellement transcrits, toilettage, annotation, etc. — qui viendront enrichir la base ; ces éléments font l'objet d'un accord dont les modalités sont spécifiées dans la convention. Les conditions de diffusion et de citation du matériel prêté sont également définies dans ce document.

6.4. Implémentation informatique

L’étude et le développement informatique de la base CLAPI 2 sont pris en charge par le laboratoire ERIC, et font l’objet de la thèse de Kamel Aouiche, doctorant financé par l’ACI TTT.
La première phase de cette collaboration a consisté à analyser l’existant, CLAPI 1, en étudiant son modèle conceptuel de données, ses fonctionnalités et ses limites.
A partir de cette étude et des objectifs définis ci-dessus, l’équipe ERIC a élaboré le nouveau modèle conceptuel de données de CLAPI 2 et listé les traitements à effectuer. La mise en œuvre de ce projet a consisté en la réalisation d’une maquette, qui est actuellement en phase de tests pour valider ses fonctionnalités ; à l’issue de cette étape, l’application définitive sera développée et mise en ligne.

6.4.1. Modèle conceptuel de la base CLAPI 2

Les données sont modélisées à l’aide du langage de modélisation UML (Unified Modeling Language). L’utilisation de ce formalisme graphique facilite la prise en compte de modifications ou d’ajouts éventuels au modèle, ainsi que la communication avec l’équipe ICAR.

La figure suivante représente le modèle conceptuel global de CLAPI 2.

Modèle conceptuel général des données

Pour faciliter la lecture de ce modèle, nous l’avons subdivisé en trois parties :

la gestion des unités documentaires de corpus (appelées « corpus » dans la base informatique) ;
la gestion des locuteurs intervenant dans les enregistrements;
la sécurisation des accès, la gestion des divers utilisateurs.

Nous détaillons chacune de ces parties dans les sections suivantes.

modele conceptuel corpus enreg transcript

Modèle conceptuel - corpus - enregistrements – transcriptions – études

Modèle conceptuel - locuteurs

modele conceptuel utilisateur

Modèle conceptuel - personnes - utilisateurs –groupes d’utilisateurs

6.4.2. Fonctionnalités de CLAPI 2

Identification des utilisateurs de la plate-forme et droits d’accès

Chaque utilisateur possède un compte personnel qui permet au système de l’authentifier. Suivant son groupe d’appartenance, il peut exécuter un ensemble d’actions préalablement définies (consulter un corpus, valider la mise en ligne d’un corpus, octroyer ou retirer des droits d’accès sur des corpus, etc.).

Stockage et mise à jour des corpus

La procédure de soumission en ligne consiste à référencer un corpus et à intégrer ses différentes composantes. Les responsables de corpus peuvent ultérieurement les mettre à jour et valider les ajouts proposés par les utilisateurs contractuels. Des interfaces ont été élaborées afin d’assister les utilisateurs lors de ces différentes opérations.

Interrogation des corpus

La maquette CLAPI 2 peut être interrogée selon deux modes : interrogation sur les descripteurs et sur le « texte intégral » des transcriptions.

6.5. Bilan actuel

La maquette de la plate-forme CLAPI 2 a été réalisée à l’aide d’outils open source : MySQL pour le stockage et la gestion de la base de données, et le langage de programmation PHP pour l’interface. A ce jour, une dizaine de corpus a été référencée dans la base de données CLAPI 2 ; les transcriptions et leurs conventions ont été intégrées ainsi que certains extraits audio ou vidéo. L’implantation définitive de la base permettra le dépôt plus systématique des données primaires.

Le passage de la maquette de CLAPI 2 vers un prototype exploitable nécessite de choisir une architecture matérielle et logicielle adaptée aux contraintes suivantes : puissance, volume de données, temps d’accès, fiabilité.

Le prototype subira une première phase de tests de la stratégie de sécurisation des corpus mise en œuvre. Dans un second temps, ces tests seront étendus à différents utilisateurs afin de valider la plate-forme sur une grande échelle et d’évaluer ses performances en réseau.

NOMEX-CLAPI Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

6.3. Conception de CLAPI 2