NOMEX-CLAPI Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

1- Présentation génerale du projet	2- Corpus: définitions et entités qui s'y rattachent	3- Traitement des corpus en vue de leur intégration dans CLAPI	4- Questions de transcription	5- Outils de transcription et d'analyse de corpus
6- Plate-forme CLAPI	7- Analyses et requêtes	8- Perspectives	Bibliographie du programme et générale	Annexes accès réservé aux équipes du projet

5. Outils de transcription et d’analyse de corpus CLAPI

5.1. Objectif

Dans le cadre du projet ACI-TTT « NOMEX-CLAPI », nous développons une plate-forme de ressources technologiques pour la transcription et la maintenance de corpus de LPI. Cette plate-forme est mise à la disposition des chercheurs via Internet, elle articule des logiciels existants et les organise autour d'un format pivot Xi que nous avons défini.

5.2. Démarche

La première étape du projet consiste à recenser les outils de transcription déjà existants dans le domaine et à mettre en place une grille de critères comparatifs : types d’annotations, formats supportés, fonctionnalités d’import/export entre logiciels, formats d'édition, ergonomie, plate-forme matérielle, technologie, etc. (cf. Annexe Liste des logiciels qui en propose une comparaison).

L'évaluation porte autant sur les caractéristiques techniques que linguistiques.

Comme aucun logiciel ne répondait entièrement à nos besoins, plutôt que d’en développer un nouveau nous avons choisi d’articuler ces logiciels en concevant des passerelles appelées 'convertisseurs' entre certains de ces outils (comme Praat ou Clan), compte tenu de leurs différents formats (cf. Annexe Liste des convertisseurs). Ceci nous permet de bénéficier des fonctionnalités originales de chacun tout en permettant une gestion uniforme de l’ensemble des corpus, en offrant en particulier des possibilités d’éditions adaptées aux besoins des utilisateurs.

Actuellement, ces passerelles sont à l’état de prototype. Elles ont été programmées soit dans un environnement Scheme (dialecte de LISP), soit dans un environnement shell Unix avec des applicatifs XML.

Le cœur des développements informatiques repose sur le format pivot Xi, qui implémente la convention ICOR (cf. Annexe Convention ICOR) dans le modèle des graphes d’annotation du projet NITE, il sera utilisé depuis les transcriptions initiales jusqu'à la phase d'analyse (cf. Annexe Le format Xi : spécification de l’implémentation d’ICOR en Nite Object Model).

Une procédure de validation de ce format est appliquée avec le corpus « vitrine Physique » (cf. section 4.2).

Une intégration dans le logiciel d'analyse lexicométrique sera proposée pour disposer d'outils plus complets de calcul et d'analyse des corpus: fréquences, cooccurrences, lexicogrammes simples ou récursifs, n-grammes (segments répétés), outils contrastifs, requêtes complexes et concordances.

Par ailleurs, dans le cadre d'une collaboration européenne avec l'IDS, nous envisageons d’intégrer dans nos futurs développements une compatibilité vers la plate-forme.

5.3. Réalisations

les sites des logiciels existants avec leurs fonctionnalités et leurs formats ;
la comparaison technique et linguistique de ces logiciels ;
la convention de transcription ICOR ;
la description du format Xi ;
les convertisseurs en ligne : Praat vers Clan, Praat vers format liste.

5.4. Perspectives

Dans la deuxième partie du projet, nous devrons enrichir la plate-forme et finaliser les outils mais aussi organiser des formations et communiquer l'information à nos différents partenaires.

Le format Xi suivra les évolutions de la convention ICOR.

Le site Web sera enrichi au fur et à mesure des développements informatiques et de l’évolution des travaux de recherche interne au laboratoire ou menés en collaboration avec nos partenaires.