Dans le cadre du projet ACI-TTT « NOMEX-CLAPI », nous développons une plate-forme de ressources technologiques pour la transcription et la maintenance de corpus de LPI. Cette plate-forme est mise à la disposition des chercheurs via Internet, elle articule des logiciels existants et les organise autour d'un format pivot Xi que nous avons défini.
La première étape du
projet consiste à recenser les outils de transcription
déjà existants dans le
domaine et à mettre en place une grille de critères
comparatifs : types
d’annotations, formats supportés,
fonctionnalités d’import/export entre logiciels, formats
d'édition, ergonomie,
plate-forme matérielle, technologie, etc. (cf. Annexe Liste
des logiciels qui
en propose une comparaison).
L'évaluation porte
autant sur les caractéristiques techniques que linguistiques.
Comme aucun logiciel ne
répondait entièrement à nos besoins, plutôt
que d’en développer un nouveau nous
avons choisi d’articuler ces logiciels en concevant des passerelles
appelées
'convertisseurs' entre certains de ces outils (comme Praat ou Clan),
compte
tenu de leurs différents formats (cf. Annexe Liste des
convertisseurs).
Ceci nous permet de bénéficier des fonctionnalités
originales de chacun tout en
permettant une gestion uniforme de l’ensemble des corpus, en offrant en
particulier des possibilités d’éditions adaptées
aux besoins des utilisateurs.
Actuellement, ces passerelles sont à
l’état de prototype.
Elles ont été programmées soit dans
un
environnement Scheme (dialecte de LISP), soit dans un environnement
shell Unix
avec des applicatifs XML.
Le cœur des développements informatiques repose sur le format pivot Xi, qui implémente la convention ICOR (cf. Annexe Convention ICOR) dans le modèle des graphes d’annotation du projet NITE, il sera utilisé depuis les transcriptions initiales jusqu'à la phase d'analyse (cf. Annexe Le format Xi : spécification de l’implémentation d’ICOR en Nite Object Model).
Une procédure de validation de ce format est appliquée avec le corpus « vitrine Physique » (cf. section 4.2).
Une intégration dans le logiciel d'analyse lexicométrique sera proposée pour disposer d'outils plus complets de calcul et d'analyse des corpus: fréquences, cooccurrences, lexicogrammes simples ou récursifs, n-grammes (segments répétés), outils contrastifs, requêtes complexes et concordances.
Par ailleurs, dans le cadre d'une collaboration
européenne
avec l'IDS, nous envisageons d’intégrer dans nos futurs
développements une
compatibilité vers la plate-forme.
Dans la deuxième partie du projet, nous devrons enrichir la plate-forme et finaliser les outils mais aussi organiser des formations et communiquer l'information à nos différents partenaires.
Le format Xi suivra les évolutions de la convention ICOR.
Le site Web sera enrichi au fur et à mesure des développements informatiques et de l’évolution des travaux de recherche interne au laboratoire ou menés en collaboration avec nos partenaires.