NOMEX-CLAPI
Nouvelles méthodes d'exploitation des
corpus de langue parlée en interaction
L'objectif global du projet était la
constitution, la
gestion, la valorisation et la mise en ligne de données
multimédia afin de
proposer à la communauté des chercheurs une base de
données sur le Français
Parlé en Interaction (FPI), riche d'environ 500 heures de
données orales,
interrogeable par le web par divers outils d'analyse (et en particulier
des requêtes
élémentaires de concordance).
Les tâches définies au début
du projet étaient les
suivantes :
- Tâche 1 :
élaboration de formats de transcription des corpus après
accord sur des normes reconnues et suffisamment souples.
- Tâche 2 : choix,
contrôle, nettoyage et classification des corpus suivant des
critères permettant tout à la fois de gérer leur
diversité et de procéder de manière
systématique aux requêtes les plus fines.
- Tâche 3 :
modélisation des données multimédia
hétérogènes dans un formalisme unique se
prêtant à l’échange sur le Web et conception d’un
langage d’interrogation de ces corpus.
- Tâche 4 :
développement d’une plate-forme qui assure la gestion en ligne
de ces bases de données et qui permette aux chercheurs en
linguistique de corpus de procéder aux interrogations qu'ils
désirent.
- Tâche 5 :
contribution à la création d’un réseau
européen de recherches sur les langues parlées en
interaction.
Calendrier prévu
Année
1
- Etat
de l'art, établissement des
normes et modélisation
des données de corpus oraux
- Etablissement
du programme de
séminaires
- Regroupement,
nettoyage et mise aux normes
des données
Année 2
- Séminaire
technique sur l'alignement
et la gestion de
l'audio / vidéo
- Développement
d'un prototype
n'intégrant pas encore les
enregistrements
Année
3
- Réalisation
et alimentation de la
base de données
multimédia en FPI
-
Langage de requêtes (type BNC et
RAE)
- Interfaçage
web de la base
(alimentation, mise à jour
et interrogation conviviale)
-
Organisation d'un colloque
présentant la
réalisation
Le travail
interdisciplinaire s'est organisé par la constitution de
sous-équipes
interdisciplinaires (Sciences du langage / informatique) sur des
bases
thématiques :
-
Groupe ICOR
(UMR ICAR, linguistes et informaticiens). Ce groupe a travaillé
principalement
sur la tâche 1 : élaboration de formats de
transcription, formulation de
requêtes sur les phénomènes transcrits ;
requêtes.
- Pool
Médiathèque (UMR ICAR). Ce
groupe est responsable de la
tâche 2 : aspects techniques, qualitatifs et patrimoniaux de la
base de
données ; intégration et échanges de corpus.
- Equipe ANON (UMR
ICAR, Equipe RIM) : tâche 3, conception et mise
en place des outils
informatiques nécessaires pour le développement de la
base CLAPI et pour
l'interrogation en ligne ; requêtes.
- Equipe ERIC/ ICOR
(UMR ICAR, Equipe ERIC) : tâches 2 et 4, critères
de classement pour la gestion des corpus, conception d'une architecture
de la
base, implémentation informatique, requêtes.
Le travail de chaque
groupe thématique a été
régulièrement discuté en réunions
générales
inter-groupe, au rythme d'environ une tous les 3 mois.
Le
travail s'est aussi organisé selon une procédure de
« proposition /
validation » : les premiers résultats sont
testés puis modifiés. Cette
procédure s'est appliquée en particulier les conventions
de transcription, les
outils, la plate-forme. Elle s'est mise en œuvre pour certains
résultats autour
de la création d'un corpus exemplaire, le Corpus
« Vitrine »
physique.