NOMEX-CLAPI Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

1- Présentation génerale du projet	2- Corpus: définitions et entités qui s'y rattachent	3- Traitement des corpus en vue de leur intégration dans CLAPI	4- Questions de transcription	5- Outils de transcription et d'analyse de corpus
6- Plate-forme CLAPI	7- Analyses et requêtes	8- Perspectives	Bibliographie du programme et générale	Annexes accès réservé aux équipes du projet

1. Présentation générale du projet

1.1. Rappel des objectifs poursuivis et calendrier prévisionnel

L'objectif global du projet était la constitution, la gestion, la valorisation et la mise en ligne de données multimédia afin de proposer à la communauté des chercheurs une base de données sur le Français Parlé en Interaction (FPI), riche d'environ 500 heures de données orales, interrogeable par le web par divers outils d'analyse (et en particulier des requêtes élémentaires de concordance).

Les tâches définies au début du projet étaient les suivantes :

Tâche 1 : élaboration de formats de transcription des corpus après accord sur des normes reconnues et suffisamment souples.
Tâche 2 : choix, contrôle, nettoyage et classification des corpus suivant des critères permettant tout à la fois de gérer leur diversité et de procéder de manière systématique aux requêtes les plus fines.
Tâche 3 : modélisation des données multimédia hétérogènes dans un formalisme unique se prêtant à l’échange sur le Web et conception d’un langage d’interrogation de ces corpus.
Tâche 4 : développement d’une plate-forme qui assure la gestion en ligne de ces bases de données et qui permette aux chercheurs en linguistique de corpus de procéder aux interrogations qu'ils désirent.
Tâche 5 : contribution à la création d’un réseau européen de recherches sur les langues parlées en interaction.

Calendrier prévu

Année 1

Etat de l'art, établissement des normes et modélisation des données de corpus oraux
Etablissement du programme de séminaires
Regroupement, nettoyage et mise aux normes des données

Année 2

Séminaire technique sur l'alignement et la gestion de l'audio / vidéo
Développement d'un prototype n'intégrant pas encore les enregistrements

Année 3

Réalisation et alimentation de la base de données multimédia en FPI
Langage de requêtes (type BNC et RAE)
Interfaçage web de la base (alimentation, mise à jour et interrogation conviviale)
Organisation d'un colloque présentant la réalisation

1.2. Actions engagées et modalités du travail interdisciplinaire

Le travail interdisciplinaire s'est organisé par la constitution de sous-équipes interdisciplinaires (Sciences du langage / informatique) sur des bases thématiques :

Groupe ICOR (UMR ICAR, linguistes et informaticiens). Ce groupe a travaillé principalement sur la tâche 1 : élaboration de formats de transcription, formulation de requêtes sur les phénomènes transcrits ; requêtes.
Pool Médiathèque (UMR ICAR). Ce groupe est responsable de la tâche 2 : aspects techniques, qualitatifs et patrimoniaux de la base de données ; intégration et échanges de corpus.
Equipe ANON (UMR ICAR, Equipe RIM) : tâche 3, conception et mise en place des outils informatiques nécessaires pour le développement de la base CLAPI et pour l'interrogation en ligne ; requêtes.
Equipe ERIC/ ICOR (UMR ICAR, Equipe ERIC) : tâches 2 et 4, critères de classement pour la gestion des corpus, conception d'une architecture de la base, implémentation informatique, requêtes.

Le travail de chaque groupe thématique a été régulièrement discuté en réunions générales inter-groupe, au rythme d'environ une tous les 3 mois.

Le travail s'est aussi organisé selon une procédure de « proposition / validation » : les premiers résultats sont testés puis modifiés. Cette procédure s'est appliquée en particulier les conventions de transcription, les outils, la plate-forme. Elle s'est mise en œuvre pour certains résultats autour de la création d'un corpus exemplaire, le Corpus « Vitrine » physique.