Recherche

Principaux axes de recherche

Recherches dans le domaine de la syntaxe de l’oral en Français parlé dans l’intéraction

Traitement et analyse des unités peu ou non décrites en syntaxe

Deux objectifs : faire émerger des systèmes descriptifs et les mettre en application pour le TAL

1° Les Non Régis (NR)

Description syntaxique des éléments non rattachés au verbe principal de la « phrase », pour des applications en traitement et identification automatiques : c’est en examinant ce type d’unités impossibles à décrire par la syntaxe traditionnelle, reliées par des opérations de liage d’ordre sémantique et pragmatique, que j’ai pu observer les fonctionnements grammaticaux, et les contraintes distributionnelles qui conduisent à observer, pour ces unités là aussi, des structures et des constructions syntaxiques, à établir une typologie, à proposer des classements nouveaux sur la base de propriétés purement formelles. Ces travaux se fondent sur l’étude et le traitement de corpus de données authentiques, principalement du français parlé en interaction, comprenant plusieurs usages de l’oral, produits autour de divers types d’activités.

De nombreux mots ou constituants (soulignés ci-dessous) présentent dans la phrase des propriétés différentes par rapport à ceux qui sont descriptibles par des relations grammaticales traditionnelles (en italique ci-dessous), notamment : adverbes de phrase vs adverbes de verbes, circonstants non compléments de verbe vs compléments de verbe circonstanciels, particules discursives (PDI) vs pronoms/ adjectifs/ connecteurs/ constructions verbalescanoniques, etc. On ne peut actuellement résoudre le problème de la discrimination de ces unités, surtout quand il s’agit de formes homonymes (franchement, à partir de là, bon, quoi, etc.), et, pour l’instant, on ne peut donc pas les traiter automatiquement.

1ère phase de travail (cf. Thèse et autres travaux de 2006, voir publications)

Après une application rigoureuse des tests choisis, et une fois les prototypes sélectionnés, j’ai pu observer, sur grands corpus d’oral (données attestées), que la distribution et le placement de ces constituants dans l’énoncé obéissent à un certain nombre de contraintes formelles.
– ce qui permet de leur donner un statut syntaxique.
– ce qui fournit un certain nombre de propriétés codifiables en règles implémentables
– ce qui met à jour des constructions non encore décrites

2ème phase (Projets ANR + travaux 2008-2009)

Une fois dégagées les grandes tendances à partir des régularités observées, qu’il s’agisse de contraintes de placements, de distribution ou de récurrences de constructions systématiques, il faut pouvoir
– Implémenter des règles.
– Programmer un logiciel
– Vérifier la précision de l’identification par discrimination automatique.
– Identifier les problèmes sources d’erreurs
– Corriger les problèmes de reconnaissance
– Vérifier l’ensemble des propriétés retenues pour la première étude :
– Examiner les premiers prototypes choisis à partir d’autres corpus.
– Perfectionner les règles

3ème phase (Travaux 2005- 2007- 2010)

En corrélation avec la description purement syntaxique, il s’agit d’identifier les relations sémantico-discursives, les valeurs pragmatiques, et les conduites interactionnelles régulières que ces unités NR révèlent.

2° Les Particules Discursives (PDi)

Les Particules Discursives (PDI) possèdent beaucoup de points communs avec les formes Non Régies (NR) par le verbe tête d’une construction ; constituées de diverses catégories, les NR comme les PDI n’entrent pas dans des relations de dépendance grammaticale, et ne s’intègrent pas dans une phrase. Après avoir repéré sur corpus les contextes d’apparition de ce type d’éléments, et les mécanismes récurrents qui les régulent, on propose de les étudier en les observant non seulement du point de vue de la syntaxe grammaticale -micro-syntaxe-, mais aussi du point de vue de la syntaxe discursive -macro-syntaxe-, et de la grammaire interactionnelle en relation avec leurs valeurs pragmatiques.

Résultats

Des premiers résultats ont été obtenus dès 2004 (Teston, S., et Véronis, J. Recherche de critères formels pour l’identification automatique des particules discursives. Journée d’étude de l’ATALA « Modéliser et décrire l’organisation discursive à l’heure du document numérique », La Rochelle). L’implémentation des règles établies d’après les études des corpus sur le comportement de ces unités a permis d’effectuer avec succès les premières démonstrations de discrimination automatique par une machine, notamment pour la forme bon (distinguer automatiquement bon adjectif de bon particule discursive). La précision obtenue sur l’ensemble des corpus a été de 97.6%. L’étiquetage de base (baseline) qui consisterait à attribuer à toutes les occurrences d’un corpus l’étiquette la plus fréquente du corpus ne produirait que 91,5% d’étiquettes correctes. Le programme réduit donc le nombre d’erreurs de 72,3% par rapport à cet étiquetage naïf, ce qui est un résultat honorable étant donné la rusticité (voulue) de ce premier programme.

Les recherches sur les autres formes PDI en collaboration avec des spécialistes de l’informatique se poursuivent, notamment au sein des projets ANR (+ Travaux sur Quoi en collaboration avec MA Morel et F. Lefeuvre, en cours de rédaction, + travaux de 2006 à ce jour, publiés et à paraître).

Enfin, mes travaux sur le texte théâtral et cinématographique, dans le cadre d’une analyse linguistique de l’oral en interaction, fournissent une comparaison enrichissante entre données authentiques et données fictives (recréées) qui donne des indices essentiels sur la compétence des locuteurs et des scripteurs dans l’utilisation et dans la réception des stratégies langagières.

Participation à l’amélioration des outils pour le TAL :

– Participer à l’élaboration de nouveaux outils pour l’utilisation « propre » du Web.

– Participer à l’amélioration des outils de traitement automatique des corpus difficiles : langue parlée et langues écrites Web et texto…

Ces thématiques et perspectives de recherche très fortement liées aux compétences des chercheurs du laboratoire s’intègrent et contribuent aux projets et orientations de recherche menées par ICAR, dans l’exploitation des corpus de la plate forme CLAPI.

Constitution et traitement des corpus

Je contribue à l’enrichissement des corpus existants, et à la création de nouveaux corpus nécessaires à l’étude des différents usages de la langue parlée, dans des situations, et des contextes divers: enregistrements et filmages, traitements et fouilles, collectes de données outillées, annotations.

 

Recherches sur la syntaxe de l’oral ciblées sur les mots ou les constituants peu ou non décrits dans une approche formelle syntaxique

La description est fondée sur des données attestées en contexte : grands corpus de conversation, dialogues de théâtre et de cinéma, et nouvelles formes de communication écrite (Forum, entretiens, discours du Web, messages texto)

– 1ère étape : inventaire des mots ou constituants posant problème aux descriptions traditionnelles

– 2ème étape : choix de prototypes par sous-classes

– 3ème étape : examen des propriétés syntaxiques

– 4ème étape : typologie et valorisation dans des travaux de recherche appliquée avec des enjeux sociétaux forts pour une application en traitement automatique de la langue

Élaboration de protocoles, réalisations d’expériences : description, analyse et interprétation des résultats. Mise en œuvre par implémentation. Vérification du fonctionnement. En synergie avec d’autres spécialistes de la linguistique (informaticiens, pragmaticiens, prosodistes, spécialistes des sciences cognitives, praticiens cliniciens…)

Diffusion de la production scientifique, rédaction d’articles et d’ouvrages, interventions en colloques et séminaires. Encadrement. Organisation d’événements.