NOMEX-CLAPI     Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

ICAR    Retour   Suite
1- Présentation génerale
 du projet

2-  Corpus: définitions   et
entités qui s'y rattachent
3-  Traitement des corpus
en vue de leur intégration
dans CLAPI
4- Questions de transcription 5- Outils de transcription et d'analyse de corpus

6- Plate-forme CLAPI 7- Analyses et requêtes

8- Perspectives Bibliographie du programme et générale Annexes Attention accès réservé aux équipes du projet

7.       Analyses et requetes

7.1.    ACI –TTT : Moteur de requêtes pour les corpus CLAPI

7.1.1. Objectif

Dans le cadre du projet d'ACI « NOMEX-CLAPI », le traitement informatique des requêtes consiste à se donner les moyens d’extraire des corpus transcrits, selon la convention ICOR, des évènements linguistiques significatifs avec leur situation temporelle. L'outil doit être capable de prendre en compte des matériaux variés, des niveaux de granularité de transcription différents, mais aussi l’évolutivité de la convention ICOR (cf. section 4.1).

7.1.2. Démarche

On peut présenter les différentes phases du projet comme suit :

étant donnée l’évolution permanente de la convention ICOR, ces phases se succèdent de manière cyclique en faisant intervenir un dialogue constant entre linguistes et informaticiens.

7.1.3. Modèle des transcriptions

Rappel :

La convention ICOR spécifie les phénomènes étudiés sur les corpus oraux dans le cadre d’analyses en linguistique interactionnelle.

Selon le principe de sélectivité, certains de ces phénomènes sont obligatoirement transcrits et serviront de base à toute modélisation, d'autres, en revanche, gardent un caractère optionnel suivant la nature du corpus et des analyses à effectuer.

Selon le principe de granularité, les phénomènes linguistiques peuvent être identifiés avec des niveaux de détail d'interprétation différents, cette hétérogénéité se traduisant évidemment au niveau des outils.

Si un phénomène linguistique n'est pas transcrit, l’utilisateur devra en être informé avant de formuler sa requête sinon il pourrait croire qu'il est absent du corpus alors qu'il n'a tout simplement pas été pris en compte (cf. Annexe Convention ICOR).

7.1.4. Moteur et langage d’interrogation

Plusieurs modèles différents d'implémentation sont en cours d’étude :

7.1.5. Interface et exploitation

L'interface devra présenter à l’utilisateur les phénomènes à rechercher de façon simple pour l'aider à constituer sa requête. Elle reposera soit sur une boîte à outils graphiques soit sur le langage naturel.

Cette interface devra proposer l'ensemble des fonctions disponibles pour inciter à l’exploration d’un éventail le plus large possible des possibilités du langage de requêtes.

Des fonctions d'historisation aideront le chercheur dans sa démarche d'analyse, historique qu'il pourra partager avec d'autres linguistes.

En sortie, les résultats feront l'objet d'une présentation directement exploitable sous la forme d’éditions de transcriptions liées aux séquences vidéos ou à l’audio.

L'outil informatique sera à même de traduire certaines demandes mais il restera des recherches que nous aurons identifiées comme résistant à la modélisation, et que nous essayerions d’inventorier.

7.1.6. Validation

La validation de cette étape consiste à mettre en parallèle la démarche linguistique d'analyse de corpus de LPI avec sa traduction en termes d'enchaînement de requêtes.

7.1.7. état d’avancement

Sur la base d’une première implémentation de la convention ICOR dans l’environnement NITE, une première série de validations avec un jeu de requêtes test sur le corpus « vitrine » Physique a été réalisée (cf. Annexe Liste de requêtes « Linguistique interactionnelle »).

L’évaluation d’autres modèles associés à d’autres implémentations est en cours.

7.2.    Analyses et requêtes

7.2.1. Préalable et objectifs

L’organisation d’une base de corpus dotée d’une architecture particulière et de descripteurs, la standardisation des formats de données (soient-elles sous forme de transcriptions plus ou moins enrichies, ou d’enregistrements audio ou vidéo) et celle des conventions de transcription en vue du développement d’outils de requête, prennent leur sens par rapport à un objectif fondamental : le questionnement et l’exploitation analytiques de ces corpus.

Les principes qui régissent la base CLAPI et les outils élaborés par le projet NOMEX-CLAPI relèvent de l’analyse des interactions et de l’analyse conversationnelle. L'objectif du volet analyses et requêtes du projet consiste à reprendre ce cadre théorique et à développer un environnement technologique particulièrement adéquat pour les corpus de langue parlée en interaction. Il permet ainsi de situer le travail spécifique du groupe ICOR et des approches interactionnistes plus globalement vis-à-vis d’initiatives inspirées d’autres références théoriques.

Le travail effectué dans le cadre du programme dans ce domaine vise donc d’une part à développer des analyses exemplaires de corpus, et d’autre part à expliciter les procédés analytiques de la communauté interactionniste afin de contribuer, dans un travail pluri-disciplinaire, à la conception d’outils de requête adéquats. Il s’agit plus précisément de spécifier comment et dans quelles conditions les analyses interactionnistes, classiquement qualitatives, peuvent être rendues opérationnelles dans le cadre d’analyses quantitatives.

7.2.2. Arrière-plan théorique : linguistique interactionnelle et linguistique de corpus

Les approches théoriques sur lesquelles se fondent les objectifs de recherche à partir de CLAPI visent à articuler deux approches théoriques : celle de l’analyse interactionnelle et celle de la linguistique de corpus.

La linguistique de corpus, telle que développée notamment dans les travaux de Biber, se fonde sur des requêtes quantitatives sur des grands corpus de données écrites et orales (comme le BNC). Dans ce cadre théorique, les analyses se sont développées de façon centrale autour de la prise en compte de structures morpho-syntaxiques et lexique, ainsi que de la question des genres et des registres, au moyen de requêtes portant sur des co-occurrences et de calculs de fréquences. Les analyses spécifiques de l’oral dans ce champ ne sont, en revanche, pas encore très développées.

Les travaux d’analyse interactionnelle se basent sur une méthodologie qualitative, et adoptent une position globalement critique envers les approches quantitatives et les réductions qu’elles impliquent (voir par exemple l’article de Schegloff 1993). Dans cette approche elle-même pourtant, les chercheurs travaillent aussi sur des corpus plus importants, comme par exemple sur les ouvertures de conversations téléphoniques, les compliments, les réparations, les invitations (cf. Schegloff 1968, Pomerantz 1984, Schegloff et al. 1977, Drew 1984). Ils cherchent à mettre au jour des régularités et des récurrences, et, par la constitution d'ensembles d’extraits présentant le même phénomène (les « collections »), ils cherchent à en démontrer la systématicité.

La question qui se pose alors, dans notre perspective d’exploitation des corpus oraux interactifs, est celle du lien qui pourrait être fait entre des analyses quantitatives et des analyses qualitatives consistant à identifier, non des paramètres valables de manière générale, mais des caractéristiques localement identifiables sur la base des enchaînements produits dans l'interaction par les participants. Certains phénomènes, tels l'usage de d'items lexicaux, de certains marqueurs discursifs, les chevauchements, etc., sont relativement faciles à repérer, et donc quantifiables par des procédés automatiques : leur intégration dans les possibilités de requête se conçoit assez aisément. D'autres phénomènes en revanche, tels que la séquentialisation dans le tour de parole, le placement séquentiel d’une forme, les bribes..., sont moins accessibles à des traitements quantificatifs automatiques. Un des buts essentiels du programme est justement de voir comment articuler les requêtes quantitatives avec les phénomènes que seule, jusqu'à ce jour, l'approche qualitative a pu saisir.

Le but de cette réflexion à la fois analytique et épistémologique est une explicitation des principes de l’analyse qui permettront de fonder le développement des modes de requête formalisés sur les corpus.

7.2.3. Travail effectué : des analyses exemplaires

7.2.3.1. Analyses lexicographiques et argumentatives, l’exemple de « quoi »

La mise à disposition de corpus de français parlé en interaction permet d’envisager de produire des analyses lexicographiques portant sur des unités typiques de l’oral soit parce qu’elles n’existent pas en français écrit standard, soit parce qu’elles ont à l’oral des emplois spécifiques. Il devient alors concevable d’effectuer assez rapidement des relevés illustrant de tels emplois, et d'obtenir des occurrences en contexte à la manière des extraits présentés pour l’écrit dans le TLFI (version électronique du Trésor de la Langue Française). De tels inventaires, dressés à moindre coût, ouvrent la voie à des analyses linguistiques relevant de perspectives diversifiées ; c’est ainsi qu’un simple relevé du morphème « quoi » dans trois corpus de la base CLAPI (en situation d’enseignement, de conciliations judiciaires et parajudiciaires) montre la diversité des valeurs de cet élément, dont certaines, selon leur emplacement dans le tour, relèvent d’un usage argumentatif propre au français parlé.

7.2.3.2. Stratégies interactionnelles et grammaticalisation, l’exemple de « attends »

Le groupe ICOR a développé l’analyse de la forme « attends » / « attendez », présentée au congrès SLE2003 en septembre. Cette forme présente l’intérêt de constituer une ressource mobilisée par les participants à différents niveaux de l’organisation de l’interaction : au niveau de l’organisation de l’activité – y compris gestuelle et corporelle -, au niveau de l’organisation de la prise des tours de parole, au niveau de la structuration de tours complexes. Ceci en fait une ressource particulièrement intéressante à étudier pour d’interroger de nombreux niveaux de complexité, allant de la structuration de longues phases d’activité, à celle de la séquence ou des unités de tour et de nombreux autres types de ressources mobilisées en même temps par les participants (co-occurrences de la forme « attends » avec des gestes, des chevauchements, des pauses, des hésitations, des patterns intonatifs, ainsi que d’autres marqueurs linguistiques). Tous ces aspects sont structurés par une orientation constante des participants vers la temporalité et la séquentialité de l’échange, deux dimensions fondamentales de l’organisation de la parole en interaction. Le travail sur « attends » s’est effectué jusqu’ici sur une dizaine de corpus très différenciés (allant de TD de physique à des conversations familières à des réunions de recherche à d’autres interactions institutionnelles). Son analyse permet de contribuer à la définition de « attends » en tant que particule discursive et d’esquisser un processus de grammaticalisation en cours.

7.2.3.3. Explorer l’interface linguistique interactionnelle / linguistique de corpus sur la base du phénomène des chevauchements

Une autre analyse pilote que nous avons réalisé dans le cadre de NOMEX-CLAPI focalise sur un certain nombre de phénomènes de chevauchement. L’intérêt de ce type de structures réside dans le fait qu’elles se prêtent particulièrement bien à une exploration du potentiel heuristique de l’intégration de certaines parties de la linguistique de corpus (par exemple Biber et al. 1998) dans le cadre théorique des approches interactionnistes. Les chevauchements constituent en soi un phénomène fondamental des interactions qui, historiquement, a été très important pour le développement des théories interactionnistes. Il est de surcroît relativement facile à observer de manière isolée tout en étant lié de manière complexe et multiple avec une grande variété d’autres phénomènes interactionnels (production de structures d’hésitation et de répétition, de structures concurrentes, hautement co-construites au niveau prosodique, des comporte­ment non verbaux très marquées etc., cf. par exemple Sacks, Schegloff & Jefferson 1974, Lerner 1989, Schegloff 2001). Les chevauchements ont ainsi fait l’objet d’une série d’études basées sur des collections de cas différenciés et ils font partie des phénomènes dont l’analyse dans le cadre interactionniste a fait recours à des notions plutôt subjectives, basées sur l’expérience du chercheur, de « quantification informelle » (sur les catégories massively occuring, mostly occuring et ordinarily occurring, cf. Schegloff 1993) – ce qui fonde l’intérêt du phénomène dans le cadre d’une étude pilote portant sur le potentiel d’intégration d’éléments théoriques quantitatifs en linguistique interactionnelle. L’objet de notre étude consistait donc à reprendre les résultats des recherches basées sur l’approche de l’informal quantification, de les vérifier au moyen de la démarche classique et de les corréler ensuite avec les résultats de requêtes automatiques manuellement contrôlées réalisées sur un corpus relativement important, entièrement transcrit et balisé en format XML (cf. section 4.2), donc accessible au moteur de recherche NXT-Search (cf. section 7.1). Pour le type d’activité de notre corpus, des interactions en classe, les résultats des recherches citées plus haut se confirment largement. Dans notre cas, cependant, les résultats ont été de plus chiffrés et pourraient ainsi à terme donner des valeurs plus formelles et, dans des limites encore à déterminer, systématiquement asso­ciables comme fondements et corrélats des valeurs subjectives des approches interactionnistes. L’utilisation de nos outils de requête a ensuite permis d’élargir – avec une facilité certaine – l’étude sur les chevauchements au moyen requêtes plus complexes tenant compte, par exemple, des types de participants chevauchant sur un tour de parole d’autrui (en distinguant en plus le type d’interlocuteur), ainsi que des phénomènes systématiquement co-occurrents, tels que certains types de structures prosodiques, des phénomènes gestuels, des occurrences lexiques etc. Par rapport à ce dernier point, l’analyse qualitative sur les usages de « attends » a pu être re-interprété de manière intéressante sur la base d’une évaluation automatisée, quantitative, car le terme apparaît avec une saillance statistique forte comme première occurrence de tours de parole chevauchants.

7.2.4. Travaux en cours : vers une systématisation des requêtes

Les travaux prévus pour la deuxième partie du projet concernent :

1.      Initiation du travail de mise au point d’une série de requêtes typiques en analyse de l’interaction et en analyse conversationnelle, dont les procédés sont à expliciter et à implémenter avec les informaticiens.

2.      Continuation du travail exemplaire sur des phénomènes particuliers, servant non seulement à préparer la formulation des requêtes mais aussi à discuter les conventions de transcription (verbal et non verbal).

Esquisse d’un état des lieux sur la littérature existante sur les corpus. Il s’agit notamment d’identifier les différentes traditions qui ont affaire à des corpus : non seulement la linguistique des corpus (corpus linguistics) mais aussi l’analyse conversationnelle, l’analyse du discours, la syntaxe de l’oral, la dialectologie, la sociolinguistique, la phonétique.   

ICAR Retour          Suite