NOMEX-CLAPI     Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

ICAR    Retour   Suite

1- Présentation génerale
 du projet

2-  Corpus: définitions   et
entités qui s'y rattachent
3-  Traitement des corpus
en vue de leur intégration
dans CLAPI
4- Questions de transcription 5- Outils de transcription et d'analyse de corpus

6- Plate-forme CLAPI 7- Analyses et requêtes

8- Perspectives Bibliographie du programme et générale Annexes Attention accès réservé aux équipes du projet

4.       Questions de transcription

4.1.    Discussion et standardisation des conventions de transcription

4.1.1. Préalables et objectifs

De manière générale, la récupération et l’harmonisation d’anciens corpus, le recueil de nouveaux corpus, la constitution de corpus exemplaires, la préparation de corpus existants en vue de leur exploitation par des outils de requête, posent de manière cruciale la question de l’explicitation et de la standardisation des conventions de transcription.

La situation préexistant au projet NOMEX-CLAPI était de ce point de vue emblématique des difficultés de la tâche :

a) il n’existe pas de convention de transcription standard généralement reconnue pour le français dans le domaine de l’interaction ;

b) au sein du laboratoire GRIC les pratiques de transcription étaient elles aussi très diversifiées, entre les chercheurs de différentes disciplines mais aussi parmi les linguistes travaillant sur l’interaction. Ces différences ne sont pas sans raisons : elles tiennent à la spécificité des objets et encore plus de leurs approches, les conventions de transcription rendant manifestes les appartenances théoriques des chercheurs.

Au sein du projet NOMEX-CLAPI, nous avons concentré une partie importante de nos forces durant la période 2002-2003 à la discussion de ces questions, qui a abouti d’une part à l’établissement d’une convention de transcription partagée entre les membres du groupe, suffisamment explicitée pour être diffusées dans d’autres groupes de recherche et pour être implémentable sur un certain nombre de logiciels de transcription. D’autre part, ce travail a plus généralement permis de dégager des principes d’évaluation et d’élaboration des conventions, permettant de situer cette initiative par rapport à d’autres initiatives analogues, ainsi que des principes pour penser l’incidence des choix en matière de transcription sur les futures modalités d’exploitation de corpus, voire plus généralement sur le développement d’une linguistique interactionnelle « outillée ». Ces réflexions ont été testées sur des corpus exemplaires.

4.1.2. Résultats : éléments de réflexion sur les conventions de transcription

Le travail sur les conventions a concerné les dimensions suivantes :

4.1.2.1. Inventaire et évaluation des pratiques et des conventions en vigueur dans le laboratoire GRIC/ICAR et ailleurs.

Ce travail met en lumière l’articulation étroite entre dimensions pouvant paraître comme hétérogènes entre elles mais qui se révèlent profondément solidaires dès que l’on traite les problèmes de transcription comme relevant d’une pratique de recherche incarnée et située. Cette pratique, en particulier, est caractérisée par des façons de faire acquises par les chercheurs individuellement ou collectivement au fil du temps, par des supports matériels et informatiques contraignant et configurant ces manières de faire, par des traditions théoriques plus ou moins institutionnalisées, par des traditions relevant de la literacy propre à la culture scientifique ainsi que de la culture typographique.

Le bilan de l’existant ne se limite donc pas simplement à un inventaire, mais propose un constat de la diversité des pratiques d’enregistrement et de transcription analytiquement articulé à une prise en compte de l’histoire, de la praxéologie et de l’institutionnalisation de ces pratiques. Cette analyse a concerné les conventions en vigueur anciennement au GRIC, auprès des chercheurs qui s’y sont rattachés plus récemment, et auprès de communautés internationales qui figurent comme une référence dans le domaine (conventions CA de Jefferson, GAT, DuBois, IdS, etc.). (cf. Annexe Conventions de transcription interactionnistes). La comparaison des conventions génère une réflexion sur les phénomènes visés par ces conventions : ces phénomènes peuvent être les mêmes dans des conventions différentes, mais peuvent aussi différer d’un système de convention à un autre, i.e. d’un modèle analytique à un autre.

4.1.2.2. Formulation de critères et de principes

Ce travail d’inventaire et d’analyse réflexive a débouché sur l’élaboration de principes et de critères généraux permettant d'évaluer, de concevoir et de faire évoluer les conventions de transcription.

Traditionnellement, ce sont surtout les critères « ergonomiques » qui sont rappelés dans la littérature : le critère d’économie invite à choisir des symboles simples et facilement maniables, le critère de cohérence à privilégier des notations qui n’entrent ni en contradiction ni en chevauchement entre elles, le critère de lisibilité à adapter les notations aux destinataires visés...

Cependant d'autres principes peuvent être énoncés, plus articulés aux enjeux théoriques et analytiques de la transcription : les premières réflexions d’ICOR peuvent se résumer dans les principes suivants :

le principe de sélectivité porte à l’explicitation des dimensions qui font ou ne font pas l’objet d’une transcription et qui pourront ensuite être dotés de différents niveaux de granularité. Ainsi, par exemple, une transcription peut choisir de prendre en compte la dimension gestuelle, pour la détailler plus ou moins ensuite, et d’ignorer la dimension prosodique. En linguistique interactionnelle, le principe de sélectivité se traduit notamment par le fait que certaines dimensions font obligatoirement l’objet de la transcription (comme la dimension temporelle concernant les relations de simultanéité et de successivité) alors que d’autres sont optionnelles.

le principe de granularité identifie différents niveaux d’approfondissement d’une transcrpition, que ce soit pour un public, pour une étape du travail ou pour un objet spécifique ;

le principe de transformabilité considère qu’une transcription n’est jamais achevée mais tend constamment à être reprise et retravaillée par ses auteurs ou par d’autres, pour être approfondie ou bien pour être simplifiée ou ajustée à un public ou à des usages particuliers - et que les procédures d’implémentation, d’archivage et de mise en forme sur écran et sur papier doivent intégrer cette dimension constitutivement dynamique ;

le principe d’évolutivité ne prend pas seulement en considération le fait que la transcription subit incessamment des transformations mais aussi que les conventions elles-mêmes peuvent changer, par exemple en s’adaptant à une problématique particulière ou en se différenciant pour prendre en compte des phénomènes redéfinis dans une nouvelle perspective analytique.

le principe de transférabilité précise les critères de robustesse en réponse à l’exigence de a) produire des transcriptions qui puissent migrer d’une plate-forme informatique à une autre, d’un logiciel à un autre, d’un format de surface à un autre sans perdre les enrichissements successifs qu’on pourra en proposer sur différents supports, et b) assurer ainsi l’interprétation des conventions dans différents formats informatiques (par ex. spécification Xi de Nite, Clan, Praat, etc.).

La prise en compte de ces principes permet d'envisager à la fois la flexibilité qui fait la qualité des transcriptions et même temps leur pérennisation. En outre, la prise en compte de ces principes permet d’énoncer des critères de choix face à des impératifs et des estimations de coût lorsqu’il s’agit d’établir ou de mettre à niveau des transcriptions.

La réflexion sur les principes fondant la conception de conventions et de pratiques de transcription ne s’est pas limitée à des caractéristiques générales, mais s’est concentrée aussi sur la spécificité des transcriptions établies dans une perspective interactionnelle. Celle-ci insiste avant tout sur la préservation des dimensions temporelles et séquentielles de la parole-en-interaction - d’où son insistance sur les relations de succession, de simultanéité, de durée.

4.1.2.3.  Proposition d’une convention de transcription standardisée

Ces réflexions préalables ont porté à l’établissement de conventions partagées par les membres d'ICOR qui soient utilisées par eux, diffusées dans les enseignements et la formation des chercheurs et mises à l’épreuve dans la constitution de corpus exemplaires. Ces conventions concernent un bon niveau de base; elles sont le fruit d'un accord pratique et révisable mais qui constitue désormais une excellente base pour un travail de standardisation. Elles sont le produit d'une démarche participative sur ce thème, au cours de laquelle les choix des catégories, la définition de leur manifestation dans des formes observables, ainsi que le choix d’un signe conventionnel ont été discutés collectivement un par un (cf. Annexe Convention ICOR, qui comprend la convention avec une définition et une explicitation des phénomènes traités).

L’élaboration de ces conventions va de pair avec leur implémentation informatique dans le format Xi (voir Annexes Le format Xi Implémentation ICOR ; Le format Xi Diagramme).

4.1.2.4. Conventions, cadre analytique et styles de présentation des transcriptions

L’élaboration de ces conventions émane d’une réflexion sur les spécificités des phénomènes traitées en linguistique interactionnelle - concernant notamment la représentation de la temporalité et de la séquentialité et les détails dont la prise en compte est indispensable pour une analyse interactionnelle.

Cette spécificité est prise en compte dans l’établissement de la convention tout en pouvant être exprimée dans des conventions différentes : dans ce sens, nous avons été amenés à distinguer entre un inventaire hiérarchisé de phénomènes - exemplifiés et définis aussi précisément que possible - et différents styles de surface dans lesquels ils peuvent être exprimés. Ce dernier aspect permet de poser deux questions importantes, l’une concernant la conversion possible d’une convention à une autre, l’autre concernant les différentes présentations stylistiques envisageables à partir d’une convention particulière (tenant compte aussi de contraintes éditoriales).

4.1.2.5.  Objectifs futurs

Ces travaux constituent la base pour trois objectifs à réaliser à plus long terme:

a) le développement des conventions pour le niveau avancé est en cours et prendra notamment en compte la dimension gestuelle et actionnelle.

b) l’évolution du format Xi sera pensée de manière à ce qu’il assure l’interprétation informatique des nouvelles catégories et des nouveaux phénomènes qui seront introduits dans la convention.

c) la définition progressive de requêtes spécifiques à l'analyse interactionnelle, pouvant être effectuées sur la base de documents structurés, est elle aussi en cours.

4.2.    Mise à l’épreuve sur un corpus exemplaire, « Physique92/03 »

Afin de vérifier et implémenter le travail de réflexion sur les transcriptions, une transcription exemplaire a été réalisée sur un corpus « vitrine » (voir Annexe Extraits corpus exemplaire « Physique »).

Le corpus sélectionné est constitué de trois fragments d’enregistrements vidéo réalisés par l’équipe COAST, d'environ 20 minutes chacun, datés d’il y a environ 10 ans, 5 ans et d'aujourd'hui. Une transcription alignée (audio et vidéo) systématique en a été réalisée par l’Equipe Médiathèque.

4.2.1. Objectifs

4.2.2.  Critères de choix

Ce corpus a été choisi en tenant compte des critères suivants :

4.2.3. Fragments ayant actuellement fait l’objet d’une transcription


ICAR Retour          Suite