NOMEX-CLAPI     Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

ICAR    Retour   Suite

1- Présentation génerale
 du projet

2-  Corpus: définitions   et
entités qui s'y rattachent
3-  Traitement des corpus
en vue de leur intégration
dans CLAPI
4- Questions de transcription 5- Outils de transcription et d'analyse de corpus

6- Plate-forme CLAPI 7- Analyses et requêtes

8- Perspectives Bibliographie du programme et générale Annexes Attention accès réservé aux équipes du projet

2.       Corpus : définitions et entités qui s'y rattachent

2.1.    Le corpus

Le projet CLAPI a été élaboré pour des corpus tels qu'ils sont conçus dans le champ de l'analyse des interactions et de la linguistique interactionnelle. Dans ce cadre, les corpus sont des ensembles d'interactions présentant une certaine homogénéité. L'homogénéité qui fonde le corpus peut provenir :

Comme le montre cette liste non exhaustive, les corpus peuvent être fondés sur des bases très variées. C'est une des caractéristiques que la base de données doit être capable de traiter sans l'appauvrir.

Un corpus se compose de différents éléments :

La conception d'une base de données a conduit à créer et à définir deux autres entités, qu'il importe de définir précisément, chacune d'entre elles étant susceptible, dans certains contextes, d'être désignée par le terme « corpus ». Ces entités construites à partir de l'objet source qu'est le corpus tel qu'il est défini ci-dessus sont : les unités documentaires de la base CLAPI ; des pièces archivées dans la bibliothèque CLAPI.

On distinguera donc clairement a) le corpus et b) les entités matérialisées et instanciées dans les banques de données et dans les archives. Ces dernières (les unités documentaires de la base CLAPI ; des pièces archivées dans la bibliothèque CLAPI) ne sont pas nécessairement organisées par rapport à la définition du corpus donnée ci-dessus, et ne doivent pas être confondues avec elle.

On distinguera par ailleurs aussi les matériaux soumis à l'analyse, qui constituent des entités a priori non répertoriées comme telles dans la base, mais qui dans certains champs de recherche sont, elles aussi, appelées « corpus » (sous-ensemble du corpus tel qu'il est défini au § 4, constitué à des fins de recherche et en réponse à une question particulière).

2.2.    Les unités documentaires dans la base CLAPI

L'unité documentaire simple

Dans la base CLAPI, l'unité documentaire simple comprend le corpus (objet source) et deux autres types d'éléments :

- une fiche descriptive (sur la base des descripteurs, voir Annexe Liste simplifiée des descripteurs) ;

- les conventions de transcription ;

- une bibliographie des études effectuées sur ce corpus.

- un échantillon des données primaires et des données secondaires, en accès libre

- les publications liées au corpus

Les fonds

La base a conçu la possibilité d'associer des corpus entre eux, on parle alors de fonds. Ils correspondent à ce jour uniquement à des legs / don par une personne d'un ensemble de corpus qu'il importe d'identifier comme tels (exemple fonds Ahlborn, de Gaulmyn, Bange, Cosnier)

2.3.    Les pièces archivées

La constitution de la base a impliqué la création d'une bibliothèque contenant des éléments liés aux corpus qui ne sont pas intégrés dans la base pour des raisons pratiques (faisabilité de la numérisation par exemple), juridiques (liées au type de données primaires concernées) ou encore pour des raisons de pérennité.

Dans la bibliothèque d'archives, chaque corpus correspond à une entité complexe, composée de :

2.4.    Les matériaux soumis aux analyses

Les matériaux soumis aux analyses, à partir de CLAPI, sont le corpus et sa fiche descriptive. Ils sont la base sur laquelle sont effectuées des opérations de requête et sélection, qui conduisent à la constitution de sous-corpus (ou collections). Ces derniers ne sont pas constitués comme unités documentaires dans la base : ils sont définis par des questions de recherche particulières et ne sont pas pérennisés.

Une fois intégrés dans les unités documentaires définies par CLAPI, les corpus deviennent traitables, dans une certaine mesure, comme des corpus au sens de la linguistique de corpus : « des collections de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d'échantillon du langage. » (Sinclair, 1996 : 4)

La différence qui subsiste tient aux modalités de confection des corpus, qui correspondent aux objectifs de recherche spécifiques à l'analyse des interactions.

Dans le sens de la linguistique de corpus, les corpus sont des échantillons construits en relation avec deux types de critères : a) des critères sociolinguistiques (concernant les descripteurs), visant une représentativité des domaines, des contextes, des genres, des locuteurs, b) des critères linguistiques (concernant le corps des données) visant une représentativité de la variété des formes linguistiques observables dans une langue donnée.

Aucun des corpus de LPI à ce jour répertorié dans la base CLAPI n'est conçu pour servir d'échantillon représentatif du langage. L'ensemble de la base, quant à elle, n'entend pas non plus couvrir la totalité des usages langagiers.     




Sinclair, J. (1996) : Preliminary recommendations on Corpus Typology, Technical report, EAGLES (Expert Advisory Group on Language Engineering Standards)           

ICAR Retour          Suite