ANCIEN TEXTE
Conseil de gestion
Le conseil de gestion de la plate-forme CLAPI est composé des membres du groupe ICOR. Son responsable est le directeur de l’UMR 5191 ICAR.
Le conseil de gestion veille aux droits et devoirs liés à l’hébergement des corpus, notamment au respect de la vie privée des personnes enregistrées, ainsi qu’à la protection de la propriété intellectuelle des auteurs des corpus. A ce titre, il peut conseiller les responsables sur les aspects juridiques et éthiques liés à l’hébergement et à la diffusion de leurs corpus.
Le conseil de gestion valide l’intégration des corpus. Les membres du conseil de gestion ont donc ponctuellement accès à l’ensemble des données de la plate-forme, mais ils ne sont pas autorisés à les utiliser à des fins scientifiques personnelles.
Le conseil de gestion intervient également lors des demandes d’accès aux corpus : en concertation avec les responsables, il définit les modalités de prêt et d’échange des corpus et attribue des droits d’accès. Le responsable du conseil de gestion est cosignataire des conventions d’échange.
Le conseil de gestion est également responsable de certains corpus légués à CLAPI et de l’ensemble des extraits, dont les droits de diffusion lui ont été accordés par les responsables de corpus.
Responsable
Tout corpus déposé dans CLAPI doit avoir un responsable. Il est le dépositaire du corpus dans la base. La désignation de la personne du responsable pour les corpus relevant de plusieurs co-auteurs suppose un accord entre eux ; en cas de conflit, CLAPI verrouille tout accès à ce corpus.
Le rôle du responsable de corpus intervient au niveau du respect de la propriété intellectuelle des acteurs qui ont contribué à la confection du corpus, au niveau des droits des personnes enregistrées, et au niveau des modes d ’accès consentis aux données :
– Le responsable de corpus est garant du respect de la propriété intellectuelle des divers co-auteurs. Il doit donc mentionner leurs contributions respectives (en tant que collecteur, transcripteur,…) lors de la saisie des descripteurs du corpus.
– En concertation avec CLAPI, le responsable doit également s’assurer que le recoupement entre les informations contenues dans les descripteurs du corpus ou entre ces informations et les autres données (enregistrements, documents annexes et transcriptions) ne conduit pas à une éventuelle levée de l’anonymat et donc à une violation du respect des droits des personnes enregistrées.
– En définissant les droits d’accès aux données hébergées dans CLAPI, le responsable veille à la protection de la vie privée des personnes enregistrées ou citées dans le corpus. Sur les données en accès libre (échantillon) ou interrogeables sans restriction d’accès (extraits), le responsable fixe les conditions d’anonymisation de ces données. Il peut alors être conduit à autoriser un accès restreint à certaines données primaires (par exemple à ne mettre en ligne que le signal audio bipé d’un enregistrement filmé, ou que la transcription sans données primaires).
Lors des demandes d’accès à ses données, le responsable sélectionne les matériaux dont il autorise la consultation selon des critères à la fois scientifiques, éthiques et juridiques.
Utilisateur
– visiteur
L’accès à la plate-forme CLAPI ne nécessite pas d’identification préalable : toute personne peut se connecter en tant qu’utilisateur « visiteur » pour feuilleter les corpus par la consultations des métadonnées, télécharger les échantillons, accéder au lexique de l’ensemble des transcriptions présentes dans CLAPI, utiliser les fonctions « analyse » et « requêtes » sur les extraits et les transcriptions libres.
– contractuel
Un utilisateur contractuel a signé une convention de recherche avec un ou plusieurs responsables de corpus et avec le responsable du conseil de gestion de CLAPI.
En échange d’un contre-don, cette convention lui permet, via l’attribution d’un mot de passe, soit d’interroger des transcriptions « réservées », avec un accès éventuel au signal, soit de télécharger des données « réservées ».
Echantillon
Les échantillons d’enregistrements et de transcriptions (au minimum 1 minute par corpus) choisis par le responsable sont accessibles et téléchargeables librement.
Extrait
Les extraits d’enregistrements et de transcriptions (au minimum 7 minutes par corpus) sont les passages choisis par le responsable du corpus pour alimenter le stock des données interrogeables librement par les outils de requête de la base. Le téléchargement de ces données n’est pas autorisé ; elles ne sont consultables qu’à travers les requêtes (ou après signature d’une convention pour accéder au corpus). Les données consultables peuvent représenter un fragment ou la totalité de l’enregistrement, et se présenter sous forme de données primaires et secondaires, ou uniquement sous la forme de transcriptions.
Cette approche permet à la communauté de bénéficier de la diversité des corpus présents dans CLAPI, de prendre en compte lors des phases d’analyses de contextes d’interactions variés, et de garantir ainsi une « représentativité » des données libres par rapport à l’ensemble de la banque de données.
Plate-forme CLAPI
La plate-forme CLAPI est constituée d’une banque de données de corpus oraux (données primaires et secondaires) et d’applications informatiques dédiées à son exploitation (outils d’analyse et de requête, moteurs de recherche, concordanciers).
Alignement
L’alignement consiste à associer un segment de transcription (donnée secondaire) avec les données primaires qui lui correspondent, qu’il s’agisse de son, de vidéo ou de texte. Cette opération peut être réalisée grâce à plusieurs logiciels (Praat, CLAN, ELAN, Transana, Anvil, Transcriber…) ou par les outils propres à CLAPI.
Corpus
Dans le champ de l’analyse de l’interaction, les corpus sont constitués d’objets multimédias documentant une ou plusieurs interactions. Ces interactions constituent un corpus dans la mesure où elles présentent une certaine homogénéité qui peut provenir :
– d’une unité de site (le corpus rassemble alors un ensemble d’interactions enregistrées dans un même lieu, par exemple un commerce),
– d’une unité de « terrain », un terrain pouvant comporter plusieurs sites (par exemple, une enquête de terrain sur les dossiers cliniques des patients peut articuler des interactions dans des lieux aussi divers qu’à l’accueil de l’hôpital, au cabinet de consultation, au laboratoire d’analyse, à la salle de réunion où se prennent les décisions, etc.),
– d’une unité d’activité ou de genre interactionnel (par exemple des conversations lors de repas entre amis, des conversations durant des trajets en voiture, des négociations chez des notaires dans le cadre de procédures de divorce),
– d’une unité liée aux participants (par exemple des corpus longitudinaux constitués en suivant un apprenant dans différents contextes),
– d’une unité issue de l’application d’un même protocole de collecte (par exemple, corpus de Rédactions Conversationnelles où des interactants construisent ensemble un texte, activités à distance médiatisées par un ordinateur dont on documente aussi les traces informatiques).
Dans la plate-forme CLAPI, un corpus est composé des :
– données primaires : les enregistrements (audio ou vidéo), parfois accompagnés d’éléments prélevés dans la situation (par exemple documents produits ou utilisés par les participants)
– données secondaires : les représentations des données primaires, notamment les différentes formes de transcription, accompagnées de leurs conventions de transcription, d’autres annotations, éventuellement, les notes de terrain du collecteur.
– métadonnées : description du corpus à partir de 75 descripteurs.
– données documentaires : une bibliographie des études effectuées sur ce corpus ; un échantillon des données primaires et secondaires, en accès libre dans la base ; un extrait plus conséquent des données primaires et des données secondaires, non téléchargeable mais requêtable librement.
Les corpus sont également archivés dans la médiathèque CLAPI qui contient les données hébergées dans la banque de données mais également d’autres éléments documentant les corpus dont la consultation n’est possible qu’avec l’accord des responsables de corpus (enregistrements originaux, versions compressées, données brutes, originaux des documents produits ou utilisés par les participants, versions originales des transcriptions, versions anonymisées, toilettées et/ou adaptées CLAPI des transcriptions, conventions de transcriptions révisées, notes de terrain du chercheur, autorisations signées par les participants).
Données primaires
Les données primaires d’un corpus sont constituées :
– des enregistrements audio et/ou vidéo (sous la forme d’une ou plusieurs sources, synchronisées ou non, plus ou moins compressées, anonymisées ou non) ;
– des artefacts, documents, textes mobilisés par les interactants et prélevés dans la situation (cartes, textes, traces informatiques produits ou utilisés par les participants).
Données secondaires
Les données secondaires d’un corpus sont constituées de différentes représentations des données primaires :
– les transcriptions (qui peuvent être de différentes formes, présenter différents degrés de granularité, et être ou non alignées au moyen de divers logiciels) et les annotations (idem) ;
– les conventions de transcription régissant les transcriptions ;
– les notes de terrain du collecteur.
Métadonnées
Les métadonnées réunissent les informations permettant de décrire un corpus, des conditions de son recueil aux caractéristiques des interactions qui le composent.
Les métadonnées concernent notamment :
– les modes de collectes,
– les acteurs concernés (participants, collecteurs, transcripteurs, etc.),
– la caractérisation du corpus en termes de genre interactionnel, de nombre de participants, etc.
– les informations relatives à la composition des données primaires et secondaires (durée des enregistrements, transcriptions, documents collectés, etc.).
Dans la plate-forme CLAPI, les corpus sont décrits par 75 descripteurs.
Données documentaires
Dans la plate-forme CLAPI, les données documentaires sont constituées de :
– la bibliographie du corpus (liste des études effectuées sur ce corpus),
– un échantillon des données primaires et secondaires, en accès libre dans la base,
– un extrait plus conséquent des données primaires et des données secondaires, non téléchargeable mais requêtable librement.
Multimodal, multimodalité
Multimodalité désigne la pluralité des ressources utilisées par les participants à l’interaction et observables par le chercheur : ces ressources englobent, outre la dimension verbo-vocale, les regards, les gestes, les postures du corps, les déplacements et mouvements, les manipulations d’objets matériels ou virtuels.
On parle de données multimodales pour celles qui donnent accès à ces différentes dimensions, généralement à travers l’utilisation d’enregistrements vidéo.
On parle d’analyses multimodales pour celles qui intègrent plusieurs de ces dimensions.
Phénomène
Dans la plate-forme CLAPI, les phénomènes sont les éléments caractéristiques de l’oral en interaction, représentés dans les transcriptions, balisés en XML et pris en compte dans les analyses automatiques. Ce sont par exemple le chevauchement de parole ou la pause.
Production verbale (pv)
Une production verbale est la suite de tokens rattachée à un identifiant de locuteur apparaissant en début de ligne dans la transcription.
Une nouvelle pv commence à chaque nouvelle apparition d’un identifiant de locuteur. C’est une unité qui répond aux besoins d’une analyse automatique et qui ne correspond pas au tour de parole de la linguistique interactionnelle.
Le tour de parole – tel que défini dans les analyses de la linguistique interactionnelle – est une unité difficilement identifiable automatiquement : c’est en effet une unité émergente dans le temps et dans le fil du déroulement incrémental de la parole d’un participant, configurée par les contributions des co-participants et s’ajustant progressivement à eux. Le tour, ainsi que les unités de construction du tour (UCT, Turn-Constructional Units TCU) qui le composent, sont des entités flexiblement déterminées par les participants, qui non seulement les accomplissent mais peuvent en changer rétrospectivement le caractère complet ou incomplet (Sacks, Schegloff, Jefferson, 1974 ; Schegloff, 1996 ; Selting, 2000 ; Ford, 2005).
La production verbale n’est pas définie par cette dimension temporelle et séquentielle : elle est simplement délimitée par le changement d’identifiant de locuteur dans la transcription.
Token
La distinction « type/token » ou « type/occurrence » est due au philosophe américain Charles Sanders Peirce (1839-1914). Un type est une notion générale, alors qu’un token est une occurrence particulière du type.
Dans la plate-forme CLAPI, un token est un mot dans une transcription, délimité par un espace. Parler de « token » plutôt que de « mot » permet de distinguer le nombre total de mots apparaissant dans une transcription (les tokens) du nombre de mots différents (les types).
L’utilisation de l’orthographe adaptée dans les transcriptions d’interactions peut rendre difficile la reconnaissance de deux tokens comme relevant du même mot (type), par exemple i‘ et ils ou ‘fin et enfin, et a nécessité le développement d’un outil spécifique, permettant de reconnaître un type au-delà des variations de notation.
Balisage xml des transcriptions
Cette opération consiste à encadrer par des balises les éléments d’une transcription pour les identifier afin de pouvoir les soumettre à un traitement informatique automatique, quelle que soit la manière dont ces éléments sont notés dans la transcription.
Ainsi une pause notée (.) deviendra :
< Pause type= »courte » rang= »… »>(.)</Pause>
Les balises sont dotées de propriétés qui caractérisent l’élément balisé. Par exemple le type et le rang dans la balise ci-dessus sont des propriétés de la balise pause. Ainsi balisée, cette pause sera trouvée dans les données en réponse aux requêtes ‘trouver les pauses courtes suivies ou précédées de …’.
Balises
Moyen graphique d’identifier au sein d’un texte un élément donné par un nom, de lui attribuer des propriétés en vue d’un traitement automatique de type « recherche ». Les balises sont intégrées au texte originel et encadrent l’élément à identifier comme suit :
< Nom_balise nom_propiété1= »… » nom_propiété2= »… »>élément_ identifié</Nom_balise>
cf exemple précédent d’une pause :
< Pause type= »courte » rang= »… »>(.)</Pause>.
Compression
Opération qui consiste à réduire la taille occupée par des données numériques. Le principe général de la compression consiste à éliminer les informations redondantes ou non significatives des données.
On peut classer les méthodes de compression en 2 catégories selon qu’elles soient destructives ou pas :
– La compression sans pertes (lossless) également appelée compression non destructive. On applique dans ce cas des algorithmes qui vont réduire la taille du média sans altérer sa qualité (aucune perte d’informations). .
– La compression destructive suppose l’élimination définitive de certaines informations considérées comme non « représentatives ». Par exemple dans le cas d’un extrait audio on supprimera les fréquences non perceptibles par l’oreille humaine, les silences….
Les techniques de compression (codec – COdeur/DECodeur) sont basées sur des algorithmes mathématiques plus ou moins complexes. Une des plus utilisée consiste à décrire un ensemble d’informations homogènes (par exemple un fond de couleur unie) en tant que bloc. Sans compression, il faudrait décrire chaque élément constituant le fond (les pixels) de manière individuelle.
Ainsi il est plus court d’écrire : les 120 premiers pixels de l’image sont blancs que :
Le 1 pixel est blanc, de 2ième pixel est blanc, le 3ième pixel est blanc…
Format propriétaire
Un logiciel informatique peut stocker les données qu’il traite soit dans un format standard, soit dans un format propriétaire. S’il est standard, les résultats pourront directement être échangés avec d’autres applications informatiques, s’il est propriétaire les données ne seront échangées qu’après avoir fait l’object d’une procédure de traduction via une opération d’exportation/importation.
En bureautique, les documents DOC sont dans un format propriétaire spécifique à l’application Word de Microsoft, alors que RTF est un format ouvert à un ensemble de logiciels bureautiques.
Format pivot ou format d’échange
Il s’agit d’un format ‘intermédiaire’ dans lequel les données issues de logiciels différents peuvent être traduites pour être retravaillées ensuite dans un autre logiciel. Cette traduction génère parfois des pertes d’informations, et demande de suivre les différentes versions des différents logiciels.
En bureautique, le format RTF est compris et lu par différents logiciels de traitement de texte, comme Word par exemple.
Interopérabilité
Un système est qualifié d’interopérable si les données qu’il produit/génère/transforme sont directement réutilisables par d’autre systèmes ; on peut parler aussi de ‘compatibilité’. En informatique, les données sont interopérables si elles peuvent être échangées entre divers systèmes d’exploitation (windows, linux, mac, etc.), voire entre applications informatiques de conception différente (par exemple différents logiciels de transcription), etc.
La question de l’interopérabilité est souvent associée à celles des ‘normes’ ou des ‘standards’ que chacune des applications va respecter dans sa propre organisation afin de garantir l’échange des données. Garantir l’interopérabilité demande d’adopter et adapter les standards et leurs évolutions pour les implanter de manière adéquate dans sa propre application ; l’interopérabilité permet en retour de bénéficier des données issues d’autres systèmes pour les traiter dans son application.