Retour vers la page d'accueil
Vers ICAR
Accueil > Intégration > Baliser
Imprimer

Baliser

Objectif

Le balisage XML des transcriptions permet de s'affranchir des conventions différentes avec lesquelles les interactions ont été transcrites, des niveaux de granularité variables, tout en conservant la notation graphique pour restituer, au cours de l'analyse, la transcription d'origine.
Le format XML est particulièrement adapté à une représentation arborescente et optionnelle des événements comme les phénomènes oraux rencontrés dans nos corpus oraux.

Pour garantir l'interopérabilité des transcriptions balisées, a été développée une sortie en TEI (cf Standardisation), en parallèle du balisage propre à CLAPI, selon le projet P5 et son chapitre 11 dédié à l'oral.

Cette solution permet de ne pas attendre les évolutions de la TEI pour poursuivre l'avancée des travaux sur la plate-forme, de garantir la pérennité des outils informatiques mis en oeuvre, en restant proches des standards. Bien entendu, à chaque évolution du balisage CLAPI, la faisabilité de cette évolution en TEI est vérifiée.

Solution

L'équipe médiathèque identifie manuellement les phénomènes présents dans la transcription et leur représentation graphique, à l'aide de son expertise et de la convention détaillée fournie par le transcripteur.
A partir de cette identification, la transcription XML est automatiquement générée, intégrée à CLAPI et disponible pour les analyses et requêtes de manière complètement transparente.

Conditions d'accès

L'identification des phénomènes est réservé à l'équipe médiathèque qui centralise les transcriptions et, par son expertise et son expérience, détecte les phénomènes ou tokens qui pourraient poser des problèmes dans les analyses. L'équipe médiathèque soumet au responsable les éventuelles modifications qu'elle a dû effectuer et vérifie les résultats avec le responsable (alignement...)

Les différentes étapes d'intégration des transcriptions dans CLAPI

A partir de la transcription d'origine timée :

=> Etape 1 :Identification manuelle, par la Médiathèque, des caractères graphiques utilisés par le transcripteur pour noter les ph énomènes

=> Etape 2 :Génération AUTOMATIQUE de la transcription en XML

=> Etape 3 :Vérification, par la Médiathèque, du résultat obtenu: liste cohérente des tokens, rapprochement forme d'origine/forme générique, détail des descriptions, nombre de pauses courtes/longues/quantifiées, nombre de chevauchements, visualisation de la transcription telle qu'elle sera affichée à l'utilisateur dans le concordancier

=> Etape 4 :Accord du responsable du corpus

=> Etape 5 :Mise en ligne par la Médiathèque


Extrait de transcription balisée dans CLAPI

 

 

Pour citer cette page : groupe ICOR 2006, titre de la page, site CORINTE
http://icar.cnrs.fr/projets/corinte/