{"id":324,"date":"2017-03-17T17:51:35","date_gmt":"2017-03-17T16:51:35","guid":{"rendered":"http:\/\/www.icar.cnrs.fr\/sites\/corinte\/?page_id=324"},"modified":"2021-09-22T10:02:11","modified_gmt":"2021-09-22T08:02:11","slug":"les-infrastructures-numeriques-de-mutualisation-de-corpus","status":"publish","type":"page","link":"https:\/\/icar.cnrs.fr\/corinte\/les-infrastructures-numeriques-de-mutualisation-de-corpus\/","title":{"rendered":"Les infrastructures num\u00e9riques de mutualisation de corpus"},"content":{"rendered":"<p>&nbsp;<\/p>\n<p><span style=\"font-weight: 400\">Le recueil de donn\u00e9es, la constitution du corpus, le recours \u00e0 des outils de traitement et analyse des donn\u00e9es constituent d\u00e9sormais une part cruciale de l\u2019activit\u00e9 scientifique des chercheur.e.s en Sciences Humaines et Sociales. La constitution et l\u2019annotation des corpus oraux se r\u00e9v\u00e8lent particuli\u00e8rement complexes et longues \u00e0 r\u00e9aliser, il appara\u00eet donc judicieux de rendre disponibles de telles donn\u00e9es \u00e0 la communaut\u00e9 scientifique pour permettre \u00e0 d\u2019autres chercheurs de les r\u00e9utiliser pour diff\u00e9rentes \u00e9tudes.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">La r\u00e9utilisation des corpus oraux n\u00e9cessite de bien les documenter par un jeu de m\u00e9tadonn\u00e9es adapt\u00e9 \u00e0 la recherche, de d\u00e9livrer les enregistrements (audio ou vid\u00e9o) et les annotations (transcriptions, annotations automatiques, \u2026) dans un format facilement r\u00e9utilisable\u00a0 sans avoir besoin de conna\u00eetre de logiciels sp\u00e9cifiques, de choisir une licence de diffusion largement utilis\u00e9e dans la communaut\u00e9 et ne bloquant pas l\u2019usage \u00e0 une p\u00e9riode donn\u00e9e ou \u00e0 une liste nominative de chercheurs ou d\u2019\u00e9quipes. Une fois ce travail effectu\u00e9, la derni\u00e8re \u00e9tape consiste \u00e0 d\u00e9poser les m\u00e9tadonn\u00e9es et les donn\u00e9es dans une archive p\u00e9renne accessible \u00e0 la communaut\u00e9 scientifique en France et \u00e0 l\u2019\u00e9tranger.<\/span><\/p>\n<p><b>Cette \u00e9tape d\u2019archivage des corpus oraux dans une infrastructure nationale est indispensable <\/b><span style=\"font-weight: 400\">pour pr\u00e9server le travail cons\u00e9quent de constitution des corpus oraux m\u00eame si les corpus sont h\u00e9berg\u00e9s par ailleurs dans une base de donn\u00e9es du laboratoire ou d\u2019un projet de recherche qui ne constitue pas une archive p\u00e9renne, les sites web locaux n\u2019\u00e9tant pas toujours accessibles quelques ann\u00e9es apr\u00e8s la fin d\u2019un projet. L\u2019archivage dans une infrastructure nationale garantit par ailleurs une meilleure visibilit\u00e9 des corpus en France et \u00e0 l\u2019\u00e9tranger.<\/span><\/p>\n<div class=\"page\" title=\"Page 9\">\n<div class=\"layoutArea\">\n<div class=\"column\">\n<p style=\"text-align: center\"><span style=\"color: #33cccc\">*****<\/span><\/p>\n<p style=\"text-align: center\"><span style=\"color: #33cccc\"><b>Les infrastructures nationales<\/b><span style=\"font-weight: 400\">\u00a0<\/span><\/span><\/p>\n<hr \/>\n<p style=\"text-align: center\"><span style=\"color: #33cccc\"><strong>ORTOLANG : plateforme d\u2019archivage\u00a0 des corpus de linguistique et des outils, Nancy<\/strong><\/span><\/p>\n<p><span style=\"font-weight: 400\">La France a propos\u00e9 d\u00e8s les ann\u00e9es 2010 diff\u00e9rentes solutions d\u2019archivage p\u00e9renne pour les corpus de linguistique, dans un premier temps avec les centres de ressources Cocoon et SLDR, puis actuellement avec l\u2019\u00e9quipex <\/span><a href=\"https:\/\/www.ortolang.fr\/\"><span style=\"font-weight: 400\"><span style=\"color: #0000ff\">ORTOLANG<\/span><\/span><\/a><span style=\"font-weight: 400\">, un \u00e9quipement d\u2019excellence valid\u00e9 dans le cadre des<\/span> <span style=\"font-weight: 400\">investissements d\u2019avenir, qui permet l\u2019archivage des donn\u00e9es de linguistique ainsi que des outils.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Les corpus archiv\u00e9s dans ORTOLANG ont vocation \u00e0 \u00eatre diffus\u00e9s m\u00eame s\u2019ils peuvent dans un premier temps rester en acc\u00e8s restreint pour les besoins d\u2019une th\u00e8se ou d\u2019une publication. Le chercheur b\u00e9n\u00e9ficie d\u2019un accompagnement personnalis\u00e9 et de conseils pour l\u2019aider \u00e0 d\u00e9poser ses donn\u00e9es.<\/span><\/p>\n<p style=\"text-align: justify\"><span style=\"font-weight: 400\">ORTOLANG est un service sp\u00e9cialis\u00e9 pour la linguistique, compl\u00e9mentaire de l&rsquo;offre g\u00e9n\u00e9rale propos\u00e9e par<\/span><a href=\"http:\/\/www.huma-num.fr\/\"><span style=\"font-weight: 400\"><span style=\"color: #0000ff\"> Huma-Num<\/span><\/span><\/a><span style=\"font-weight: 400\"> dans les <\/span><span style=\"font-weight: 400\">sciences humaines et sociales.<\/span><\/p>\n<div class=\"media\">\n<div class=\"media-body\">\n<hr \/>\n<p style=\"text-align: center\"><span style=\"color: #33cccc\"><b>Huma-Num : ensemble de services en Sciences Humaines et Sociales, Paris et Lyon<\/b><\/span><\/p>\n<p><a href=\"http:\/\/www.huma-num.fr\/\"><span style=\"font-weight: 400\"><span style=\"color: #0000ff\">Huma-Num<\/span><\/span><\/a><span style=\"font-weight: 400\"> (Tr\u00e8s Grande Infrastructure de Recherche) en sciences humaines et sociales met \u00e0 disposition de la communaut\u00e9 un ensemble de services pour le stockage, le traitement, l&rsquo;exposition, le signalement, la diffusion et la conservation sur le long terme des donn\u00e9es num\u00e9riques de la recherche en sciences humaines et sociales. Le stockage des corpus oraux est r\u00e9alis\u00e9 dans Cocoon, COllections de COrpus Oraux Num\u00e9riques, avant son archivage \u00e0 long terme.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Huma-Num pilote des consortiums qui regroupent plusieurs unit\u00e9s et \u00e9quipes de recherche autour de th\u00e9matiques et d&rsquo;objets communs pour lesquels ils d\u00e9finissent des proc\u00e9dures et standards num\u00e9riques partag\u00e9s (m\u00e9thodes, outils, partages d&rsquo;exp\u00e9riences).<\/span><\/p>\n<hr \/>\n<p style=\"text-align: center\"><span style=\"color: #33cccc\"><b>CORLI :\u00a0 consortium CORpus Langues et Interactions, Paris<\/b><\/span><\/p>\n<p><a href=\"https:\/\/corli.huma-num.fr\/\"><span style=\"font-weight: 400\"><span style=\"color: #0000ff\">CORLI<\/span><\/span><\/a><span style=\"font-weight: 400\">, consortium pilot\u00e9 par Huma-Num, f\u00e9d\u00e8re les \u00e9quipes et laboratoires de recherche engag\u00e9s dans la production et le traitement des corpus num\u00e9riques \u00e9crits et oraux, quels que soient les langues et\/ou les syst\u00e8mes d\u2019\u00e9criture, et a pour principaux objectifs :<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">le recensement et la mutualisation des m\u00e9thodes, des pratiques et des outils pour d\u00e9finir des proc\u00e9dures et des standards<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">le d\u00e9veloppement et la valorisation des ressources existantes pour augmenter leur visibilit\u00e9 et faciliter leur r\u00e9utilisation<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">l\u2019organisation de formations et d\u2019ateliers<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">l\u2019aide \u00e0 la finalisation de corpus<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400\">\u00a0Il est organis\u00e9 en groupes de travail auxquels chacun est invit\u00e9 \u00e0 contribuer selon ses disponibilit\u00e9s et ses int\u00e9r\u00eats m\u00eame pour des interventions ponctuelles.<\/span><\/p>\n<p style=\"text-align: center\"><span style=\"color: #33cccc\"><strong>*****<\/strong><\/span><\/p>\n<p style=\"text-align: center\"><span style=\"color: #33cccc\"><strong>Les infrastructures europ\u00e9ennes CLARIN et DARIAH\u00a0<\/strong><\/span><\/p>\n<p><span style=\"font-weight: 400\">L\u2019infrastructure europ\u00e9enne <\/span><a href=\"https:\/\/www.clarin.eu\/\"><span style=\"font-weight: 400\"><span style=\"color: #0000ff\">CLARIN<\/span><\/span><\/a><span style=\"font-weight: 400\"> (Common Language Resources and Technology Infrastructure) regroupe les ressources linguistiques et technologiques sur un large ensemble de langues. La France a actuellement le statut d\u2019observateur et devra se prononcer en d\u00e9cembre 2021 pour d\u00e9cider si elle veut devenir membre de CLARIN.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Le consortium CORLI est devenu en 2020 une centre de ressources K de CLARIN.<\/span><\/p>\n<p><span style=\"font-weight: 400\">L\u2019infrastructure europ\u00e9enne <\/span><a href=\"http:\/\/www.dariah.eu\"><span style=\"font-weight: 400\"><span style=\"color: #0000ff\">DARIAH<\/span><\/span><\/a><span style=\"font-weight: 400\"> (Digital Research Infrastructure in the Arts and Humanities) soutient et d\u00e9veloppe la recherche dans toutes les disciplines des sciences humaines et sociales. La France est partenaire de cette infrastructure.<\/span><\/p>\n<p style=\"text-align: center\"><span style=\"color: #33cccc\"><strong>*****<\/strong><\/span><\/p>\n<p style=\"text-align: center\"><span style=\"color: #33cccc\"><strong>Les plateformes des laboratoires et des projets de recherche : l\u2019exemple de CLAPI<\/strong><\/span><\/p>\n<p><span style=\"font-weight: 400\">En parall\u00e8le des infrastructures nationales et europ\u00e9ennes, des initiatives ont vu le jour dans les laboratoires depuis de nombreuses ann\u00e9es pour permettre l\u2019acc\u00e8s \u00e0 leurs corpus. S\u2019il est impossible de les citer de mani\u00e8re exhaustive, on peut nommer les ressources CLAPI, TCOF, ESLO, CFPP, VALIBEL, OFROM et plus r\u00e9cemment le projet ORFEO qui regroupe 3.5 millions de mots \u00e0 l\u2019oral issus d\u2019une quinzaine de sources de donn\u00e9es.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nous allons d\u00e9tailler la plateforme CLAPI con\u00e7ue et d\u00e9velopp\u00e9e au laboratoire ICAR, qui est h\u00e9berg\u00e9e dans la plateforme nationale <span style=\"color: #000000\">ORTOLANG<\/span>.<\/span><\/p>\n<p><span style=\"color: #0000ff\"><a style=\"color: #0000ff\" href=\"http:\/\/clapi.icar.cnrs.fr\"><b>CLAPI<\/b><\/a><\/span><b>, <\/b><span style=\"font-weight: 400\">Corpus de LAngue Parl\u00e9e en Interaction, est une banque de donn\u00e9es multim\u00e9dia de corpus enregistr\u00e9s en situation r\u00e9elle, dans des contextes vari\u00e9s : interactions professionnelles ou priv\u00e9es, dans des commerces, en r\u00e9union, en consultation, en classe, <\/span><span style=\"font-weight: 400\">collect\u00e9es \u00e0 l\u2019endroit o\u00f9 elles se d\u00e9roulent sans consigne ni intervention du chercheur.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Les corpus h\u00e9berg\u00e9s dans la m\u00e9diath\u00e8que et la plate-forme CLAPI sont collect\u00e9s depuis les ann\u00e9es 80 \u00e0 partir de programmes de recherche individuels (m\u00e9moires, th\u00e8ses\u2026) ou collectifs (projets d\u2019\u00e9quipe, r\u00e9ponses \u00e0 des appels d\u2019offres) dans le laboratoire ICAR (anciennement GRIC) ou dans d\u2019autres \u00e9quipes de recherche (Fonds Bielefeld, corpus Frog Story&#8230;) pour une exploitation g\u00e9n\u00e9ralement dans le cadre de recherches sur les interactions.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Parmi l\u2019ensemble des corpus archiv\u00e9s et num\u00e9ris\u00e9s \u00e0 la m\u00e9diath\u00e8que, seul un sous-ensemble a fait l\u2019objet d\u2019une description, d\u2019un traitement des enregistrements et des transcriptions pour \u00eatre int\u00e9gr\u00e9s \u00e0 la plateforme en ligne CLAPI en raison du temps n\u00e9cessaire \u00e0 la pr\u00e9paration et \u00e0 la v\u00e9rification de l\u2019ensemble des donn\u00e9es. Dans CLAPI, un corpus est compos\u00e9 de :<\/span><\/p>\n<p><span style=\"font-weight: 400\">\u2013 donn\u00e9es primaires (enregistrements audio ou vid\u00e9o, documents num\u00e9ris\u00e9s divers produits ou manipul\u00e9s par les interactants\u2026) ;<\/span><br \/>\n<span style=\"font-weight: 400\">\u2013 donn\u00e9es secondaires (transcriptions et conventions de transcription) ;<\/span><br \/>\n<span style=\"font-weight: 400\">\u2013 documents annexes (autorisations d\u2019enregistrement et de diffusion sign\u00e9s par les participants \u2026).<\/span><\/p>\n<p><span style=\"font-weight: 400\">\u00c0 ces corpus, s\u2019ajoute un ensemble d\u2019outils de requ\u00eate qui permettent d\u2019exploiter les transcriptions qu\u2019ils s\u2019agissent de fonctions classiques en linguistique de corpus (lexique, concordanciers, co-occurrences, segments r\u00e9p\u00e9t\u00e9s, \u2026) ou adapt\u00e9es \u00e0 l\u2019\u00e9tude des ph\u00e9nom\u00e8nes interactionnels (co-occurrences d\u2019un ph\u00e9nom\u00e8ne, contexte d\u2019emploi d\u2019un mot, h\u00e9t\u00e9ro-r\u00e9p\u00e9titions, \u2026) ainsi qu\u2019un outil de requ\u00eate pour r\u00e9pondre \u00e0 un besoin sp\u00e9cifique en\u00a0 combinant des s\u00e9quences de mots avec des ph\u00e9nom\u00e8nes interactionnels et des m\u00e9tadonn\u00e9es. Quel que soit l\u2019outil, l\u2019affichage des r\u00e9sultats dans le concordancier multim\u00e9dia permet de jouer et t\u00e9l\u00e9charger la vid\u00e9o ou l\u2019audio<\/span><span style=\"font-weight: 400\">, <\/span><span style=\"font-weight: 400\">de visualiser les m\u00e9tadonn\u00e9es (contexte, locuteur, convention de transcription\u2026), d\u2019afficher une transcription simplifi\u00e9e ou d\u00e9taill\u00e9e, d\u2019imprimer l\u2019extrait.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Fin 2021, CLAPI comprend 70 corpus soit 67h de donn\u00e9es requ\u00eatables par un ensemble d\u2019outils de requ\u00eates et 50h de donn\u00e9es t\u00e9l\u00e9chargeables mais la banque de donn\u00e9es continue \u00e0 \u00eatre enrichie \u00e0 intervalles r\u00e9guliers. <\/span><span style=\"color: #0000ff\"><a style=\"color: #0000ff\" href=\"http:\/\/clapi.icar.cnrs.fr\/FLE\"><span style=\"font-weight: 400\">CLAPI-FLE<\/span><\/a><\/span><span style=\"font-weight: 400\">, une plateforme d\u00e9di\u00e9e \u00e0 l\u2019enseignement du fran\u00e7ais \u00e0 partir des corpus de CLAPI, est pr\u00e9sent\u00e9e dans la rubrique <span style=\"color: #0000ff\"><a style=\"color: #0000ff\" href=\"https:\/\/icar.cnrs.fr\/corinte\/actions-formations-et-enseignements\/\">Actions de formation et d&rsquo;enseignement<\/a><\/span>.<\/span><\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>&nbsp; Le recueil de donn\u00e9es, la constitution du corpus, le recours \u00e0 des outils de traitement et analyse des donn\u00e9es constituent d\u00e9sormais une part cruciale de l\u2019activit\u00e9 scientifique des chercheur.e.s&#8230;<\/p>\n","protected":false},"author":28,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"inline_featured_image":false,"footnotes":""},"class_list":["post-324","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/pages\/324","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/users\/28"}],"replies":[{"embeddable":true,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/comments?post=324"}],"version-history":[{"count":5,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/pages\/324\/revisions"}],"predecessor-version":[{"id":971,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/pages\/324\/revisions\/971"}],"wp:attachment":[{"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/media?parent=324"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}