{"id":38,"date":"2017-02-01T19:48:50","date_gmt":"2017-02-01T18:48:50","guid":{"rendered":"http:\/\/www.icar.cnrs.fr\/sites\/corinte\/?p=38"},"modified":"2021-09-22T11:16:20","modified_gmt":"2021-09-22T09:16:20","slug":"confection-le-corpus","status":"publish","type":"post","link":"https:\/\/icar.cnrs.fr\/corinte\/confection-le-corpus\/","title":{"rendered":"Confectionner le corpus"},"content":{"rendered":"<p style=\"text-align: justify\">Une fois recueillies sur le terrain, les donn\u00e9es audio ou vid\u00e9o ne sont pas directement exploitables : elles doivent subir une s\u00e9rie d&rsquo;op\u00e9rations qui en font des objets d&rsquo;analyse et permettent leur traitement notamment informatique. Les corpus de donn\u00e9es interactionnelles ainsi constitu\u00e9s jouent un r\u00f4le essentiel pour la description du fran\u00e7ais parl\u00e9 en interaction, et pour la linguistique interactionnelle d&rsquo;un fa\u00e7on g\u00e9n\u00e9rale. Les corpus dont bien autre chose que des r\u00e9servoirs d&rsquo;attestations, \u00e0 l&rsquo;aide desquelles on illustre les ph\u00e9nom\u00e8nes et cat\u00e9gories construits th\u00e9oriquement ; ils sont la source des th\u00e9orisations et des formalisations. Les corpus pour l&rsquo;analyse d&rsquo;interaction ont amplement \u00e9volu\u00e9 au cours des derni\u00e8res d\u00e9cennies, qualitativement, quantitativement et quant \u00e0 leur nature. (Traverso, 2016). Il convient alors pour le chercheur en Linguistique Interactionnelle de s&rsquo;attacher \u00e0 num\u00e9riser, monter, anonymiser, transcrire, aligner et convertir avec soin les donn\u00e9es interactionnelles du corpus d&rsquo;\u00e9tude qu&rsquo;il cherche \u00e0 confectionner.<\/p>\n<h3 style=\"text-align: justify\"><span style=\"color: #33cccc\">1.\u00a0<a style=\"color: #33cccc\" href=\"https:\/\/icar.cnrs.fr\/corinte\/numeriser\/\">La num\u00e9risation<\/a><\/span><\/h3>\n<p style=\"text-align: justify\">Afin de pouvoir \u00eatre lues, transcrites, annot\u00e9es et align\u00e9es, les donn\u00e9es primaires doivent \u00eatre num\u00e9ris\u00e9es dans des formats informatiques adapt\u00e9s \u00e0 leur exploitation et \u00e0 leur stockage.<\/p>\n<h3 style=\"text-align: justify\"><span style=\"color: #33cccc\">2. <a style=\"color: #33cccc\" href=\"https:\/\/icar.cnrs.fr\/corinte\/monter\/\">Le montage<\/a><\/span><\/h3>\n<p style=\"text-align: justify\">Le corpus de donn\u00e9es interactionnelles peut \u00eatre constitu\u00e9 de plusieurs\u00a0angles de vue de l\u2019interaction et plusieurs sources audios qui\u00a0doivent faire sens et pour faire sens e\u0302tre trie\u0301es, organise\u0301es, monte\u0301es, synchronis\u00e9es, mises en relation. Un montage multiscope au moyen de logiciels de traitement vid\u00e9o\u00a0permet alors de mettre en regard les vues sur un me\u0302me e\u0301cran afin d\u2019appre\u0301cier l\u2019e\u0301cologie globale de l\u2019interaction ou au contraire porter l\u2019attention sur un phe\u0301nome\u0300ne spe\u0301cifique au gre\u0300s des angles et objets de recherche.<\/p>\n<h3 style=\"text-align: justify\"><span style=\"color: #33cccc\">3.\u00a0<a style=\"color: #33cccc\" href=\"https:\/\/icar.cnrs.fr\/corinte\/anonymiser\/\">L&rsquo;anonymisation<\/a><\/span><\/h3>\n<p style=\"text-align: justify\">Elle vise \u00e0 effacer ou \u00e0 remplacer les informations qui pourraient permettre d\u2019identifier les locuteurs enregistr\u00e9s dans les donn\u00e9es primaires comme dans les donn\u00e9es secondaires. L\u2019anonymisation est une op\u00e9ration d\u00e9licate, r\u00e9gie par des principes qui permettent \u00e0 la fois de respecter le droit de la personne et de pr\u00e9server l\u2019objet d\u2019\u00e9tude.<\/p>\n<h3 style=\"text-align: justify\"><span style=\"color: #33cccc\">4.\u00a0<a style=\"color: #33cccc\" href=\"https:\/\/icar.cnrs.fr\/corinte\/transcrire\/\">La transcription<\/a><\/span><\/h3>\n<p style=\"text-align: justify\">Les informations accessibles dans les donn\u00e9es primaires sont repr\u00e9sent\u00e9es sous forme de notations textuelles, rendant compte notamment de la temporalit\u00e9 des ph\u00e9nom\u00e8nes. Cette op\u00e9ration, r\u00e9gie par diff\u00e9rents principes et conventions, est essentielle dans la mesure o\u00f9 les requ\u00eates automatis\u00e9es sont aujourd&rsquo;hui effectu\u00e9es \u00e0 partir de la transcription align\u00e9e avec le signal audio\/vid\u00e9o.<\/p>\n<h3 style=\"text-align: justify\"><span style=\"color: #33cccc\">5.\u00a0<a style=\"color: #33cccc\" href=\"https:\/\/icar.cnrs.fr\/corinte\/aligner\/\">L&rsquo;alignement<\/a><\/span><\/h3>\n<p style=\"text-align: justify\">La transcription ne saurait avoir de sens ind\u00e9pendamment de sa source, le signal. Cette relation \u00e9troite entre la donn\u00e9e primaire et la donn\u00e9e secondaire est garantie par l\u2019alignement du texte et du signal, \u00e0 l\u2019aide de balises temporelles.<\/p>\n<h3 style=\"text-align: justify\"><span style=\"color: #33cccc\">6.\u00a0<a style=\"color: #33cccc\" href=\"https:\/\/icar.cnrs.fr\/corinte\/convertir\/\">La conversion<\/a><\/span><\/h3>\n<p style=\"text-align: justify\">La question de compatibilit\u00e9 et d\u2019interop\u00e9rabilit\u00e9 des formats est centrale pour les op\u00e9rations successivement effectu\u00e9es sur les corpus. Ces op\u00e9rations n\u00e9cessitent l&rsquo;utilisation de diff\u00e9rents logiciels qui souvent ont leur propre format, ce qui rend les conversions indispensables.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Une fois recueillies sur le terrain, les donn\u00e9es audio ou vid\u00e9o ne sont pas directement exploitables : elles doivent subir une s\u00e9rie d&rsquo;op\u00e9rations qui en font des objets d&rsquo;analyse et&#8230;<\/p>\n","protected":false},"author":28,"featured_media":47,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"image","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-38","post","type-post","status-publish","format-image","has-post-thumbnail","hentry","category-non-classe","post_format-post-format-image"],"_links":{"self":[{"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/posts\/38","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/users\/28"}],"replies":[{"embeddable":true,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/comments?post=38"}],"version-history":[{"count":7,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/posts\/38\/revisions"}],"predecessor-version":[{"id":866,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/posts\/38\/revisions\/866"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/media\/47"}],"wp:attachment":[{"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/media?parent=38"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/categories?post=38"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/icar.cnrs.fr\/corinte\/wp-json\/wp\/v2\/tags?post=38"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}