Banques de données, corpus

ICAR développe, a développé où est à l’origine du développement de nombreuses bases de données qui font référence dans leurs domaines :

  • La BFM (Base de Français Médiéval) est une base de données composée de textes français écrits entre le 9ème et la fin du 15ème siècle. Les textes sont librement et gratuitement accessibles via la plateforme d’analyse textométrique TXM. Fondée par Christiane Marchello-Nizia en 1989,  la BFM a été développée au sein d’ICAR entre 2003 et 2015 et est gérée depuis 2016 par le laboratoire IHRIM (CNRS, ENS de Lyon).
  • L’Édition numérique interactive de la « Queste del saint Graal » présente la version qui fut composée vers 1225. Le manuscrit Palais des Arts 77 conservé à la Bibliothèque municipale de Lyon est l’un des meilleurs manuscrits de ce célèbre roman du Moyen Age. L’édition présentée ici est un prototype, et, nous l’espérons, un exemple de ce que peut désormais offrir la « philologie numérique ». Intégrée au portail de la Base de français médiéval, cette édition bénéficie de l’ensemble des fonctionnalités d’analyse textométrique proposées par la plateforme TXM.
  • Le CLAPI (Corpus de LAngue Parlée en Interaction), né au début des années 2000, est une banque de données multimédia de corpus enregistrés en situation réelle, dans des contextes variés: interactions professionnelles, institutionnelles ou privées, commerciales, didactiques, médicales … et un ensemble d’outils de requêtes.
  • Le site CLAPI-FLE propose en accès libre des ressources vidéo et audio d’interactions authentiques en français entre des locuteurs impliqués dans des activités privées et professionnelles du quotidien : réunions de travail, repas entre amis ou en famille, achats ou ventes dans des commerces, consultations médicales, jeux, invitations, visites guidées, appels téléphoniques, …
    Ce projet s’adresse principalement aux formateurs d’enseignants, aux enseignants et aux apprenants de Français Langue Étrangère et de Linguistique Française.
  • La base ViSA (VIdéo de Situations d’enseignement et d’Aprentissage) offre depuis 2009 la possibilité pour tout chercheur qui le souhaite : de déposer, indexer, conserver de façon pérenne, et mettre à disposition ses enregistrements vidéos et données associés dans un cadre juridique et technique très réglementé ; de faire une demande pour utiliser dans une de ses recherches, des données déposées précédemment par d’autres chercheurs. Il est important de préciser que la base ViSA est restreinte à la recherche et ne peut être utilisée à des fins de formation. La SFR ViSA propose aussi un travail de réflexion commune sur différentes thématiques liées aux méthodologies d’analyse de données Vidéo.
  • Le projet MENHIR (MENus : Histoire, Interactions, Représentations) a pour but de numériser et classer le fonds ORSI, la grande collection de menus du chef lyonnais Pierre Orsi, léguée par ce dernier à l’Institut Paul Bocuse. A travers ce travail principalement patrimonial, Menhir permet d’appréhender la diversité et l’histoire de l’objet « Menu », dans ses dimensions praxéologique, sémiotique, linguistique.
  • Le projet PRESTO (L’évolution du système PREpositionnel du français. ApprochesSTatistique et textOmétrique) a pour but l’étude diachronique de l’emploi, des valeurs sémantiques et discursives des prépositions françaises à, en, par, contre, dès, devant, entre, pour, sans, sur, sous, vers, dans, de l’ancienne langue jusqu’au français contemporain. Ce corpus comporte des données étiquetées et lemmatisées, représentant toutes les périodes de l’histoire du français ainsi que différents genres discursifs et types de textes.