Notre collègue Denis Vigier coordonne la troisième édition du cycle de conférences Extraction, traitement et visualisation de données complexes en géographie (XVIIIe siècle – XIXe siècle), organisées à l’ENS de Lyon et financées par l’Institut Rhônalpin des systèmes Complexes (IXXI). Il est adossé au projet GEODE du LabEx ASLAN.
La prochaine séance est en lien avec la thématique : linguistique des discours, traitement automatique des langues.
Intervenantes : Nathalie Rousseau, maître de conférences en linguistique grecque (Sorbonne Université) et Anaïs Chambat, doctorante contractuelle en sciences du langage (CY Cergy Paris Université).
Intitulé de l’intervention : Baliser des dictionnaires anciens en XML-TEI pour en extraire des données lexicales : l’expérience du projet CollEx-Persée de « Métadictionnaire médical multilingue de la bibliothèque numérique Medica »
Le « Métadictionnaire médical multilingue de la bibliothèque numérique Medica » permet d’enrichir les résultats de recherche au sein d’un corpus de 56 dictionnaires et encyclopédies des sciences médicales du XVIIe au XXe siècle (459 volumes, plus de 450 000 entrées sur plus de 330 000 pages) en donnant accès au savoir lexical et étymologique de sept dictionnaires représentatifs et de leurs lexiques et glossaires multilingues. Nous exposerons tout d’abord les principes et les méthodes de balisage XML-TEI qui ont été définis pour extraire des données lexicales de ces ouvrages, après océrisation, en fonction des objectifs du projet et des contraintes de temps et de moyens à disposition. Des exemples concrets permettront d’illustrer les défis auxquels fait face le travail encore en cours de vérification du texte et de la structuration des fichiers XML-TEI, qui résultent de la diversité et de la complexité des ouvrages traités, mais aussi de la richesse et de la singularité du vocabulaire médical multilingue qui y est relevé. Nous évoquerons également le travail nécessaire pour mettre à disposition en accès libre, comme le projet s’y était engagé, des données qui soient les plus interopérables et les plus réutilisables possibles.
La séance se déroulera en mode hybride le jeudi 18 janvier 2024, de 14h à 15h30, dans les locaux d’ICAR à l’ENS de Lyon, en salle D4. 179 et en visioconférence.
Inscription nécessaire (participation sur site ou à distance), via le formulaire en ligne suivant.
En savoir plus : consulter la page Web du séminaire