Notre collègue Denis Vigier coordonne la deuxième édition du cycle de conférences Extraction, traitement et visualisation de données complexes en géographie (XVIIIe siècle – XIXe siècle), organisées à l’ENS de Lyon et financées par l’Institut Rhônalpin des systèmes Complexes (IXXI). Il est adossé au projet GEODE du LabEx ASLAN.
La neuvième séance 2022-2023 est en lien avec la thématique 2 du cycle : Linguistique des discours, traitement automatique des langues.
Intervenant : Mauro Gaio, professeur en Informatique à l’université de Pau et des Pays de l’Adour.
Intitulé de l’intervention : Repérage et annotation étendue des entités nominales de lieux
Le traitement des entités nommées (EN) est devenu incontournable en Traitement Automatique des Langues. Apparue dans les années 90 lors des conférences MUC (Message Understanding Conferences), les tâches comme la reconnaissance des EN et de leur catégorisation en par exemple : date, nom de personne, nom de lieu, organisation, etc. sont très fréquemment présentent dans diverses problématiques participant de l’analyse des contenus textuels.
Fort de ce succès, le traitement des EN s’oriente désormais vers de nouvelles perspectives avec, entre autres, l’annotation étendue de ces unités et leur désambiguïsation. Ces défis rendent encore plus complexe la convergence vers une définition unique des EN, d’autant que du point de vue linguistique la question du statut théorique de celles-ci est encore aujourd’hui discutée.
Dans cette intervention on s’intéressera à deux aspects des EN de la catégorie nom des lieux. Le premier portera sur les deux formes dont un lieu peut être avoir exprimé dans un texte. Le deuxième portera sur l’une de ces formes, la forme nominale, dont la présence dans certains textes peut être majoritaire. Nous regarderons ensuite la chaîne de traitement permettant le repérage puis l’annotation étendue de ces entités nominales de lieux.
Ces travaux, combinant approche symbolique et approche par apprentissage profond, rendent également compte des possibilités d’une telle combinaison permettant, construction automatique du corpus d’apprentissage, repérage générale et annotation fine.
La séance se déroulera en mode hybride le jeudi 11 mai 2023, de 14h à 16h, sur site en salle D4.179 de l’ENS de Lyon, site Descartes, et en visioconférence.
Inscription nécessaire (participation sur site ou à distance), via le formulaire en ligne suivant.
En savoir plus : consulter la page Web du séminaire