Le laboratoire Thalim organise, avec le soutien de l’Institut des systèmes complexes de Paris et la TGIR Huma-Num, une école d’été thématique financée par le CNRS. Elle se déroulera à Fréjus, du 11 au 16 septembre 2022.
Intitulé : Nouvelles méthodes pour la fouille et l’analyse des corpus textuels
Le projet de cette école est de faire connaître et de diffuser les pratiques et les outils formant l’état de l’art en matière d’analyse des données textuelles, en équipant les ingénieurs et chercheurs d’une expertise des solutions disponibles autant que d’un savoir-faire pratique, et en favorisant les échanges entre équipes ayant déjà expérimenté de tels projets par l’analyse de cas types.
1. Recherche d’information : moteurs de recherche plein texte, lemmatisation, recherche vectorielle, ontologie et thesaurus automatisé ;
2. Classification : par apprentissage supervisé, par apprentissage non supervisé ; mesure de distance et de similarité entre textes ;
3. Annotation : métadonnées et enjeux de l’encodage en TEI, annotation linguistique et outils d’étiquetage POS ; repérage des entités nommées ;
4. Extraction d’information et analyse quantitative : analyse sémantique par vecteurs de mot, topic modeling, sentiment analysis, stylométrie.
L’école alternera des ateliers pratiques avec des conférences et présentations de solutions.
L’école d’été s’adresse aux chercheur.e.s, enseignant.e.s-chercheur.e.s, ingénieur.e.s d’étude et de recherche, ainsi qu’aux (post-)doctorant.e.s.
Les agent.e.s CNRS sont exempté.e.s de frais d’inscription.
Date limite de candidature : 10 avril 2022.
Contact : Alexandre Gefen et Richard Walter
En savoir plus : présentation complète de la formation en pièce jointe