La MSH Lyon Saint-Étienne propose une nouvelle formation en ligne, ouverte à tous les personnels (chercheur.e.s, enseignant.e.s-chercheur.e.s, ingénieur.e.s et technicien.e.s, doctorant.e.s) membres des laboratoires associés.
Intitulé : Collecter des données sur le web : Python pour le webscraping
Intervenant.e.s : Romain Mularczyk, ingénieur d’études en gestion de données (Lyon 2, MSH LSE) et Agathe Déan, statisticienne (CNRS, MSH LSE).
Présentation partielle : partant du constat souvent répété de l’accumulation croissante des données produites chaque année, dont une part importante circule sur le web, cette formation vise à introduire des notions élémentaires de structuration, formatage et traitements de corpus de données, étapes préalables et néanmoins essentielles à tout travail d’analyse.
Objectifs :
- Comprendre l’environnement technique du web, les principes de bases et la façon, notamment, dont ses formats spécifiques permettent des traitements utiles à la sélection et au filtrage de données en amont d’opérations de collecte ;
- Comprendre les formats de fichiers structurés et les façons d’interagir avec eux (structures de données) ;
- Comprendre les briques élémentaires de l’algorithmie pour construire des scripts utiles pour la collecte et le nettoyage de données ;
- Interroger des pages web et récupérer leur contenu filtré/nettoyé ;
- Mettre au clair les aspects éthiques et légaux du webscraping.
Programme :
- 11 janvier 2021 : Le web
- 18 janvier 2021 : Introduction à Python 3
- 25 janvier 2021 : Python 3 (suite)
- 1er février 2021 : Rappels et introduction au webscraping
- 8 février 2021 : Application au webscraping
- 15 février 2021 : Concepts avancés et conclusion
- 22 février 2021 : Pratique
L’inscription à la formation est nécessaire avant le 4 janvier 2021 (10 places maximum) via le formulaire en ligne suivant.
Contact : contenu des sessions, organisation : romain.mularczyk@msh-lse.fr et agathe.dean@msh-lse.fr
En savoir plus : consulter la page Web dédiée sur le site de la MSH LSE