MSH LSE : [visio] Formation « Collecter des données sur le web : Python pour le webscraping » (jan.-fév. 2021)

La MSH Lyon Saint-Étienne propose une nouvelle formation en ligne, ouverte à tous les personnels (chercheur.e.s, enseignant.e.s-chercheur.e.s, ingénieur.e.s et technicien.e.s, doctorant.e.s) membres des laboratoires associés.

Intitulé : Collecter des données sur le web : Python pour le webscraping

Intervenant.e.s : Romain Mularczyk, ingénieur d’études en gestion de données (Lyon 2, MSH LSE) et Agathe Déan, statisticienne (CNRS, MSH LSE).

Présentation partielle : partant du constat souvent répété de l’accumulation croissante des données produites chaque année, dont une part importante circule sur le web, cette formation vise à introduire des notions élémentaires de structuration, formatage et traitements de corpus de données, étapes préalables et néanmoins essentielles à tout travail d’analyse.

Objectifs :

  • Comprendre l’environnement technique du web, les principes de bases et la façon, notamment, dont ses formats spécifiques permettent des traitements utiles à la sélection et au filtrage de données en amont d’opérations de collecte ;
  • Comprendre les formats de fichiers structurés et les façons d’interagir avec eux (structures de données) ;
  • Comprendre les briques élémentaires de l’algorithmie pour construire des scripts utiles pour la collecte et le nettoyage de données ;
  • Interroger des pages web et récupérer leur contenu filtré/nettoyé ;
  • Mettre au clair les aspects éthiques et légaux du webscraping.

Programme :

  • 11 janvier 2021 : Le web
  • 18 janvier 2021 : Introduction à Python 3
  • 25 janvier 2021 : Python 3 (suite)
  • 1er février 2021 : Rappels et introduction au webscraping
  • 8 février 2021 : Application au webscraping
  • 15 février 2021 : Concepts avancés et conclusion
  • 22 février 2021 : Pratique

L’inscription à la formation est nécessaire avant le 4 janvier 2021 (10 places maximum) via le formulaire en ligne suivant.

Contact : contenu des sessions, organisation : romain.mularczyk@msh-lse.fr et agathe.dean@msh-lse.fr
En savoir plus : consulter la page Web dédiée sur le site de la MSH LSE