Description
Comment scraper avec Scrapy et Beautifulsoup : 1/2 journée de formation
Descriptif
De plus en plus d’information est disponible en ligne. Un bon moyen de récupérer l’information telle qu’elle est vue par les utilisateurs est de se comporter comme eux et d’aller récupérer les pages directement en ligne. Cette tâche ne peut bien évidemment pas être faite à la main car elle est bien trop fastidieuse.
Il est important de savoir manipuler des crawlers pour réaliser ce genre de tâches. Un crawler est un agent qui se charge d’aller sur le Web à notre place et d’en extraire les informations qui nous intéressent. Cette formation montre comment remplir cette tâche de manière efficace en combinant Scrapy et la bibliothèque Python BeautifulSoup.
Type de public
Cette formation s’adresse à tous les développeurs Python qui souhaite apprendre à crawler ou scraper des sites Web.
Méthodes pédagogiques
Méthode affirmative (cours magistral), interrogative (par le questionnement) et démonstrative (par l'exemple).
Documents nécessaires
Il n’y a pas de documents nécessaires
Équipements nécessaires
Un ordinateur avec Python3 d’installé.
Pré-requis
Avoir suivi la formation Apprendre Python Jour 1 ou être capable de lire et écrire du Python.
But de la formation
L’objectif de cette formation est de permettre aux apprenants d’écrire eux-même leur scraper et de les configurer de manière à ne remonter que l’information qui les intéresse.
Moyens pédagogiques
Cette formation est dispensée par un formateur aidé d’un support numérique via un mélange de cours magistraux et d’exercices corrigés pour permettre aux apprenants de découvrir les méthodologies de la data science.
Sanction de la formation
Attestation de formation
Déroulement de la journée
- 13h30 – 17h30 : Formation
Adresse
IX-LABS - Le 108
Accès Métro 7
108 avenue de Fontainebleau,
94270 Le Kremlin-Bicêtre
Intervenants
Thomas Largillier
Programme
Présentation et installation
30 minutes
Ce module présente les outils mis à disposition par Python pour scraper et analyser des pages Web. Les apprenants installent les outils nécessaires à la formation.
Crawler le Web
1h30 minutes
Présentation des outils de crawl disponibles en Python
Ce module présente:
- Comment récupérer des informations page par page
- Scrapy
- Spiders
- Settings
- Pipelines
- Les plug-ins
Analyser des pages
1h30 minutes
Présentation des outils d’analyse de contenu Web
Ce module présente:
- BeatifulSoup
- L’arborescence BS
- Naviguer dans l’arborescence
- Sélectionner des éléments
- Remplacer des éléments
Les formations dispensées par les IX-LABS, sont, dans certains cas, éligibles aux financements de type Plan de Formation Entreprise. Nous contacter pour en savoir plus.