Voulez-vous récupérer des données structurées à partir d'un site web sans programmation ?
Le web scraping sert à extraire les données structurées à partir de pages web non structurés et cette technique était jusqu'à un certain moment limité aux programmeurs.
L'extraction se fait toujours par les outils de programmation comme Scrapy et BeautifulSoup, mais j'ai découvert une extension gratuite qui permet de faire cela de façon intuitive.
Vous pouvez dorénavent extraire les données sur plusieurs pages comme un spyder ou crawler.
Une fois les données sont scrapées vous pouvez les télécharger sous format Excel ou CSV.
L'extension que nous allons utiliser s'appelle Data Scraper, elle est disponible sur le Chrome Web Store.
Faire du web scraping sans programmation avec Data Scraper
1. Installer l'extension Data Scraper
Premièrement commencez par installer l'extension chrome à partir de ce lien.
Cliquez sur "Ajouter à Chrome"
Epinglez l'extension sur chrome comme dans l'image ci-dessous :
2. Se connecter en cliquant sur l'extension
Cliquez sur l'icône de l'extension.
Cliquez sur "Sign in with Google" sur le site de l'extension.
Sélectionnez votre compte Google.
3. Extraire les données à l'aide de l'extension
Ouvrez l'extension quand vous visitez le site que vous voulez scraper puis cliquez sur "Scrape This Page"
Cliquez sur "New Recipe" > "New Recipe"
Ouvrez l'onglet "2 Type" et sélectionnez le premier choix (List / Search Page: multiple rows) si vous voulez scraper plusieurs pages sur un site web, le deuxième choix c'est pour ceux qui veulent scraper un tableau ou quelque chose ne nécessitant pas la navigation d'un crawler.
Ouvrez l'onglet "3 Rows" puis cliquez sur "Easy Row Finder"
Utilisez les boutons 1 et 2 (à gauche) de votre clavier pour sélectionner le premier et le deuxième élément de la liste.
Ouvrez l'onglet "4 Cols" puis cliquez sur "Add New Column"
Mettez le nom de la colonne puis cliquez sur "Easy Column Finder"
Cliquez sur "Text" puis utilisez le bouton C pour sélectionner les différents éléments comme dans l'animation suivante.
Ouvrez l'onglet "5 Nav" puis cliquez sur "Easy Nav Finder"
Sélectionnez le bouton suivant dans la navigation comme dans l'image ci-dessous :
Allez directement à l'onglet "8 Save" pour enregistrer la recette, mettez un nom dans Recipe Name puis cliquez sur "Scrape in Data Miner"
Ici vous allez pouvoir voir un exemplaire des données scrappées sur la page web en utilisant la recette.
Cliquez sur "Next Step"
Mettez le nombre de pages à extraire puis mettez le délai entre chaque extraction pour le chargement de la page, cliquez sur "Scrape x Pages"
Cliquez sur "Autoriser"
4. Télécharger les résultats
Une fois le scraping est terminé cliquez sur "Download" > "Excel File" ou "CSV File"
Voici le résultat, des données scrappées avec succès sans programmation !
Félicitations ! Vous avez pu scrapper vos données à partir du web sans coder !
Si vous avez des questions ou des remarques n'hésitez pas à laisser un commentaire 😉
Au prochain tuto, sur Easytuto !