Scrapper un premier site Web en quelques minutes avec Python

Scrapper un premier site Web

Scrapper un premier site Web
Scrapper un premier site Web

Avez-vous déjà ressenti le besoin d’extraire des données d’un site Web ? Que feriez-vous ? Visiter les sites l’un après l’autre et recueillir des informations ?

Cela pourrait fonctionner si vous n’avez qu’une ou deux pages. Cependant, si vous en avez beaucoup, l’extraction manuelle deviendra une tâche trop difficile ; c’est là que le web scraping vient à la rescousse !

Qu’est-ce que le web scraping ?


Le web scraping, comme son nom l’indique, est une méthode d’extraction automatique de données à partir de pages web. Le scraping est très utile pour les comparaisons de prix, la recherche et le développement, la collecte de données sur les médias sociaux, les offres d’emploi, etc.

De nombreuses méthodes peuvent être utilisées pour effectuer du web scraping, comme les services en ligne, les API ou même l’écriture de votre propre script. Et c’est pour cela que nous sommes ici. Cet article vous apprendra les bases de l’extraction de données sur le Web. Avant d’entrer dans le vif du sujet, examinons brièvement pourquoi nous voulons gratter des données sur le Web.

Pourquoi avons-nous besoin du web scraping ?

Scrapper un premier site Web
Scrapper un premier site Web


Les sites Web, en général, contiennent d’énormes quantités d’informations. Ces informations sont le plus souvent non structurées ou encombrées. Lorsque les utilisateurs visitent un site Web, ils n’ont besoin que d’un petit pourcentage de ce qui est disponible.

Ils peuvent y accéder manuellement, mais le processus est assez lourd, surtout lorsqu’il y a répétition (étant donné que les données sont dynamiques et mises à jour fréquemment). D’où la nécessité du web scraping.

Une fois que le script est configuré pour une page Web particulière, il peut être exécuté un nombre illimité de fois pour extraire des données et les utiliser selon les besoins.

C’est parti !

Démonstration de scraping web


Ce script va extraire les données météorologiques d’une page Web et les enregistrer dans un fichier .csv. Nous utiliserons les bibliothèques suivantes pour nous aider à effectuer le scraping et à gérer les données extraites :

Requests – Cette bibliothèque est nécessaire pour envoyer une requête HTTP à la page Web. Cela nous permettra d’accéder au contenu HTML de la page Web que nous voulons gratter.

Beautiful Soup – Cette bibliothèque nous fournit des fonctions pour nous aider à extraire des données du contenu HTML que nous recevons lorsque nous envoyons une requête HTTP.

Pandas – Cette bibliothèque nous aide à gérer les données qui ont été extraites. Dans ce cas, nous l’utiliserons pour enregistrer nos données dans un fichier .csv.

Si vous n’avez pas installé les bibliothèques mentionnées ci-dessus, suivez les commandes données ci-dessous pour les installer :

**Installing BeautifulSoup
pip install beautifulsoup4
Installing requests
pip install requests
Installing Pandas
pip install pandas

Écrire le code


Une fois les librairies installées, suivez les étapes ci-dessous pour récupérer des données sur le web en python3.

Commencez par importer toutes les bibliothèques.

Envoyez une requête HTTP à la page web en utilisant son URL. Assurez-vous que le code de réponse est 200, ce qui signifie que la requête a réussi.

Utilisez la fonction BeautifulSoup pour extraire le HTML brut de la réponse reçue.

À partir du HTML brut, extrayez les données dont nous avons besoin en utilisant différents sélecteurs. Les sélecteurs utilisés ici sont ‘class’ et ‘id’.

Enregistrez les données extraites dans un cadre de données pandas sous la forme d’un dictionnaire python.

Enregistrez le dataframe dans un fichier csv. Note : Nous utilisons l’encodage utf-16BE pour rendre le symbole du degré correctement dans le fichier csv.

Un ensemble de solutions métiers, des services et de l’innovation pour optimiser votre entreprise Webblue_heart,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur  and Mobileyellow_heart,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur

,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur
,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur
,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur
,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur
,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur
,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur ,  Solution ERP, website ecommerce, mobile developpeur

 446 total views,  2 views today

Add a Comment

Your email address will not be published.