Stratégies d'implémentation pour le web scraping

Les stratégies d’implémentation web scraping révèlent une méthode innovante pour transformer des données non structurées en informations exploitables sur LinkedIn. En intégrant le traitement du langage naturel, cette recherche offre des solutions pratiques pour optimiser la recherche d’emplois dans un océan de données hétérogènes.

Table des matières

Le Web

Le Web a été inventé entre les années 1989-1991 par Tim Berners Lee qui à cette époque a travaillé au CERN (Centre Européen de la Recherche Nucleaire, ou laboratoire européen pour la physique des particules) en Suisse. Le Web (ou World Wide Web, WWW, W3, Toile) est un système hypertexte public contenant des documents liés entre eux par des hyperliens permettant de passer automatiquement d’un document à l’autre.

Selon CERN, le World Wide Web est défini comme une « initiative de recherche d’informations hypermédia à grande surface visant à donner un accès universel à un vaste ensemble de documents ». En d’autres termes, c’est la plus grande source d’information qui est facilement accessible et consultable.

Il se compose de milliards de documents interconnectés (appelés pages Web) qui sont rédigés par des millions de personnes, dont l’accès à ses documents est très simple en utilisant un réseau mondial appelé Internet.

²⁶

Un utilisateur s’appuie sur un programme (appelé client) pour se connecter à une machine distante (appelée serveur) où les données sont stockées. La navigation à travers le Web se fait au moyen d’un programme client appelé navigateur, par exemple : Netscape, Internet Explorer, Firefox,… etc.

Les navigateurs Web envoient des requêtes à des serveurs distants en utilisant L’URL (en anglais : Uniform Resource Locator), et il affiche le contenu sur l’écran du côté client. Les fichiers tombent dans quelques types principaux:

HTML : contient le contenu principal de la page.
CSS : ajoutez un style pour rendre la page plus jolie.
JS : Les fichiers Javascript ajoutent de l’interactivité aux pages Web.
Images : Les formats d’image, tels que JPG et PNG, permettent aux pages Web d’afficher des images.

[7_strategies-implementation-pour-le-web-scraping_6]

Figure 2. 1: Principe de fonctionnement de l’architecture Client-Serveur

Une fois que tous les fichiers ont été reçus par le navigateur, il rend la page et l’affiche. Et lorsque nous effectuons au l’extraction du contenu Web, nous intéressons au contenu principal de la page Web donc nous examinons le code HTML.

HyperText MarkupLanguage (HTML)

[7_strategies-implementation-pour-le-web-scraping_7]

L’HTML est un langage informatique utilisé sur l’internet. Ce langage est utilisé pour créer des pages web. L’acronyme signifie HyperText MarkupLanguage, ce qui signifie en français « langage de balisage d’hypertexte ».

Cette signification porte bien son nom puisqu’effectivement ce langage permet de réaliser de l’hypertexte à base d’une structure de balisage. ²⁷

Figure 2. 2: La structure d’un page HTML5

Recherche d’information sur le Web

La Recherche d’informations dans le Web (RIW) a sa racine dans la recherche d’information (RI) classique. Sur le Web, les documents sont des pages Web. Il est évident de dire que la recherche dans le Web est l’application la plus importante de la RI.

La Recherche d’Information (RI) peut être définie comme une activité dont la finalité est de localiser et de délivrer un ensemble de documents à un utilisateur en fonction de son besoin en informations.

L’opération de la RI est réalisée par des outils informatiques appelés Systèmes de Recherche d’Information (SRI), ces systèmes ont pour but de mettre en correspondance une représentation du besoin de l’utilisateur (requête) avec une représentation du contenu des documents au moyen d’une fonction de comparaison (ou de correspondance).

Généralement, la recherche documentaire passe par les étapes suivantes:

– L’analyse des besoins d’information.

– La préparation de la recherche en cernant le sujet et la formulation de la requête de recherche traduisant les besoins d’information.

– Le choix des outils de recherche les plus convenable.

– Le lancement de la recherche et le traitement des résultats obtenus.²⁸

________________________

²⁶ ↑

²⁷ ↑

²⁸ ↑

Questions Fréquemment Posées

Qu’est-ce que le web scraping ?

Le web scraping est une technique d’extraction automatique de contenu web, particulièrement appliquée à la recherche d’emplois et de profils sur des sites comme LinkedIn.

Comment fonctionne le traitement du langage naturel dans le web scraping ?

L’approche utilise le traitement du langage naturel et des ontologies de domaine pour transformer des données non structurées en fichiers XML structurés.

Quels sont les types de fichiers utilisés lors de l’extraction de contenu web ?

Les fichiers principaux utilisés sont HTML, CSS, JS et des formats d’image comme JPG et PNG.

Quelles stratégies d’implémentation pour le web scraping en 2023 ?