Analyse comparative du web scraping pour LinkedIn

L’analyse comparative du web scraping révèle que 90 % des utilisateurs peinent à extraire des données pertinentes sur LinkedIn. Cette étude propose une méthode innovante, alliant traitement du langage naturel et ontologies, pour transformer des informations non structurées en données exploitables, avec des implications significatives pour le Big Data.

CHAPITER 2

Table des matières

WEB SCRAPING : EXTRACTION DU CONTENU DES PAGES WEB

Introduction

Avec le développement du World Wide Web, l’Internet est devenu la source d’information la plus importante. Lorsqu’on parcourt une page Web, une masse d’informations non pertinentes, telles que les publicités, les navigations non pertinentes sont incluses. En revanche, La plupart d’utilisateur des pages web recherchent le contenu principal et ne souhaitent généralement pas le contenu non pertinent.

Il y a plusieurs applications pour faire l’analyse et l’extraction de contenu pertinent des pages web. Pour l’analyse du page web, on a L’exploration Web (Web Mining) et pour l’extraction, on a le Web scraping. L’exploration Web est l’application de techniques d’exploration de données (Data Mining) permettant de découvrir et d’extraire automatiquement des connaissances à partir des pages Web.

et le Web scraping est une technique d’extraction du contenu de pages Web, via un script ou un programme.

Dans ce chapitre nous allons détailler la tâche du Web scraping qui constitue le cœur de notre travail. Cette tâche sera présentée avec toutes ses techniques liées et son processus de déroulement en se basant principalement sur la transformation de données non structurées (format HTML) sur le web en données structurées (base de données ou fichier csv). Nous allons présenter également le portail LinkedIn qui constitue notre étude de cas à travers laquelle on essayera d’appliquer nos techniques d’extraction pour chercher les profiles et les emplois disponibles sur ce portail.

Extraction du contenu des pages web

L’objectif de l’extraction du contenu des pages web est de séparer le contenu principal d’une page Web (tel que le texte), du contenu bruyant (tel que les publicités et les liens de navigation…). Le contenu des pages web peut être présenté sous déférents formes par exemple (textes, images, vidéos…etc.). L’extraction du contenu principal d’une page Web est très utilisée par plusieurs applications. L’une des applications est l’exploration web (en anglais : Web Mining) et On a aussi est le web scraping…

Définition du contenu principal

Le contenu principal est présenté comme «la partie d’une page Web qui rend la page Web intéressante pour l’utilisateur», mais cette définition est plutôt vague. Il est difficile de donner une définition formelle précise. Le problème est que les utilisateurs peuvent avoir des intérêts différents dans la page Web.

Par exemple, de nombreux utilisateurs préfèrent lire uniquement le résumé de l’article, en ignorant le corps de l’article. De nombreux utilisateurs sont également intéressés par les liens vers des articles connexes fournis par la page Web, que la plupart des algorithmes d’extraction de contenu classent comme non principaux.

À cause de la difficulté d’identifié le contenu principal de la page web, on va le considéré comme les parties qui ne sont pas bruyants dans la page web. La justification de cette définition est que le contenu bruyant est plus facile à définir que le contenu principal. [25]

Définition du contenu bruyant

Le contenu bruyant d’une page Web est constitué de tous ses contenus qui ne sont pas principaux. Cependant, les contenus bruyants peuvent être subdivisés en types distincts. Dans la liste suivante, nous essayons de fournir une catégorisation exhaustive de tous les contenus possibles d’une page Web qui ne seront pas considérés comme principaux.

Publicité (Advertisement)

C’est le type de contenu bruyant le plus évident. De nombreuses pages Web incluent des publicités payantes de produits commerciaux, qui sont parfois liées au sujet de la page Web (marketing ciblé).

Navigation

La plupart des sites Web incluent un menu de navigation (ou une barre). Il consiste en des liens vers certaines pages Web (généralement importantes ou fréquemment consultées) du site Web, telles que la page d’accueil.

Pages Web Promotionnelles

Il s’agit notamment de liens vers des pages Web autres que la page Web actuelle. Les liens peuvent faire référence à :

des pages Web sur le même sujet que la page Web actuelle ou sur un sujet similaire.
les pages Web qui sont actuellement à la mode; qui est fréquemment lu, partagé ou commenté.

Les pages Web référées peuvent résider sur le même site Web que la page Web d’origine ou sur un autre site Web.

Informations légales

Cette catégorie comprend des contenus tels que les avis de droits d’auteur et les avis de confidentialité.

Informations non pertinents

Certain pages Web incluent des informations supplémentaires, telles que les prévisions météorologiques ou les indices boursiers, qui peuvent être liées ou non au sujet de la page Web.

Sources et références

Certaines pages Web fournissent une liste des sources d’informations qu’elles contiennent ou des références pour une lecture ultérieure.

Eléments d’entrée

Ce sont les éléments qui reçoivent des entrées de la part de l’utilisateur, telles que les zones de texte et les cases à cocher. Cette catégorie comprend également des éléments permettant à l’utilisateur d’effectuer toute action, tels que les boutons J’aime, Partager, Imprimer et Envoyer.

Bien que ces éléments puissent être importants pour l’utilisateur, mais il a été décidé de les traiter comme un contenu non principal, car l’extraction de contenu traite les pages Web en tant que sources d’informations et ne traite pas de leur aspect interactif.

Cette liste est utile (en termes d’extraction de contenu) car chaque catégorie peut être facilement identifiée par un observateur humain. Par exemple, il est facile de décider si un certain contenu appartient ou non à la catégorie de publicité.

Questions Fréquemment Posées

Qu’est-ce que le web scraping ?

Le web scraping est une technique d’extraction du contenu de pages Web, via un script ou un programme.

Comment le contenu principal est-il défini dans une page web ?

Le contenu principal est présenté comme «la partie d’une page Web qui rend la page Web intéressante pour l’utilisateur», mais cette définition est plutôt vague.

Quels types de contenu sont considérés comme bruyants sur une page web ?

Le contenu bruyant d’une page Web est constitué de tous ses contenus qui ne sont pas principaux, tels que les publicités, la navigation et les pages Web promotionnelles.

Comment l’analyse comparative du web scraping transforme LinkedIn en 2023 ?