La méthodologie de web scraping révèle une technique innovante pour extraire des données de LinkedIn, transformant des informations non structurées en fichiers XML exploitables. Cette approche, ancrée dans le Big Data, offre des solutions cruciales pour optimiser la recherche d’emplois et de profils, avec des implications significatives pour l’accès à l’information.
Université Mohamed Boudiaf – M’sila
Faculté: Mathématiques et Informatique
Département: Informatique
Master Académique en Informatique Décisionnelle et Optimisation
Mémoire présenté pour l’obtention du diplôme
Web Scraper pour l’Extraction de Données: Étude de Cas sur la Recherche d’Emplois et de Profils LinkedIn
Aichouche Mohamed & Mokhnache Belkasem
Supervisé par: Jury Académique
2019/2020
الملخص
ان هذا العمل يستهدف مجال البيانات الضخمة التي تحتوي على مختلف البيانات من مختلف المصادر. تخصصنا في هذا البحث هو استخراج المعلومات والمعارف من الملفات التي عادة ما تكون بها بيانات غير مهيكلة وبالاستعانة بانطولوجيا المجال و معالجة اللغات الطبيعية ليتم عرضها على شكل ملفXML الذي يكون نسبيا مهيكلا من اجل تسهيل قراءة الملفات والوصول الى المعلومات.
الكلمات المفتاحية :البيانات الضخمة,الملفات الغير منظمة, معالجة اللغات الطبيعية, xml
Abstract
This work targets the Big Data domain which contains different types of data from different sources. Our goal is to extract information and knowledge from files that typically contain unstructured data using natural language processing with domain ontology. The purpose of processing is to transform our structured documents into searchable XML files.
Key words: Big data ,Unstructured document ,NLP,XML
Résumé
Ce travail vise le domaine du Big data qui contient différents types de données provenant de différentes sources. Notre objectif consiste à extraire les informations et les connaissances à partir de fichiers contenant généralement des données non structurées en utilisant un traitement de langage naturel avec une ontologie de domaine. Le traitement vise à transformer les documents nos structurés en fichiers XM interrogeables.
Mot clés : Big data, document non structurée ,TALN ,XML
Introduction Générale
Dans le monde de l’internet, les données avec leurs richesse subissent différentes formes de types de données : vidéos, photos, messages, annonces, etc., et concernent différents sujets et produits. Ces données à leurs tours donnent plusieurs indices et informations sur les différents aspects des sujets traités et des produits présentés : prix, nombre d’achat, nombre de vue, nombre de lien, l’évolution du produit sur le marché, etc.
Avec l’essor des réseaux Internet, des Smartphones et des objets connectés aux réseaux sociaux, les données prennent de plus en plus des formes variées. En parallèle, le développement d’outils de stockage et d’analyse – notamment le Cloudcomputing – ainsi que de nouveaux outils de visualisation permettent la valorisation de ces données non structurées, variées et en très grande quantité: c’est un phénomène que l’on nomme le Big data.
Les applications du big data sont nombreuses et interviennent dans plusieurs domaines d’application tels que l’optimisation de la logistique et du gouvernement, le marketing, le développement et le suivi des produits et des clients intéressés. Mais cela n’empêche pas l’existence de grandes difficultés et notamment au niveau de la collecte et du filtrage des données. La question qui se pose toujours est comment trouver la bonne information au sein d’un gigantesque cumul d’information de différents formes et structures.
Dans cette perspective, L’objectif de ce mémoire est de proposer une technique d’extraction et de collecte automatique d’un contenu web (Web Scraping) via un programme dans le but est de transformer ce contenu pour permettre son utilisation dans un autre contexte.
Pour bien atteindre cet objectif, ce mémoire sera organisé comme suit:
Dans le premier chapitre nous allons présenter le domaine du Big data avec ses différents aspects, techniques et défis.
Le deuxième chapitre sera consacré aux techniques du Web Scraping avec ses spécificités et ses technologies liées. Dans ce chapitre, nous allons également présenter notre étude cas concernant la recherche d’emploi et de profils à travers le portail web LinkedIn en utilisant la technique du scraping.
Dans le dernier chapitre nous aborderons la partie pratique de notre travail en présentant les tâches d’implémentation via l’utilisation du langage Python. Notre travail pratique sera réservé au développement d’un scaper permettant la collecter, le filtrage et la sauvegarde des données concernant les profiles et les emplois disponibles sur le portail web (LinkedIn).
Finalement, nous terminerons ce mémoire par une conclusion et certaines suggestions pour l’amélioration du travail au futur.
Nous espérons que ce travail contribuera à l’avancement des recherches dans le domaine de l’analyse des réseaux professionnels et servira de base pour des études futures plus approfondies.
Questions Fréquemment Posées
Qu’est-ce que la méthodologie de web scraping ?
La méthodologie de web scraping consiste en une technique d’extraction et de collecte automatique d’un contenu web pour transformer ce contenu afin de permettre son utilisation dans un autre contexte.
Comment le web scraping est-il appliqué à la recherche d’emplois sur LinkedIn ?
Le web scraping est appliqué à la recherche d’emplois et de profils sur LinkedIn en utilisant des techniques de traitement du langage naturel et des ontologies de domaine pour transformer des données non structurées en fichiers XML structurés.
Quels sont les objectifs de l’étude de cas sur LinkedIn ?
L’objectif de l’étude de cas est de collecter, filtrer et sauvegarder des données de profils et d’offres d’emploi dans le contexte du Big Data, afin de faciliter l’accès à l’information au sein de masses de données hétérogènes.