Quelles applications pratiques du web scraping pour LinkedIn en 2023 ?

Pour citer ce mémoire et accéder à toutes ses pages
🏫 Université Mohamed Boudiaf - M'sila - Mathématiques et Informatique - Informatique
📅 Mémoire de fin de cycle en vue de l'obtention du diplôme de Master Académique - 2019/2020
🎓 Auteur·trice·s
Aichouche Mohamed et Mokhnache Belkasem
Aichouche Mohamed et Mokhnache Belkasem

Les applications pratiques du web scraping révèlent une méthode innovante pour transformer des données non structurées en informations exploitables, notamment dans la recherche d’emplois sur LinkedIn. Cette étude met en lumière l’utilisation du traitement du langage naturel pour optimiser l’accès à des masses de données hétérogènes.


Technologies du big data

Les outils destinés à la collecte, le stockage et l’analyse doivent être adaptés pour tenir compte des nouvelles contraintes liées aux Big Data (les 5V). Les technologies associées commencent à se répondre dans leur usage ou à se développer.

La liste ci-après représente les quelques technologies les plus répandues :

MapReduce

Est un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données. MapReduce est un produit de Google Corp. Les programmes adoptant ce modèle sont automatiquement parallélisés et exécutés sur des clusters (grappes) d’ordinateurs.

Le système de traitement temps réel assure le partitionnement et le plan d’exécution des programmes tout en gérant les inhérentes pannes informatiques et indisponibilités.

Ainsi, même les programmeurs inexpérimentés en programmation parallèle et distribuée sont à même d’utiliser ces ressources. Une application typique MapReduce traite plusieurs téraoctets de données et exploite plusieurs milliers de machines. MapReduce est écrit en C++ et l’index de Google est généré avec MapReduce. 16

Hadoop

Est un Framework pour le traitement de données massivement parallèle. Il possède 4 composants principaux.

• Une bibliothèque et des utilitaires utilisés par tous les autres composants.

• Son propre système de gestion de fichiers distribués : le HDFS pour HadoopDistributed File System.

• Son système de gestion des ressources : YARN.

• Enfin, pour la partie traitement, il est très proche de ce qui avait été produit par Google, c’est-à-dire les fonctions Map et Reduce. 17

Spark :

Se positionne comme le successeur de la combinaison MapReduce et Hadoop. Il est ouvert sur les différentes technologies à mettre en œuvre dans une architecture Big Data. Il peut par exemple reposer sur son propre moteur de gestion des clusters ou d’autres comme Yarn d’Hadoop. Et c’est la même chose concernant le système de gestion de fichiers distribués. 18

NoSQL :

Les bases de données relationnelles ont une philosophie d’organisation des données bien spécifiques, avec notamment le langage d’interrogation SQL, le principe d’intégrité des transactions (ACID), et les lois de normalisation. Bien utiles pour gérer les données qualifiées de l’entreprise, elles ne sont pas du tout adaptées au stockage de très grandes dimensions et au traitement ultra rapide. Les bases NoSQL autorisent la redondance pour mieux servir les besoins en matière de flexibilité, de tolérance aux pannes et d’évolutivité. 18

In Memory

Comme son nom l’indique clairement, une base de données dite « In Memory » est essentiellement résidente en mémoire vive. Cette nouvelle génération profite de la baisse du prix des mémoires vives et de la puissance de calcul offerte par les nouvelles générations de processeurs multi-cœurs. En limitant au maximum les accès disques, les requêtes s’exécutent en un temps record. 18

Les domaines d’application

La santé

L’accès à une multitude de données permet d’axer les recherches sur toutes sortes de maladies et d’en accélérer le traitement. Les chercheurs n’ont plus besoin d’étudier des centaines de dossiers médicaux pour sélectionner des patients, les diagnostiquer et leur proposer un traitement. Les applications technologiques privilégient une communication instantanée qui permet de relever les anomalies et d’ajuster le traitement au plus près du besoin pour mieux étudier l’évolution de la maladie.

Le projet mPower sur la maladie de Parkinson met en relation patients et chercheurs. Les malades partagent leurs symptômes via une application : déviations minimes de la voix ou de la marche ou évaluation de leur dextérité via le fingertapping (toucher l’écran du téléphone en alternant le majeur et l’index le plus rapidement possible). Toutes ces mesures analysées de manière très précise affinent la recherche et favorisent un suivi médical moins contraignant et invasif que les recherches « classiques », qui obligent le patient à se rendre régulièrement à l’hôpital pour y subir une série de tests sur une période précise 19.

Domaines de Bank, Finance et Assurance

Par nature, le secteur de la banque, finance et des assurances (BFA) a toujours été axé sur les données. Cependant, aujourd’hui, les institutions du secteur BFA s’efforcent de plus en plus d’adopter une approche à part entière axée sur les données qui ne peut être possible qu’avec les technologies Big Data. Avec Big Data Analytics, les entreprises du secteur BFA peuvent non seulement développer leur activité, mais également travailler à accroître la satisfaction client.

Bien que l’analyse de données fasse partie intégrante du secteur BFA, de nos jours, les entreprises de ce secteur s’orientent vers le Big Data Analytics.

Les domaines d’application les plus importants du Big Data dans l’industrie BFA sont:

  • Amélioration de la détection et de la prévention des fraudes
  • Amélioration des niveaux de connaissance et d’engagement client
  • Amélioration de l’analyse commerciale du marché
  • Meilleure gestion des risques
  • Engagement amélioré des employés

Domaine de Recherche

Domaine d’application originel du BIG DATA, l’apport de celui-ci est assez évident : en autorisant le traitement de multitudes de données, le BIG DATA permet à la science de réaliser des avancées importantes, lorsqu’il s’agit d’explorer l’infiniment petit (ex : exploration géologique), de croiser des données complexes (ex : imagerie) ou d’effectuer des simulations (ex : domaine spatial). C’est d’ailleurs en génétique que le BIG DATA a fait ses premières armes car ce secteur réclamait une approche à la fois quantitative et qualitative avancée.

Dans le domaine de l’information

Le traitement des Big Data a profondément modifié la donne : pour une requête donnée, il est désormais possible d’accéder à un croisement d’informations très disparates, issues de sources jusque-là négligées. L’instantanéité des réseaux sociaux est à ce titre une innovation de taille : l’analyse des tweets est devenue une source de renseignements courante pour comprendre les comportements ou les goûts de populations segmentées. De plus, au-delà de la compréhension de phénomènes, Ladata s’avère un outil de communication efficace pour faire passer des messages factuels aux publics : c’est tout le rôle du data journalisme, qui vise à mettre en lumière des événements complexes au travers de la représentation de données multiples. 20

[4_applications-pratiques-du-web-scraping-pour-linkedin_5]

Figure‎1. 5: Les domaines d’application de Big data


Questions Fréquemment Posées

Quelles technologies sont utilisées pour le traitement des Big Data?

Les technologies associées aux Big Data incluent MapReduce, Hadoop, Spark, NoSQL et les bases de données In Memory.

Comment le web scraping peut-il aider dans la recherche d’emplois sur LinkedIn?

Le web scraping permet d’extraire automatiquement des données de profils et d’offres d’emploi sur LinkedIn, facilitant ainsi l’accès à l’information au sein de masses de données hétérogènes.

Pourquoi utiliser des bases de données NoSQL pour le Big Data?

Les bases de données NoSQL sont adaptées au stockage de très grandes dimensions et au traitement ultra rapide, car elles autorisent la redondance pour mieux servir les besoins en matière de flexibilité, de tolérance aux pannes et d’évolutivité.

Rechercher
Télécharger ce mémoire en ligne PDF (gratuit)

Laisser un commentaire

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top