Les résultats du web scraping LinkedIn révèlent une méthode innovante pour transformer des données non structurées en informations exploitables. Cette recherche, ancrée dans le Big Data, promet de révolutionner l’accès à des profils et offres d’emploi, avec des implications significatives pour les chercheurs et les recruteurs.
CHAPITRE 1
INTRODUCTION AU BIG DATA
Introduction
L’évolution des Systèmes informatiques amène les entreprises à traiter de plus en plus de données issues de sources toujours plus variées.
La croissance des données traitées dépassent les limites des technologies traditionnelles. On parle de pétaoctet «billard d’octets» voir de zettaoctet «trilliard d’octets ». Suite à cette évolution, la notion « Big data » c’est imposée fortement pour s’occuper de cette avalanche de données.
Dans ce chapitre, nous allons présenter le domaine du Big data avec ses concepts, ses technologies, ses applications et ses défis, et ceci afin de comprendre par la suite l’intérêt des tâches d’extraction de données.
Définition du BIG DATA
[2_resultats-revelateurs-du-web-scraping-sur-linkedin_1]
Littéralement, Big Data signifie données massives ou méga données. C’est un ensemble d’entités de données hétérogènes en extensibilité permanente qui ne peuvent pas pris-en charge par les systèmes de gestion de données classiques. Big Data est aussi une architecture distribuée et scalable pour le traitement et le stockage de grands volumes de données. [1]
Figure1. 1: Composantes du BIGDATA
En effet, on crée environ 2,5 milliards de Giga octets de données tous les jours, émanant des différents domaines créés par les divers outils numériques: vidéos publiés, messages envoyés, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore.
Ces volumes massifs de données sont baptisés Big Data. Les géants du Web, au premier rang comme Yahoo, Facebook, Amazon et Google, ont été les tous premiers à déployer ce type de technologie pour permettre à tout le monde d’accéder en temps réel à leurs bases de données géantes.
L’émergence du Big Data est considérée comme une nouvelle révolution industrielle semblable à la découverte de la vapeur, de l’électricité, du téléphone et de l’informatique.
D’autres, qualifient ce phénomène comme étant le dernier épisode de la troisième révolution industrielle, dite celle de « l’information ».
Cependant, aucune définition universelle ou précise ne peut qualifier le Big Data. Etant un concept polymorphe et complexe, son interprétation varie selon les communautés qui s’y intéressent en tant que fournisseur ou utilisateur de services.
Le Big Data est aussi défini par rapport à la manière avec laquelle les grandes masses de données peuvent être traitées et exploitées de façon optimale. [2]
Historique
Il y des milliers d’années, l’homme utilisait les données directes de la nature afin de décrire les phénomènes qu’il observait. On parle dans ce cas des sciences empiriques.
Il y a quelques centaines d’années, les mathématiques et la physique ont été théorisées et formalisées donnant un ensemble de formulesPour une histoire plus détaillée du BIG DATA, il est très instructif de se reporter à l’article de Gil Pressdaté du 5 mai 2013 : « une très courte histoire du BIG DATA » (Forbes.com).
En une trentaine de dates de 1944 à 2012, il retrace la prise de conscience précoce de l’explosion des données (dans les rayons des bibliothèques universitaires dans un premier temps, puis via les NTIC), avec comme préoccupation centrale d’en quantifier la croissance tout en apportant quelques considérations critiques au tour du déluge informationnel.
L’explosion des données est en effet d’abord perçue comme une menace sur la vie privée. [3]
L’expression «BIGDATA» fait finalement son apparition en octobre 1997 dans la bibliothèque numérique de l’ACM (association forcomputingmachinery).
En effet, lors d’une conférence en octobre 1999, entièrement sur le thème de la visualisation des données, par l’IEEE (Institute of Electronicand ElectronicsEngineers) permet à un public plus grand d’accéder à cette nouvelle notion et de se poser des questions sur ses impacts.
Dans les années 2000, alors que l’exabytes (10^18bytes) entrent en jeu dans la quantification des données produites annuellement, la valeur du BIGDATA est mise en avant, d’abord pour les bénéfices que peuvent en tirer la recherche dans les secteurs de la physique, de la biologie ou des sciences sociales.
– 2001 Les 3V utilisés pour la 1ère fois : En février 2001, Doug Laney, analyste chez Meta Group, publie une note de recherche intitulée «Gestion des données 3D: contrôle du volume, de la vitesse et de la diversité des données».
Une décennie plus tard, les «3V» sont devenus les trois dimensions généralement acceptées. Big Data, bien que le terme lui-même n’apparaisse pas dans la note de Laney. [4]
– 2005 Web 2.0: Les commentateurs annoncent la naissance du «Web 2.0» – le Web généré par les utilisateurs, où la majorité du contenu sera fourni par les utilisateurs de services plutôt que par les fournisseurs de services eux-mêmes.
Ceci est réalisé grâce à l’intégration de pages Web de style HTML traditionnelles avec de vastes bases de données back-end construites sur SQL.
5,5 millions de personnes utilisent déjà Facebook, lancé un an plus tôt, pour télécharger et partager leurs propres donnés avec des amis.
Cette année voit également la création de Hadoop (le framework open source créé spécifiquement pour le stockage et l’analyse des ensembles Big Data).
Sa flexibilité le rend particulièrement utile pour gérer les données non structurées (voix, vidéo, texte brut, etc.) que nous générons et collectons de plus en plus. [5]
Figure1. 2: Logo de Hadoop
– 2009 Les entreprises de +1000 personnes stockent 200 téraoctets de données en moyenne : Nous estimons qu’en 2009, presque tous les secteurs de l’économie américaine avaient en moyenne au moins 200 téraoctets de données stockées (deux fois la taille de l’entrepôt de données du détaillant américain Wal-Mart en 1999) par entreprise de plus de 1 000 employés.
De nombreux secteurs avaient plus d’un pétaoctet en moyenne des données stockées par entreprise. [6]
– Décembre 2013 SAP HANA
Les entreprises ont commencé à mettre en œuvre de nouvelles technologies in-Memory, comme SAP HANA, afin d’analyser et d’optimiser des quantités massives de données.
Les entreprises se sont encore davantage appuyées sur l’utilisation des données en tant qu’actif métier pour rester compétitives. [7]
– 2020 L’avenir du BIG DATA
[2_resultats-revelateurs-du-web-scraping-sur-linkedin_3]
La production de données augmente à un rythme effréné. Les spécialistes penchent aujourd’hui pour un exhausse de 4300% de la génération annuelle des données d’ici à 2020.
Les facteurs de croissance inclussent la transition des technologies analogiques vers le numérique, ainsi que la hausse rapide de la génération des données par les entreprises comme par les particuliers. [9]
Figure1. 3: L’explosion des données
Questions Fréquemment Posées
Qu’est-ce que le Big Data?
Littéralement, Big Data signifie données massives ou méga données. C’est un ensemble d’entités de données hétérogènes en extensibilité permanente qui ne peuvent pas prises en charge par les systèmes de gestion de données classiques.
Comment le web scraping est-il utilisé pour la recherche d’emplois sur LinkedIn?
L’approche utilise le traitement du langage naturel et des ontologies de domaine pour transformer des données non structurées en fichiers XML structurés, facilitant ainsi l’extraction de données de profils et d’offres d’emploi.
Pourquoi le Big Data est-il considéré comme une révolution industrielle?
L’émergence du Big Data est considérée comme une nouvelle révolution industrielle semblable à la découverte de la vapeur, de l’électricité, du téléphone et de l’informatique.