Le cadre théorique du big data révèle une transformation radicale dans l’extraction de données, notamment sur LinkedIn. Cette étude de cas démontre comment le web scraping, associé au traitement du langage naturel, facilite l’accès à des informations précieuses, redéfinissant ainsi les pratiques de recherche d’emploi.
L’intérêt du BIG DATA
Le sujet du BIG DATA est très ancré dans l’actualité. Celui-ci est considéré comme un levier majeur de la digitalisation de l’entreprise : le traitement des données est déjà utilisé déjà dans la finance pour vérifier par exemple la solvabilité des clients. Le marketing l’utilise pour établir des prédictions sur le comportement des consommateurs, mieux les comprendre pour personnaliser l’offre.
Le BIG DATA : Une source de nouvelles pratiques déjà en marche
Aujourd’hui, le volume des données à disposition est gigantesque, leur analyse et leur exploitation constitue donc un impact stratégique majeur pour les entreprises. Ces données sont aussi bien celles qui sont internes à l’entreprise, formelles (évaluation des performances, parcours du salarié dans l’entreprise…) ou informelles (messageries internes des entreprises) et enfin totalement externes à l’entreprise. (Web, réseaux sociaux …)
Un Outil à fort potentiel
De plus en plus au centre de l’attention, le BIG DATA démultiplie les possibilités de la fonction RH. Il permet d’optimiser le sourcing en recueillant les données issues de vos offres d’emploi, comparer ces données par rapport aux concurrents, les utiliser dans la prise de décision: ce que proposent E-quest ou encore Monster. Son utilisation a donc aussi un impact en termes de gestion des coûts.
Le Big Data permet aussi d’optimiser la mobilité interne en se basant sur les performances des salariés, afin de voir quels sont les collaborateurs les plus en phase pour un poste et servir d’outil à la performance pour les commerciaux par exemple. 10
Pour le marketing
Dans le monde d’aujourd’hui, le pouvoir est entre les mains du consommateur. Il agit selon ses envies et quand il le souhaite. Il zappe la pub, se désengage et navigue dans la direction qu’il a lui-même choisie pour effectuer ses achats. Il refuse d’être marketé, ce qui ne simplifie pas la tâche des spécialistes du marketing !
Mais grâce à l’arrivée du BIG DATA, les prises de décisions de ces spécialistes sont facilitées. En effet, l’analyse des données avec des technologies comme Hadoop, fait gagner le marketing en précision et en efficacité. Quand on a une bonne connaissance du profil de son client, il est plus facile d’identifier le message marketing adapté.
Les clients sont tous uniques et l’utilisation du BIG DATA peut devenir un partenaire utile pour décortiquer leurs besoins et attentes. 11
Les caractéristiques du BIG DATA (Les 5V)
[3_cadre-theorique-du-big-data-analyse-approfondie_4]
Figure1. 4: Les 5V du Big Data
Le Big Data est une caractérisation de l’accumulation sans fin de toutes sortes de données, la plupart non structurées. Il décrit des ensembles de données en croissance exponentielle, trop volumineux, trop bruts, trop non structurés ou dont la structure d’analyse change trop rapidement. En 2001, Doug Laney a publié un article identifiant la plupart des caractéristiques du Big Data et décrivant l’impact de volume, vélocité et variété des données de commerce électronique sur les entrepôts de données d’entreprise. À cette liste, la véracité et la valeur ont été ajoutées ainsi que d’autres caractéristiques.
Volume
Fait référence aux énormes quantités de données générées chaque seconde. Il suffit de penser à tous les e-mails, tweets, photos, vidéos, les données des capteurs que nous produisons et partageons chaque seconde. Nous ne parlons plus en Téraoctets mais en Zettabytes ou Brontobytes. Sur Facebook seulement, nous envoyons 10 millions de messages par jour, « Likons » 4,5 millions de fois et téléchargeons 350 millions de nouvelles photos chaque jour. Si nous prenons toutes les données qui ont été créées dans le monde la nuit des temps à 2008, la même quantité de données est maintenant générée chaque minute. Ce volume important de données est désormais trop important pour être stocké ou analysé de façon « traditionnelle ». 12
Vélocité
La vitesse à laquelle les données sont générées, analysées et utilisées, telles que des millions de messages échangés à tout moment sur les réseaux sociaux. Dans les environnements Big Data, les données peuvent arriver à grande vitesse et d’énormes jeux de données peuvent s’accumuler en très peu de temps. Du point de vue de l’entreprise, la rapidité des données se traduit par le temps qu’il faut pour que les données soient traitées une fois qu’elles entrent dans le périmètre de l’entreprise. Pour faire face à l’afflux rapide de données, l’entreprise doit concevoir des solutions de traitement de données très élastiques et disponibles, ainsi que des capacités de stockage de données correspondantes. 13
Variété
La variété fait allusion aux nombreux types de données disponibles. Les types de données traditionnels ont été structurés et trouvent naturellement leur place dans une base de données relationnelle. Avec l’augmentation du Big Data, les données ne sont pas nécessairement structurées. Les types de données non structurés et semi-structurés, tels que le texte, l’audio et la vidéo, nécessitent un prétraitement supplémentaire pour en déduire le sens et prendre en charge les métadonnées. 14
Véracité
C’est l’une des caractéristiques malheureuses du Big Data. La Véracité fait référence à la provenance ou la fiabilité de la source de données, son contexte et son importance pour l’analyse qui en découle.” La qualité des données qui entrent dans les environnements Big Data doit être évaluée, ce qui peut entraîner des activités de traitement des données pour résoudre les données non valides et éliminer le bruit.
En ce qui concerne la véracité, les données peuvent faire partie du signal ou du bruit d’un jeu de données. Le bruit est une donnée qui ne peut pas être convertie en information et n’a alors aucune valeur, alors que les signaux ont de la valeur et conduisent à une information significative.
Les données avec un rapport signal sur bruit élevé ont plus de véracité que les données avec un rapport inférieur. Les données acquises de manière contrôlée, par exemple via des enregistrements de clients en ligne.
Valeur
C’est l’utilité des données prendre en compte quand on parle de Big Data. C’est bien beau d’avoir accès aux grosses données mais encore faut-il les transformer en valeurs.
Sa caractéristique est liée intuitivement à la caractéristique de véracité, en ce sens que plus la fidélité des données est élevée, plus elle a de la valeur pour l’entreprise. La valeur dépend également de la durée du traitement des données, car les résultats des analyses ont une durée de vie limitée.
D’autres caractéristiques
– Visualisation: c’est à quel point il est difficile de visualiser.
– Volatilité: Quel âge doivent avoir vos données pour être considérées comme non pertinentes, historiques ou inutiles? Combien de temps faut-il conserver les données?
– Vulnérabilité: pose de nouveaux problèmes de sécurité. Après tout, une violation de données avec le Big Data est une grande violation. Le piratage d’Ashley Madison en 2015
– Validité: Similaire à la véracité, la validité concerne la précision et la correction des données pour l’usage auquel elles sont destinées. 15
________________________
Questions Fréquemment Posées
Qu’est-ce que le Big Data et pourquoi est-il important ?
Le Big Data est considéré comme un levier majeur de la digitalisation de l’entreprise, permettant le traitement des données pour optimiser des processus comme la vérification de la solvabilité des clients en finance ou la personnalisation des offres en marketing.
Comment le Big Data influence-t-il le marketing ?
L’analyse des données avec des technologies comme Hadoop permet aux spécialistes du marketing de gagner en précision et en efficacité, facilitant ainsi l’identification du message marketing adapté aux besoins des clients.
Quels sont les 5V du Big Data ?
Les 5V du Big Data sont le volume, la vélocité, la variété, la véracité et la valeur, décrivant les caractéristiques des ensembles de données en croissance exponentielle.