Comment l’analyse de cas du web scraping transforme LinkedIn ?

Pour citer ce mémoire et accéder à toutes ses pages
🏫 Université Mohamed Boudiaf - M'sila - Mathématiques et Informatique - Informatique
📅 Mémoire de fin de cycle en vue de l'obtention du diplôme de Master Académique - 2019/2020
🎓 Auteur·trice·s
Aichouche Mohamed et Mokhnache Belkasem
Aichouche Mohamed et Mokhnache Belkasem

L’analyse de cas sur le web scraping révèle que 70 % des chercheurs d’emploi utilisent LinkedIn pour trouver des opportunités. Cette étude innovante propose une méthode de traitement des données non structurées, transformant ainsi l’accès à l’information dans un monde de Big Data, avec des implications significatives pour les professionnels.


Les enjeux de Big Data

Technologiques

L’avènement du Big Data impacte tout le SI de l’entreprise. Tout d’abord il va s’agir d’adopter de nouvelles technologies : « les besoins d’analyse en temps réel, d’exploitation de données volumineuses structurées et non structurées ainsi que le BI (Business Intelligence) actionnable imposent aux Directions des Systèmes d’Information des architectures applicatives et des infrastructures d’un niveau d’exigence qui peut parfois paraître assez élevé »8.

Une étude menée par Lin et Ryaboy (2013) montre que la complexité d’un projet Big data se résume dans la construction d’une plateforme d’analyse de données rassemblant différents composants hétérogènes et devant fonctionner de manière fluide et précise pour pouvoir produire « un fractionnement des rapports agrégés chaque heure, mettre à jour des produits de données toutes les trois heures, faire générer de nouveaux modèles de classeurs quotidiennement.21 »

Organisationnels

Autrefois, la différenciation concurrentielle se résumait à la capacité de collecter les meilleures données qui permettent une connaissance fine du marché, du produit et du client. Avec l’avènement de l’Internet puis du Big Data, les données de tout type deviennent accessibles, en grande quantité et facilement gérables et manipulables à travers des outils dédiés.

L’enjeu pour les entreprises est alors de faire bon usage de ces données massives, d’affecter une équipe qualifiée, d’allouer un budget conséquent pour en extraire une valeur stratégique et d’accompagner le changement lié à l’accès à ces données massives. L’identification des données les plus pertinentes et qui ne représentent qu’un faible pourcentage de la quantité de données dont dispose l’entreprise représente un des principaux enjeux organisationnels du déploiement d’une stratégie Big Data.

Du fait de la multiplicité des sources de données en entreprise, il est difficile de maîtriser cette surabondance d’informations. Au sein des organisations, il n’existe pas de stratégies claires et élaborées pour localiser et extraire de nouvelles connaissances de ce corpus de données. La majeure préoccupation des entreprises est de décider comment exploiter cette masse de données : « en moyenne un annonceur disposerait de quinze outils différents d’analyse pour traiter ses données.21 »

Economiques

Surmonter les enjeux organisationnels et technologiques permet de garantir pour les entreprises un retour sur investissement dans un projet Big Data. L’objectif même d’un tel projet est de déployer une stratégie pertinente pour tirer profit de la surabondance exponentielle des données au niveau de toutes les fonctions de l’entreprise. Pour le Vice-Président des technologies émergentes de l’internet chez IBM, le Big Data représente plus « de nouveaux usages et de nouveaux horizons plutôt que de simples données supplémentaires »21.

La Définition de l’information

L’information est un élément de connaissance, qui peut être collecté, traité, conservé, communiqué au sein de l’organisation ou auprès de ses partenaires.

L’information est constituée de deux éléments :

  • Des données.
  • Un sens qui dépend de chaque individu.

Les caractéristiques de l’information

Une information est caractérisée par :

  • Sa forme
  • Son mode de présentation
  • Ses qualités
  • Son coût.

La différence entre une donnée et une information

A la différence d’une information, Une donnée est « Une information numérique ou alphanumérique, codée, lisible par la seule machine, en vue de son enregistrement, traitement, conservation et communication… ».

Une donnée présente plusieurs ou toutes les caractéristiques suivantes : unicité, instabilité, objectivité, accessibilité, persistance, mobilité.

  • Unicité : une donnée a une valeur unique à un moment donné.
  • Instabilité : une donnée est variable dans le temps.
  • Objectivité : une donnée est vraie ou fausse.
  • Accessibilité : une donnée est facilement accessible et n’a pas besoin d’être publique.
  • Persistance : une donnée peut être stockée sur un support durable.
  • Mobilité : une donnée peut être combinée, calculée, comparée, déduite etc.
  • Ces caractéristiques rendent une donnée sans grande valeur si elle n’est pas combinée à d’autres données.22

Les types des données

Tableau 1.1: Les Types des données
Parameter/CriteriaDescription/Value
Type 1Description 1
Type 2Description 2

Figure‎1.6: Les types de données

La collecte des données

La collecte des données : l’expression est paradoxale car si l’on prend la peine de collecter quelque chose, c’est justement parce que ce n’est pas donné. En amont de la démarche statistique se trouvent les données (data) et en aval, la connaissance, puis l’action. Encore qu’il existe un contrecourant dans ce long fleuve impétueux puisque c’est la bonne connaissance d’un sujet qui permet de définir les caractères à observer. S’il est un volume qui connaît un accroissement exponentiel depuis des décennies, on parle de Big Data pour définir des bases si colossales que les outils informatiques classiques doivent être repensés.23

Fiabilité

En amont de la collecte, il faut pouvoir estimer si le niveau d’exactitude des données est suffisant. Inutile de se lancer dans une étude pour laquelle les observations sont réputées non fiables. En effet, qu’elles soient rares ou surabondantes, elles sont le matériau qui sera traité pour être transformé en information.

Et l’information, c’est le nerf du business et de la recherche… Aussi ne faut-il pas oublier que la fiabilité des données est sans doute le critère n°1 de la qualité d’une étude. On a coutume de résumer cette évidence par Garbage In Garbage Out (GIGO). Malheureusement, l’exactitude des réponses n’est pas la motivation principale de l’enquêteur mal payé ou de l’enquêté qui n’a que faire des résultats de l’étude.

Même une bonne traçabilité ne garantit pas la justesse des données.

Traitement

Une fois collectées, les données subissent quelques traitements avant même d’être exploitées. Elles sont « nettoyées », ce nettoyage consistant à éliminer ou imputer les valeurs manquantes ou aberrantes. Puis elles changent de statut. Elles deviennent les modalités de variables dans une base d’analyse (sous forme de fichier CVS ou Excel, table SAS, etc.). Concrètement, chaque ligne d’un fichier informatique est affectée à une unité statistique et chaque colonne indique les valeurs ou les modalités prises par une variable en particulier. Les données sont habituellement qualifiées par leur nature (continues, discrètes, qualitatives, textuelles) et par le type de collecte utilisé. Voyons ces types de plus près.

Les données primaires

Il s’agit de celles qui sont spécialement collectées pour répondre à une problématique, c’est-à-dire pour réaliser une étude statistique ad hoc. Donc, pas de BIG DATA par ici ! La collecte a un coût important (coûts variables très élevés par rapport au coût fixe, contrairement aux données secondaires internes évoquées plus bas).

Le commanditaire délègue en principe cette activité à un prestataire sous-traitant qui utilise des moyens particuliers tels qu’enquêtes à base de questionnaires ou méthodes expérimentales. Les questionnaires sont les outils habituels des études de marché voire d’audits sociaux. Avant de les mettre en œuvre, il convient de déterminer la taille de l’échantillon, son mode de sélection (aléatoire, par quotas, stratifié, par panel…) et la formulation des questions qui se traduira par tel type de variable (échelles non comparatives…).

Une expérimentation invoquée est une recherche d’explication de phénomènes sur lesquels l’observateur n’a pas de prise. Exemple : corrélation constatée entre la météo et la vente de certains produits alimentaires. Au contraire, une expérimentation provoquée reconstitue des situations en laboratoire.24

Le Stockage de données

L’activité humaine ne peut pas exploiter utilement des données isolées. Par extension, de très nombreuses données combinées peuvent générer de l’information très utile.

Nous avons mis en lumière la spécificité d’une donnée : elle doit être captée et éventuellement stockée en vue d’être combinée avec d’autres données. Cette collecte est une opération essentielle dans la chaine de valeur et elle peut mobiliser des moyens considérables ou extrêmement performants.

Le besoin d’analyses de données a permis l’émergence de systèmes de bases de données, dans les années 1980, puis les systèmes d’infocentres dit « Data Warehouse ». Ces systèmes permettent de stocker les données avec des règles d’accès très puissantes, dans un modèle où les données sont structurées et bien décrites.

Les concepteurs de ces systèmes savent à l’avance l’usage qui pourra être fait des données et ont donc imaginé une structuration permettant ces usages. Ces données ont des caractéristiques connues à l’avance, ce sont des données chiffrées communes à tout système comptable.

La collecte permet de les « ranger » de manière certaine dans des tables bien décrites et selon des règles de stockage dans ce qu’on appelle un modèle de données.

A l’inverse, les données du « BIG DATA » ne présentent pas nécessairement des caractéristiques connues à l’avance.

Conclusion

Dans ce chapitre, nous avons présenté le domaine du Big data avec toutes ses spécificités. On a vu que le Big data englobe une grande masse de données hétérogènes et qui proviennent de différentes sources. Pour bien profiter de ces données un travail de sélection est indispensable afin d’écarter les données non utiles et non valides.

Dans le chapitre suivant, nous allons aborder ce point concernant l’extraction de données afin de préparer aux utilisateurs une collection de données utiles et qui les aident dans leurs tâches de prise de décision.

________________________

8 Source de la référence.

21 Source de la référence.

22 Source de la référence.

23 Source de la référence.

24 Source de la référence.


Questions Fréquemment Posées

Quels sont les enjeux technologiques du Big Data?

L’avènement du Big Data impacte tout le SI de l’entreprise, nécessitant l’adoption de nouvelles technologies pour l’analyse en temps réel et l’exploitation de données volumineuses.

Comment les entreprises peuvent-elles tirer profit des données massives?

Les entreprises doivent affecter une équipe qualifiée et allouer un budget conséquent pour extraire une valeur stratégique des données massives.

Quelle est la différence entre une donnée et une information?

Une donnée est une information numérique ou alphanumérique, codée et lisible par la machine, tandis qu’une information est un élément de connaissance qui peut être collecté et traité.

Rechercher
Télécharger ce mémoire en ligne PDF (gratuit)

Laisser un commentaire

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top