Accueil / Un Web Scraper pour l'extraction de données Etude de cas : Recherche d'emplois et de profils dans le site LinkedIn

Un Web Scraper pour l’extraction de données Etude de cas : Recherche d’emplois et de profils dans le site LinkedIn

Ce mémoire développe une technique de web scraping pour l’extraction automatique de contenu web, particulièrement appliquée à la recherche d’emplois et de profils sur LinkedIn. L’approche utilise le traitement du langage naturel et des ontologies de domaine pour transformer des données non structurées en fichiers XML structurés. L’implémentation pratique est réalisée en Python avec pour objectif de collecter, filtrer et sauvegarder des données de profils et d’offres d’emploi. Le travail s’inscrit dans le contexte du Big Data et vise à faciliter l’accès à l’information au sein de masses de données hétérogènes.

Université Mohamed Boudiaf – M’sila
Faculté: Mathématiques et Informatique
Département: Informatique
Master Académique en Informatique Décisionnelle et Optimisation
Mémoire présenté pour l’obtention du diplôme
Web Scraper pour l’Extraction de Données: Étude de Cas sur la Recherche d’Emplois et de Profils LinkedIn

Aichouche Mohamed & Mokhnache Belkasem
Supervisé par: Jury Académique
2019/2020

الملخص
ان هذا العمل يستهدف مجال البيانات الضخمة التي تحتوي على مختلف البيانات من مختلف المصادر. تخصصنا في هذا البحث هو استخراج المعلومات والمعارف من الملفات التي عادة ما تكون بها بيانات غير مهيكلة وبالاستعانة بانطولوجيا المجال و معالجة اللغات الطبيعية ليتم عرضها على شكل ملفXML الذي يكون

Dédicace
Jedédiecemodestetravailàmamèreetmonpère (رحمهما الله) .pourl’éducationqu’ilsm’ontprodigué;avec touslesmoyenset auprixdetouteslessacrificesqu’ilsontconsentisà monégard,pourlesensdudevoirqu’ilsmonenseignédepuismon
Enfance.
A mon épouse Sara,quijesouhaitetoutlebonheurdumonde.Tu astoujoursété pourmoid’uneaidetrèsprécieuse.
A mes chères enfants Mosaab et Zaineb,quedieu les protèges
Aàmafamilleavec tousmessentimentsderespect,d’amour,degratitudeetdereconnaissance.
MokhnacheBelkasem
Dédicace
Toutes les lettres ne sauraient trouver les mots qu’il faut… Tous les mots ne sauraient exprimer la gratitude, L’amour, le respect, la reconnaissance. Aussi, c’est tout simplement que
Je dédie cette mémoire …
Àma chère mère et mon père (رحمة الله عليه)
Aucune dédicace ne saurait exprimer mon respect, mon amour éternel et ma considération pour les sacrifices que vous avez consenti pour mon instruction et mon bien être. Je vous remercie pour tout le soutien et l’amour que vous me portez depuis mon enfance et j’espère que votre bénédiction m’accompagne toujours. Que ce modeste travail soit l’exaucement de vos vœux tant formulés, le fruit de vos innombrables sacrifices, bien que je ne vous en acquitterai jamais assez. A MES CHERS ET ADORABLE FRERES ET SŒURS
Ibtissam, Hayet, Youcef, Aziz, Fouzi, Malak
A Tous mes amis et spécialement
MokhnachBelkacem,Belhadjkhaled, AzzedineMguirech, ElkaliToufik,
BenchouikhNacerdine, Dahmaneimadedine, DridiNacer, Zorig Ammar, chenen Boubaker
À tous ceux qui ont participé de près ou de loin à la réalisation de ce travail.
Aichouche Mohamed
Remerciement
Aucune œuvre humaine ne peut se réaliser sans l’aide de Dieu. Nous le remercions en premier lieu de nous avoir donné la santé, le courage ainsi qu’une grande volonté pour aboutir à ce travail.
Nous remercions en particulierDr. Brahimi Mahmoud, pour l’honneur qu’il nous a fait de bien vouloir nous encadrer, et pour l’aide et les conseils donnés lors de la réalisation de ce travail.
Nos vifs remerciements vont également aux membres du jury pour l’intérêt qu’ils ont portés à notre recherche en acceptant d’examiner notre travail et de l’enrichir par leurs propositions.
Nous adressons aussi nos sincères reconnaissances à tous les enseignants du département deMathématiques et Informatiques de l’université de MSILA pour leurs aides, soutiens et leursconseils ainsi que tout le staff administratif du département.
Merci à tous ceux et celles qui ont contribués de près ou de loin dans l’accomplissement dece travail
• Aichouche Mohamed
• Mokhnache Belkasem
Table des matières
INTRODUCTION GENERALE 1
CHAPITER 1 INTRODUCTION AU BIG DATA 3
1 Introduction 3
2 Définition du BIG DATA 3
3 Historique 4
4 L’intérêt du BIG DATA 7
4.1 Le BIG DATA : Une source de nouvelles pratiques déjà en marche 7
4.2 Un Outil à fort potentiel 7
4.3 Pour le marketing 7
5 Les caractéristiques du BIG DATA (Les 5V) 8
5.1 Volume 8
5.2 Vélocité 9
5.3 Variété 9
5.4 Véracité 9
5.5 Valeur 10
5.6 D’autres caractéristiques 10
6 Technologies du big data 10
6.1 MapReduce 10
6.2 Hadoop 11
6.3 Spark : 11
6.4 NoSQL : 11
6.5 In Memory 12
7 Les domaines d’application 12
7.1 La santé 12
7.2 Domaines de Bank, Finance et Assurance 12
7.3 Domaine de Recherche 13
7.4 Dans le domaine de l’information 13
8 Les enjeux de Big Data 14
8.1 Technologiques 14
8.2 Organisationnels 14
8.3 Economiques 15
9 La Définition de l’information 15
9.1 Les caractéristiques de l’information 15
9.2 La différence entre une donnée et une information 15
9.3 Les types des données 16
9.4 La collecte des données 16
9.5 Fiabilité 16
9.6 Traitement 17
9.7 Les données primaires 17
9.8 Le Stockage de données 17
10 Conclusion 18
CHAPITER 2 WEB SCRAPING : EXTRACTION DU CONTENU DES PAGES WEB 19
1 Introduction 19
2 Extraction du contenu des pages web 19
2.1 Définition du contenu principal 20
2.2 Définition du contenu bruyant 20
2.2.1 Publicité (Advertisement) 20
2.2.2 Navigation 20
2.2.3 Pages Web Promotionnelles 20
2.2.4 Informations légales 21
2.2.5 Informations non pertinents 21
2.2.6 Sources et références 21
2.2.7 Eléments d’entrée 21
3 Le Web 21
3.1 HyperText MarkupLanguage (HTML) 23
4 Recherche d’information sur le Web 23
5 Extraction du contenu web (Web Scraping) : 24
5.1 Processus de Web Scraping 24
5.2 Modalités d’extraction 25
5.2.1 Extraction manuelle: 25
5.2.2 Extraction sémi-automatique : 25
5.2.3 Extraction automatique 25
5.3 Modalités de traitement 25
5.3.1 Aucun traitement 26
5.3.2 Visualisation des données brutes 26
5.3.3 Traitement des données 26
5.3.4 Traitement des données et visualisation 26
5.4 Techniques d’extraction 26
5.4.1 Expressions régulières 26
5.4.2 XPath 27
5.4.3 Traverser le DOM 27
5.5 Web Scraping et HTML 28
6 Outils Web Scraping 28
7 LinkedIn 29
7.1 Les utilisateurs de LinkedIn 29
7.2 La recherche sur LinkedIn 30
7.3 Utilisation de la recherche 30
7.4 Les filtres standards 31
7.5 La recherche booléenne 31
7.6 Exemples 32
7.7 Recrutement grâce à LinkedIn 33
7.8 Complètement efficace du profil 33
8 La légitimité du Web Scraping 34
9 Conclusion 35
CHAPITER 3 CONCEPTION ET IMPLEMENTATION 36
1 Introduction 36
2 Présentation de l’environnement technique du travail 36
2.1 Python : 36
2.2 Sublime Text : 37
3 Phases d’exécution 38
3.1 Pour Les Emplois 38
3.2 Pour les Profiles 39
4 Présentation du Scraper réalisé 40
4.1 Interface du scraper 40
4.2 Démarche technique sous Python 41
4.2.1 Pour Les Profils 41
4.2.2 Pour Les Emplois 43
5 Conclusion 44
CONCLUSION GENERALE 45
Références 46
Liste Des Tableaux
Tableau 1. 1: Les Types des données 16
Tableau 2. 1 : Logiciels du Web Scraping 28
Liste Des Figures
Figure‎1. 1: Composantes du BIGDATA 3
Figure‎1. 2: Logo de Hadoop 5
Figure‎1. 3: L’explosion des données 6
Figure‎1. 4: Les 5V du Big Data 8
Figure‎1. 5: Les domaines d’application de Big data 13
Figure 2. 1: Principe de fonctionnement de l’architecture Client-Serveur 22
Figure 2. 2: La structure d’un page HTML5 23
Figure 2. 3: Traverser le DOM 27
Figure 2. 4: Page d’accueil de LinkedIn 30
Figure 3. 1: Python v3 36
Figure 3. 2: Interface du Sublime Text 3 38
Figure 3. 3: Les phases d’exécution pour Emplois 39
Figure 3. 4: Les Phases d’exécution pour les Profiles 39
Figure 3. 5: L’interface de l’Application 40
Références
Sites web:
[6][https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation].
[9] https://visual.ly/community/infographic/technology/big-data-just-beginning-explode.
[14] https://www.oracle.com/ch-fr/big-data/what-is-big-data.html
[15] https://tdwi.org/articles/2017/02/08/10-vs-of-big-data.aspx
[18] https://www.piloter.org/business-intelligence/technologie-big-data.htm
[19] http://rpq-qpn.ca/blog/mpower-la-nouvelle-application-pour-les-patients-atteints-de-la-maladie-de-parkinson.05 avril 2016
[20] PEAUDECERF,Marion.http://www.bigdataparis.com/guide/2016-2017/BD_guide_16-7_BD_16119.pdf. www.bigdataparis.com. [En ligne] 2016.
[26] http://glossaire.infowebmaster.fr/html/
[31] https://www.omnicoreagency.com/linkedin-statistics/
Articles:
[4] Gil Press. A Very Short History Of Big Data .09 mai 2013
[5] Bernard MarrA. Brief history of big data everyone should read.25 Février 2015
[7] KONE, Angeline Mastère spécialisé SI. 2013.
[8] CIO, 12BIG DATA Predictionsfor 2014.
[10] Antoine PerruchotBig Data: De l’Intérêt de donner du sens aux données.29.03.2016
[11]De l’intérêt du big data pour le marketing Xavier Guerin MapR.15 Juillet 2014
[12] Par Guillaume Serries.Big-data-3-4-ou-5-v. 04 Février 2016.
[13] Paul Buhler, WajidKhattak, Thomas Erl, Big Data Fundamentals: Concepts, Drivers & Techniques, January 2016.
[16]  Alain Fernandez. MapReduce, définition10.10.2017
[22] White, Colin. Converting Hype into value with Big Data and Analytics.Octobre 2013
[23] JOUANNOT, Olivier. Présentation Générale Big Data. France 2013.
[24] Group, CXP. Le Forum Organisé par le CXP Group, reconnu pour son expertise, il vous permet de faire le point sur votre Système. Cabinet européen indépendant. 11 juin 2015
[25] HAMZA YUNIS, Content Extraction from Web pages Using Machine Learning, Master, December 16, 2016.
[27] MEADI MOHAMED NADJIB, Technique basée HITS/SVM pour la réduction et lapondération des caractéristiques des pages Web, Doctorat, 2017
[28] Mustapha Baziz, Indexation conceptuelle guidée par ontologie pour la recherche d’information, Doctorat, Toulouse, 2005
[29]BO ZHAO, Web Scraping,Washington, May 2017
[32]case n° 17-cv-03301-EMC.US district court, Northern district of California, Hiq labs, inc., Plaintiff vs. LinkedIn corporation, Defendant, Août 2017
Livres:
[1]Dictionnaire HACHETTE. 2020
[2] Paul Buhler, WajidKhattak, Thomas Erl, Big Data Fundamentals: Concepts, Drivers & Techniques, January 2016
[3]Arthur Miller Assault on privacy -1971
[17] Juvénal Chokogoue. Hadoop – Devenez opérationnel dans le monde du Big Data. Paris 2017.
[21] Thomas Cambrai. Comprendre les enjeux du Big data France. 30 septembre 2017
[30] Ryan Mitchell. Web Scraping with Python: Collecting Data from the Modern Web, 2015

Scroll to Top