Web Mining

Web Mining : Prétraitement & Extraction de Connaissances en Web Usage Mining
Université Kasdi Merbah de Ouargla
Faculté des Sciences et Sciences de l’Ingénieur

Département des Mathématiques et d’Informatique
Option : Informatique et Communication Electronique

Mémoire En vue de l’obtention du diplôme de Magister – Spécialité : Informatique

Prétraitement & Extraction de Connaissances en Web Usage Mining
S2WC2 : un WUM Framework Centré Utilisateur

Par Slimane OULAD NAOUI
Présenté le 27 Mai 2009

Devant le jury composé de :
Présidente Fatima-zohra Laalam MC, Université de Ouargla
Examinateurs Lamri Douidi MC, Université de Sétif
Rapporteur Samir Zidat MC, Université de Batna
Mahieddine Djoudi MC, Université de Poitiers
Co-Rapporteur Chaabane Khentout MC, Université de Sétif

Table des matières
Introduction générale 1
Introduction 1
Motivations 2
Contributions 4
Organisation du mémoire 4
Chapitre 1 : Fouille de données concepts et terminologie 6
1.1 Facteurs d’émergence 6
1.2 Fouille de données et extraction de connaissances 8
1.2.1 Définitions de la fouille de données : 9
1.2.1.1 Définition 1 9
1.2.1.2 Définition 2 10
1.2.1.3 Définition 3 10
1.2.2 Les tâches en fouille de données 11
1.2.2.1 La description 11
1.2.2.2 L’analyse d’association 12
1.2.2.3 La classification 13
1.2.2.4 La segmentation 14
1.2.2.5 La prédiction 16
1.2.2.6 L’analyse d’exception et de déviation 16
1.3 Processus d’extraction de connaissances 16
1.3.1 Préparation des données 17
1.3.2 Fouille de données 18
1.3.3 Analyse des résultats 18
1.4 Principales techniques de fouille de données 20
1.4.1 Techniques statistiques et probabilistes 20
1.4.1.1 La régression linéaire simple, multiple et logistique 20
1.4.1.2 Les tests statistiques 21
1.4.1.3 L’Analyse en Composante Principale (ACP) 21
1.4.1.4 Les réseaux bayésiens (RB) 22
1.4.2 Les réseaux de neurones (RN) 22
1.4.3 K-means 24
1.4.4 Les plus proches voisins (PPV, kNN) 24
1.4.5 Arbres de décision (Decision tree) 25
1.4.6 Le classificateur naïf de Bayes 26
1.4.7 Algorithme Apriori de recherche de règles associatives 27
1.4.8 Autres techniques 28
1.5 Limites de la fouille de données et sujets ouverts 28
Chapitre 2 : De la fouille de données a la fouille du Web 30
2.1 Préambule 30
2.2 Propriétés des données du web 31
2.2.1 La taille énorme 31
2.2.2 L’hétérogénéité 32
2.2.3 La distribution 32
2.2.4 La non structuration 32
2.2.5 La dynamicité 33
2.2.6 L’hyper-liaison 33
2.3 Taxonomie pour le web mining 33
2.3.1 Web content mining 34
2.3.1.1 Découverte de ressources 35
2.3.1.2 Extraction, sélection et prétraitement 35
2.3.1.3 Généralisation 36
2.3.1.4 Analyse 37
2.3.2 Web structure mining 37
2.3.2.1 PageRank 37
2.3.2.2 HITS 38
2.3.3 Web usage mining 39
2.4 WEB MINING ET DOMAINES CONNEXES 40
2.4.1 Web mining et recherche d’information (WM&RI) 40
2.4.2 Web mining et bases de données (WM&BDD) 42
2.4.3 Web mining et approche agent (WM&AGENTS) 43
2.4.4 Web mining et Web sémantique (WM&WS) 44
Chapitre 3 : WEB USAGE MINING, Etat de l’art et problématique 46
3.1 Introduction 46
3.2 Etude du comportement des utilisateurs sur le web 46
3.3 Processus standardise en WUM 48
3.3.1 Définitions 49
3.4 Recueil de données 51
3.4.1 Recueil coté serveur (1-site : N-utilisateurs) 51
3.4.2 Recueil coté Proxy (N-sites : M-utilisateurs) 53
3.4.3 Recueil coté client (N-sites : 1-utilisateur) 54
3.5 Prétraitement 55
3.5.1 Nettoyage 57
3.5.2 Reconstruction de sessions 60
3.5.2.1 Identification des utilisateurs 60
3.5.2.2 Détermination des sessions 62
3.5.2.3 Complétude des parcours de navigation 63
3.5.3 Formatage 64
3.5.4 Intégration d’autres données 65
3.6 Extraction de connaissances et applications 66
3.6.1 L’analyse statistique 66
3.6.2 OLAP 68
3.6.3 Les règles associatives 68
3.6.4 La segmentation 70
3.6.5 La classification 73
3.6.6 Les motifs séquentiels 74
3.7 Analyse des connaissances 77
3.8 WUM et vie privée 78
Chapitre 4 : S2WC2, un Framework pour la segmentation de sessions web cote client 80
4.1 Introduction 80
4.2 Architecture 80
4.3 Collecteur de traces de navigation 82
4.3.1 Approche 83
4.3.2 Avantages & inconvénients 83
4.3.3 Schéma du fichier log 85
4.4 Prétraitement 89
4.4.1 Nettoyage 90
4.4.1.1 Fusion et export vers une base de données 90
4.4.1.2 Traitement des urls 92
4.4.1.3 Filtrage des items inutiles 93
4.4.1.4 Question des pages avec frames 95
4.4.2 Reconstruction des surfs 97
4.4.2.1 Détection et résolution des fenêtres non terminées 98
4.4.2.2 Algorithme de sessionisation 99
4.4.2.3 Des surfs aux sessions 102
4.4.3 Formatage 103
4.4.3.1 Calcul des durées de visite 104
4.4.3.2 Post filtrage des items insignifiants ou aberrants 104
4.4.4 Traitement du contenu 105
4.4.4.1 Catégorisation semi-automatique de pages 105
4.5 Segmentation 106
4.5.1 Mesures de similarité 107
4.5.1.1 Similarité entre pages web 107
4.5.1.2 Similarité entre surfs web 109
4.5.2 Modélisation 109
4.5.3 Les cartes de Kohonen 110
4.5.4 Outils libres d’ECD 111
4.5.4.1 Weka 111
4.5.4.2 Tanagra 112
4.5.4.3 ESOM DataBionic Tools 112
4.6 Expérimentations et résultats 113
4.6.1 Recueil de traces de navigation 113
4.6.2 Préparation des logs 114
4.6.3 Segmentation 116
Conclusion générale et perspectives

Web content mining : Extraction, sélection et prétraitement

Web content mining : Extraction, sélection et prétraitement 2.3 Taxonomie pour le Web mining La première utilisation du terme Web mining (WM) est attribuée à Oren Etzioni dans un article consacré à l’étude de l’applicabilité de la technologie du data mining sur le Web. Dans ce papier originel (Etzioni, 1996), il définit le Web mining comme […]

Web content mining : Extraction, sélection et prétraitement Read More »

De la fouille de données à la fouille du Web : les propriétés

De la fouille de données à la fouille du Web : les propriétés Chapitre 2 – De la fouille de données à la fouille du Web 2.1 Préambule Depuis son apparition vers la fin des années 1980, comme le fruit des travaux menés par Tim Berners Lee1 au sein du CERN (Centre Européen pour la Recherche

De la fouille de données à la fouille du Web : les propriétés Read More »

Les techniques de fouille de données et ses limites

Informatiques et Télécommunications / Web Mining / 3 mai 2013

Les techniques de fouille de données et ses limites 1.4 Principales techniques de fouille de données Plusieurs techniques ont été élaborées pour la recherche de connaissances utiles à partir de données, les toutes premières sont simples et issues, dans la majorité, de la statistique et de l’analyse de données. Cependant il a été vite constaté

Les techniques de fouille de données et ses limites Read More »

Le processus d’extraction de connaissances ECD en WUM

Informatiques et Télécommunications / Web Mining / 3 mai 2013

Le processus d’extraction de connaissances ECD en WUM 1.3 Processus d’extraction de connaissances L’ECD est un processus homme-machine interactif et itératif, composé de plusieurs phases (Fayyad et al., 1996). Il est communément admis que c’est un processus partiellement automatique, où l’interaction de l’homme est primordiale. Il est itératif, dans le sens où l’utilisateur peut à

Le processus d’extraction de connaissances ECD en WUM Read More »

Les tâches en fouille de données

Informatiques et Télécommunications / Web Mining / 3 mai 2013

Les tâches en fouille de données 1.2.2 Les tâches en fouille de données La fouille de données est en fait un ensemble de techniques dédiées à différentes tâches groupées généralement en deux grandes catégories : des tâches descriptives et autres prédictives (Fayyad et al., 1996). Les tâches de la première catégorie ont pour objectifs de

Les tâches en fouille de données Read More »

La fouille de données : concepts et facteurs d’émergence

Informatiques et Télécommunications / Web Mining / 3 mai 2013

La fouille de données : concepts et facteurs d’émergence Chapitre 1 – Fouille de données concepts et terminologie 1.1 Facteurs d’émergence Les volumes de données, de toute nature, produits et stockés chaque jour, dans les différents secteurs d’activité, sont sans cesse en constante évolution. Par exemple, une estimation de cette évolution dans (Lyman & al., 2003)

La fouille de données : concepts et facteurs d’émergence Read More »

Web Mining: Prétraitement & Extraction de Connaissances

Informatiques et Télécommunications, Thèmes des mémoires / Web Mining / 3 mai 2013

Prétraitement & Extraction de Connaissances en Web Usage Mining Université Kasdi Merbah de Ouargla Faculté des Sciences et Sciences de l’Ingénieur Département des Mathématiques et d’Informatique Option : Informatique et Communication Electronique Mémoire En vue de l’obtention du diplôme de Magister – Spécialité : Informatique Prétraitement & Extraction de Connaissances en Web Usage Mining S2WC2

Web Mining: Prétraitement & Extraction de Connaissances Read More »