Accueil » Web Mining

Web Mining

Web Mining : Prétraitement & Extraction de Connaissances en Web Usage Mining
Université Kasdi Merbah de Ouargla
Faculté des Sciences et Sciences de l’Ingénieur

Département des Mathématiques et d’Informatique
Option : Informatique et Communication Electronique

Mémoire En vue de l’obtention du diplôme de Magister – Spécialité : Informatique
Prétraitement & Extraction de Connaissances en Web Usage Mining S2WC2 : un WUM Framework Centré Utilisateur
Prétraitement & Extraction de Connaissances en Web Usage Mining
S2WC2 : un WUM Framework Centré Utilisateur

Par Slimane OULAD NAOUI
Présenté le 27 Mai 2009

Devant le jury composé de :
Présidente Fatima-zohra Laalam MC, Université de Ouargla
Examinateurs Lamri Douidi MC, Université de Sétif
Rapporteur Samir Zidat MC, Université de Batna
Mahieddine Djoudi MC, Université de Poitiers
Co-Rapporteur Chaabane Khentout MC, Université de Sétif

Table des matières
Introduction générale 1
Introduction 1
Motivations 2
Contributions 4
Organisation du mémoire 4
Chapitre 1 : Fouille de données concepts et terminologie 6
1.1 Facteurs d’émergence 6
1.2 Fouille de données et extraction de connaissances 8
1.2.1 Définitions de la fouille de données : 9
1.2.1.1 Définition 1 9
1.2.1.2 Définition 2 10
1.2.1.3 Définition 3 10
1.2.2 Les tâches en fouille de données 11
1.2.2.1 La description 11
1.2.2.2 L’analyse d’association 12
1.2.2.3 La classification 13
1.2.2.4 La segmentation 14
1.2.2.5 La prédiction 16
1.2.2.6 L’analyse d’exception et de déviation 16
1.3 Processus d’extraction de connaissances 16
1.3.1 Préparation des données 17
1.3.2 Fouille de données 18
1.3.3 Analyse des résultats 18
1.4 Principales techniques de fouille de données 20
1.4.1 Techniques statistiques et probabilistes 20
1.4.1.1 La régression linéaire simple, multiple et logistique 20
1.4.1.2 Les tests statistiques 21
1.4.1.3 L’Analyse en Composante Principale (ACP) 21
1.4.1.4 Les réseaux bayésiens (RB) 22
1.4.2 Les réseaux de neurones (RN) 22
1.4.3 K-means 24
1.4.4 Les plus proches voisins (PPV, kNN) 24
1.4.5 Arbres de décision (Decision tree) 25
1.4.6 Le classificateur naïf de Bayes 26
1.4.7 Algorithme Apriori de recherche de règles associatives 27
1.4.8 Autres techniques 28
1.5 Limites de la fouille de données et sujets ouverts 28
Chapitre 2 : De la fouille de données a la fouille du Web 30
2.1 Préambule 30
2.2 Propriétés des données du web 31
2.2.1 La taille énorme 31
2.2.2 L’hétérogénéité 32
2.2.3 La distribution 32
2.2.4 La non structuration 32
2.2.5 La dynamicité 33
2.2.6 L’hyper-liaison 33
2.3 Taxonomie pour le web mining 33
2.3.1 Web content mining 34
2.3.1.1 Découverte de ressources 35
2.3.1.2 Extraction, sélection et prétraitement 35
2.3.1.3 Généralisation 36
2.3.1.4 Analyse 37
2.3.2 Web structure mining 37
2.3.2.1 PageRank 37
2.3.2.2 HITS 38
2.3.3 Web usage mining 39
2.4 WEB MINING ET DOMAINES CONNEXES 40
2.4.1 Web mining et recherche d’information (WM&RI) 40
2.4.2 Web mining et bases de données (WM&BDD) 42
2.4.3 Web mining et approche agent (WM&AGENTS) 43
2.4.4 Web mining et Web sémantique (WM&WS) 44
Chapitre 3 : WEB USAGE MINING, Etat de l’art et problématique 46
3.1 Introduction 46
3.2 Etude du comportement des utilisateurs sur le web 46
3.3 Processus standardise en WUM 48
3.3.1 Définitions 49
3.4 Recueil de données 51
3.4.1 Recueil coté serveur (1-site : N-utilisateurs) 51
3.4.2 Recueil coté Proxy (N-sites : M-utilisateurs) 53
3.4.3 Recueil coté client (N-sites : 1-utilisateur) 54
3.5 Prétraitement 55
3.5.1 Nettoyage 57
3.5.2 Reconstruction de sessions 60
3.5.2.1 Identification des utilisateurs 60
3.5.2.2 Détermination des sessions 62
3.5.2.3 Complétude des parcours de navigation 63
3.5.3 Formatage 64
3.5.4 Intégration d’autres données 65
3.6 Extraction de connaissances et applications 66
3.6.1 L’analyse statistique 66
3.6.2 OLAP 68
3.6.3 Les règles associatives 68
3.6.4 La segmentation 70
3.6.5 La classification 73
3.6.6 Les motifs séquentiels 74
3.7 Analyse des connaissances 77
3.8 WUM et vie privée 78
Chapitre 4 : S2WC2, un Framework pour la segmentation de sessions web cote client 80
4.1 Introduction 80
4.2 Architecture 80
4.3 Collecteur de traces de navigation 82
4.3.1 Approche 83
4.3.2 Avantages & inconvénients 83
4.3.3 Schéma du fichier log 85
4.4 Prétraitement 89
4.4.1 Nettoyage 90
4.4.1.1 Fusion et export vers une base de données 90
4.4.1.2 Traitement des urls 92
4.4.1.3 Filtrage des items inutiles 93
4.4.1.4 Question des pages avec frames 95
4.4.2 Reconstruction des surfs 97
4.4.2.1 Détection et résolution des fenêtres non terminées 98
4.4.2.2 Algorithme de sessionisation 99
4.4.2.3 Des surfs aux sessions 102
4.4.3 Formatage 103
4.4.3.1 Calcul des durées de visite 104
4.4.3.2 Post filtrage des items insignifiants ou aberrants 104
4.4.4 Traitement du contenu 105
4.4.4.1 Catégorisation semi-automatique de pages 105
4.5 Segmentation 106
4.5.1 Mesures de similarité 107
4.5.1.1 Similarité entre pages web 107
4.5.1.2 Similarité entre surfs web 109
4.5.2 Modélisation 109
4.5.3 Les cartes de Kohonen 110
4.5.4 Outils libres d’ECD 111
4.5.4.1 Weka 111
4.5.4.2 Tanagra 112
4.5.4.3 ESOM DataBionic Tools 112
4.6 Expérimentations et résultats 113
4.6.1 Recueil de traces de navigation 113
4.6.2 Préparation des logs 114
4.6.3 Segmentation 116
Conclusion générale et perspectives

Expérimentations et résultats – Extraction de connaissances en WUM

Expérimentations et résultats – Extraction de connaissances en WUM 4.6 Expérimentations et résultats Nous donnons ci-après quelques indices relatifs à l’opération d’acquisition et de préparation de données d’usage que nous avons traité dans cette expérience, ainsi qu’aux résultats de leur segmentation. 4.6.1 Recueil de traces de navigation Il est difficile de pénétrer dans la vie […]

Expérimentations et résultats – Extraction de connaissances en WUM Read More »

Les cartes de Kohonen et Outils libres d’ECD

Les cartes de Kohonen et Outils libres d’ECD 4.5.3 Les cartes de Kohonen Les cartes auto-organisatrices de Kohonen, sont une catégorie de réseaux de neurones à deux couches dédiées à la segmentation (Freeman et al., 1991). Elles permettent de réaliser une projection non linéaire d’un ensemble de données de grande dimension sur une carte (couche

Les cartes de Kohonen et Outils libres d’ECD Read More »

Les techniques d’ECD : le formatage et la segmentation

Les techniques d’ECD : le formatage et la segmentation 4.4.3 Formatage En dépits de la suite des traitements effectués dans les procédures précédentes, les données obtenues ne sont pas prêtes à une application directe de la technique d’ECD. Le formatage a pour but, en prenant en considération les objectifs de l’analyse et la technique d’ECD projetée,

Les techniques d’ECD : le formatage et la segmentation Read More »

Reconstruction des surfs : Algorithme de sessionisation

Reconstruction des surfs : Algorithme de sessionisation 4.4.2 Reconstruction des surfs A l’opposé des approches centrées serveur, qui se basent sur des heuristiques pour la reconstruction de sessions, notre travail permet, en fonctionnement normal, de connaître avec exactitude les moments de démarrage de navigations et leurs instants de fermeture. Dans ce point, nous introduisons la notion

Reconstruction des surfs : Algorithme de sessionisation Read More »

S2WC2, un Framework pour la Segmentation de Sessions Web Coté Client

S2WC2, un Framework pour la Segmentation de Sessions Web Coté Client Chapitre 4 – S2WC2, un Framework pour la Segmentation de Sessions Web Coté Client 4.1 Introduction Après avoir exploré les sujets de l’extraction de connaissances et de la fouille du web et présenté l’état de l’art sur le web usage mining, nous décrivons dans

S2WC2, un Framework pour la Segmentation de Sessions Web Coté Client Read More »

WUM et vie privée – Analyse des connaissances en WUM

WUM et vie privée – Analyse des connaissances en WUM 3.7 Analyse des connaissances L’analyse des résultats produits par les différentes techniques d’extraction de connaissances constitue l’étape finale en WUM. Elle revêt une importance capitale, car elle permet de valider et d’évaluer les motifs extraits. Dans cette phase, les connaissances découvertes seront inspectées afin d’en

WUM et vie privée – Analyse des connaissances en WUM Read More »

L’ECD : la classification et les motifs séquentiels

L’ECD : la classification et les motifs séquentiels 3.6.5 La classification Dans cette tâche d’ECD, on se focalise sur le regroupement des données en ensembles de classes prédéfinies. Dans le cadre du WUM et généralement dans le web, on s’intéresse notamment à la construction de profils utilisateurs appartenant à des catégories particulières selon leurs motifs d’usage,

L’ECD : la classification et les motifs séquentiels Read More »

Extraction de connaissances en WUM et applications

Extraction de connaissances en WUM et applications 3.6 Extraction de connaissances et applications Une fois les données brutes d’usage préparées et formatées dans la phase précédente, elles seront prêtes à l’application des techniques de fouille de données en vue d’en extraire des motifs de navigation intéressants. Cette phase de découverte de connaissances est la plus

Extraction de connaissances en WUM et applications Read More »

Le formatage et l’intégration d’autres données d’usage

Le formatage et l’intégration d’autres données d’usage 3.5.3 Formatage Le formatage quant à lui, constitue l’étape finale du processus de prétraitement en WUM (Facca et al., 2005), durant laquelle les données d’usage collectées et préparées dans les étapes précédentes vont être transcrites et structurées dans une forme persistante. Bien qu’il soit possible de travailler sur

Le formatage et l’intégration d’autres données d’usage Read More »

Reconstruction des sessions et Processus de prétraitement en WUM

Reconstruction des sessions et Processus de prétraitement en WUM 3.5.2 Reconstruction de sessions Afin d’aboutir au fichier des sessions et après la phase de nettoyage des données d’usage, le processus de prétraitement en WUM inclut une étape de reconstruction des sessions. Cette dernière est en réalité constituée de trois sous tâches. Elle comprend l’identification des

Reconstruction des sessions et Processus de prétraitement en WUM Read More »

Le processus de prétraitement en WUM : le nettoyage des données

Le processus de prétraitement en WUM : le nettoyage des données 3.5 Prétraitement Comme nous l’avons vu dans le chapitre précédent, les indicateurs de métrologie relative au Web montrent une évolution exponentielle de celui-ci. Ainsi, et l’instar des données de contenu du Web, les données de son usage collectées dans des fichiers logs ont atteint à

Le processus de prétraitement en WUM : le nettoyage des données Read More »

Recueil de données : coté serveur, coté Proxy et coté client

Recueil de données : coté serveur, coté Proxy et coté client 3.4 Recueil de données Dans cette phase, différentes sortes de données sont collectées. Les plus communément exploitées sont les fichiers log enregistrés selon la position des dispositifs de collecte dans le réseau, les données issues des procédures d’inscription si disponibles, et les données sur la

Recueil de données : coté serveur, coté Proxy et coté client Read More »

Comportement des utilisateurs sur le Web et Processus en WUM

Comportement des utilisateurs sur le Web et Processus en WUM Chapitre 3 – Web Usage Mining, Etat de l’art et Problématique 3.1 Introduction Le Web a ouvert, depuis son apparition, plusieurs directions de recherche dans différentes disciplines. Il peut être considéré comme un laboratoire distribué et énorme permettant la capture, l’étude et l’analyse du comportement

Comportement des utilisateurs sur le Web et Processus en WUM Read More »

Le Web mining et les domaines associés : RI, BDD, AGENTS et WS

Le Web mining et les domaines associés : RI, BDD, AGENTS et WS 2.4 Web mining et domaines connexes Nous avons montré qu’avec le développement du Web, les études sur l’analyse des données qu’offre ce média, sur le plan des contenus, des structures et des usages ont suscité l’intérêt de plusieurs communautés de recherche issues d’origines

Le Web mining et les domaines associés : RI, BDD, AGENTS et WS Read More »

Web structure mining : PageRank, HITS et Web usage mining

Web structure mining : PageRank, HITS et Web usage mining 2.3.2 Web structure mining Le Web Structure Mining (WSM) se focalise sur l’analyse de la structure des liens entre les pages ou les sites Web, qui constitue une source riche d’information. Les recherches consacrées à cette branche du WM sont inspirées des travaux sur l’étude des

Web structure mining : PageRank, HITS et Web usage mining Read More »

Exit mobile version