Slimane OULAD NAOUI
Université Kasdi Merbah de Ouargla - Option : Informatique et Communication Electronique - Mémoire du diplôme de Magister

Le processus d’extraction de connaissances ECD en WUM

  1. Web Mining: Prétraitement & Extraction de Connaissances
  2. La fouille de données : concepts et facteurs d’émergence
  3. Les tâches en fouille de données
  4. Le processus d’extraction de connaissances ECD en WUM
  5. Les techniques de fouille de données et ses limites
  6. De la fouille de données à la fouille du Web : les propriétés
  7. Web content mining : Extraction, sélection et prétraitement
  8. Web structure mining : PageRank, HITS et Web usage mining
  9. Le Web mining et les domaines associés : RI, BDD, AGENTS et WS
  10. Comportement des utilisateurs sur le Web et Processus en WUM
  11. Recueil de données : coté serveur, coté Proxy et coté client
  12. Le processus de prétraitement en WUM : le nettoyage des données
  13. Reconstruction des sessions et Processus de prétraitement en WUM
  14. Le formatage et l’intégration d’autres données d’usage
  15. Extraction de connaissances en WUM et applications
  16. L’ECD : la classification et les motifs séquentiels
  17. WUM et vie privée – Analyse des connaissances en WUM
  18. S2WC2, un Framework pour la Segmentation de Sessions Web Coté Client
  19. Reconstruction des surfs : Algorithme de sessionisation
  20. Les techniques d’ECD : le formatage et la segmentation
  21. Les cartes de Kohonen et Outils libres d’ECD
  22. Expérimentations et résultats – Extraction de connaissances en WUM

1.3 Processus d’extraction de connaissances
L’ECD est un processus homme-machine interactif et itératif, composé de plusieurs phases (Fayyad et al., 1996). Il est communément admis que c’est un processus partiellement automatique, où l’interaction de l’homme est primordiale. Il est itératif, dans le sens où l’utilisateur peut à tout moment revenir à l’une des étapes, afin par exemple de sélectionner ou enrichir les données, intégrer d’autres données, affiner ou changer l’algorithme de fouille, améliorer la présentation ou les mesures d’évaluation des résultats…etc.
La méthodologie générale d’un projet d’extraction de connaissances est illustrée dans la figure suivante adaptée de (Gardarin, 1999) et (Zaïane, 1999). Détaillons, dans les points suivants, les trois importantes phases de ce processus : à savoir la préparation de données, la fouille de données et l’analyse des résultats.

1. Compréhension du domaine d’application (cerner les objectifs)
2. Préparation des données
2.1. recueil de données
2.2. nettoyage
2.3. intégration
2.4. sélection
2.5. transformation
3. Fouille de données
3.1. définition des tâches
3.2. choix des algorithmes
3.3. fouille
4. Analyse des résultats
4.1. présentation et interprétation des formes extraites
4.2. évaluation et validation
5. Exploitation des résultats

Figure 1. Méthodologie générale pour l’ECD
1.3.1 Préparation des données
L’approche générale de l’ECD recommande, comme est de coutume dans la conception des systèmes d’information, de commencer le projet par une étude préalable avec une identification claire des objectifs.
Le but de la phase de préparation, qui suit une étape implicite de collecte de données, est de s’assurer que les données sont bien adaptées à la technique de fouille qui sera utilisée. En effet, la fouille de données ne peut s’effectuer directement sur les données originales souvent en format très brut. Cette phase comprend, à cet effet, une succession d’étapes de prétraitement.
Dans l’étape de nettoyage, nous nous intéressons à l’examen de la qualité des données collectées. Ils y seront traités des problèmes courants tels que les doublons, les erreurs de saisie, l’intégrité de données et le problème des valeurs manquantes1. De multiple sources de données, souvent hétérogènes, seront combinées dans une seule structure lors de l’étape d’intégration. Dans l’étape de sélection, les données objets de l’étude et pertinentes à l’analyse seront déterminées et arrêtées. Des ajustements consistant à remanier les valeurs de certains attributs, afin de faciliter les calculs, seront effectués dans l’étape de transformation. Cette dernière inclut notamment des opérations de regroupement, de normalisation et de discrétisation.

1 En anglais, missing values, correspondent aux valeurs de variables non renseignées ou absentes dans l’ensemble de données à fouiller.

Il est reporté dans la littérature que la phase de préparation est la plus longue et la plus fastidieuse, elle occupe de 60 à 80% du processus d’ECD (Jermyn et al., 1999). Notons toutefois que le travail de préparation sera simplifié, si les données sont issues d’un entrepôt de données (Data warehouse)1, car le processus d’alimentation de ces derniers inclut une étape de préparation et de prétraitement des données (Gardarin, 1999).
1.3.2 Fouille de données
La fouille de données constitue véritablement le cœur du processus d’ECD, elle est souvent difficile à mettre en œuvre et coûteuse. Ici, il est fait le choix des techniques et algorithmes appropriés correspondants aux tâches à effectuer.
Il faudra faire des compromis selon les besoins dégagés et les caractéristiques communes des outils, car il n’existe pas de meilleure technique de fouille (Besse, 2005), à tout jeu de données et à tout problème correspond donc une ou plusieurs méthodes, le choix se fera en fonction de la tâche à résoudre, de la nature des données ou encore de l’environnement de l’entreprise (Gilleron et al., 2000). De plus et conformément à (Gardarin, 1999), il est souhaitable de mettre en œuvre différentes techniques afin de les comparer et d’en retenir une ou plusieurs combinées.
1.3.3 Analyse des résultats
Comme nous l’avons mentionné dans la section 1.2.1, si la fouille de données pourrait extraire des connaissances utiles et intéressantes, il pourrait aussi générer des résultats triviaux voire insignifiants. C’est pourquoi une phase post-fouille est nécessaire.
Cette phase, dite d’évaluation ou de validation, a pour objectif de mesurer l’intérêt des modèles extraits. Deux approches sont communément utilisées dans la validation : une fondée sur des mesures statistiques et une deuxième par expertise (Gilleron et al., 2000). Ces approches dépendent de la nature de la tâche à mener et du problème considéré. Par exemple, pour les problèmes de segmentation la validation est essentiellement du ressort de l’expert, qui juge de la qualité et la pertinence des groupes constitués par le système. Par contre, et afin d’évaluer une procédure de classification, les données en entrée sont, généralement, divisées en trois ensembles : un ensemble d’apprentissage, un deuxième de test et un troisième servant à la validation. La matrice de confusion1 (Gardarin, 1999) et la validation croisée2 (Hand et al., 2001) sont d’autres techniques de validation couramment utilisées.

1 Une collection de données, orientée sujet, intégrée, non volatile et historisée organisée pour le support de décision.
1 Matrice à deux dimensions, dont l’élément [i,j] indique le nombre de cas de type i prédits par le modèle et observés comme étant réellement de type j sur les données de validation. A l’aide de cette matrice, nous pouvons calculer la validité du modèle comme étant le nombre de cas exacts (somme de la diagonale) divisé par le nombre total
2 Une méthode pour estimer l’erreur d’un modèle selon un échantillonnage en parties égales de l’ensemble de données. L’apprentissage est réalisé en laissant à coté à chaque fois une des parties, l’erreur du modèle est la moyenne de celles obtenues à chaque étape.

Processus d’extraction de connaissances
Figure 2. Processus d’extraction de connaissances.
Lire le mémoire complet ==> (Prétraitement & Extraction de Connaissances en Web Usage Mining)
S2WC2 : un WUM Framework Centré Utilisateur
Mémoire En vue de l’obtention du diplôme de Magister – Option : Informatique et Communication Electronique
Département des Mathématiques et d’Informatique – Spécialité : Informatique
Université Kasdi Merbah de Ouargla – Faculté des Sciences et Sciences de l’Ingénieur

Cliquez sur suivant article pour lire la suivante partie de ce mémoire:

Abonnez-vous!
Inscrivez-vous gratuitement à la Newsletter et accédez à des milliers des mémoires de fin d’études !
Publier son mémoire!
WikiMemoires - Publier son mémoire de fin d’études !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *