Slimane OULAD NAOUI
Université Kasdi Merbah de Ouargla - Option : Informatique et Communication Electronique - Mémoire du diplôme de Magister

Le formatage et l’intégration d’autres données d’usage

  1. Web Mining: Prétraitement & Extraction de Connaissances
  2. La fouille de données : concepts et facteurs d’émergence
  3. Les tâches en fouille de données
  4. Le processus d’extraction de connaissances ECD en WUM
  5. Les techniques de fouille de données et ses limites
  6. De la fouille de données à la fouille du Web : les propriétés
  7. Web content mining : Extraction, sélection et prétraitement
  8. Web structure mining : PageRank, HITS et Web usage mining
  9. Le Web mining et les domaines associés : RI, BDD, AGENTS et WS
  10. Comportement des utilisateurs sur le Web et Processus en WUM
  11. Recueil de données : coté serveur, coté Proxy et coté client
  12. Le processus de prétraitement en WUM : le nettoyage des données
  13. Reconstruction des sessions et Processus de prétraitement en WUM
  14. Le formatage et l’intégration d’autres données d’usage
  15. Extraction de connaissances en WUM et applications
  16. L’ECD : la classification et les motifs séquentiels
  17. WUM et vie privée – Analyse des connaissances en WUM
  18. S2WC2, un Framework pour la Segmentation de Sessions Web Coté Client
  19. Reconstruction des surfs : Algorithme de sessionisation
  20. Les techniques d’ECD : le formatage et la segmentation
  21. Les cartes de Kohonen et Outils libres d’ECD
  22. Expérimentations et résultats – Extraction de connaissances en WUM

3.5.3 Formatage
Le formatage quant à lui, constitue l’étape finale du processus de prétraitement en WUM (Facca et al., 2005), durant laquelle les données d’usage collectées et préparées dans les étapes précédentes vont être transcrites et structurées dans une forme persistante.
Bien qu’il soit possible de travailler sur les formats plats des fichiers logs, les bases de données relationnelles fournissent indiscutablement un mode de stockage adapté à ce type de données volumineuses, car elles en permettent une exploitation et une interrogation plus efficaces. C’est ainsi qu’elles ont été utilisées dans de nombreux travaux de WUM (Beauvisage, 2004), (Tanasa, 2005).
Les entrepôts de données sont une forme relationnelle plus élaborée employée dans ce cadre. A titre d’exemple, (Zaiane et al., 1998) stocke les données d’usage d’un système d’enseignement à distance1 dans une structure de cube de données multidimensionnelles, en vue d’offrir différents niveaux et angles d’analyse.
D’autres travaux modélisent les logs selon des structures de données d’arbres compactés afin de faciliter et permettre le développement de nouveaux algorithmes efficaces de fouille de logs, tels que WAP-tree (Web Access Pattern Tree) introduit dans (Pei et al., 2000).
3.5.4 Intégration d’autres données
Il est évident que se limiter seulement aux données d’usage pures est insuffisant pour comprendre et étudier plus en profondeur les comportements de navigation des visiteurs des sites web. C’est ainsi que les travaux en WUM, en particulier ceux centrés serveur, incluaient en plus une phase de préparation des données relatives aux contenu et la structure du site à analyser. Cette préparation, dont le degré de difficulté est fonction de la technologie de construction du site, est généralement effectuée en même temps et de façon similaire avant la phase d’extraction de connaissances (Cooley, 2000).
Le prétraitement du contenu d’un site consiste à transformer les données de contenu des différents types de pages qu’il fournit, telles que les textes, les images, les scripts et les fichiers multimédia, à une forme plus appropriée au processus de WUM projeté. Il s’agit souvent de réaliser des tâches de classification/segmentation sur ces données, un travail complexe relevant donc du WCM, qui constitue à lui seul, comme nous l’avons vu, une branche à part du WM. C’est pourquoi, l’exploitation des données de contenu des sites se limite dans le cadre du WUM à supporter certaines formes de filtrages opérer en amont ou en aval sur les entrées ou les résultats des techniques d’extraction de connaissances (Srivastava et al., 2000).
Il est aussi envisageable l’intégration si disponibles de données démographiques sur les utilisateurs (age, sexe, région, niveau…etc.). L’association de ces dernières informations avec les données d’usage, de contenu, ou de structure permettra d’entreprendre en toute aisance la phase de découverte de connaissances qui succède.

1 Il s’agit de Virtual-U un environnement collaboratif d’apprentissage et d’enseignement basé sur le web développé à l’université de Simon Fraser (Canada).

.
Lire le mémoire complet ==> (Prétraitement & Extraction de Connaissances en Web Usage Mining)
S2WC2 : un WUM Framework Centré Utilisateur
Mémoire En vue de l’obtention du diplôme de Magister – Option : Informatique et Communication Electronique
Département des Mathématiques et d’Informatique – Spécialité : Informatique
Université Kasdi Merbah de Ouargla – Faculté des Sciences et Sciences de l’Ingénieur
 

Print Friendly, PDF & Email

Cliquez sur suivant article pour lire la suivante partie de ce mémoire:

Abonnez-vous!
Inscrivez-vous gratuitement à la Newsletter et accédez à des milliers des mémoires de fin d’études !
Publier son mémoire!
WikiMemoires - Publier son mémoire de fin d’études !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *