1.3 Processus d’extraction de connaissances
L’ECD est un processus homme-machine interactif et itératif, composé de plusieurs phases (Fayyad et al., 1996). Il est communément admis que c’est un processus partiellement automatique, où l’interaction de l’homme est primordiale. Il est itératif, dans le sens où l’utilisateur peut à tout moment revenir à l’une des étapes, afin par exemple de sélectionner ou enrichir les données, intégrer d’autres données, affiner ou changer l’algorithme de fouille, améliorer la présentation ou les mesures d’évaluation des résultats…etc.
La méthodologie générale d’un projet d’extraction de connaissances est illustrée dans la figure suivante adaptée de (Gardarin, 1999) et (Zaïane, 1999). Détaillons, dans les points suivants, les trois importantes phases de ce processus : à savoir la préparation de données, la fouille de données et l’analyse des résultats.
|
Figure 1. Méthodologie générale pour l’ECD
1.3.1 Préparation des données
L’approche générale de l’ECD recommande, comme est de coutume dans la conception des systèmes d’information, de commencer le projet par une étude préalable avec une identification claire des objectifs.
Le but de la phase de préparation, qui suit une étape implicite de collecte de données, est de s’assurer que les données sont bien adaptées à la technique de fouille qui sera utilisée. En effet, la fouille de données ne peut s’effectuer directement sur les données originales souvent en format très brut. Cette phase comprend, à cet effet, une succession d’étapes de prétraitement.
Dans l’étape de nettoyage, nous nous intéressons à l’examen de la qualité des données collectées. Ils y seront traités des problèmes courants tels que les doublons, les erreurs de saisie, l’intégrité de données et le problème des valeurs manquantes1.
De multiple sources de données, souvent hétérogènes, seront combinées dans une seule structure lors de l’étape d’intégration. Dans l’étape de sélection, les données objets de l’étude et pertinentes à l’analyse seront déterminées et arrêtées. Des ajustements consistant à remanier les valeurs de certains attributs, afin de faciliter les calculs, seront effectués dans l’étape de transformation. Cette dernière inclut notamment des opérations de regroupement, de normalisation et de discrétisation.
1 En anglais, missing values, correspondent aux valeurs de variables non renseignées ou absentes dans l’ensemble de données à fouiller.
Il est reporté dans la littérature que la phase de préparation est la plus longue et la plus fastidieuse, elle occupe de 60 à 80% du processus d’ECD (Jermyn et al., 1999). Notons toutefois que le travail de préparation sera simplifié, si les données sont issues d’un entrepôt de données (Data warehouse)1, car le processus d’alimentation de ces derniers inclut une étape de préparation et de prétraitement des données (Gardarin, 1999).
1.3.2 Fouille de données
La fouille de données constitue véritablement le cœur du processus d’ECD, elle est souvent difficile à mettre en œuvre et coûteuse. Ici, il est fait le choix des techniques et algorithmes appropriés correspondants aux tâches à effectuer.
Il faudra faire des compromis selon les besoins dégagés et les caractéristiques communes des outils, car il n’existe pas de meilleure technique de fouille (Besse, 2005), à tout jeu de données et à tout problème correspond donc une ou plusieurs méthodes, le choix se fera en fonction de la tâche à résoudre, de la nature des données ou encore de l’environnement de l’entreprise (Gilleron et al., 2000). De plus et conformément à (Gardarin, 1999), il est souhaitable de mettre en œuvre différentes techniques afin de les comparer et d’en retenir une ou plusieurs combinées.
1.3.3 Analyse des résultats
Comme nous l’avons mentionné dans la section 1.2.1, si la fouille de données pourrait extraire des connaissances utiles et intéressantes, il pourrait aussi générer des résultats triviaux voire insignifiants. C’est pourquoi une phase post-fouille est nécessaire.
Cette phase, dite d’évaluation ou de validation, a pour objectif de mesurer l’intérêt des modèles extraits. Deux approches sont communément utilisées dans la validation : une fondée sur des mesures statistiques et une deuxième par expertise (Gilleron et al., 2000).
Ces approches dépendent de la nature de la tâche à mener et du problème considéré. Par exemple, pour les problèmes de segmentation la validation est essentiellement du ressort de l’expert, qui juge de la qualité et la pertinence des groupes constitués par le système. Par contre, et afin d’évaluer une procédure de classification, les données en entrée sont, généralement, divisées en trois ensembles : un ensemble d’apprentissage, un deuxième de test et un troisième servant à la validation. La matrice de confusion1 (Gardarin, 1999) et la validation croisée2 (Hand et al., 2001) sont d’autres techniques de validation couramment utilisées.
1 Une collection de données, orientée sujet, intégrée, non volatile et historisée organisée pour le support de décision.
1 Matrice à deux dimensions, dont l’élément [i,j] indique le nombre de cas de type i prédits par le modèle et observés comme étant réellement de type j sur les données de validation. A l’aide de cette matrice, nous pouvons calculer la validité du modèle comme étant le nombre de cas exacts (somme de la diagonale) divisé par le nombre total
2 Une méthode pour estimer l’erreur d’un modèle selon un échantillonnage en parties égales de l’ensemble de données. L’apprentissage est réalisé en laissant à coté à chaque fois une des parties, l’erreur du modèle est la moyenne de celles obtenues à chaque étape.
Figure 2. Processus d’extraction de connaissances.