De la fouille de données à la fouille du Web : les propriétés

Chapitre 2 – De la fouille de données à la fouille du Web

2.1 Préambule

Depuis son apparition vers la fin des années 1980, comme le fruit des travaux menés par Tim Berners Lee1 au sein du CERN (Centre Européen pour la Recherche Nucléaire), le Word Wide Web, désigné par l’acronyme WWW ou Web ou encor W3 en abrége, a connu en l’espace de quelque années un succès important et remarquable. Ce nouveau média est considéré comme l’entrepôt de connaissances le plus gigantesque de l’histoire. Il emmagasine d’immenses informations variées relatives à l’activité humaine.

Que nous soyons des entreprises industrielles ou commerciales, des établissements d’enseignement ou de formation, des gouvernements, des organisations, des associations ou tout simplement des individus, le Web a révolutionné notre manière d’apprendre, de communiquer, de produire, de vendre, bref de vivre.

Bien qu’il soit difficile de tenter de mesurer la taille du Web, en raison principalement da sa croissance fulgurante et incontrôlable, un papier en 2005 estimait à une dizaine de milliards le nombre de pages disponibles en ligne (Gulli et al., 2005), de centaines de millions de sites, et un chiffre équivalent en nombre d’utilisateurs connectés chaque jour. Ces mesures concernent seulement le Web visible (Surface Web)2 ou indexable par les moteurs de recherche (Cf. 2.4.1). Sachant que le Web invisible (Deep Web) constitue plus de 400 à 500 fois de la taille du Web visible (Bergman, 2005), à cela s’ajoute une évolution moyenne d’environ un million de pages par jour (Chakrabarti et al., 1999), on pourrait donc imaginer l’ampleur de ce vaste espace d’information.

1 Né en 1955 à Londres, diplômé de l’université d’Oxford en 1976 pour ses études de physique. Il rejoignit le CERN en 1980 comme développeur software, ou il développa en 1989 l’html, l’url puis l’http. Il quitta le CERN débuts des années 90, pour choisir une vie académique et administrative. Il a travaillé dans plusieurs laboratoires tels que Xerox’s PARC et le MIT. Actuellement il dirige le groupe W3C (Word Wide Web Consortium).
2 Le Web visible comprend les pages statiques et publiquement disponibles, le Web invisible les pages protégées, les sites trop volumineux, les pages orphelines, les pages générées dynamiquement et les pages à format non reconnu

Par ailleurs, et selon des prévisions élaborées en 1999, la majorité de l’information humaine serait disponible sur le Web dans dix ans (Garofalakis et al., 1999). En effet, la couverture géographique large, la rapidité et la faciliter de diffusion de l’information et de traitement de diverses transactions qu’offre le Web a encouragé la quasi-totalité des entreprises à basculer de grandes parties de leurs systèmes d’information sur cette plateforme.

Ce volume énorme de données accessibles sur le Web le rend un domaine fertile pour les travaux et les recherches en fouille de données (Kosala et al., 2000), en vue d’extraire de l’information utile et découvrir les ressources pertinentes répondant aux besoins des utilisateurs. Nonobstant, même si le Web pourrait être considéré à priori un bon candidat pour une exploration par la fouille de données, nous allons montrer qu’il pose de nouveaux défis à la communauté scientifique. Les données présentes sur le Web possèdent des propriétés intrinsèques à l’origine de sa complexité.

Table des matières

2.2 Propriétés des données du Web

La popularité et la richesse du contenu du Web l’ont transformé progressivement un moyen abstrus et difficile à toute prise de valeur informationnelle (Chakrabarti, 2003). En effet, ce nouveau média n’obéit à aucune règle rédactionnelle et n’est régulé d’aucun pouvoir, il a pris donc un contenu non standard aussi bien en fond qu’en forme. La complexité du contenu du Web est attribuée aux caractéristiques suivantes (Garofalakis et al., 1999), (Zhang et al., 2006).

2.2.1 La taille énorme

Le volume du Web croît de manière exponentielle, et reste difficile à évaluer. Cette crise d’abondance est l’un des points centraux qui limite l’applicabilité des techniques de la fouille de données, car ces dernières se heurtent aux problèmes du passage à l’échelle.

2.2.2 L’hétérogénéité

Cette disparité dans les contenus est flagrante, en plus des données textuelles, qui constituent la forme la plus usuelle pour véhiculer l’information, nous trouvons aussi un nombre important d’images, de fichiers audio et vidéo, ainsi que des programmes (applications) dans le Web. Dans la majorité des cas, ces types variés de données coexistent dans le même document (ou page), ce qui accroît la complexité de leur prise en charge au même temps avec une technique de fouille donnée.

2.2.3 La distribution

Le Web est intrinsèquement distribué. Les données se trouvent donc éparpillées géographiquement sur des ordinateurs et des plateformes, qui sont interconnectées par des topologies souvent non prédéfinies. La plupart des travaux, passés et actuels, en data mining se focalisent sur des données dont la localisation est bien définie ou fixe. Cependant, des défis majeurs se posent lorsque les données objets de la fouille seraient dispersées et situées physiquement sur des endroits distincts (Hsu, 2003).

2.2.4 La non structuration

L’absence d’une structure unifiée est le premier argument pour ceux qui croient que la fouille de données ne peut réussir pour le Web (Etzioni, 1996). En effet, le Web n’a pas de schémas ou de modèles de données uniformes ou rigides, ceci est dû, comme nous l’avons mentionné, au manque de style de rédaction et de contrôle de son contenu.

En réalité, le Web inclut moult types de données. Sur le plan des schémas de données, il intègre conjointement les données structurées telles que les bases de données, les données semi-structurées, dites à autodescription, tels que les documents HTML ou XML (Buneman, 1997), et les données non structurées comme les documents textuels libres.

L’insuffisance dans la structure des données implique une série de problèmes comme la redondance et la détérioration de la qualité des données. Ces problèmes constituent un frein, et sont à l’origine des difficultés de l’application des techniques du data mining (Garofalakis et al., 1999).

2.2.5 La dynamicité

Les données du Web sont dynamiques et changeantes dans le temps. Cette variation rapide concerne aussi bien l’aspect structure que les contenus, ainsi des données et des liens différents et nouveaux sont perpétuellement ajoutés, mise à jour, ou supprimés s’ils s’avèrent obsolètes.

La propriété de l’évolution continue pose la question capitale relative à la validité des connaissances qui auraient été extraites par des processus de fouille. Ceci a incité à initier plusieurs travaux de recherche, à l’instar de (Zhao et al., 2003), qui se focalisent à l’extraction des connaissances à partir des changements observées dans le temps sur les données Web.

2.2.6 L’hyper-liaison

A l’opposé des collections traditionnelles de documents généralement plats, le Web est un important hypertexte. Les utilisateurs y accèdent et surfent en utilisant son graphe de liens reliant les pages et les sites entre eux, ces liens véhiculent des informations auxiliaires très utiles qui modélisent des relations topologiques ou sémantiques entre les données, ils ont été exploités et explorés dans plusieurs travaux (Chakrabarti et al., 1999),(Chakrabarti, 2000). .