2.4 Web mining et domaines connexes
Nous avons montré qu’avec le développement du Web, les études sur l’analyse des données qu’offre ce média, sur le plan des contenus, des structures et des usages ont suscité l’intérêt de plusieurs communautés de recherche issues d’origines diverses.
Dans les paragraphes suivants, nous essayons de donner les points d’intersection et de convergence entre le Web mining et les domaines associés. Nous évoquons les domaines suivants : la recherche d’information, les bases de données, l’approche agent et le Web sémantique.
2.4.1 Web mining et recherche d’information (WM&RI)
Les systèmes de recherche d’information (SRI) ont pour objectif de retrouver l’ensemble de ressources pertinentes à un besoin informationnel d’un utilisateur exprimé par une requête. Ces systèmes se fondent sur une fonction de correspondance entre un modèle de requête et un modèle de documents.
Ils tentent à récupérer le plus possible de documents pertinents, répandant à la requête, et d’ignorer ceux ne satisfaisant pas la demande de l’utilisateur. Ils sont évalués en calculons deux mesures largement utilisées : la précision et le rappel.
La première détermine le rapport entre le nombre de documents pertinents trouvés et le nombre de document trouvés, quant à la deuxième, elle exprime le nombre de documents pertinents trouvés par rapport au nombre de documents pertinents pour la requête (Rijsbergen, 1979).
A l’apparition du Web, il a été constaté que les utilisateurs utilisent généralement deux mécanismes pour l’accès à l’information souhaitée : recourir à un moteur de recherche ou se servir d’un navigateur (Madria et al., 1999), (Chakrabarti, 2000). Même si ces derniers ont rendu un service appréciable aux utilisateurs, ils ont montré face à la complexité du Web leurs limites. En effet, localiser l’information utile dans le Web nécessite des techniques hors la portée des moteurs de recherches traditionnels, qui se heurtent aux problèmes suivants (Galofalakis et al., 1999) :
L’abondance de l’information : souvent, beaucoup de documents non pertinents sont retournés dans les résultats de recherche, ce qui diminue la précision et complique la tâche de l’utilisateur,
La couverture faible : il est reporté que le meilleur des moteurs de recherche n’indexe que 18% du Web accessible (Chakrabarti, 2000),
L’interface d’interrogation limitée : qui se résume, dans la plupart des cas, à un ensemble de mots clés,
L’absence de personnalisation : on croît communément que 99% de l’information disponible sur le Web est inutile à 99% des utilisateurs, qui voient leurs préférences ignorées par ces outils
Pour répondre à ces difficultés, des techniques du data mining sont proposées dans le Web afin d’aider à en extraire des informations utiles. WM et RI vont de paires, et manifestent une grande dépendance.
Le WM, comme processus d’ECD inclut, dans sa première phase en WCM, une tâche de recherche de ressources basée essentiellement sur des techniques issue des SRI. De plus, nous avons mentionné que HITS, un algorithme de recherche En WSM, construit un ensemble initial de ressources en invoquant un SRI standard. Pour ces raisons, et bien d’autres, nombreux considèrent que la RI est une partie importante du WM.
Récemment, les SRI se sont appréciablement évolués. Ainsi, outre les fonctions de modélisation, d’indexation et de recherche, ces systèmes permettent d’effectuer des tâches de catégorisation, classification, filtrage et de visualisation de documents. Pris sous cet angle, ces tâches peuvent être considérées comme des instances du WM (Kosala et al., 2000).
Quant au WUM, il a été prouvé dans de multiples recherches, comme celle menée dans (Lu et al., 2003), son apport dans l’amélioration du rappel et la précision des SRI quand il est exploité dans des mécanismes d’expansion de requêtes, dans la compréhension des attitudes des utilisateurs dans des activités de recherche d’information sur le web (Kammenhuber et al., 2006), et d’une manière générale pour accroître la qualité des réponses des moteurs de recherche (Joachims, 2002).
2.4.2 Web mining et bases de données (WM&BDD)
La vision base de données dans le Web est liée aux questions de gestion et d’interrogation des informations disponibles sur le Web. Cette gestion implique trois principales tâches : la modélisation et l’interrogation du Web, l’extraction et l’intégration d’informations et la construction et la restructuration de sites Web (Kosala et al., 2000).
En d’autres termes, l’approche base de données pour le Web cherche à organiser les données Web dans des collections plus structurées de ressources, de sorte à en permettre l’exploitation et l’analyse par les techniques d’interrogation standard des bases de données et de la fouille de données (Cooley et al., 1997).
Pour ce faire, trois directions sont évoquées dans la littérature. Les bases de données multiniveaux, dont l’idée est de modéliser le Web en plusieurs couches. La couche la plus basse comprend les données semi-structurées comme consignées dans les différentes ressources Web, alors que la(es) couche(s) haute(s) emmagasine(nt) des collections structurées, sous formes de bases de données relationnelles ou objets, construites à partir de généralisation des données présentent dans les couches inférieures. ARANEUS est un exemple de cette première approche (Cooley et al., 1997).
La deuxième approche est l’implémentation d’entrepôts de données pour le Web appelés data Webhouse, permettant la gestion d’informations utiles à partir du Web pour le support de prise de décisions stratégiques. WHOWEDA (Warehouse of Web Data) est un projet adoptant cette approche, et incluant en plus l’intégration d’outils intelligents pour la recherche d’information et l’extraction de connaissances et combinant les trois catégories du WM (Madria et al., 1999).
Enfin, la dernière approche englobe plusieurs langages et systèmes d’interrogation basés sur le Web fondés sur les standards d’interrogation des bases de données, tel que SQL, et les informations structurées sur les documents Web. Nous citons, à titres d’illustration dans cette classe de projets, W3QL, WebLog, Lorel, UnQl et TSIMMIS (Cooley et al., 1997).
2.4.3 Web mining et approche agent (WM&AGENTS)
Devant l’explosion et la complexité des données sur le Web, l’extraction de l’information pertinente et utile est devenue une tâche très ardue. Avec les limites des moteurs de recherches traditionnels et les nouveaux besoins des utilisateurs, des recherches se sont intéressée à fournir des outils plus efficaces et surtout plus intelligents, permettant de découvrir, catégoriser, filtrer et interpréter les contenus de documents Web.
Le WM est donc fortement associé à l’approche agent. Des agents intelligents sont développés et utilisés dans ses différentes tâches telles que dans la découverte de ressources et l’extraction d’information.
D’une manière générale, l’apport des agents intelligents dans le WM se manifeste dans les trois catégories d’agents suivantes (Cooley et al., 1997) :
Les agents intelligents de recherche : ces agents Web ont pour but de localiser les informations pertinentes en utilisant les caractéristiques du domaine considéré et les profils des utilisateurs. Ils permettent, en outre, d’organiser et d’interpréter les résultats qu’ils découvrent. Des exemples d’agents de cette classe sont : Harvest, FAQ-Finder, OCCAM, ParaSite, ILA et ShopBot.
Les agents de filtrage et de catégorisation d’informations : cette classe englobe plusieurs agents Web, comme HyPursuit et BO (Book Organiser), utilisant des techniques diverses de recherche d’information qu’ils associent aux caractéristiques des ressources pour les localiser, filtrer et catégoriser.
Les agents de personnalisation : WebWatcher, PAINT, SysKill&Webert, Grouplens et Firefly sont des exemples d’agents Web intelligents personnalisés. Ce type d’agents ont des capacités d’extraction et de découverte de ressources basées sur les préférences et les centres d’intérêts d’un utilisateur (ou d’un groupe d’utilisateurs), qu’ils ont appris en interagissant avec celui (ceux)-ci.
2.4.4 Web mining et Web sémantique (WM&WS)
Le Web a été conçu initialement pour être un média permettant une lecture et une consultation rapide et efficace d’informations destinées aux êtres humains, il est de nature purement syntaxique (Berners-Lee et al., 2001). Or la tendance actuelle dans les systèmes d’information modernes est le passage du traitement de la donnée au traitement du concept (Davies et al., 2006).
C’est ainsi que depuis 2001 des recherches se sont centrées à enrichir le Web, de manière à le rendre apte à représenter non seulement des informations, mais la sémantique décrivant le contenu de celles-ci. Le but visé est de permettre l’appréhension et la manipulation automatique, par des machines (programmes), des contenus disponibles en lignes (Berners-Lee et al., 2001).
Le Web sémantique (WS) est le terme qui désigne ce champ de recherche, consistant à étendre le Web actuel en dotant ses ressources de structures sémantiques bien définies (méta-données ou annotations) pour décrire une ressource (ex. page Web), une partie d’une ressource (ex. paragraphe) ou une entité incluse dans une ressource (ex. personne), (Davies et al., 2006).
Le dessein des fondateurs du WS est d’arriver à définir et structurer la sémantique des contenus du Web, afin d’offrir un environnement où des agents logiciels (machines) peuvent mieux coopérer, accomplir des tâches sophistiquées et assister les utilisateurs dans leurs travaux. Ambitieux, énorme voire utopique, le WS est actuellement un domaine de recherche très actif. Pour ce faire, il est nécessaire d’utiliser un langage standard, ou un vocabulaire commun, appelé ontologie dans ce contexte, pour représenter les connaissances, et de plus, permettre de raisonner sur celles-ci (Berners- Lee et al., 2001).
L’ontologie est une notion clé dans le WS, ce terme emprunté de la philosophie (qui signifie la nature de l’existence) est défini comme étant une spécification formelle et explicite d’une conceptualisation dans un domaine donné (Gruber, 1993).
En d’autres termes, une ontologie est une structure (document, fichier…) reproduisant la connaissance sémantique d’un domaine quelconque, par la description des concepts pertinents et des relations entre ces concepts (Davies et al., 2006).
Nous pouvons conclure, comme décrit plus en détail dans (Stumme et al., 2006), que le WS et le WM sont deux domaines complémentaires, car ils adressent tous les deux les défis posés par le succès considérable du Web : d’un coté les données Web sont non structurées et pauvres en sens, elles ne peuvent être comprise que par les hommes ; d’un autre coté, elles sont très volumineuses qu’elles ne peuvent prétendre à un traitement efficace que par des machines.
Le WS prend en charge le premier volet de ce défi en transformant les données Web assimilables aussi par les machines, alors que le WM s’occupe du second volet en extrayant des connaissances, nouvelles et utiles, cachées dans ces données abondantes.
Les recherches dans le WS et WM évoluent rapidement avec une forte interaction. Le rapport entre les deux champs se manifeste dans les points suivants (Stumme et al., 2006).
Le WS améliore le WM : il a été prouvé que l’utilisation des structures sémantiques dans les différentes phases du WM, améliore nettement les résultats extraits par ce dernier,
Le WM aide à la construction du WS : les techniques du WM peuvent être utilisées dans la construction du WS, plus particulièrement dans la phase d’apprentissage ou de construction d’ontologies. Des méthodes de WCM, notamment celles de catégorisation de documents, associées à des algorithmes d’apprentissage (supervisé ou non) sont utilisées pour induire des concepts et des relations entre ces concepts.
En outre, et dans la phase d’extension ou de modification d’ontologies, l’analogie avec l’usage de ressources Web peut être faite, où des techniques similaires à celles développées en WUM sont exploitées dans l’analyse de motifs d’usage de ces ontologies, afin, par exemple, d’identifier les parties difficilement utilisées d’une ontologie, et de considérer par conséquent leur reformulation, placement ou existence,
le WM peut contribuer à la fouille de WS : enfin, les techniques du WM peuvent être utilisées dans la fouille du WS lui-même. En parle donc de sémantic Web mining (SWM), un domaine encore en apparition. .