YouTaQA : Système de questions-réponses intelligent basé sur Deep Learning

Ce mémoire présente la conception et la réalisation d’un système de questions-réponses intelligent nommé YouTAQA, utilisant l’apprentissage approfondi et la recherche d’information pour fournir des réponses précises à partir de la base de connaissances de Wikipédia.

Université de Alger 1 Benyoucef Benkhedda

Faculté des sciences

Département de mathématiques et informatique

Master en informatique Spécialité : Ingénierie des systèmes informatiques intelligents

Mémoire de fin d’étude

YouTaQA : Système de questions-réponses intelligent basé deep learning et la recherche d’information

M. Agabi Rayane Younes & Melle. Tidafi Asma

Dirigé par: Mme. Halfaoui & Mme. Ait Aoudia & Dr. Ziani Amel & Dr. Bouadjenek Mohamed Reda

2020

Table des matières

Résumé

Le besoin des utilisateurs du confort et la demande d’avoir des réponses exactes à leurs questions sont présents de nos jours, ce qui a donné un nouvel objectif à l’intelligence artificielle. Les moteurs de recherches les plus connus comme Google tendent à offrir une brève réponse aux questions dites factoid. Cette tâche est considérée difficile en terme de complexité des requêtes voire leurs réponses qui peuvent être la combinaison de plusieurs passages.

Pour ceci, dans cette thèse, notre objectif repose sur la conception et la réalisation d’un système de questions- réponses pouvant surpasser les difficultés citées et qui est apte à répondre aux questions dans plusieurs domaines d’une façon exacte et précise en utilisant la base de connaissances de Wikipédia. Le système réalisé durant ce travail nommé YouTAQA commence par la collecte des passages qui peuvent répondre à la requête entrée par l’utilisateur et termine par faire l’extraction du début et la fin de la réponse exacte en utilisant l’apprentissage approfondi (Deep Learning).

Ceci dit, notre système représente un pipeline complet, à partir de la collecte des passages pertinents, jusqu’à l’extraction de la réponse finale en prenant la question comme entrée. Les modules d’apprentissage approfondi du système proposé ont été implémentés en utilisant le modèle pré-entrainé BERT qui a été conçu pour réaliser différentes tâches de traitement du langage naturel (Natural Language Processing).

Les expérimentations sur l’ensemble de données proposé démontrent l’efficacité de la méthode proposée, et les résultats de la comparaison montrent que l’architecture du système donne un plus au domaine du Question- Answering.

Mots clés : Recherche d’Information, Apprentissage Approfondi, Traitement de langage naturel, Bidirectional Encoder Representations from Transformers, Apprentissage par transfert.

Abstract

Users’ need for comfort and the demand to have accurate answers to their questions are present nowadays which has given a new purpose to artificial intelligence. The best known search engines such as Google tend to offer brief answers to so-called « factoid » questions. This task is considered difficult in terms of the complexity of the queries and even their answers which can be the combination of several passages.

For this, in this thesis, our goal is based on the design and implementation of a Question-Answering sys- tem that can overcome the difficulties mentioned above and that is able to answer questions in several areas accurately and precisely using the Wikipedia knowledge base. Our system named YouTAQA starts by collect- ing the passages that can answer the query entered by the user and ends by extracting the start and end of the exact answer using Deep Learning.

That being said, our system is capable of doing the complete pipeline, from collecting the relevant passages, to extracting the final answer requiring only the question as input. The Deep Learning modules of our system were implemented using the pre-trained BERT model which has been designed to perform various NLP tasks.

Experiments on the dataset have demonstrated the effectiveness of the proposed method and the results of the comparison have shown that our architecture improved the Question-Answering domain.

Keywords : Information Retrieval, Deep Learning, Natural Language Processing, Transfer Learning.

Introduction générale

Contexte générale

L’un des principaux défis de l’informatique est de construire des systèmes plus intelligents et capables de comprendre les êtres humains sans qu’on leur dise explicitement ce qu’ils doivent faire. Depuis les années 60, une percée majeure dans ce domaine se présente sous la forme de systèmes Questions-Réponses (Question- Answering Systems ou QAS). Un QAS est, comme son nom l’indique, un système qui peut répondre à des questions au lieu d’encombrer l’utilisateur avec des documents ou même des passages correspondants, comme le fait la plupart des systèmes de recherche d’information basiques [Ojokoh and Adebisi, 2019].

Dès leur début, les majeurs défis des QAS sont la précision, l’habileté à répondre à toutes les questions complexes correctement avec une performance semblable à celle des humains. Pour avoir une vision plus claire sur les systèmes questions-réponses actuels, prenons d’abord un moment pour comprendre la structure du problème et pourquoi les solutions existantes ne sont pas tout à fait suffisantes pour répondre à des questions complexes. Les QAS sont généralement classés en deux grandes catégories : les QAS pour le domaine ouvert ODQAS et les QAS pour le domaine fermé CDQAS (voir la Section 1.3).

En ce qui concerne la source de connaissances 1 des QAS et la façon avec laquelle ces derniers s’en servent, plusieurs approches ont vu le jour durant l’évolution des techniques et des sources de données. Parmi ces ap- proches, nous trouvons les QAS basés sur le texte, les faits, le Web et la recherche d’information (Informa- tion Retrieval ou IR) [Mervin, 2013].

Pour notre modèle, nous allons opter pour l’approche de la recherche d’informations dans une collection de données basée sur les articles de Wikipedia 2 seulement. La recherche d’information, contrairement aux autres approches, utilise des sources de données qui ne sont pas forcément structurées ce qui permet une meilleure flexibilité dans le cas d’ajout et d’extension des sources de recherche.

Source de connaissances (« Knowledge source » en anglais) : C’est la source dans laquelle les QAS fouinent à la recherche d’une réponse à une question donnée

https://www.wikipedia.org/

Problématique et motivation

De nos jours, suite à l’utilisation croissante des appareils mobiles, tels que les smartphones, pour accéder à l’information et recevoir des réponses directes à des questions pour laquelle les requêtes traditionnelles consis- tant à spécifier des mots-clés ne sont pas très conviviales ; la tâche de réponse aux questions de manière précise est devenue l’une des fonctions les plus désirables pour les consommateurs d’information.

La majorité des connaissances humaines qui représentent les besoins d’informations détaillées d’un uti- lisateur sont uniquement représentées par le langage naturel. Ils sont accessibles aux humains, qui peuvent comprendre les textes en langage naturel et répondre à des questions relatives à leur contenu, mais ne sont pas accessibles et compréhensibles par les machines. Ces dernières ne peuvent donc pas comprendre et interpréter les énoncés des requêtes en langage naturel.

La tâche de l’extraction automatisée d’informations spécifiques à partir d’une source de connaissances, en tant que réponse à une question en langage naturel, n’est pas simple, même pour des ressources d’informa- tions relativement réduites. La question doit être représentée comme une requête et la réponse doit être courte et précise. Nous pouvons extraire des informations factuelles explicites à partir d’un texte, mais l’extraction d’informations conceptuelles qui nécessitent également une compréhension du discours reste un objectif com- plexe.

Pour obtenir des réponses précises, il faut formuler le besoin d’informations d’une manière exacte et bien exprimée [Kolomiyets and Moens, 2011a], au-delà d’un petit ensemble de termes vagues, comme c’est généralement le cas pour la recherche de documents. Cette dernière fait d’une part la réduction des requêtes en langage naturel à des recherches basées sur des mots-clés.

D’autre part, les bases de connaissances sont interrogées avec des requêtes claires obtenues à partir des questions en langage naturel, et les réponses sont obtenues par raisonnement.

Le langage naturel est ambigu (une phrase peut avoir un ou plusieurs sens) et syntaxiquement riche car un seul et même sens peut être véhiculé par de nombreuses expressions du langage naturel. La tâche de trou- ver une réponse à une question, lorsque les deux sont en langage naturel repose d’abord sur l’utilisation des techniques de recherche d’information pour sélectionner les passages pertinents.

Ensuite extraire des passages courts (contextes) suite à une classification par rapport à la probabilité de leur pertinence et de l’existence de l’information recherchée. Le système doit retourner uniquement les informations qui ont été spécifiquement demandées. Or, les demandes peuvent être complexes et narratives, ce qui signifie qu’il sera plus difficile pour le QAS d’y répondre avec précision.

De plus, les passages peuvent provenir de différents documents, nous devons donc les combiner pour fournir des réponses pertinentes, il se peut alors que nous ayons besoin d’un raisonnement complexe. Il sera donc difficile de formuler des réponses en langage naturel.

Contribution

Nous contribuons par ce projet proposé par l’université de Deakin 3 (Située à Victoria, Australie) à la mise en place d’un système QAS automatique complet en commençant par un moteur de recherche, en passant par un classifieur de documents jusqu’à l’extraction des réponses. Ce pipeline a pour but d’offrir un service de questions-réponses exhaustif nommé YouTaQA (figure 0.1).

FIGURE 0.1: Schéma global du systeme YouTaQA

Il existe des systèmes questions-réponses qui ont le même but global, mais qui se contentent d’offrir la partie extraction des données à leurs utilisateurs en les obligeant à fournir les documents nécessaires ce qui n’est pas vraiment pratique, notre système sera donc une version améliorée de ce qui existe, en permettant aux utilisa- teurs d’avoir des réponses exactes à leurs questions uniquement en se basant sur le moteur de recherche. Ceci épargnera à l’utilisateur de fournir autre chose que la question, et éventuellement leur facilitera la tâche.

Durant ce travail, nous nous sommes concentrés sur les interactions entre l’extraction des réponses à l’aide de l’apprentissage approfondi (Deep Learning ou DL), le traitement du langage naturel (Natural Language Processing ou NLP) et la recherche d’information (Information Retrieval ou IR). Plus précisément, notre but est de mettre en œuvre une architecture générale d’un QAS en utilisant des collections et des ensembles de données de référence sur lesquels nous comptons baser les réponses du système.

https://www.deakin.edu.au/

Plan du mémoire

Ce présent manuscrit de thèse de Master est composé de quatre chapitres principaux qui sont :

Chapitre 1 : Ce premier chapitre dresse un état de l’art des systèmes de questions-réponses existants. Le chapitre se terminera par une étude bibliographique et une comparaison de ces systèmes selon plusieurs axes dans un tableau général.

Chapitre 2 : Ce chapitre est divisé en deux parties, dans la première nous introduisons la recherche d’in- formation. Nous décrivons dans la deuxième partie l’aspect théorique du Deep Learning et du traitement du langage naturel ainsi que l’architecture du modèle utilisé BERT.

Chapitre 3 : Le troisième chapitre est consacré à notre contribution et la conception de la solution proposée. Nous décrivons les différentes opérations de prétraitements effectuées sur l’ensemble de données de Wikipédia, nous présentons aussi la structure de notre index. De plus, nous détaillons dans ce chapitre l’architecture et les paramètres utilisés pour notre classifieur des passages et de notre module d’extraction des réponses.

Chapitre 4 : Le dernier chapitre présente les résultats expérimentaux, leurs interprétations et enfin une dis- cussion de ces derniers.

Enfin, le manuscrit se termine par nos conclusions sur le travail effectué. Tout travail de recherche introductif étant imparfait, cette section présente spécifiquement les améliorations possibles et offre donc des perspectives de poursuite de ce travail.