L’analyse comparative des techniques ETL révèle une transformation radicale dans la gestion des données massives. En intégrant des sources hétérogènes, cette approche innovante répond aux défis contemporains, offrant des solutions essentielles pour optimiser le traitement et l’exploitation des informations dans un environnement dynamique.
Chapitre 2
Les techniques d’intégration des données
- Introduction
L’émergence des systèmes d’informations automatisés et leur omniprésence dans différents secteurs d’activités, conjuguées avec l’apparition de la discipline Big data, ont complètement bouleversé notre rapport avec la gestion et le traitement des données. En effet, à l’heure actuelle les données sont générées et collectées à une échelle sans précédent et avec un rythme accru.
Par conséquent, le désir d’analyser et d’extraire de la valeur ajoutée de ces données afin de prendre les décisions adéquates exigent des intégrations et des transformations permettant d’aboutir à des formats communs et des standards universels. Cette exigence est due au fait que ces données sont issues de diverses sources et sont relatives à différentes applications.
Parmi les exemples les plus illustratifs sur le phénomène d’explosion de la masse de données, on peut citer : les documents Web, les fichiers logs du commerce électronique à grande échelle, les échanges à travers les réseaux sociaux, les informations manipulées par les réseaux de capteurs, les données relatives à l’astronomie, .
… Ainsi, l’intégration des données devient la clé pour concrétiser les promesses du Big data.
Dans ce chapitre, nous allons nous focaliser sur cet aspect d’intégration des données et analyser ses différents aspects. Dans un premier temps, nous allons étudier l’intérêt de cette notion d’intégration pour laquelle nous proposerons plusieurs définitions, puis nous analyserons les techniques d’intégration existantes dans la littérature. Un regard particulier sera accordé aux techniques et outils d’intégration ETL. Nous commençons le chapitre par une discussion sur l’intérêt de l’intégration des données.
- Intérêt de l’intégration des données
Comme les processus métiers doivent spécifier un ensemble de tâches ou d’activités interdépendantes qui permettent d’atteindre des objectifs de gestion de l’organisation, alors la modélisation de tels processus peut faciliter la compréhension et le fonctionnement des procédures et règles de gestion associées au PM. D’autre part, lors de l’accomplissement des différentes étapes du PM, des données sont manipulées et produites au fur et à mesure de sa progression.
En effet, en plus des données d’entrée, d’autres nouvelles données d’exécution sont générées. Dans ce contexte, le système de gestion des processus métier (BPMS) doit assurer une prise en charge adéquate de la gestion, du stockage et du rafraîchissement de ces données. Néanmoins, les BPMS doivent faire face à de nouveaux défis dans le domaine du big data.
De plus, les processus métier font partie d’un domaine complexe où le stockage et l’intégration des données sont des étapes importantes pour les futures applications d’analyse et de prise de décision. Cependant, les systèmes de gestion de bases de données relationnelles (SGBDR) ont des difficultés à exécuter des données à partir d’environnements hautement distribués dans divers systèmes hétérogènes et à très grande vitesse. De ce fait, la quantité de données numériques devient massive, disparate, diversifiées et en continuelle expansion, on parle de Big Data ou données massives.
La technologie du big data est en pleine évolution et elle a été adoptée dans divers domaines, tels que le marketing, l’e-commerce, l’e-santé, l’e-learning, l’e-gouvernement … [19]. Les Big data sont caractérisées par les 3V (Volume, Variété et Vitesse), et sont définies dans [20] comme ”un actif d’information à grand volume, à grande vitesse et multivariété qui nécessite des formes de traitement de l’information rentables et innovantes pour une meilleure compréhension et une meilleure prise de décision.” Les concepts 3 V peuvent être brièvement décrits comme suit :
- Volume : fait référence à une grande quantité de données de tout type provenant de différentes sources.
- Diversité : fait référence à
différents types de formats des données, tels que des vidéos, des images, du texte, de l’audio, … qui sont collectées via des capteurs, des smartphones ou des réseaux sociaux. De plus, ces données peuvent être sous un format structuré ou non structuré.
- Vitesse : fait référence à la vitesse de transmission des données, car le contenu des données est en constante évolution.
Cette définition a subi plusieurs améliorations qui tentent de prendre en compte les évolutions technologiques. Par exemple, les auteurs dans [21] précisent que :”Les données massives sont une ressource d’information à volume élevé, à grande vitesse et/ou diversifiée qui nécessite de nouvelles formes de traitement pour améliorer la prise de décision, la découverte d’informations et l’optimisation des processus.” D’autres auteurs, chercheurs et ingénieurs en ajoutent de la valeur et de la précision aux définitions précédentes et étendent les 3V de base à 4V et 5V.
Dans le concept de big data, ce n’est pas la quantité de données qui génère vraiment de nouvelles idées, mais la combinaison des 3V. De plus, le domaine des mégadonnées se développe rapidement, avec un accent particulier sur le stockage et le traitement de grands ensembles de données. Ainsi, de nouvelles méthodes de collecte, de traitement et d’analyse de grandes quantités de données ont été proposées et adoptées. Par conséquent, l’intégration de l’information est l’un des enjeux centraux des systèmes d’information manipulant des données massives. De la discussion précédente se pose, alors, les questions inhérentes à la manipulation des données des processus métiers.
- En quoi consiste l’intégration de données ?
- Quelles sont les techniques existantes permettant d’assurer une intégration correcte des données massives, telles que explicités ci-dessus ?
Dans la section suivante nous essayerons de répondre à ces préoccupations.
- Présentation de l’intégration des données
L’intégration des données offre de grands avantages pour les entreprises qui l’utilisent de plus en plus dans le cadre de la gestion de leurs données. Néanmoins, il n’existe pas d’approche unique pour l’intégration des données, ni de définition standard. En effet, plusieurs définitions ont été proposées en vue de spécifier ce concept d’intégration. Dans ce qui suit, nous donnons deux définitions et nous faisons ressortir les aspects fondamentaux des techniques d’intégration.
- Définitions de l’intégration de données
Définition 2.1 L’intégration de données est le processus technique et métier consistant
à combiner des données provenant de différentes sources pour exploiter pleinement les données. Plus simplement, l’intégration de données consiste à rassembler des sources de données disparates dans une vue unifiée. Elle permet aux outils analytiques de produire des informations exploitables [22].
Une autre définition est donnée dans [23].
Définition 2.2 L’intégration des données est le processus consistant à combiner des données provenant de sources disparates dans une vue unifiée. Ce processus assure l’importation, le nettoyage en passant par la cartographie et la transformation pour cibler les gisements, rendant finalement les données plus utilisables et utiles pour les utilisateurs.
De ces deux définitions nous pouvons retenir que l’intégration des données désigne le processus consistant à :
- l’échange de données des sources vers des structures cibles ;
- la copie de données dans des formats standards et unifiés
- le déplacement et la transformation de données
On constate que l’intégration de données est un élément essentiel de nombreux projets de gestion de données critiques, tels que la création d’entrepôts de données d’entreprise, la migration de données d’une ou plusieurs bases de données vers une autre et la synchronisation des données entre différentes applications. Par conséquent, les entreprises utilisent diverses techniques d’intégration de données pour intégrer des données provenant de différentes sources afin de créer une version unique de la réalité de l’entreprise.
- Exemples illustratifs d’intégration de données
Dans cette section, nous exposons quelques exemples concrets permettant d’illustrer le principe d’intégration des données dans différents domaines pratiques.
- Intégration d’attributs de plusieurs tables : pour aboutir à une base de données unique en utilisant l’opération de jointure naturelle (sur la base d’un même Identifiant commun) assure cette intégration. Exemple : Soient les tables produit et magasin. La jointure de ces deux tables sur la base du code produit fournira une nouvelle table contenant les lieux de stockage de chaque produit dans chaque magasin.
- Intégration d’enregistrement de bases de données : La commande SQL Append assure l’adjonction d’une table d’une base de données avec une autre ayant la même structure. Base de données des étudiants de l’université de Guelma avec celle des
étudiants de l’Université de Annaba.
Les deux exemples précédents sont élémentaires et sont pris en charge directement par les SGBD. Dans ce qui suit, on va se focaliser sur des techniques d’intégration des données plus avancées et on va exposer un panorama des techniques d’intégration existante dans le domaine.
Questions Fréquemment Posées
Qu’est-ce que l’intégration des données dans le contexte du Big Data ?
L’intégration des données devient la clé pour concrétiser les promesses du Big Data, permettant d’analyser et d’extraire de la valeur ajoutée des données générées à une échelle sans précédent.
Pourquoi les systèmes de gestion de bases de données relationnelles ont-ils des difficultés avec le Big Data ?
Les systèmes de gestion de bases de données relationnelles (SGBDR) ont des difficultés à exécuter des données à partir d’environnements hautement distribués dans divers systèmes hétérogènes et à très grande vitesse.
Quels sont les défis que rencontrent les BPMS dans le domaine du Big Data ?
Les BPMS doivent faire face à de nouveaux défis dans le domaine du Big Data, notamment en ce qui concerne la gestion, le stockage et le rafraîchissement des données générées au cours des processus métiers.