Les stratégies d’implémentation ETL révolutionnent l’intégration des données en répondant aux défis des données massives. Cette recherche dévoile une approche innovante qui optimise la récupération et l’analyse des données hétérogènes, essentielle pour les entreprises modernes.
- Les techniques d’intégration
Le processus d’intégration consiste à combiner des informations provenant de sources diverses, y compris des bases de données, telles que les BDD relationnelles. Donc, nous commençons par un bref rappel sur les bases de données relationnelles.
- Rappel sur les BDD relationnelles
Le modèle relationnel est une méthode très populaire d’organisation des données, plus explicitement :
Définition 2.3 Une base de données relationnelle est une collection de données organisées dans des tables formellement définies à partir desquelles les données peuvent être consultées et assemblées sans avoir à réorganiser les tables de la base de données [24].
En effet, une base de données relationnelle est une structure qui stocke et donne accès à des données liées les unes aux autres. Les bases de données relationnelles sont basées sur le modèle relationnel qui est un moyen intuitif et simple de représenter des données dans des tableaux. Dans une base de données relationnelle, chaque ligne d’une table est un enregistrement avec un identifiant unique, appelé clé. Les colonnes du tableau contiennent les attributs des données et chaque enregistrement a généralement une valeur pour chaque attribut, ce qui facilite l’établissement de relations entre les points de données.
Pour gérer une BDD relationnelle, un système logiciel nommé système de gestion des bases de données relationnelles (SGBDR) est indispensable. C’est un logiciel standard basé sur les principes suivants [25] :
- la définition des données sous forme de relations ;
- la manipulation des données par un langage déclaratif ;
- l’administration des données.
C’est un système qui permet aux utilisateurs d’interagir avec la base de données. Pour cela, le SGBD doit disposer d’un modèle qui définit l’organisation des données.
L’interface standard pour les bases de données relationnelles est SQL (Structured Query Language). Les commandes SQL sont utilisées pour interroger de manière interactive les informations contenues dans la base de données et collecter des données pour les rapports [24].
Le principal avantage du BDDR est la cohérence élevée des données. Ce modèle permet un stockage adéquat qui contribue à leur cohérence et qui favorise leur intégration [26].
La figure 2.4.1 illustre un exemple d’un schéma d’une base de données relationnelle relatif au traitement d’une ”Commande produit”. À titre d’illustration, considérons, la table Client, qui peut inclure les champs suivants :
- Numcl (Numéro client) ;
- Nomcl (Nom client) ;
- Prénomcl (Prénom client) ;
- Adrcl (Adresse client) ;
- Telcl (Téléphone client) ;
[7_strategies-implementation-etl-pour-integration-des-donnees_9]
Source: URL
Figure 2.1 – Exemple d’une BDDR ”Gestion des commandes produit”
Il existe plusieurs techniques principales de l’intégration des données. Il s’agit de Global As View (GAV), Local As View (LAV), Entrepôt de données(Data Warehouse), Adaptateur, Middleware.
- GAV : Global As View
Cette technique est utilisée pour l’intégration des informations d’entreprise qui crée des bases de données distinctes appartenant à une entreprise et qui fonctionnent ensemble et pour intégrer des catalogues comme la combinaison des informations sur le produit de chaque fournisseur [27]. La méthode GAV implique de définir les éléments du schéma global comme un ensemble de vues de la source de données. À partir du schéma global, l’utilisateur peut formuler des requêtes. Elles seront converties en sous-requêtes sur diverses sources de données. La reformulation des requêtes sur le schéma global en sous-requêtes se fait en remplaçant les éléments de la requête globale par leurs définitions [28].
GAV est un médiateur (Wrapper en anglais) d’intégration de données basé sur la vue. Le schéma global agit comme une vue du schéma source, c’est-à-dire que le schéma intermédiaire est décrit en termes de schéma local. Étant donné une requête au schéma global, la médiation suivra les règles et les schémas existants pour transformer la requête en une requête spécifique à la source. Il envoie une nouvelle requête au wrapper pour exécution. Le Wrapper recherche toutes les expressions possibles et comment les combiner pour répondre à une requête donnée.
Exemple 2.1 Dans le domaine d’enseignement supérieur, chaque université dispose de sa propre base de données d’étudiants et chaque base de données a son propre format. Ainsi, chaque BDD est considérée comme une vue locale. D’autre part, le ministère dispose d’une base de données intégrée contenant toutes ces bases de données qui est appelée concept global. La figure 2.4.2 illustre un exemple de l’approche GAV.
[7_strategies-implementation-etl-pour-integration-des-donnees_10]
Source: URL
Figure 2.2 – Approche GAV d’intégration
- Local As View (LAV)
L’approche d’intégration LAV consiste à décrire les sources de données en fonction des éléments du schéma global. Elle fait le cheminement inverse que celui adopté par l’approche GAV [28].
Contrairement à l’approche GAV, l’approche LAV est une technique d’intégration de données basée sur la vue pour effectuer l’intégration de données, c’est-à-dire rechercher et combiner des données provenant de diverses sources. Elle permet de décrire chaque schéma local comme une fonction sur le schéma global. Ici, une source de données est définie comme une vue du schéma fourni. L’architecture est conçue de manière à rester stable même lorsque certaines sources de données rejoignent ou quittent le système intégré. Ainsi, LAV permet d’ajouter d’autres sources ou de supprimer des sources de manière autonome au système intégré. Elle est utilisée dans les systèmes d’intégration de données pratiques ainsi que pour la vérification et la récupération des données [29].
L’approche LAV permet d’ajouter très facilement des sources d’information, elle n’a aucun impact sur l’architecture globale. D’autre part, la construction des réponses aux requêtes est complexe, contrairement à la construction des réponses dans les systèmes utilisant les méthodes GAV, qui remplacent simplement les prédicats du schéma de requête global par leurs définitions [30].
La figure 2.4.3 illustre l’approche LAV.
[7_strategies-implementation-etl-pour-integration-des-donnees_11]
Source: URL
Figure 2.3 – Approche LAV pour l’intégration des données
- Enterprises Application Intégration(EAI)
L’intégration d’applications d’entreprise EAI est une solution qui a pour but d’assurer la connexion entre différentes applications du système de données manipulées et leur conversion extraites dans un format commun. C’est une approche qui correspond à un ensemble de technologies, d’outils et de framework permettant une intégration en temps réel basée sur des messages entre des applications disparates. L’envoi de ces messages est déclenché par des modifications ou des paramètres dans chaque application. Les données prises en charge sont intégrées dans le cadre de la solution EAI puis transférées vers un point central appelé Middleware ou inter-giciel qui va les exploiter.
Il existe deux modèles d’EAI :
Le modèle point à point
Ce modèle assure la communication des applications entre elles et avec les éléments de l’environnement informatique. Par conséquent, chaque ressource doit être personnalisée en fonction de toutes les ressources auxquelles elle est connectée. C’est une tâche fastidieuse, donc le modèle est très sujet aux erreurs. Pour ne rien arranger, la maintenance du modèle se complexifie à chaque mise à jour de l’infrastructure et des applications.
Le modèle en étoile
Ce nouveau modèle surmonte les insuffisances du modèle précédent en offrant un point de connexion central (noyau ou le cœur) qui interconnecte toutes les applications et les services. Il permet, ainsi, de faire une maintenance individuelle grâce aux liens qui relient le noyau aux applications et aux services. De cette manière, il est possible d’élaborer des applications plus spécialisées et réserver les tâches d’intégration au noyau et aux liens entre composants.
Le principal inconvénient de cette approche réside dans la centralisation du noyau, car il devient le point unique de défaillance de tout le système et des communications au sein de l’infrastructure. Dans un modèle en étoile, toutes les intégrations dépendent, par définition, du bon fonctionnement du noyau.
La figure 2.4, illustre les deux modèles d’EAI.
[7_strategies-implementation-etl-pour-integration-des-donnees_12]
Source: URL
Figure 2.4 – Les deux modèles d’EAI
- Entreprise Service Bus (ESB)
La technologie d’intégration des données basée sur l’ESB remplace avantageusement l’intégration en étoile. Elle représente un outil d’abstraction orienté messages qui offre des modules de service entre les applications. C’est une nouvelle génération d’intégration d’application, considérée comme l’héritière de la solution EAI qui permet de surmonter les limitations de l’EAI. Pour assurer la description des messages et les services web pour l’échange de données, un ESB est construit sur des standards ouverts, tels que le protocole XML, afin de connecter les applications et les données entre elles. L’ESB tient également
la fonction de point central où tous les modules de service sont partagés, redirigés et organisés. Mais, la solution ESB n’est pas non plus la panacée, surtout dans le cas d’une entreprise qui croît et qui acquiert de nouvelles ressources, car elle requiert alors une plus grande rapidité au niveau des propriétés et des ressources logicielles [31, 32].
La figure 2.5 suivante schématise le fonctionnement d’une solution d’intégration ESB.
[7_strategies-implementation-etl-pour-integration-des-donnees_13]
Source: URL
Figure 2.5 – L’intégration ESB
- Entreprise Information Intégration (EII)
L’intégration d’information d’entreprise (EII) est une approche d’intégration articulée autour d’un système logiciel qui fournit une vue unifiée des données de l’entreprise, où les sources de données sont fédérées à l’aide d’une base de données virtuelle, de manière transparente aux applications utilisant ces données. Ces sources de données dispersées sont consolidées et intégrées dans une structure intermédiaire.
Ainsi, toute requête à la base de données virtuelle sera décomposée en sous-requêtes correspondantes envoyées aux sources respectives. Par la suite, les réponses aux requêtes partielles sont assemblées en un résultat unifié et consolidé. La solution EII permet de consolider uniquement les données à utiliser, uniquement au moment de leur utilisation effective (source data pulling).
Cependant, le traitement en ligne des données peut cependant entraîner des délais importants [33].
- Entreprise Ressource Planning (ERP)
Entreprise Ressource Planning (ERP) est un progiciel intégré de gestion utilisé par les organisations afin de gérer les fonctions quotidiennes, telles que la fonction commerciale, la comptabilité, l’approvisionnement, la gestion de projet, la gestion des risques et la gestion des ressources humaines. Généralement, une suite ERP complète inclut aussi la gestion
des performances de l’entreprise, un logiciel qui aide à planifier, budgétiser, prévoir et rendre compte des résultats financiers d’une organisation.
Dans une perspective de gestion des PM, les systèmes ERP relient un nombre important de processus métier et permettent d’échanger les flux de données entre eux. Ils éliminent, ainsi, la duplication des données et assurent l’intégrité des données avec une source unique reflétant la réalité. Les systèmes ERP sont essentiels pour gérer des milliers d’entreprises de toutes tailles et dans tous les secteurs d’activités, en collectant les données transactionnelles partagées d’une organisation à partir de plusieurs sources.
Les techniques d’adaptateurs
Un adaptateur est un outil logiciel qui permet à un (ou plusieurs) médiateurs d’accéder au contenu des sources d’information dans un langage unifié.
[7_strategies-implementation-etl-pour-integration-des-donnees_14]
Source: URL
Figure 2.6 – L’intégration ESB
Comme illustré dans la figure 2.6, un adaptateur permet d’extraire et d’acheminer les données des différentes sources et de les convertir dans un format cible, appelé ”schéma de médiation”. Pour cela, il accède aux bases de données, aux fichiers, aux systèmes de messagerie, aux applications d’entreprise et aux autres sources et cibles de données, puis il établit une correspondance entre la représentation locale de l’information et sa représentation dans le modèle de médiation [34].
Le principe de fonctionnement du médiateur est basé sur des modules spécifiques qui effectuent des mises en relation des requêtes des différents utilisateurs avec le schéma de médiation, en transformant les requêtes d’origine en des requêtes qui soient conformes aux schémas contenus dans les sources de données. Ces requêtes sont appelées ”requêtes de médiation”.
Les requêtes et les réponses d’une source donnée sont dans leur propre format, et l’adaptateur convertit la demande au format de la source et convertit la réponse dans un format adéquat qui correspond à la base de données ou de connaissance cible, donc, au schéma de médiation du système. C’est cette réponse au format obtenu qui est ensuite retransmise au médiateur, où elle est combinée avec d’autres réponses d’autres adaptateurs [35].
Vue l’importance des entrepôts de données, en tant que technique d’intégration des données, nous allons les aborder à part dans la prochaine section.
________________________
Questions Fréquemment Posées
Qu’est-ce qu’une base de données relationnelle?
Une base de données relationnelle est une collection de données organisées dans des tables formellement définies à partir desquelles les données peuvent être consultées et assemblées sans avoir à réorganiser les tables de la base de données.
Quels sont les avantages des bases de données relationnelles?
Le principal avantage du BDDR est la cohérence élevée des données. Ce modèle permet un stockage adéquat qui contribue à leur cohérence et qui favorise leur intégration.
Quelles techniques principales d’intégration des données sont mentionnées dans l’article?
Les techniques principales de l’intégration des données incluent Global As View (GAV), Local As View (LAV), Entrepôt de données (Data Warehouse), Adaptateur, et Middleware.