L’intégration des données hétérogènes est essentielle pour gérer les défis des données massives. Cette recherche révèle une approche innovante d’architecture ETL, transformant la manière dont les entreprises exploitent des volumes variés de données, avec des implications significatives pour l’efficacité opérationnelle.
Description du fonctionnement de la solution
Le système (OLE-STL) est articulé autour de trois modules principaux (Extract, Transform and Load) dont le fonctionnement est décrit ci-après :
Phase 1 :
Ce module comporte trois types d’extraction selon les besoin de l’utilisateur qui peut choisir une des options suivants :
- Une extraction initiale : utilisée lorsque les données sont initialement chargées dans l’entrepôt ou lorsque les données sont entièrement actualisées (dans le cas d’un changement de nouvelle source, par exemple). L’extraction complète permet de capturer toutes les données à un certain moment (snapshot d’état opérationnel).
[15_integration-des-donnees-heterogenes-une-approche-innovante_22]
Figure 4.1 – Architecture de notre système(OLE-STL)
- Une extraction additive : utilisée lorsqu’il y a une évolution au niveau de la structure de l’EDD, ceci se manifeste par, soit les créations d’une nouvelle table ou bien l’ajout d’attribut. Par exemple, dans le domaine commerciale l’ajout de la table des types paiement ou l’ajout de l’attribut code à barre de la table produit. Alors il est nécessaire d’incorporer de nouvelles sources de données.
- Une extraction incrémentale : Cette extraction ne prend en charge que les données qui ont été modifiées ou ajoutées depuis la dernière extraction en temps réels. C’est-à-dire, quand les transactions se produisent dans les systèmes sources, en analysant tous les changements apportés sur une certaine période au moyen de tests de comparaison des tables sources pour différentes périodes (heures, jours, mois…). Cette extraction repose sur le test des dates entre les sources après le dernier chargement et les sources courantes après la nouvelle extraction. Ainsi après chaque chargement le système (OLE-STL) garde la date (date du dernier chargement) et chaque table de l’EDD subir un table date pour stocker l’historique de toutes les dates du chargement.
Dans le cas ou il y a une modification dans une table, le système (OLE-STL) teste la date du chargement par rapport la dernière date du chargement qui est stockée dans la table date qui contient toutes les dates des chargements.
Phase 2 :
Dans notre système on opte pour une transformation sélective qui permet aux utilisateurs d’avoir la possibilité d’appliquer de manière sélective une ou plusieurs règles de transformation lors de ce processus. En effet le système (OLE-STL) offre une transformation organisée en quatre catégories distinctes de transformation. La table 2.1, ci-dessous met en exergue les différents types de transformations offerts par le système (OLE-STL).
Phase 3 :
Une fois que les données sont extraites et transformées en formats appropriés, la dernière étape de notre système consiste à les charger dans leur nouveau lieu qui est l’entrepôt de données.
Table 4.1 – Les types de transformations assurées par OLE-STL | |
---|---|
Parameter/Criteria | Description/Value |
Types de transformations | Quatre catégories distinctes de transformation |
L’interaction entre les trois modules du système est détaillée ci-dessous.
Scénario 1⇒2⇒3 : exprime le scénario d’extraction initial pour alimenter de l’entrepôt de données par des nouvelles données émanant des différentes sources.
Scénario1′⇒2⇒3 : c’est le scénario d’extraction additive dans lequel les sources de données a intégrer sont de nouvelles sources ou dans le cas de l’évolution des structures des données par rapport les données de l’EDD.
Scénario1″⇒2⇒3 :exprime le scénario d’extraction incrémentale dans lequel les sources de données à intégrer sont des données déjà existantes dans EDD mais dont les contenue ont subi des modifications en terme d’instances (occurrences).
Dans ce qui suit, on va revenir sur chacune des trois phases avec plus d’explications. La première phase du système (OLE-STL) peut avoir une des catégorie suivantes :
extraction initiale, extraction additive et extraction incrémentale, en fonction de la nature des données en entrée, elle permet de détermininer si les données disponibles sont de nouvelles données par rapport l’EDD ou des données qui ont changé récemment (ajout, suppression, modification…).
Ces catégorie sont schématisées par les symboles (1), (1′) et (1″) de la figure 4.1 montrent cette première phase où :
- : représente l’état ou la source de données est nouvelle par rapport l’EDD c’est à dire n’existe pas dans l’entrepôt.
(1′) : exprime le cas des changements dans la structure de l’EDD dans lesquels il existe un besoin d’incorporer de nouvelles sources de données pour faire évoluer l’entrepot de manière à répondre aux nouvelles exigences des utilisateurs.
(1″) : indique que cette source existe déjà dans l’EDD mais qu’elle a été modifiée depuis la dernière extraction.
- : Lorsque un type parmi les types d’extraction (initiale,additive,incrémentale) est terminée, le système (OLE-STL) amorce la phase de transformation sélective proposée.
- : exprime que la phase de transformation est réalisée pour lancer l’étape de chargement des données intégrées dans l’entrepôt de données.
Questions Fréquemment Posées
Quels sont les types d’extraction dans le système OLE-STL?
Le système OLE-STL comporte trois types d’extraction : l’extraction initiale, l’extraction additive et l’extraction incrémentale.
Comment fonctionne la transformation des données dans le système OLE-STL?
Dans le système OLE-STL, la transformation est sélective et permet aux utilisateurs d’appliquer une ou plusieurs règles de transformation lors du processus.
Quelle est la dernière étape du processus d’intégration des données dans OLE-STL?
La dernière étape consiste à charger les données extraites et transformées dans leur nouveau lieu, qui est l’entrepôt de données.