Quelles sont les perspectives futures des données ETL en 2023 ?

Pour citer ce mémoire et accéder à toutes ses pages
🏫 Université de 8 Mai 1945 – Guelma - Faculté des Mathématiques d'Informatique et des Sciences de la matière - Département d'Informatique
📅 Mémoire de fin de cycle en vue de l'obtention du diplôme de Master - 2022
🎓 Auteur·trice·s
BOUCENA Lilia
BOUCENA Lilia

Les perspectives futures des données ETL révèlent une transformation majeure dans l’intégration des données, répondant aux défis des volumes massifs et variés. Cette approche innovante promet de redéfinir la gestion des données, avec des implications cruciales pour les entreprises modernes.


Principe de fonctionnement des outils ETL

Comme il a été déjà expliqué dans la sous-section 2.6.2, les outils ETL assurent l’extraction des données des différentes sources, puis opèrent leurs transformations en des formats plus adéquats et enfin, ils les stockent dans l’entrepôt de données. Partant de ce rôle primordial des ETL, cette section est réservée exclusivement à l’analyse de leur fonctionnement.

La figure 2.10, ci-dessous illustre le principe général de fonctionnement d’un processus ETL. Comme il est observé dans la figure, le mécanisme ETL est un processus incrémental qui passe par plusieurs opérations complémentaires, dont l’explication détaillée est donnée ci-dessous. Les trois premières opérations constituent l’étape d’extraction, les trois suivantes l’étape de transformation et les trois dernières forment l’étape de chargement.

[10_perspectives-futures-des-donnees-etl-une-analyse-innovante_18]

Figure 2.10 – Enchainement général des opérations du processus ETL

Analyse des étapes du processus ETL

Chacune des trois étapes est étudiée de manière consistante.

a) Étape d’extraction des données (Extract)

Avant toute action d’extraction, il faut tout d’abord identifier les sources de données. En effet, la grande diversité des sources de données impose une recherche exhaustive des données pertinentes pour la solution BI cible.

a1. Identification des sources

La procédure suivante cerne les actions à suivre pour l’identification des sources et la conduite à tenir pour surmonter les contraintes rencontrées durant cette phase.

  • Recenser les métriques et attributs de dimension: consiste à énumérer les attributs cibles nécessaires à l’entrepôt de données ;
  • Trouver les correspondances source-cible: Pour chaque attribut cible, il faut trouver la source et l’attribut correspondant de cette source ;
  • Sélection des sources pertinentes: Si plusieurs sources sont trouvées lors de l’opération précédente, alors il faut choisir la plus pertinente ;
  • Consolidation des attributs: Dans le cas où l’attribut cible exige des données de plusieurs sources, alors il faut formaliser les règles de consolidation ;
  • Expression des règles de découpage: Si l’attribut source renferme plusieurs attributs cibles, alors il faut spécifier les règles de découpage. Par exemple, si l’attribut cible Nom-client contient, à la fois le nom et le prénom du client, il faut opérer son découpage en deux attributs distincts (Nom-client, Prénom-client).
  • Élimination des données manquantes: Dans le cas où plusieurs attributs cibles contiennent encore des valeurs manquantes, alors il faut inspecter toutes les sources possibles afin de localiser ces valeurs.
a2. Extraction des données

Une fois les sources de données identifiées, l’extraction proprement dite peut être lancée. Cette opération peut être activée de deux manières différentes suivant le contexte de déploiement de la solution BI.

  • Extraction complète: Ce type d’extraction est employé lors d’un chargement initial des données dans l’entrepôt ou bien lors d’un rafraîchissement complet des données (dans le cas de changement d’une source, par exemple). L’extraction complète permet de capturer l’ensemble des données à un certain instant (snapshot de l’état opérationnel). Néanmoins, le chargement complet peut être très coûteux en temps,

du fait que toutes les données seront chargées (de plusieurs heures à plusieurs jours en fonction du volume des données manipulées).

  • Extraction incrémentale: Cette extraction capture uniquement les données qui ont changé ou ont été ajoutées depuis la dernière extraction. Elle peut être faite en temps-réel, c’est-à-dire au moment où les transactions surviennent dans les systèmes sources (par des triggers ou par les journaux des transactions), ou bien en différé, en analysant tous les changements effectués pendant une certaine période grâce à

des programmes de comparaison des états des sources pour des périodes différentes (heure, jours, mois ; . . .).

b. Étape de transformation des données (Transform)

Avant de charger les données émanant des différentes sources dans l’entrepôt, plusieurs catégories de transformations doivent être opérées sur ces données.

La table 2.1, ci-dessous met en exergue les différents types de transformations qu’un outil ETL standard doit garantir. Pour chaque type de transformation, un exemple illustratif est montré dans la dernière colonne du tableau.

Table 2.1 – Les types de transformations assurées par un outil ETL
Parameter/CriteriaDescription/Value
Type de transformation 1Description de la transformation 1
Type de transformation 2Description de la transformation 2

Comme il est observé dans le tableau, les transformations peuvent porter aussi bien sur le format des données que sur le contenu lui-même.

c. Étape de chargement des données (Load)

Une fois les données extraites et transformées dans des formats adéquats, la dernière étape du processus ETL standard consiste à les charger dans leur nouvel emplacement qui est l’entrepôt de données. En général, les entrepôts de données supportent trois modes pour le chargement des données : le chargement initial, le chargement incrémentiel et le chargement complet.

c1. Chargement initial

Ce type de chargement n’est opéré qu’une seule fois, lors de l’activation de l’entrepôt de données. À cause de la longue durée que peut prendre le processus de chargement initial et afin d’éviter la génération d’incohérences au niveau de l’entrepôt, il est impératif de désactiver temporairement les indexes et les contraintes d’intégrité référentielles relatives aux clés étrangères.

c2. Chargement incrémentiel

Ce type de chargement peut être fait soit en temps réel, soit en batch (traitement par lots), mais une fois le chargement initial terminé. Il doit tenir compte de la nature des changements survenus dans les sources de données. À cet effet, une stratégie de gestion des changements doit être adoptée pour chaque situation. On parle de dimension de changement lent (Slowly Changing Dimension : SCD) qui peut être de différents types. Les stratégies d’historisation possibles pour les différents CSD sont les suivantes :

  • SCD Type 1: Consiste à écraser l’ancienne valeur avec la nouvelle valeur. Par

exemple, le client a changé son adresse de livraison.

  • SCD Type 2: Consiste à ajouter une ligne dans la table de dimension pour la

nouvelle valeur. Par exemple, si le client a changé son adresse de livraison de A à B, alors préserver les deux valeurs A et B. Donc, on aura deux enregistrements du même client avec deux valeurs distinctes pour l’attribut adresse.

  • SCD Type 3: Permet d’avoir deux colonnes dans la table de dimension correspondantes à l’ancienne et la nouvelle valeur dans la colonne courante. Pour l’exemple de changement d’adresse, il faut créer une nouvelle colonne dont le libellé sera NOUVELLE-ADRESSE, tout en gardant l’ancienne colonne (ADRESSE).
  • Stratégie Hybride: On combine les stratégies de gestion des types de changements 2 et 3.
c3. Chargement complet

Ce type de chargement est employé lorsque le nombre de changements rend le chargement incrémental trop complexe. Par exemple, lorsque plus de 20A signaler que pour les

différents types de chargement précédents, certaines considérations supplémentaires sont à prendre en compte, à savoir :

  • Opérer le chargement des données en périodes creuses (entrepôts de données non utilisé).
  • Considérer la bande passante requise pour le chargement.
  • Prévoir un plan pour la vérification et l’évaluation de la qualité des données chargées.
  • Commencer par le chargement des données des tables de dimension avant celles des faits.

Conclusion

Vue l’importance du mécanisme d’intégration dans les SI, dans ce chapitre nous nous sommes focalisés sur cet aspect en exposant son intérêt puis les différentes techniques permettant d’assurer d’une manière plus ou moins efficace l’intégration des différentes données issues de sources variées.

Un examen des diverses techniques d’intégration existantes dans la littérature a été présenté. Le chapitre a été clôturé par l’étude approfondie des outils ETL, incontournables dans tout contexte d’intégration. Néanmoins, vue la diversité des données, de leur vitesse d’évolution ainsi que de leur volume qui est de plus en plus consistant, les approches classiques ETL ont montré leurs limites et elles sont devenues inadéquates, car ne pouvant plus répondre aux nouvelles exigences de distributivité et au volume croissant des données. Le prochain chapitre sera dédié à une étude de l’état de l’art des travaux qui ont abordé la problématique de la diversité des données et leur intégration en se basant sur

des processus ETL.

________________________


Questions Fréquemment Posées

Quelles sont les étapes du processus ETL ?

Le processus ETL se compose de trois étapes principales : l’extraction des données, la transformation des données et le chargement des données.

Comment se déroule l’extraction des données dans un processus ETL ?

L’extraction des données commence par l’identification des sources de données, suivie de l’extraction complète ou incrémentale des données selon le contexte de déploiement.

Pourquoi est-il important d’identifier les sources de données dans un processus ETL ?

L’identification des sources de données est cruciale pour recenser les métriques et attributs nécessaires, trouver les correspondances source-cible et sélectionner les sources pertinentes pour la solution BI.

Rechercher
Télécharger ce mémoire en ligne PDF (gratuit)

Laisser un commentaire

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top