Approche méthodologique pour l'intégration des données ETL

L’approche méthodologique pour l’intégration des données révèle une avancée significative dans la gestion des données massives. En transformant l’architecture ETL traditionnelle, cette étude propose des solutions innovantes pour surmonter les défis liés à la diversité et au volume des données, avec des implications cruciales pour les entreprises.

Table des matières

Travaux connexes sur l’intégration ETL

La question de l’intégration des données massives a été largement abordée et traitée dans la littérature de recherche. Néanmoins, la façon de percevoir la problème diffère selon les aspects relatifs aux technologie utilisées et conformément aux types de données manipulées. Malgré la diversité des travaux réalisés dans ce domaine, le problème reste toujours d’actualité et les propositions de solutions demeurent insuffisantes par rapport aux avancées considérables, que ce soit sur le plan architectural ou bien d’un point de vue performances.

Dans ce qui suit, nous allons examiner les travaux qui ont traité, de façon plus ou moins approfondie, la question de l’intégration des données dans un contexte décisionnel. Pour chaque approche analysée, nous faisons ressortir ses avantages et ses inconvenants. En fin de chapitre, nous dressons un tableau synthétique et comparatif des différents travaux réalisés.

Dans [44], les auteurs proposent une approche basée sur les ontologies décrites par le langage OWL-DL pour faciliter la conception des processus ETL. Ils utilisent une représentation sous forme de graphe comme modèle conceptuel pour les entrepôts de données de façon que les données structurées et semi-structurées soient prises en charge et traitées de manière uniforme. Cette approche résout le problème de l’hétérogénéité sémantique par l’utilisation des technologies du web sémantique pour annoter de la même façon les sources de données et l’entrepôt de données. L’objectif principal de ce travail est la résolution d’entités et permettre de trouver la correspondance entre les différents attributs. Pour réaliser cet objectif, cette approche propose des opérations conceptuelles pour l’intégration des données dans l’entrepôt de données.

Comme les flux de données ETL (Extract-Transform-Load) alimentent périodiquement les entrepôts de données en informations provenant de différents systèmes sources, cela impose un traitement rapide d’énormes volumes de données. Malgré que MapReduce [ ? ? ? ?] soit imposé comme la norme de facto pour le traitement intensif des données à grande échelle, il ne prend pas en charge les constructions spécifiques ETL de haut niveau, ce qui entraîne une faible productivité des programmeurs ETL dans les environnements parallèles et distribués. Pour apporter une solution à ce manquement de la fonctionnalité de MapReduce pour les outils ETL, plusieurs travaux de recherche ont tenté de proposer différentes contributions afin de surmonter cette limitation.

Dans ce qui suit, les travaux basés sur l’amélioration des fonctionnalités de MapReduce sont examinés.

Les auteurs dans [45] présentent un cadre ETL dimensionnel évolutif, dénommé ETMLR (Extract-Transform-Map-Load-Reduce), pour les environnements distribués. Ce système est basé sur le support natif MapReduce auquel ils ont intégré les opérations sur les constructions spécifiques à l’ETL, telles que les schémas en étoile, les schémas en flocon de neige ainsi que les dimensions à évolution lente (Slowly Changing Dimension: SCD). Cela permet aux développeurs ETL de construire des flux ETL évolutifs basés sur MapReduce avec très peu de lignes de code. Cette approche parallèle/distribuée permet d’améliorer les performances de la phase de transformation (T) et de chargement (L) des outils ETL, et ce en adoptant pour chacune des deux phases des stratégies de distribution des données qui sont appropriées à la technologie MapReduce. L’outil développé, ETLMR comprend deux phases de traitement des données qui sont :

Le traitement des tables de dimensions.
Le traitement des tables des faits.

Contrairement aux travaux précédents, les auteurs dans [19], suggèrent de se focaliser sur le couple Extract-Transform au lieu du couple Transform-Load. Le champ d’application de ce travail est limité à la partie extraction et transformation (ET) du processus ETL. Les auteurs présentent une comparaison des coûts et des performances entre les solutions commerciales ETL et les solutions open source basées sur MapReduce (M/R). Une double approche d’expérimentation et d’évaluation des performances a été conduite et les résultats obtenus ont été argumentés et discutés. Cette approche permet d’évaluer l’applicabilité des options de solutions commerciales en fonction de la vitesse de traitement, le coût et le déploiement des ressources.

Dans le but d’accélérer le processus d’élaboration d’une solution BI basée sur les données, d’un côté, et préparer également des solutions de veille stratégique pour l’utilisation des mégadonnées, les auteurs dans l’article [46] présentent une nouvelle approche pour la conception de solutions d’informatique décisionnelle (BI). Ce travail suggère l’extension de l’approche existante (ELT) à une nouvelle approche dénommée ELTA (Extract, Load, Transform and Analyse) dont le fonctionnement est décrit comme suit :

Un processus appelé Extract permet d’extraire des données des différentes sources hétérogènes dans des formats hétérogènes, ensuite le processus Load assure le chargement des données dans un système de stockage (zone de transit). Enfin, le processus Transform

permet de transformer les données brutes à la demande et en fonction des besoins du processus décisionnel.

La nouveauté dans cette approche consiste à offrir aux gestionnaires un processus nommé Analyse qui leur permet d’utiliser efficacement les données pré-traitées pour comprendre le comportement de l’entreprise et de pouvoir prendre les décisions adéquates. L’avantage principal de ce travail consiste à combiner les techniques de la BI avec le domaine des données massives (Big Data) en tirant profit des meilleurs acquis des deux domaines et tout en éliminant les inconvénients de la BI d’une façon parallèle.

Dans le contexte de l’influence de la discipline big data sur les systèmes ETL et les environnements décisionnels, d’une part, et afin de mieux gérer l’intégration de données distribuées d’autre part, dans [47] les auteurs proposent une nouvelle approche du processus ETL pour laquelle ils définissent des fonctionnalités pouvant s’exécuter sur un cluster selon le modèle MapReduce (MR). Dans cette perspective, ils proposent un processus ETL parallèle, appelé PF-ETL (Parallel Functionality-ETL). Ce nouveau processus PF-ETL garantit un ensemble de fonctionnalités selon le paradigme MR, où chacune peut s’exécuter avec plusieurs instances en parallèle. Ainsi, plusieurs exécutions simultanées d’une même fonctionnalité sont lancées et permettent de tirer parti des nouveaux environnements informatiques parallèles et distribués.

Toujours dans le même contexte des données massives, un autre travail intéressant est suggéré dans [48]. Dans ce travail, les auteurs proposent et décrivent le fonctionnement d’une plateforme nommée P-ETL qui est basée sur l’entreposage des données massives selon le modèle MapReduce. L’approche s’articule sur le paramétrage du processus ETL

à l’entrée même du système et consiste en un paramétrage avancé de l’environnement parallèle et distribué. Cette approche est articulée autour des 3 étapes suivantes :

- Dans un premier temps, les données sont partitionnées conformément à différents algorithmes (simple, round robin, round robin par bloc);
- Après ce partitionnement des données, les primitives Map sont introduites pour la normalisation des données;
- Enfin, la primitive Reduce assure leur fusion.

La contribution majeure de ce travail consiste en une amélioration des performances dans un contexte de passage à l’échelle et pour faire face au flux de données de plus en plus croissant.

Par ailleurs, dans une perspective d’améliorer les performances du processus ETL et afin de réduire la charge de travail induite par la phase de migration des données qui ne

seront peut-être jamais utilisées, une nouvelle approche ETL, nommée TEL (Transform-Extract-Load) est proposée dans [49]. Cette nouvelle approche utilise des tables virtuelles pour réaliser l’étape de transformation avant l’étape d’extraction et l’étape de chargement. Cette façon de faire permet de réduire la charge de transmission des données et améliore considérablement les performances des requêtes à partir des couches d’accès.

Dans cette approche, l’étape de transformation constitue une couche virtuelle qui assure le mapping des schémas. Ainsi, des tables virtuelles sont créées par les utilisateurs, comme des structures qui garantissent la cohérence des sources de données, telles que la sélection des champs, le type de champ, la longueur du champ, . . ..

L’aspect nouveauté de cette approche est que les tables virtuelles assurent l’élimination des données hétérogènes, fournissent l’accès transparent aux données et offrent une vue unifiée créée à travers des bases de données hétérogènes ou homogènes. Sur la base des tables virtuelles, l’étape d’extraction de l’approche TEL effectue un travail d’extraction de données à la demande. Elle comprend l’extraction complète, incrémentielle et par requête, en fonction des différents scénarios d’application. L’étape L (load) de TEL suit rapidement l’extraction des données, en les chargeant dans l’interface des requêtes, le cache ou l’entrepôt de données.

Afin d’assurer une bonne performance des processus ETL et faire face au phénomène communément appelé “volume excessif” de données, le travail exposé dans [50] propose une approche originale appelée Big-ETL. Dans cette approche, les auteurs définissent des fonctionnalités ETL qui peuvent être exécutées facilement sur un cluster d’ordinateurs avec le paradigme MapReduce. En effet, Big-ETL permet de paralléliser/distribuer l’ETL à deux niveaux :

Le niveau de processus ETL
Le niveau de fonctionnalités pour améliorer les performances d’ETL

Pour contrôler la complexité du processus ETL, cette approche parallèle/distribuée est articulée autour des fonctionnalités ETL spécifiques suivantes.

- la capture de données changeantes (CDC),
- la validation de la qualité des données (DVQ),
- la gestion de la clé de substitution (Substitution Key: SK),
- gestion des données dont la dimension d’évolution est lente (Slowly Changing Dimension: SCD),
- le pipeline de clés de substitution (SKP)
Dans la même perspective et pour faire face aux problèmes liés au big data, dans [51] et [52], les auteurs proposent une approche baptisée BigDimETL (Big Dimensional ETL) qui traite du développement ETL et qui se concentre sur l’intégration des données massives issues de différentes sources en tenant compte de la structure multidimensionnelle (Multi-Dimensionnal Structure) à travers le paradigme MapReduce. Cette approche fonctionne avec les trois phases classiques du processus ETL, néanmoins elle consiste à adapter la phase d’extraction et de transformation avec le paradigme MapReduce. Ainsi, pour distribuer

les données d’entrée, les auteurs utilisent le partitionnement vertical selon les dimensions de la structure multidimensionnelle décrite dans les méta-données.

-Enfin, pour modéliser le processus ETL à un niveau conceptuel, tout en l’adaptant aux standards du Web par la prise en charge des formalismes associés aussi bien à UML qu’au langage BPMN et au web sémantique, les travaux de [53, 20] les auteurs proposent une nouvelle approche pour la modélisation conceptuelle du processus ETL en utilisant un nouveau langage standard de modélisation des systèmes, nommé Systems Modeling Language (SysML), qui étend les caractéristiques de UML avec une sémantique beaucoup plus claire du point de vue de l’ingénierie des systèmes.

La contribution majeure de ce travail est l’extension des fonctionnalités UML avec une sémantique beaucoup plus claire du point de vue de l’ingénierie système.

Synthèse des travaux connexes

La table 3.1 ci-dessus récapitule les travaux connexes ayant abordé la problématique de l’intégration des données de différents points de vues. À signaler que la plupart des travaux recensés lors de l’analyse de l’état de l’art concernent en grande partie les travaux associés aux données massives. Cela s’explique en grande partie par le phénomène de l’explosion des données induites par le développement du web et des plateformes distribuées.

CHAPITRE 3. PROBLÉMATIQUE ET TRAVAUX CONNEXES

R´ef.	Principe	Contribution et mod`ele propos´ee	Evaluation
[44]	Approche bas´ee sur les ontologies pour facilit´e la conception d’ETL	OWL-DL	Permet l’identification des ressources pertinentes avec l’am´elioration des sc´enarios ETL dans le monde r´eel.
[45]	Approche(ETMLR) parall`ele/distribu´e qui s’int´eressent aux phases de transformation et de chargement de l’ETL.	TL avec Map Reduce	E´volutivit´e, Performances.
[19]	Approche bas´ee sur Hadoop qui s’int´eressent aux phases d’Extraction et transformation de l’ETL.	ET avec Hadoop	Am´eliorer consid´erablement le d´ebit, la r´eduction des couˆts et les effectifs.
[46]	Approche ELTA pour la conception de solution de BI	ETL-Analyse	Ils abordent la combinaison BI et big data en prenant les meilleurs ´el´ements a` la fois et en parall`ele en ´eliminant les d´esavantages de BI.
[47]	Approche du processus ETL avec d´efinition des fonctionnalit´es qui peuvent ˆetre ex´ecut´ees en cluster selon le mod`ele(MR)	ETL avec Map Reduce	permet une migration vers un environnement cloud.
[48]	Platforme P-ETL parall`ele/distribu´e destin´ee a` l’entreposage de donn´ees massives	ETL avec Map Reduce	montre une meilleure ´evolutivit´e de P-ETL
[49]	Approche TEL utilise des tables virtuelles pour r´ealiser l’´etape de transformation avant l’´etape d’extraction et l’´etape de chargement	ETL avec CCEVP	Cette technique r´eduit la charge de travail associ´ee `a la migration des donn´ees
[50]	Approche Big-ETL parall`ele/distribue avec la d´efinition de nombreuses fonctionnalit´es ETL	ETL avec MapReduce	permet de contrˆoler la complexit´e du processus ETL.
[51][52]	Approche BigDimETL qui traite du d´eveloppement ETL	ET avec MapReduce	l’efficacit´e d’ajouter facilement d’autres op´erations ETL
[53][20]	Approche pour la mod´elisation conceptuelle du processus ETL	ETL avec SysML	le mod`ele de syst`eme peut ˆetre con¸cu d’une fa¸con plus expressive et plus souple.

Table 3.1 – Tableau d’évaluation des travaux existants

CHAPITRE 3. PROBLÉMATIQUE ET TRAVAUX CONNEXES

Conclusion

Après avoir énuméré les limites des outils ETL classiques, dans ce chapitre nous avons exposé notre problématique, puis nous avons exploré les outils logiciels ETL ayant subi des améliorations afin de faire face aux données massives et en temps-réel. Après cela, nous avons mené une analyse approfondie des travaux connexes existants dans la littérature et qui ont traité le problème de l’intégration des données massives.

Pour surmonter les insuffisances liées au fonctionnement des outils ETL, tels explicités dans ce chapitre, et afin de prendre en compte la dimension temporelle des données issues des sources diverses, il est impératif de proposer une amélioration du principe de fonctionnement des outils ETL.

Dans le prochain chapitre, nous allons apporter notre contribution et concevoir une solution adéquate permettant de surmonter les limites des outils ETL.

Questions Fréquemment Posées

Quelle est l’approche méthodologique proposée pour l’intégration des données ETL ?

L’approche méthodologique proposée permet de récupérer des données hétérogènes provenant de différentes sources, d’analyser leur structure et de formaliser leur processus d’intégration.

Comment l’architecture ETL traditionnelle est-elle améliorée pour les données massives ?

L’amélioration de l’architecture ETL traditionnelle vise à répondre aux défis posés par les données massives caractérisées par leur volume, vitesse et variété.

Quels types de données sont pris en charge par la nouvelle approche d’intégration des données ?

La solution prend en compte le stockage et l’exploitation de grands volumes provenant de bases structurées, semi-structurées et de fichiers Excel.

Comment une approche méthodologique révolutionne l’intégration des données ETL ?