Les défis de l’intégration des données sont exacerbés par la montée en flèche des volumes d’informations. Cette recherche révolutionne l’architecture ETL traditionnelle, offrant des solutions innovantes pour gérer la diversité et la vitesse des données, avec des implications cruciales pour les entreprises modernes.
Chapitre 3
Problématique et travaux connexes
Introduction
Les deux premiers chapitres de ce mémoire ont été consacrés à la présentation des processus métiers et à l’exposé des technologies supportant l’intégration des données. Ce chapitre est dédié à la présentation de notre problématique ainsi qu’à l’étude et l’exploration des travaux connexes ayant abordé la question de l’intégration des données, tout en exposant les variantes améliorées des outils ETL.
A cet effet, la prise en compte des limites des outils ETL causées par l’accroissement spectaculaire du volume des données manipulées par les différentes applications informatiques sera reconsidérée et revue de manière critique. En effet, cette explosion des données a engendré de nouvelles considérations et contraintes sur des données manipulées, à savoir : le volume, la vitesse et la variété des données massives, connues sous le vocable de (Big data).
Après l’exposé des limites de la technologie ETL classique, nous nous focaliserons sur la problématique abordée dans ce projet de fin d’études et qui est relative à l’intégration des données des processus métiers. Afin de mettre en exergue l’intérêt de notre approche, nous discuterons, dans un premier temps, des avancées technologiques ayant rehaussé les outils ETL pour affronter les 3 V du big data, puis une étude comparative des travaux de recherche qui ont traité la question de l’impact des données massives sur les approches classiques ETL est dressée.
On commence le chapitre par la présentation des insuffisances des outils ETL classiques.
Limites des outils ETL
La technologie ETL était une première tentative d’intégration de données et elle répondait de manière suffisante aux besoins du traitement par lots qui était suffisant pour les exigences de gestion des données manipulées par ces outils. Néanmoins, avec les derniers développements technologiques et la démocratisation des technologies de l’information et de la communication, les performances matérielles ont largement évolué.
En conséquence, les données internes et externes de toute organisation deviennent de plus en plus diverses, instantanées et volumineuses. Ce constat a directement impacté le fonctionnement des outils ETL qui étaient destinés à prendre en charge des données locales, généralement relationnelles.
En effet, ils n’étaient pas conçus pour gérer le flux de données distantes depuis le cloud. Le problème de la gestion du flux de données est particulièrement aigu dans les environnements en temps réel. A vrai dire, de nombreux environnements d’entreprise modernes ne peuvent pas attendre des heures ou des jours pour que les applications gèrent les ensembles de données. Elles doivent répondre aux nouvelles données en temps réel au fur et à mesure qu’elles sont générées dans les SI de gestion ou les systèmes de production.
En fait, les organisations contemporaines créent et traitent des données dans un flux continu en temps réel. Les caractéristiques des données de tels environnements sont les suivants :
- Elles ont un caractère éphémère (versatiles et changeantes).
- Elles proviennent d’utilisateurs mobiles (utilisateurs nomades).
- Elles sont de très grande taille et nécessitent des moyens dédiés pour leur stockage et leur traitement.
Dans ce nouveau contexte, les outils ETL traditionnels restent limités et ne peuvent pas faire face à la montée en charge des données issues d’environnements temps réel. Cela est principalement dû à la grande quantité de données qui interrompe et, parfois, débordent les étapes des processus ETL.
Ainsi, après la phase d’extraction et le démarrage de la phase de transformation, la procédure de transformation peut être débordée, engendrant un engorgement à cause de la masse des données extraites dans la zone de transit (staging area).
Le même phénomène peut se déclencher entre les deux phases de transformation et de chargement. On parle de débordement du pipeline ETL. Par ailleurs, il faut du temps et des ressources pour transformer les données extraites des différentes sources et qui sont sauvegardées avant qu’elles ne deviennent obsolètes.
En résumé, il y a deux limites majeures des outils ETL pour le traitement des flux de données en temps réel qui se résument aux aspects suivants :
- Pour pouvoir gérer les flux de données en temps réel, toutes les exigences de la phase de transformation ETL, telles que le nettoyage, l’enrichissement et le traitement des données, doivent être effectuées plus fréquemment à mesure que le nombre de sources de données augmente et que la capacité monte en flèche. Les outils ETL traditionnels ne peuvent pas garantir cette tâche ni prendre en compte cette préoccupation.
- Les outils ETL ne peuvent pas gérer instantanément les méga-données, alors que ces dernières peuvent générer de meilleures informations à valeur ajoutée, telles que les informations commerciales qui peuvent être introduites dans des systèmes avancés d’analyse de données ou d’apprentissage automatique.
De même, ces données massives sont souvent exploitées par les algorithmes d’intelligence artificielle, tels que les systèmes de recommandation, les systèmes de prédiction et dans le cadre de fouilles de processus métiers (process mining). Donc, ces données sont très utiles dans un contexte d’informatique décisionnelle.
Problématique
Dans une perspective d’informatique décisionnelle (Business intelligence), l’exploitation rationnelle de données créées lors de l’exécution des processus métiers exige leur intégration dans des formats et des supports adéquats en vue de leur analyse et utile à des fins de prise de décision.
Le processus Extract, Transform and Load (ETL) traditionnel vise à répondre à cette préoccupation en offrant des modèles et des outils permettant d’extraire les données de différentes sources et de les intégrer dans des formats homogènes et uniformes en vue de leur exploitation. Ce format est communément désigné par le l’entrepôt de données ou (Dataware house).
Néanmoins, vue la diversité des données, de leur vitesse d’évolution ainsi que de leur volume qui est de plus en plus consistant, les approches classiques ETL ont montré leurs limites et elles sont devenues inadéquates, car ne pouvant plus répondre aux nouvelles exigences.
En effet, avec l’augmentation du débit, les évolutions récentes des TIC et leur démocratisation, les données internes et externes à toute organisation sont devenues de plus en plus variées, instantanées et volumineuses. D’autre part, ces données sont stockées dans plusieurs sources disparates qui ont été conçues indépendamment par des concepteurs différents.
Ce phénomène entraîne une hétérogénéité des données, c’est-à-dire que les données relatives à un même sujet sont représentées différemment sur des systèmes d’information distincts. Cette hétérogénéité provient des choix différents qui ont été opérés pour représenter et stocker des faits du monde réel dans des formats informatiques divers, tels que les bases de données relationnelles, des fichiers semi-structurés (XML) ou encore des fichiers plats.
Il faut signaler que cette hétérogénéité se situe à deux niveaux distincts. Le premier est sémantique et consiste à définir le même concept mais avec des significations différentes. Et le deuxième niveau est structurel et concerne la représentation des mêmes concepts avec la même signification mais avec des présentations différentes.
Par exemple, le concept de client peut être vu comme abonné, touriste ou patient suivant son contexte d’utilisation.
Néanmoins, dans une optique de fusion de plusieurs entreprises manipulant ce même concept, il faut trouver une correspondance adéquate pour surmonter ce problème de diversité sémantique. Dans le même sens, chaque entreprise manipulant ce concept peut le traiter de manière différente, en spécifiant un format adéquat, par exemple (20 caractères alphabétiques, ou 30 caractères alphanumériques).
D’autre part, comme ces données se trouvent dans le Cloud, donc issues d’environnement temps réel, alors les systèmes d’informations des entreprises modernes ne peuvent pas attendre des heures ou des jours pour que les applications gèrent les lots de données en question. Cependant, elles doivent répondre aux nouvelles données en temps réel au fur et à mesure que ces données sont produites.
En effet, les organisations contemporaines génèrent et traitent des données sous forme de flux continus en temps réel qui sont de nature éphémère ayant des formats non structurés et des volumes très importants et qui proviennent souvent d’utilisateurs nomades.
De ce qui précède, nous pouvons affirmer que les outils ETL conventionnels demeurent limités pour le traitement des données hétérogènes et en temps réel et qu’ils souffrent de certaines limitations fonctionnelles dues à la montée en charge du flux de données. Cela est dû fondamentalement au fait que les volumes de données exponentiellement importants brisent les pipelines ETL au niveau des passerelles.
Par ailleurs, plus il faut du temps et des ressources pour transformer ces données, plus la file d’attente des données sources est sauvegardée et les données deviennent obsolètes. De plus, les outils ETL sont incapables de gérer, instantanément, les données hétérogènes et importantes qui pourraient générer de meilleures informations à valeur ajoutées (informations commerciales, par exemple).
Après l’exposé de la problématique, la suite du chapitre est consacrée à l’étude et à l’analyse des travaux ayant abordé cette problématique de différents points de vue. Nous commençons par présenter quelques variantes améliorées d’outils ETL qui ont tenté de faire face aux limites des outils ETL standards.
Questions Fréquemment Posées
Quels sont les défis de l’intégration des données ETL ?
Les défis incluent la gestion du volume, de la vitesse et de la variété des données massives, qui impactent le fonctionnement des outils ETL traditionnels.
Pourquoi les outils ETL classiques sont-ils limités ?
Les outils ETL classiques ne peuvent pas faire face à la montée en charge des données issues d’environnements temps réel, car ils n’étaient pas conçus pour gérer le flux de données distantes depuis le cloud.
Comment l’explosion des données affecte-t-elle les outils ETL ?
L’explosion des données a engendré de nouvelles considérations et contraintes, rendant les outils ETL traditionnels incapables de gérer efficacement les ensembles de données en temps réel.