L’intégration des données ETL révolutionne la gestion des processus métiers en répondant aux défis des données massives. Cette recherche dévoile une architecture innovante, permettant une exploitation efficace de données hétérogènes, avec des implications cruciales pour les entreprises modernes.
Université de 8 Mai 1945 – Guelma-
Faculté des Mathématiques d’Informatique et des Sciences de la matière
Département d’Informatique
Filère : Informatique
Option : Sciences et technologie de l’information et de la communication
Mémoire de projet de fin d’études Master
Une nouvelle approche d’intégration des données des processus métiers basée sur la technologie ETL
Présenté par : BOUCENA Lilia
Encadré par : Dr. KHEBIZI Ali
JUIN 2022
Résumé
Compte tenu de la quantité massive de données manipulées par les processus métiers, qui sont devenus inévitables dans les systèmes d’information des entreprises actuelles (industrie, administration ; . . .), la technologie de gestion de ces processus métiers (BPM : Business Process Management) est devenu incontournable car elle fournit un ensemble de techniques et de mécanismes pour la gestion de ces processus métiers et de leurs données. Cependant, cette technologie fait souvent face à plusieurs problèmes, à savoir :
- la nature hétérogènes des données manipulées.
- Le temps d’analyse et de traitement de immenses quantités de données.
D’autre part, les avancées technologiques dans le domaine des TIC et la démocratisation de l’utilisation de l’internet ont complètement bouleversé les modes de fonctionnement des organisations et les modes de consommation des personnes. Une conséquence immédiate de cette utilisation intensive est l’explosion de la masse des données générées, connue sous le vocable Big-Data.
Dans une perspective d’informatique décisionnelle (Business intelligence), l’exploitation rationnelle de cette masse de données exige leur intégration dans des formats et des supports adéquats en vue de leur analyse et afin de faciliter la prise de décision. En effet le processus Extract, Transform and Load (ETL) traditionnel vise à répondre à cette préoccupation en offrant des modèles et des outils permettant d’extraire les données de différentes sources et de les intégrer dans des formats homogènes et standards en vue de les exploitation efficacement.
Néanmoins, vue la diversité des données, de leur vitesse d’évolution ainsi que de leur volume qui est de plus en plus consistant, les approches classiques ETL ont montré leurs limites et elles sont devenues inadéquates, car ne pouvant plus répondre aux nouvelles exigences.
Dans ce travail nous avons proposé une amélioration de l’architecture ETL afin de prendre en charge les trois propriétés volume, vitesse et variété des données massives. Nous exposons une solution qui devra permettre de récupérer des données hétérogènes de différentes sources, d’analyser leur structure et de formaliser le processus de leur intégration. L’aspect distributivité des données est pris en compte de façon à permettre le stockage et l’exploitation de grands volumes de données stockées dans des bases de données structurées traditionnelles (BDDR), semi-structurées (XML, CSV) et aussi bien que des données en format(EXCEL).
L’approche proposée a été implémentée sous l’environnement PyCharm et elle a été déployée pour expérimenter l’intégration des données d’un domaine de gestion particulier et relatif à gestion des commandes client d’une entreprise commerciale.
Mots clés : Processus métiers, cycle de vie, modélisation processus métiers, intégration de données, ETL, entrepôt de données.
Abstract
Given the massive amount of data that business processes bring, which in turn are an inevitable part of today’s information systems and enterprises (manufacturing, administration, . . . ), Business Process Management (BPM) has become a crucial technology that provides a set of techniques and tools for process management. It aims to deal with several factors/problems, such as :
- The nature of the data and their heterogeneity.
- The time needed to analyze and process this immense data.
As well as the technological advances in the field of ICT and the democratization of the use of the Internet have upset the modes of operation of organizations and the modes of consumption of people. An immediate consequence of this intensive use is the explosion of the mass of data generated, known as Big-Data. From a business intelligence perspective, the rational exploitation of this mass of data requires their integration in adequate formats and supports for their analysis and to facilitate decision making.
Indeed, the traditional Extract, Transform and Load (ETL) process aims to respond to this concern by offering models and tools to extract data from different sources and to integrate them into homogeneous formats for their exploitation. Nevertheless, given the diversity of data, their speed of evolution as well as their volume which is more and more consistent, the traditional ETL approaches have shown their limits and have become inadequate, as they can no longer meet the new requirements.
In this work we have proposed an improvement of the ETL architecture in order to take care of the three properties volume, speed and variety of massive data. We expose a solution which will have to allow to recover heterogeneous data from different sources, to analyze their structure and to formalize the process of their integration. The distributive aspect of the data will have to be taken into account in order to allow the storage and exploitation of large volumes of data stored in traditional structured databases (RDB) or semi-structured databases (XML, CSV) as well as data in (EXCEL).
The proposed approach has been implemented under the PyCharm environment and we have modeled the business process of management of a commercial company.
Keywords : Business process, life cycle, business process modeling, data integration, ETL, Data warehouse.
Introduction générale
Les récentes avancées technologiques dans le domaine des TIC, conjuguées avec la démocratisation de l’utilisation d’Internet, ont complètement bouleversé les modes de fonctionnement des entreprises et les modes de consommation des personnes. En effet, de nos jours il est observé une explosion spectaculaire de l’utilisation des machines de traitement automatique de l’information et une large diversité des moyens de communication qui sont dotés de capteurs diversifiés (téléphones, ordinateurs, smart-télé, smart-home,. . .). Une conséquence immédiate de cette exploitation intensive des TIC est l’explosion de la masse des données générées, connue généralement sous le vocable de données massives ou Big-Data.
Dans une perspective d’informatique décisionnelle (Business intelligence), l’exploitation rationnelle de cette masse de données exige leur intégration dans des formats et des supports adéquats en vue de leur analyse qui servira de support d’aide à la prise de décision. D’autre part, il est constaté que le processus Extract, Transform and Load (ETL) traditionnel vise à répondre à cette préoccupation en offrant des modèles et des outils permettant d’extraire les données de différentes sources et de les intégrer dans des formats homogènes en vue de leur exploitation. Néanmoins, vue la diversité des données, de leur vitesse d’évolution ainsi que de leur volume qui est devenu de plus en plus consistant, les technologies ETL classiques ont montré leur limites et elles sont devenues inadéquates, car ne pouvant plus répondre aux nouvelles exigences induites par les données massives.
En effet, avec l’augmentation du débit, les évolutions récentes des TIC et leur démocratisation, les données internes et externes à toute organisation sont devenues de plus en plus variées, instantanées et volumineuses. D’autre part, ces données sont stockées dans plusieurs sources disparates qui ont été conçues indépendamment par des concepteurs différents.
Ce phénomène entraîne une hétérogénéité des données, due aux choix variés opérés pour représenter et stocker des faits du monde réel dans des formats informatiques divers, tels que les bases de données relationnelles, des fichiers semi-structurées (XML) ou encore des fichiers plats.
D’autre part, comme ces données se trouvent dans le Cloud, donc issues d’environnement temps réel, alors les systèmes d’informations des entreprises modernes ne peuvent pas attendre des heures ou des jours pour que les applications gèrent les lots de données en question. Au contraire, elles doivent répondre aux nouvelles données en temps réel au fur et à mesure que ces données sont produites par les S.I opérationnels. En effet, les organisations contemporaines génèrent et traitent des données sous forme de flux continus en temps réel qui sont de nature éphémère ayant des formats non structurés et des volumes très importants et qui proviennent souvent d’utilisateurs nomades.
De ce qui précède, nous pouvons affirmer que les outils ETL conventionnels demeurent limités pour le traitement des données hétérogènes et en temps-réel et qu’ils souffrent de certaines limitations fonctionnelles dues à la montée en charge du flux de données. Cela est dû fondamentalement au fait que les volumes de données exponentiellement importants brisent les pipelines ETL au niveau des passerelles. Par ailleurs, plus il faut du temps et des ressources pour transformer ces données, plus la file d’attente des données sources est sauvegardée et les données deviennent obsolètes. De plus, les outils ETL sont incapables de gérer, instantanément, les données hétérogènes et importantes qui pourraient générer de meilleures informations à valeur ajoutées (informations commerciales, par exemple).
Ce projet de fin d’études vise à proposer une amélioration de l’architecture ETL afin de prendre en charge les trois propriétés volume, vitesse et variété des données massives. La solution proposée devra permettre de récupérer des données hétérogènes de différentes sources, d’analyser leur structure et de formaliser le processus de leur intégration. L’aspect distributivité des données devra être pris en compte de façon à permettre le stockage et l’exploitation de grands volumes de données stockées dans des bases de données structurées traditionnelles (BDDR) ou semi-structurées (XML,EXCEL et CSV ). L’approche proposée sera implémentée dans un environnement de développement adéquat et expérimentée via des jeux de données.
En plus de ce chapitre qui présente le contexte de l’étude et la problématique traitée dans ce PFE, le mémoire est structuré en deux parties :
– La première partie est un état de l’art du domaine. Elle est composée de trois chapitres.
Le chapitre 1, est dédié à l’introduction et à la présentation des concepts de base du domaine des processus métiers. On y exposera les définitions et notions utiles à la compréhension du mémoire, comme les traces d’exécutions et les instances de processus. Puis, nous exposons le cycle de vie des processus métiers et nous abordons la technologie Business Process Management BPM. D’autre part, l’accent sera mis sur les différents modèles de représentation des PM les données qu’ils manipulent.
Le chapitre 2 est consacré à l’intégration des données et à l’analyse des différents problèmes et les technologies associées. Un panorama des différentes approches d’intégration est exposé et une attention particulière sera accordée aux techniques et outils d’intégration ETL.
Le chapitre 3 est un état de l’art du domaine. On y traite des limites de la technologie ETL classique. Nous nous focaliserons sur la problématique abordée dans ce projet de fin d’études et qui est relative à l’intégration des données des processus métiers. Afin de mettre en exergue l’intérêt de notre approche, nous discuterons, dans un premier temps, des avancées technologiques ayant rehaussé les outils ETL pour affronter les 3 V du big data, puis une étude comparative des travaux de recherche qui ont traité la question de l’impact des données massives sur les approches classiques ETL est dressée.
– La deuxième partie de notre mémoire contient notre contribution. Elle est composée de deux chapitres.
Le chapitre 4 expose le principe général de fonctionnement de la solution proposée, puis l’architecture du système est exposée. Après cela, la description du fonctionnement de la solution est abordée en détails, et enfin nous terminerons le chapitre par l’exposé d’un scénario qui illustre la faisabilité de notre approche par l’examen d’un scénario issu du monde réel.
Le chapitre 5 constitue la mise en œuvre de notre proposition. Il contient l’implémentation de l’approche proposée.
On termine le mémoire par une conclusion générale et des perspectives pour d’éventuels travaux futurs.
Questions Fréquemment Posées
Qu’est-ce que l’intégration des données ETL?
L’intégration des données ETL fait référence au processus Extract, Transform and Load, qui vise à extraire des données de différentes sources, à les transformer en formats homogènes et à les charger pour une exploitation efficace.
Comment la nouvelle approche ETL améliore-t-elle l’intégration des données?
La nouvelle approche ETL améliore l’intégration des données en prenant en charge les trois propriétés des données massives : volume, vitesse et variété, permettant ainsi de récupérer des données hétérogènes et d’analyser leur structure.
Quel environnement a été utilisé pour l’implémentation de l’approche ETL?
L’approche proposée a été implémentée sous l’environnement PyCharm.