Une nouvelle approche d’intégration des données des processus métiers basée sur la technologie ETL
L’analyse présente une amélioration de l’architecture ETL traditionnelle pour répondre aux défis posés par les données massives caractérisées par leur volume, vitesse et variété. La solution proposée permet de récupérer des données hétérogènes provenant de différentes sources, d’analyser leur structure et de formaliser leur processus d’intégration. L’approche prend en compte l’aspect distributif des données pour permettre le stockage et l’exploitation de grands volumes provenant de bases structurées, semi-structurées et de fichiers Excel. L’implémentation a été réalisée sous l’environnement PyCharm et testée sur un domaine de gestion des commandes clients d’une entreprise commerciale.
Université de 8 Mai 1945 – Guelma-
Faculté des Mathématiques d’Informatique et des Sciences de la matière
Département d’Informatique
Filère : Informatique
Option : Sciences et technologie de l’information et de la communication
Mémoire de projet de fin d’études Master
Une nouvelle approche d’intégration des données des processus métiers basée sur la technologie ETL
Présenté par : BOUCENA Lilia
Encadré par : Dr. KHEBIZI Ali
JUIN 2022
REMERCIEMENTS
Nous n’oublions jamais que nous avons rencontr´e de nombreuses difficult´es au cours de notre cursus universitaire, mais tout cela a contribu´e `a la r´ealisation de ce travail qui a couronn´e notre parcours.
Tout d’abord, je remercie Dieu qui de m’avoir donn´e le courage et la patience dont j’avais besoin durant cette langue ann´ee.
Je tiens ´egalement `a remercier mes parents et tous les membres de ma famille qui sont rest´es `a mes cˆot´es pendant mes ´etudes, et qui n’ont cess´e de m’apporter un soutien moral et mat´eriel, d’autant plus que j’ai termin´e ce m´emoire.
J’ai remercie mon encadreur Monsieur KHEBIZI Ali qui m’a soutenu, guid´e, conseill´e et m’a apport´e tout le soutien dont j’ai besoin tout au long de la r´ealisation de mon travail.
Sans oublier de remercier ´egalement tout le personnel du d´epartement informatique de mon universit´e le 8 mai 1945, en particulier mes professeurs, qui nous ont transmis toutes les connaissances n´ecessaires `a notre formation.
DEDICACES
Cinq ann´ees s’ach`event si vite et me voici en train de lever ma plume pour ´ecrire cette d´edicace `a tous ceux qui sont pass´es devant mon parcoure et grˆace `a eux j’ai grandi et j’ai muˆrie et je suis devenue ce que je suis maintenant.
Je tiens `a remercie du fond du cœur mes parents qui m’ont montr´ee `a voir le cot´e positive de la vie, `a ˆetre patiente, `a vivre le jour au jour. Ma langue s’est retir´ee en disant au fond de moi : il n’y a pas de mots dans mon dictionnaire qui leurs rendent leurs duˆ.
Je remercie les personnes ch`eres `a mon cœur : ”Rania” et ”Nada,” mes deux sœurs que Dieu me les prot`ege. Mes larmes ne tombaient jamais sans trouver ”Rania” et ”Nada ” qui les essuyait et les remplacerait par un sourire. Je remercie aussi mes deux fr`eres « Ahmed » et « Amir » qui sont si chers pour moi.
Sans oublier ma tante « Samia » ma deuxi`eme Maman, qui m’a aid´e financi`erement et moralement.
Enfin, je remercie tous ceux qui ont travers´e ma vie, surtout ceux qui s’en sont sortis, je les remercie le plus car ce sont eux avec qui j’ai appris `a ne pas faire confiance `a tout le monde facilement.
Table des mati`eres
Table des figuresixListe des tableauxxIntroduction g´en´erale1I E´tat de l’art31 Les Processus m´etiers41.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41.2 Notion du processus m´etier . . . . . . . . . . . . . . . . . . . . . . . . . . .41.3 La gestion du processus m´etier (BPM) . . . . . . . . . . . . . . . . . . . .61.4 Les syst`emes de gestion de processus m´etiers (BPMS) . . . . . . . . . . . .71.5 Cycle de vie des PM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71.5.1 Phase de mod´elisation . . . . . . . . . . . . . . . . . . . . . . . . .81.5.2 Phase d’impl´ementation . . . . . . . . . . . . . . . . . . . . . . . .81.5.3 Phase d’ex´ecution . . . . . . . . . . . . . . . . . . . . . . . . . . . .91.5.4 Phase de pilotage . . . . . . . . . . . . . . . . . . . . . . . . . . . .91.6 Mod´elisation des processus m´etier . . . . . . . . . . . . . . . . . . . . . . .101.6.1 Les mod`eles formels . . . . . . . . . . . . . . . . . . . . . . . . . . .101.6.2 Les mod`eles Graphiques . . . . . . . . . . . . . . . . . . . . . . . .131.6.3 Les langages de repr´esentation des PMs . . . . . . . . . . . . . . . .151.7 Les donn´ees des processus m´etiers . . . . . . . . . . . . . . . . . . . . . . .171.7.1 Donn´ees relatives aux mod`eles . . . . . . . . . . . . . . . . . . . . .171.7.2 Donn´ees sur les ressources . . . . . . . . . . . . . . . . . . . . . . .181.7.3 Donn´ees d’execution . . . . . . . . . . . . . . . . . . . . . . . . . .181.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .192 Les techniques d’int´egration des donn´ees202.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .202.2 Int´erˆet de l’int´egration des donn´ees . . . . . . . . . . . . . . . . . . . . . .202.3 Pr´esentation de l’int´egration des donn´ees . . . . . . . . . . . . . . . . . . .222.3.1 D´efinitions de l’int´egration de donn´ees . . . . . . . . . . . . . . . .222.3.2 Exemples illustratifs d’int´egration de donn´ees . . . . . . . . . . . .222.4 Les techniques d’int´egration . . . . . . . . . . . . . . . . . . . . . . . . . .232.4.1 Rappel sur les BDD relationnelles . . . . . . . . . . . . . . . . . . .232.4.2 GAV : Global As View . . . . . . . . . . . . . . . . . . . . . . . . .242.4.3 Local As View (LAV) . . . . . . . . . . . . . . . . . . . . . . . . .252.4.4 Enterprises Application Int´egration(EAI) . . . . . . . . . . . . . . .262.4.5 Entreprise Service Bus (ESB) . . . . . . . . . . . . . . . . . . . . .272.4.6 Entreprise Information Int´egration (EII) . . . . . . . . . . . . . . .282.4.7 Entreprise Ressource Planning (ERP) . . . . . . . . . . . . . . . . .28
2.4.8 Les techniques d’adaptateurs 29
• Les Entrepˆots de donn´ees ou Data warehouse 30Illustration de l’usage des Entrepoˆts de donn´ees 30Architecture des entrepoˆts de donn´ees 31Fonctionnement des entrepoˆts de donn´ees 32La technologie d’int´egration bas´ee sur ETL 32Int´erˆet de la technologie ETL 33Quelques d´efinitions des outils ETL 33Principe de fonctionnement des outils ETL 35Analyse des ´etapes du processus ETL 35Conclusion 39
• Les Entrepˆots de donn´ees ou Data warehouse 30Illustration de l’usage des Entrepoˆts de donn´ees 30Architecture des entrepoˆts de donn´ees 31Fonctionnement des entrepoˆts de donn´ees 32
• Illustration de l’usage des Entrepoˆts de donn´ees 30
• Architecture des entrepoˆts de donn´ees 31
• Fonctionnement des entrepoˆts de donn´ees 32
• La technologie d’int´egration bas´ee sur ETL 32Int´erˆet de la technologie ETL 33Quelques d´efinitions des outils ETL 33Principe de fonctionnement des outils ETL 35Analyse des ´etapes du processus ETL 35
• Int´erˆet de la technologie ETL 33
• Quelques d´efinitions des outils ETL 33
• Principe de fonctionnement des outils ETL 35
• Analyse des ´etapes du processus ETL 35
• Conclusion 39
• Probl´ematique et travaux connexes 40Introduction 40Limites des outils ETL 40Probl´ematique 41Les variantes am´elior´es des outils ETL 43Extract, Load and Transform (ELT) 43Streaming ETL (S-ETL) 44Pipe line de donn´ees : Data Pipe line 45Diff´erences entre Pipe line de donn´ees et pipe line ETL 46Travaux connexes sur l’int´egration ETL 46Synth`ese des travaux connexes 50Conclusion 52
• Introduction 40
• Limites des outils ETL 40
• Probl´ematique 41
• Les variantes am´elior´es des outils ETL 43Extract, Load and Transform (ELT) 43Streaming ETL (S-ETL) 44Pipe line de donn´ees : Data Pipe line 45Diff´erences entre Pipe line de donn´ees et pipe line ETL 46
• Extract, Load and Transform (ELT) 43
• Streaming ETL (S-ETL) 44
• Pipe line de donn´ees : Data Pipe line 45
• Diff´erences entre Pipe line de donn´ees et pipe line ETL 46
• Travaux connexes sur l’int´egration ETL 46
• Synth`ese des travaux connexes 50
• Conclusion 52
II Contribution et Impl´ementation de l’approche 53
• Conception de l’approche 54Introduction 54Principe de la solution propos´ee 54Contribution majeures de la solution 55Architecture g´en´erale du syst`eme propos´e 56Description du fonctionnement de la solution 56Sc´enario illustratif de fonctionnement de OLE-STL 59Mod´elisation des donn´ees de l’EDD 60Description des r`egles m´etier du PM commande client 60Phase d’extraction 61Phase de transformation s´elective 63Conclusion 64
• Introduction 54
• Principe de la solution propos´ee 54
• Contribution majeures de la solution 55
• Architecture g´en´erale du syst`eme propos´e 56
• Description du fonctionnement de la solution 56
• Sc´enario illustratif de fonctionnement de OLE-STL 59Mod´elisation des donn´ees de l’EDD 60Description des r`egles m´etier du PM commande client 60Phase d’extraction 61Phase de transformation s´elective 63
• Mod´elisation des donn´ees de l’EDD 60
• Description des r`egles m´etier du PM commande client 60
• Phase d’extraction 61
• Phase de transformation s´elective 63
• Conclusion 64
• Impl´ementation et Exp´erimentation de l’approche 65Introduction 65Pr´esentation de l’environnement de travail 65Fonctionnalit´es de l’application 66Enchainement g´en´eral de l’application 66Sc´enario illustratif 68Conclusion 71
• Introduction 65
• Pr´esentation de l’environnement de travail 65
• Fonctionnalit´es de l’application 66
• Enchainement g´en´eral de l’application 66
• Sc´enario illustratif 68
• Conclusion 71
Conclusion g´en´erale 72
Bibliographie 73
Table des figures
• Processus m´etier du traitement d’une commande client 5Cycle de vie des Processus m´etiers 8Exemple d’un PM mod´elis´e par un AFD 11El´ements de base pour mod´eliser un PM par un RDP 11Repr´esentation d’un processus de commandes client par un RDP 12Repr´esentation d’un processus de commandes client par un Graphe 13Diagramme d’activit´es pour le processus commande client 14BPMN pour commande client 15Exemple d’une BDDR ”Gestion des commandes produit” 24Approche GAV d’int´egration 25Approche LAV pour l’int´egration des donn´ees 26Les deux mod`ele de d’EAI 27L’int´egration ESB 28L’int´egration ESB 29Exemple d’entrepoˆt de donn´ees 30Les trois niveaux d’un entrepˆot de donn´ees d’apr´es [1] 32Les trois op´eration d’outil ETL 34Enchainement g´en´eral des op´erations du processus ETL 35S´equencement des ´etapes ETL vs ELT 43M´ecanisme de fonctionnement d’un outil Streaming-ETL 44Les composants d’une data pipeline 45Architecture de notre syst`eme(OLE-STL) 57Gestion des commandes client d’une entreprise commerciales 60Gestion des commandes client d’une entreprise commerciales 62Le menu principales de notre syst`eme ”OLE-STL” 66Le sch´ema de l’EDD du syst`eme ”OLE-STL” 67Les trois extractions offertes par ””OLE-STL” 67Les transformation de notre syst`eme ”OLE-STL” 68Le menu de chargement du ”OLE-STL” 68Exemple d’extraction de la table cat´egorie 69Exemple d’extraction additive de la table Type-paiement 69Exemple de transformation de la date de la table facture 70Exemple de transformation la table magasin en UTF-8 70Exemple de chargement de la table magasin 71
• Processus m´etier du traitement d’une commande client 5
• Cycle de vie des Processus m´etiers 8
• Exemple d’un PM mod´elis´e par un AFD 11
• El´ements de base pour mod´eliser un PM par un RDP 11
• Repr´esentation d’un processus de commandes client par un RDP 12
• Repr´esentation d’un processus de commandes client par un Graphe 13
• Diagramme d’activit´es pour le processus commande client 14
• BPMN pour commande client 15
• Exemple d’une BDDR ”Gestion des commandes produit” 24
• Approche GAV d’int´egration 25
• Approche LAV pour l’int´egration des donn´ees 26
• Les deux mod`ele de d’EAI 27
• L’int´egration ESB 28
• L’int´egration ESB 29
• Exemple d’entrepoˆt de donn´ees 30
• Les trois niveaux d’un entrepˆot de donn´ees d’apr´es [1] 32
• Les trois op´eration d’outil ETL 34
• Enchainement g´en´eral des op´erations du processus ETL 35
• S´equencement des ´etapes ETL vs ELT 43
• M´ecanisme de fonctionnement d’un outil Streaming-ETL 44
• Les composants d’une data pipeline 45
• Architecture de notre syst`eme(OLE-STL) 57
• Gestion des commandes client d’une entreprise commerciales 60
• Gestion des commandes client d’une entreprise commerciales 62
• Le menu principales de notre syst`eme ”OLE-STL” 66
• Le sch´ema de l’EDD du syst`eme ”OLE-STL” 67
• Les trois extractions offertes par ””OLE-STL” 67
• Les transformation de notre syst`eme ”OLE-STL” 68
• Le menu de chargement du ”OLE-STL” 68
• Exemple d’extraction de la table cat´egorie 69
• Exemple d’extraction additive de la table Type-paiement 69
• Exemple de transformation de la date de la table facture 70
• Exemple de transformation la table magasin en UTF-8 70
• Exemple de chargement de la table magasin 71
Quelques instances du processus commande client 19
Exemple de trace d’ex´ecution des instances du PM commande client 19
Les types de transformations assur´ees par un outil ETL 37
Tableau d’´evaluation des travaux existants 51
Les types de transformations assur´ees par OLE-STL 58
Bibliographie
• https://datawarehouseinfo.com/.
• Mohammed Oussama Kherbouche. Contribution `a la gestion de l’´evolution des pro- cessus m´etiers. PhD thesis, Universit´e du Littoral Coˆt´e d’Opale, 2013.
• Mathias Weske, Marco Montali, Ingo Weber, and Jan vom Brocke. Business Process Management : 16th International Conference, BPM 2018, Sydney, NSW, Australia, September 9–14, 2018, Proceedings, volume 11080. Springer, 2018.
• Wil M. P. Van Der Aalst, Arthur H. M. Ter Hofstede, and Mathias Weske. Business process management : A survey. In Proceedings of the 2003 International Conference on Business Process Management, BPM’03, pages 1–12, Berlin, Heidelberg, 2003. Springer-Verlag.
• Mathias Weske, Wil MP Van Der Aalst, and HMW Verbeek. Advances in business process management. Data & Knowledge Engineering, 50(1) :1–8, 2004.
• Alessandro Margherita. Syst`eme de gestion des processus m´etier et activit´es : deux d´efinitions int´egratives pour construire un corps de connaissances op´erationnel. Jour- nal de gestion des processus m´etier, 2014.
• Object Management Group. Business process modeling notation (bpmn) version 1.0. omg final adopted specification. object management group, 2006.
• OASIS. Web services business process execution language version 2.0. http ://docs.oasis-open.org/wsbpel/2.0/, 2007.
• Mathias Weske. Business Process Management – Concepts, Languages, Architectures, 2nd Edition. Springer, 2012.
• luc Maranget Philipe Babstie. Programmation et algorithmique. http://gallium. inria.fr/~maranget/X/421/poly/poly.pdf.
• Boualem Benatallah, Fabio Casati, and Farouk Toumani. Web service conversation modeling : A cornerstone for e-business automation. IEEE Internet Computing, 8(1) :46–54, 2004.
• Hedi Dhouibi. Utilisation des r´eseaux de Petri `a intervalles pour la r´egulation d’une qualit´e : application `a une manufacture de tabac. PhD thesis, Ecole Centrale de Lille ; Universit´e des Sciences et Technologie de Lille-Lille I, 2005.
• Les graphes, un outil de mod´elisation. http://ressources.aunege.fr/nuxeo/ site/esupversions/2b1c56b6-109d-488a-94a3-3ea525f8beef/ModAidDec/ cours/l2/l2.pdf.
• Didier Mu¨ller. Introduction `a la th´eorie des graphes. Commission romande de ma- th´ematique, 2011.
• Aloulou and Houssem. D´erivation de diagrammes de s´equence uml compactes `a partir de traces d’ex´ecution en se basant des heuristiques. 2016.
• Jan Recker. Bpmn modeling-who, where, how and why. BPTrends, pages 1–8, 2008.
• Business process modeling techniques with examples. https://creately.com/blog/ diagrams/business-process-modeling-techniques/, 22 April 2021.
• Chun Ouyang, Marlon Dumas, Arthur HM Ter Hofstede, and Wil MP Van der Aalst. From bpmn process models to bpel web services. In 2006 IEEE International Confe- rence on Web Services (ICWS’06), pages 285–292. IEEE, 2006.
• Sumit Misra, Sanjoy Kumar Saha, and Chandan Mazumdar. Performance compari- son of hadoop based tools with commercial etl tools–a case study. In International Conference on Big Data Analytics, pages 176–184. Springer, 2013.
• Neepa Biswas, Samiran Chattapadhyay, Gautam Mahapatra, Santanu Chatter- jee, and Kartick Chandra Mondal. A new approach for conceptual extraction- transformation-loading process modeling. International Journal of Ambient Com- puting and Intelligence (IJACI), 10(1) :30–45, 2019.
• Xin Luna Dong and Divesh Srivastava. Big data integration. In 2013 IEEE 29th international conference on data engineering (ICDE), pages 1245–1248. IEEE, 2013.
• Qu’est-ce que l’integration des donnees. https://zipreporting.com/fr/ data-integration/what-is-data-integration.html, April 05 2021.
• Qu’est-ce que l’int´egration de donn´ees ? https://www.talend.com/fr/resources/ what-is-data-integration/, 2022.
• La R´edaction TechTarget. Base de donn´ees relationnelle. https://www.lemagit. fr/definition/Base-de-donnees-relationnelle, aouˆt 2014.
• Genevi`eve PUJOLLE Gilles ZURFLUH Claude CHRISMENT, Jacques LUGUET. Base de donn´ees relationnelle. https:// www.techniques-ingenieur.fr/base-documentaire/archives-th12/
archives-technologies-logicielles-et-architecture-des-systemes-tiahb/ archive-1/bases-de-donnees-relationnelles-h2038/
qu-appelle-t-on-sgbdr-h2038niv10007.html#:~:text=Un%20syst%C3%A8me% 20de%20gestion%20de,les%20principes%20du%20mod%C3%A8le%20relationnel., 10 f´evr 1997.
• David S. Bases de donn´ees relationnelles : Tout ce qu’il y a `a savoir. https:// datascientest.com/bases-de-donnees-relationnelles, 3 juin 2021.
• Qu’est-ce que gav (global as view) ? https://www.geeksforgeeks.org/ what-is-gav-global-as-view/?ref=lbp, 24 avril 2020.
• Bendida sihem Amer fatima. vers une approche d’int´egration des base de donn´ees h´et´erog`enes via les m´eta-shc´ema XML. PhD thesis, Universit´e Dr. Tahar Moulay Saida, 2017.
• Local comme vue (lav). https://www.geeksforgeeks.org/local-as-view-lav/, 17 aouˆt 2020.
• Mohand-Said Hacid and Chantal Reynaud. L’int´egration de sources de donn´ees.
Revue Information-Interaction-Intelligence, 3(4), 2004.
• https://www.redhat.com/fr/topics/integration/what-is-.
• https://www.axysweb.com/integration-applications-eai-esb/.
• C. Desrosiers S. Chafki. Mti820 acetates etl 1pp. , 2011.
• Lahmar Fatima ´epouse Boul¸cane. Une approche hybride d’int´egration de sources de donn´ees h´et´erog`enes dans les datawarehouses. Universit´e Mentouri de Constantine Facult´e des Sciences de l’Ing´enieur, 2011.
• Gabriel Chandesris. Syst`emes d’int´egration de donn´ees en biologie.
• Bastien L. Data warehouse (entrepoˆt de donn´ees) d´efinition : qu’est-ce que c’est ?) ? https://www.lebigdata.fr/data-warehouse-entrepot-donnees-definition, 14 f´evrier 2018.
• https://www.astera.com/fr/type/blog/data-warehouse-architecture/.
• Margot. Data warehouse : qu’est-ce que c’est et comment les utiliser ? https:
//datascientest.com/data-warehouse, 3/2 2021.
• La R´edaction JDN. https://www.journaldunet.fr/business/ dictionnaire-du-marketing/1198305-etl-outils-definition-traduction/, 03 F´evrier 2019.
• https://www.next-decision.fr/wiki/outil-etl-script.
• https://www.talend.com/fr/resources/elt-tools/.
• https://hevodata.com/learn/streaming-etl/.
• https://hevodata.com/learn/data-pipeline/.
• Dimitrios Skoutas and Alkis Simitsis. Ontology-based conceptual design of etl pro- cesses for both structured and semi-structured data. International Journal on Se- mantic Web and Information Systems (IJSWIS), 3(4) :1–24, 2007.
• Xiufeng Liu, Christian Thomsen, and Torben Bach Pedersen. Etlmr : a highly scalable dimensional etl framework based on mapreduce. In International Conference on Data Warehousing and Knowledge Discovery, pages 96–111. Springer, 2011.
• Pablo Michel Mar´ın-Ortega, Viktor Dmitriyev, Marat Abilov, and Jorge Marx G´o- mez. Elta : new approach in designing business intelligence solutions in era of big data. Procedia technology, 16 :667–674, 2014.
• Mahfoud Bala, Omar Boussaid, Zaia Alimazighi, and Fadila Bentayeb. Pf-etl : vers l’int´egration de donn´ees massives dans les fonctionnalit´es d’etl. In Inforsid, pages 61–76, 2014.
• Mahfoud Bala, Oussama Mokeddem, Omar Boussaid, and Zaia Alimazighi. Une plateforme etl parall`ele et distribu´ee pour l’int´egration de donn´ees massives. In EGC, pages 455–460, 2015.
• Shu-Sheng Guo, Zi-Mu Yuan, Ao-Bing Sun, and Qiang Yue. A new etl approach based on data virtualization. Journal of Computer Science and Technology, 30(2) :311–323, 2015.
• Mahfoud Bala, Omar Boussaid, and Zaia Alimazighi. Extracting-transforming- loading modeling approach for big data analytics. International Journal of Decision Support System Technology (IJDSST), 8(4) :50–69, 2016.
• Hana Mallek, Faiza Ghozzi, Olivier Teste, and Faiez Gargouri. Bigdimetl : Etl for multidimensional big data. In International Conference on Intelligent Systems Design and Applications, pages 935–944. Springer, 2016.
• Hana Mallek, Faiza Ghozzi, and Faiez Gargouri. Towards extract-transform-load ope- rations in a big data context. International Journal of Sociotechnology and Knowledge Development (IJSKD), 12(2) :77–95, 2020.
• Neepa Biswas, Samiran Chattopadhyay, Gautam Mahapatra, Santanu Chatterjee, and Kartick Chandra Mondal. Sysml based conceptual etl process modeling. In International Conference on Computational Intelligence, Communications, and Bu- siness Analytics, pages 242–255. Springer, 2017.
• Db browser for sqlite. https://sqlitebrowser.org/.
• Db browser for sqlite. https://www.python.org/.
.