Accueil » Analytique des données dans les projets de développement en Afrique » Analytique des données et prise de décision fondée sur les preuves

Analytique des données et prise de décision fondée sur les preuves

Cet article explore l’analytique des données et la prise de décision fondée sur les preuves, en clarifiant des concepts clés et en identifiant des tendances pertinentes dans le domaine.

Qualité des données : enjeux et modèles d’évaluation. Découvrez les différentes sources de données, y compris les directes, indirectes et alternatives, qui jouent un rôle crucial dans la collecte d’informations précises et complètes. Sources de données : directes, indirectes et alternatives. Cet article examine la définition de la qualité des données selon Statistique Canada et son impact sur le développement, révélant des modèles d’évaluation critiques pour une utilisation efficace des données.

Analytique des données et prise de décision fondée sur les preuves : compréhension théorique et conceptuelle

Ce chapitre est une étape essentielle dans le cadre de notre travail de recherche, en ce sens qu’il permet d’explorer les travaux antérieurs, de clarifier les concepts clés, d’identifier les tendances et de détecter les lacunes en lien avec notre sujet de recherche.

De ce fait, dans les lignes suivantes, nous établirons les définitions et le contexte retenu pour les termes clés. Ensuite, nous ferons la présentation de l’épistémologie mobilisée relative à l’analytique des données. Enfin, nous aborderons la notion de prise de décision fondée sur les preuves.

Les données

Avec l’évolution continue de l’internet et du web, l’utilisation des données (data en Anglais) a pris de plus en plus d’ampleur au cours des dix (10) dernières années (Taylor, 2022). Selon les statistiques publiées par Statista qui ont été reprises par the World Economic Forum, la quantité de données générées, copiées et consommées dans le monde en 2022 est estimée à 97 zettabytes28 par jour, soit une augmentation de 137 % par rapport à la quantité observée en 2019, juste avant la pandémie de Covid-19.

Analytique des données et prise de décision fondée sur les preuves

Ainsi, en cinq (5) ans (de 2017 à 2022), cette quantité a été multipliée par 3.7329. Cette augmentation exponentielle s’explique par une utilisation accrue des objets connectés et le développement sans précédent de l’internet des objets. Cette hausse est également attribuable au télétravail, à l’apprentissage à distance ainsi qu’à la consommation croissante de contenus divertissants en ligne30.

Définition et caractérisation des données

En dépit de son utilisation considérable, le concept de données reste très vague pour certains et très peu de personnes savent vraiment le définir. Sa définition pose des problèmes autant pour les utilisateurs que pour les chercheurs, en ce sens que de nombreux ouvrages sur le sujet évitent tout simplement la question de sa définition (Rivière, 2020).

De la définition du concept de données

Le terme « données », de l’Anglais « data », au pluriel, et datum, au singulier, vient du mot latin dare, lequel signifie donner. Pour Becker (1952), le choix de ce terme constitue une erreur historique en ce sens que les données (data) ne sont pas données aux scientifiques mais sont plutôt capturées par ces derniers selon leur besoin. Ainsi, le mot correct aurait dû être capta (captum au singulier) pour désigner les éléments capturés par le chercheur.

La notion de données est utilisée dans plusieurs disciplines, notamment dans le domaine de la Statistique, dans le domaine de la recherche scientifique ainsi que dans le domaine des Technologies de l’Information.

Dans chacune de ces disciplines, elle se définit suivant la forme qu’elle peut prendre et de l’utilisation qu’on en fait. Selon Zins (2007), il est possible de trouver plus de quarante-quatre (44) définitions du concept de données selon l’expérience des chercheurs. Toutefois, dans une perspective de concision et de simplification, nous avons retenu, dans le cadre de notre étude, la définition de ce concept suivant son utilisation dans les trois domaines susmentionnés.

Dans le domaine des Technologies de l’Information, on définit les données comme des informations sous forme électronique pouvant être stockées et traitées par un ordinateur (Walter, 2011).

Dans la recherche scientifique, les données sont des éléments concrets, notamment des chiffres, des textes, des images et des sons, servant de sources primaires d’information et considérés comme étant indispensables pour valider les conclusions d’un travail de recherche (OECD, 2007).

Dans le domaine de la Statistique, les données désignent des éléments tangibles comme des faits, des chiffres ou des observations qui sont collectés sous différentes formes (images, sons, textes, mesures physiques) et qui sont ensuite traités et analysés pour fournir des conclusions (Statistique Canada, 2021).

1 zettabyte (ZB) correspond à 1,000,000,000,000 gigabytes (GB)

Taylor, P. (2022). Data growth worldwide 2010-2025. Statista .

The World Economic Forum. (17 avril 2019). How much data is generated each day? World Economic Forum .

Comme nous pouvons le constater, la première définition est assez vague et élémentaire. A l’inverse, les deux dernières sont plus spécifiques et mettent l’accent sur l’utilité des données. La similarité entre les deux dernières définitions n’est guère étonnante tenant compte du fait que les méthodes statistiques sont très utilisées dans le cadre des travaux de recherche. De ce fait, nous retenons la toute dernière définition, étant donné son caractère complet et du fait qu’elle met en évidence la prise de décision et l’analytique des données, deux dimensions qui nous intéressent en particulier dans le cadre de cette étude. La suite du travail s’intéressera donc au concept de données pris dans le sens statistique du terme.

Les sources de données

Les données peuvent être collectées de différentes manières. Selon la méthode utilisée ou l’intention sous-jacente à cette collecte, on peut distinguer les sources directes et les sources indirectes ainsi que les sources primaires et les sources secondaires de données31.

Chesnais, J.-C. (2010). La démographie et ses sources : Vol. 7e éd. (p. 5‑19). Presses Universitaires de France. https://www.cairn.info/la-demographie–9782130586104-p-5.htm

On parle de sources directes et sources indirectes de données pour se référer à la méthode de collecte utilisée selon le degré de précision et de granularité souhaité. Dans un tel cas, on peut citer les recensements de population et les enquêtes-échantillons, aussi appelées enquêtes par sondage, comme sources directes en ce sens qu’ils permettent une manipulation délibérée des données collectées. A l’inverse, les statistiques d’état civil et les registres administratifs sont considérés comme des sources indirectes compte tenu de leur manque de souplesse et les limitations relatives à leur manipulation32.

Les sources primaires et secondaires, quant à elles, font allusion aux motivations initiales qui sont à l’origine de l’exercice de collecte. En effet, si les données sont spécifiquement recueillies dans l’intention de générer des indicateurs ou de conduire des analyses statistiques sur un phénomène précis, on parle de données provenant de sources primaires.

Ces sources renferment généralement des données brutes qui n’ont pas encore subi de modifications. Les sources directes et les sources indirectes en sont des exemples. En revanche, les sources secondaires comprennent des données qui ont été collectées, agrégées et modélisées dans d’autres circonstances mais qui sont disponibles sous forme de résultat pour une réutilisation. Comme exemples, nous pouvons citer, entre autres, les rapports d’étude, les tableaux de bord et les bulletins d’information (Pupion, 2012).

Il existe également d’autres sources de données qui sont très utilisées dans la pratique mais peu relayées dans la littérature. Ces sources de données, appelées sources alternatives, sont généralement utilisées en complémentarité avec les sources traditionnelles mentionnées précédemment. Cela se fait dans le but de déceler des tendances dissimulées et de produire des analyses plus approfondies. Selon Kaljuvee (2019), ces sources peuvent inclure :

  • les individus qui produisent d’importantes quantités de données par le biais de leur navigation en ligne, de leurs publications sur le web, ainsi qu’en utilisant des applications sur leurs smartphones et ordinateurs ;
  • les institutions qui génèrent de grandes quantités de données à partir de leurs processus opérationnels ;
  • les capteurs qui collectent et fournissent en permanence des données satellitaires, géospatiales et thermodynamiques ;
  • les portails de données ouvertes (open data) accessibles en ligne dont les données peuvent être librement réutilisées ou republiées.

Les sources alternatives prennent de plus en plus d’ampleur avec une production de données qui croit exponentiellement depuis 2009. Ces données comportent un volume d’information très important et constituent ce que nous appelons les mégadonnées ou les données massives ou tout simplement les Big data (Zakir et al., 2015).

Idem

Typologie de données

Selon le phénomène sous étude, le domaine d’intérêt ou les sources de collecte choisies, les données peuvent être classées en plusieurs types (Chalmer, 2020). On distingue, à cet effet :

  • les données structurées qui représentent des données collectées de manière organisée par le biais d’outils de collecte bien définis (questionnaire, formulaire, variable, etc..), et les données non structurées qui sont collectées d’une manière non standardisée et pour lesquelles des traitements additionnels sont nécessaires ;
  • les données dites quantitatives qui sont exprimées sous une forme quantifiable, et les données dites qualitatives qui sont exprimées, entre autres, sous forme de mots, de symboles, de code, d’image ou de son ;
  • les données primaires qui sont des données nouvellement collectées en vue d’observer un phénomène précis, et les données secondaires qui correspondent à des données préexistantes qui ont été collectées par d’autres institutions à d’autres fins mais qui sont accessibles pour une réutilisation.

On distingue également d’autres catégorisations selon le domaine (données démographiques, économiques, sociales ou sanitaires), selon le niveau de confidentialité (données privées ou publiques) ou selon le droit d’accès (données libres ou protégées).

Différence entre données, informations et insights

Dans le domaine de la Gestion des connaissances (Knowledge Management), on utilise le modèle DIKW ou la pyramide DIKW pour faire la distinction entre les termes donnée, information, connaissance et sagesse. En revanche, bien que le terme insights soit souvent traduit en Français par connaissances, la pyramide DIKW ne reste pas bien valide dans le domaine de la science des données pour établir la différence entre données, informations et insights (Liew, 2013). Ainsi, pour établir cette distinction, nous avons retenu l’approche d’analytique des données qui considère les données comme des faits immuables.

À partir de ces faits, des tendances sont extraites pour les rendre plus utiles, créant ainsi ce que l’on appelle des informations. A partir de ces informations, des possibilités d’actions peuvent être révélées, lesquelles sont appelées des insights. C’est ce dernier élément qui est souvent utilisé pour guider la prise de décision dans une approche d’analytique des données (Rushton, 2019).

La qualité des données

Le Bureau du recensement des États-Unis (The U.S. Census Bureau) fournit une définition très statistique du concept de la qualité des données. Dans leur document de conception et de méthodologie d’enquêtes (Survey Design and Statistical Methodology), il définit la qualité des données comme les informations sur les erreurs d’échantillonnage et les erreurs non dues à l’échantillonnage, ainsi que les rapports statistiques associés et les ajustements destinés à quantifier et à prendre en compte ces erreurs. Cette définition de haut niveau concerne surtout les enquêtes et fait allusion aux notions de marge d’erreur et de niveau de confiance.

Dans la norme ISO 9000:2015 : Systèmes de management de la qualité Principes essentiels et vocabulaire, le concept de qualité est défini comme l’ensemble des caractéristiques d’un produit ou d’un service qui témoignent de son aptitude à satisfaire des besoins exprimés ou implicites. Cette définition, quoique n’ayant pas mis l’accent sur les données, constitue la base des définitions pratiques qui ont été fournies au concept de la qualité des données.

Statistique Canada a été l’une des premières institutions à avoir formulé une définition explicite et pratique de la qualité des données. Selon elle, par données de qualité, on entend des données en adéquation avec les besoins des utilisateurs. De ce fait, la qualité des données correspond au degré auquel les besoins en utilisation de données sont satisfaits. Pour en mesurer ce degré de satisfaction, c’est-à-dire la qualité des données, Statistique Canada a établi les six (6) critères suivants :

  1. l’accessibilité qui désigne le niveau d’aise avec laquelle les utilisateurs peuvent accéder aux données ;
  2. la cohérence qui correspond au degré de connexion logique et de consistance mutuelle entre les données ;
  3. l’exactitude qui représente le niveau de proximité entre les données observées et les estimations ou les descriptions obtenues ;
  4. la pertinence qui décrit le potentiel des données collectées pour combler les besoins en informations servant à soutenir la prise de décision ;
  5. l’intelligibilité qui reflète la facilité avec laquelle les utilisateurs peuvent comprendre, utiliser et analyser les données ;
  6. l’actualité qui évalue le temps écoulé entre l’instant auquel les données sont rendues publiques et la période durant laquelle le phénomène qu’elles décrivent a été effectivement observé.

Ce modèle de définition de la qualité des données représente une référence et a été repris et réadapté par plusieurs autres institutions.

L’OCDE, dans son cadre de qualité pour les activités statistiques (Quality framework for OECD statistical activities), reprend exactement le même modèle de Statistique Canada en y ajoutant la crédibilité pour construire son modèle à sept (7) critères.

L’Eurostat a repris la même logique que l’OCDE et a également développé un modèle à sept (7) critères en ajoutant la comparabilité au modèle de Statistique Canada.

Le Fonds monétaire international (FMI), dans son cadre d’évaluation de la qualité des données (data quality assessment framework), a lui aussi développé un modèle à six (6) critères, assez similaire à celui de Statistique Canada, en remplaçant l’intelligibilité par la manipulabilité et l’actualité par la crédibilité.

Figure 3. Comparaison entre les modèles de définition de la qualité des données (Statistique Canada, FMI, OCDE, Eurostat)

Les données et le développement

Selon le Programme des Nations Unies pour le Développement (PNUD), les données sont des éléments puissants avec un potentiel positif significatif pour le domaine du développement. Elles ont le potentiel de fournir des informations de haute qualité et peuvent permettre aux professionnels d’obtenir une compréhension nuancée et approfondie des problèmes et des défis liés au développement. Par conséquent, elles offrent la possibilité de prendre des décisions plus éclairées dans le but de produire des impacts réels (PNUD, 2022).

Selon la Banque mondiale, la contribution des données au développement peut être manifestée et constatée sous diverses formes. On peut citer, entre autres, l’autonomisation des individus, la responsabilisation de l’État et des gouvernements, l’amélioration de la production de biens et de services et l’optimisation des ressources (Cull et al., 2021). Bien que les données soient essentielles dans le domaine du développement, une mauvaise utilisation

de celles-ci peut entraîner des conséquences néfastes sur ce dernier. En effet, une utilisation appropriée des données peut contribuer à l’amélioration des politiques publiques et à la fourniture de services plus adaptés. En revanche, des utilisations inappropriées peuvent avoir pour résultat l’augmentation des activités de cybercriminalité, le monopole économique et l’aggravation des inégalités (The World Bank, 2021).

Figure 4. Effet des données sur le développement selon l’utilisation faite (World Development Report 2021- Data for Better Lives)

Rechercher
Télécharger ce mémoire en ligne PDF (gratuit)

Laisser un commentaire

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top