La détection de la contamination des sols le long de la rivière Mura révèle des niveaux alarmants de métaux lourds, mettant en lumière l’impact d’anciennes décharges. Cette étude innovante propose des solutions de phytoremédiation, essentielles pour la réhabilitation environnementale dans une région en crise.
- Test de Kolmogorov – Smirnov
- Principe de la méthode
- Test de Kolmogorov – Smirnov
Les statistiques développent des techniques et des méthodes qui permettent d’analyser les données issues de l’observation, afin de cerner les caractéristiques de la population concernée et d’identifier un modèle ou loi capable d’engendrer ces données.
Dans ce cadre, on est amené à faire des tests avec des hypothèses, c’est-à-dire à émettre des assertions concernant ces caractéristiques ou ce modèle.
Un test statistique est un procédé d’inférence : son but est d’énoncer des propriétés de la population en s’appuyant sur un échantillon d’observations. A l’aide d’un test, on construit aussi des intervalles de confiance qui expriment le degré d’incertitude associé à une simulation.
L’objectif du test est de répondre à des problèmes décisionnels dans un environnement incertain.
Un test d’adéquation permet de statuer sur la compatibilité d’une distribution observée avec une distribution théorique associée à une loi de probabilité. Il s’agit de modélisation.
Nous résumons une information brute, une série d’observations, à l’aide d’une fonction analytique paramétrée. L’estimation des valeurs des paramètres est souvent un préalable au test de conformité. Au-delà de la simplification, ce test permet de valider une appréhension du processus de formation des données, il permet de savoir si notre perception du réel est compatible avec ce que nous observons.
Un test est dit paramétrique s’il se rapporte aux paramètres d’une loi. Il est dit non paramétrique dans les autres cas. Un test paramétrique est dit simple s’il est associé à une valeur unique. Elle est dite multiple dans les autres cas.
Le plus souvent, la situation se résume en une alternative constituée de deux hypothèses H0 et Ha, qui s’excluent mutuellement et qui sont appelées respectivement l’hypothèse nulle, ou fondamentale, et l’hypothèse alternative, ou contraire.
En général, les hypothèses H0 et Ha ne jouent pas des rôles symétriques, et on choisit pour hypothèse nulle H0 l’hypothèse à laquelle on croit ou on tient, ou encore celle qui permet de faire des calculs, ou encore celle dont le rejet est lourd de conséquences. Plusieurs tests sont utilisés pour vérifier ces hypothèses. Et dans le cadre ce travail, nous avons utilisé le test non paramétrique de Kolmogorov – Smirnov. Ce test est réputé rigoureux par rapport aux tests de Q – Q plot et P – P plot.
Le test d’ajustement de Kolmogorov-Smirnov est un test non paramétrique qui permet de tester l’hypothèse H0 selon laquelle les données observées sont engendrées par une loi de probabilité théorique considérée comme étant un modèle convenable. Dans ce test, les calculs sur les lois de probabilité se font sur les fonctions de répartition : on mesure l’écart entre la fonction de répartition théorique et la fonction de répartition observée.
On considère ainsi une variable aléatoire X de fonction de répartition F, que l’on veut comparer à une fonction de répartition théorique F0 continue.
On souhaite tester :
- l’hypothèse nulle H0 : F = F0 ;
- l’hypothèse alternative Ha : F ≠ F0.
La fonction de répartition empirique associée à l’échantillon est donnée par :
𝒏
𝟏
𝑭𝒏(𝒙) = 𝒏 ∑ 𝟏 ]∞, 𝒙](𝒙𝒌)
𝒌=𝟏
- Fn(x) est la proportion des observations dont la valeur est inférieure ou égale à x.
C’est une fonction en escalier, croissante, qui saute de 1/n en chaque point de l’échantillon.
L’écart entre les valeurs observées et les valeurs théoriques du modèle déduites de la fonction de répartition F0 peut donc être mesuré par la variable aléatoire :
𝑆𝑢𝑝
𝐷𝑛 = √𝑛 ∗ 𝑥 ∈ 𝑅 |𝐹𝑛(𝑥) − 𝐹0(𝑋)|
Dn : est la statistique de Kolmogorov Smirnov ou variable de décision du test.
Pour cette étude, les hypothèses à tester, pour tous les éléments analysés, sont les suivantes :
- Hypothèse nulle H0 : L’échantillon suit une loi Normale ;
- Hypothèse alternative Ha : L’échantillon ne suit pas une loi Normale.
IV.4.2.2.Résultats de test et courbe cumulative connexe
Ces résultats sont présentés sous forme de tableaux (tableau IV.3 à IV.7) et des courbes cumulatives (fig. IV.3 à IV.7).
- Cuivre
Tableau IV.3. Représentation statistique du Cuivre
Statistiques descriptives : | |||||||
Variable | Observations | Obs. avec données manquantes | Obs. sans données manquantes | Minimum | Maximum | Moyenne | Ecart- type |
Cu | 50 | 0 | 50 | 0,33 | 1,85 | 0,578 | 0,123 |
Test de Kolmogorov-Smirnov : | |
D | 0,123 |
p-value | 0,592 |
Alpha | 0,05 |
Interprétation du test :
H0 : L’échantillon suit une loi Normale
Ha : L’échantillon ne suit pas une loi Normale
Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha = 0,05, on ne peut pas rejeter l’hypothèse nulle H0.
Le risque de rejeter l’hypothèse nulle H0 alors qu’elle est vraie est de 24,00%.
Fonctions de répartition
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0,200 0,400 0,600 0,800 1,000 1,200 1,400 1,600
Cu
Normale(0,821;0,297)
Cu
Fréquence cumulée
Figure IV.3. Courbe de variation du Cuivre
- Cobalt
Tableau IV.4. Représentation statistique du Cobalt
Statistiques descriptives : | |||||||
Variable | Observations | Obs. avec données manquantes | Obs. sans données manquantes | Minimum | Maximum | Moyenne | Ecart- type |
Co | 50 | 0 | 50 | 0 | 0,24 | 0,021 | 0,011 |
Test de Kolmogorov-Smirnov : | |
D | 0,011 |
p-value | 0,995 |
Alpha | 0,05 |
Interprétation du test :
H0 : L’échantillon suit une loi Normale
Ha : L’échantillon ne suit pas une loi Normale
Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha = 0,05, on ne peut pas rejeter l’hypothèse nulle H0.
Le risque de rejeter l’hypothèse nulle H0 alors qu’elle est vraie est de 0,01%.
Fonctions de répartition
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,05
0,1
Co
0,15
0,2
Co Normale(0,115;0,035)
Fréquence cumulée
Figure IV.4. Courbe de variation du Cobalt
- Le Fer
Tableau IV.5 Représentation statistique de Fer
Statistiques descriptives : | |||||||
Variable | Observations | Obs. avec données manquantes | Obs. sans données manquantes | Minimum | Maximum | Moyenne | Ecart- type |
Fer | 50 | 0 | 50 | 2,03 | 6,33 | 1,27 | 1,071 |
Test de Kolmogorov-Smirnov :
D | 1,071 |
p-value | 0,021 |
Alpha | 0,05 |
Interprétation du test :
H0 : L’échantillon suit une loi Normale
Ha : L’échantillon ne suit pas une loi Normale
Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l’hypothèse nulle H0, et retenir l’hypothèse alternative Ha.
Le risque de rejeter l’hypothèse nulle H0 alors qu’elle est vraie est inférieur à 76,53%.
Fonctions de répartition
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1
2
3
4
5
Fe
6
7
8
9
Fe Normale(3,065;1,256)
Fréquence cumulée
Figure IV.5. Courbe de variation de Fer
- Le Plomb
Tableau IV.6 Représentation statistique du plomb
Fréquence cumulée
Statistiques descriptives : | |||||||
Variable | Observations | Obs. avec données manquantes | Obs. sans données manquantes | Minimum | Maximum | Moyenne | Ecart- type |
Plomb | 50 | 0 | 50 | 0,052 | 0,613 | 0,0031 | 0.0024 |
Test de Kolmogorov-Smirnov : | |
D | 0,0024 |
p-value | < 0,0001 |
alpha | 0,05 |
Interprétation du test :
H0 : L’échantillon suit une loi Normale
Ha : L’échantillon ne suit pas une loi Normale
Etant donné que la p-value calculée est inférieure au niveau de signification alpha = 0,05, on doit rejeter l’hypothèse nulle H0, et retenir l’hypothèse alternative Ha.
Le risque de rejeter l’hypothèse nulle H0 alors qu’elle est vraie est inférieur à 2,13%.
Fonctions de répartition
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,05
0,1
0,15
Pb
Pb Normale(0,017;0,029)
Figure IV.6. Courbe de variation de Plomb
- Le Zinc
Tableau IV.7 Représentation statistique du Zinc
Statistiques descriptives : | |||||||
Variable | Observations | Obs. avec données manquantes | Obs. sans données manquantes | Minimum | Maximum | Moyenne | Ecart- type |
Fer | 50 | 0 | 50 | 0,529 | 9,8 | 1,613 | 1.003 |
Test de Kolmogorov-Smirnov : | |
D | 1,003 |
p-value | 0,640 |
Alpha | 0,05 |
Interprétation du test :
H0 : L’échantillon suit une loi Normale
Ha : L’échantillon ne suit pas une loi Normale
Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha = 0,05, on ne peut pas rejeter l’hypothèse nulle H0.
Le risque de rejeter l’hypothèse nulle H0 alors qu’elle est vraie est de 99,54%.
Fréquence cumulée
Figure IV.7. Courbe de variation de Zinc
Fonctions de répartition
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0,01
0,02
0,03
0,04
Zn
0,05
0,06
0,07
Zn Normale(0,034;0,011)
Questions Fréquemment Posées
Qu’est-ce que le test de Kolmogorov-Smirnov?
Le test d’ajustement de Kolmogorov-Smirnov est un test non paramétrique qui permet de tester l’hypothèse H0 selon laquelle les données observées sont engendrées par une loi de probabilité théorique considérée comme étant un modèle convenable.
Comment fonctionne le test de Kolmogorov-Smirnov?
Dans ce test, les calculs sur les lois de probabilité se font sur les fonctions de répartition : on mesure l’écart entre la fonction de répartition théorique et la fonction de répartition observée.
Quels sont les objectifs du test de Kolmogorov-Smirnov dans cette étude?
Pour cette étude, les hypothèses à tester sont que l’échantillon suit une loi Normale (hypothèse nulle H0) et que l’échantillon ne suit pas une loi Normale (hypothèse alternative Ha).