Implications politiques des algorithmes de détection de véhicules

Les implications politiques de la détection de véhicules révèlent des enjeux cruciaux pour la sécurité routière. Cette étude comparative met en lumière les performances de YOLOv5 et Faster R-CNN, avec des résultats surprenants qui pourraient transformer les stratégies de gestion du trafic.

Chapitre III : Conception et implémentation

Table des matières

Introduction

Dans ce chapitre, nous allons présenter les différentes étapes de la conception et de l’implémentation pour détecter des différents véhicules (voiture, bus, motocycle et camion) dans une séquence d’images avec un langage adéquat (dans notre cas Python), ainsi que les bibliothèques utilisées, les différents tests réalisés, les résultats obtenus, et une comparaison entre les deux algorithmes de l’apprentissage profond utilisés dans notre travail (YOLO V5 et Faster R-CNN).

Conception

Choix des algorithmes

- - 1. YOLOv5

YOLO diminutif anglais de « You Only Look Once » est un algorithme de détection d’objets en temps réel dans des vidéos, des flux en direct ou des images, basé sur l’apprentissage en profondeur les plus populaires.

En tant que détecteur à un étage, YOLO utilise les caractéristiques de l’image entière pour prédire chaque boîte englobante. Il est très rapide au moment du test car il n’utilise qu’une seule architecture CNN pour prédire les résultats et la classe est définie de manière à traiter la classification comme un problème de régression, ce qui le rend beaucoup plus rapide que Faster R-CNN.

Le premier détecteur que nous avons testé pour la détection des véhicules est la version 5 de ce modèle. L’aspect limitant et désavantageux de l’algorithme YOLO est :

Lutte pour détecter de petits objets ;
Difficile de détecter les objets proches car chaque grille ne peut proposer que 2 boites englobante ;
Plus d’erreurs de localisation par rapport à Faster R-CNN.
- - 1. Faster R-CNN

Le second détecteur testé est l’algorithme Faster R-CNN diminutif de « Région et CNN plus rapide » il est parmi les meilleurs détecteurs à deux étages, il atteint la plus haute précision de détection d’objet mais avec une vitesse très lente par rapport à YOLO, cela signifie que le processus de génération des propositions de régions rend la vitesse bien inférieure aux exigences de la détection en temps réel.

L’inconvénient majeur du Faster R-CNN était son coût de calcul élevé.

Architecture YOLO

L’architecture du YOLO est composée de 24 couches de convolution (figure 19) suivi de deux couches entièrement connectées (Fully-Connected Layers), la dimension des images d’entrée est de 448×448. [Khelalef, 2020]

[9_implications-politiques-des-algorithmes-de-detection-de-vehicules_17]

Figure 19: Architecture de YOLO. [Redmon et al, 2016]

Le principe du modèle est basé sur l’utilisation d’une succession de couches de convolution avec différentes tailles et nombre de filtres, cette architecture permet de diviser l’image en plusieurs zones qui englobent les différents objets ou portions d’objets dans l’image, l’application d’un seuillage des probabilités de chaque classe dans chaque zone permet de conserver uniquement les zones englobantes représentatives qui limitent les objets.

[9_implications-politiques-des-algorithmes-de-detection-de-vehicules_18]

Figure 20: Principe de l’algorithme YOLO. [Redmon et al, 2016]

Plusieurs versions du YOLO ont été proposées à ce jour, chaque version a pour but d’améliorer les performances du modèle en matière de rapidité et taux de classification. Yolov5 ressemble presque à Yolov4 avec quelques différences suivantes : [Khelalef, 2020]

Yolov4 est publié dans le framework Darknet, Yolov5 est basé sur le framework PyTorch. [Surya, 2022]
Yolov4 utilise .cfg pour la configuration tandis que Yolov5 utilise le fichier .yaml. Tous les modèles de base de YOLO ont été entraînés sur la base de données de COCO, mais il existe dans la littérature d’autres modèles entraînés sur d’autres bases de données telles que ImageNet de Google. [Khelalef, 2020]

Architecture R-CNN

Ce modèle combine des propositions de région avec des réseaux de neurones convolutifs pour détecter des objets dans une image via des bounding boxes (figure 21). La première étape de la détection et de générer des propositions de régions indépendantes des catégories contenant des objets probables. Au lieu de l’image entière, ces propositions sont transmises à un neurone convolutif profond du réseau qui renvoie un vecteur d’entité pour chaque proposition de région. La dernière étape est de passer ce vecteur à travers un ensemble de machines à vecteurs de support linéaire spécifiques à une classe (SVM). [KAZI TANI L., 2020]

Bien que R-CNN ait surpassé des architectures similaires, il y avait encore des lacunes. Le plus gros était la lenteur. Elle est causée principalement par trois éléments : la propagation directe à travers le CNN (chaque région de chaque image doit être passé séparément), par son triplet d’apprentissage (un réseau de génération de caractéristiques d’images, un réseau pour la décision de classe et le modèle de régression du Bounding Box), et par la génération de propositions de Bounding Boxes. [KAZI TANI L., 2020]

[9_implications-politiques-des-algorithmes-de-detection-de-vehicules_19]

Figure 21: Architecture R-CNN. [Girshick et al., 2014]

Architecture Fast R-CNN

La raison principale d’une nouvelle architecture était d’accélérer le R-CNN, Ross Girshick a réussi à donner naissance à une nouvelle architecture nommée Fast R-CNN (figure 22). Outre l’objectif principal d’éviter les deux premiers problèmes, il améliore également sa précision.

Le premier problème, la propagation vers l’avant distincte pour chaque proposition de région, était résolu en propageant l’image entière pour obtenir une feature map avant la proposition de région. Pour chaque proposition d’objet, la feature map extrait un vecteur de caractéristiques de longueur fixe par la couche pooling de regroupement de régions d’intérêt (RoI) (a Region of Interest pooling layer). [KAZI TANI L., 2020]

Pour le deuxième problème, au lieu de trois modèles distincts, toutes les étapes sont jointes en un seul modèle en ajoutant la classification (en utilisant une couche softmax au lieu d’un SVM séparé) et une régression de bounding box en couches parallèles jusqu’à la fin du modèle. [KAZI TANI L., 2020]

[9_implications-politiques-des-algorithmes-de-detection-de-vehicules_20]

Figure 22: L’architecture Fast R-CNN. [GIRSHICK, 2015]

Architecture Faster R-CNN

Le troisième problème de vitesse, qui est la proposition de région basé sur la recherche sélective, a aussi été résolu en 2015 dans une architecture nommée Faster R-CNN.

L’architecture Faster R-CNN illustrée dans la (figure 23) est composée de plusieurs parties importantes. La première est un réseau CNN partagé chargé d’extraire les caractéristiques de l’image traitée. Ensuite, intervient le Region Proposal Network (RPN ou réseau de propositions de régions) dont le rôle est de trouver des propositions de boîtes rectangulaires pouvant contenir l’objet recherché. Enfin, après un regroupement des régions, chaque proposition de boîte retenue fait l’objet d’une classification afin de déterminer de quel chiffre il s’agit. [KAZI TANI L., 2020]

[9_implications-politiques-des-algorithmes-de-detection-de-vehicules_21]

Figure 23: Architecture de FasterR-CNN. [Redmon et al, 2016]

Faster R-CNN a une architecture de deux étages comme VGG16, AlexNet, ResNet ou d’autres pour l’entrainement. Dans notre cas nous avons choisi de travailler avec ResNet-50.

Le tableau 3 donne une comparaison des caractéristiques importantes des modèles que nous avons parcourus.

Tableau 3: Comparaison de R-CNN, Fast R-CNN et Faster R-CNN.
Parameter/Criteria	Description/Value
ResNet-50	Les réseaux résiduels profonds comme le modèle populaire ResNet-50 sont des réseaux neuronaux convolutifs (CNN) de 50 couches de profondeur. Un réseau neuronal résiduel (ResNet) est un réseau neuronal artificiel (ANN) d’un type qui empile des blocs résiduels les uns sur les autres pour former un réseau. [Gaudenz Boesch, 2022]
ResNet	ResNet, abréviation de Residual Networks, est un réseau de neurones classique utilisé comme colonne vertébrale pour de nombreuses tâches de vision par ordinateur. La percée fondamentale avec ResNet a été qu’il nous a permis de former des réseaux de neurones extrêmement profonds avec plus de 150 couches. [Aditi Rastogui, 2022]

[9_implications-politiques-des-algorithmes-de-detection-de-vehicules_22]
[9_implications-politiques-des-algorithmes-de-detection-de-vehicules_23]

Figure 24: L’architecture du ResNet-50. [Aditi Rastogui, 2022]

Les réseaux de neurones convolutifs présentent un inconvénient majeur « Vanishing Gradient Problem » le problème de gradient de disparition. Pendant la rétropropagation, la valeur du gradient diminue de manière significative, donc pratiquement aucun changement ne vient aux poids. Pour surmonter cela, ResNet est utilisé. Il utilise « SKIP CONNECTION ».

SKIP CONNECTION : est une connexion directe qui saute certaines couches du modèle. La sortie n’est pas la même en raison de ce saut de connexion. [Aditi Rastogui, 2022]

Le problème de gradient de disparition

Dans Machine Learning, le problème de gradient de disparition est rencontré lors de la formation de réseaux de neurones avec des méthodes basées sur le gradient (exemple, rétropropagation). Ce problème rend difficile l’apprentissage et le réglage des paramètres des couches antérieures du réseau.

Le problème des gradients de fuite est un exemple de comportement instable qu’on peut rencontrer lors de la formation d’un réseau neuronal profond. [Dinesh Kumar, 2020]

Ce problème est causé par la dérivée de la fonction d’activation utilisée pour créer le réseau de neurones.

La solution la plus simple au problème consiste à remplacer la fonction d’activation du réseau. Car le problème peut être pire dans les réseaux de neurones profonds utilisant la fonction d’activation sigmoïde, cependant au lieu de sigmoïde, utilisez une fonction d’activation telle que ReLU. [Tina Jacob, 2022]

________________________

² Définition donnée par l’article 62 de la loi sur les nouvelles régulations économiques (NRE) du 15 mai 2001. ↑

³ Auchan Les 4 Temps, La Défense. ↑

Questions Fréquemment Posées

Quels sont les algorithmes comparés pour la détection de véhicules ?

L’étude compare les performances des modèles YOLOv5 et Faster R-CNN dans le cadre de la vision par ordinateur.

Quelle est la précision de Faster R-CNN pour la détection de véhicules ?

Les résultats montrent que Faster R-CNN obtient les meilleures performances avec une précision de 89%.

Quels sont les avantages et inconvénients de l’algorithme YOLOv5 ?

L’algorithme YOLOv5 est très rapide au moment du test, mais il lutte pour détecter de petits objets et a plus d’erreurs de localisation par rapport à Faster R-CNN.

Quelles sont les implications politiques des algorithmes de détection de véhicules ?