Comment le cadre théorique révolutionne la détection de véhicules ?

Pour citer ce mémoire et accéder à toutes ses pages
🏫 Université Ain Temouchent Belhadj Bouchaib - Faculté des Sciences et de Technologie - Département des Mathématiques et de l'Informatique
📅 Mémoire de fin de cycle en vue de l'obtention du diplôme de Master - 2021/2022
🎓 Auteur·trice·s
BENZAZOU Aïcha, SAHRAOUI Yasmine Tekfa
BENZAZOU Aïcha, SAHRAOUI Yasmine Tekfa

Le cadre théorique de détection de véhicules révèle que les algorithmes YOLOv5 et Faster R-CNN offrent des performances contrastées, avec Faster R-CNN atteignant une précision impressionnante de 89%. Cette étude met en lumière des techniques innovantes qui pourraient transformer la sécurité routière.


Etat de l’art

      1. Les méthodes de détection et classification des véhicules dans une vidéo
        La détection de véhicule basée sur la vidéo consiste à séparer les véhicules de l’arrière-plan (fond de l’image). Pour cela cette technologie se divise en deux sur deux catégories : celles basées sur les caractéristiques du mouvement du véhicule et celles basées sur les caractéristiques statiques. Le schéma dans la (Figure 4) résume ces deux catégories.

[3_cadre-theorique-detection-de-vehicules-en-video_3]

Foreground (objets-mobiles)

Background (arrière-plan)

Figure 3: Illustration du Background et Foreground (Autoroute Est-Ouest Algérie). [Fardjallah, 2014]

Détection et reconnaissance de véhicule

Détection en mouvements

Détection statique

Avec différence inter-image

Avec modification du fond

Avec la notion de cohérence

Apprentissage profond

Extraction de caractéristique

R-CNN YOLO

Fast R-CNN

Faster R-CNN

Figure 4: Liste des méthodes de détection et de classification des véhicules. [Harianto et al., 2021]

        1. La détection de véhicules en mouvement

Parmi les méthodes de détection de véhicule en mouvement on peut citer :

  • Les détections basées sur la différence inter-images.
  • Les détections basées sur la modélisation du fond.
  • Les détections utilisant la notion de cohérence
Les détections basées sur la différence inter-images

La méthode de détection de mouvement la plus simple consiste à faire la soustraction entre deux images successives. Elle porte aussi le nom de méthode de différence temporelle dans d’autres littératures. Les pixels dont l’intensité résultante est proche de zéro sont assimilés comme étant les pixels du fond. Les méthodes basées sur la différence inter-images s’adaptent très bien aux environnements dynamiques mais laisse des « trous » dans les véhicules en mouvements.

Par exemple, la différence temporelle souillée permet de détecter des véhicules en mouvement dans une séquence vidéo. Une amélioration de cette méthode consiste à extraire trois images de différence au lieu de deux permettant de décider si un pixel a bougé. [Abidi et Slimani, 2016]

[3_cadre-theorique-detection-de-vehicules-en-video_4]

Figure 5: La différence inter-image. [A. Bugeau, 2011]

Les détections basées sur la modélisation du fond

Tout d’abord, la caméra doit être maintenue fixe et les occultations de parties du fond par des objets en mouvement doivent rester temporellement minoritaires. De plus, il est préférable d’avoir, au début de la séquence, un certain nombre d’images sans objets en mouvement afin de pouvoir apprendre correctement le fond. La modélisation du fond, tout comme les méthodes basées sur la détection inter-images, permet de décider si un pixel est en mouvement ou non. [A.Bugeau, 2011]

[3_cadre-theorique-detection-de-vehicules-en-video_5]

Figure 6: Soustraction du fond. [A. Bugeau, 2011]

L’inconvénient de cette approche est la nécessité de conserver en mémoire les images précédentes pour l’estimation. Une implémentation récursive a été proposée ou la valeur médiane est incrémentée de 1 si le pixel est supérieur à sa valeur, et décrémentée de 1 le cas échéant. L’inconvénient est une lente adaptation et demande par conséquent une longue période d’apprentissage. [Fardjallah et Boughazi, 2014]

[3_cadre-theorique-detection-de-vehicules-en-video_6]

Figure 7 : Illustration d’une opération de soustraction d’arrière-plan. [Fardjallah, 2014]

Les détections basées sur la cohérence

Une dernière approche consiste à définir un objet mobile comme une région ayant un mouvement cohérent. Dans ce contexte, un mouvement cohérent peut être défini comme un mouvement ayant de grande chance de provenir d’une “cible” classique (personne, véhicule). Cette définition a été utilisée pour la segmentation de mouvement en ajoutant l’hypothèse suivante : un objet avec un mouvement cohérent se déplace dans une direction approximativement constante pendant une courte période (en pratique quelques images).

Les modèles de mouvement dérivés du flot optique sont utilisés comme primitives pour la détection ou le suivi. Le flot optique a pour rôle de décrire le mouvement cohérent des points entre des images successives, des mesures de flot optique cohérentes en direction sont accumulées pendant quelques pas de temps. Une estimation du déplacement de chaque pixel à travers une séquence d’images est ainsi obtenue. Il est alors possible de distinguer les objets mobiles, qui se déplacent avec une direction constante, des mouvements parasites. Une région cohérente peut être directement vue comme une couche. [Abidi et Slimani, 2016]

[3_cadre-theorique-detection-de-vehicules-en-video_7]

Figure 8: (a) Image originale, (b) Régions en mouvement détectées. [Fardjallah, 2014]

Bien que l’approche basée sur le mouvement soit rapide, elle est fortement gênée par les changements fréquents de contexte, bruit vidéo ou d’autres facteurs, ce qui entraine des trous dans les véhicules et un bruit excessif. [Harianto et al., 2021]

        1. Détection par les caractéristiques d’apparence
Extraction de caractéristiques

L’utilisation directe de l’image pour la détection et la reconnaissance n’est pas envisageable parce qu’elle contient une grande quantité d’information impertinente ou redondante. C’est pourquoi, la première étape de presque toutes les méthodes de reconnaissance est d’extraire un ensemble de caractéristique qui représentent les propriétés discriminantes de l’objet cible. [Chabot et al., 2015]

L’extraction des caractéristiques du véhicule dans les méthodes utilisées actuellement était généralement basée sur une ou plusieurs caractéristiques du véhicule, telles que le contour, la texture, le bord, la couleur ou des parties spécifiques du véhicule, telles que le pare-brise, les feux, les plaques d’immatriculation, etc. Cette approche est simple mais inefficace car une bonne extraction de caractéristiques à partir d’une définition simple est souvent difficile à réaliser. [Harianto et al., 2021]

Cette approche se fait sur l’ensemble de l’image, ce qui permet de calculer la suite des convolutions en une seule fois. A la fin de cette étape, une carte de caractéristiques est générée. C’est sur celle-ci que les patchs à classifier sont extraits. [Chabot et al., 2015]

[3_cadre-theorique-detection-de-vehicules-en-video_8]

Figure 9: Etapes d’extraction des caractéristiques. [Chabot, 2015]

Récemment beaucoup de méthodes ont été proposé pour cette approche, mais les plus utilisées en raison de leur fiabilité et de la pertinence des informations porté sont : les caractéristiques ‘Pseudo-Haar’, ‘Haar-Like’, ‘Local Binary Pattern « LBP »’, ‘Transformé de Hough’, ‘Principal Component Analysis « PCA »’, ‘Histogram of oriented gradients « HOG »’. [Touahri, 2019]

Apprentissage profond

Plusieurs techniques d’apprentissage automatique pour la détection et la reconnaissance d’images ont été développées, telles que les réseaux de neurones et l’apprentissage profond.

Ces dernière années, l’apprentissage profond a fait des progrès rapides dans le domaine de la détection de cibles, démontrant un niveau élevé d’extraction de caractéristiques et améliorant considérablement la détection. L’une des mises en œuvre les plus courantes est le réseau de neurones convolutifs (CNN). [Harianto et al., 2021]

Actuellement, les cadres de détection d’objets basés sur l’apprentissage profond peuvent être principalement divisés en deux types, notamment les méthodes basées sur la proposition de régions (détecteurs à deux étages) et les méthodes basées sur la régression (détecteurs à un étage) (figure 10). [Atif et Misseraoui, 2020]

Détecteurs à deux étages :

Les détecteurs à deux étages ont donné une précision plus élever avec de meilleures performances et rapportent des résultats idéaux mieux que les détecteurs à un étage dans la détection d’objet, mais ils sont généralement plus lents que les détecteurs à un car ils ont deux étages : d’abord l’extraction de proposition de régions, puis la classification de chaque proposition et la prédiction de la boite englobante.

Même en limitant le nombre de régions à traiter, les améliorations de performance ne sont pas suffisantes pour faciliter le fonctionnement en temps réel. [Atif et Misseraoui, 2020]

Détecteur à un étage :

Les détecteurs à un étage sont beaucoup plus rapides et plus recherchés pour les applications de détection d’objets en temps réel, mais ont des performances relativement médiocres par rapport aux détecteurs à deux étages. Ils peuvent réduire les calculs en supprimant l’étape de proposition de région et en formulant la détection d’objet comme un problème de régression dense. [Atif et Misseraoui, 2020]

Au lieu d’avoir deux réseaux pour deux taches différentes (proposition et classification), un seul ConvNet est utilisé pour les deux taches simultanément. Un seul réseau neuronal prédit les boites englobantes et les probabilités de classe directement à partir d’images complètes en une seule évaluation. [Atif et Misseraoui, 2020]

Détecteurs d’objet

YOLO SSD

OverFeat RetinaNet

R-CNN

Fast R-CNN Faster R-CNN SPP-Net

Détecteurs à un étage

Détecteurs à deux étages

Figure 10: Les principales catégories de détecteurs d’objets. [Atif et Misseraoui, 2020]

Parmi les réseaux de neurones qui ont pu réaliser de la détection en temps réel avec des performances comparables à celles des autres réseaux, YOLO été le premier dans son époque.

La méthode de détection des véhicules qu’on a choisi pour notre implémentation est fondée sur cette technique qui est l’apprentissage profond, et on va la détaillée dans le chapitre 3.

________________________

2 Définition donnée par l’article 62 de la loi sur les nouvelles régulations économiques (NRE) du 15 mai 2001.

3 Auchan Les 4 Temps, La Défense.


Questions Fréquemment Posées

Quelles sont les méthodes de détection de véhicules en mouvement?

Parmi les méthodes de détection de véhicule en mouvement, on peut citer les détections basées sur la différence inter-images, la modélisation du fond et la cohérence.

Comment fonctionne la détection basée sur la différence inter-images?

La méthode de détection de mouvement la plus simple consiste à faire la soustraction entre deux images successives, assimilant les pixels dont l’intensité résultante est proche de zéro comme étant ceux du fond.

Quel est l’inconvénient de la modélisation du fond pour la détection de véhicules?

L’inconvénient de la modélisation du fond est la nécessité de conserver en mémoire les images précédentes pour l’estimation, ce qui demande une longue période d’apprentissage.

Rechercher
Télécharger ce mémoire en ligne PDF (gratuit)

Laisser un commentaire

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top