Les perspectives futures en détection de véhicules révèlent des avancées surprenantes dans l’efficacité des algorithmes comme Faster R-CNN, atteignant une précision de 89%. Ces résultats promettent de transformer la sécurité routière, soulevant des questions cruciales sur l’avenir de la vision par ordinateur.
Mask R-CNN
Le Mask R-CNN a été proposé en 2017 par Facebook AI Research (Figure 25). Faster R-CNN a surpassé la plupart de ses concurrents dans le domaine de la détection d’objets. Mais c’était encore inutilisable pour certains utilisateurs à la recherche d’un réseau neuronal pour la segmentation. [KAZI TANI L., 2020]
[10_perspectives-futures-en-detection-de-vehicules-etude-2023_24]
Figure 25: L’architecture du Mask RCNN. [KAZI TANI L., 2020]
Ils avaient un réseau puissant pour la détection d’objets, ils ont proposé une approche plus avancée, l’instance segmentation. Pour se faire avec une précision suffisante, il y avait un besoin de quelques changements dans l’architecture de Faster R-CNN.
L’instance segmentation a deux objectifs clés à atteindre : effectuer une version de détection d’objets pour dessiner les bounding boxes autour de chaque instance d’une classe ; et effectuer une segmentation sémantique sur chacun des bounding boxes. [KAZI TANI L., 2020]
Un des avantages intéressants de ce modèle, est que si nous sommes capables de résoudre indépendamment le problème des différents bounding boxes et le problème de segmentation sémantique, nous avons également essentiellement résolu la tâche de l’instance segmentation.
Architecture de détection de véhicule avec YOLOv5
- Base d’entrainement :
Vehicles-OpenImages Dataset est la base que nous avons choisie pour entrainer notre modèle à différencier une voiture, un bus, une moto, une ambulance et un camion.
Cet ensemble de données contient 627 images de différentes classes de véhicules pour la détection d’objets. Ces images sont dérivées des ensembles de données open source de vision par ordinateur Open Images.
[10_perspectives-futures-en-detection-de-vehicules-etude-2023_25]
Figure 26: Quelques images de jeu de données vehicles-OpenImages.
- Paramètres utilisés
- Seuil de confiance : confiance minimale pour qu’une boite soit détectée.
–conf 0.7
- La taille d’image : 416*416
–img 416
- Taille du lot d’entrainement : contrôle le nombre d’échantillons d’apprentissage. On a choisi 32, chaque lot prend en charge 32 images à la fois.
- Nombre d’itération(epochs) : le nombre de fois ou l’algorithme d’apprentissage est reproduit sur l’ensemble des données. Dans notre cas on a pris une constante de 300.
–batch 32 –epochs 300
- Résultats sur des images fixes
Les images dans (figure 27) nous montrent les différents résultats sur des images fixes obtenus avec YOLOv5.
[10_perspectives-futures-en-detection-de-vehicules-etude-2023_26]
[10_perspectives-futures-en-detection-de-vehicules-etude-2023_27]
[10_perspectives-futures-en-detection-de-vehicules-etude-2023_28]
Figure 27: Résultats du modèle YOLOv5.
Détection de véhicule avec Faster R-CNN
L’architecture de notre système de détection de véhicules dans une vidéo, est résumée dans la (figure 25). Pour cet algorithme nous n’avons pas fait d’entrainement sur une base mais juste un teste du pré-traitement de Faster R-CNN sur la détection de 5 véhicules (car, bus, truck, bicycle, motorcycle). Chaque classe de la base d’apprentissage a un identifient.
{2: {‘id’: 2, ‘name’: ‘bicycle’},
3: {‘id’: 3, ‘name’: ‘car’},
4: {‘id’: 4, ‘name’: ‘motorcycle’},
6: {‘id’: 6, ‘name’: ‘bus’}
8: {‘id’: 8, ‘name’: ‘truck’},}
Tout d’abord, il identifie les régions d’intérêt, puis transmet ces régions à un réseau neuronal convolutif. Les cartes de caractéristiques générées sont transmises à une machine à vecteurs de support (SVM) pour classification. La régression entre les boîtes englobantes prédites et les boîtes englobantes de vérité terrain est calculée.
- Base d’apprentissage
MsCOCO (Microsoft Common Objects in Context) est un ensemble de données d’images à grande échelle contenant 328 000 images d’objets du quotidien et d’humains. L’ensemble de données contient des annotations qu’on peut utiliser pour entraîner des modèles d’apprentissage automatique à reconnaître, étiqueter et décrire des objets.
Evaluation des performances
- Matrice de confusion
Il s’agit d’un tableau de taille n × n pour visualiser les résultats des modèles prédictifs dans les problèmes de classification, où n est le nombre de classes dans l’ensemble de données (voir le tableau ci-dessous). Dans cette matrice on croise les classes cibles réelles avec les classes prédites obtenues.
Ceci nous donne le nombre d’instances correctement classées et mal classées. [Fatoumata et Amor, 2021]
Tableau 4: Matrice de confusion pour une classification binaire | |
---|---|
Parameter/Criteria | Description/Value |
VP | vrais positifs est le nombre d’instances positives correctement classifiées |
FP | faux positifs est le nombre d’instances négatives et qui sont prédites comme positives |
FN | faux négatifs est le nombre d’instances positives classifiées comme négatives |
VN | vrais négatifs est le nombre d’instances négatives correctement classifiées |
À partir de la matrice de confusion on peut calculer plusieurs métriques. [Fatoumata et Amor, 2021]
Sensitivité
La sensitivité ou le rappel (recall) est le pourcentage des instances positives correctement identifiées. [Mifdal, 2019]
𝐑𝐞𝐜𝐚𝐥𝐥 =
𝑉𝑃
𝑉𝑃 + 𝐹𝑁
Précision
La précision (precision) est le pourcentage de prédictions positives qui sont correctes.
[Fatoumata et Amor, 2021]
𝐏𝐫𝐞𝐜𝐢𝐬𝐢𝐨𝐧 =
𝑉𝑃
𝑉𝑃 + 𝐹𝑃
Spécificité
La spécificité (specificity) est le pourcentage de cas négatifs qui ont été prédits comme négatifs.
[Fatoumata et Amor, 2021]
𝐒𝐩𝐞𝐜𝐢𝐟𝐢𝐜𝐢𝐭𝐲 =
𝑉𝑁
𝑉𝑁 + 𝐹𝑃
Questions Fréquemment Posées
Quels modèles sont comparés dans l’étude de détection de véhicules ?
L’étude compare les performances des modèles YOLOv5 et Faster R-CNN dans le cadre de la vision par ordinateur.
Quelle est la précision de Faster R-CNN dans la détection de véhicules ?
Les résultats montrent que Faster R-CNN obtient les meilleures performances avec une précision de 89%.
Quel ensemble de données a été utilisé pour entraîner le modèle YOLOv5 ?
Vehicles-OpenImages Dataset est la base que nous avons choisie pour entraîner notre modèle à différencier une voiture, un bus, une moto, une ambulance et un camion.