Innovations technologiques en détection de véhicules

L’innovation dans la détection de véhicules révèle des performances surprenantes : l’algorithme Faster R-CNN atteint une précision de 89%, transformant ainsi la sécurité routière. Quelles implications cela a-t-il pour l’avenir de la vision par ordinateur ?

Table des matières

Réseaux de neurones convolutifs (CNN)

Architecture des CNN

Comme tous les réseaux de neurones, les CNN sont composées de couches multiples, la première étant la couche d’entrée suivie d’un certain nombre de couches et puis par une couche de sortie qui donne le résultat de classification. [Bouhedadja, 2021]

[8_innovations-technologiques-en-detection-de-vehicules_14]

Figure 16: Architecture standard d’un réseau à convolutions.

[Fabien, 2018]

1. Les couches de convolution (Convolution Layer CONV)

La couche de convolution a des noyaux (filtres) et chaque noyau a une largeur, une profondeur et une hauteur. Cette couche produit les cartes de caractéristiques à la suite du calcul du produit scalaire entre les noyaux et les régions locales de l’image.

Leur travail consiste à extraire les informations pertinentes de l’image (caractéristiques) grâce à une opération de convolution. Cette opération fait glisser un ensemble de filtres sur une image. Le poids de ces filtres est mis à jour lors de l’apprentissage et c’est grâce à eux que le réseau réussi à reconnaitre les images. [Sekkil et Mebrouki, 2021]

2. Les couches de Pooling

Un autre outil très puissant utilisé par les CNNs s’appelle le pooling. Elle fait le sous- échantillonnage, ce qui permet de réduire la taille d’une image par extraire une valeur unique d’une région de valeurs, la valeur extraite dépend du type de regroupement utilisé, les types de regroupement les plus courants sont au maximum (max) pooling pour extraire la valeur la plus élevée du champ actuel, et pooling moyen (moy) qui extrait la valeur moyenne de la région actuelle.

Une couche de pooling a essentiellement des paramètres avec lesquels elle peut être configurée, d’abord il y a la stride qui est la distance sur laquelle le filtre est déplacé. Deuxièmement, il y a la taille du filtre f qui détermine la largeur et la hauteur du filtre utilisé pour extraire la valeur de l’entrée. [Bendjaafer et Meddah, 2021]

[8_innovations-technologiques-en-detection-de-vehicules_15]

Figure 17: (A) Max pooling avec un filtre 2*2 et un pas de 2, (B) Moy pooling.

[Bendjaafer et Meddah, 2021]

3. Les couches de connexion complète (Full Connected Layer)

La couche de connexion complète est une couche qui sert à effectuer la transformation sur la dimension de données afin que les données puissent être classées de manière linéaire. Chaque neurone de la couche de convolution doit d’abord être transformé pour que les informations contenues ne soient pas perdues. [Sellami, 2019]

4. La fonction d’activation

Permet d’améliorer l’efficacité du traitement en intercalant entre les couches de traitement une couche qui va opérer une fonction mathématique (fonction d’activation) sur les signaux de sortie. Elle remplace donc toutes les valeurs négatives reçues en entrées par des zéros. Elle joue le rôle de fonction d’activation.

La fonction ReLU (Rectified Linear Unit = Unités Rectifié linéaires) : F(x) = max (0, x). Cette fonction force les neurones à retourner des valeurs positives. La couche de correction ReLU remplace donc toutes les valeurs négatives reçues en entrées par des zéros, elle joue le rôle de fonction d’activation. [Santi, 2019]

[8_innovations-technologiques-en-detection-de-vehicules_16]

Figure 18: Allure de la fonction ReLU.

[Santi, 2019]

Exemples d’architectures CNN

Il existe plusieurs architectures de réseaux de neurones convolutif, leur utilisation est relative au contexte. Ces architectures font souvent leurs preuves dans des défis d’apprentissage profond qui les rendent par la suite populaires et très utilisés. Voici notamment quelques-unes d’entre elles : [Bouhedadja, 2021]

1. LeNet-5 (1998)

Initié par Yann LeCun, première architecture CNN populaire, pour arriver à la version finale conçue et souvent utilisée pour la reconnaissance des caractères manuscrits (LeCun et al., 1998).

2. AlexNet (2012)

Le vainqueur du défi ImageNet ILSVRC2012 avec un résultat de 15.3% en top-5 d’erreurs, devançant le second au classement de 10%. Le réseau est développé par Alex Krizhevsky d’où le nom ainsi que les chercheurs Ilya Sutskever et Geoffrey Hinton (Krizhevsky, Sutskever, & Hinton, 2017). Assez similaire à LeNet-5 avec plus de profondeur et de largeur, cela est rendu possible notamment avec les avancées technologiques matérielles, en particulier, les processeurs graphiques et leur grand potentiel de calcul parallèle.

3. GoogleNet (2014)

Cette architecture a remporté la version 2014 du défi ImageNet ILSVRC, elle est développée par (Szegedy et al., 2015), du département de recherche chez Google. Le résultat obtenu diminue considérablement la marge d’erreur comparée aux résultats obtenus dans les précédentes versions du concours ainsi qu’avec son second concurrent. Ceci en utilisant des sous-réseaux nommés « module Inception » qui sous-entend le fait d’aller plus profondément dans le réseau.

4. VGGNet (2014)

Qui obtint la seconde place lors du ImageNet ILSVRC 2014, développé par (Simonyan & Zisserman, 2014), il a la particularité d’être simple avec deux ou trois couches de convolutions, puis une couche de pooling, s’ensuit une série similaire alternante de deux ou trois couches de convolutions et une de pooling jusqu’à avoir 16 couches de convolutions, et finir avec plusieurs couches complètement connectées successives.

5. ResNet (2015)

Remporte le concours ILSVRC 2015. Optimisation du réseau par l’usage de Batch Normalization et l’apprentissage résiduel. Il est basé sur le saut des couches. Aussi il évite le problème du vanishing gradient et accélère la convergence du réseau. Couteux en mémoire et peu pratique sur les images de grandes dimensions. Utilise global AVG pooling au lieu du PMC à la fin.

Conclusion

Dans ce chapitre nous avons abordé certaines définitions concernant l’intelligence artificielle. Par la suite nous nous sommes concentrés sur les réseaux de neurones artificiels (RNA) et les réseaux de convolutions (CNN).

Aujourd’hui, l’apprentissage profond a prouvé sa grande efficacité dans plusieurs domaines, l’une des raisons de son succès est l’invention des CNNs.

Nous avons conclu de ce chapitre que le réseau de convolution est plus précis et plus rependu qu’un simple réseau de neurones pour la résolution des problèmes de classification car ‘CNN’ a une architecture complexe et de nombreuses couches multidimensionnelles qui font l’extraction de caractéristiques par contre ‘Neural Network’ fonctionne avec des vecteurs d’une dimension.

Dans le chapitre suivant, nous allons appliquer le deep learning pour reconnaître les véhicules et les détecter dans une séquence d’images en utilisant deux algorithmes différents (YOLOv5 et Faster R-CNN).

Questions Fréquemment Posées

Quelles sont les principales couches d’un réseau de neurones convolutifs (CNN) ?

Les principales couches d’un réseau de neurones convolutifs (CNN) sont la couche de convolution, la couche de pooling, et la couche de connexion complète.

Comment fonctionne la couche de convolution dans un CNN ?

La couche de convolution produit des cartes de caractéristiques grâce au calcul du produit scalaire entre les noyaux et les régions locales de l’image, permettant d’extraire des informations pertinentes.

Quelle est la fonction de la couche de pooling dans un CNN ?

La couche de pooling effectue un sous-échantillonnage pour réduire la taille d’une image en extrayant une valeur unique d’une région de valeurs, utilisant des techniques comme le max pooling et le moy pooling.

Comment l’innovation transforme la détection de véhicules en 2023 ?