La préparation des données pour IA est essentielle pour garantir la qualité des entrées lors de l’entraînement des modèles. Cet article détaille les étapes de nettoyage, transformation et redimensionnement des images pour optimiser la détection et la classification des objets marins par un système de drone avancé.
Préparation des données
Cette section aborde la pr´eparation des donn´ees en d´etaillant les ´etapes n´ecessaires pour nettoyer, transformer et organiser les donn´ees afin de les rendre prˆetes pour l’entraˆınement des mod`eles.
Redimensionnement des images
Toutes les images sont redimensionn´ees pour assurer une taille uniforme de 640 x 640. Cette ´etape est cruciale pour faciliter le traitement par les mod`eles d’intelligence artificielle, assurant ainsi une coh´erence dans les entr´ees du mod`ele et optimisant les performances de calcul.
Normalisation des valeurs de pixels
Les valeurs de pixels des images sont normalis´ees pour standardiser l’intensit´e lumineuse `a travers toutes les images. Cette normalisation aide a` am´eliorer la convergence lors de l’entraˆınement des mod`eles, r´eduisant ainsi les effets de variations d’´eclairage ou de contraste qui pourraient autrement affecter n´egativement la pr´ecision du mod`ele (voir Figure 2.8).
[detection-objets-marins-par-drone-avance_1]
Figure 2.8 – Pr´esentation des options de pr´etraitement
Augmentation des donn´ees
Nous appliquons des techniques d’augmentation des donn´ees sur Roboflow pour enrichir notre ensemble d’entraˆınement. Cela inclut des transformations telles que la rotation, le recadrage, le changement d’´eclairage, le zoom, et d’autres transformations g´eom´etriques et colorim´etriques. L’objectif est d’augmenter la diversit´e des exemples d’entraˆınement, am´eliorant ainsi la capacit´e du mod`ele `a g´en´eraliser sur des conditions variables rencontr´ees dans les environnements marins.
A` l’issue de l’augmentation des donn´ees, nous avons un total de plus de 10 300 images pour notre ´etude, dont 80% sont destin´ees a` l’entraˆınement et 20% a` la validation (voir Figure 2.9).
[detection-objets-marins-par-drone-avance_1]
Figure 2.9 – Pr´esentation des options d’augmentation des donn´ees
Mod´elisation
Cette section nous permettra de s´electionner et d’entraˆıner des mod`eles d’IA adapt´es a` la d´etection et a` la classification des objets marins en temps r´eel. Nous avons plusieurs mod`eles d’IA adapt´es a` la d´etection et `a la classification des objets, parmi lesquels nous pouvons citer :
YOLO (You Only Look Once)
YOLO est une architecture de d´etection d’objets r´evolutionnaire qui s’appuie sur une approche de d´etection d’objets en une seule ´etape. Contrairement aux m´ethodes en deux ´etapes comme Faster R-CNN, YOLO g´en`ere simultan´ement des propositions de r´egions et pr´edit les boˆıtes englobantes et les scores de classe pour les objets d´etect´es. Cette approche monolithique permet une d´etection d’objets plus efficace et plus rapide, faisant de YOLO un choix populaire pour les applications en temps r´eel [19] (voir Figure 2.10).
[detection-objets-marins-par-drone-avance_1]
Figure 2.10 – Pr´esentation de YOLO
D´ecoupage de l’image en grille
- Division en cellules : L’image d’entr´ee est d’abord divis´ee en une grille de cellules rectangulaires. Chaque cellule est responsable de la d´etection des objets qui se trouvent dans sa zone.
Extraction de caract´eristiques
- R´eseau convolutif profond (backbone) : Un r´eseau convolutif profond (backbone) est utilis´e pour extraire des caract´eristiques pertinentes de l’image. Ce r´eseau, souvent constitu´e de Darknet-53, agit comme un extracteur de caract´eristiques, capturant des informations visuelles a` diff´erents niveaux de granularit´e.
- Couches de pr´ediction : Des couches de pr´ediction sont ensuite ajout´ees au-dessus du backbone. Ces couches sont des r´eseaux convolutifs plus petits qui op`erent sur la carte des caract´eristiques r´esultante.
G´en´eration de boˆıtes englobantes et de scores de classe
- Ancrage et pr´ediction : Chaque cellule de la grille pr´edit plusieurs boˆıtes englobantes et des scores de classe pour chaque objet potentiel. Ces pr´edictions sont bas´ees sur les caract´eristiques extraites de la cellule correspondante.
- Non-maximum suppression (NMS) : Pour ´eliminer les redondances et les boˆıtes englobantes qui se chevauchent, une technique appel´ee non-maximum suppression (NMS) est appliqu´ee a` chaque cellule. NMS supprime les boˆıtes englobantes ayant un chevauchement ´elev´e avec une boˆıte englobante de score sup´erieur, ne conservant que la boˆıte la plus confiante pour chaque objet d´etect´e.
Sortie et interpr´etation :
- Sortie finale : Le r´esultat final de YOLO est un ensemble de boˆıtes englobantes pour les objets d´etect´es dans l’image, accompagn´ees de leurs scores de classe respectifs (indiquant la probabilit´e que l’objet appartienne `a cette classe) et des scores de confiance (indiquant la certitude de la d´etection).
Avantages de YOLO :
- Vitesse : L’approche de d´etection en une seule ´etape permet une d´etection d’objets extrˆemement rapide, faisant de YOLO l’un des algorithmes de d´etection d’objets les plus rapides disponibles.
- Pr´ecision : YOLO atteint une pr´ecision comparable aux autres m´ethodes de d´etection d’objets tout en maintenant une vitesse ´elev´ee.
- Simplicit´e : L’architecture de YOLO est relativement simple et facile a` prendre, ce qui la rend accessible aux d´eveloppeurs et aux chercheurs.
Applications de YOLO :
- D´etection d’objets en temps r´eel : D´etection d’objets dans des vid´eos et des flux en direct pour des applications comme la surveillance vid´eo, l’assistance a` la conduite et la d´etection de personnes.
- D´etection d’objets sur les appareils mobiles : D´etection d’objets sur les smartphones et les tablettes pour des applications comme la r´ealit´e augment´ee et l’inspection visuelle mobile.
- Robotique et vision par ordinateur : Guidage de robots pour la manipulation d’objets, la navigation et l’interaction avec l’environnement.
- D´etection d’anomalies : D´etection d’anomalies et d’´ev´enements inhabituels dans des images et des vid´eos pour la s´ecurit´e et la surveillance.
Faster R-CNN :
Faster R-CNN est une architecture de d´etection d’objets performante qui s’appuie sur un r´eseau de propositions de r´egions (RPN) pour identifier les zones d’int´erˆet dans une image. Cette approche en deux ´etapes permet d’obtenir une d´etection pr´ecise et efficace des objets, faisant de Faster R-CNN un choix populaire dans divers domaines de la vision par ordinateur [20], (voir Figure 2.11).
[detection-objets-marins-par-drone-avance_1]
Figure 2.11 – Pr´esentation de Faster R-CNN
G´en´eration de propositions :
- Extraction de caract´eristiques : L’image d’entr´ee est d’abord pass´ee a` travers un r´eseau convolutif profond (backbone) pour extraire des caract´eristiques pertinentes. Ce r´eseau, souvent constitu´e de VGG16 ou ResNet, agit comme un extracteur de caract´eristiques, capturant des informations visuelles a` diff´erents niveaux de granularit´e.
- R´eseau de propositions de r´egions (RPN) : Le RPN op`ere ensuite sur ces caract´eristiques extraites pour g´en´erer des propositions de r´egions d’int´erˆet potentielles. Il s’agit d’un r´eseau neuronal enti`erement convolutif qui glisse sur la carte des caract´eristiques et g´en`ere a` la fois des boˆıtes englobantes (r´egions rectangulaires) et des scores de probabilit´e pour chaque boˆıte, indiquant la pr´esence d’un objet dans cette zone.
- Ancrage et g´en´eration de boˆıte : Le RPN utilise un ensemble d’ancres pr´ed´efinies, qui sont des boˆıtes englobantes de tailles et de proportions diff´erentes. Ces ancres sont appliqu´ees `a chaque emplacement de la carte des caract´eristiques et le RPN pr´edit une correction pour ajuster l’ancre a` la zone d’objet r´eelle et attribue un score de confiance indiquant la pr´esence d’un objet dans cette zone ajust´ee.
Classification et ajustement :
- S´election de r´egions d’int´erˆet : Les propositions de r´egions g´en´er´ees par le RPN sont ensuite filtr´ees en fonction de leurs scores de confiance. Un seuil de score est appliqu´e pour ´eliminer les propositions les plus faibles, ne conservant que celles ayant une probabilit´e ´elev´ee de contenir un objet.
- R´eseau de classification et de r´egression : Les propositions restantes sont ensuite envoy´ees `a un r´eseau de classification et de r´egression `a deux branches. La branche de classification utilise un classificateur softmax pour attribuer chaque proposition a` une classe d’objet parmi un ensemble de classes pr´ed´efinies (par exemple, chien, chat, personne). La branche de r´egression, quant `a elle, utilise des r´egressions lin´eaires pour affiner les boˆıtes englobantes pr´edites par le RPN, en les ajustant pour mieux s’adapter aux contours r´eels des objets dans l’image.
Sortie et interpr´etation :
- Non-maximum suppression (NMS) : Pour ´eliminer les redondances et les boˆıtes englobantes qui se chevauchent, une technique appel´ee non-maximum suppression (NMS) est appliqu´ee. NMS supprime les boˆıtes englobantes ayant un chevauchement ´elev´e avec une boˆıte englobante de score sup´erieur, en ne conservant que la boˆıte la plus confiante pour chaque objet d´etect´e.
- Sortie finale : Le r´esultat final de Faster R-CNN est un ensemble de boˆıtes englobantes pour les objets d´etect´es dans l’image, accompagn´ees de leurs scores de classe respectifs (indiquant la probabilit´e que l’objet appartienne `a cette classe) et des scores de confiance (indiquant la certitude de la d´etection).
Avantages de Faster R-CNN :
- Pr´ecision : La d´etection par r´egions permet une localisation pr´ecise des objets, ce qui rend Faster R-CNN adapt´e aux taˆches n´ecessitant une localisation pr´ecise des objets.
- Efficacit´e : L’utilisation du RPN pour g´en´erer des propositions de r´egions r´eduit le nombre de r´egions a` examiner par rapport aux m´ethodes de d´etection d’objets en une seule ´etape, ce qui am´eliore l’efficacit´e de Faster R-CNN.
- Flexibilit´e : L’architecture modulaire de Faster R-CNN permet une int´egration facile avec diff´erentes architectures de backbone et de classificateurs, permettant une adaptation `a des taˆches et des cas d’utilisation sp´ecifiques.
Applications de Faster R-CNN :
- D´etection d’objets dans les images : D´etection d’objets g´en´erique dans des images pour des taˆches comme la reconnaissance d’objets, la localisation d’images et l’inspection visuelle.
- D´etection d’instances : D´etection et segmentation d’instances individuelles d’objets dans une image, comme des personnes, des voitures ou des animaux.
- D´etection d’objets dans les vid´eos : D´etection et suivi d’objets dans des s´equences vid´eo, comme la surveillance vid´eo, l’analyse du comportement et l’assistance `a la conduite.
- Inspection visuelle : D´etection de d´efauts et de anomalies dans les images industrielles pour le controˆle qualit´e et la maintenance pr´edictive.
- Robotique et vision par ordinateur : Guidage de robots pour la manipulation d’objets, la navigation et l’interaction avec l’environnement.
- M´edical : D´etection de structures anatomiques, de pathologies et de cellules dans des images m´edicales pour l’analyse et le diagnostic.
- Agriculture : D´etection de cultures, de mauvaises herbes et de maladies dans les images a´eriennes pour la gestion des cultures et l’agriculture de pr´ecision.