Les Bulletins Méthodologiques du Groupe de Travail Veille Sanitaire International (GT-VSI) visent à faire le point sur les connaissances scientifiques actuelles concernant différentes approches dédiées à l’épidémiosurveillance en santé végétale.

Les maladies des plantes impactent les cultures et menacent la production agricole à l’échelle mondiale. A travers la veille scientifique conduite par le GT-VSI nous collectons des articles de plus en plus nombreux proposant des modèles de surveillance automatisés basés sur des architectures d’apprentissage profond. Nous présentons ici, de manière didactique et non exhaustive, ces approches innovantes dédiées à la surveillance des maladies des plantes et leur mise en œuvre à travers 3 études scientifiques.

Rédaction : Pieretti Isabelle
Relecture experte du domaine : Lafon Nicolas (BioSP, INRAE)
Relecture (par ordre alphabétique) : Aldebert Korgan, Asseman Gaëlle, David Guillaume, de Jerphanion Pauline, Duperier Sandy, Quillévéré Anne

Un glossaire en fin de document explique les termes en gras dans le bulletin.

Attribution - Pas d’Utilisation Commerciale - Pas de modification
CC BY-NC-ND
Code juridique
Conformément aux productions réalisées par la Plateforme d’Épidémiosurveillance en Santé Végétale (ESV), celle-ci donne son droit d’accès à une utilisation partielle ou entière par les médias, à condition de ne pas apporter de modification, de respecter un cadre d’usage bienveillant et de mentionner la source © https://www.plateforme-esv.fr/

Le bulletin est enregistrable dans son format html sur votre ordinateur.

1. Pourquoi surveiller les maladies des plantes et en quoi l’IA peut-elle participer ?

Les maladies des végétaux, notamment celles des cultures agricoles, peuvent entraîner des pertes de rendement significatives, affecter la qualité des récoltes et compromettre la commercialisation des produits, avec des impacts socio-économiques directs. La sécurité alimentaire et la stabilité économique de l’agriculture reposent essentiellement sur la surveillance phytosanitaire. En France, plusieurs dispositifs de surveillance en santé des végétaux coexistent.

Dans le cadre du dispositif Ecophyto, un réseau d’observateurs réalise des examens visuels qui, couplées à des modélisations épidémiologiques, permettent de rédiger les Bulletins de Santé du végétal. Par ailleurs, le réseau du Département de la Santé des Forêts mobilise des correspondants observateurs pour suivre l’état sanitaire des forêts.

La surveillance des organismes nuisibles réglementés et émergents est une surveillance officielle basée sur le risque et coordonnée par le ministère en charge de l’agriculture. Elle s’appuie sur des programmes de prospection définis dans le cadre de la réglementation européenne, notamment le règlement (UE) 2016/2031 qui repose sur : la prévention de l’introduction de nouveaux organismes de quarantaine, la détection précoce, et en cas de foyers, la mise en œuvre des mesures de gestion adaptées visant l’éradication (réglementation phytosanitaire de l’UE). En plus des exmens visuels, des prélèvements d’échantillons sont réalisés sur le terrain puis analysés en laboratoire.

Ainsi, la surveillance du territoire, officielle et non officielle, se base largement sur des examens visuels, une méthode souvent chronophage, coûteuse et limitée en termes de couverture spatiale. Une détection tardive des infections peut conduire à une propagation rapide des maladies (épidémies), ce qui rend plus difficiles et coûteuses les mesures de gestion et de lutte (comme l’éradication), et augmente le risque d’introduction et/ou d’établissement d’organismes nuisibles émergents. Dans ce contexte, renforcer les capacités de surveillance afin de pouvoir détecter les symptômes le plus tôt possible, et intégrer des méthodes innovantes apparaît essentiel pour mieux anticiper les risques et guider les mesures de gestion.

Depuis quelques années, les progrès de l’intelligence artificielle, et en particulier de l’apprentissage profond en vision par ordinateur, ont entraîné un essor de publications scientifiques consacrées à l’identification automatique des maladies des plantes à partir d’images. Ces outils tels qu’ils sont présentés dans la littérature récente mettent en avant une identification précise et précoce de maladies végétales, via une analyse automatique d’images de feuilles prises sur le terrain avec des smartphones, des drones ou des capteurs.

2. Comment un ordinateur “voit-il” une feuille malade ?

Pour un ordinateur, une image est représentée sous forme d’une matrice de nombres correspondant aux valeurs des pixels. Les modèles d’apprentissage automatique exploitent ces valeurs numériques afin d’extraire des informations pertinentes permettant de réaliser une tâche donnée, par exemple distinguer une feuille saine d’une feuille malade.

L’apprentissage automatique regroupe les méthodes qui permettent à un modèle d’apprendre à partir de données (apprentissage supervisé ou non supervisé). Dans le cas de la classification d’images, un ensemble d’images annotées (par exemple « saine » ou « malade ») est fourni au modèle. À partir de ces exemples, le modèle ajuste ses paramètres internes afin de minimiser l’erreur entre ses prédictions et les étiquettes (annotations) correctes. Une fois entraîné, il doit être capable de généraliser, c’est-à-dire de produire des prédictions fiables sur des images qu’il n’a jamais vues auparavant.

L’apprentissage profond constitue une sous-catégorie de l’apprentissage automatique. Il repose sur des réseaux de neurones artificiels composés de plusieurs couches successives de transformations mathématiques. Ces modèles apprennent automatiquement des représentations hiérarchiques des données. Ainsi, pour les images, plus les couches du réseau sont profondes, plus elles capturent des caractéristiques générales. Les premières couches apprennent généralement des motifs visuels simples, tandis que les couches plus profondes construisent progressivement des représentations plus abstraites et sémantiquement pertinentes pour la tâche.

L’apprentissage consiste à minimiser une fonction de perte qui quantifie l’écart entre la prédiction du modèle et la « vérité » terrain (les annotations). À chaque itération, le gradient de cette perte par rapport aux paramètres du réseau (technique de rétropropagation du gradient) est calculé. Les paramètres sont ensuite mis à jour par un algorithme d’optimisation (par exemple une méthode standard de descente de gradient ou une autre méthode d’optimisation stochastique comme Adam). Ce processus est répété sur de nombreux exemples jusqu’à convergence.

Tous les modèles d’apprentissage profond partagent ce principe de fonctionnement même si leur architecture peut varier. Il existe actuellement trois grandes architectures de modèles utilisés pour identifier les maladies des plantes à partir d’images : CNN (Convolutional Neural Networks ou Réseaux de neurones convolutifs en français), ViT (Vision Transformers ou Transformateurs de vision en français) et Hybride, qui combine les deux.

3. Des architectures de modèles avec des visions différentes

De manière simplifiée : Les modèles CNN fonctionnent comme une loupe qui balaie l’image pour repérer les tâches, les nervures, les déformations foliaires locales. Les modèles ViT découpent l’image en petits morceaux et apprennent les relations entre eux. Ils « voient » l’image comme un puzzle.

De manière plus détaillée : Les modèles CNN, les plus utilisés actuellement, sont composés de plusieurs couches de convolution qui appliquent de petits filtres sur l’image. Ces filtres glissent sur l’image pour détecter des motifs simples comme des contours ou des angles. Ils analysent les images foliaires par étapes successives en construisant des représentations hiérarchiques. Les couches initiales extraient des éléments visuels simples (contours, textures), les couches intermédiaires capturent des structures plus complexes (formes, motifs distinctifs), et les couches profondes identifient « l’objet », par exemple les symptômes caractéristiques d’une maladie foliaire. Ce processus de transformation progressive d’une image brute en représentations de plus en plus informatives permet d’améliorer des tâches comme la classification et la segmentation d’images, et ainsi d’affiner la détection des pathologies végétales. Son grand avantage est qu’il exploite la structure spatiale des images : un motif détecté à un endroit reste pertinent ailleurs.

Les modèles ViT, contrairement aux CNN, ne traitent pas les images avec des filtres glissants. Ils commencent par diviser l’image en plusieurs patchs non chevauchants de taille fixe (par exemple 16×16 pixels). Chaque patch est ensuite converti en vecteur numérique, appelé token, de la même manière qu’un mot est représenté dans une phrase. Ces tokens sont ensuite envoyés dans un Transformer, qui utilise le mécanisme d’auto-attention pour déterminer quelles parties de l’image sont importantes les unes par rapport aux autres. Grâce à ce processus, le modèle peut capturer dès la première couche les relations globales et le contexte de l’image, et produire une prédiction pour l’identification de maladies sur les feuilles. Ces modèles sont conçus pour fonctionner en conditions réelles (avec des arrière-plans complexes, et une lumière variable par exemple).

Tous ces modèles d’apprentissage profond dédiés à la surveillance des maladies des plantes sont entraînés à partir de grandes collections d’images annotées, validés sur des données séparées pour ajuster leurs paramètres, puis testés sur des images nouvelles afin de vérifier leur capacité à détecter correctement les maladies en conditions réelles.

4. Quels sont leurs avantages et leurs limites ?

Les réseaux de neurones convolutifs (CNN) présentent l’avantage d’être particulièrement efficaces pour exploiter la structure spatiale locale des images. Leur architecture favorise un apprentissage stable et performant, y compris lorsque les jeux de données sont de taille modérée. Ils disposent en outre d’un large éventail d’architectures optimisées et légères, ce qui facilite leur déploiement sur des dispositifs embarqués tels que des smartphones, drones ou capteurs connectés. Leurs limites tiennent principalement à la manière dont les relations globales sont construites : l’intégration d’informations à grande échelle résulte de l’empilement progressif des couches. Bien que les CNN capturent efficacement des structures globales, les interactions à longue distance ne sont pas modélisées explicitement dès les premières étapes du traitement et peuvent être manquées si l’architecture n’est pas suffisamment profonde.

Les Transformateurs de vision (VIT) se distinguent par leur capacité à modéliser directement les relations entre différentes régions de l’image. Cette propriété peut constituer un avantage lorsque la tâche dépend fortement de la structure d’ensemble ou de dépendances spatiales étendues. Des variantes compactes de VIT ont également été développées, permettant leur utilisation dans des environnements contraints, sous réserve d’une optimisation adaptée. Cependant, ils dépendent davantage de la quantité et de la diversité des données pour apprendre efficacement les structures visuelles. Leur mécanisme d’attention globale peut également entraîner une complexité computationnelle plus élevée à haute résolution, même si des variantes plus efficaces ont été développées. Enfin, contrairement aux CNN qui intègrent naturellement l’analyse locale des motifs, les ViT n’imposent pas explicitement cette hiérarchie spatiale, ce qui peut rendre leur apprentissage moins stable dans des contextes où les données sont limitées ou très homogènes.

A noter que dans de nombreux contextes, les performances des CNN et VIT sont comparables et que leur utilisation peut être couplée. Par exemple, un drone surveillant des vergers pourrait utiliser un modèle CNN pour analyser des images foliaires à très haute résolution, à l’échelle de la feuille ou du rameau (quelques millimètres à quelques centimètres), afin de détecter des lésions ou des taches. Il pourrait ensuite s’appuyer sur un modèle ViT pour interpréter des images à plus grande échelle, couvrant l’arbre entier ou des groupes d’arbres (de quelques mètres à plusieurs dizaines de mètres), afin d’identifier des phénomènes globaux comme le dépérissement. Ce type de modèle hybride est de plus en plus développé, comme par exemple l’architecture PlantAIM, intégrant une couche GLFA (Global-local feature fusion plant disease attention), pour exploiter la cohérence inhérente entre les types de cultures et les symptômes de maladies, et dont le code est accessible au public sur GitHub (Chai et al, 2025, et voir l’étude de cas infra).

5. D’où viennent les images ?

Les modèles sont généralement entraînés, validés et évalués sur des bases de données d’images de plantes prises au laboratoire (feuilles uniques, arrière-plan uniforme) ou en conditions naturelles (feuilles pouvant se chevaucher, arrière-plan non uniforme). Ils traitent/classifient ensuite automatiquement les images collectées sur le terrain via des capteurs, des drones, des smartphones pour la surveillance phytosanitaire (entre autres).

5.1. Données issues de bases de données publiques (voir par exemple la liste proposée par Junmin Zhao et al., 2025).

La BDD la plus connue est PlanteVillage (Hugues et Salathe, 2015). Il s’agit d’une plateforme en ligne et en accès libre présentant plus de 500 000 images couvrant plus de 150 cultures et plus de 1 800 maladies. Toutes les images proviennent de feuilles (y compris saines) prélevées sur le terrain, photographiées en conditions naturelles et validées par des experts en phytopathologie avant d’être homogénéisées (orientation, recadrage) pour leur intégration à la base de données, accessible sur plantvillage.psu.edu/.

5.2. Données collectées sur le terrain (captures d’images)

Les smartphones et leur appareil photo intégré sont couramment utilisés par les agriculteurs et les chercheurs pour documenter les maladies des plantes sur le terrain. Toutefois, ils peuvent présenter une faible performance en basse lumière et les variations de prise de vue peuvent limiter leur précision.

Les drones (UAV pour unmanned aerial vehicle) équipés de capteurs haute résolution ou multispectraux, sont adaptés pour une surveillance à grande échelle. Toutefois ils peuvent être onéreux, particulièrement dépendants des conditions météorologiques et peuvent nécessiter des besoins importants en matière de transmission et de stockage des données.

L’imagerie multispectrale et hyperspectrale capture des images sur plusieurs longueurs d’onde et au-delà du spectre visible, surpassant la vision humaine. Toutefois, ces technologies peuvent présenter un coût élevé et nécessiter des compétences spécialisées pour l’analyse complexe des données.

6. Trois études de cas

6.1. Détection du HLB des agrumes avec des drones (architecture CNN) :
HLB-YOLO: A Real-Time Citrus Huanglongbing Detection Model with Dynamic Head (Chen & Yuan, 2025)

Le Huanglongbing (HLB) des agrumes, est une maladie bactérienne dévastatrice, transmise par deux espèces de psylles, qui affecte gravement le rendement et la qualité des fruits (plus d’infos sur la page web surveillance du Huanglongbing). Pour relever les défis liés au diagnostic de la maladie, de plus en plus d’études portent sur l’apprentissage profond et les technologies basées sur l’image, avec pour objectif une détection rapide, précise et automatique du HLB. A titre d’exemple, cette étude de Chen & Yuan (2025) propose une version allégée et optimisée du modèle YOLOv8, spécialement conçue pour fonctionner sur des drones et réaliser des détections rapides directement sur le terrain (Xie et al., 2024). Le modèle HLB-YOLO vise à surmonter les limites liées aux détecteurs d’objets actuels, comme la complexité computationnelle, la lenteur des vitesses d’inférence et la faible précision des modèles légers (souvent intégrés à des drones ou d’autres dispositifs optimisés pour être rapide, compactes et peu gourmandes en ressource), tout en améliorant la robustesse face aux conditions variables de terrain (éclairage, feuillage chevauchant, hétérogénéité des symptômes, etc …). Le modèle intègre plusieurs améliorations clés : a) un module (ARConv) qui améliore la détection des textures et des contours des lésions ; b) un mécanisme adaptatif qui aide à repérer des lésions de tailles et de formes variées ; c) une méthode de calcul de l’erreur qui permet de mieux localiser les symptômes dans l’image (fonction de perte EIoU).

L’étude de Chen & Yuan (2025) s’appuie sur l’ensemble de données d’images de détection des symptômes du HLB élaboré par Chi et al. (2025). Ce jeu de données, collecté sur trois ans (2018–2021) dans douze grandes régions productrices d’agrumes de Chine, notamment dans la province du Fujian, comprend huit variétés cultivées. Les échantillons ont été majoritairement prélevés entre septembre et décembre, période de forte incidence du HLB. L’ensemble couvre 14 catégories de symptômes typiques du HLB (chlorose marbrée, symptômes de carence en bore) et de maladies souvent confondues avec le HLB (anthracnose, chancre des agrumes), servant de contrôles pour un diagnostic différentiel. Une analyse visuelle multi-dimensionnelle des annotations du jeu de données sur les symptômes du HLB a été réalisée, permettant de mettre en évidence une distribution des catégories globalement équilibrée, bien que certaines soient sous-représentées. Pour ces catégories moins représentées, des techniques d’enrichissement des données ont été utilisées afin d’éviter que le modèle n’apprenne de façon biaisée. Et en matière de validité expérimentale, les données ont été divisées en ensembles d’entraînement, de validation et de test selon un ratio de 7:1:2, correspondant respectivement à 7192, 898 et 1804 échantillons. HLB-YOLO vise à gérer les variations d’échelle, d’éclairage et d’occultation des feuilles propres aux environnements de verger. Ainsi, le modèle est structuré en trois grandes parties : 1) une première partie extrait les lésions foliaires indépendamment de leur orientation sur l’image ; 2) une deuxième combine ces informations à différentes échelles pour reconnaître aussi bien de petites lésions que des symptômes plus étendus ; 3) une troisième localise précisément les zones malades et décide à quelle catégorie elles appartiennent. Les performances du modèle ont été comparées à plusieurs références dans des conditions identiques.

Les résultats montrent que HLB-YOLO est à la fois plus précis et plus rapide que les modèles de référence, tout en restant peu coûteux en calcul. Ce bon compromis entre précision et efficacité montre son intérêt pour une utilisation opérationnelle pour la détection du HLB en temps réel sur la base des symptômes visibles. Toutefois, les auteurs soulignent que le modèle reste difficile à interpréter. Il est encore compliqué de savoir précisément quelles zones de l’image influencent les décisions. Cela peut poser problème en conditions réelles si l’environnement change ou si des symptômes encore jamais vu apparaissent. Les travaux futurs devront donc intégrer des outils permettant de visualiser et comprendre les mécanismes de décision du modèle afin d’augmenter la confiance dans son utilisation sur le terrain.

Commentaire du comité éditorial du GT-VSI : Les auteurs ne mentionnent pas le fait que le Huanglongbing des agrumes est souvent asymptomatique les premiers mois (ou années) après l’infection. Pour cette raison, et compte tenu de la faible spécificité des symptômes de jaunissement et de dépérissement associés au HLB (causes abiotiques ou autres causes biotiques), en France, la surveillance officielle s’appuie systématiquement sur un diagnostic moléculaire pour confirmer ou infirmer la présence de Candidatus Liberibacter spp., la bactérie causale du HLB. Il est toutefois envisageable que des travaux futurs, dans la continuité de ceux de Chen & Yuan (2025) permettent de détecter grâce à la vision par ordinateur (pas par l’œil humain) des motifs foliaires spécifiquement associés au HLB.

6.2. Diagnostic sur smartphone avec un modèle léger (architecture ViT) :
PMVT: a lightweight vision transformer for plant disease identification on mobile devices (Li et al., 2025)

Cet article présente PMVT (Plant MobileViT), un modèle léger basé sur MobileViT (Mehta et Rastegari, 2021), conçu pour identifier les maladies des plantes tout en restant adapté au déploiement sur appareils mobiles. PMVT combine un faible coût de calcul et une vitesse d’inférence compétitive, tout en maintenant de bonnes performances sur des images complexes où les feuilles peuvent se chevaucher ou présenter des variations d’éclairage.

Pour mieux modéliser les dépendances à longue distance entre les feuilles dans les images de plantes malades, le bloc de convolution de MobileViT a été remplacé par une structure résiduelle inversée intégrant un noyau de convolution 7 × 7. Par ailleurs, inspiré du concept d’attention multiniveau en vision par ordinateur, les auteurs ont intégré un module d’attention par blocs convolutifs (CBAM) à l’encodeur ViT, permettant au modèle de filtrer les informations non pertinentes et de se concentrer sur les caractéristiques essentielles. PMVT a été entraîné et évalué sur trois ensembles de données représentant le blé, le café et le riz, répartis aléatoirement pour l’entraînement (80%), la validation (10%) et le test (10%). Des techniques d’augmentation des données (rotation, recadrage centré, normalisation) ont été appliquées afin de renforcer la robustesse et la généralisation du modèle. Parallèlement une application mobile a été développée pour fonctionner avec PVMT. Pour son déploiement sur smartphone, le modèle entraîné a été exporté au format ONNX, puis converti en NCNN, un framework optimisé pour l’inférence sur terminaux mobiles. L’exécution des prédictions a été réalisée en langage informatique C++, l’interface utilisateur a été conçue en XML, et une base de données MySQL stocke les images de maladies ainsi que les informations associées. L’application permet notamment l’identification des maladies, la recherche de maladies selon des critères spécifiques et l’accès aux mesures de contrôle adaptées aux maladies détectées. Le modèle a été comparé à plusieurs autres architectures légères (SqueezeNet, ShuffleNetV2, MobileNetV3, MobileFormer, EfficientNet, Deit) ainsi qu’à des modèles plus lourds c’est à dire avec plus de paramètres et plus gourmands en ressources (PoolFormer, CVT, TNT, ResNet).

Les résultats indiquent que le modèle PMVT conserve un nombre de paramètres réduit par rapport aux autres modèles tout en maintenant une précision élevée sur différentes tâches de vision. Par exemple, sur le blé, il atteint une précision maximale de 93,6 %, soit 1,6 % de mieux que MobileNetV3. Sur le café, il atteint 85,4 %, surpassant SqueezeNet de 2,3 %, et sur le riz, il obtient 93,1 %, soit 3,4 % de mieux que MobileNetV3. PMVT a pu être utilisé avec succès sur l’application mobile de diagnostic des maladies des plantes, pour identifier les maladies dans différents contextes.

PMVT constitue un modèle léger, performant et adapté au déploiement mobile, combinant convolution large et modules d’attention pour extraire efficacement les caractéristiques locales et globales des images. Il surpasse les modèles légers classiques et certains modèles lourds, tout en restant pratique pour un diagnostic en temps réel. Comme pour tout ViT léger, il peut être légèrement plus lent que certains CNN pour le traitement d’images, mais ses performances et sa polyvalence en font un outil adapté pour la surveillance et le diagnostic des maladies de cultures.

6.3. Identifier la plante et sa maladie en même temps (architecture hybride) :
PlantAIM: A new baseline model integrating global attention and local features for enhanced plant disease identification (Chai et al., 2025)

Pour répondre au défi consistant à identifier en même temps une plante cultivée et la maladie qui l’affecte, cette étude propose PlantAIM (Plant Disease Global-Local Features Fusion Attention Model), un modèle hybride combinant l’attention globale du ViT et l’extraction de caractéristiques locales des CNN. Le modèle a été développé pour apprendre en même temps à reconnaître l’espèce de plante et la maladie associée à partir d’une seule image, en tenant compte à la fois de l’aspect général de la plante et des symptômes visibles.

Le modèle a été entraîné à partir du jeu de données PlantVillage (voir description supra). Sur les 54 305 images (38 paires culture-maladie) constituant le jeu de données, une partie des images a été utilisée pour l’apprentissage (80%) et une autre pour l’évaluation (20%) du modèle. Pour tester sa robustesse dans des situations réalistes, certaines paires de culture-maladie rares (échantillons disponibles limités) ont volontairement été représentées par très peu d’exemples d’images d’entrainement. Le modèle a ensuite été évalué sur plusieurs jeux de données issus de conditions réelles, avec des arrière-plans complexes et une grande diversité de plantes et de symptômes. L’architecture de PlantAIM repose sur une stratégie de « double regard » qui combine les modèles complémentaires CNN et ViT, préalablement entraînés sur le jeu de données ImageNet. Dans un premier temps, les informations extraites par CNN sont mises au même format que celles issues de ViT grâce à une couche intermédiaire (couche Multi-Layered Perceptron), afin de pouvoir être comparées et fusionnées efficacement. Les deux types d’informations (globales pour l’apparence générale de la plante, et locales pour les symptômes) ont ensuite été combinées grâce à un mécanisme d’attention qui sélectionne ce qui est le plus pertinent pour relier l’identité de la plante aux signes visibles de la maladie. La classification utilisée pour les prédictions sur les plantes et les maladies repose sur deux modules, un pour les espèces cultivées (14 cultures) et un pour les classes de maladies (21 maladies) afin de permettre la polyvalence du modèle.

Les performances de PlantAIM ont été évaluées et comparées à celles de plusieurs modèles de référence (8 au total). Les résultats montrent que PlantAIM est systématiquement plus précis, y compris dans des contextes difficiles comme les données rares ou les images prises sur le terrain. Les visualisations des zones d’attention indiquent que PlantAIM est capable de se concentrer à la fois sur la forme des feuilles et sur les symptômes, ce qui lui permet de mieux faire le lien entre la plante et la maladie. Les auteurs concluent que l’architecture PlantAIM améliore l’apprentissage conjoint des traits propres aux cultures et aux maladies associées, il est capable de capturer les caractéristiques spécifiques à la culture et à la maladie au sein d’une même image d’entrée. Des évaluations approfondies montrent que PlantAIM surpasse d’autres modèles de référence existants, y compris dans des contextes de données limitées et en conditions réelles. Le code PlantAIM est disponible sur GitHub : PlantAIM sous licence C BY-NC-ND.

7. Conclusion

La surveillance des maladies des plantes constitue un pilier essentiel de la sécurité alimentaire et de la durabilité des systèmes agricoles, mais elle reste aujourd’hui largement dépendante de méthodes d’observation visuelle et de diagnostic en laboratoire exigeantes en temps et en ressources. Dans ce contexte, les modèles d’apprentissage profond appliqués à l’analyse d’images, offre des perspectives prometteuses pour améliorer la précocité, la précision et l’étendue de la détection des maladies végétales en ouvrant la voie à des systèmes de surveillance multi-échelles. Toutefois, ces technologies reposent fortement sur la qualité, la diversité et la disponibilité des données, ainsi que sur des compromis entre performance, coût et complexité de mise en œuvre (voir le tableau des avantages/limites ci-dessous). Leur déploiement à grande échelle nécessite de lever plusieurs défis techniques, économiques et éthiques ou écologiques.

Tableau : Exemples d’avantages et de limites associés aux modèles d’apprentissage profond (non exhaustif).

Ainsi, loin de remplacer les dispositifs existants, l’intelligence artificielle apparaît comme un levier d’innovation venant renforcer les systèmes de surveillance en santé des végétaux. Son intégration raisonnée (notamment dans le cadre des prospections), en complément de l’expertise humaine et des réseaux d’observateurs, pourrait permettre d’anticiper plus efficacement les risques, d’améliorer la gestion des épidémies végétales et de répondre aux enjeux croissants liés à l’émergence de nouveaux organismes nuisibles dans un contexte de changements globaux.

8. Glossaire (par ordre alphabétique)

Apprentissage automatique : ou machine learning en anglais est une branche de l’IA qui permet aux machines d’apprendre à partir de données, grâce à des modèles mathématiques. Son principe consiste à extraire des informations utiles depuis des jeux de données pour réaliser des prédictions ou prendre des décisions.

Apprentissage profond : ensemble d’outils et de méthodes d’apprentissage automatique basé sur l’utilisation avancée de réseaux de neurones artificiels. Ces réseaux sont composés de nombreuses couches de neurones qui et sont capables d’apprendre automatiquement des représentations complexes des données.

Apprentissage supervisé versus non supervisé : l’apprentissage supervisé consiste à entraîner un modèle à partir de données annotées (paires entrée–sortie) afin d’apprendre une relation permettant de prédire correctement la sortie pour de nouvelles données. L’apprentissage non-supervisé vise à trouver des structures ou des patterns dans un ensemble de données non annotées. L’apprentissage supervisé repose sur des données annotées et vise à apprendre une relation entre des entrées et des sorties afin de prédire correctement la sortie pour de nouvelles données.L’apprentissage non supervisé, en revanche, s’appuie sur des données non annotées et cherche à identifier des structures, des regroupements ou des représentations pertinentes sans disposer de cibles explicites.

Auto-attention : mécanisme qui permet à chaque élément d’une séquence (ou chaque région d’une image, dans un ViT) de pondérer l’importance des autres éléments afin de construire une représentation enrichie.

CNN, acronyme pour Convolutional Neural Networks (ou Réseaux de neurones convolutifs en français).

Convolution : opération mathématique qui consiste à faire glisser un petit filtre, souvent appelé noyau, sur une image d’entrée afin de créer une carte des caractéristiques significatives, d’identifier automatiquement des motifs tels que les contours, les textures et les formes sans intervention humaine.

Fonction de perte : quantification de l’écart entre les prévisions du modèle et les observations réelles du jeu de donnée utilisé pendant l’entraînement.

Surapprentissage : phénomène en apprentissage automatique qui se produit lorsqu’un modèle s’adapte trop étroitement aux données d’entraînement, au point de capturer non seulement les régularités générales, mais aussi le bruit ou les particularités spécifiques du jeu de données. Il en résulte de bonnes performances sur les données d’entraînement, mais une mauvaise capacité de généralisation sur de nouvelles données.

Tokens : ou jetons en français, sont des unités de base que les modèles d’IA utilisent pour traiter, analyser et générer du langage. Ils sont issus de la segmentation des données (mots, parties de mots, ponctuation), ils permettent aux algorithmes d’apprendre les relations entre éléments et d’assurer des fonctions clés comme la prédiction. La rapidité de leur traitement influence directement la performance et la réactivité des modèles.

Transformer : ou transformeur en français, transforme une séquence d’entrée en une séquence de sortie, via l’utilisation d’un mécanisme d’attention. C’est un réseau neuronal qui apprend le contexte des données séquentielles et génère de nouvelles données à partir de celui-ci.

Vision par ordinateur : ensemble de méthodes issues du traitement d’image, de l’apprentissage automatique, de la géométrie et de l’optimisation permettant d’analyser des données visuelles et d’en extraire une information sémantique ou structurelle exploitable.

ViT : acronyme de Vision Transformers (ou Transformateurs de Vision en français).

9. Références

Base de données Plant Village : plantvillage.psu.edu/.
Chai et al, 2025 : PlantAIM: A new baseline model integrating global attention and local features for enhanced plant disease identification. Données associées : GitHub : PlantAIM.
Chen & Yuan, 2025 : HLB-YOLO: A Real-Time Citrus Huanglongbing Detection Model with Dynamic Head.
Chi et al., 2025 : A dataset of field symptoms for identifying Citrus Huanglongbing.
Hugues et Salathe, 2015 : An open access repository of images on plant health to enable the development of mobile disease diagnostics.
Junmin Zhao et al., 2025 : A review of plant leaf disease identification by deep learning algorithms.
Li et al., 2025 : PMVT : a lightweight vision transformer for plant disease identification on mobile devices.
Luo et al., 2021 : A Study of Adversarial Attacks and Detection on Deep Learning-Based Plant Disease Identification.
Mehta et Rastegari, 2021 : MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer.
Page web du groupe de travail surveillance du Huanglongbing de la Plateforme ESV.
Règlement (UE) 2016/2031 du Parlement européen et du Conseil du 26 octobre 2016 relatif aux mesures de protection contre les organismes nuisibles aux végétaux, modifiant les règlements du Parlement européen et du Conseil (UE) n° 228/2013, (UE) n° 652/2014 et (UE) n° 1143/2014 et abrogeant les directives du Conseil 69/464/CEE, 74/647/CEE, 93/85/CEE, 98/57/CE, 2000/29/CE, 2006/91/CE et 2007/33/CE : Consolidated text: Regulation (EU) 2016/2031.
Réglementation phytosanitaire de l’UE : Plant health rules.
Salka et al., 2025 : Plant leaf disease detection and classification using convolution neural networks model: a review.
Xie et al., 2024 : A Detection Algorithm for Citrus Huanglongbing Disease Based on an Improved YOLOv8n.

10. Pour en savoir plus

DeepLearning et Agriculture. Etude de la CHAIRE AgroTIC, novembre 2018.
Analyse intelligente des images pour la surveillance dans une agriculture de précision : thèse de Solemane Coulibaly (2023).
Plant leaf disease detection and classification using convolution neural networks model: a review : Salka et al., 2025.
Plant leaf disease detection using vision transformers for precision agriculture : Murugavalli & Gopi, 2025 2025.
Intelligence artificielle : les défis de l’apprentissage profond : The Conversation.
L’apprentissage profond : une révolution en intelligence artificielle : Conférence de Yann LeCun au collège de France, 2016.
Artificial intelligence for pest identification and decision support in sustainable crop protection: A critical review : Amiri & Bandani, 2026.
Révolutionner la détection des maladies des plantes grâce aux approches Vision Transformers et Convolutional Neural Networks ! : Sadaillan - Pl@ntNet.
Plant disease diagnosis: A survey and comparative analysis of current techniques : Nayak et al., 2026.

Bulletin Méthodologique N°1 : Les modèles d’apprentissage profond pour la détection automatisée des maladies des plantes

Plateforme ESV

Mars 2026