Découvrez l’interview de Marie Grosdidier, coordinatrice du projet de recherche TIERS-ESV !
La Plateforme ESV s’intéresse à divers projets nationaux et internationaux dans le secteur de la santé des végétaux. Actuellement 3 projets de recherche prolongent et contribuent aux activités de la plateforme. Découvrez le projet de recherche TIERS-ESV sur la veille sanitaire, présenté par sa coordinatrice Marie Grosdidier, épidémiologiste dans la Plateforme ESV - Unité de recherche BioSP - INRAE d’Avignon.
1. Pouvez-vous vous présenter en quelques mots ?
Je m’appelle Marie Grosdidier, je suis ingénieure de recherche épidémiologiste sur la Plateforme ESV et je co-anime le Groupe de Travail sur la Veille Sanitaire Internationale.
2. En quoi consiste le projet TIERS-ESV ?
La Plateformes ESV réalise des travaux de veille sanitaire internationale à travers le GT VSI. Ces travaux de veille sont réalisés en grande partie à la main et nécessitent beaucoup de temps de travail pour le tri et la sélection des articles intéressants. Le projet TIERS-ESV est un projet de recherche entièrement financé par les départements INRAE MathNum et SPE. Ce projet a pour objectif de développer des outils de fouille de texte implémentés en workflow pour répondre aux besoins croissants du GT VSI de la Plateforme ESV. Avec ce projet, l’équipe de recherche Bibliome va pouvoir répondre à certaines questions de recherche en fouille de texte : quelles méthodes d’extraction de relations utiliser (graph-embeddings, graph convolutional networks et information linguistique) ? Comment adapter les modèles utilisant des approches d’Intelligence Artificielle en traitement automatique de langue (TAL) et en apprentissage automatique ? Est-ce que les méthodes et outils déjà développés fonctionnent ? Quels thesaurii utiliser ? …
3. Pouvez-vous présenter vos principales missions dans ce projet ?
Ma mission principale est de coordonner ce projet dans son ensemble (je suis porteuse du projet). Cela signifie que j’organise et veille à ce que les travaux avancent bien. Je m’implique également directement dans différentes tâches du projet telles que la définition du besoin, le développement d’un corpus de texte annotés, la récupération des informations.
4. A qui s’adresse ce projet ?
Ce projet s’adresse directement à la Plateforme ESV puisque c’est elle qui sera la première utilisatrice des sorties du projet. Néanmoins, ces outils intéressent également les deux autres plateformes de surveillance (ESA et SCA) qui ont les mêmes besoins mais dans des domaines différents. En parallèle, plusieurs projets s’intéressent également à ces aspects et pourront s’entre-aider dans les tâches à développer : le projet BEYOND, ainsi que le projet Horizon scanning de l’EFSA et le projet D2KAB. Ce qui est intéressant ici c’est l’importance de l’interopérabilité des outils qui seront développés sur ce projet.
5. Pourquoi lancer ce projet ? Quel est le constat de départ ?
Les méthodes de tri et de sélection des articles pertinents réalisées manuellement puisent des ressources importantes en termes de temps et de personnes mobilisées. La création de ces outils de fouille de texte et du workflow va permettre de diminuer ce temps de travail en automatisant les tâches. Cela sera une réelle plus-value pour le GT VSI.
6. De quelle manière le projet innove ?
TIERS-ESV innove en réalisant des activités de recherche pour développer de nouvelles méthodes d’extraction fine et automatique des informations. Jusqu’alors aucune méthode et outils adéquats n’ont été implémentés pour réaliser ces activités.
7. Comment alimenter une base documentaire à partir de sources externes multiples et variées ? Peut-on traiter automatiquement l’information sanitaire ?
Une base documentaire est une base où les textes sont accessibles de manière brute (sans tous les artifices qui entourent le texte). De par la diversité des formats documentaires et des langues, un prétraitement en amont de l’extraction d’information est ainsi nécessaire. Dans les activités de veille sanitaire les informations prises en compte se basent sur l’intégralité des nouvelles publiées par les journaux du monde entier indexées par des opérateurs tels que MedISys, Google ou diffusées dans les réseaux sociaux (ex. Twitter). La récupération de ces informations est réalisée grâce à des scripts de web scraping et une API de manière automatique et s’implémentant dans une base de données dédiée. Cependant seules quelques éléments d’informations sont récupérés et stockés automatiquement (url, titre) et les textes eux, doivent être ouverts et lus à la main. La veille sanitaire ne repose donc pas seulement sur l’analyse des alertes officielles, mais sur un vaste ensemble d’information à traiter. Dans le projet TIERS-ESV, la start-up Opscidia sera en charge de réaliser ce pré-traitement : extraction des textes bruts et traduction à partir des urls récupérées dans la BDD.
8. Comment aider à la lecture rapide des documents pour faciliter leur classification et le repérage des informations en lien avec l’expertise sanitaire ?
Les technologies d’annotation textuelle développées par MaIAGE déployées dans les outils de curation AlvisAE et de visualisation AlvisIR seront mobilisées et intégrées dans le workflow par Migale-MaIAGE de manière à permettre le surlignage des entités clefs des documents à la demande. L’analyse des besoins et les essais préliminaires réalisés en amont ont montré la pertinence de cette proposition pour la veille. La palette de couleurs par type d’entité et la mise en valeur des relations permettront à l’utilisateur de discriminer très rapidement les pathosystèmes concernés et le caractère d’urgence. En résumé, le texte brut et traduit dans la base documentaire (voir la réponse à la question précédente) va subir les technologies d’annotation textuelles en activant les outils développés par MaIAGE et la Plateforme Migale et rendre en sortie un texte avec des mots surlignés selon leur catégorie (lieux géographiques, organismes nuisibles, hôtes, dates, évènements … ). A la simple visualisation du texte coloré, les acteurs de la VSI pourront avoir une idée très rapidement de l’intérêt de ce texte pour les bulletins de veille.
9. Quels sont les premiers résultats de recherche de TIERS-ESV à ce jour ?
A ce jour (quelques mois après le début du projet), nous avons une précision des tâches et des besoins, une idée des thesaurii existant en santé végétale, une étude de marché sur les traducteurs disponibles que nous pourrions utiliser. Opscidia doit faire une étude de faisabilité sur la création de la base documentaire, et un hackathon sur 2 jours pour tester les outils de classification sur nos données simplifiées (titres), et une réflexion commune sur l’architecture du workflow.
10. Qui sont les acteurs de ce projet ?
Ce sont des professionnels aux compétences complémentaires : recherche en sciences textuelles, informatique, épidémiologie végétale et ingénierie en bio-informatique et veille sanitaire ... (chercheurs, épidémiologistes, informaticiens, terminologues et documentalistes).
11. Quels sont les principaux partenaires du projet ?
Partenaires techniques : INRAE (unités : MaIAGE et avec la Plateforme Migale, Pathologie Végétale, Num4Sci, BioSP et avec la Plateforme ESV), Opscidia. Partenaire financier : INRAE
12. Quels seront les livrables de ce projet ?
On attend de ce projet le développement d’un workflow opérationnel et automatisé pour la veille. Certaines parties sont déjà implémentées et d’autres le seront avec ce projet tels que : la base documentaire, les outils de classification automatique, d’extraction d’entités textuelles, d’aide à la navigation et à la lecture des documents ; mais également une application finale permettant de visualiser dans l’espace et dans le temps les informations extraites de ce workflow et de les intégrer dans les analyses de risque de la Plateforme ESV. De plus, la base documentaire créée sera rendue publique et suivant les standards bibliographiques, et des référentiels / thesaurii seront produits et publiés sur le domaine de la santé des végétaux.
13. Comment les résultats du projet vont servir la veille et les travaux de la plateforme?
Les résultats du projet vont servir la veille en focalisant la charge de travail des agents concernés sur les tâches qui mobilisent le plus fortement leur expertise, grâce à l’automatisation des autres tâches qui peuvent l’être. Le temps gagné sera utilisé pour augmenter le nombre d’organismes ciblés par la veille et permettre d’ouvrir notre périmètre plus largement. Les informations textuelles extraites permettront un suivi spatio-temporel des informations pertinentes de la veille sur certaines maladies dans le monde. Elles viendront également compléter les données officielles utilisées dans les analyses de la Plateforme ESV.