Terra OccitanIA

Adhérer pour accéder à l'intégralité du contenu

Présentation générale de la thématique

Le projet Terra OccitanIA réunissant ATOS, porteur du projet, INRAEBRLE et OPenIG a officiellement commencé en décembre 2021. Ce projet cofinancé par le FEDER vise à développer une chaîne de traitement des données pédologiques anciennes (profils, sondages) pour élaborer des cartes de sol à vocation d’appui à la décision en Occitanie.

Vous trouverez ci-dessous une carte du périmètre concerné par le projet : il est restreint à la zone d’étude initiale de BRLE, mais dans la région, les données pédologiques anciennes sont encore nombreuses ! La chaîne de traitement développée par le projet pourra servir à numériser d’autres archives.

 

Ce projet est scindé en 5 actions :

Dans cette action, il s’agit de numériser des données pédologiques anciennes, initialement sous format papier ou sous format d’images scannées, pour les transformer en tableau de données intégrables dans une base de données. Il est utilisé ici un outil LAD/RAD c'est-à-dire un module d’intelligence artificielle qui permet de reconnaître, extraire et exporter automatiquement le contenu de documents, à savoir les données de BRLE :

  • Profils de sol (environ 25 000)
  • Sondage (environ 200 000)


Les profils de sol de BRLE se présentent sous forme de fiches de deux pages comportant plusieurs tableaux de données.

Fiche sol

Exemple de fiche de profil BRLE

Les fiches de sondage de BRLE se présentent sous la forme de microfiches qui ont déjà été numérisées, chaque fiche est constituée d’une seule page en mode portrait avec principalement un tableau de données.

Fiche sondage

Exemple de fiche sondage BRLE

La qualité de ces données n’est pas homogène et toutes ne pourront pas être numérisées proprement. Un travail est mené pour évaluer la qualité des fiches et pour déterminer un taux d'acceptabilité des fiches à envoyer en numérisation.

Pour pouvoir être utilisées, les fiches de sol doivent être positionnées géographiquement. Si pour les fiches de sol ce traitement peut être simple et consiste en un recalcul à partir de coordonnées Lambert, pour les fiches de sondage, le processus est plus complexe. En effet, pour les sondages, la localisation n’est pas directement intégrée au sein de la fiche. En fonction des fiches et de leur localisation, plusieurs informations peuvent être utilisées pour géolocaliser plus ou moins précisément ces fiches (plan de localisation annexe par exemple). Une solution de géolocalisation des sondages sera développée.
Les résultats de l'action :

  • Processus de LAD/RAD paramétré pour la numérisation des différentes fiches
  • Tableau de données pédologiques anciennes extraites de chaque fiche (transmis à l’action 2)
  • Solution de géolocalisation des sondages


 

L’objectif de l’action 2 est de traduire les données brutes numérisées à l’étape précédente en une base de données d’observations de sol sans erreurs et avec un format commun quelle que soit l’origine des données (fiche de sol ou sondage). Le format identifié sera le format Donesol , standard national de description et de stockage des données pédologiques, en particulier ponctuelles.

L’action 2 se déroule en trois grandes phases :

  • Récupération des données de digitalisation automatique (action 1) sous le format Donesol
    Une analyse de l’ensemble des fiches dans leur diversité et établissement de la liste exhaustive des variables concernées (notamment les déterminations analytiques) sera réalisée. Un format de tableur compatible avec la structure de données DoneSol sera défini et il permettra d'accueillir l’ensemble des données sols figurant sur les fiches BRLE.
    Le travail de récupération des lots de données brutes (fournis au format numérique JSON), de mise en forme et de structuration en Système de Gestion de Bases de Données (SGBD) ainsi que de préparation au transfert vers la base de données Donesol sera automatisé. Une moulinette viendra ensuite 'injecter' les données vers Donesol.
  • Vérification de la cohérence et de la qualité des données
    Ce seront des contrôles de cohérence simple et de vérification des transferts corrects d’informations entre les fiches papiers et les informations numérisées. Un contrôle sera aussi fait sur la cohérence du format de données avec Donesol. Les données devront être structurées et harmonisées suivant le modèle conceptuel des données ci-dessous du standard Donesol spécifiques aux données ponctuelles :
Schéma conceptuel de DoneSol

Schéma conceptuel de DoneSol concernant les données ponctuelles (sources : Dictionnaire de données, DoneSol version 3.15 du 31/03/21).

  • Une dernière phase de vérification de la qualité des données aura lieu une fois les données injectées dans DoneSol. Cette vérification sera effectuée via l'outil SIVERCOH, développé et mise à disposition par InfoSol. Il s'agit ici de vérifications axées davantage sur les cohérences pédologiques des données.
  • Contrôle de la qualité des données pédologiques anciennes
    Il s’agit de contrôler, d’une part la qualité d’un géoréférencement anciennement réalisé par positionnement sur un document papier et, d’autre part, d’apprécier les évolutions temporelles sur plusieurs décades et les erreurs analytiques affectant les propriétés de sol documentées dans les données pédologiques anciennes.
    Pour atteindre cet objectif, 200 sites régulièrement répartis sur le périmètre irrigué de BRLE feront l’objet de nouveaux prélèvements de sol. Chaque site sera caractérisé par 4 prélèvements disposés à des distances croissantes selon une direction aléatoire (cf. figure ci-dessous) afin d’apprécier les précisions de géolocalisation. Notons que ce plan d’échantillonnage est conçu également pour caractériser les variabilités locales des erreurs de spatialisations des cartes de propriétés de sol produites dans l’action 3.

Cette phase consistera à produire des cartes de propriétés des sols par apprentissage automatique à partir des données recueillies et mises en forme dans les étapes précédentes. Les propriétés de sol envisagées seront celles figurant dans les spécifications du programme mondial GlobalSoilMap avec toutefois des adaptations rendues nécessaires par le contexte particulier de cette étude.
La démarche retenue pour produire les cartes prédites de propriétés de sol suivra les principes de la cartographie numérique des sols en s’inspirant des travaux de la thèse CIFRE BRLE-LISAH de Quentin Styc réalisée récemment sur la commune de Bouillargues (zone d’étude test). Le principe général sera d’utiliser un algorithme d’intelligence artificielle pour prédire les propriétés de sol à partir des données spatiales en relation avec le sol (“covariables de sol”) disponibles sur la zone d’étude. L'algorithme sera calibré avec les données pédologiques disponibles issues des étapes précédentes. Plusieurs tâches sont prévues :

  • Développement d’une chaîne robuste de production de carte de propriétés de sol
    Cette phase reprendra les solutions algorithmiques éprouvées dans le cadre la thèse de Quentin Styc pour produire, sur le grand territoire de la zone d’étude, les cartes de propriétés de sol visées.
  • Exploration de solutions d’améliorations des prédictions de propriétés de sol
    Parmi les améliorations à tester, citons l’utilisation d’algorithmes d’intelligence artificielles permettant une meilleure prise en compte des contextes paysagers décrits par les covariables du sol (Convolutional Neural Network) ou permettant une spatialisation conjointe des propriétés, préservant ainsi leurs corrélations et évitant la prédiction de chimères pédologiques.
  • Exploration de méthodes d’estimations d’incertitude des prédictions de propriétés de sol
    Compte tenu de l’importance que revêt la connaissance de l'incertitude d’estimation de propriétés de sol pour la décision, il est particulièrement important de progresser sur l'estimation de l’incertitude associée à la prédiction d’une propriété de sol. Grâce à l'échantillonnage spatial décrit dans l’action 2, deux nouvelles voies seront explorées pour 1) tenir compte de l’incertitude spécifique des donnés pédologiques anciennes dans l’estimation des incertitudes sur les cartes de propriétés de sol et 2) propager les incertitudes estimées pour des prédictions ponctuelles à des prédictions de propriétés de sol réalisées sur des unités spatiales d’intérêt pour un utilisateur (ex-parcelle).

L’objectif est de fournir la preuve de la valeur ajoutée des cartes de propriétés fonctionnelles produites au travers de leurs utilisations effectives. L’ambition est de réduire l’imprécision des bases de données pédologiques disponibles en appliquant sur les périmètres irrigués une nouvelle démarche innovante de cartographie de la Réserve Utile des Sols (RU).

A terme, l’objectif est de valoriser le riche capital de données pédologiques de l’Occitanie, pour l’instant inaccessible aux utilisateurs, par des cartes de sol support à la décision en matière d’agriculture, d’aménagement du territoire et de toute autre thématique utilisant des cartes de sol.

 

Résultats attendus dans le projet  

Les résultats du projet porteront sur plusieurs aspects : 

  • D’une part la mise en place d’une chaîne de traitement qui se voudra reproductible et réutilisable pour d’autres propriétés de sol et pour d’autres territoires. 
  • D’autre part les données et notamment les cartes de sol résultantes de la première chaine de traitement développé dans le projet 

 D’ores et déjà, une sélection de cartes de sol produites par ce projet a vocation à être diffusée librement et largement auprès d’utilisateurs finaux, déterminés par les Partenaires. 

 

Actualités du projet 

  • Action 1 : 6700 fiches de fiches de profils numérisées & automatisation du géoréférencement des fiches de sondage en cours
  • Action 2 : Le travail d'harmonisation de la base de données numérisées au format DoneSol a été réalisé. L'intégration dans DoneSolWeb se fera prochainement. Concernant le contrôle qualité, sur 137 points pris au hasard, des échantillons de sol ont été prélevés à nouveau et analysés. La comparaison entre les données anciennes et données actualisées montre que ces archives sont toujours intéressantes, mais des corrections et des précautions d’utilisation s’imposent !
  • Action 3 : RAS
  • Action 4 : Le script permettant de cartographier la Réserve Utile à partir des données numérisées a été testé avec succès sur la commune de Lattes. Des essais techniques sont en cours pour l’appliquer sur le périmètre entier.
  • Action 5 : Des actions de communication sur le projet et les données sol en général ont eu lieu entre juin et novembre 2022 : vous pouvez retrouver les ressources associées sur la page réunissant TerraOccitanIA et la page du GT Sols, dont le replay de l’atelier de restitution du projet.