Classer les brevets selon les ODD de l’ONU : lipstip à Dataquitaine

La semaine dernière, Mohamed Cherif Sidhoum, data scientist chez lipstip, a présenté notre travail sur la classification des brevets selon les Objectifs de développement durable des Nations unies lors de la 9e édition de Dataquitaine. C’est un problème plus difficile qu’il n’y paraît.

Glossaire

  • ODD : Objectifs de développement durable définis par l’ONU.
  • Brevet : Titre de propriété industrielle protégeant une invention technique.
  • TAL / NLP : Traitement automatique du langage naturel par des systèmes informatiques.
  • BERT : Famille de modèles d’IA conçus pour comprendre des textes.
  • LLM : Grand modèle de langage capable de traiter et générer du texte à grande échelle.
  • IA frugale : Approche de l’IA privilégiant l’efficacité, la précision et une consommation de ressources réduite.

Bien sûr, sur le papier, classer des brevets selon les ODD ressemble à une tâche classique de traitement automatique du langage naturel. En pratique, les données brevets sont denses, techniques, hétérogènes et pleines de signaux qu’il est facile de surinterpréter. Tous les brevets n’entrent pas dans le cadre des ODD, et les informations pertinentes peuvent être réparties de façon très structurée dans l’ensemble du document. Ensuite, si l’on veut obtenir des résultats utiles à grande échelle, il faut plus qu’un modèle capable de produire une étiquette plausible.

Voici ce que Cherif a présenté à Dataquitaine : au lieu d’utiliser un grand modèle de langage pour traiter des documents entiers, nous avons construit un pipeline composé de plusieurs petits modèles fondés sur BERT. Chacun est focalisé sur des segments spécifiques et combiné à des règles métier explicites.

L’objectif était simple : placer le calcul là où se trouve réellement le signal, au lieu de demander à un modèle généraliste d’interpréter tout en une seule fois.

Un choix de conception central

D’abord, cette approche est bien plus rapide que les solutions génériques. Plus précisément, elle permet une inférence 50 fois plus rapide qu’une configuration standard fondée sur un LLM. Ensuite, elle est plus facile à comprendre et à vérifier. Chaque décision est traçable et compréhensible. C’est essentiel en propriété intellectuelle, où les professionnels ont besoin de savoir pourquoi une classification a été faite, et pas seulement de recevoir une réponse qui semble convaincante.

Nous avons aussi introduit dès le départ une classe dédiée Non-SDG. Cela peut paraître être un détail mineur, mais cela répond à un vrai problème pour les praticiens : les modèles généralistes ont tendance à forcer une classification même lorsque le contenu est hors du périmètre de la tâche. Cela crée du bruit, des labels fragiles et une fausse impression de précision. Donner au système une manière claire de dire « cela n’entre pas ici » rend le résultat global beaucoup plus fiable.

Notre datascientist était présent pour présenter notre solution BERT à Dataquitaine.

Le résultat est un système plus rapide que les approches standards fondées sur les LLM, plus interprétable et plus précis que les benchmarks habituels pour ce type de tâche.

Plus largement, ce travail reflète une conviction forte chez lipstip : des modèles plus grands ne sont pas automatiquement de meilleurs modèles. Dans un domaine comme la propriété intellectuelle, la performance ne se résume pas à la sortie produite. Il s’agit aussi de contrôle, de traçabilité et de la capacité de l’outil à tenir dans des conditions opérationnelles réelles. C’est aussi pour cela que nous accordons autant d’importance à l’IA frugale.

Une IA frugale dans toute la plateforme

Pour lipstip, l’IA frugale n’est pas qu’un mot à la mode. Si nous avons choisi cette voie, c’est aussi une décision d’ingénierie : lorsque la tâche est ciblée, spécifique et à forts enjeux, la meilleure réponse est souvent un système conçu autour du problème. Les modèles géants, construits pour tout couvrir, manqueront d’expertise et consommeront beaucoup plus d’énergie que notre solution.

Pour toutes ces raisons, la présentation de Mohamed Cherif Sidhoum à Dataquitaine, organisée à KEDGE Business School, a constitué une occasion unique de partager cette approche avec des experts de Nouvelle-Aquitaine et des territoires voisins. Elle reflète aussi le lien entre recherche académique et travail produit appliqué, un lien qui compte beaucoup pour nous. Mohamed Cherif mène ces recherches dans le cadre de son doctorat au LMAP, le laboratoire de mathématiques de l’Université de Pau et des Pays de l’Adour.

Lors de Dataquitaine, lipstip a présenté une méthode de classification des brevets selon les Objectifs de développement durable de l’ONU reposant sur plusieurs modèles BERT spécialisés plutôt que sur un grand modèle unique. Cette approche est bien plus rapide, plus interprétable et plus fiable pour un domaine technique comme la propriété intellectuelle. L’ajout d’une classe Non-SDG évite les classements forcés et reflète l’engagement de lipstip en faveur d’une IA frugale.

Pour aller plus loin

Aucun résultat

La page demandée est introuvable. Essayez d'affiner votre recherche ou utilisez le panneau de navigation ci-dessus pour localiser l'article.

Rejoignez la Newsletter

Inscrivez-vous à la Newsletter lipstip pour ne rien louper de la transformation européenne de la propriété intellectuelle. Actualités, mises à jour, contenu exclusif et opportunités : abonnez-vous et restez au courant !