0 avis
Du mythe aux fourmis – l’IA toute-puissante et ses petites mains invisibles, Billet de vulgarisation de l'IA
15/10/2025
Loin de l’illusion d’une intelligence artificielle capable d’apprendre seule, nourrie uniquement par la masse colossale des connaissances humaines disponibles sur Internet, la réalité est toute autre.
Contrairement à ce que laissent entendre certains discours, cette accumulation de données ne suffit pas… du moins pas encore, à l’heure où j’écris ces lignes.
Une IA peut vous expliquer la loi de la relativité restreinte avec brio, mais elle demeure incapable, si elle n’a pas été spécifiquement entraînée à cette fin (et à grand frais), de comprendre ou d’anticiper des phénomènes physiques simples qu’un enfant en bas âge maîtrise instinctivement : apprendre à marcher, attraper un objet, distinguer un chat d’un chien après quelques confrontations seulement.
Pour faire du maching learning, il faut à la genèse, des petites mains, souvent issues de pays lointains. Ce sont elles qui, à force de patience, trient, classent, et étiquettent des millions de données. Ces travailleurs du numérique sont rémunérés à la tâche, parfois quelques centimes pour des opérations répétitives et invisibles, mais absolument essentielles. C’est le paradoxe d’une IA qui doit nous soulager des tâches répétitives de notre quotidien mais qui nécessite des milliers de travailleur de l’ombre.
C’est dans le but de mieux comprendre ce qui se cache derrière l’apprentissage automatique, supervisé et non supervisé. Nous verrons que l’humain reste nécessaire que ce soit dans le processus de qualification ou de validation des modèles.
Qu’est-ce que l’étiquetage des données ?
L’étiquetage (ou annotation) des données consiste à associer une information brute image, texte à une catégorie interprétable par une machine.C’est cette étape qui donne du sens à la donnée, et qui permet à l’IA de “comprendre” ce qu’elle traite.
https://www.hitechbpo.com/blog/data-annotation-guide.php
Quelques exemples :
- Associer une image à la mention « feu de forêt » ou « route » dans un modèle de reconnaissance d’images.
- Annoter une vue satellite pour identifier des tentes, des bâtiments effondrés ou des zones brûlées après une catastrophe.
- Transcrire un enregistrement sonore pour entraîner un modèle de reconnaissance vocale.
Concrètement, l’annotation de données permet :
• L’apprentissage supervisé, base des IA actuelles (vision, langage, prédiction, etc.) ;
• L’évaluation de la performance des modèles ;
• La détection des biais, selon la qualité et la diversité des étiquettes.
Sans ces annotations humaines, pas d’intelligence artificielle fiable. Les algorithmes ne font que reproduire les corrélations qu’on leur enseigne à reconnaître.
Les technologies qui dépendent de l’étiquetage
L’étiquetage alimente presque toutes les technologies d’IA dites “appliquées”. Dont voici les principales familles :1. Computer Vision (Vision par ordinateur)
Utilisée pour analyser des images ou des vidéos, elle requiert des annotations précises :
• Détection d’objets : boîtes englobantes pour repérer un véhicule, un feu, une victime, etc.
• Segmentation sémantique : chaque pixel reçoit une étiquette (“route”, “forêt”, “bâtiment”).
• Détection d’anomalies : marquage d’effondrements, de fissures ou de départs de feu sur images satellites ou drones.
Exemples concrets :
• Détection automatique des zones brûlées sur images Sentinel ou drone SDIS.
• Analyse en temps réel d’une SITAC enrichie par vision IA pour identifier les zones à risque.
2. NLP (Natural Language Processing)
L’IA du langage a besoin de textes étiquetés :
• Classification de phrases (“message opérationnel”, “ordre”, “compte-rendu”).
• Reconnaissance d’entités nommées (lieux, actions, véhicules, victimes, événements).
• Détection d’émotions ou d’intentions dans les conversations radio.
Ces annotations ont pour butes d’entraîner des modèles comme BERT, GPT ou LLaMA, qui reposent sur des milliards de tokens annotés.
3. Audio et reconnaissance vocale
Les IA qui transcrivent ou interprètent la voix (assistants, transcription radio, interface d’aide à la décision) nécessitent :
• Des heures de sons étiquetés, où chaque mot prononcé correspond à une transcription ;
• Des indications de tonalité, de stress ou de bruit de fond pour l’entraînement des modèles acoustiques.
4. Données capteurs et IoT
Dans le domaine opérationnel, les IA embarquées dans les drones, véhicules, ou stations météo doivent apprendre à reconnaître des motifs dans les signaux :
• Pression, température, gaz, vibrations, signaux thermiques.
Chaque variation doit être étiquetée (“début de feu”, “panne mécanique”, “seuil critique”).
5. Robotique et systèmes autonomes
Les robots pompiers, les drones de reconnaissance ou les véhicules autonomes d’intervention s’entraînent grâce à des environnements simulés annotés.
Les IA de navigation doivent savoir : reconnaitre les obstacles, les voient praticable distinguer une victime d’un sauveteur.
Chaque scénario simulé ou enregistré doit être annoté manuellement avant d’être intégré dans l’apprentissage.
Apprentissage non supervisé, technologie sans annotation, mais avec des limites
L’algorithme reçoit des données brutes sans étiquettes et tente de trouver seul des structures, des motifs ou des regroupements.
Exemples :
• Regrouper des pixels d’images selon leur couleur pour détecter des zones homogènes (segmentation non supervisée).
• Classer automatiquement des rapports d’intervention similaires sans connaître leurs catégories au préalable.
• Identifier des tendances cachées dans des séries de capteurs (IoT, météo, pollution).
L’Objectif est de découvrir la structure ou les régularités des données sans savoir à quoi elles correspondent.
Néanmoins, ces modèles n’apprennent pas le sens des données. Ils découvrent juste des “regroupements” (clusters). Pour donner du sens opérationnel à ces clusters, une étape d’annotation humaine reste nécessaire par la ensuite.
Un paradoxe éthique
L’intelligence artificielle nous promet un monde plus efficace, plus sûr, plus intelligent.Mais, comme dans toutes les révolutions industrielles, ce progrès repose sur une main-d’œuvre discrète, sous-payée et souvent précaire.
Ces nouvelles formes d’emplois soulèvent plusieurs questions majeures :
• Éthique du travail numérique : quel est le coût humain de l’intelligence artificielle ?
• Souveraineté des données : qui contrôle les données annotées, et où sont-elles stockées ?
Cette face cachée du progrès mérite d’être rendue visible.
Enjeux pour la sécurité civile et la recherche française
Dans le contexte des services d’incendie et de secours, l’étiquetage peut être appliqué à des domaines concrets :• Images satellites de zones sinistrées ;
• Cartes SITAC annotées ;
• Rapports d’intervention ou bilans standardisés.
Mais ici, la qualité de l’annotation revêt une importance critique.
Un algorithme ne comprendra pas la différence entre une victime pris au piège sous les décombre et un groupe de sauveteur s’afférant pour la délivrer si cette distinction n’a pas été correctement enseignée.
C’est pourquoi ce travail doit être effectué ou validé par des experts du métier.
Le fait d’externaliser ces tâches à des entreprises étrangères sans formation opérationnelle, c’est prendre le risque d’introduire des biais dangereux dans les modèles d’aide à la décision.
Pour conclure :
Nous avons vu que, malgré les différents types d’apprentissage automatique, qu’il soit supervisé, non supervisé ou auto-supervisé, l’étiquetage des données demeure une étape fondamentale pour la majorité des cas d’utilisation du machine learning, et tout particulièrement pour l’apprentissage profond (deep learning), la vision par ordinateur et le traitement du langage naturel.Les modèles de langage tels que GPT, BERT ou Mistral sont d’abord préentraînés sur des milliards de phrases non annotées (dans un cadre d’apprentissage auto-supervisé), puis affinés (“fine-tunés”) à l’aide de corpus annotés, par exemple des dialogues notés manuellement par des humains.
Ces annotations sont réalisées, d’une part, par chacun d’entre nous à travers des mécanismes comme les « CAPTCHA », ces tests visuels utilisés lors de connexions à des sites web pour vérifier que nous ne sommes pas des robots, et d’autre part, par une main-d’œuvre mondiale souvent basée dans des pays en développement, où les conditions de travail peuvent parfois frôler l’exploitation.
Pour aller plus loin
• ARTE Reportage – Madagascar : les petites mains de l’IA (2023)
• Kate Crawford, The Atlas of AI, Yale University Press, 2021
• Mary Gray & Siddharth Suri, Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass, Houghton Mifflin, 2019
• MIT Technology Review, Inside the Hidden Factories of AI, 2023
• CNIL, Les données au cœur de l’IA : enjeux et gouvernance, 2023
Ltn Ernest Werenfrid