La table ronde « Entraînement des intelligences artificielles : à quel prix ? » a rassemblé plus de 80 participants, le 16 décembre 2025 à l’École militaire (Paris 7e).

La Chaire a organisé la conférence « Entraînement des intelligences artificielles : à quel prix », le 16 décembre 2025 à l’École militaire, dans le cadre des « Rendez-vous d’Athéna », proposés par l’association AED/SNC-IHEDN.
Vincent Giraud, chercheur à la Chaire, a accueilli des représentants de la BnF, d’Orange Business, d’OVH Cloud et de l’UNESCO pour échanger sur l’impact de l’entraînement des intelligences artificielles sur les réseaux ouverts et sur la viabilité de l’hébergement de contenus publics.
La table ronde a débuté avec une remise en contexte et une analyse préliminaire de la situation chez les hébergeurs de contenus et de services ouverts en ligne. Parmi les trois piliers de la sécurité informatique – confidentialité, intégrité et disponibilité – c’est principalement ce dernier qui peut être mis à mal par l’entraînement des intelligences artificielles. En effet, les automates qui parcourent le web pour absorber des quantités de données hors du commun sursollicitent les infrastructures légitimes d’hébergement. Ces abus se traduisent en pratique par des requêtes en trop grand nombre, sur trop de contenus, entraînant une surcharge des serveurs et une surconsommation de ressources.
Plutôt que de s’intéresser au sujet des intelligences artificielles en aval, c’est-à-dire à leurs utilisations et applications, l’angle choisi ici a été de considérer l’amont, où l’on constate qu’il est nécessaire de mener des efforts pour résister aux robots qui collectent les données afin d’alimenter lesdites intelligences artificielles. En résulte un nouveau paradigme pour l’internet : le simple fait d’héberger des données est de moins en moins anodin.
Les intervenants ont pu présenter en quoi ils sont concernés et impactés par l’entraînement des intelligences artificielles :
- La Bibliothèque nationale de France (BnF) a pour rôle de collecter, cataloguer et archiver toute la production de documents en France, depuis 1537. Il est aussi de sa responsabilité de diffuser cette connaissance. A cette fin, les contenus sont désormais numérisés et publiés sur Gallica, qui contient aujourd’hui plus de 14 millions de documents, qu’ils soient anciens ou « nés numériques ». Cela représente de facto une source d’intérêt majeure pour les chercheurs et, de manière plus contraignante, pour les éditeurs d’intelligences artificielles, car les données sont vérifiées et véridiques. Preuve en est que la BnF constate depuis un certain nombre de mois une augmentation du trafic dû aux robots associés sur ses infrastructures, qu’elle héberge en local. En 30 jours, ils peuvent télécharger 20 téraoctets de données sur Gallica. L’hébergement des infrastructures en local à la BnF est un choix stratégique de l’établissement. Si l’on pourrait craindre que le trafic supplémentaire conduise à des coûts matériels accrus, ce n’est pas le cas pour le moment : aucun achat de serveur et aucun élargissement de la bande-passante n’a été mené à l’heure actuelle du fait de l’action des robots collecteurs en ligne. Ces derniers ont cependant un coût logiciel non négligeable, puisqu’ils imposent de mener un certain nombre d’opérations et de restructuration, par exemple sur le service Gallica. En temps normal, celui-ci répond à une requête en une ou deux secondes, mais lors d’une vague de collecte, ce temps d’attente peut monter à 15 ou 20 secondes.
- OVHcloud héberge également une grande quantité de données pour leurs clients. Ils constatent sur leur serveurs 6 à 7 milliards de connexions quotidiennes et ils estiment la part de trafic dédiée aux robots collecteurs à environ 35 %. Il est souvent impossible d’identifier les commanditaires de ces opérations de récolte car certaines de ces connexions se font à travers un proxy résidentiel, dispositif permettant d’anonymiser une connexion en usurpant l’adresse IP d’un particulier ayant un contrat de fourniture d’internet classique. A ce stade, OVHcloud ne rencontre pas de problème de disponibilité lié à ce phénomène mais réfléchit malgré tout aux risques associés. Les réponses à apporter ne sont pas évidentes, car les infrastructures et les utilisations étant globalisées, toute solution mise en œuvre devra être suffisamment fine pour ne pas faire de faux positifs. Les équipes d’OVHcloud dédiées à l’hébergement web mutualisé sont en train de concevoir une nouvelle infrastructure. Un critère primordial est de ne pas consommer davantage d’énergie malgré la contrainte des robots collecteurs en ligne, qu’il est généralement impossible d’identifier parmi la foule d’utilisateurs légitimes des sites web.
- L’UNESCO est un autre hébergeur massif de données. Sa plateforme UNESDOC regroupe toutes les publications scientifiques et documents statutaires relatifs aux décisions des États membres quant à leurs politiques d’éducation. Cela représente une quantité conséquente de documents, traduits dans les six langues de l’organisation : plus de 600000, chiffre qui croît de 5 % par an. Cette ressource vérifiée et multi-langues en fait une cible de choix pour les éditeurs d’intelligences artificielles. La gestion des données a une forme hybride, avec une partie des ressources hebergée par des prestataires à distance et une autre sur site. Ils constatent également un trafic accru ces derniers mois, mais s’agissant de contenus à caractère politique, il est difficile pour l’organisation de différentier l’abus « maladroit » des robots collecteurs pour intelligences artificielles des réelles attaques par déni de service. La réflexion autour de la posture à adopter en interne confronte deux approches : laisser l’accès libre afin de préserver l’objectif de promotion de la connaissance et du savoir, ou adopter une démarche coercitive eu égard aux coûts que cela engendre.
- Orange Business est à la fois fournisseur de services et hébergeur. L’entreprise met à la disposition de ses clients ses presque 500 consultants spécialisés en intelligence artificielle. Elle porte régulièrement la casquette de créatrice, ou entraîneuse d’intelligences artificielles selon les projets, notamment celles de confiance selon la norme ISO 42001, où les exigences en termes de choix des données sont strictes. Il lui est aussi possible de simplement compléter un entraînement en s’appuyant sur une base déjà établie. C’est par exemple le cas dans le cadre d’un partenariat avec la région Île-de-France. Cette activité est lourde et coûteuse mais les clients y tiennent dans la mesure où cela apporte une forte protection contre la pollution de l’ensemble d’entraînement. Si l’entraînement des intelligences artificielles peut poser un problème aux infrastructures, l’utilisation de celles-ci dans un mode agent peut également être responsable. Orange Business développe considérablement ce mode d’usage, qui est complexe à manier puisque cela peut mener à une exposition accrue aux cyberattaques. En réponse, cette méthodologie donne souvent lieu à des agents IA enfermés au sein de l’infrastructure d’une organisation, pour éviter toute fuite ou empoisonnement de données.
Les intervenants ont pu présenter leur vision de la gestion des conséquences de l’entraînement des intelligences artificielles
- La BnF a par exemple a mis en place les mêmes protections pour tous ses types de contenus, qu’ils soient textuels, sonores, ou vidéos.
- OVHcloud arrive à maintenir son service sans connaître la nécessité d’augmenter ses prix, bien que le trafic accru à cause du phénomène étudié soit pris en compte dans la conception des nouvelles infrastructures.
- L’UNESCO a effectivement vu augmenter son volume de données gérées ; bien que cela reste sous contrôle pour le moment, le coût est réel et assumé. Une décision globale et stratégique sur le sujet devra être trouvée à moyen terme. UNESDOC reste le service le plus critique, dans la mesure où lors des réunions statutaires, les États membres doivent absolument être en mesure d’accéder à l’historique des décisions.
- Orange Business déploie un certain effort dans la maîtrise des données d’entraînement : beaucoup d’acteurs moins consciencieux éditent des intelligences artificielles en se sourcant à base de contenus illégaux en soi-même, ou via des accès illégaux. Cela résulte nécessairement en des intelligences artificielles qui reflètent leurs données d’entraînement.
En synthèse, au-delà de la dimension technologique, c’est bien un débat sur la viabilité du modèle numérique ouvert et sur les équilibres entre innovation, souveraineté et protection des acteurs qui a animé les échanges.

Intervenants

Bruno Bontemps
Responsable du déploiement et des opérations des hébergements mutualisés
OVHcloud

Thomas Chanussot
Responsable Cybersécurité et Actifs Numériques (RSSI)
UNESCO

Romain Coutant
Directeur des Systèmes d’Information
BnF

Didier Gaultier
Directeur du pôle DataScience et Intelligence Artificielle
Orange Business
Animation

Vincent Giraud
Docteur en informatique
Chercheur permanent
Chaire CYBER – IHEDN
