Les modèles qui sous-tendent les outils d’intelligence artificielle générative comme ChatGPT, qui permettent de générer toutes sortes de contenus sur simple requête en langage courant, ont besoin d’être entraînés sur un nombre astronomique de données. Des données qui sont souvent glanées sur le web, qui contient de plus en plus d’images et de textes créés par l’IA.
Cette « autophagie », où l’IA se nourrit de l’IA, conduit à un effondrement des modèles, qui produisent des réponses d’abord de moins en moins originales et pertinentes, puis finissant par n’avoir aucun sens, selon un article paru dans la revue scientifique Nature.
Concrètement, avec l’utilisation de ce type de données appelées « données synthétiques » car générées par des machines, l’échantillon dans lequel piochent les modèles d’intelligence artificielle pour fournir leurs réponses perd en richesse.
C’est comme si on faisait une copie d’une image scannée puis elle-même imprimée. Au fur et à mesure des impressions, le résultat perd de sa qualité, jusqu’à être illisible.
Maladie de la vache folle
Des chercheurs des universités américaines Rice et Stanford sont parvenus à la même conclusion en étudiant les modèles d’IA générateurs d’images Midjourney, Dall-E et Stable Diffusion.
Ils ont montré que les images générées devenaient de plus en plus communes et étaient progressivement parsemées d’éléments incongrus à mesure qu’ils ajoutaient des données « artificielles » au modèle, comparant ce phénomène à la « maladie de la vache folle ».
Cette épidémie apparue au Royaume-Uni trouverait son origine dans l’utilisation pour l’alimentation des bovins de farines animales obtenues à partir de parties non consommées des carcasses bovines et de cadavres d’animaux contaminés.
Les entreprises du secteur de l’intelligence artificielle utilisent toutefois fréquemment des « données synthétiques » pour entraîner leurs programmes en raison de leur facilité d’accès, abondance et faible coût par rapport aux données créées par l’humain.
« Les sources de données humaines inexploitées, de haute qualité et lisibles par des machines deviennent de plus en plus rares », a expliqué Jathan Sadowski, chercheur spécialisé dans les nouvelles technologies à l’Université Monash en Australie.
« Sans aucun contrôle pendant plusieurs générations, un scénario catastrophe » serait que le syndrome d’effondrement des modèles « empoisonne la qualité et la diversité des données pour la totalité de l’internet », a mis en garde Richard Baraniuk, l’un des auteurs de l’article de l’Université Rice, dans un communiqué.
Tout comme la crise de la vache folle avait plombé l’industrie de la viande dans les années 1990, un internet rempli de contenus faits par l’intelligence artificielle et des modèles devenus « fous » pourrait menacer l’avenir d’une industrie de l’IA en plein boom, pesant des milliards de dollars, selon ces scientifiques.
« La vraie question pour les chercheurs et les sociétés qui bâtissent les systèmes d’IA est la suivante : à quel moment l’utilisation de données synthétiques devient trop grande ? » complète Jathan Sadowski.
Scénario peu réaliste
Mais, pour d’autres spécialistes, le problème est exagéré et loin d’être inéluctable.
Anthropic et Hugging Face, deux pépites dans le domaine de l’intelligence artificielle, ont confirmé se servir de données générées par l’IA. L’article de la revue Nature offre une perspective théorique intéressante, mais peu réaliste, pour Anton Lozhkov, ingénieur en apprentissage automatique chez Hugging Face.
« L’entraînement (de modèles) sur plusieurs séries de données synthétiques ne se fait tout simplement pas dans la réalité », a-t-il assuré.
M. Lozhkov reconnaît toutefois que les experts de l’IA sont frustrés, comme tout le monde, de l’état du web. « Une partie de l’internet est une poubelle », lâche-t-il, ajoutant que son entreprise a déjà fait de gros efforts de nettoyage des données recueillies, parfois en en supprimant jusqu’à 90 %.
Source : AFP