Le potentiel manque de données textuelles pour le développement de l'IA

Les systèmes d’intelligence artificielle pourraient bientôt être confrontés à un défi majeur en raison de l’éventuelle épuisement des données textuelles générées par les humains, essentielles pour les rendre plus intelligents. Le groupe de recherche Epoch AI a rapporté qu’entre 2026 et 2032 au plus tard, le puits de données publiquement disponibles pour entraîner les modèles de langage d’IA pourrait se tarir.

L’auteur de l’étude, Tamay Besiroglu, a suggéré qu’en l’absence d’un approvisionnement continu en contenu écrit authentique, maintenir le rythme actuel du développement de l’IA pourrait poser problème. À court terme, des entreprises technologiques telles qu’OpenAI, qui a développé ChatGPT, ou Google, s’efforcent de sécuriser et parfois de payer pour des données de qualité, y compris en concluant des accords pour accéder au contenu textuel de plateformes comme Reddit et divers médias d’information.

Pour l’avenir, les ressources actuellement utilisées telles que les nouveaux articles de blog, les actualités et les commentaires sur les réseaux sociaux pourraient ne pas suffire à maintenir la trajectoire des progrès de l’IA. Cette pénurie pourrait amener les entreprises à envisager d’accéder à des données actuellement privées et sensibles, comme des e-mails personnels ou des messages texte, ou à se reposer sur des données synthétiques moins fiables générées par les chatbots eux-mêmes. Besiroglu a souligné qu’il existe un « goulot d’étranglement sérieux » à ce niveau.

Cette étude évaluée par des pairs doit être présentée lors de la Conférence internationale sur l’apprentissage automatique à Vienne cet été. Le projet Epoch est une initiative de l’organisation à but non lucratif basée à San Francisco « Rethink Priorities ».

Besiroglu a également mentionné une compréhension parmi les chercheurs en IA qu’il est possible de réaliser des progrès importants dans les performances des systèmes d’IA en augmentant la puissance informatique et en exploitant de vastes quantités de données internet. Selon la recherche effectuée par Epoch, le volume de données textuelles entrées dans les modèles de langage d’IA augmente d’environ 2,5 fois par an, tandis que la capacité de calcul augmente d’environ 4 fois par an.

Nicolas Papernot, professeur adjoint en génie informatique à l’Université de Toronto et chercheur dans un institut de recherche en IA à but non lucratif, qui n’a pas participé à l’étude de l’Epoch, a souligné l’importance de comprendre que construire des modèles de plus en plus grands n’est pas une nécessité. Il a suggéré que des modèles spécialisés pour des tâches particulières pourraient conduire à des systèmes d’IA plus performants. Cependant, Papernot a exprimé des préoccupations concernant la formation des systèmes d’IA génératifs avec des sorties générées par l’IA, soulignant que cela pourrait entraîner une dégradation des performances, similaire à la dégradation de l’information lors de la copie continue d’un document.