La Quête Des Données Pour L’IA : Un Défi Éthique Pour Les Entreprises Technologiques

Les entreprises technologiques se retrouvent dans une course effrénée pour dominer le domaine de l’intelligence artificielle (IA) mais font face à un défi crucial : le besoin de vastes quantités de données pour entraîner leurs modèles d’IA. Pour répondre à cette exigence, des entreprises telles qu’OpenAI, Google et Meta ont pris des mesures discutables, allant à l’encontre des politiques corporatives et contournant parfois les limites légales.

Par exemple, OpenAI a été confronté à un problème d’approvisionnement fin 2021. Pour entraîner leur dernier système d’IA, ils avaient besoin de plus de données mais avaient épuisé les sources réputées de textes en anglais sur internet. En réponse, les chercheurs d’OpenAI ont développé Whisper, un outil de reconnaissance vocale qui transcrivait l’audio de vidéos YouTube. Le texte conversationnel résultant a été intégré dans leur puissant modèle d’IA, GPT-4, pour améliorer ses capacités.

L’utilisation de vidéos YouTube pour la transcription de texte a soulevé des préoccupations quant aux violations potentielles des règles de YouTube. Cependant, OpenAI a procédé à la transcription de plus de 1 million d’heures de vidéos, utilisant les textes pour améliorer leur système d’IA. Greg Brockman, le président d’OpenAI, a lui-même participé à la collecte de ces vidéos.

De même, Meta, la société mère de Facebook et Instagram, a exploré diverses méthodes pour acquérir les données nécessaires. Des réunions internes ont révélé des discussions sur l’acquisition de Simon & Schuster, une maison d’édition, pour accéder à des œuvres longues. Ils ont également envisagé de récolter des données protégées par des droits d’auteur sur internet, même si cela devait entraîner des conséquences légales. Négocier des licences avec des éditeurs et des créateurs de contenu était perçu comme fastidieux et peu pratique.

Google, un autre acteur majeur dans le domaine de l’IA, a eu recours à la transcription de vidéos YouTube pour la collecte de données, potentiellement enfreignant les droits d’auteur des créateurs de vidéos. La société a également étendu ses conditions d’utilisation pour accéder aux Google Docs publics, aux avis de restaurants sur Google Maps et à d’autres contenus en ligne, dans le but de les utiliser pour des produits d’IA.

Les actions de ces entreprises technologiques mettent en lumière la dépendance croissante aux informations en ligne pour alimenter les avancées en matière d’IA. Les textes, images, sons et vidéos créés par les humains sont devenus des ressources inestimables pour former les systèmes d’IA. À medida que les modèles d’IA deviennent plus puissants, la demande en données ne cesse de croître.

Les entreprises technologiques sont confrontées à un défi urgent pour accéder à des données de haute qualité. Alors que l’internet était autrefois une source abondante d’information, les avancées en matière d’IA nécessitent des référentiels plus diversifiés et étendus. Cependant, des réglementations telles que les lois sur la vie privée empêchent des entreprises comme Google et Meta de tirer parti du contenu généré par les utilisateurs à des fins d’IA.

Les experts prédisent que les géants de la technologie pourraient épuiser les données de haute qualité disponibles sur l’internet dès 2026. En conséquence, les entreprises se retrouvent à explorer des approches alternatives pour collecter des données, notamment la création d’informations synthétiques. Cela implique que les modèles d’IA génèrent du texte, des images et du code pour apprendre de leur propre production.

OpenAI, Google et Meta ont abordé les préoccupations concernant l’acquisition de données, mettant en avant leurs efforts pour sélectionner et intégrer des données dans leurs modèles d’IA. OpenAI affirme que chacun de ses modèles d’IA possède un ensemble de données unique, élaboré pour renforcer leur compréhension du monde. Google reconnaît l’utilisation de contenu YouTube, mais strictement conforme aux accords avec les créateurs, tandis que Meta met en avant sa vaste collection d’images et de vidéos partagées publiquement sur Instagram et Facebook.

L’utilisation croissante d’œuvres créatives par les entreprises d’IA a déclenché des litiges judiciaires concernant les droits d’auteur et les licences. De nombreux groupes professionnels, auteurs et entreprises ont soumis des commentaires au Bureau du droit d’auteur concernant l’utilisation de leurs œuvres par les modèles d’IA. Le Bureau du droit d’auteur est en train de préparer des orientations sur la manière dont le droit d’auteur s’applique à l’ère de l’IA.

Le dilemme des données pour l’IA est une problématique complexe qui implique de trouver un équilibre entre l’innovation et le respect des droits des créateurs. Alors que les entreprises technologiques s’efforcent de développer des systèmes d’IA avancés, la quête de données continuera d’évoluer, entraînant des débats permanents autour des limites éthiques et légales.

FAQs

The source of the article is from the blog j6simracing.com.br

Privacy policy
Contact