Surpasser les défis des données d’entraînement de haute qualité pour les entreprises d’IA

Les entreprises d’intelligence artificielle (IA) sont confrontées à un défi majeur pour acquérir des données d’entraînement de haute qualité, selon un rapport récent. Cette problématique pousse ces sociétés à explorer diverses méthodes pour surmonter l’obstacle, même si cela implique de s’aventurer dans des domaines flous de la législation sur le droit d’auteur en IA.

Une entreprise de premier plan, OpenAI, s’est retrouvée dans le besoin urgent de données d’entraînement et a développé son modèle de transcription audio Whisper comme solution. Ce modèle a transcrit plus d’un million d’heures de vidéos YouTube, qui ont ensuite été utilisées pour entraîner le GPT-4, le modèle de langage le plus avancé d’OpenAI. Bien qu’OpenAI ait reconnu les implications légales potentielles de cette approche, elle a estimé qu’elle relevait de l’utilisation équitable. Notamment, le président d’OpenAI, Greg Brockman, a personnellement supervisé la collecte des vidéos utilisées pour l’entraînement.

En réponse à ces affirmations, la porte-parole d’OpenAI, Lindsay Held, a déclaré que l’entreprise constitue des ensembles de données « uniques » pour chacun de ses modèles afin d’améliorer leur compréhension du monde. Held a expliqué qu’OpenAI utilise diverses sources de données, y compris des données disponibles publiquement et des partenariats non publics, tout en explorant la génération de données synthétiques. L’entreprise a épuisé ses réserves existantes de données utiles en 2021 et a commencé à envisager de transcrire des vidéos YouTube, des podcasts et des livres audio, en plus d’autres ressources telles que du code informatique provenant de Github, des bases de données de mouvements d’échecs et du contenu éducatif de Quizlet.

Google, un autre acteur majeur dans le domaine de l’IA, a également rencontré des difficultés pour obtenir des données d’entraînement. Le porte-parole de l’entreprise, Matt Bryant, a réagi aux rapports selon lesquels OpenAI utilisait du contenu YouTube à des fins d’entraînement. Bryant a souligné que le grattage ou le téléchargement non autorisé de contenu YouTube est strictement interdit par leurs conditions d’utilisation. Google a reconnu entraîner ses modèles sur une sélection de contenus YouTube conformément aux accords conclus avec les créateurs de contenu YouTube. De plus, l’entreprise a apporté des modifications à sa politique de confidentialité pour élargir les moyens par lesquels elle peut utiliser les données des consommateurs, comme les incorporer dans des outils de bureau comme Google Docs.

Meta, anciennement connu sous le nom de Facebook, a rencontré des obstacles similaires pour acquérir des données d’entraînement de haute qualité. Des enregistrements obtenus par The New York Times ont révélé des discussions au sein de l’équipe d’IA de Meta concernant l’utilisation non autorisée d’œuvres protégées par des droits d’auteur. Meta a exploré diverses stratégies pour rattraper OpenAI, notamment la possibilité d’acheter des licences de livre ou même d’acquérir directement une grande maison d’édition. Les changements liés à la vie privée apportés par Meta en réponse au scandale de Cambridge Analytica ont également limité sa capacité à utiliser les données des consommateurs.

Les entreprises d’IA, Google, OpenAI, et d’autres, font face à la rareté croissante des données d’entraînement pour leurs modèles, qui reposent fortement sur le volume de données pour s’améliorer. La consommation rapide de nouveaux contenus pourrait dépasser la capacité d’obtenir de nouvelles données d’entraînement d’ici 2028. Face à ce défi, les solutions possibles mentionnées dans des rapports récents incluent l’entraînement de modèles sur des données synthétiques générées par leurs propres modèles ou l’adoption de techniques d’apprentissage par curriculum, où les modèles reçoivent des données de haute qualité de manière ordonnée pour améliorer leur compréhension. Cependant, l’efficacité de ces approches reste à prouver.

FAQ

The source of the article is from the blog regiozottegem.be

Privacy policy
Contact