Le Futur Prometteur des Modèles d'IA en Respectant les Droits d'Auteur

Les modèles d’intelligence artificielle (IA) ont connu des avancées significatives ces dernières années, mais l’un des défis dans la formation de ces modèles a été l’utilisation de matériaux protégés par des droits d’auteur. Cependant, de nouvelles méthodes émergent désormais pour permettre la formation des modèles d’IA sans enfreindre les droits de propriété intellectuelle.

Un groupe de chercheurs soutenu par le gouvernement français a apporté une contribution révolutionnaire dans ce domaine en publiant un ensemble de données d’entraînement en IA composé entièrement de textes du domaine public. Cet ensemble de données fournit des preuves que de grands modèles linguistiques peuvent être formés sans avoir besoin d’utiliser des matériaux protégés par des droits d’auteur sans permission. Ce développement ouvre de nouvelles perspectives pour l’entraînement des modèles d’IA, garantissant la conformité avec les lois sur le droit d’auteur.

De plus, l’organisation à but non lucratif Fairly Trained a franchi une étape importante en certifiant avec succès son premier grand modèle linguistique appelé KL3M. Développé par 273 Ventures, une startup de conseils juridiques basée à Chicago, KL3M a été formé en utilisant un ensemble de données sélectionné composé de documents juridiques, financiers et réglementaires. En respectant les lois sur le droit d’auteur et en utilisant leur propre ensemble de données, 273 Ventures a démontré qu’il est possible de construire de grands modèles linguistiques sans le problème controversé de l’infraction au droit d’auteur.

Jillian Bommarito, co-fondatrice de 273 Ventures, mentionne les préoccupations de leurs clients prudents du secteur juridique comme motivation derrière leur décision de former KL3M en utilisant leur propre ensemble de données. Les clients voulaient des assurances que leur modèle d’IA n’était pas basé sur des données protégées par des droits d’auteur ou contaminées. Bommarito souligne que la taille du modèle n’a pas besoin d’être extrêmement grande et met en avant l’importance des données de haute qualité pour obtenir de meilleures performances et spécialisations.

Bien que des ensembles de données comme KL3M puissent actuellement être plus petits que ceux compilés par des géants de l’industrie comme OpenAI, il y a de l’espoir pour l’avenir. Les chercheurs ont récemment publié le Common Corpus, présenté comme le plus grand ensemble de données d’IA disponible pour les modèles linguistiques, composé uniquement de contenu du domaine public. Cet ensemble de données, hébergé sur la plateforme d’IA open-source Hugging Face, inclut des textes de journaux du domaine public numérisés par des institutions comme la Bibliothèque du Congrès des États-Unis et la Bibliothèque Nationale de France. Le Common Corpus vise à fournir aux chercheurs et aux startups un ensemble de données d’entraînement vérifié exempt de problèmes de droit d’auteur.

Bien que les ensembles de données composés de contenu du domaine public aient des limites, comme le fait de contenir potentiellement des informations anciennes, ils offrent une

The source of the article is from the blog klikeri.rs