Approcci Innovativi per l’Allenamento dell’Intelligenza Artificiale senza Violare il Copyright

L’intelligenza artificiale (AI) ha fatto passi da gigante negli ultimi anni, ma una delle sfide nell’allenamento di questi modelli è stata l’uso di materiali protetti da copyright. Tuttavia, ora stanno emergendo metodi alternativi che consentono di addestrare modelli AI senza violare i diritti di proprietà intellettuale.

Un gruppo di ricercatori sostenuti dal governo francese ha fatto una rivoluzione in questo settore rilasciando un dataset significativo per l’allenamento dell’AI composto interamente da testi di pubblico dominio. Questo dataset fornisce la prova che i grandi modelli linguistici possono essere addestrati senza la necessità di utilizzare materiali protetti da copyright senza autorizzazione. Questo sviluppo apre nuove possibilità per l’allenamento dei modelli AI, garantendo il rispetto delle leggi sul copyright.

Inoltre, l’organizzazione no-profit Fairly Trained ha raggiunto un traguardo significativo certificando con successo il suo primo grande modello linguistico chiamato KL3M. Sviluppato da 273 Ventures, una start-up di consulenza legale con sede a Chicago, KL3M è stato addestrato utilizzando un dataset curato composto da documenti legali, finanziari e normativi. Rispettando le leggi sul copyright e utilizzando il proprio dataset, 273 Ventures ha dimostrato che è possibile costruire grandi modelli linguistici senza il problema controverso della violazione del copyright.

Jillian Bommarito, co-fondatrice di 273 Ventures, cita le preoccupazioni dei loro clienti avversi al rischio nell’industria legale come motivazione dietro la decisione di addestrare KL3M utilizzando il loro dataset. I clienti desideravano l’assicurazione che il loro modello AI non fosse basato su dati protetti da copyright o contaminati. Bommarito sottolinea che la dimensione del modello non deve essere eccessivamente grande e sottolinea l’importanza dei dati di alta qualità nel raggiungere prestazioni e specializzazioni migliori.

Sebbene i dataset come KL3M possano attualmente essere di dimensioni inferiori rispetto a quelli compilati da giganti del settore come OpenAI, c’è speranza per il futuro. I ricercatori hanno recentemente rilasciato il Common Corpus, dichiarato il più grande dataset disponibile per modelli linguistici di AI, composto esclusivamente da contenuti di pubblico dominio. Questo dataset, ospitato sulla piattaforma di AI open-source Hugging Face, include testi provenienti da giornali di pubblico dominio digitalizzati da istituzioni come la Biblioteca del Congresso degli Stati Uniti e la Biblioteca Nazionale della Francia. Il Common Corpus mira a fornire ai ricercatori e alle start-up un set di allenamento approvato privo di preoccupazioni legate al copyright.

Anche se i dataset composti da contenuti di pubblico dominio hanno limitazioni, come la presenza potenziale di informazioni antiquate, offrono un’importante risorsa per l’allenamento di grandi modelli linguistici. Progetti come Common Corpus e KL3M dimostrano un crescente scetticismo nella comunità di AI nei confronti dell’argomento dello scraping di dati senza autorizzazione. In effetti, Fairly Trained ha recentemente certificato la sua prima azienda a offrire modelli vocali di AI, dimostrando che c’è una tendenza crescente nel settore verso il conseguimento di licenze adeguate e il rispetto dei diritti di proprietà intellettuale.

Domande Frequenti (FAQ)

1. **Cos’è Fairly Trained?**
Fairly Trained è un’organizzazione no-profit che offre certificazioni alle aziende che possono dimostrare di aver addestrato i loro modelli AI con dati di loro proprietà, ottenuti tramite licenze o appartenenti al pubblico dominio. L’obiettivo di Fairly Trained è quello di promuovere pratiche equilibrate ed etiche nello sviluppo dell’AI.

2. **In cosa si differenzia KL3M da altri grandi modelli linguistici?**
KL3M è unico perché è stato addestrato utilizzando un dataset curato di documenti legali, finanziari e normativi che rispettano le leggi sul copyright. A differenza di altri modelli, KL3M evita i problemi legati alla violazione del copyright e fornisce risultati autorevoli e affidabili, rendendolo ideale per i clienti dell’industria legale.

3. **Cos’è il dataset Common Corpus?**
Il Common Corpus è un dataset di AI creato a partire da contenuti di pubblico dominio, come giornali digitalizzati provenienti da istituzioni come la Biblioteca del Congresso degli Stati Uniti e la Biblioteca Nazionale della Francia. Si prefigge di offrire ai ricercatori e alle start-up un set di allenamento approvato privo delle preoccupazioni legate al copyright, anche se potrebbe non contenere le informazioni più aggiornate.

4. **Perché c’è una tendenza crescente verso le licenze nel campo dell’AI?**
Con l’evolversi della tecnologia AI diventano sempre più evidenti l’esigenza di rispettare i diritti di proprietà intellettuale. Molte organizzazioni, incluso il Authors Guild e il SAG-AFTRA, supportano la missione di Fairly Trained di promuovere pratiche di licenza corrette nello sviluppo dell’AI.

The source of the article is from the blog macholevante.com

Privacy policy
Contact