Le sfide delle aziende di intelligenza artificiale nell’ottenere dati di addestramento di alta qualità

Le aziende di intelligenza artificiale (IA) stanno affrontando una sfida significativa nel procurarsi dati di addestramento di alta qualità, secondo un recente rapporto. Questo problema ha spinto queste aziende a esplorare vari metodi per superare l’ostacolo, anche se ciò significa addentrarsi in territori oscuri del diritto d’autore dell’IA.

Una società prominente, OpenAI, si è trovata in uno stato di disperato bisogno di dati di addestramento e ha sviluppato il suo modello di trascrizione audio Whisper come soluzione. Questo modello ha trascritto oltre un milione di ore di video di YouTube, che sono stati successivamente utilizzati per addestrare GPT-4, il modello linguistico più avanzato di OpenAI. Sebbene OpenAI abbia riconosciuto le possibili implicazioni legali di questo approccio, ha ritenuto che rientrasse nel fair use. Inoltre, il presidente di OpenAI, Greg Brockman, ha supervisionato personalmente la raccolta dei video utilizzati per l’addestramento.

In risposta a queste dichiarazioni, il portavoce di OpenAI, Lindsay Held, ha affermato che l’azienda cura set di dati “unici” per ciascuno dei suoi modelli per migliorare la loro comprensione del mondo. Held ha spiegato che OpenAI utilizza varie fonti di dati, tra cui dati disponibili pubblicamente e partnership non pubbliche, esplorando anche la generazione di dati sintetici. Nel 2021, l’azienda ha esaurito le forniture esistenti di dati utili e ha iniziato a considerare la trascrizione di video di YouTube, podcast e audiolibri, insieme ad altre risorse come codici informatici da Github, database di mosse degli scacchi e contenuti educativi da Quizlet.

Google, un’altra grande protagonista nel campo dell’IA, ha affrontato sfide simili nell’ottenimento dei dati di addestramento. Il portavoce dell’azienda, Matt Bryant, ha risposto alle segnalazioni secondo cui OpenAI stava utilizzando contenuti di YouTube per scopi di addestramento. Bryant ha sottolineato che lo scraping o il download non autorizzato di contenuti di YouTube è strettamente vietato dai loro termini di servizio. Google ha ammesso di addestrare i propri modelli su determinati contenuti di YouTube in conformità con gli accordi stipulati con i creatori di YouTube. Inoltre, l’azienda ha apportato modifiche alla propria politica sulla privacy per ampliare i modi in cui potrebbe utilizzare i dati dei consumatori, come incorporarli negli strumenti di ufficio come Google Docs.

Meta, precedentemente nota come Facebook, ha incontrato ostacoli simili nell’ottenimento di dati di addestramento di alta qualità. Registrazioni ottenute dal The New York Times hanno rivelato discussioni all’interno del team di IA di Meta riguardanti l’uso non autorizzato di opere protette da diritto d’autore. Meta ha esplorato varie strategie per recuperare il terreno perso rispetto ad OpenAI, tra cui la possibilità di acquistare licenze di libri o addirittura acquisire una grande casa editrice. I cambiamenti relativi alla privacy apportati da Meta in risposta allo scandalo di Cambridge Analytica hanno limitato anche la sua capacità di utilizzare i dati dei consumatori.

Le aziende di intelligenza artificiale, tra cui Google, OpenAI e altre, stanno lottando con la diminuzione della disponibilità di dati di addestramento per i loro modelli, che dipendono pesantemente dal volume dei dati per il miglioramento. Il consumo rapido di nuovi contenuti potrebbe superare la capacità di ottenere dati di addestramento freschi entro il 2028. Alla luce di questa sfida, le possibili soluzioni menzionate nei recenti rapporti includono addestrare i modelli su dati sintetici generati dai propri modelli o adottare tecniche di apprendimento curricolare. Tuttavia, l’efficacia di questi approcci deve ancora essere dimostrata.

### Domande Frequenti

1. Perché le aziende di intelligenza artificiale stanno lottando nell’ottenere dati di addestramento di alta qualità?
Le aziende di intelligenza artificiale dipendono pesantemente da dati di addestramento di alta qualità per migliorare i loro modelli. Tuttavia, la disponibilità di tali dati sta diventando sempre più scarsa, presentando una sfida significativa per queste aziende.

2. Come sta affrontando OpenAI il problema della scarsità di dati?
OpenAI ha adottato vari metodi per affrontare la mancanza di dati di addestramento. Un approccio ha coinvolto lo sviluppo di un modello di trascrizione audio chiamato Whisper, che ha trascritto milioni di ore di video di YouTube per addestrare il suo modello linguistico. Tuttavia, questo metodo ha sollevato possibili preoccupazioni legali.

3. Come sta rispondendo Google alle affermazioni riguardanti l’uso non autorizzato di contenuti di YouTube?
Google vieta rigorosamente lo scraping o il download non autorizzato di contenuti di YouTube, come indicato nei loro termini di servizio. Sebbene l’azienda riconosca di addestrare modelli utilizzando specifici contenuti di YouTube, lo fa in conformità con gli accordi stipulati con i creatori di YouTube.

4. Come stanno esplorando le aziende di intelligenza artificiale soluzioni alternative per superare la scarsità di dati?
Le aziende di intelligenza artificiale stanno valutando varie strategie per affrontare la sfida della scarsità di dati. Alcune soluzioni potenziali includono addestrare i modelli su dati sintetici generati dai propri modelli o adottare tecniche di apprendimento curricolare, dove i modelli vengono forniti con dati di alta qualità in modo ordinato per migliorarne la comprensione.

### Fonti:
– The New York Times
– The Wall Street Journal
– The Verge
– Getty Images

Di [Il Tuo Nome], un appassionato di tecnologia e scrittore con una passione per le tecnologie emergenti.

The source of the article is from the blog smartphonemagazine.nl

Privacy policy
Contact