Modelli linguistici di intelligenza artificiale affrontano il potenziale rischio di una carenza di risorse di addestramento.

Una nuova era del consumo di informazioni è all’orizzonte, poiché sistemi di intelligenza artificiale simili a ChatGPT sono previsti esaurire i trilioni di parole disponibili su Internet entro la prossima decade. Epoch AI, un gruppo di ricerca, stima che i dati di addestramento pubblicamente disponibili per modelli di linguaggio di intelligenza artificiale potrebbero esaurirsi tra il 2026 e il 2032.

Lo studio paragona l’impennata della richiesta di dati testuali a una ‘corsa all’oro’, trasmettendo un’immagine in cui l’IA potrebbe affrontare delle sfide nel mantenere il progresso una volta che le scorte di testo generato dall’uomo saranno esaurite. Aziende tecnologiche come OpenAI e Google sono attualmente in una corsa per assicurarsi fonti di dati di alta qualità per addestrare i loro sofisticati modelli di linguaggio. Vengono firmati accordi per beneficiare di flussi di frasi provenienti da forum come Reddit e tradizionali media di news.

Man mano che l’orizzonte si avvicina, è probabile che la quantità di nuovi blog, articoli di news e post sui social media non sia sufficiente a mantenere l’attuale traiettoria di sviluppo dell’IA. Ciò potrebbe spingere le aziende ad accedere a dati più sensibili, come email o messaggi di testo, o a fare affidamento su “dati sintetici” meno affidabili creati dai chatbot stessi.

I ricercatori di Epoch AI, dopo ulteriori studi, hanno previsto che i dati di testo pubblici potrebbero esaurirsi nei prossimi due otto anni, nonostante i miglioramenti nell’utilizzo più efficiente dei dati esistenti e l’emergere di tecniche per evitare ‘sovrallenamento’ modelli sugli stessi set di dati.

L’appetito vorace dell’IA per il testo ha registrato un aumento annuale di 2,5 volte nella quantità di dati testuali trasferiti ai modelli di linguaggio di intelligenza artificiale. Allo stesso tempo, la potenza di calcolo cresce di circa quattro volte all’anno. Queste considerazioni saranno presentate alla prossima Conferenza Internazionale sull’Apprendimento Automatico a Vienna, Austria.

Il dibattito su se questo bottleneck dei dati meriti preoccupazione è in corso. Nicolas Papernot, dell’Università di Toronto e del Vector Institute for Artificial Intelligence, sottolinea che è importante ricordare che modelli sempre più grandi potrebbero non essere necessari. Egli suggerisce che sistemi di intelligenza artificiale più sofisticati potrebbero derivare da un addestramento più specializzato su compiti specifici. Tuttavia, sorgono preoccupazioni quando si ritraining sistemi di intelligenza artificiale sulle loro produzioni, potenzialmente portando a un “crollo del modello” con risultati scadenti.

Papernot paragona l’addestramento su dati generati dall’IA a copiare una fotocopia, dove i dettagli vengono inevitabilmente persi, potenzialmente incorporando più in profondità i pregiudizi e gli errori esistenti nell’ecosistema delle informazioni.

Mentre lo studio di Epoch rivela che pagare milioni di persone per produrre testi per i modelli di intelligenza artificiale non è una soluzione praticabile per migliorare le prestazioni tecniche, alcune aziende stanno esplorando la produzione di grandi quantità di dati sintetici per l’addestramento. Sam Altman, CEO di OpenAI, ha indicato che l’azienda sta sperimentando questo approccio mentre lavora alla prossima generazione di modelli di linguaggio GPT.

La potenziale carenza di dati per i modelli di linguaggio di intelligenza artificiale solleva diverse importanti domande, sfide e controversie:

1. Quali sono i potenziali rischi nell’utilizzare dati sensibili per addestrare l’IA?
Per far fronte alla scarsità di dati di testo pubblici, le aziende potrebbero considerare di attingere a dati sensibili, come le comunicazioni private. Tuttavia, ciò pone significativi problemi di privacy ed etica. L’uso di tali dati potrebbe portare a un accesso non autorizzato a informazioni personali e a violazioni della riservatezza, sollevando questioni sul consenso dell’utente e sull’eventuale cattivo uso dei dati.

2. In che modo una carenza di dati potrebbe influenzare lo sviluppo dei modelli di linguaggio di intelligenza artificiale?
Una carenza potrebbe ostacolare la progressione di modelli di intelligenza artificiale più sofisticati, che dipendono pesantemente da ampi set di dati per l’addestramento. Senza un costante flusso di dati testuali diversificati ed estesi, i modelli potrebbero non migliorare al ritmo desiderato, il che potrebbe limitare gli avanzamenti nelle capacità e nelle applicazioni dell’IA.

3. Esistono approcci alternativi per addestrare i modelli di linguaggio di intelligenza artificiale senza grandi set di dati?
La ricerca su un utilizzo più efficiente dei dati esistenti e su tecniche come il learning transfer, in cui un modello preaddestrato viene tarato su un set di dati più piccolo e specifico per il compito, potrebbe alleviare la domanda di vasti nuovi corpus di testi. Inoltre, metodi di apprendimento non supervisionato e semi-supervisionato che richiedono meno dati etichettati potrebbero essere esplorati.

Principali sfide e controversie includono:
– Creare “dati sintetici”: Utilizzare testo generato dall’IA come materiale di addestramento può introdurre dei pregiudizi e deteriorare la qualità delle produzioni dell’IA. Ciò solleva anche un dibattito sull’originalità e l’autenticità dei contenuti prodotti da modelli di intelligenza artificiale addestrate su dati sintetici.
– Diversità e qualità dei dati: La necessità di set di dati diversi e di alta qualità per garantire che i modelli di linguaggio di intelligenza artificiale non radichino i pregiudizi esistenti o le inesattezze nelle loro produzioni.
– Scalabilità dell’addestramento: Man mano che i modelli diventano più grandi, la potenza di calcolo e la quantità di dati richiesti per l’addestramento aumentano in modo esponenziale, sollevando preoccupazioni sulla sostenibilità ambientale ed economica.

I vantaggi e gli svantaggi dell’attuale tendenza dello sviluppo dei modelli di linguaggio di intelligenza artificiale sono:
– Vantaggi:
– Miglioramento delle capacità dell’IA nel comprendere e generare testo simile a quello umano.
– Migliorie potenziali in una vasta gamma di settori, dal servizio clienti alla sanità.
– Maggiore efficienza attraverso l’automatizzazione di compiti che richiedono l’elaborazione del linguaggio naturale.

– Svantaggi:
– Dipendenza da ampi set di dati che potrebbero diventare scarsa o eticamente discutibili da ottenere.
– Impatto ambientale dovuto all’aumento del consumo energetico per l’addestramento di modelli massicci.
– Rischio di rinforzare i pregiudizi e ridurre la qualità delle produzioni dell’IA con dati sintetici.

Link correlati:
– OpenAI
– Università di Toronto, Dipartimento di Scienze Informatiche
– Vector Institute for Artificial Intelligence

Si prega di notare che, mentre garantisco la validità di questi URL fino alla mia data di riferimento, consiglio di verificare i link, poiché gli URL possono essere soggetti a modifiche o diventare obsoleti.