Approccio Innovativo Alla Formazione di IA Che Imita la Curiosità Umana per Evitare Risposte Tossiche

Nella continua ricerca di un’intelligenza artificiale (IA) più sicura, i ricercatori del MIT hanno ottenuto una svolta con una nuova tecnica di addestramento che emula la curiosità umana. Questo metodo sfida i modelli di IA a generare input potenzialmente dannosi più vari di quelli che i team umani concepirebbero. La tecnica nota come “red teaming basato sulla curiosità” (CRT) mira a migliorare i grandi modelli di linguaggio (LLM) come ChatGPT e assicura che non forniscano risposte tossiche alle domande degli utenti.

L’addestramento prevede di impostare un’IA per creare automaticamente un insieme più ampio e vario di messaggi che potrebbero elicere contenuti dannosi da un’altra IA. Utilizzando il reinforcement learning, il modello CRT è premiato per la sua curiosità ogni volta che induce una risposta tossica dal LLM.

Il concetto chiave dietro il CRT è quello di potenziare la capacità dell’IA di produrre un ampio spettro di casi di test — oltre a quanto i gruppi umani di red team possano anticipare. Questo serve a evitare che un chatbot in produzione fornisca risposte inappropriare a prompt insoliti o trascurati durante l’interazione pubblica.

Tecniche precedenti dipendevano fortemente da team umani che compilavano liste di prompt potenziali; tuttavia, questo approccio manuale aveva limitazioni in quanto l’immaginazione umana è finita. Riconoscendo questa limitazione, il sistema CRT è stato progettato per creare continuamente nuovi prompt basati sui risultati di ogni test, esplorando nuove combinazioni di parole, frasi o significati non ancora provati.

L’efficacia del CRT è stata dimostrata quando ha superato i sistemi di addestramento automatizzati esistenti. Quando testato rispetto al modello open-source LLaMA2, il CRT ha generato 196 prompt problematici, anche se il LLM era già stato ottimizzato dai piloti umani per evitare comportamenti tossici.

Attraverso questi progressi, i ricercatori del MIT mirano a garantire che mentre i modelli di IA diventano più integrati nella vita quotidiana, vengano attentamente valutati per l’uso pubblico, rendendo le nostre interazioni con questi sistemi intelligenti più sicure e affidabili.

The source of the article is from the blog shakirabrasil.info