Nuova piattaforma di testing AI garantisce risultati affidabili dai modelli linguistici

Sommario:
Con il rapido avanzamento delle piattaforme di intelligenza artificiale generativa (genAI), cresce la preoccupazione sulla affidabilità dei grandi modelli linguistici (LLM) che alimentano questi sistemi. Man mano che i LLM diventano sempre più abili nel mimare il linguaggio naturale, diventa sempre più difficile distinguere tra informazioni reali e false. Per affrontare questa problematica, una startup chiamata Patronus AI ha sviluppato una piattaforma automatizzata di valutazione e sicurezza che aiuta le aziende a utilizzare in modo sicuro i LLM. Utilizzando test avversari, gli strumenti di Patronus AI possono rilevare incongruenze, inesattezze, allucinazioni e parzialità nei LLM. Il software dell’azienda, noto come SimpleSafetyTests, utilizza una serie di strumenti diagnostici che comprendono 100 prompts di test per identificare rischi critici per la sicurezza nei sistemi AI. Nei loro test su popolari piattaforme genAI, Patronus AI ha scoperto che i chatbot hanno fallito circa il 70% delle volte e hanno avuto successo solo quando sono stati forniti istruzioni esplicite su dove trovare informazioni pertinenti. I risultati mettono in evidenza la necessità di un’assicurazione di qualità nei sistemi AI, poiché le aziende stanno attualmente spendendo risorse significative per la rilevazione degli errori manuali. Inoltre, gli analisti del settore prevedono che la crescente dipendenza dalla genAI renderà necessarie misure di sicurezza informatica più rigorose, portando a un aumento del 15% delle spese entro il 2025.

Nuova piattaforma di testing AI garantisce risultati affidabili:
Per affrontare le preoccupazioni sulla affidabilità dei modelli linguistici, Patronus AI ha sviluppato una innovativa piattaforma automatizzata di valutazione e sicurezza. Gli strumenti della startup mirano a garantire che i grandi modelli linguistici (LLM) utilizzati nei sistemi di intelligenza artificiale generativa (genAI) producano informazioni accurate e affidabili. SimpleSafetyTests, la suite di strumenti diagnostici di Patronus AI, utilizza test avversari per identificare rischi critici per la sicurezza nei LLM. Sottoponendo queste prove a popolari piattaforme genAI, il team ha scoperto che i chatbot hanno fallito circa il 70% delle volte quando si valutava la loro capacità di comprendere documenti SEC e altre informazioni essenziali. Questi fallimenti sono stati corretti solo quando sono state fornite istruzioni precise su dove trovare dati pertinenti.

La necessità di tali piattaforme di testing deriva dalle limitazioni dei sistemi AI attuali, poiché le aziende faticano a fidarsi della affidabilità dei contenuti generati da AI. La mancanza di fiducia nei LLM deriva da preoccupazioni legate ad allucinazioni, inesattezze e parzialità nei modelli linguistici. I metodi tradizionali di assicurazione di qualità sono insufficienti per individuare errori su larga scala, portando all’emergere di strumenti automatizzati come SimpleSafetyTests.

Guardando avanti, gli analisti del settore prevedono che l’aumento della dipendenza dalla tecnologia genAI comporterà la necessità di misure di sicurezza informatica migliorate. Questa maggiore domanda potrebbe comportare un aumento del 15% delle spese dedicate alla sicurezza dei sistemi AI entro il 2025. Mentre le aziende continuano a esplorare le implementazioni di AI, è essenziale riconoscere che questi sistemi non possono essere lasciati a funzionare in modalità automatica senza intervento umano. Il coinvolgimento umano è fondamentale per identificare e correggere i problemi che possono derivare dai contenuti generati da AI.

In conclusione, la nuova piattaforma di testing di Patronus AI offre una soluzione preziosa per garantire la affidabilità dei modelli linguistici nel campo in continua evoluzione della intelligenza artificiale generativa. Fornendo strumenti automatizzati per la rilevazione degli errori e la valutazione della sicurezza, SimpleSafetyTests aiuta le aziende a costruire fiducia nei sistemi AI e ad evitare i rischi associati a informazioni inaccurate o fuorvianti.

The source of the article is from the blog hashtagsroom.com