Forbedring af AI's refleksion af samfundet gennem inklusiv data

Addressing the Learning Gap in Large Language Models

Inden for kunstig intelligens er betydningen af omfattende data for at forsyne sprogmodeller af afgørende betydning. Mens vi stræber efter at udvikle systemer, som afspejler vores mangfoldige samfund, opstår der en afgørende udfordring: at sikre, at store sprogmodeller (LLM’er) omfatter et komplet spektrum af menneskelig forståelse.

Kilden til viden for sprogmodeller

Samtaler om de kilder, der indgår i disse modeller, afslører en kompleks virkelighed. Mens det kan forekomme, at LLM’er som Chat GPT og Gemini absorberer information fra alle hjørner af det digitale univers, er sandheden mere nuanceret. De store modeller er i høj grad afhængige af offentlige internetdata og udelader et stort antal indsigter fra ophavsretligt beskyttet eller privat ejede materialer.

Det underrepræsenterede dataspektrum

Dette problem blev tydeliggjort under lanceringseventet for nora.ai, en betydningsfuld sprogmodel for de norske sprog. Repræsentanter fra Norges Nationalbibliotek demonstrerede den markante forskel i tilgængelighed af data. Biblioteket har opbygget et betydeligt digitalt arkiv siden 2006, men omfanget af disse ressourcer informerer sjældent AI-modeller på grund af ophavsretlige restriktioner.

De manglende forbindelser i kulturel forståelse

For at LLM’er kan forstå mere end bare grammatik – for at fange essensen af kulturel udtryksevne – må de navigere ud over blot ord. De rigeste og mest værdifulde data forbliver ofte bag lukkede døre og former AI’s verdensforståelse, især i mindre udbredte sprog som norsk.

Fremad mod universelt tilgængelige data til AI-udvikling

Udviklingen af sprogmodeller kræver strategier, der adskiller værdifuld information fra upålideligt indhold. Dette kræver træning på en bredere vifte af datatyper, herunder ophavsretligt beskyttet og begrænset indhold på alle skrevne sprog. Ideelt set ville denne information blive delt bredt til gavn for alle grundlæggende modeller.

At fremme en repræsentativ og pålidelig AI

Jagten på en repræsentativ og pålidelig AI fortsætter, og lovende løsninger kan ligge i samarbejdsbestræbelser som nora.ai. To afgørende udgangspunkter kunne inkludere træning af LLM’er på ophavsretligt beskyttet indhold uden at krænke rettighederne og gøre træningssæt universelt tilgængelige gennem open-source eller Creative Commons licensordninger.

Ved at opnå dette kan vi fremme væksten af LLM’er, der mere nøjagtigt tolker og afspejler det rige tæppe af samfundet, de tjener, og sikre, at kunstig intelligens bidrager endnu mere positivt til vores liv.

The source of the article is from the blog combopop.com.br