Brasilianske børns fotos fundet i AI-træningssæt

Den frivillige organisation Human Rights Watch har afsløret opdagelsen af brasilianske børns fotos inden for Laion-5B-databasen, en ressource anvendt til træning af kunstig intelligensalgoritmer af forskellige start-ups. Denne database indeholder identifikationsoplysninger om de viste børn. Laion, organisationen bag datasettet, erkendte eksistensen af sådant indhold og forpligtede sig til at slette det.

Tilstedeværelsen af disse billeder udgør betydelige privatlivsrisici. Rapporter har angivet, at AI-modeller muligvis kan genskabe de præcise oplysninger, der er inkluderet i træningsdataene. Derudover er der potentiale for, at disse børns fotos kan blive manipuleret til at skabe eksplicit indhold. Denne udvikling følger tidligere fund af materiale om børnemisbrug og lægejournaler inden for samme dataset.

Menneskerettighedsorganisationens undersøgelse førte til identifikation af 170 billeder fra mindst ti brasilianske stater. Disse fotos spænder fra et ømt øjeblik mellem en toårig pige og hendes nyfødte søster til studerende i skolepræsentationer og teenagere ved karnevalsfejringer. Nogle billedtekster inkluderede børnenes fulde navne, fødesteder og URL’er til de oprindelige fotolokationer.

Mange af disse billeder vises ikke længere i almindelige søgemaskiner eller billedsøgninger, da de stammer fra personlige blogs og foto-sharing-websites, hvor nogle af dem blev uploadet for over et årti siden.

Laion-5B-datasettet udgør del af Common Crawl-repositoriet og er blevet brugt til at træne bemærkelsesværdig AI som Stable Diffusion af Stability AI. Der var engang tilfælde, hvor Stanford University-researchere identificerede tilfælde af materiale om børnemisbrug blandt datasettets webskraldede data.

Problemet strækker sig ud over risikoen for krænkelse af børns privatliv. En kunstner fandt chokerende sit billede, der stammer fra personlige lægejournaler, inden for Laion-datasættet. Dette brud på privatlivet afspejler et bredere problem, da fotos fra forskellige klinikker og hospitaler blev fejlagtigt inkorporeret i datasættet.

Som svar på disse bekymringer har Laion lovet at fjerne billederne fra deres registre. De afviser dog påstanden om, at fuld reproduktion af data via AI-modeller er mulig, og antyder, at det skal være individernes eller deres værgeres ansvar at fjerne personlige billeder fra internettet, hvilket understreger kompleksiteten af digitalt privatliv i AI-æraen.