Brasilianska barns foton hittade i AI-träningsdatasetet

Den ideella organisationen Human Rights Watch har avslöjat upptäckten av brasilienbarns foton inom Laion-5B-databasen, en resurs som används för att träna artificiell intelligens av olika uppstartsföretag. Denna databas innehåller identifieringsinformation om de barn som visas. Laion, den ideella organisationen bakom datasetet, erkände existensen av en sådan innehåll och åtog sig att ta bort den.

Närvaron av dessa bilder medför betydande integritetsrisker. Rapporter har förmedlat att AI-modeller kan återskapa de exakta detaljerna som ingår i träningsdatan. Dessutom finns potential för att dessa barns foton kan manipuleras för att skapa explicit innehåll. Denna utveckling följer tidigare upptäckter av barnpornografiskt material och medicinska journaler inom samma dataset.

En granskning av Human Rights Watch ledde till identifieringen av 170 bilder från minst tio brasilianska stater. Dessa foton spände från en öm stund mellan en tvåårig flicka och hennes nyfödda syster till elever i skolpresentationer och tonåringar på karnevals firanden. Vissa bildtexter inkluderade barnens fullständiga namn, födelseorter och URL:er för de ursprungliga bildplatserna.

Många av dessa bilder syns inte längre i vanliga sökmotorer eller omvända bildsökningar, då de härstammar från personliga bloggar och foton-delningssajter, varav vissa laddades upp för över ett decennium sedan.

Laion-5B datasetet utgör en del av Common Crawl-repositoriet och har använts för att träna kända AI som Stable Diffusion av Stability AI. Stanford University-forskare identifierade tidigare instanser av barnpornografiskt innehåll bland datasetets webbskrapade data.

Problemet sträcker sig bortom barns integritetsrisk. En konstnär fann chockerande sin bild, härrörande från personliga medicinska journaler, inom Laion datasetet. Denna integritetskränkning återspeglar ett större problem då foton från olika kliniker och sjukhus inkorporerades felaktigt i datasetet.

Som svar på dessa bekymmer har Laion lovat att rensa bilderna från sina register. Dock förnekar de påståendet om att en fullständig reproduktion av data av AI-modeller är genomförbar och föreslår att ansvaret bör ligga på individerna eller deras vårdnadshavare att ta bort personliga bilder från internet, vilket understryker den komplexitet som digital integritet innebär i AI-eran.