Tittelen blir: Framtida for AI-læring: Pionererar kunstige data-teknikkar

Bak dei intelligente svara dei prosjekterte av chatbots ligg ein enorm database, ofte omfattande billionar av ord frå artiklar, bøker og kommentarar på nettet, som trenar AI-system til å forstå brukarforespurnader. Det er ein utbreidd tru i bransjen at å samle så mykje informasjon som mogleg er nøkkelen til utviklinga av neste generasjons AI-produkt.

Likevel er det ei betydeleg utfordring med denne tilnærminga: berre ein viss mengd høgkvalitetsdata er tilgjengeleg på nettet. For å skaffe denne dataen betaler AI-selskap ofte millionar av dollar til forleggjarar for innhaldslisensar eller samlar informasjon frå nettsider, med risiko for søksmål om brot på opphavsrett.

Leiande AI-firma utforskar ei alternativ og noko kontroversiell tilnærming innan AI-samfunnet: bruken av syntetiske, eller i grunn «falske», data. Teknologiselskap genererer til dømes tekst og media gjennom AI-systema sine. Desse kunstige data blir deretter brukt til å trene framtidige iterasjonar av dei AI-systema, som Dario Amodei, administrerande direktør i Anthropic, beskriv som eit potensielt «uendeleg data-genereringsverktøy.» Denne metodikken gjev AI-selskap moglegheita til å unngå ei rekke juridiske, etiske og personvernsmessige problemstillingar.

Syntetiske data i databehandling er ikkje nytt – det har vore nytta i tiår for ulike føremål, inkludert anonymisering av personopplysningar og simulering av køyreforhold for autonom kjøretøyteknologi. Likevel har generative framskritt innafor AI har gjort produksjonen av høgkvalitets syntetiske data i større skala mogleg, noko som gir ein presserande grunn til å implementere det.

Generativ AI, som har som hovudfokus å skape ny informasjon, produserer data, tekst, bilete, lyd, video og meir gjennom prosessar som maskinlæring og djuplæring. Eit framståande døme er OpenAI sine GPT-modellar, som er i stand til å generere ny tekst basert på tidlegare treningsdata.

Anthropic opplyste til Bloomberg at dei har brukt syntetiske data til å bygge si nyaste modell som støttar deira chatbot, Claude. Meta Platforms og Google har òg implementert syntetiske data i utviklinga av dei siste open-source modellane sine.

Microsoft si AI-forskingsgruppe prøvde å etterlikne korleis born lærer språk ved å lage eventyr frå ei liste med 3 000 ord ein fireåring kunne forstå, noko som resulterte i millionar av korte historier som forbetra ein AI-språkmodell sine evner. Denne forskinga førte til utviklinga av ein kompakt og open-source språkmodell kjend som Phi-3, offentleg tilgjengeleg for bruk.

Microsoft sin visepresident for AI, Sébastien Bubeck, la merke til at syntetisk data gir meir kontroll over modellen sin læringsprosess, noko som tillèt detaljerte instruksjonar som kanskje elles ikkje er mogleg. Likevel uttrykk eksperter bekymringar for risikoen knytta til slike teknikkar, og advarar mot mogleg «modellkollaps», som indikert av forsking frå framståande universitet som Oxford og Cambridge.

Dei viktigaste spørsmåla og svarene deira:

1. Kva er syntetiske data?
Syntetiske data er kunstig generert informasjon nytta som eit alternativ til data frå den verkelege verda. Det blir skapt gjennom algoritmar og simuleringar og kan ta form av tekst, bilete, lyd, video osb.

2. Kvifor er syntetiske data relevant for framtida for AI-læring?
Syntetiske data er relevant fordi det kan gi ei «uendelig» mengd treningsmateriale for AI utan dei juridiske, etiske og personvernsmessige bekymringane som følgjer med å innhente data frå den verkelege verda.

3. Kva er hovudutfordringane knytt til bruk av syntetiske data i AI?
Ein av hovudutfordringane er å sikre at dei syntetiske dataene er av høg kvalitet og nøyaktig representerer mangfaldet og kompleksiteten av situasjonane i den verkelege verda. Det er òg risikoen for «modellkollaps», der AI-en begynner å produsere homogene eller ulogiske resultat.

Konfliktar:

– Etiske implikasjonar: Nokre fryktar at syntetiske data kan tillate for forsterking av skjeiveheter eller føre til oppretting av dypefakes som kan bli nytta til misinformasjon.
– Autentisitetsbekymringar: Det er ein debatt om korvidt AI trent utelukkande på syntetiske data kan oppnå ei verkeleg forståing og kontekstuell bevisstheit som tilsvarar det ein får frå data frå den verkelege verda.

Fordelar:

– Juridiske og etiske fordelar: Det unngår potensielle lovrelaterte problemstillingar knytt til innhenting av data og brot på opphavsrett.
– Kontrollerbarheit: Tillét designerar å spesifisere og kontrollere situasjonane og parametrane til dataen, noko som kan føre til potensielt betre treningsresultat.
– Skalerbarheit: Kan generere store mengder data raskt og til ein lågare kostnad samanlikna med å skaffe data frå den verkelege verda.

Ulemper:

– Kvalitetssikring: Å sikre at dei syntetiske dataene er representativ nok til å trene effektive AI-modellar er utfordrande.
– Risiko for overtilpassing: Det er ein risiko for at AI-modellar trent på syntetiske data ikkje presterer godt med data frå den verkelege verda på grunn av overtilpassing til dei kunstige datasetta.
– Kompleksitet: Å skape høgkvalitets syntetiske data kan vere komplekst og ressurskrevjande.

Foreslåtte relaterte lenker:

– For ein oversikt over AI og maskinlæring, besøk OpenAI.
– For å lære meir om generativ AI sin rolle i å lage syntetiske data, sjekk ut DeepMind.
– Informasjon om den etiske bruken av kunstig intelligens finn du på Partnership on AI.

Generativ AI og syntetiske datateknikkar fortset å utvikle seg, og pressar grensene for kva som er mogleg innanfor AI-læring, og opnar opp for nye moglegheiter som kan forme teknologien i framtida.