Fremtiden for AI-læring: Pionierende teknikker til syntetiske data

Bag de intelligente svar, der tilbydes af chatbots, ligger en enorm database, der ofte består af billioner af ord fra artikler, bøger og online kommentarer, som træner AI-systemer til at forstå brugerforespørgsler. Det er en udbredt tro i branchen, at akkumulering af så meget information som muligt er afgørende for udviklingen af AI-produkter til næste generation.

Dog er der en betydelig udfordring med denne tilgang: kun en vis mængde højkvalitetsdata er tilgængelig online. For at erhverve disse data betaler AI-virksomheder ofte millioner af dollars til forlag for indholdslicenser eller indsamler oplysninger fra websites, hvilket øger risikoen for ophavsretsanklage.

Førende AI-virksomheder udforsker en alternativ og til dels kontroversiel tilgang inden for AI-fællesskabet: brugen af syntetiske, eller i bund og grund ‘falske’, data. For eksempel genererer teknologivirksomheder tekst og medier gennem deres AI-systemer. Disse kunstige data bruges derefter til at træne fremtidige iterationer af disse AI-systemer, hvilket Dario Amodei, administrerende direktør for Anthropic, beskriver som et potentiale “uendeligt datagenereringsværktøj”. Denne metode tillader AI-virksomheder at omgå en række juridiske, etiske og privatlivsmæssige spørgsmål.

Syntetiske data inden for databehandling er ikke nyt – det er blevet anvendt i årtier til forskellige formål, herunder anonymisering af personoplysninger og simulering af kørselsforhold for autonom køretøjsteknologi. Imidlertid har AI-generative fremskridt muliggjort produktionen af højere kvalitet af syntetiske data i større skala, hvilket øger presset for implementering.

Generativ AI, der primært sigter mod at skabe ny information, producerer data, tekst, billeder, lyd, videoer og mere gennem processer som maskinlæring og dyb læring. Et prominent eksempel er OpenAIs GPT-modeller, der er i stand til at generere ny tekst baseret på deres tidligere træningsdata.

Anthropic oplyste til Bloomberg, at de har brugt syntetiske data til at opbygge deres seneste model, der understøtter deres chatbot, Claude. Både Meta Platforms og Google har også implementeret syntetiske data i udviklingen af deres seneste open-source-modeller.

Microsofts AI-forskningshold forsøgte at efterligne, hvordan børn lærer sprog, ved at skabe børnefortællinger ud fra en liste med 3.000 ord, som en fire-årig muligvis ville forstå, hvilket resulterede i millioner af korte historier, der forbedrede et AI-sprogmodels egenskaber. Denne forskning førte til udviklingen af en kompakt og open-source sprogmodel kendt som Phi-3, offentligt tilgængelig til brug.

Microsofts vicepræsident for AI, Sébastien Bubeck, bemærkede, at syntetiske data giver mere kontrol over modelens indlæringsproces, hvilket tillader detaljerede instruktioner, som ellers ikke ville være mulige. Dog udtrykker eksperter bekymringer vedrørende risiciene ved sådanne teknikker og advarer imod potentiel ‘modelkollaps’, som indikeret i forskning fra prominente universiteter som Oxford og Cambridge.

Mest vigtige spørgsmål og deres svar:

1. Hvad er syntetiske data?
Syntetiske data er kunstigt genererede oplysninger, der bruges som en alternativ til virkelighedsdata. Det oprettes gennem algoritmer og simuleringer og kan tage form af tekst, billeder, lyd, videoer osv.

2. Hvorfor er syntetiske data relevant for fremtiden inden for AI-indlæring?
Syntetiske data er relevant, fordi det kan give en ‘uendelig’ mængde træningsmateriale til AI uden de juridiske, etiske og privatlivsmæssige bekymringer, der er forbundet med scraping af virkelighedsdata.

3. Hvad er de vigtigste udfordringer forbundet med at bruge syntetiske data i AI?
En af de primære udfordringer er at sikre, at de syntetiske data er af høj kvalitet og nøjagtigt repræsenterer mangfoldigheden og kompleksiteten af virkelige scenarier. Der er også risikoen for ‘modelkollaps’, hvor AI begynder at producere homogene eller meningsløse resultater.

Kontroverser:

– Etiske Implikationer: Nogle frygter, at syntetiske data kan tillade forstærkning af bias eller føre til skabelsen af deepfakes, der kunne bruges til misinformation.
– Autenticitetsbekymringer: Der er en debat om, hvorvidt AI trænet udelukkende på syntetiske data kan opnå sand forståelse og kontekstuel bevidsthed svarende til det, der er udledt fra virkelighedsdata.

Fordele:

– Fordele på det Juridiske og Etiske Område: Undgår potentielle juridiske problemer relateret til data-skrapning og ophavsretskrænkelser.
– Kontrollerbarhed: Tillader designere at specificere og kontrollere scenarierne og parametrene for data, hvilket kan føre til potentielt bedre træningsresultater.
– Skalerbarhed: Kan generere store mængder data hurtigt og til en lavere omkostning sammenlignet med at erhverve virkelighedsdata.

Ulemper:

– Kvalitetssikring: At sikre, at de syntetiske data er tilstrækkeligt repræsentative til at træne effektive AI-modeller er udfordrende.
– Risiko for Overfitning: Der er en risiko for, at AI-modeller trænet på syntetiske data muligvis ikke præsterer godt med virkelighedsdata på grund af overfitning til de kunstige datasæt.
– Kompleksitet: At skabe højkvalitets syntetiske data kan være komplekst og kræve ressourcer.

Foreslåede relaterede links:

– For en oversigt over AI og maskinlæring, besøg OpenAI.
– For at lære om generativ AI’s rolle i skabelsen af syntetiske data, skal du besøge DeepMind.
– Information om den etiske anvendelse af kunstig intelligens kan findes på Partnership on AI.

Generativ AI og syntetiske data-teknikker fortsætter med at udvikle sig, hvilket presser grænserne for, hvad der er muligt inden for AI-læring og åbner op for nye muligheder, der kan forme fremtidens teknologi.

The source of the article is from the blog oinegro.com.br