Den kraftige vækst i AI-industrien og udfordringerne ved dataakkvisition

I kampen om at udvikle avancerede kunstig intelligens (AI)-modeller har store tech-virksomheder som OpenAI, Google og Meta forfulgt utraditionelle og til tider kontroversielle metoder til at skaffe enorme mængder data. I takt med at AI-teknologien udvikler sig, er efterspørgslen efter store mængder data af høj kvalitet steget, hvilket har ført til, at disse virksomheder udforsker nye metoder til dataakkvisition.

Ifølge en nylig rapport har OpenAI anvendt over en million timers YouTube-videoer til at træne sin kraftfulde sprogmodel, GPT-4. I stedet for direkte at bruge videoerne, anvendte OpenAI et talegenkendelsesværktøj kaldet Whisper til at transkribere indholdet og generere ny samtaletekst. Mens denne tilgang rejste bekymringer om overholdelse af YouTubes politikker, da platformen begrænser uafhængige applikationer i at bruge dens videoer, fandt OpenAI en løsning ved at transkribere indholdet.

På samme måde er det blevet konstateret, at Google og Meta, moderfirmaet bag Facebook og Instagram, også har benyttet kontroversielle datakilder. Rapporten antyder, at Google har gennemført transskription af YouTube-videoer til AI-træning, potentielt overtrædelse af ophavsretlige love, og har endda ændret sine brugsvilkår for at få adgang til mere bruger-generet indhold. Meta har udforsket muligheden for at erhverve Simon & Schuster for at få adgang til et stort bibliotek af bøger og overvejet at bruge ophavsretligt beskyttede internetdata, på trods af moralske og juridiske implikationer.

Data Volumen og AI Præstationer
Effektiviteten af AI-modeller, især i at generere menneskelignende tekst, billeder, lyde og videoer, afhænger i høj grad af den mængde data, de trænes på. Den umættelige efterspørgsel efter data af høj kvalitet i AI-industrien har ført til spekulationer om, at tech-virksomhederne måske udtømmer den tilgængelige internetdata allerede i 2026. Dette illustrerer den afgørende rolle, som dataakkvisitionen spiller i at skubbe grænserne for AI-kapaciteter.

Svar fra Virksomhederne
OpenAI har svaret på bekymringerne ved at erklære, at hver af deres AI-modeller trænes på et unikt datasæt og understreger behovet for at opretholde konkurrenceevnen i forskningen. Google har på den anden side erkendt træning af deres AI-modeller på noget YouTube-indhold, men præciserede, at de gør dette under aftaler med indholdsoprettere. De pointerede yderligere, at data fra office-apps ikke anvendes uden for eksperimentelle programmer. Meta fokuserer på at integrere AI i deres tjenester ved at udnytte milliarder af offentligt delte billeder og videoer.

FAQ

1. Hvorfor har tech-virksomheder som OpenAI og Google brug for massive mængder data til at træne deres AI-modeller?
Tech-virksomheder er afhængige af store mængder data til at træne AI-modeller, fordi præstationen og præcisionen af disse modeller forbedres markant med den mængde data, de trænes på. Mere data tillader AI-modeller at lære mønstre, lave forudsigelser og generere mere realistiske og menneskelignende resultater.

2. Hvad er de kontroverser, der omgiver dataakkvisition fra disse tech-giganter?
Kontroverserne opstår, når tech-virksomheder bruger data fra kilder som YouTube uden eksplicit samtykke eller i potentielt overtrædelse af ophavsretlige love. Der er bekymringer om de etiske implikationer af sådanne praksisser og konsekvenserne for brugerprivatliv og immaterielle rettigheder.

3. Hvordan adresserer tech-virksomheder disse bekymringer?
OpenAI hævder, at hver af deres AI-modeller trænes på unikke datasæt for at bevare konkurrenceevnen. Google hævder at have aftaler med indholdsoprettere om brugen af YouTube-indhold og understreger, at data fra office-apps ikke anvendes uden for eksperimentelle programmer. Meta fokuserer på at udnytte offentligt delte billeder og videoer og er opmærksom på de juridiske og etiske overvejelser ved at få adgang til ophavsretligt beskyttede data.

Kilder:
– The New York Times: Nytimes
– WSJ: WSJ

The source of the article is from the blog japan-pc.jp

Privacy policy
Contact