Et antal tech-giganter, herunder Apple, står over for beskyldninger om at træne AI-modeller ved hjælp af YouTube-klip uden samtykke fra indholdsopretterne. I stedet for at indhente tilladelse har disse virksomheder ekstraheret undertekster fra over 170.000 videoer gennem en tredjepartsapplikation.
Berørte skabere som den prominente tech-vlogger Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver og Jimmy Kimmel er alle blevet påvirket af denne uautoriserede brug af deres indhold. De ekstraherede undertekster er transskriptioner af videoindholdet, hvilket er en tydelig overtrædelse af YouTubes retningslinjer.
Afsløringen af undersøgelsen og resultaterne
En undersøgelse foretaget af Proof News har kastet lys over, hvordan nogle af de rigeste virksomheder globalt har brugt materiale fra tusindvis af YouTube-videoer til at træne deres AI-modeller, uden at respektere platformens regler. Efterforskningen afslørede, at undertekster fra 173.536 YouTube-videoer, der stammer fra over 48.000 kanaler, blev brugt af tech-kæmper som Anthropic, Nvidia, Apple og Salesforce.
Downloadene blev udført af EleutherAI, en non-profit organisation, der hjælper udviklere med at træne sprogmodeller. På trods af deres erklærede formål med at tilbyde træningsressourcer til små udviklere og akademikere, blev datasættet også vedtaget af store tech-firmaer, herunder Apple.
Brug af Pile-datasættet
Som beskrevet i en forskningsartikel udgivet af EleutherAI, er datasættet i spørgsmålet en del af en samling kendt som Pile. Disse datasæt er åbent tilgængelige for alle på internettet, hvis de har de nødvendige ressourcer og regnekraft. Ikke kun tech-giganter, men også akademikere og udviklere uden for de store tech-firmaer har udnyttet disse datasæt.
Virksomheder som Apple, Nvidia og Salesforce, der har værdier i hundredvis af milliarder og billioner af dollars, har detaljerede i deres forskningsartikler, hvordan de udnyttede Pile til AI-træningsformål. Rapporter indikerer, at Apple brugte Pile til at træne OpenELM, en sprogmodel lanceret i april, kort tid før afsløringen af nye AI-funktioner til iPhones og MacBooks.
Yderligere implikationer af uautoriseret brug af indhold til AI-træning
Mens den indledende undersøgelse belyste den udbredte uautoriserede ekstraktion af YouTube-indhold til træning af AI-modeller, opstår der yderligere implikationer fra denne praksis. Tech-giganternes brug af undertekster fra YouTube-videoer uden udtrykkeligt samtykke fra indholdsopretterne rejser flere kritiske spørgsmål, der fortjener at blive udforsket.