Tehnoloģijas lieluzņēmumi apsūdzēti nepilnvarotā YouTube satura izmantošanā AI apmācībām

Vairāku tehnoloģiju gigantu, tostarp Apple, apsūdz netautiski izmantojot YouTube klipus, lai apmācītu AI modeļus, neiegūstot saturveidotāju atļauju. Šie uzņēmumi, neizmantojot atļauju, ir izvilkusi subtitrus no vairāk nekā 170 000 video, izmantojot trešās puses lietojumprogrammu.

Skārušie veidotāji, piemēram, populārie tehnoloģiju blogeri Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stīvens Kolberts, Džons Olivers un Džimijs Kimmels visi ir cietuši no šā nereglamentētā satura izmantošanas. Izvilktais subtitrs ir video satura transkripcijas, kas ir skaidrs YouTube politikas pārkāpums.

Atklājot izmeklēšanu un secinājumus

Proof News veikta izmeklēšana ir guvusi gaismu par to, kā daži no pasaules bagātākajiem uzņēmumiem ir izmantojuši materiālus no tūkstošiem YouTube video, lai apmācītu savus AI modeļus, ignorējot platformas noteikumus. Izmeklēšana atklāja, ka subtitri no 173 536 YouTube video, kas cēlušies no vairāk nekā 48 000 kanāliem, tika izmantoti tehnoloģiju titāni kā Anthropic, Nvidia, Apple un Salesforce.

Lejupielādes veica EleutherAI, labdarības organizācija, kas palīdz izstrādātājiem apmācīt valodu modeļus. Neskatoties uz to, ka viņu noteiktā mērķa ir nodrošināt apmācības resursus mazajiem izstrādātājiem un akadēmiķiem, datu kopas tika izmantotas arī lielajiem tehnoloģiju uzņēmumiem, ieskaitot Apple.

Izmantojot Pile datukopu

Kā norādīts pētījuma rakstā, ko publicēja EleutherAI, apspriestais datukops ir daļa no kompilācijas, kas pazīstama kā Pile. Šie datukopas ir viegli pieejami ikvienam internetā, ja ir nepieciešamie resursi un skaitļošanas jauda. Ne tikai tehnoloģiju giganti, bet arī akadēmiķi un izstrādātāji ārpus lielajiem tehnoloģiju uzņēmumiem ir izmantojuši šos datukopus.

Uzņēmumi kā Apple, Nvidia un Salesforce, kuru novērtējumi sasniedz simtiem biljonu un triljonu dolāru, ir detalizēti savos pētījumu rakstos aprakstījuši, kā viņi izmantoja Pile AI apmācības nolūkos. Ziņojumi liecina, ka Apple izmantoja Pile, lai apmācītu OpenELM, valodu modeli, kas tika izlaists aprīlī, tuvāk pirms jauno AI iespēju atklāšanas iPhone un MacBook ierīcēm.

Turpmākās nereglamentētas satura izmantošanas sekas apmācībai AI

Lai arī sākotnējā izmeklēšana atklāja plaši izplatītu YouTube video nereglamentētu izvilkšanu apmācībai AI modeļiem, no šādas prakses rodas papildu sekas. Tehnoloģiju giganti, izmantojot YouTube video subtitrus bez skaidras satura veidotāju atļaujas, rada vairākas būtiskas jautājumu, kas pelna izpēti.

Galvenie jautājumi:

1. Juridiskie seku neregulējumi: kādas ir potenciālās juridiskās sekas tehnoloģiju uzņēmumiem, kuri iesaistīti YouTube satura neatlauzta izmantošana apmācībai AI?

Atbilde: Uzņēmumi var saskarties ar autortiesību pārkāpuma prāva, kompensācijas atlīdzību un reputācijas kaitējumu par satura veidotāju intelektuālo īpašumu tiesību pārkāpšanu bez pienācīgas atļaujas.

2. Ētiskie apsvērumi: kā neatlauzta satura izmantošana atspoguļo šo tehnoloģiju gigantu ētiskos standartus?

Atbilde: Atļauju trūkums un pārredzamība, izmantojot trešo pušu saturu AI attīstībā, radī bažas par ētikas praksēm, privātuma tiesībām un godīgu atlīdzību satura veidotājiem.

3. Datus privātuma jautājumi: kādas sekas var būt YouTube video subtitru izvilkšanai lietotāju datu privātumam un drošībai?

Atbilde: Daudzem unaudrītām datu izvilšana video apmācībai AI var apdraudēt lietotāju privātumu, jo personīgā informācija, kas iekļauta subtitros, var tikt ļaunprātīgi izmantota vai nepareizi izturēta.

Izaicinājumi un kontroverses:

Kontroversa ap nereglamentētu YouTube satura izmantošanu apmācībai AI rada dažus izaicinājumus un kontroverses, kas pelna uzmanību un atrisināšanu.

Priekšrocības:

Izdevīga apmācība: piekļuve publiski pieejamiem datukopiem kā Pile no platformām, piemēram, YouTube, var samazināt izmaksas saistībā ar liela datu apvākšanu un anotāciju.

Uzlabotas AI iespējas: izmantojot dažādas satura avotus apmācībai AI modeļiem, tehnoloģiju giganti var uzlabot savu AI sistēmu precizitāti un daudzveidību nākotnes attīstībai.

Nepilnības:

Pārredzamības trūkums: slepena video satura izvilšana bez atbilstošas atribūcijas vai atļaujas pazemina pārredzamību un atbildību AI attīstības procesos.

Intelektuālā īpašuma tiesību pārkāpumi: autortiesību materiālu neregulēta izmantošana apmācībai AI rada bažas par intelektuālo īpašumu tiesībām un godīgu atlīdzību satura veidotājiem.

Lai iegūtu vairāk ieskatu par AI ētiku, datu privātumu un tehnoloģiju regulējumu, apmeklējiet AoL News.