Nauji dirbtiniai intelekto modeliai, apmokyti remiantis „YouTube“ transkripcijomis, kelia susirūpinimą dėl autorių teisių

Neseniai „OpenAI“ ir „Google“ patenka į akiratį dėl savo dirbtinių intelekto modelių mokymo, naudojant „YouTube“ vaizdo įrašų transkripcijas, galbūt pažeisdami kūrėjų autorių teises. „Naujajame Jorko laiku“ (The New York Times) pateikiamas pranešimas atskleidžia šių technologijų gigantų praktikas ir jų pastangas maksimaliai išnaudoti duomenis savo dirbtinėms intelekto sistemoms. Nors kompanijos įdarbino įvairias technikas, siekdamos gauti didelį duomenų kiekį, kilo klausimų dėl jų metodų teisėtumo.

„OpenAI“ teigiama, kad naudojo savo „Whisper“ kalbos atpažinimo įrankį, kad transkribuotų daugiau nei vieną milijoną valandų „YouTube“ vaizdo įrašų, kurie vėliau buvo panaudoti apmokyti jų naujausią teksto į vaizdo generatorių „Sora“, pagal „NYT“ pranešimą. Tai tęsia ankstesnius „The Information“ teiginius, kad „OpenAI“ naudojo „YouTube“ vaizdo įrašus ir podcast’us, kad apmokytų savo dirbtines intelekto sistemas. Ypač „OpenAI“ prezidentas Gregas Brockmanas, kaip pranešama, dalyvavo šiame projekte.

Tai pat kelia nerimą ir „Google“ praktikos, nes neleidžiama neleistinai atlikti „YouTube“ turinio atpirkimo ar parsisiuntimo. „Google“ atstovas Metų Braiantas aiškino, kad įmonė nežinojo apie „OpenAI“ naudojimą „YouTube“ vaizdo įrašams ir teigė, jog jie nepalaiko tokių veiksmų. Tačiau „NYT“ pranešime pateikiama, kad buvo asmenų „Google“, kurie žinojo apie „OpenAI“ praktiką, bet neėmė jokių veiksmų, galbūt dėl savo pačių „YouTube“ vaizdo įrašų naudojimo, kad apmokytų savo dirbtines intelekto sistemas.

Svarbu paminėti, kad „Google“ teigia naudodama tik video įrašus iš kūrėjų, kurie sutiko dalyvauti jų eksperimentiniame programe. „Engadget“ kreipėsi į „Google“ ir „OpenAI“ dėl jų pastabų šiuo klausimu.

Be to, „The New York Times“ pranešime atskleidžiama, kad „Google“ 2022 m. birželį pataisė savo privatumo politiką, kad apimtų platesnį visuomenei prieinamo turinio spektrą, pavyzdžiui, „Google Docs“ ir „Google Sheets“, kad apmokyti jų dirbtines intelekto sistemas ir produktus. Tačiau Braiantas pabrėžė, kad tai vykdoma tik su vartotojų išreiškta sutikimu, kurie pasirenka dalyvauti „Google“ eksperimentinėse funkcijose. Jis taip pat teigė, kad politikos pakeitimas nesukėlė jų pradėti mokyti savo dirbtinių intelekto modelių papildomų duomenų tipų.

DUK

1. Ar „OpenAI“ ir „Google“ pažeidžia autorių teises, mokydami savo dirbtinius intelekto modelius „YouTube“ transkripcijomis?
– Kilęs susirūpinimas, kad „OpenAI“ ir „Google“ naudojimas „YouTube“ vaizdo įrašams apmokyti savo dirbtinių intelekto modelių gali pažeisti kūrėjų autorių teises. „The New York Times“ pranešime pabrėžiamos šios galimos pažeidimai, nurodant, kad neleistina neleistinai atlikti atpirkimo ar parsisiuntimo iš „YouTube“ turinio. Tačiau „Google“ teigia naudojanti tik video įrašus iš kūrėjų, kurie sutiko dalyvauti eksperimentinėje programoje.

2. Kokią strategiją pasirinko „OpenAI“ apmokyti savo dirbtinį intelekto modelį?
– „OpenAI“ teigiama, kad naudojo savo „Whisper“ kalbos atpažinimo įrankį, kad transkribuotų daugiau nei vieną milijoną valandų „YouTube“ vaizdo įrašų, kurie vėliau buvo panaudoti apmokyti savo teksto į vaizdo generatorių „Sora“. Ši strategija skirta tobulinti didelį duomenų kiekį, siekiant pagerinti dirbtinio intelekto modelio veikimą.

3. Ar „Google“ pripažino „OpenAI“ naudojimą „YouTube“ vaizdo įrašams mokyti?
– „Google“ teigė, kad jie nežinojo apie „OpenAI“ naudojimą „YouTube“ vaizdo įrašams mokyti savo dirbtinės intelekto modelio ir aiškino, kad jie nepalaiko neleistino atpirkimo ar parsisiuntimo. Tačiau pranešime teigiama, kad kai kurie asmenys „Google“ žinojo apie „OpenAI“ praktiką, bet neėmė jokių veiksmų, galbūt dėl savo pačių „YouTube“ vaizdo įrašų naudojimo savo dirbtiniams intelekto modeliams mokyti.

4. Kaip praplėtė „Google“ savo privatumo politiką, kaip minima pranešime?
– „NYT“ pranešime atskleidžiama, kad „Google“ 2022 m. birželį atnaujino savo privatumo politiką, kad apimtų plačią viešai prieinamo turinio sritį, pvz., „Google Docs“ ir „Google Sheets“, savo dirbtinių intelekto modelių ir produktų mokymui. Tačiau „Google“ pabrėžė, kad šį duomenį naudoja tik su vartotojų išreiškta sutikimu, kurie pasirenka dalyvauti jų eksperimentinėse funkcijose.

5. Ar „OpenAI“ ir „Google“ pateikė oficialių pareiškimų dėl šių kaltinimų?
– „Engadget“ kreipėsi į „OpenAI“ ir „Google“ dėl jų pastabų šiuo klausimu. Šiuo metu nebuvo oficialių pareiškimų iš abiejų įmonių, susijusių su kaltinimais, pateiktais „The New York Times“ pranešime.

Be pranešime pateiktų informacijos, štai keletas papildomų detalių apie pramonę, rinkos prognozes ir su dirbtiniu intelektu susijusias problemas bei modelių apmokymą, naudojant „YouTube“ transkripcijas:

Dirbtinio intelekto pramonė pastaraisiais metais patyrė ženklų augimą, o rinkos dydis pagal „MarketsandMarkets“ ataskaitą iki 2025 m. turėtų siekti 190,61 mlrd. JAV dolerių. Šis augimas skatinamas didėjančiu poreikiu įvairiose srityse, tokioms kaip sveikatos apsauga, finansai, mažmeninė prekyba ir gamyba, naudojant dirbtinį intelektą pagrįstus sprendimus.

Vienas iš pagrindinių iššūkių dirbtinio intelekto industrijoje yra didelių kiekių aukštos kokybės duomenų poreikis efektyviam dirbtinių intelekto modelių mokymui. Įmonės, tokios kaip „OpenAI“ ir „Google“, nuolat tyrinėja skirtingus duomenų šaltinius, įskaitant viešai prieinamą turinį, tokius kaip „YouTube“ vaizdo įrašai, kad pagerintų savo dirbtinių intelekto sistemų veikimą.

Tačiau „YouTube“ vaizdo įrašų naudojimas dirbtinių intelekto modelių mokymui kelia susirūpinimą dėl autorių teisių pažeidimo. Kūrėjai turi išskirtines teises į savo turinį, įskaitant teisę jį atkurti ir platinti. Neleistinas „YouTube“ vaizdo įrašų atpirkimas ar parsisiuntimas be kūrėjų sutikimo gali potencialiai pažeisti šias teises.

Bylinėjimasis dėl autorių teisių dirbtinio intelekto industrijoje nėra nauja tema. Praeityje buvo atvejų, kai įmonės buvo ieškomos teismuose dėl autorių teisių turinčių medžiagų naudojimo savo dirbtiniuose intelekto mokymo duomenyse. Pavyzdžiui, 2019 m. fotografas užkėlė ieškinį prieš didžiąją dirbtinio intelekto įmonę dėl jo autorių teisių turinčių vaizdų naudojimo be leidimo.

Kad būtų išspręsti šie autorių teisių klausimai, įmonės, tokios kaip „Google“, įgyvendino priemones, kad būtų užtikrinta, jog naudoja tik video įrašus iš kūrėjų, kurie sutiko dalyvauti jų eksperimentinėse programose. Tai daroma siekiant laikytis autorių teisių įstatymų ir gerbti kūrėjų teises.

Tačiau „YouTube“ vaizdo įrašų naudojimas mokyti dirbtinius intelekto modelius nėra vienintelė ginčytina praktika šioje industrijos srityje. Kitos problemos apima iškreiptumas dirbtiniuose intelekto algoritmuose, duomenų privatumo rūpesčiai ir etinės dirbtinio intelekto sprendimų priėmimo implikacijos.

Kadangi dirbtinės intelekto industrija toliau vystosi, būtina, kad įmonės naviguotų teisiniais ir etiniais šiose srityse, siekdamos užtikrinti atsakingą ir teisėtą duomenų naudojimą dirbtiniams intelekto modeliams mokyti.

Daugiau informacijos apie dirbtinio intelekto pramonę ir su ja susijusias problemas galite rasti šiose svetainėse:

– [MarketsandMarkets](https://www.marketsandmarkets.com/): Teikia rinkos tyrimų ataskaitas ir pramonės analizę įvairioms pramonės šakoms, įskaitant

The source of the article is from the blog mivalle.net.ar