Ekspanzija trga AI predstavlja izzive za velike tehnološke gigante

V mednarodni dirki za razvoj naprednih modelov umetne inteligence (AI) glavni tehnološki giganti, kot so OpenAI, Google in Meta, sledijo neortodoksnim in včasih spornim metodam za pridobivanje ogromnih količin podatkov. Z razvojem tehnologije AI je povpraševanje po velikih količinah visokokakovostnih podatkov naraslo, kar je spodbudilo te družbe k raziskovanju novih poti pridobivanja podatkov.

Najnovejše poročilo razkriva, da je OpenAI uporabil več kot milijon ur videoposnetkov na YouTube-u za usposabljanje svojega močnega jezikovnega modela, GPT-4. Namesto neposredne uporabe videoposnetkov je OpenAI uporabil orodje za prepoznavanje govora Whisper za prepisovanje vsebine, s čimer je ustvaril nove pogovorne besedila. Čeprav je ta pristop vzbudil pomisleke o skladnosti s politikami YouTuba, saj platforma omejuje samostojne aplikacije pri uporabi svojih videoposnetkov, je OpenAI našel način za prepisovanje vsebine.

Podobno Google in Meta, matično podjetje Facebooka in Instagrama, prav tako uporabljata sporne vire podatkov. Poročilo nakazuje, da Google prepisuje videoposnetke YouTuba za usposabljanje AI, kar potencialno krši avtorske pravice, celo spreminja svoje pogoje storitve za dostop do več vsebine, ki jo ustvarijo uporabniki. Meta raziskuje možnost nakupa podjetja Simon & Schuster za pridobitev dostopa do obširne knjižnice knjig ter razmišlja o uporabi avtorsko zaščitenih podatkov s spleta, kljub etičnim in pravnim posledicam.

Obseg podatkov in uspešnost AI

Učinkovitost modelov AI, zlasti pri ustvarjanju človeku podobnih besedil, slik, zvokov in videoposnetkov, močno temelji na količini podatkov, na katerih so usposobljeni. Nezadovoljiva potreba po visokokakovostnih podatkih v industriji AI vodi v domneve, da bi tehnološka podjetja lahko izčrpala dostopne podatke na internetu že leta 2026. To poudarja ključno vlogo pridobivanja podatkov pri pospeševanju zmogljivosti AI.

Odprava pomislekov s strani podjetij

OpenAI je odgovoril na pomisleke, tako da je izjavil, da je vsak njihov model AI usposobljen na edinstvenem naboru podatkov, poudaril je potrebo po ohranjanju konkurenčnosti v raziskavah. Google pa je priznal, da svoje modele AI usposablja na nekaterih vsebinah YouTuba, vendar je pojasnil, da to počne v skladu z dogovori s tvorci vsebine. Nadalje so pojasnili, da se podatki iz pisarniških aplikacij ne uporabljajo zunaj poskusnih programov. Meta poudarja svojo zavezanost k integraciji AI v svoje storitve z izkoriščanjem milijard javno deljenih slik in videoposnetkov.

FAQ

1. Zakaj tehnološka podjetja, kot sta OpenAI in Google, potrebujejo ogromne količine podatkov za usposabljanje svojih modelov AI?

Tehnološka podjetja se zanašajo na velike količine podatkov za usposabljanje modelov AI, saj se učinkovitost in natančnost teh modelov močno izboljšata s količino podatkov, na katerih so usposobljeni. Več podatkov omogoča modelom AI, da se učijo vzorce, napovedujejo in ustvarjajo bolj realistične in človeku podobne izhode.

2. Kakšne so polemike v zvezi s pridobivanjem podatkov s strani teh tehnoloških velikanov?

Polemike nastanejo, ko tehnološka podjetja uporabljajo podatke iz virov, kot je YouTube, brez izrecnega soglasja ali v morebitnem kršitvi avtorskih pravic. Pomisleki so v zvezi z etičnimi posledicami takšnih praks in vplivom na zasebnost uporabnikov ter pravice do intelektualne lastnine.

3. Kako se tehnološka podjetja odzivajo na te pomisleke?

OpenAI trdi, da je vsak njihov model AI usposobljen na edinstvenih naborih podatkov za ohranjanje konkurenčnosti. Google trdi, da ima dogovore s tvorci vsebine glede uporabe vsebine z YouTuba in poudarja, da se podatki iz pisarniških aplikacij ne uporabljajo zunaj eksperimentalnih programov. Meta se osredotoča na izkoriščanje javno deljenih slik in videoposnetkov ter obenem priznava pravne in etične vidike dostopa do avtorsko zaščitenih podatkov.

Viri:
– The New York Times: [URL]
– Wall Street Journal: [URL]

The source of the article is from the blog myshopsguide.com