Tehnološka Izkoriščevalska Dirka: Etika v Učenju AI

Kljub splošnemu prepričanju digitalni podatki za učenje modelov AI niso neomejeni. Ta dejstvo je prisililo največje igralce na tem področju, kot so OpenAI, Google in Meta, v sprejemanje težkih odločitev, ki bi lahko potencialno prekoračile etične meje in izzvale obstoječe zakone. Te razkritja izhajajo iz raziskovalnega članka, nedavno objavljenega v The New York Times, ki razkriva poslovne izzive, s katerimi se soočajo ta podjetja.

Eden od spornih praks, ki jih je izpostavil članek, je pretvorba avdio vsebin iz več kot milijona ur video posnetkov YouTube s strani OpenAI. To zajemanje pogovornega besedila za namene učenja modelov postavlja vprašanja o morebitnih kršitvah pravil YouTube-a. Pretvorjeni podatki so bili nato vneseni v zmogljiv model GPT-4, ki je osnova najnovejše različice klepetalnega robota ChatGPT.

Meta, matično podjetje Facebooka in Instagrama, se je tudi znašla pod drobnogledom zaradi svojih dejanj. V članku je navedeno, da je Meta razmišljala o nakupu založbe, da bi pridobila obsežna dela, in razpravljala o zbiranju avtorsko zaščitenih podatkov iz celega interneta. Pri njihovem iskanju podatkov so razpravljali o možnosti soočenja z zakonitimi posledicami namesto dolgotrajnega procesa pogajanj o licencah s knjižnimi založniki, umetniki, glasbeniki in novinarsko industrijo.

Google, znan po svoji obsežni paleti platform, ki zbirajo ogromne količine informacij, se je soočal z lastnimi izzivi. Podjetje je transkribiralo video posnetke z YouTube-a, da bi izluščilo besedilo za učenje AI in potencialno kršilo avtorske pravice ustvarjalcev video posnetkov. Članek nas opominja, da se industrija AI močno zanaša na spletne informacije, ki zajemajo novice, fikcijska dela, objave na forumih, članke na Wikipediji, računalniške programe, fotografije, posnetke podcastov in filmske posnetke.

Želja po podatkih ni omejena le na te posamezne prakse. Članek razkriva nujnost položaja tehnoloških podjetij, pri čemer navaja, da bi lahko visokokakovostne podatke, ki so na voljo na internetu, izčrpali že leta 2026. Hitrost, s katero podjetja uporabljajo podatke, presega njihovo proizvodnjo. Ta prihajajoči izziv je postavil ta podjetja v dirko s časom za iskanje inovativnih metod pridobivanja podatkov.

Pogosta Vprašanja (FAQ):

Q: Kakšno je etično vprašanje okoli učenja AI?
A: Etično vprašanje izhaja iz omejene dostopnosti digitalnih podatkov za učenje modelov AI. Podjetja se soočajo z izzivom pridobivanja zadostnih podatkov brez morebitnih kršitev zasebnosti ali avtorskih pravic.

Q: Kako podjetja, kot so OpenAI, Google in Meta, pridobivajo podatke za modele AI?
A: Ta podjetja uporabljajo različne metode, kot so transkripcija avdio vsebin iz video posnetkov YouTube-a, razprava o nakupu založb in razširitev pogojev storitve za dostop do javno dostopnih dokumentov, recenzij restavracij in drugih spletnih gradiv.

Q: Zakaj je dirka za podatki nujna?
A: Tehnološka podjetja uporabljajo podatke hitreje, kot se proizvajajo. Raziskovalni inštituti napovedujejo, da bi visokokakovostni podatki na internetu lahko bili izčrpani do leta 2026.

Q: Kakšne so potencialne posledice teh praks?
A: Podjetja, ki se ukvarjajo s temi praksami, tvegajo možne etične in pravne posledice, vključno z kršitvijo avtorskih pravic in kršenjem pravil platform.

Z razvojem industrije AI se povečuje odvisnost od velikih baz digitalnega besedila. Nekatera podjetja so se obrnila na baze, ki vsebujejo do 3 bilijone besed, kar je dvojno več besed kot v knjižnih policah Bodleianove knjižnice. Splet, nekoč viden kot neskončni vir podatkov, je vse bolj omejen zaradi zakonodaje o zasebnosti in politik podjetij, ki preprečujejo dostop do velikega dela njegovih vsebin za učenje AI.

—

The source of the article is from the blog klikeri.rs