Tehnološka Gonja Po Podatkih AI: Novi Pristopi Tehničnih Podjetij

Tehnološka podjetja so v hitri dirki za vodstvo na področju umetne inteligence (AI) soočena z izzivom potrebe po ogromnih količinah podatkov za usposabljanje svojih AI modelov. Vendar pa se ta podjetja, kot so OpenAI, Google in Meta, soočajo s težavami pri dostopu do teh podatkov zaradi omejitev, povezanih z zakonodajo in podjetniškimi politikami.

OpenAI je na primer v zadnjih mesecih leta 2021 naletel na težave pri oskrbi s podatki. Da bi usposobili svoj najnovejši AI sistem, so potrebovali več podatkov, vendar so že izčrpali ugledne angleškojezične vire besedil na internetu. V odzivu na to so raziskovalci podjetja OpenAI razvili orodje Whisper, ki je prepoznava govora, ki je transkribiral zvočno gradivo iz video posnetkov na YouTube. Rezultirajoči pogovorni besedil je bil vnešen v njihov močan AI model, GPT-4, da bi izboljšali njegove sposobnosti.

Uporaba video posnetkov s platforme YouTube za transkripcijo besedil je dvignila pomisleke glede morebitnih kršitev pravil YouTube-a. Kljub temu je OpenAI nadaljeval z transkripcijo več kot 1 milijon ur video posnetkov, pri čemer je besedila uporabil za izboljšanje svojega AI sistema. Greg Brockman, predsednik podjetja OpenAI, je osebno sodeloval pri zbiranju teh video posnetkov.

Podobno je Meta, matično podjetje Facebooka in Instagrama, raziskala različne metode za pridobivanje potrebnih podatkov. Na internih sestankih so razkrili razprave o nakupu založbe Simon & Schuster, da bi pridobili dostop do dolgih del. Razmišljali so tudi o pobiranju avtorsko zaščitenih podatkov z interneta, tudi če bi to pomenilo soočanje z zakonitimi posledicami. Pogajanja o licencah z založniki in ustvarjalci vsebine so bila zaznana kot zamudna in nepraktična naloga.

Google, še en pomemben igralec na področju AI, je posegel po transkripciji video posnetkov z YouTube za zbiranje podatkov, kar potencialno krši avtorske pravice ustvarjalcev video vsebin. Podjetje je tudi razširilo pogoje svojih storitev za dostop do javno dostopnih dokumentov Google Docs, ocen restavracij na Googlovih zemljevidih in druge online vsebine, s ciljem uporabe le teh za AI izdelke.

Pogosta vprašanja

1. Kako tehnološka podjetja pridobivajo podatke za svoje AI modele?
Tehnološka podjetja, kot so OpenAI, Google in Meta, uporabljajo različne metode za zbiranje podatkov za svoje AI modele. Te metode vključujejo transkripcijo zvočnih zapisov iz video posnetkov na YouTube, dostop do javno dostopnih spletnih virov ter kuriranje lastnih naborov podatkov.

2. Kaj pomenijo sintetični podatki in kako se uporabljajo?
Sintetični podatki se nanašajo na podatke, ki jih generirajo sami AI modeli, vključno z besedili, slikami in kodi. Tehnološka podjetja raziskujejo uporabo sintetičnih podatkov v primerih, ko imajo omejen dostop do organskih podatkov.

3. S kakšnimi izzivi se soočajo tehnološka podjetja pri pridobivanju podatkov za svoje AI modele?
Tehnološka podjetja se srečujejo s izzivi, kot so zakoni o zasebnosti, podjetniške politike in morebitna kršenja avtorskih pravic pri pridobivanju podatkov za svoje AI modele. Ti izzivi zahtevajo inovativne pristope za premagovanje omejitev podatkov.

4. Kako uporaba ustvarjalnih del s strani AI modelov vpliva na ustvarjalce in imetnike avtorskih pravic?
Uporaba ustvarjalnih del s strani AI modelov je vzbudila skrbi med ustvarjalci in imetniki avtorskih pravic, kar je privedlo do tožb in razprav o avtorskem pravu. Ongoing debate revolves around fair use, transformation of works, and the need to protect intellectual property rights.

Dejanja teh tehnoloških podjetij poudarjajo vse večjo odvisnost od spletnih informacij za napredovanje AI. Besedila, slike, zvoki in video posnetki, ustvarjeni s strani ljudi, so postali neprecenljivi viri za usposabljanje AI sistemov. Tehnološka podjetja so soočena s pritiskom pri dostopu do visokokakovostnih podatkov. Medtem ko je bila spletna stran nekoč obilen vir informacij, napredki na področju AI zahtevajo bolj raznolike in obsežne skladišča podatkov. Vendar pa regulacije, kot so zakoni o zasebnosti, preprečujejo podjetjem, kot sta Google in Meta, da bi izkoristili vsebine, ki jih ustvarijo uporabniki, za namene AI.

Strokovnjaki napovedujejo, da bi se tehnološki velikani lahko že leta 2026 izčrpali najboljše podatke na internetu. Kot rezultat se podjetja znajdejo v raziskovanju alternativnih pristopov k zbiranju podatkov, vključno s ustvarjanjem sintetičnih informacij. To pomeni, da bodo AI modeli ustvarjali besedila, slike in kodo, da se učijo iz lastnih rezultatov.

OpenAI, Google in Meta se soočajo s skrbmi glede pridobivanja podatkov, poudarjajo svoje napore pri kuriranju in integraciji podatkov v svoje AI modele. OpenAI navaja, da vsak od njihovih AI modelov vsebuje edinstven nabor podatkov, ki bogati njihovo razumevanje sveta. Google priznava uporabo vsebin s platforme YouTube, vendar strogo v okviru dogovorov s ustvarjalci, Meta pa poudarja svojo obsežno zbirko javno deljenih slik in videoposnetkov s platform Instagram in Facebook.

Vedno večja uporaba ustvarjalnih del s strani tehnoloških podjetij za AI je sprožila pravne spore glede avtorskih pravic in licenciranja. Številne trgovske skupine, avtorji in podjetja so podali pripombe Uradu za avtorske pravice glede uporabe svojih del s strani AI modelov. Urad za avtorske pravice sedaj pripravlja smernice o tem, kako se avtorsko pravo nanaša na dobo AI.

Tehnološka gonja po podatkih AI predstavlja kompleksen problem, ki zahteva ravnotežje med inovacijo in spoštovanjem pravic ustvarjalcev. Medtem ko tehnološka podjetja stremljijo k razvoju naprednih AI sistemov, bo iskanje podatkov nadaljevalo svoj razvoj, kar bo privedlo do stalnih razprav o etičnih in zakonitih meja

The source of the article is from the blog anexartiti.gr