Nove Smernice v Zbiranju Podatkov za Umetno Inteligenco

Podjetja za umetno inteligenco (UI) se soočajo s pomembnim izzivom pridobivanja visokokakovostnih učnih podatkov, kot kaže nedavno poročilo. Ta težava je spodbudila podjetja, da raziskujejo različne metode za premagovanje ovire, tudi če to pomeni vstop v temne kotičke zakonodaje o avtorskih pravicah na področju UI.

Edino podjetje, OpenAI, se je znašlo v obupnem stanju za pridobivanje učnih podatkov in razvilo svoj model prenosa zvočnih posnetkov Ime modela v senci, kot rešitev. Ta model je prenesel več kot milijon ur videoposnetkov na YouTubu, ki so nato služili za usposabljanje GPT-4, najnaprednejšega jezikovnega modela OpenAI. Čeprav je OpenAI priznal potencialne pravne posledice takega pristopa, je verjel, da spada pod pošteno rabo. Posebej je predsednik OpenAI, Greg Brockman, osebno nadziral zbiranje videoposnetkov, ki so se uporabljali za usposabljanje.

Nasprotno trditvam je tiskovna predstavnica OpenAI, Lindsay Held, izjavila, da podjetje kurira “edinstvene” sklope podatkov za vsakega od svojih modelov, da izboljša njihovo razumevanje sveta. Held je pojasnila, da OpenAI uporablja različne vir podatkov, vključno z javno dostopnimi podatki in nenavedenimi partnerstvi, medtem ko raziskuje tudi generiranje sintetičnih podatkov. Podjetje je leta 2021 izčrpalo svoje obstoječe zaloge koristnih podatkov in začelo razmišljati o transkripciji videoposnetkov na YouTubu, podcastov in avdio knjig, poleg drugih virov, kot so računalniške kode z GitHuba, podatkovne baze šahovskih potez in izobraževalne vsebine iz Quizleta.

Google, še en ključni igralec na področju UI, se je tudi srečal s težavami pri pridobivanju učnih podatkov. Tiskovni predstavnik podjetja, Matt Bryant, je odgovoril na poročila, da je OpenAI uporabljal vsebine s YouTuba za usposabljanje. Bryant je poudaril, da je nedovoljeno pridobivanje ali prenašanje vsebin s YouTuba strogo prepovedano v njihovih pogojih uporabe. Google je priznal, da usposablja svoje modele na izbranih vsebinah s YouTuba v skladu z dogovori, sklenjenimi s kreatorji na YouTubu. Poleg tega je podjetje spremenilo svojo politiko zasebnosti, da bi povečalo načine, kako lahko izkoristi potrošniške podatke, na primer jih vključi v pisarniška orodja, kot je Google Docs.

Meta, nekdaj znana kot Facebook, je naletela na podobne ovire pri pridobivanju visokokakovostnih učnih podatkov. Posnetki, pridobljeni v lasti New York Times, so razkrili razprave v ekipi za UI v Meti o neupravičeni uporabi del, ki so avtorsko zaščitena. Meta je raziskovala različne strategije, da bi dohitela OpenAI, vključno z možnostjo nakupa licenc za knjige ali celo pridobitvijo velike založbe. Spremembe zasebnosti, ki jih je Meta uvedla kot odziv na afero s podjetjem Cambridge Analytica, so prav tako omejile njegovo sposobnost uporabe podatkov potrošnikov.

Podjetja za UI, vključno z Googlom, OpenAI in drugimi, se soočajo s težavami pri pridobivanju učnih podatkov za svoje modele, ki močno temeljijo na obsegu podatkov za izboljšanje. Hitra poraba nove vsebine lahko prekaša sposobnost pridobivanja svežih učnih podatkov do leta 2028. Glede na ta izziv so možne rešitve, omenjene v nedavnih poročilih, vključevale usposabljanje modelov na sintetičnih podatkih, ki jih generirajo sami modeli, ali uporabo tehnik učenja po načrtu. Vendar učinkovitost teh pristopov še ni dokazana.

Pogosta vprašanja

1. Zakaj se podjetja za UI borijo pri pridobivanju visokokakovostnih učnih podatkov?
Podjetja za UI močno temeljijo na visokokakovostnih učnih podatkih za izboljšanje svojih modelov. Vendar je dostopnost takšnih podatkov vse redkejša, kar postavlja pomemben izziv za ta podjetja.

2. Kako se OpenAI spopada s težavo pomanjkanja podatkov?
OpenAI se je zatekel k različnim metodam za reševanje pomanjkanja učnih podatkov. En pristop je vključeval razvoj modela za prenos zvočnih posnetkov, imenovan Ime modela v senci, ki je prenesel milijone ur videoposnetkov na YouTubu za usposabljanje svojega jezikovnega modela. Vendar je ta metoda postavila potencialna pravna vprašanja.

3. Kako Google odgovarja na trditve o nedovoljeni uporabi vsebin s YouTuba?
Google strogo prepoveduje nedovoljeno pridobivanje ali prenašanje vsebin s YouTuba, kot je navedeno v njihovih splošnih pogojih. Čeprav podjetje priznava, da usposablja svoje modele na izbranih vsebinah s YouTuba, to počne v skladu z dogovori, sklenjenimi s kreatorji na YouTubu.

4. Kako podjetja za UI raziskujejo alternativne rešitve za premagovanje pomanjkanja podatkov?
Podjetja za UI raziskujejo različne strategije za reševanje izziva pomanjkanja podatkov. Nekatere potencialne rešitve vključujejo usposabljanje modelov na sintetičnih podatkih, ki jih generirajo sami modeli, ali uvajanje tehnik učenja po načrtu, kjer se modelom podajajo visokokakovostni podatki na urejen način za izboljšanje njihovega razumevanja.

Kot avtorica prispevka se podpišem [Vaše ime], tehnološka navdušenka in pisateljica s strastjo do nastajajočih tehnologij.

The source of the article is from the blog reporterosdelsur.com.mx