AI Pasaulio pradžioje: Technologijų įmonės kovoja dėl duomenų

Technologijų įmonės, kaip OpenAI, Google ir Meta, siekdamos vadovauti pasaulyje dirbtinės intelektai (AI) srityje, susiduria su iššūkiais, kai bando įgyti būtinus skaitmeninius duomenis savo technologijos tobulinimui. Šis straipsnis apžvelgia, kokių strategijų šios įmonės imasi, galimus taisyklių ir įstatymų pažeidimus bei didėjantį troškimą duomenims AI pramonėje.

OpenAI, žinoma dėl savo galingų AI modelių, susidūrė su tiekimo problema 2021 m. pabaigoje, kai išnaudojo visas reputacines anglų kalbos teksto šaltinius internete, reikalingus jos AI sistemai treniruoti. Norėdama įveikti šią kliūtį, OpenAI tyrėjai sukūrė kalbos atpažinimo įrankį, vadinamą Whisper. Šis įrankis transkribavo garso įrašus iš YouTube vaizdo įrašų, suteikdamas naują pokalbių tekstą, kuris galėtų pagerinti jų AI sistemos galimybes.

Tačiau atsirado susirūpinimas OpenAI dėl galimo YouTube taisyklių pažeidimo, naudojant jų vaizdo įrašus šiam „nepriklausomam” taikymui. Nepaisant šių rūpesčių, OpenAI komanda, vadovaujama Grego Brockmano, OpenAI prezidento, tęsė darbą ir transkribavo daugiau nei milijoną valandų YouTube vaizdo įrašų. Gautos tekstai vėliau buvo panaudoti, kad būtų išmoktas GPT-4, vienas iš galingiausių pasaulio AI modelių, ir pagrindas naujausios ChatGPT pokalbių robotų versijai.

Panašiai Meta (anksčiau Facebook) vadovai, teisininkai ir inžinieriai apsvarsčius įsigyti leidyklos Simon & Schuster, siekė gauti prieigą prie išsamiai parašytų veikalų. Įmonė taip pat svarstė autorių teisių apsaugotų duomenų išgavybą iš įvairių interneto šaltinių, būdama pasiruošusi susidurti su galimais teisiniais ginčais, o ne derybų su leidėjais ir turinio kūrėjais.

AI modelių plėtojimas pastaraisiais metais patyrė reikšmingą pokytį. Iki 2020 m., modeliai kaip GPT-2 remėsi santykinai mažais treniravimo duomenimis. Tačiau išleidus GPT-3, tyrėjai pradėjo įtraukti daug didesnius duomenų rinkinius, pripažindami, kad duomenų kiekio svarba efektyviam modelių mokymui.

Kol AI pramonė tęsia ribų spaudimą, didelių duomenų kiekis tampa būtinas tolesniam pažangos žengimui. Įmonės kaip OpenAI ir Meta pasiruošusios siekti ribų, galbūt lenkdamos taisykles ir patirdamos teisines rizikas, kad patenkintų savo duomenų poreikius. Diskusija dėl etinių ir teisinių duomenų įgyvendinimo aspektų AI pramonėje tikėtina tęsis, kai technologija tobulės.

Norėdami gilintis į šią temą, galite kreiptis į šiuos šaltinius:
– The New York Times: www.nytimes.com
– Epoch: www.epoch.com

The source of the article is from the blog radardovalemg.com