Pohod za podacima: Tehnološke tvrtke guraju granice kako bi unaprijedile A.I.

U utrci za vođenje svijeta u umjetnoj inteligenciji (A.I.), tehnološke tvrtke poput OpenAI, Googlea i Meta idu na velike duljine kako bi dobili potrebne digitalne podatke za napredak svoje tehnologije. Međutim, krše pravila, ignoriraju korporativne politike te čak raspravljaju o kršenju zakona kako bi stekli potrebne podatke.

OpenAI je, primjerice, imao problem s opskrbom krajem 2021. godine kada je iscrpio sve ugledne izvore engleskih tekstova na internetu za obuku svog A.I. sustava. Kako bi prevladao ovu prepreku, istraživači OpenAI-a razvili su alat za prepoznavanje govora nazvan Whisper. Taj je alat transkribirao zvuk s YouTube videozapisa, pružajući novi konverzacijski tekst koji bi mogao učiniti njihov A.I. sustav inteligentnijim.

Unutar OpenAI-a postavljena su pitanja o potencijalnom kršenju pravila YouTube platforme upotrebom njihovih videozapisa za “nezavisnu” aplikaciju. Unatoč tim zabrinutostima, tim OpenAI-a, koji je predvodio Greg Brockman, predsjednik OpenAI-a, transkribirao je preko milijun sati YouTube videozapisa. Dobiveni tekstovi zatim su korišteni za obuku GPT-4, jednog od najmoćnijih A.I. modela na svijetu, te temelja za najnoviju verziju chatbota ChatGPT.

Slično tome, u Meta (bivšem Facebooku), menadžeri, pravnici i inženjeri razmišljali su o kupnji izdavačke kuće Simon & Schuster kako bi stekli pristup dugim književnim djelima. Tvrtka je također raspravljala o izvlačenju autorskih podataka s različitih internetskih izvora, bila spremna suočiti se s mogućim tužbama umjesto da pregovara o licencama s izdavačima i tvorcima sadržaja.

Žudnja za podacima postala je ključna u razvoju A.I. modela. Prije 2020. godine, modeli poput GPT-2 oslanjali su se na relativno male količine podatkovnih setova za obuku. Međutim, značajna promjena dogodila se s izdanjem GPT-3, gdje su istraživači počeli uključivati znatno veće skupove podataka kako bi učinkovito trenirali modele.

ČPP (Često postavljana pitanja):

P: Što je A.I.?

O: A.I. predstavlja Umjetnu inteligenciju, što se odnosi na razvoj računalnih sustava koji su sposobni obavljati zadatke koji obično zahtijevaju ljudsku inteligenciju.

P: Što je GPT-4?

O: GPT-4 je jedan od najmoćnijih A.I. modela koji je razvila OpenAI. Predstavlja Generative Pre-trained Transformer 4 i koristi se za generiranje teksta sličnog ljudskom na temelju zadanih uputa.

P: Što su ChatGPT i Whisper?

O: ChatGPT je chatbot razvijen od strane OpenAI-a, pokretan GPT modelima. Whisper je alat za prepoznavanje govora koji je kreirao OpenAI za transkripciju zvuka s YouTube videozapisa.

Izvori:

– The New York Times:

– Epoch:

U utrci za vođenje svijeta u umjetnoj inteligenciji (A.I.), tehnološke tvrtke poput OpenAI, Googlea i Meta suočavaju se s izazovima u stjecanju potrebnih digitalnih podataka za napredak svoje tehnologije. Ovaj članak osvjetljava strategije kojima se ove tvrtke služe, njihovo potencijalno kršenje pravila i zakona, te rastuću žeđ za podacima u industriji A.I.

OpenAI, poznat po snažnim A.I. modelima, susreo se s problemom opskrbe krajem 2021. godine kada je iscrpio sve ugledne izvore engleskih tekstova na internetu za obuku svog A.I. sustava. Kako bi prevladao ovu prepreku, istraživači OpenAI-a razvili su alat za prepoznavanje govora nazvan Whisper. Sv

Kao što industrija A.I. nastavlja gurati granice, stjecanje ogromnih količina podataka postalo je ključno za daljnji napredak. Tvrtke poput OpenAI-a i Meta spremne su ići do krajnjih granica, potencijalno kršeći pravila i preuzimajući pravne rizike kako bi zadovoljile svoje zahtjeve za podacima. Rasprava o etičkim i pravnim aspektima stjecanja podataka u industriji A.I. vjerojatno će se nastaviti kako tehnologija napreduje.

Za daljnje istraživanje ovog temelja, možete se obratiti sljedećim izvorima:
– The New York Times: www.nytimes.com
– Epoch: www.epoch.com

The source of the article is from the blog portaldoriograndense.com