Uncharted Territories: OpenAI's Unique Data Journey for AI Advancements

Tehnološka podjetja nenehno iščejo načine za napredovanje svojih modelov umetne inteligence (AI), pri čemer podatki igrajo ključno vlogo v njihovem iskanju. V nedavni objavi je OpenAI razkril uporabo več kot milijon ur videoposnetkov s platforme YouTube za usposabljanje svojega najsodobnejšega jezikovnega modela GPT-4.

Usposabljanje takšnih zmogljivih modelov umetne inteligence zahteva ogromne količine podatkov, zato se je OpenAI obrnil na obsežno video knjižnico YouTuba. Z uporabo orodja za prepoznavanje govora Whisper je model GPT-4 pretranskribiral vsebino videoposnetkov, kar je zagotovilo obsežen nabor podatkov za usposabljanje.

Kljub temu pa je ta pristop sprožil pomisleke glede skladnosti s politikami YouTuba. Google, lastnik YouTuba, strogo omejuje uporabo svojih videoposnetkov za neodvisne aplikacije. Postopek transkripcije videoposnetkov je sprožil ugibanja o morebitnih kršitvah avtorskih pravic.

Ko so spraševali za uporabo podatkov s YouTuba, je izvršni direktor YouTuba, Neal Mohan, izrazil negotovost in dejal, da ni vedel za kakršno koli takšno uporabo. Vendar pa je priznal, da lahko uporaba videoposnetkov s YouTuba brez ustrezne avtorizacije predstavlja pomemben problem.

Vredno je omeniti, da OpenAI ni edino podjetje, ki raziskuje načine za pridobivanje več podatkov za usposabljanje AI. Google sam je pretranskribiral vsebino YouTuba pod sporazumi s ustvarjalci. Meta Marka Zuckerberga je prav tako pritegnila pozornost s pogovori o morebitnem prevzemu založbe Simon & Schuster za dostop do obsežne knjižnice knjig.

Zakaj obsedenost s podatki?

Učinkovitost in zmogljivosti modelov umetne inteligence so neposredno povezane z obsegom in kakovostjo podatkov, na katerih so usposobljeni. Dejstvo je, da je povpraševanje po visokokakovostnih podatkih tako veliko, da strokovnjaki napovedujejo morebitno izčrpavanje takoj dostopnih internetnih podatkov do leta 2026, kar ponazarja tekmo za pridobivanje velikih količin informacij.

Pogosta vprašanja

Kaj pomeni GPT-4?
GPT-4 pomeni “Generative Pre-trained Transformer 4” in je jezikovni model, razvit s strani OpenAI. Uporablja tehnike globokih učenj za generiranje človeku podobnega besedila glede na zagotovljen kontekst.

Kaj je prepoznavanje govora?
Prepoznavanje govora je tehnologija, ki pretvarja govorjeni jezik v pisno besedilo. V primeru orodja za prepoznavanje govora Whisper pri OpenAI-ju je bila pretranskripcija vsebine videoposnetkov s platforme YouTube.

Kako vpliva podatki na modele AI?
Podatki so ključni za usposabljanje modelov AI. Obseg in kakovost podatkov neposredno vplivata na uspešnost, natančnost in zmogljivosti modela AI. Več podatkov omogoča boljše napovedi in globlje razumevanje kompleksnih vzorcev.

Ali so pomisleki glede avtorskih pravic pri transkripciji videoposnetkov s YouTuba?
Da, transkripcija videoposnetkov s platforme YouTube brez ustrezne avtorizacije lahko potencialno krši avtorske pravice. YouTube omejuje uporabo svojih videoposnetkov za neodvisne aplikacije, neavtorizirana transkripcija pa lahko krši pravice ustvarjalcev.

Kako podjetja AI pridobivajo podatke?
Podjetja AI uporabljajo različne vire za pridobivanje podatkov. Ti lahko vključujejo javne zbirke podatkov, partnerstva s ponudniki podatkov ali dogovore z ustvarjalci vsebin za dostop do njihovih vsebin za usposabljanje.

Ko se tekma za podatke stopnjuje, podjetja kot sta OpenAI in Google še naprej raziskujejo inovativne načine za učinkovito usposabljanje svojih modelov AI. Medtem ko ostajajo pomisleki glede skladnosti in avtorskih pravic, se žeja po napredkih na področju AI, ki temeljijo na podatkih, še naprej krepi.

Vir: Hindustan Times

The source of the article is from the blog kunsthuisoaleer.nl