Tulevaisuuden näkymät tekoälyalalla

Tekoälyalalla on käynnissä kiivas kilpajuoksu datan hankkimiseksi, ja samalla kohdataan eettisiä dilemmoja. Digitaalisen datan saatavuus tekoälymallien kouluttamiseen ei ole rajaton, mikä pakottaa alan suuret toimijat, kuten OpenAI, Google ja Meta, tekemään vaikeita päätöksiä. Nämä paljastukset perustuvat juuri äskettäin The New York Timesissa julkaistuun tutkimusartikkeliin, joka valaisee näiden yritysten kohtaamia liiketoiminnallisia haasteita.

Yksi kiistanalainen käytäntö, johon artikkelissa kiinnitetään huomiota, on OpenAI:n transkriptio yli miljoonasta tunnista YouTube-videoita. Tämä keskustelullisen tekstin kaavinta mallin koulutustarkoituksiin herättää kysymyksiä mahdollisista rikkomuksista YouTuben sääntöjä vastaan. Transkriptiodata syötettiin sitten tehokkaaseen tekoälymalliin GPT-4, luoden pohjan uusimmalle ChatGPT-keskustelubotin versiolle.

Meta, Facebookin ja Instagramin emoyhtiö, on myös joutunut tarkastelun alle teoistaan. Artikkelin mukaan Meta harkitsi kustantamon ostamista pitkien teosten hankkimiseksi ja keskusteli tekijänoikeudella suojatun datan keräämisestä internetin laajasta valikoimasta. Tietoa etsiessään he pohtivat joutuvansa kohtaamaan oikeudellisia seuraamuksia sen sijaan, että olisivat neuvotelleet pitkään lisensseistä kustantajien, taiteilijoiden, muusikoiden ja uutisalan kanssa.

Google, tunnettu laajasta valikoimastaan alustoja, joilla kerätään valtavia määriä tietoa, kohtasi omat haasteensa. Yritys transkriboi YouTube-videoita poimiakseen tekstiä tekoälyn koulutukseen, mahdollisesti rikkoen videoiden tekijöiden tekijänoikeuksia. Artikkeli muistuttaa meitä siitä, että tekoälyala nojaa vahvasti verkkotietoon, kattaen uutiset, fiktiiviset teokset, keskustelufoorumien viestit, Wikipedia-artikkelit, tietokoneohjelmat, valokuvat, podcastit ja elokuvakohtaukset.

Datanjanon ei rajoitu näihin tiettyihin käytäntöihin. Artikkeli paljastaa teknologiayritysten tilanteen kiireellisyyden ja toteaa, että ne saattavat käyttää loppuun internetissä olevan laadukkaan datan jo vuoteen 2026 mennessä. Yritysten datan hyödyntämisen vauhti ylittää sen tuotannon. Tämä uhkaava haaste on saanut nämä yritykset kilpajuoksuun ajan kanssa uusien innovatiivisten tapojen löytämiseksi datan hankkimiseksi.

Useampaa sanaa yrittäjältä: ”Datan saanti on ollut meille kriittinen haaste tekoälyn kehityksessä. Pyrimme jatkuvasti löytämään uusia tapoja hankkia tarvittavaa tietoa samalla kunnioittaen yksityisyyden suojaamista ja tekijänoikeuksia.”

Usein kysytyt kysymykset (UKK):

K: Mikä on eettinen dilemma liittyen tekoälyn kouluttamiseen?
V: Eettinen dilemma syntyy siitä, että digitaalisen datan saatavuus tekoälymallien kouluttamiseen on rajallinen. Yritysten täytyy hankkia riittävästi dataa ilman mahdollista yksityisyyden loukkaamista tai tekijänoikeusrikkomuksia.

K: Miten yritykset kuten OpenAI, Google ja Meta hankkivat dataa tekoälymalleille?
V: Nämä yritykset käyttävät erilaisia menetelmiä, kuten transkriboimalla ääntä YouTube-videoista, keskustelemalla kustantamojen ostamisesta ja laajentamalla palveluehtojaan hyödyntääkseen julkisesti saatavilla olevia asiakirjoja, ravintola-arvosteluja ja muita verkkomateriaaleja.

K: Miksi datanjanon on kiireellistä?
V: Teknologiayritykset käyttävät dataa nopeammin kuin sitä tuotetaan. Tutkimuslaitokset ennustavat, että internetissä oleva laadukas data voi olla ehtymässä jo vuoteen 2026 mennessä.

K: Mitkä ovat näiden käytäntöjen mahdolliset seuraukset?
V: Yritykset, jotka osallistuvat näihin käytäntöihin, altistuvat mahdollisille eettisille ja oikeudellisille seuraamuksille, mukaan lukien tekijänoikeusrikkomukset ja alustasääntöjen rikkominen.

Tekoälyalan jatkaessa kukoistustaan datan kysyntä luo monimutkaisia haasteita. Sidosryhmien on ratkaisevan tärkeää navigoida datan hankintaan liittyvien eettisten dilem

Sources:
– https://www.nytimes.com/ (The New York Times)

The source of the article is from the blog crasel.tk