Megoldatlan adatok a mesterséges intelligencia korában

Az AI már régóta az emberiség egyik legmeghatározóbb technológiai területe, amely egyre növekvő mennyiségű adatot igényel az optimális működéshez. Az OpenAI, a Google és a Meta számos kérdéses lépést tett annak érdekében, hogy a szükséges adathalmazokhoz hozzáférjen az AI-modellek képzéséhez.

A 2021 végén az OpenAI-nak problémái adódtak az adatszolgáltatás területén, és ennek megoldásaként létrehozták a Whisper nevű beszédfelismerő eszközt, amely a YouTube-videók hanganyagát tranzkribálta. Az így keletkező beszélgetési szövegeket táplálták be a GPT-4 nevű erős AI-modelljükbe annak érdekében, hogy növeljék képességeit.

A Meta, mint a Facebook és az Instagram anyavállalata, különböző módszereket kutat, hogy a szükséges adatokhoz hozzájuthasson. Belső megbeszéléseik során szó esett a Simon & Schuster kiadórészvény megvásárlásáról a hosszú művekhez való hozzáférés érdekében. Fontolgatták szerzői jogokkal védett adatok gyűjtését az internetről, még ha ez jogi következményekkel is jár. A szerzőkkel és tartalomkészítőkkel kötött licencmegállapodások időigényesnek és praktikusnak egyaránt ítéltek.

A Google, mint egy másik meghatározó szereplő az AI területén, a YouTube-videók tranzkribálásához folyamodott az adatgyűjtés során, a videókészítők szerzői jogainak lehetőséges megsértése árán. A cég kiterjesztette általános szerződési feltételeit, hogy hozzáférhessen a nyilvánosan elérhető Google Dokumentumokhoz, étteremértékelésekhez a Google Térképen és más online anyagokhoz annak érdekében, hogy felhasználhassa azokat AI-termékekhez.

Ezeknek a tech cégeknek a lépései rávilágítanak a növekvő függőségre az online információktól az AI fejlesztések támogatására. Az emberek által létrehozott szövegek, képek, hangok és videók értékes erőforrásokká váltak az AI-rendszerek képzése során. Ahogy az AI-modellek egyre erősebbek lesznek, az általuk igényelt adatmennyiség tovább fokozódik.

A tech cégek számára központi kihívást jelent a magas minőségű adatok elérésében. Míg egykor az internet bőséges információforrás volt, az AI fejlesztések a sokoldalú és kiterjedt adattárakat igénylik. Azonban olyan szabályozások, mint az adatvédelmi törvények, gátolják, hogy a Google és a Meta felhasználhassa a felhasználók által generált tartalmakat AI-célokra.

Az szakértők szerint a tech óriások akár 2026-ra már kihasználhatják az interneten elérhető magas minőségű adatokat. Ennek eredményeként a cégek alternatív megközelítéseket kutatnak az adatgyűjtés céljából, ideértve a szintetikus információk létrehozását is. Ez azt jelenti, hogy az AI-modellek szöveget, képeket és kódot generálnak saját kimenetük alapján.

Az OpenAI, a Google és a Meta foglalkoztak az adatszerzéssel kapcsolatos aggályokkal, hangsúlyozva erőfeszítéseiket az adatok kurátorálására és integrálására az AI-modellekbe. Az OpenAI kijelentése szerint mindegyik AI-modellje egyedi adatkészlettel rendelkezik, ami a világ megértését hivatott növelni. A Google elismeri a YouTube tartalmak felhasználását, de szigorúan a készítőkkel kötött megállapodások szerint, míg a Meta hangsúlyozza hatalmas gyűjteményét a közösen megosztott képek és videók terén az Instagramról és a Facebookról.

Az AI-modellek által alkotott kreatív munkák egyre növekvő alkalmazása jogi vitákat váltott ki a szerzői jogok és engedélyeztetés terén. Számos kereskedelmi szervezet, szerzők és cégek észrevételeket nyújtottak be a Szerzői Hivatalhoz a munkáik AI-modellek általi felhasználásáról. A Szerzői Hivatal jelenleg iránymutatásokat készít a szerzői jog alkalmazására az AI korszakban.

Az AI-adatdilemma egy bonyolult kérdés, amelyben az innováció és a szerzők jogainak tiszteletben tartása között kell egyensúlyt teremteni. Ahogy a tech cégek igyekeznek fejlett AI rendszereket fejleszteni, az adatok iránti igény tovább fog alakulni, ami folyamatos vitákat szül az etikai és jogi határokról.

The source of the article is from the blog elektrischnederland.nl