Růst umělé inteligence a výzvy pro technologické giganty

V rychlém závodě o vývoj pokročilých modelů umělé inteligence se hlavní technologické společnosti jako OpenAI, Google a Meta snaží o získání velkého množství dat nekonvenčními a někdy kontroverzními metodami. Jak technologie umělé inteligence postupuje, roste poptávka po velkém množství kvalitních dat, což nutí tyto společnosti zkoumat nové metody získávání dat.

Podle nedávného zprávy OpenAI využil přes milion hodin videí z YouTube k výcviku svého mocného jazykového modelu GPT-4. Místo přímého využití videí OpenAI použil nástroj pro rozpoznávání řeči nazvaný Whisper k přepisu obsahu, generujíc nový konverzační text. Tento přístup vyvolal obavy o dodržování zásad YouTube, protože platforma omezuje nezávislé aplikace ve využívání svých videí, OpenAI však našel způsob, jak přepsat obsah.

Podobně i Google a Meta, mateřská společnost Facebooku a Instagramu, byly obviněny z využití kontroverzních zdrojů dat. Zpráva naznačuje, že Google přepisuje videa z YouTube k tréninku umělé inteligence, potenciálně porušujíc autorské právo, a dokonce změnil své podmínky služby, aby mohl získat přístup k více uživatelsky vytvořenému obsahu. Meta zkoumala možnost získání Simon & Schuster s cílem získat přístup k rozsáhlé knihovně knih a zvažovala využití chráněných internetových dat, přestože existují etické a právní důsledky.

Objem dat a výkon umělé inteligence

Účinnost modelů umělé inteligence, zejména při generování textu, obrázků, zvuků a videí, závisí z velké části na objemu dat, na kterých jsou trénovány. Nedostatečná poptávka po kvalitních datech v odvětví umělé inteligence vedla k spekulacím, že technologické společnosti by mohly vyčerpat dostupná datová kapacita internetu již v roce 2026. To zdůrazňuje klíčovou roli získávání dat při posouvání hranic schopností umělé inteligence.

Odezvy společností

OpenAI reagovala na obavy tím, že každý z jejích modelů umělé inteligence je trénován na jedinečném souboru dat, zdůrazňujíce potřebu udržování konkurenceschopnosti ve výzkumu. Google na druhé straně uznal, že trénuje své modely umělé inteligence na některém obsahu z YouTube, ale upřesnil, že tak činí na základě dohod s tvůrci obsahu. Dále upřesnil, že data z kancelářských aplikací nejsou využívána mimo experimentální programy. Meta zdůrazňuje svůj závazek integrovat umělou inteligenci do svých služeb tím, že využívá miliardy veřejně sdílených obrázků a videí.

Často kladené dotazy

1. Proč potřebují technologické společnosti jako OpenAI a Google obrovské množství dat k tréninku svých modelů umělé inteligence?

U technologických společností závisí lepší výkon a přesnost modelů umělé inteligence na množství dat, na kterých jsou trénovány. Více dat umožňuje modelům umělé inteligence naučit se vzory, provádět predikce a generovat realističtější a lidské výstupy.

2. Jaké jsou kontroverze týkající se získávání dat těmito technologickými giganty?

Kontroverze vznikají, když technologické společnosti využívají data zdrojů jako je YouTube bez explicitního souhlasu nebo potenciálně v rozporu s autorskými právy. Existují obavy o etické důsledky takových praktik a o dopad na soukromí uživatelů a práva duševního vlastnictví.

3. Jak technologické společnosti reagují na tyto obavy?

OpenAI tvrdí, že každý z jejich modelů umělé inteligence je trénován na jedinečných datových sadách, aby udrželi konkurenceschopnost. Google tvrdí, že má dohody s tvůrci obsahu ohledně použití obsahu z YouTube a zdůrazňuje, že mimo experimentální programy není využíváno data z kancelářských aplikací. Meta se soustředí na využívání veřejně sdílených obrázků a videí a zároveň uznává právní a etická hlediska získávání chráněných dat.

Zdroje:
– The New York Times
– WSJ

The source of the article is from the blog lokale-komercyjne.pl