AI výskumníci čelia dilemu so získavaním dát
Ako umelej inteligencii pokračuje vo vývoji, veľmi sa spolieha na obrovské množstvá ľudského generovaného textového dátumu. Pokrok, ktorý sme boli svedkami v jazykových modeloch, bol mimoriadny, pričom aplikácie čerpajú miliardy slov z internetu.
Blížiace sa koncové dáta
Avšak, AI organizácie ako OpenAI by sa mohli priblížiť k značnému výzve, keďže zdroje textových dát sa vyčerpávajú. Niekto dokonca tvrdí, že ďalšia generácia AI modelov by mohla vyčerpať všetky dostupné zdroje textových dát do roku 2026. Táto obava vychádza z obrovského objemu dát potrebných na trénovanie sofistikovanejších modelov ako potenciálny GPT-5 alebo GPT-6.
Riešenie nedostatku textových dát
V očakávaní nedostatku výskumníci už hľadajú alternatívy k ľudsky generovaným textom. Jedným prominentným prístupom je trénovanie jazykových modelov na syntetických dátach, využívaním prenášajúceho učenia z oblastí s bohatými dátami. Spoločnosti ako OpenAI, Google a Anthropic sú v popredí tohto prieskumu.
Obavy o kvalitu a budúce stratégie
Napriek týmto inovatívnym prístupom sa pozoruje významný pokles kvality obsahu, keď AI-generovaný obsah prúdi do týchto modelov, čo vedie k obavám o cyklus klesajúcich návratov. Nicolas Papernot, výskumník umelej inteligencie a asistent profesor na Univerzite v Toronte, upozorňuje, že väčšie nie je vždy lepšie, pokiaľ ide o AI modely. Kľúč je v pokračovaní výskumu a cieľ v porozumení efektívnosti rastu dát a potenciálnych vylepšení, ktoré by mohli ponúknuť nové techniky.
…