Prehodnotenie hodnotenia umelej inteligencie: Mimo Turingovho testu

Ako kognitívne systémy umelej inteligencie dosahujú pozoruhodné míľniky, je potrebné kritické myslenie na presné vyhodnotenie ich schopností. V najnovšom vydání Inštitútu pre umelej inteligenciu zameraný na človeka na Stanfordovej univerzite sa zdôrazňuje potreba nových metód hodnotenia.

Správa AI Index 2024, vydaná 15. apríla, upriamuje pozornosť na evolúciu strojového učenia za posledné desaťročie a potrebu implementácie nových hodnotiacich prístupov. Tradičné benchmarky – vrátane Turingovho testu predstaveného v roku 1950 – už nie sú dostatočné na posúdenie pokročilých schopností moderných systémov umelej inteligencie, čo naznačuje potrebu obrátiť sa k prísnejším kritériám.

Sľubná alternatíva je test massive multitask language understanding (MMLU). Hodnotí znalosti umelého inteligentného systému vo veľkom množstve akademických predmetov prostredníctvom približne 16 000 otázok s viacerými možnosťami odpovedí. Aj keď nedávna správa od Googlu o tom, že ich model GeminiUltra dosiahol vynikajúcich 90% v teste MMLU, mala dodatok v podaní, aby sme tieto skóre prijímali s rezervou, pretože odrážajú len jednu stránku schopností umelého inteligentného systému.

V správe AI Index 2024 je pod mikroskopom rýchle zastaranie súčasných noriem. Tam, kde benchmarky kedysi obstáli po mnoho rokov, sa dnes rýchlo zastarávajú. Nestor Maslej, hlavný redaktor správy, vítal zavedenie komplexnejších hodnotiacich úloh, ktoré zohľadňujú abstraktné myslenie a logické uvažovanie.

Ako sa meranie umelej inteligencie dostáva do stavu zmien, pričom bežné testy zaostávajú, hľadanie zlepšených metrík sa stáva kritickým – nielen technicky, ale aj eticky, aby sme zabezpečili zodpovedný rozvoj umelej inteligencie.

Pátranie po komplexnejšom hodnotení umelej inteligencie vyvolalo diskusie o viacerých dodatočných faktoroch, ktoré sú nevyhnutné pri hodnotení schopností systému umelej inteligencie. Tu zdieľam niekoľko súčasných poznatkov súvisiacich s daným témou:

[…]

The source of the article is from the blog kunsthuisoaleer.nl

Privacy policy
Contact