Vznikajúca spoločnosť Vals.ai navrhuje univerzálne normy hodnotenia umelej inteligencie.

Nedávne udalosti v sektore umelej inteligencie viedli k vzniku startupu nazvaného Vals.ai, spoluzaloženého bývalými študentmi magisterského študijného programu umelej inteligencie na Stanfordskej univerzite. Jeho cieľom je preklenutie medzery v hodnotení výkonu umelej inteligencie. Tento významný projekt si kladie za cieľ vyvinúť štandardizovaný testovací systém pre umelej inteligenciu a veľké jazykové modely, s dôrazom na konkrétne oblasti ako právo, financie a účtovníctvo. Tento systém sa momentálne navrhuje s príspevkami akademických a priemyselných lídrov.

Startup založený vášnivými počítačovými vedcami zo Stanfordu, Vals.ai, oficiálne spustil vývoj štandardu pre odbornosť umelej inteligencie. Založený na predpoklade, že modely umelej inteligencie, najmä v odborných sektoroch, chýbajú autoritatívne metriky na meranie výkonu, spolupracuje spolu so výskumníkmi zo Stanfordu a odborníkmi z priemyslu pri navrhovaní objektívneho hodnotiaceho systému.

Keďže spoločnosti čoraz viac využívajú umelej inteligenciu na úlohy, ktoré tradične vykonávali rôzni odborníci, investori prejavili vášnivú podporu financovaním, čím dokázali relevantnosť misie Vals.ai. Napriek tomu, že prvotné analýzy odhalili slabé stránky významných modelov umelej inteligencie pri základných úlohách ako dešifrovanie daňových otázok – výkony GPT-4 a Googleho Gemini Pro sú príkladom – tlak na štandardný test sa zdá rezonovať s širším technologickým spoločenstvom.

Posledným ukážkovým prostriedkom potenciálneho dopadu startupu bolo ich posúdenie niekoľkých modelov umelej inteligencie, ktoré odhalili významné chybovosti. Táto analýza zdôrazňuje dôležitosť vytvárania nezaujatých benchmarkov pre schopnosti umelej inteligencie.

Okrem toho trvajú medzinárodné snahy Spojených štátov a Spojeného kráľovstva na posilnení bezpečnostných štandardov umelej inteligencie, pričom plánujú využívať jednotné nástroje a zdieľať odborné znalosti medzi skupinami na bezpečnostné testovanie.

Zhrnutie: V obrovskom prostredí umelej inteligencie, Vals.ai urobil kroky so zavedením hodnotiaceho merača, ktorý poskytuje investorom, zákonodarcom a priemyselným lídrom nástroje pre jasnejšie pochopenie výkonu umelej inteligencie, najmä pokiaľ ide o jej bezpečnosť a užitočnosť v odborných prostrediach. Tento štandardizovaný testovací rámec by mohol otvoriť cestu pre zvýšenú transparentnosť a dôveryhodnosť v rýchlo sa vyvíjajúcom odvetví umelej inteligencie.

The source of the article is from the blog papodemusica.com