Nouseva startup Vals.ai ehdottaa yleisiä tekoälyn arviointistandardeja

Viimeaikaiset kehitykset tekoälysektorilla ovat johtaneet Vals.ai-nimisen startupin perustamiseen, jonka ovat perustaneet entiset Stanfordin tekoälytutkintoa suorittaneet opiskelijat. Yrityksen tavoitteena on luoda standardoitu testausjärjestelmä tekoälylle ja suurille kielimalleille, keskittyen erityisesti aloihin kuten laki, rahoitus ja kirjanpito. Järjestelmää ollaan suunnittelemassa yhteistyössä niin akateemisen maailman kuin teollisuudenkin johtajien kanssa.

Vals.ai:n intohimoisten tietojenkäsittelytieteilijöiden perustama startup on virallisesti käynnistänyt standardin kehittämisen tekoälyn osaamiselle. Yritys perustuu ajatukseen, että tekoälymallien, erityisesti ammatillisilla aloilla, ei ole vahvaa mittaria suorituskyvyn mittaamiseen. Yritys toimii yhteistyössä Stanfordin tutkijoiden ja teollisuuden ammattilaisten kanssa luomaan puolueeton arviointijärjestelmä.

Kun yritykset yhä enenevässä määrin hyödyntävät tekoälyä tehtävissä, jotka perinteisesti olisi suorittanut useat ammattilaiset, sijoittajat ovat osoittaneet voimakasta tukea rahoituksen muodossa, mikä osoittaa Vals.ai:n missiön merkityksellisyyden. Vaikka alkuvaiheen analyysit ovatkin paljastaneet heikkouksia tunnetuissa tekoälymalleissa perustavanlaatuisissa tehtävissä kuten veroasioita käsiteltäessä – GPT-4 ja Googlen Gemini Pron suorituksen ollessa esimerkki – vahvistaa standarditestin tarve laajemminkin teknologiayhteisössä.

Yrityksen potentiaalisen vaikutuksen äskettäinen demonstraatio oli useiden tekoälymallien analyysi, joka osoitti merkittäviä virheasteita. Tämä analyysi korostaa puolueettomien mittareiden luomisen tärkeyttä tekoälyn kyvyille.

Lisäksi Yhdysvaltain ja Yhdistyneen kuningaskunnan jatkuvat kansainväliset ponnistelut keskittyvät tekoälyn turvallisuusstandardeihin, joissa niiden suunnitelmissa on käyttää yhtenäisiä työkaluja ja jakaa asiantuntemusta turvallisuustestausryhmien välillä.

Yhteenveto: Kasvavan tekoälymaailman keskellä Vals.ai ottaa askelia esitelläkseen arviointimittapuita, tarjoten sijoittajille, lainsäätäjille ja teollisuuden johtajille työkaluja selkeämpään ymmärrykseen tekoälyn suorituskyvystä, erityisesti sen turvallisuudesta ja hyödyllisyydestä ammatillisissa ympäristöissä. Tämä standardoitu testauskehys voisi avata tien parempaan avoimuuteen ja luotettavuuteen nopeasti kehittyvällä tekoälyn alalla.

The source of the article is from the blog publicsectortravel.org.uk