Den nye æra av datakvalitet innan kunstig intelligens (AI)

I ei tid der kunstig intelligens (AI) fortset å utviklast i eit hurtig tempo, vert det stadig meir tydeleg at kvaliteten på data er avgjerande for framgangen til desse systema. Nye teknologiar som OpenAI sin ChatGPT har vunne popularitet, men samstundes står industrianalytikarar overfor ei kjensle av bekymring når dei ser på den aukande etterspurnaden etter data av høg kvalitet som er naudsynt for å trene desse AI-modellane.

Mangel på omfattande datasett er kritisk for å løfte AI-modellar som ChatGPT til nye nivå av kompleksitet. Desse datasetta spelar ei viktig rolle i opplæringa av modellane for å forstå menneskeleg språk og tolke spørsmål nøyaktig. Men det som verkeleg vekkjer uro i teknologimiljøet er den aukande knappheita på data for AI-trening.

Mangelen kjem i hovudsak frå behovet for store mengder data av høg kvalitet, som er varierte og nøyaktig merka, og som representerer reelle situasjonar. Å skaffe slike data er ein tidskrevjande prosess som ofte krev manuell annotering av fagpersonar og innsamling frå ulike kjelder. Naudsynt kurering er vital for å sikre datakvalitet og fjerne skjeivskap.

Utfordringane ved å skaffe treningsdata vert ytterlegare forsterka av komplekse opphavsrettslege spørsmål. AI-selskap må manøvrere gjennom rettslege føresegner, tillatelsar, og prosessar for innhaldsfiltrering for å unngå opphavsrettslege utfordringar ved datainnsamling.

For å takle utfordringa med datamangel, undersøker forskarane ulike strategiar. Ei slik strategi involverer utnytting av databaserte teknikkar for å lage syntetiske data. Denne tilnærminga berikar datasetta og gir AI-modellar eit variert spekter av scenarioer for trening.

Ein annan strategi involverer å inkludere menneskeleg tilsyn i data-genereringsprosessen. Sjølv om AI har gjort store freistingar, manglar det framleis den nyanserte forståinga og etiske vurderingsevnen som er medfødd i menneskeleg dømmekraft. Storleik på språkmodellar (LLM-ar) kan generere kunstige eksempel for å trene seg sjølv, ein prosess kjent som «sjølvforbetring». Likevel er det bekymringar for at dersom LLM-ar har skjeive haldningar, kan dei kunstige treningsdataene deira vidareføre desse skjeivskapa og skape ein skadeleg tilbakemeldingsløyeprosess.

Utfordringane knytt til syntetiske data vert eksemplifisert av eit prosjekt som fokuserte på å skape data for Google Starline, som har som mål å fange opp menneskelege kroppsbevegelsar og ansiktsuttrykk. Teamet bak prosjektet forsyner aktivt mangfaldige data som er samla inn gjennom ein registreringsenhet med ulike hudtonar. Kunstig skapte versjonar av desse dataene kunne introdusere risikoar på grunn av utilstrekkeleg forsking på det spesifikke området.

Ein potensiell løysing på dataproblemet ligg i å finne betre måtar å dele data på. Innhaldsskaparar er oftast tilbakehaldne med å gjere høgkvalitetsdataane sine tilgjengelege, enten fordi dei vil ha kompensasjon eller dei meiner at dei tilbodde prisane ikkje reflekterer data sin sanne verdi. Implementering av attribusjon til AI-svar kunne gi insentiv til innhaldsskaparar for å bidra med gratis innhald mot å få merkeksponering eller andre fordelar. Denne tilnærminga kunne potensielt skape eit rettferdig marked der innhaldsskaparar og LLM-leverandørar kan gjere data effektivt om til pengar.

Sjølv om det er bekymringar om dataknappheit, hevdar nokre ekspertar at datakvalitet er viktigare enn mengde, sjølv om mengda framleis er viktig. Medan datamengda aukar, aukar også kompleksiteten og kostnadene med trening, og det er større fare for at modellen overser kritisk informasjon under trening. Ekspertane tilrår ein overgang til ein meir selektiv tilnærming til datatrening, der den opphavlege treningsdataen vert nøye rydda, verifisert, og deduplisert. Denne prosessen vil føre til at genererande modellar trenar seg sjølv til å generere ny data og verifiseringsmodellar til å sjekke kvaliteten på den genererte dataen, og skape ein lukka sirkel av kvalitetsforbetring.

Generelt sett er framtida for AI-utvikling avhengig av tilgangen til data av høg kvalitet. Medan etterspurnaden etter kvalitetsdata fortset å vekse, er det avgjerande for forskarar, bransjeprofesjonelle, og beslutningstakarar å takle utfordringane knytt til dataknappheit og sikre at AI-utviklinga held fram utan hinder.

The source of the article is from the blog queerfeed.com.br