Kunstig intelligensudviklere vender sig til syntetiske data til træning af modeller

Den kunstige intelligens (A.I.) industri ser ud til at tage en ny retning i træningen af deres modeller, da de står over for udfordringer som begrænset data og ophavsretssager. Virksomheder som OpenAI og Google har traditionelt støttet sig til store mængder tekstdata fra kilder som bøger, Wikipedia og nyhedsartikler til at træne deres A.I. chatbots. Dog med den voksende bekymring om ophavsretskrænkelser begynder disse tech-giganter nu at se på brugen af “syntetiske data”, som genereres af A.I.-systemerne selv.

Men hvad er syntetiske data helt præcist? På en simpel måde refererer det til data, der genereres af kunstige intelligensmodeller. I stedet for at træne A.I.-modeller med tekst skrevet af mennesker, forsøger virksomheder som Google, OpenAI og Anthropic at udnytte data skabt af andre A.I.-modeller.

Der er dog bekymringer om pålideligheden af syntetiske data. A.I.-modeller kan begå fejl og fabrikere information. Desuden kan de også påtage sig de bias, der er til stede i internetdataene, som de blev trænet på. Ved at bruge A.I. til at træne A.I. er der en risiko for at forstærke mangler og bias, der er tilstede i den oprindelige data.

Selvom der er potentiale i syntetiske data til at adressere ophavsretsmæssige problemer og udvide udbuddet af træningsmaterialer til A.I., så er det essentielt at udvise forsigtighed og sikre, at potentielle begrænsninger og bias tages i betragtning.

—

Ofte stillede spørgsmål (FAQ)The source of the article is from the blog macnifico.pt

Ofte stillede spørgsmål (FAQ)
The source of the article is from the blog macnifico.pt