Ein ny datasett revolusjonerer visuell konseptforståing i e-handel

I feltet for datamaskinsyn og naturleg språkbehandling er utviklinga av datasett i stor skala avgjerande for trening av algoritmar som kan forstå og tolke bilete. Tilgangen på nøyaktig annoterte datasett for funksjonar som kombinerer visjon og språk har imidlertid vore ein betydeleg utfordring, og har begrensa framstegen på dette området.

Med introduksjonen av «Let’s Go Shopping» (LGS) datasettet blir denne viktige mangelen fylt. Det er eit banebrytande ressurstilfang utvikla av forskarar frå University of California, Berkeley, ScaleAI og New York University. LGS er eit omfattande datasett som inneheld 15 millionar bilete-beskrivingspar frå omtrent 10 000 nettsider for elektronisk handel. I motsetning til tradisjonelle datasett fokuserer LGS på objekt i forgrunnen med enklare bakgrunnar, noko som er ein karakteristikke eigenskap ved bilete i e-handel.

Metodologien bak opprettinga av LGS er både nøye og nyskapande. Datasettet viser hovudsakleg produkt mot klar bakgrunn, noko som tillèt modellar å fokusere på objektet av interesse. Dette står i kontrast til typiske datasett der motivet ofte blandar seg inn i ein kompleks bakgrunn. Innsamlingsprosessen involverte ein halvautomatisert prosedyre som samla produktoverskrifter, beskrivingar og tilhøyrande bilete på ein effektiv måte, samtidig som det vart sikra høgkvalitetsdata. Datasettet spenner over eit breitt spekter av produkt, og gir variert visuell og tekstleg informasjon.

LGS-datasettet har synt si nytteverdi i ulike applikasjonar. Modellar trent på LGS har vist betra resultat i oppgåver som biletklassifisering, rekonstruksjon, billedtekstar og generering, særleg med tanke på e-handel. Den unike distribusjonen og dei høgkvalitets bilete-tekstparane i datasettet aukar modellens forståing av visuelle konsept spesifikke for e-handel. Dette aspektet av LGS er særleg verdifullt for applikasjonar som krev ein djup forståing av produktbilete og -beskrivingar.

Innføringa av LGS-datasettet representerer eit betydeleg steg framover innan visuell konseptforståing, spesielt på området for e-handel. Det imøtekjem det kritiske behovet for datasett i stor skala og av høg kvalitet for visjon-språk-oppgåver på dette området. Tilgangen på LGS bereikar forskarar og utviklarar med ressursar som opnar nye moglegheitar for innovativ forsking og utvikling av applikasjonar innan feltet for datamaskinsyn og naturleg språkbehandling. Med sitt spesielle fokus på e-handel bilete og beskrivingar legg LGS grunnlag for utviklinga av meir spesialiserte og nøyaktige modellar i dette stadig veksande området.

The source of the article is from the blog newyorkpostgazette.com

Web Story