Innbrotet til instruksjonsstyrte språkmodeller på programvareteknologiske oppgåver

Ny forsking har avduka dei imponerande kapabilitetane til store språkmodellar (Large Language Models – LLMs) som er opplærte på kodeskript for ulike programvareteknologiske oppgåver. Desse modellane kan klassifiserast i tre hovudparadigmar: kodeskript-LLMs som er spesialiserte på kodesammensetjing, oppgåvespesifikke kodeskript-LLMs som er finspreidde for spesifikke oppgåver, og instruksjonsstyrte kodeskript-LLMs som er dyktige til å følge menneskelege instruksjonar og utmerkjer seg i nye oppgåver utan ekstra finspreiding.

For å utforske potensialet til instruksjonsstyrte kodeskript-LLMs ytterlegare, introduserer ei gruppe forskarar frå Monash University og ServiceNow Research ASTRAIOS, ei samling beståande av 28 instruksjonsstyrte kodeskript-LLMs. Desse modellane blir finspreidde ved hjelp av sju ulike metodar basert på base-modellane til StarCoder, med ulike modellstorleikar som spenner frå 1B til 16B. Finspreidingsprosessen nyttar CommitPackFT-datasettet frå OctoPack for å sikre ei omfattande forbetring av modellane sin evne til å utføre oppgåver i etterkant.

Forskarane nyttar anbefalte praksis frå Hugging Face sine PEFT-konfigurasjonar og fusjonerer utvalde metodar frå dei siste rammeverka. Deira hovudsaklege fokus er å vurdere skalérbarheit ved å evaluere kryssentropitap i løpet av instruksjonsfinspreidinga, med omsyn til modellstorleik og treningstidsskalaer.

Vidare vurderer forskarane prestasjonen til dei instruksjonsstyrte kodeskript-LLM-ane sine på fem representative koderelaterte oppgåver: klonoppdaging, defektoppdaging, kodesyntese, kodereparasjon og kodeforklaring. Dei analyserer òg modellane sine robustheit og kodetryggleik ved å vurdere deira evne til å generere kode basert på forstyrra døme og identifisere potensielle sårbarheiter i den genererte koden.

Interessant nok avslører studien at medan større PEFT Code LLMs utmerkar seg i oppgåver som kodegenerering, viser dei ikkje same fordelar i oppgåver med kodeforståing som klonoppdaging og defektoppdaging. Auka modellstorleik forbetrar genereringsprestasjonen, men gir bekymringar når det gjeld sårbarheit for angripelege døme og skjevfordeling mot usikker kode.

Samhengen mellom oppdaterte parametrar, kryssentropitap og oppgåveprestasjon blir utforska i detalj. Forskarane finn at den endelege tapen til mindre PEFT-modellar kan brukast til å forutsjå tapet til større modellar, og det er ein sterk samanheng mellom det siste tapet og den samla prestasjonen på oppgåver i etterkant.

Studien legg òg vekt på konsistensen i relativ tap i prestasjonen på tvers av ulike modellstorleikar når ein samanliknar ulike finspreidingsmetodar. Dette indikerer at forbetringane oppnådde gjennom kvar finspreidingsmetode er samanliknbare uavhengig av modellens skala. Konsekvensen er at det observerte tapet i mindre modellar finspreidd med ulike metodar kan vere ein verdifull indikator for å forutsjå prestasjonen til større modellar.

ASTRAIOS-samlinga, i tillegg til forskingsartikkelen og Github-repositoriet, gir verdifulle innsikt i potensialet til instruksjonsstyrte kodeskriptspråksmodellar for å forbetre oppgåver innan programvareteknologi.

The source of the article is from the blog meltyfan.es