Indvirkningen af instruktions-tilrettede programmeringssprogmodeller på software engineering-opgaver

Nyere forskning har kastet lys over de imponerende evner hos store sprogmodeller (LLMs), der er trænet på kode til forskellige software engineering-opgaver. Disse modeller kan klassificeres i tre hovedparadigmer, nemlig kode-LLMs specialiseret i kodetilrettelæggelse, opgavespecifikke kode-LLMs tilrettet til specifikke opgaver og instruktions-tilrettede kode-LLMs, der er dygtige til at følge menneskelige instruktioner og udmærke sig i nye opgaver uden yderligere finjustering.

For at udforske potentialet af instruktions-tilrettede kode-LLMs yderligere introducerer en gruppe forskere fra Monash University og ServiceNow Research ASTRAIOS, en samling bestående af 28 instruktions-tilrettede kode-LLMs. Disse modeller gennemgår finjustering ved brug af syv forskellige metoder baseret på StarCoders basismodeller, med varierende modelstørrelser fra 1B til 16B. Finjusteringsprocessen anvender CommitPackFT-datasættet fra OctoPack for at sikre en omfattende forbedring af modellernes efterfølgende evner.

Forskerne anvender anbefalede praksisser fra Hugging Faces PEFT-konfigurationer og sammenfletter udvalgte metoder fra nyere rammer. De fokuserer primært på at vurdere skalérbarheden ved at evaluere krydsentropitab under instruktions-tilretning og tage højde for modelstørrelse og træningstidskalaer.

Derudover evaluerer forskerne ydeevnen af deres instruktions-tilrettede kode-LLMs på fem repræsentative kode-relaterede opgaver: klon-detektion, defektdetektion, kode-syntese, kode-reparation og kode-forklaring. De analyserer også modellernes robusthed og kode-sikkerhed ved at vurdere deres evne til at generere kode baseret på forstyrrede eksempler og identificere potentielle sårbarheder i den genererede kode.

Interessant nok afslører undersøgelsen, at mens større PEFT Kode-LLMs udmærker sig i kod-genereringsopgaver, demonstrerer de ikke tilsvarende fordele i kode-forståelsesopgaver som klon-detektion og defektdetektion. Større modelstørrelser forbedrer genereringsytelsen, men rejser bekymring vedrørende modtagelighed over for angribende eksempler og en skævhed mod usikker kode.

Sammenhængen mellem opdaterede parametre, krydsentropitab og opgavepræstation undersøges indgående. Forskerne finder, at den endelige tab hos mindre PEFT-modeller kan bruges til at forudsige det samme for større modeller, og der er en stærk korrelation mellem det sidste tab og den overordnede ydeevne i efterfølgende opgaver.

Derudover fremhæver undersøgelsen den konsistente præstation af relativt tab på tværs af forskellige modelstørrelser ved sammenligning af forskellige tilrettemetoder. Dette indikerer, at forbedringerne opnået af hver tilrettemetode er sammenlignelige uanset modellens størrelse. Som et resultat kan det observerede tab hos mindre modeller, tilrettet med forskellige metoder, tjene som en værdifuld indikator for at forudsige ydeevnen hos større modeller.

ASTRAIOS-samlingen, sammen med forskningsartiklen og Github-repositoriet, giver værdifulde indsigter i potentialet for instruktions-tilrettede kode-sprogmodeller til at udvikle software engineering-opgaver.

The source of the article is from the blog kewauneecomet.com