Kylančių iššūkių programinės įrangos inžinerijoje sprendimas prasideda nuo pripažinimo, kad tradiciniai etalonai dažnai trūksta. Realaus pasaulio laisvai samdomų programinės įrangos inžinerija yra sudėtinga, apimanti daug daugiau nei izoliuotos kodavimo užduotys. Laisvai samdomi inžinieriai dirba su visomis kodų bazėmis, integruoja įvairias sistemas ir valdo sudėtingus kliento reikalavimus. Įprasti vertinimo metodai, kuriuose paprastai pabrėžiami vienetų testai, praleidžia kritinius aspektus, tokius kaip pilno statinio atlikimas ir tikrasis sprendimų pinigų poveikis. Šis atotrūkis tarp sintetinių tyrimų ir praktinio pritaikymo paskatino realistiškesnių vertinimo metodų poreikį.
„Openai“ pristato „Swe-Lancer“-etaloną, skirtą įvertinti modelio veikimą atliekant realaus pasaulio laisvai samdomų programinės įrangos inžinerijos darbus. Etalonas yra pagrįstas daugiau nei 1 400 laisvai samdomų užduočių, gautų iš „Upwork“ ir „Expensify“ saugyklos, iš viso išmokėta 1 mln. USD. Užduotys svyruoja nuo nedidelių klaidų pataisų iki pagrindinių funkcijų diegimų. „SWE-Lancer“ yra skirtas įvertinti tiek individualius kodo pataisas, tiek vadybinius sprendimus, kai modeliai privalo pasirinkti geriausią pasiūlymą iš kelių parinkčių. Šis požiūris geriau atspindi dvigubus vaidmenis, esančius realiose inžinerijos komandose.
Vienas iš pagrindinių „SWE-Lancer“ stipriųjų pusių yra jo bandymų nuo galo iki galo, o ne izoliuoti vienetų testai. Šiuos testus kruopščiai suprojektuoja ir patikrina profesionalūs programinės įrangos inžinieriai. Jie imituoja visą vartotojo darbo eigą – nuo leidimo identifikavimo ir derinimo, kad pataisytų patikrinimą. Naudojant vieningą „Docker“ vaizdą vertinimui, etalonas užtikrina, kad kiekvienas modelis būtų patikrintas tomis pačiomis kontroliuojamomis sąlygomis. Ši griežta testavimo sistema padeda atskleisti, ar modelio sprendimas būtų pakankamai patikimas praktiniam diegimui.
Techninės „SWE-Lancer“ detalės yra apgalvotai suprojektuotos taip, kad atspindėtų laisvai samdomo darbo darbo realijas. Užduotys reikalauja modifikacijų keliuose failuose ir integracijose su API, ir jos apima ir mobiliąsias, ir žiniatinklio platformas. Be kodo pleistrų kūrimo, modeliams kyla iššūkis peržiūrėti ir pasirinkti tarp konkuruojančių pasiūlymų. Šis dvigubas dėmesys techniniams ir vadybiniams įgūdžiams atspindi tikrąją programinės įrangos inžinierių atsakomybę. Įtraukus vartotojo įrankį, kuris imituoja realią vartotojo sąveiką, dar labiau sustiprina vertinimą skatinant iteracinį derinimą ir koregavimą.

SWE-Lancer rezultatai siūlo vertingų įžvalgų apie dabartines kalbos modelių galimybes programinės įrangos inžinerijos srityje. Atliekant individualias bendradarbių užduotis, tokie modeliai kaip GPT-4o ir Claude 3.5 sonetas pasiekė atitinkamai 8,0% ir 26,2%. Vykdydami vadovų užduotis, geriausias modelis pasiekė 44,9%leidimo normą. Šie skaičiai rodo, kad moderniausi modeliai gali pasiūlyti perspektyvius sprendimus, vis dar yra daug ką patobulinti. Papildomi eksperimentai rodo, kad leidimas daugiau bandymų ar padidinus bandymo laiko skaičiavimą gali reikšmingai padidinti našumą, ypač atliekant sudėtingesnes užduotis.

Apibendrinant galima pasakyti, kad SWE-Lancer pateikia apgalvotą ir tikrovišką AI įvertinimo programinės įrangos inžinerijos vertinimą. Tiesiogiai susiejant modelio našumą su realia pinigų verte ir pabrėždamas pilno statinio iššūkius, etalonas pateikia tikslesnį modelio praktinių galimybių vaizdą. Šis darbas skatina atsiriboti nuo sintetinio vertinimo metrikos link vertinimų, atspindinčių laisvai samdomų darbo darbo ekonominę ir techninę realybę. Laukai toliau vystosi, „Swe-Lancer“ yra vertinga priemonė tiek tyrėjams, tiek praktikams, siūlanti aiškias įžvalgas tiek apie dabartinius apribojimus, tiek galimus tobulėjimo būdus. Galų gale šis etalonas padeda paruošti kelią saugesnei ir efektyvesnei AI integracijai į programinės įrangos inžinerijos procesą.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama „Read-LG AI Research“ išleidžia „Nexus“: pažangių sistemos integracinių agentų AI sistemos ir duomenų atitikties standartų, skirtų teisiniams klausimams spręsti AI duomenų rinkiniuose

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (reklamuojama)