Spartus didelių kalbos modelių tobulinimas (LLMS) žymiai pagerino jų sugebėjimą generuoti ilgos formos atsakymus. Tačiau efektyviai ir sąžiningai įvertinti šiuos atsakymus išlieka kritinis iššūkis. Tradiciškai žmonių vertinimas buvo aukso standartas, tačiau jis yra brangus, daug laiko reikalaujantis ir linkęs į šališkumą. Siekiant sušvelninti šiuos apribojimus, atsirado LLM-as-A-teismo paradigma, pasinaudojant LLMS, kad ji veiktų kaip vertintojai. Nepaisant šio tobulėjimo, LLM-as-A-teismo modeliai susiduria su dvi požiūriai, kurie priklauso nuo griežtų, rankomis suprojektuotų vertinimo komponentų, todėl juos sunku apibendrinti įvairiose užduotyse ir srityse. Šie apribojimai riboja AI pagrįstų vertinimo modelių tikslumą ir patikimumą. Norėdami įveikti šias problemas, „Meta AI“ pristatė „Evalplanner“-naują požiūrį, skirtą pagerinti LLM pagrįstų teisėjų samprotavimus ir sprendimų priėmimo galimybes per optimizuotą planavimo ir vykdymo strategiją.
„Everplanner“ yra pirmenybės optimizavimo algoritmas, skirtas specialiai Mąstymas-llm-as-a-teisėjas modeliai. „Evalplanner“ išsiskiria naudodamas trijų pakopų vertinimo procesą: (1) nevaržomo vertinimo plano generavimas, (2) plano vykdymas ir (3) galutinis sprendimas. Skirtingai nuo ankstesnių metodų, „Evalplanner“ nevaržo samprotavimų pėdsakų iki iš anksto nustatytų rubrikų ar kriterijų. Vietoj to, jis sukuria lanksčius vertinimo planus, kurie prisitaiko prie įvairių sričių ir užduočių reikalavimų. Sistema veikia savarankiško mokymo ciklo, pakartotinai tobulinant vertinimo planus ir vykdymo strategijas, naudojant Sintetetiškai sugeneruotos pirmenybės poros. Nuolat optimizuodamas save, „Everplanner“ užtikrina Patikimesni, skaidresni ir keičiami vertinimai Palyginti su esamais LLM-A-A-teisėjų modeliais.
„Evalplanner“ naujovės slypi jos Struktūrizuotas samprotavimo metodaskuris atskiria planavimo etapą nuo vykdymo etapo. Planavimo etape modelis suformuluoja išsamų vertinimo planą, pritaikytą prie konkrečios instrukcijos. Vykdymo metu modelis seka žingsnis po žingsnio planą, kaip sistemingai įvertinti ir palyginti atsakymus. Šis dviejų etapų atskyrimas leidžia geriau suderinti vertinimo tikslus ir samprotavimo procesus, dėl kurių bus galima tiksliau ir paaiškinami sprendimai.
„Evalplanner“ techninė informacija ir nauda
„Everplanner“ pristato a Savarankiško mokymo mechanizmas Tai nuolat tobulina vertinimo proceso planavimo ir vykdymo komponentus. Modelio svertas Tiesioginis pasirinkimo optimizavimas (DPO) Norėdami pakartotinai pagerinti savo sprendimus, mokantis iš sintetinių pirmenybių porų. Šios pirmenybės poros yra išvestos imant kelis vertinimo planus ir vykdymą, leidžiant „Evalplanner“ nustatyti veiksmingiausius samprotavimo modelius.
Pagrindiniai „Everplanner“ pranašumai yra šie:
- Padidėjęs tikslumas: Generuojant Neapriboti vertinimo planai„Everplanner“ žymiai sumažina šališkumą ir pagerina skirtingų užduočių nuoseklumą.
- Mastelio keitimas: Skirtingai nuo rankiniu būdu pagaminto vertinimo rubrikos, „Evalplanner“ automatiškai prisitaiko Naujoms vertinimo užduotims, todėl tai yra labai keičiamas sprendimas.
- Efektyvumas: „Evalplanner“ pasiekia Šiuolaikinis (SOTA) spektaklis ant įvairių etalonų su Mažiau mokymo pavyzdžiųremdamiesi tik sintetinėmis pirmenybės poromis, o ne plačiomis žmogaus anotacijomis.
- Skaidrumas: Aiškiai atskirdamas planavimą nuo vykdymo, „Evalplanner“ pagerina aiškumas dėl savo samprotavimo proceso, palengvinant analizuoti ir derinti.
Eksperimentiniai rezultatai ir įžvalgos apie atlikimą
„Meta AI“ įvertino „Everplanner“ daugialypiuose atlygio modeliavimo etalonuose, įskaitant „RewardBench“, „RM-Bench“, „JudsBench“ ir. Rezultatai rodo pranašesnį „Everplanner“ rezultatą Įvertinti sudėtingus, daugiapakopius apribojimus ir tobulinimas esamuose modeliuose įvairiose srityse, tokiose kaip pokalbių sąveika, saugos vertinimas, kodavimas ir matematiniai samprotavimai.
- Šiuolaikiniai „RewardBench“ rezultatai: Everplanner pasiekė 93,9 baląpranašesni pagrindiniai modeliai, kuriais remiasi 30 kartų daugiau Žmogaus suaktyvinti duomenys. Tai pabrėžia „Evalplanner“ sintetinės duomenų pagrįstos mokymo metodikos veiksmingumą.
- Patobulintas RM-Bench tvirtumas: „Everplanner“ pademonstravo 8% didesnis tikslumas Palyginti su ankstesniais SOTA modeliais, tvarkant niuansuotus vertinimo kriterijus, parodant jo sugebėjimą atsispirti subtilūs šališkumai ir variantai reaguodamas į kokybę.
- Aukščiausio suvaržymo tvarkymas „FollowBencheval“: Atliekant daugiapakopį apribojimų vertinimą, „Everplanner“ pralenktų konkurencinių bazinių linijų 13%pabrėžiant jo sugebėjimą efektyviai Suplanuokite ir priežasties per sudėtingus raginimus.
- Apibendrinimas teisėjui: „Everplanner“ pademonstravo stiprių apibendrinimo galimybes, Palyginamo našumo pasiekimas su didesniais modeliais išmokytas plačių žmonių suaktyvintų duomenų rinkinių, naudojant žymiai mažiau pirmenybės porų.
Be to, abliacijos tyrimai tai patvirtino Iteracinis vertinimo planų optimizavimas žymiai padidina našumą. Kai mokėsi tiek, kiek 5K sintetinių pirmenybių poros„Evalplanner“ išlaikė konkurencinius rezultatus, parodydamas jos Duomenų efektyvumas Palyginti su tradiciniais modeliais.

Išvada: AI pagrįsto vertinimo ateitis
„Everplanner“ žymi a Pagrindinis proveržis kuriant AI pagrįstas vertinimo sistemas. Derinant Pirmenybės optimizavimas, struktūrizuotas planavimas ir savęs mokymasJame veiksmingai nagrinėjami esamų LLM-AS-A-A-teisėjų modelių apribojimai. Jo mastelio keitimas, tikslumas ir skaidrumas Padarykite tai perspektyviu įrankiu automatizuotas, nešališkas ir efektyvus AI generuojamų atsakymų įvertinimas įvairiose programose. AI modeliams toliau vystosi, „Evalplanner“ atveria kelią Patikimesnės ir aiškesnės vertinimo sistemosgaliausiai Patikėjimo ir sąžiningumo gerinimas priimant sprendimus dėl AI. Būsimi tyrimai gali ištirti „Evalplanner“ galimybes apdovanoti modeliavimą sustiprinant mokymąsi su žmonių atsiliepimų (RLHF) vamzdynais ir integruoti jį į realaus pasaulio AI audito sistemas.
Naudodamas „Evalplanner“, meta AI nustatė naują standartą AI vertinimo srityje, parodydamas, kad tai parodo Mokymas AI planuoti ir protui gali žymiai pagerinti sprendimo kokybę. Šis pažanga yra esminis žingsnis link autonominis ir keičiamas AI valdymasužtikrinant, kad būsimos AI sistemos veiktų didesnėmis Tikslumas, sąžiningumas ir atskaitomybė.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 70K+ ml subreddit.
🚨 Susipažinkite su „Intellagent“: atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo