Pastaraisiais metais dėl greito didelių kalbų modelių (LLMS) mastelio keitimas lėmė nepaprastą natūralios kalbos supratimo ir samprotavimo galimybių patobulinimus. Tačiau ši pažanga įvyksta su reikšmingu įspėjimu: išvadų procesas, kuris vienu metu vienu metu, sugeneruoja vieną prieigos raktą – patvirtina skaičiavimo kliūtį. Didėjant LLM dydžiui ir sudėtingumui, nuoseklios žetono generavimo latentinis ir energijos poreikis tampa dideli. Šie iššūkiai yra ypač ūmūs realaus pasaulio diegimuose, kur labai svarbu kainos, greitis ir mastelio keitimas. Tradiciniams dekodavimo metodams, tokiems kaip godūs ar pluošto paieškos metodai, dažnai reikia pakartoti didelius modelius, dėl kurių gali būti didelės skaičiavimo pridėtinės išlaidos. Be to, net ir naudojant lygiagrečius dekodavimo metodus, gali būti neįmanoma išlaikyti tiek efektyvumo, tiek sukurtų rezultatų kokybės. Šis scenarijus paskatino ieškoti naujų metodų, galinčių sumažinti išvadų sąnaudas neprarandant tikslumo. Todėl tyrėjai tyrinėjo hibridinius metodus, kurie sujungia lengvus modelius su galingesniais kolegomis, siekdami optimalios greičio ir našumo pusiausvyros-pusiausvyros, kuri yra būtina realiojo laiko programoms, interaktyvioms sistemoms ir didelio masto diegimui debesies aplinkoje.
„Salesforce AI Research“ pristato apdovanojimą, kurį valdo spekuliatyviai dekodavimas (RSD)-nauja sistema, skirta pagerinti išvadų efektyvumą didelių kalbų modeliuose (LLM). Iš esmės RSD pasinaudoja dvigubo modelio strategija: greitas, lengvas „juodraščio“ modelis veikia kartu su tvirtesniu „taikinio“ modeliu. Šis modelio projektas greitai sukuria preliminarius kandidatų išėjimus, o proceso apdovanojimo modelis (PRM) įvertina šių rezultatų kokybę realiuoju laiku. Skirtingai nuo tradicinio spekuliacinio dekodavimo, kuris reikalauja griežto nešališko ženklo atitikimo tarp juodraščio ir tikslinių modelių, RSD įveda kontroliuojamą šališkumą. Šis šališkumas yra kruopščiai sukurtas taip, kad būtų teikiama pirmenybė aukšto lygio išėjimams-kurie laikomi labiau tikėtinais teisingais ar kontekstiniais-tai žymiai sumažina nereikalingus skaičiavimus. Šis požiūris grindžiamas matematiškai išvesta slenksčio strategija, lemianti, kada turėtų įsikišti tikslinis modelis. Dinamiškai sumaišydamas abiejų modelių išėjimus, remiantis atlygio funkcija, RSD ne tik pagreitina išvadų procesą, bet ir sustiprina bendrą sugeneruotų atsakymų kokybę. Išsamiai aprašytame dokumente, ši proveržio metodika yra reikšmingas šuolis į priekį sprendžiant įgimtą nuoseklios žetono generavimo LLMS neveiksmingumą.
RSD techninė informacija ir nauda
Remdamasis techniniais aspektais, RSD veikia integruodamas du modelius nuosekliai, tačiau bendradarbiaujant. Iš pradžių modelio projekte yra kandidatų žetonai arba samprotavimo veiksmai, kurių skaičiavimo kaina yra maža. Tada kiekvienas kandidatas vertinamas naudojant atlygio funkciją, kuri veikia kaip kokybiški vartai. Jei kandidato žetono atlygis viršija iš anksto nustatytą slenkstį, išvestis priimama; Jei ne, sistema ragina labiau apskaičiuoti intensyvų tikslinį modelį, kad būtų sukurtas patobulintas prieigos raktas. Šis procesas vadovaujasi svorio funkcija – paprastai dvejetaine žingsnio funkcija -, kuri koreguoja priklausomybę nuo grimzlės, palyginti su tiksliniu modeliu. Dinaminė kokybės kontrolė, kurią suteikia proceso apdovanojimo modelis (PRM), užtikrina, kad tik perspektyviausi išėjimai apeis tikslinį modelį ir taip taupytų skaičiavimus. Vienas iš išskirtinių šio požiūrio pranašumų yra „šališkas pagreitis“, kai kontroliuojamas šališkumas yra ne žala, o strateginis pasirinkimas teikti pirmenybę teikiant prioritetus aukšto lygio rezultatams. Tai lemia du pagrindinius pranašumus: pirma, bendras išvadų procesas gali būti iki 4,4 × greitesnis, palyginti su tik tikslinio modelio paleidimu; Antra, tai dažnai padidina +3,5 vidutinį tikslumo pagerėjimą, palyginti su įprastinėmis lygiagrečių dekodavimo bazinėmis linijomis. Iš esmės RSD harmonizuoja efektyvumą su tikslumu-leidžiama žymiai sumažinti slankiojo kablelio operacijų (flops) skaičių, tuo pačiu vis dar pateikiant išėjimus, kurie atitinka ar net viršija tikslinio modelio veikimą. Teoriniai pagrindai ir algoritminės detalės, tokios kaip Mišinio pasiskirstymas, apibrėžtas PRSD ir adaptyvaus priėmimo kriterijus, suteikia patikimą praktinio diegimo pagrindą atliekant įvairias samprotavimo užduotis.
Įžvalgos
RSD empirinis patvirtinimas yra įtikinamas. Straipsnyje aprašyti eksperimentai rodo, kad dėl iššūkių, tokių kaip GSM8K, MATH500, Olympiadbench ir GPQA, RSD nuolat teikia aukštesnįjį rezultatą. Pavyzdžiui, „Math500“ etalone – duomenų rinkinyje, skirtoje išbandyti matematinius pagrindimus – RSD pasiekė 88,0 tikslumą, kai sukonfigūruotas naudojant 72B tikslinį modelį ir 7B PRM, palyginti su 85,6 vien tik tiksliniam modeliui. Ši konfigūracija ne tik sumažina skaičiavimo apkrovą beveik 4,4 × Mažiau flops, bet ir padidina samprotavimo tikslumą. Rezultatai pabrėžia RSD potencialą pralenkti tradicinius metodus, tokius kaip spekuliacinis dekodavimas (SD) ir netgi pažangūs paieškos metodai, tokie kaip pluošto paieška ar geriausios N-N strategijos.

Išvada: nauja veiksmingos LLM išvados paradigma
Apibendrinant galima pasakyti, kad apdovanojimų valdomas spekuliacinis dekodavimas (RSD) žymi reikšmingą etapą siekiant efektyvesnės LLM išvados. Intelektualiai derindamas lengvą juodraščio modelį su galingu tiksliniu modeliu ir įvesdamas apdovanojimą pagrįstą priėmimo kriterijų, RSD iš tikrųjų sprendžia dvigubus skaičiavimo išlaidų ir išvesties kokybės iššūkius. Novatoriškas šališko pagreičio metodas leidžia sistemai selektyviai apeiti brangius skaičiavimus, susijusius su aukšto lygio išėjimais, tokiu būdu supaprastinant išvadų procesą. Dinaminis kokybės kontrolės mechanizmas, sustiprintas proceso apdovanojimo modeliu, jaučia, kad skaičiavimo ištekliai skiriami protingai, įtraukiant tikslinį modelį tik tada, kai reikia. Esant empiriniams rezultatams, rodomi iki 4,4 × greitesnės išvados ir vidutinis tikslumo pagerėjimas +3,5, palyginti su tradiciniais metodais, RSD ne tik atveria kelią labiau keičiamam LLM diegimui, bet ir nustato naują hibridinių dekodavimo struktūrų projektavimo standartą.
Patikrinkite Popieriaus ir „Github“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų „Telegram“ kanalo