Priežiūros užduotys vis dar yra didelis iššūkis daugumai kalbos modelių. Įdiegti samprotavimus modeliuose, ypač programavimui ir matematinėms programoms, kurioms reikalingas tvirtas nuoseklus samprotavimas, atrodo toli. Ši problema gali būti priskirta būdingam šių užduočių sudėtingumui, kuriam reikalingas kelių žingsnių loginis dedukcijos metodas, suplanuotas naudojant domeno žinias, norint rasti struktūrizuotą sprendimo kelią.
Todėl LLM yra prižiūrimi dėl didžiulio duomenų kiekio su šimtais tūkstančių pavyzdžių. Dėl šios priežasties mokymai toliau grindžiami dviem prielaidomis: pirma, kad išmokti tokius pažinimo įgūdžius įmanoma tik naudojant daugybę prižiūrimų pavyzdžių, o antrasis yra tas, kad šis mokymas neišvengiamai lemia įsiminimą, o ne apibendrinimą. Be to, šis požiūris taip pat padidina dideles skaičiavimo išlaidas ir duomenų rinkimo naštą. Šiame straipsnyje aptariamas požiūris, kuriame naudojami žinių pagrindų pažanga ir LLM išvados laiko išlaidos, siekiant panaikinti didžiulius duomenų reikalavimus.
Tyrėjai iš Šanchajaus Jiao Tongo universiteto pateikia hipotezę, kuri yra tokia, ar yra mažiau, limuzinų), kuri sako, kad pamatų modeliuose, kuriuose domeno žinios buvo visapusiškai užkoduotos prieš mokymo procesą Tiksli kognityvinių procesų demonstravimas. Ši hipotezė kyla iš naujausių pokyčių LLM erdvėje, kai kūrėjai išankstinio mokymo metu įtraukia precedento neturintį matematinio turinio kiekį, praturtindami juos matematika ir programavimo logika prieš jiems einant į darbo sritį. Be to, būdų atsiradimas, keičiantis ilgesnėms samprotavimo grandinėms, labai paskatino šį tyrimą.
Remiantis limuzino hipoteze, sudėtingų samprotavimų iškėlimo slenkstis lemia du pagrindiniai veiksniai:
- Latentinis būtinų žinių buvimas modelio parametrų erdvėje (Domeno žinios, įvestos išankstinio mokymo metu)
- Minimalių pavyzdžių veiksmingumas parodant sistemingus problemų sprendimo procesus (Išvados po mokymo pavyzdžių, kurie veikia kaip pažintiniai raginimai spręsti samprotavimo užduotis su turimomis žiniomis)
Taigi, limuzinų pasinaudoja turtingomis įterptomis išankstinėmis mokymo žiniomis ir suteikia išsamias samprotavimo grandines per minimalias, bet gerai struktūruotas grandines. Siūlomas metodas sutelkiamas į jų kiekio raginimų kokybę ir struktūrą, priversdamas modelį „mąstyti“ pasitelkiant ankstesnes pamokas, o ne tiesiog prisiminti jas. Tokiu būdu dujotiekis ginčija pagrindinę nuostatą, kad prižiūrimi tobulinami derinimai daro modelį įsimenamas. Autoriai toliau ištyrė ryšį tarp samprotavimo ir duomenų bei nustatytų kritinių veiksnių, įskaitant sinergiją tarp iš anksto išmokytų žinių pagrindų ir bandymo laiko skaičiavimo mastelį.
Autoriai išleido išsamų atvirojo kodo rinkinį, kad užtikrintų atkuriamumą, įskaitant jų tiksliai suderintus modelius, vertinimo vamzdynus, mokymo kodą ir kruopščiai kuruojamus duomenų rinkinius, kurių kokybės lygis yra skirtingas.
Autoriai savo eksperimentuose bandė išmokyti modelių samprotavimo tik šimtais pavyzdžių, o ne ankstesnių šimtų tūkstančių. Autoriai įvertino limuzinų rezultatus per 10 etalonų, kad įvertintų jo paskirstymo apibendrinimo galimybes. Limo našumas šiuose duomenų rinkiniuose buvo įspūdingas ir perspektyvus. Pažymėtina, kad tik 817 kuruojamų treniruočių pavyzdžių, limuzinų tikslumas pasiekė labai sudėtingą Amerikos kvietimo matematikos egzamino (AIME) etaloną ir 94,8% matematikos duomenų rinkinyje, pakeitus SFT metodus, kurie įgijo 6,5% ir 59,2% atitinkamame etalonėje.LIMO. Taigi pasiekė 40,5% absoliučią patobulinimą, palyginti su modeliais, apmokytais 100 kartų daugiau duomenų, paneigdamas pirmąją prižiūrimų mokymų prielaidą, kad būtų įtraukti samprotavimai
Išvada: Tyrėjai pateikė įžvalgią hipotezę apie LLM samprotavimo režimą per modelio limuziną. Tai užginčijo pagrindines SFT prielaidas, kad būtų galima pagrįsti samprotavimus .Limo parodo, kad mažiau gali būti daugiau ir parodo pagirtinus rezultatus sudėtingiems duomenų rinkiniams, pakeičiant SFT su sumaniai organizuotais kognityviniais šablonais.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

„Adeeba Alam Ansari“ šiuo metu siekia dvigubo laipsnio Indijos technologijos institute (IIT) Kharagpur, uždirbdamas pramonės inžinerijos B.Tech ir finansų inžinerijos M.Tech. Didelis susidomėjimas mašinų mokymuisi ir dirbtiniu intelektu, ji yra aistringa skaitytoja ir smalsus asmuo. Adeeba tvirtai tiki technologijų galia įgalinti visuomenę ir skatinti gerovę per novatoriškus sprendimus, kuriuos lemia empatija, ir gilų supratimą apie realaus pasaulio iššūkius.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo