Didelių kalbos modeliai (LLMS) apdoroja didelius duomenų rinkinius, kad būtų galima generuoti nuoseklius išėjimus, daugiausia dėmesio skiriant mąstymo grandinės (COT) pagrindimo tobulinimui. Ši metodika leidžia modeliams suderinti sudėtingas problemas į nuoseklius žingsnius, glaudžiai mėgdžiojančius žmogaus panašius loginius samprotavimus. Struktūrizuotų samprotavimo atsakymų generavimas buvo didelis iššūkis, dažnai reikalaujant išsamių skaičiavimo išteklių ir didelio masto duomenų rinkinių, kad būtų pasiektas optimalus našumas. Naujausias pastangas siekiama padidinti LLM efektyvumą, užtikrinant, kad jiems reikia mažiau duomenų, išlaikant aukštą samprotavimo tikslumą.
Vienas iš pagrindinių sunkumų gerinant LLM samprotavimus yra mokymas jiems generuoti ilgą COT reakciją su struktūrizuotu savirefleksu, patvirtinimu ir atsitraukimu. Nors esami modeliai parodė pažangą, mokymo procese dažnai reikia brangiai suderinti išsamius duomenų rinkinius. Be to, dauguma patentuotų modelių išlaiko savo metodikas uždarą šaltinį, užkertant kelią platesniam prieinamumui. Duomenims efektyvių mokymo metodų, išsaugojančių samprotavimo galimybes, poreikis išaugo, todėl tyrėjai verčia ištirti naujus metodus, optimizuojančius našumą be didelių skaičiavimo išlaidų. Suprasti, kaip LLMS gali efektyviai įgyti struktūrizuotus samprotavimus su mažiau mokymo pavyzdžių, labai svarbu, kad ateityje būtų pasiekta galimybė.
Tradiciniai požiūriai į LLM samprotavimų gerinimą priklauso nuo visiškai prižiūrimų derinimo (SFT) ir parametrų taupančių metodų, tokių kaip mažai rango adaptacija (LORA). Šie metodai padeda modeliams patikslinti savo samprotavimo procesus nereikalaujant išsamaus perkvalifikavimo dideliuose duomenų rinkiniuose. Keli modeliai, įskaitant „Openai“ O1-prevence ir „Deepseeek R1“, padarė loginio nuoseklumo pažangą, tačiau vis tiek reikalauja reikšmingų mokymo duomenų.
UC Berkeley tyrimų komanda pristatė naują mokymo metodą, skirtą pagerinti LLM samprotavimus su minimaliais duomenimis. Užuot pasikliavę milijonais mokymo pavyzdžių, jie įdiegė tobulinimo metodą, kuriame naudojami tik 17 000 COT pavyzdžių. Komanda pritaikė savo metodą QWEN2.5-32B instruktavimo modeliui, pasinaudodama SFT ir LORA patobulinimu, kad būtų pasiektas didelis našumas. Jų požiūris pabrėžia, kad optimizuoja struktūrinį samprotavimo žingsnių vientisumą, o ne į patį turinį. Patobulindami loginę nuoseklumą ir sumažindami nereikalingą skaičiavimo pridėtines išlaidas, jie sėkmingai išmokė LLM efektyviau pagrįsti, tuo pačiu naudodami žymiai mažiau duomenų pavyzdžių. Komandos požiūris taip pat pagerina ekonomiškumą, todėl jis yra prieinamas platesniam programų spektrui nereikalaujant patentuotų duomenų rinkinių.
Tyrimai rodo, kad COT struktūra vaidina lemiamą vaidmenį gerinant LLM samprotavimus. Eksperimentai atskleidė, kad loginės treniruočių duomenų struktūros pakeitimas daro didelę įtaką modelio tikslumui, tuo tarpu individualių samprotavimo etapų modifikavimas turėjo minimalų poveikį. Komanda atliko kontroliuojamus bandymus, kai atsitiktinai sujaukė, ištrynė ar įterpė samprotavimo veiksmus, kad stebėtų jų įtaką rezultatams. Rezultatai parodė, kad loginės COT loginės sekos sutrikimas žymiai pablogino tikslumą, tuo pačiu išsaugant jos struktūrą ir palaikant optimalias samprotavimo galimybes. „Lora“ patobulinimas leido modeliui atnaujinti mažiau nei 5% jo parametrų, siūlydama efektyvią alternatyvą visiškam derinimui, išlaikant konkurencinius rezultatus.
Veiklos įvertinimai parodė nuostabius samprotavimo galimybių patobulinimus. „QWEN2.5-32B“ instruktavimo modelis, apmokytas su 17 000 COT mėginių, pasiekė 56,7% tikslumo greitį „Aime 2024“, pažymėdamas 40,0% pagerėjimą. Modelis taip pat surinko 57,0% „LiveCodeBench“, atspindėdamas 8,1% padidėjimą. „Math-500“ jis pasiekė 90,8%, ty 6,0% padidėjo nuo ankstesnių etalonų. Panašiai jis pasiekė 85,0% „AMC 2023“ (+17,5%) ir 60,3% Olimpiadbench (+12,7%). Šie rezultatai rodo, kad veiksmingi tikslinimo metodai gali suteikti LLM galimybę pasiekti konkurencinius rezultatus, panašius į patentuotus modelius, tokius kaip „Openai“ O1-Preview, kurio „LiveCodeBench“ buvo 44,6% ir 59,1% „LiveCodeBench“. Rezultatai sustiprina, kad struktūruotos samprotavimo mokymai leidžia modeliams pagerinti našumą be per didelių duomenų reikalavimų.
Tyrimas pabrėžia reikšmingą proveržį gerinant LLM samprotavimo efektyvumą. Perkeldami dėmesį nuo didelio masto duomenų priklausomybės nuo struktūrinio vientisumo, tyrėjai sukūrė mokymo metodiką, užtikrinančią stiprią loginę darną su minimaliais skaičiavimo ištekliais. Šis metodas sumažina priklausomybę nuo didelių duomenų rinkinių, išlaikant tvirtas samprotavimo galimybes, todėl LLM tampa prieinamesnės ir keičiamos. Iš šio tyrimo įgytos įžvalgos sudaro būdą optimizuoti būsimus modelius, parodant, kad struktūrizuotos tikslinimo strategijos gali efektyviai pagerinti LLM samprotavimus nepakenkiant efektyvumui. Ši plėtra žymi žingsnį į priekį, kad sudėtingesni PG samprotavimų modeliai būtų praktiškesni plačiai naudoti.
Patikrinkite Popieriaus ir „Github“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Nikhil yra „MarkTechPost“ stažuotės konsultantas. Jis siekia integruoto dvigubo laipsnio medžiagų Indijos technologijos institute, Kharagpur mieste. „Nikhil“ yra AI/ML entuziastas, kuris visada tiria programas tokiose srityse kaip biomedžiagos ir biomedicinos mokslas. Turėdamas tvirtą medžiagos mokslo patirtį, jis tyrinėja naujus pasiekimus ir sukuria galimybes prisidėti.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo