Matematiniai samprotavimai išlieka sunki dirbtinio intelekto (AI) sritis dėl problemų sprendimo sudėtingumo ir struktūrizuoto, loginio mąstymo poreikio. Nors didelių kalbų modeliai (LLM) padarė didelę pažangą, jie dažnai kovoja su užduotimis, kurioms reikia daugiapakopių samprotavimų. Stiprinimo mokymasis (RL) parodė pažadą tobulinti šias galimybes, tačiau tradiciniai metodai susiduria su iššūkiais, kai atlygis yra nedaug ir dvejetainis, ir pateikia mažai atsiliepimų, nei teisingai ar neteisingai atsakant.
Šanchajaus AI laboratorija išsivystė Rezultatas, pagrįstas stiprinimo mokymu (oreal)Matematinių samprotavimo modelių serija, prieinama kaip „Oreal-7b“ ir „Oreal-32B“. Ši sistema yra skirta situacijoms, kuriose yra tik dvejetainiai apdovanojimai – korektūs ar neteisingi – yra prieinami. Skirtingai nuo įprastų RL požiūrių, kurie priklauso nuo tankių atsiliepimų, „Oreal“ naudojimas Geriausia-N (BON) mėginių ėmimas elgesio klonavimui ir pakeičia neigiamą atlygį, kad išlaikytų nuolydžio nuoseklumą.
„Oreal-7B“ ir „Oreal-32B“ parodo, kad mažesni modeliai gali atlikti konkurencingai su žymiai didesniais modeliais. „Oreal-7b“ pasiekia 94,0% leidimą@1 balas „Math-500“ etalonerezultatas, palyginamas su ankstesniais 32b modeliais, tuo tarpu „Oreal-32B“ pasiekia 95,0% Pass@1, pranokdamas ankstesnius modelius, apmokytus distiliavimo metu.
Techninės įžvalgos ir pranašumai
„Oreal Framework“ pristato keletą pagrindinių metodų, kaip pagerinti matematinius pagrindimus:
- Geriausia „Of-N“ mėginių ėmimas elgesio klonavimui: BON mėginių ėmimas padeda pasirinkti optimalias teigiamų samprotavimo trajektorijas, leidžiančias modeliui mokytis iš gerai suformuotų sprendimų.
- Atlygio pertvarkymas už neigiamus pavyzdžius: Koreguodamas neigiamą atlygį, sistema užtikrina gradiento nuoseklumą tarp teisingų ir neteisingų pavyzdžių, tobulinant modelio optimizavimą.
- Tokeninio lygio atlygio modelis už minčių grandinės samprotavimus: Matematiniai samprotavimai dažnai apima ilgas loginių žingsnių sekas. „Oreal“ priskiria svarbiausius svarmenis pagrindiniams samprotavimo žetonams, spręsdamas nedaug dvejetainių atsiliepimų iššūkį.
- Polijos stiprinimo mokymasis: Modelis dinamiškai tobulinamas remiantis atrinktomis užklausomis, gerinant treniruočių efektyvumą ir pritaikomumą.
Šie metodai suteikia galimybę stabilesniam mokymui ir geresniam atlikimui atliekant ilgos sekos samprotavimo užduotis, todėl sustiprinimas mokymasis yra perspektyvi tradicinių distiliavimo metodų alternatyva.
Našumas ir vertinimas
„Oreal“ modeliai buvo išbandyti keliuose etalonuose:
- „Math-500“ etalonas:
- „Oreal-7b“ pasiekia 94,0% Pass@1našumo lygis anksčiau buvo matomas tik 32B modeliuose.
- „Oreal-32B“ pasiekia 95,0% Pass@1naujo matematinių samprotavimų standarto nustatymas.
- AIME2024 ir Olympiadbench:
- „Oreal“ modeliai pralenkia daugybę bazinių linijų, parodydami stiprią probleminių tipų apibendrinimą.
- Palyginimas su „Openai O“ serija ir „Deepseeek“ modeliais:
- „Oreal-32B“ viršija „Deepseek-R1-Distill-Qwen-32B“ ir „Openai-O1-PreView“parodant veiksmingas mokymo strategijas.
- „Oreal-7b“ rezultatai yra lygiaverčiai „QWQ-32B-PREVECT“ ir „Openai-O1-Mini“pabrėžiant jo sustiprinimo mokymosi metodo poveikį.

Išvada
Šanchajaus AI laboratorija „Oreal-7b“ ir „Oreal-32B“ Modeliai siūlo rafinuotą požiūrį į sustiprinimo mokymąsi matematiniuose samprotavimuose. Sprendžiant nedidelio dvejetainio atlygio iššūkį Geriausias iš „-n“ mėginių ėmimas, atlygio formavimas ir žetono lygio svarbaŠie modeliai pasiekia konkurencingą našumą net esant mažesnėms skalėms. „Oreal Framework“ suteikia vertingų įžvalgų apie tai, kaip sustiprinimo mokymasis gali būti optimizuotas sudėtingoms samprotavimo užduotims, o tai rodo naujas kryptis, kaip pagerinti AI problemų sprendimo galimybes struktūrizuotų sričių srityse.
Patikrinkite Popierius, „Oreal-7b“ ir „Oreal-32B“. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo