Didelės kalbos modeliai (LLM) parodė pastebimas matematinio problemų sprendimo, loginių išvadų ir programavimo pagrįstumo galimybes. Tačiau jų veiksmingumas dažnai priklauso nuo dviejų požiūrių: Prižiūrimas tikslinimas (SFT) su žmogaus užfiksuotomis samprotavimo grandinėmis ir išvados laiko paieškos strategijos vadovaujasi išoriniais tikrintuvais. Nors prižiūrimi tobulinimas siūlo struktūrizuotus samprotavimus, tam reikia didelių anotacijos pastangų ir jį riboja mokytojo modelio kokybė. Išvadų laiko paieškos metodai, tokie kaip tikrinimo priemonių imamas mėginių ėmimas, padidina tikslumą, tačiau padidina skaičiavimo poreikius. Tai kelia svarbų klausimą: ar LLM gali savarankiškai išsiugdyti samprotavimo galimybes, nesikliuodamas plačia žmonių priežiūra ar išoriniais tikrintojais? Norėdami tai išspręsti, tyrėjai pristatė Satori7B parametras LLM, skirtas internalizuoti samprotavimo paieškos ir savęs tobulinimo mechanizmus.
„Satori“ pristatymas: savirefleksinių ir savaime suprantamų samprotavimų modelis
Tyrėjai iš MIT, Singapūro technologijos ir dizaino universitetas, Harvardas, „MIT-IBM Watson AI Lab“, „IBM Research“ ir „UMass Amherst“ pasiūlyti Satorimodelis, kuris naudojamas Autoregresyvi paieška– mechanizmas, leidžiantis jam patikslinti savo samprotavimo veiksmus ir autonomiškai ištirti alternatyvias strategijas. Kitaip nei modeliai, kurie priklauso Sumontuotos grandinės (kailis) samprotavimo paradigma. Pastatytas QWEN-2.5-MATH-7B„Satori“ seka dviejų pakopų mokymo sistemą: Smulkaus masto formato derinimas (FT) ir Didelio masto savęs tobulinimas per stiprinimo mokymąsi (RL).
„Satori“ techninė informacija ir nauda
„Satori“ mokymo sistema susideda iš dviejų etapų:
- Formato derinimo (FT) etapas:
- Įdiegti naudojamas nedidelio masto duomenų rinkinys (~ 10K pavyzdžių) Kailio samprotavimasį kurį įeina trys meta-veiksmai:
- Tęsti (<| tęsti |>): Išplėsti samprotavimo trajektoriją.
- Atspindėti (<| atspindėti |>): Skatina patikrinti ankstesnius samprotavimo veiksmus.
- Tyrinėti (<| tyrinėti |>): Skatina modelį atsižvelgti į alternatyvius metodus.
- Skirtingai nuo įprastų COT mokymų, kurie eina iš anksto nustatytais samprotavimo keliais, Kailis įgalina dinamišką sprendimų priėmimą samprotavimo metu.
- Įdiegti naudojamas nedidelio masto duomenų rinkinys (~ 10K pavyzdžių) Kailio samprotavimasį kurį įeina trys meta-veiksmai:
- Stiprinimo mokymosi (RL) etapas:
- Didelio masto savęs tobulinimo procesas naudojant Stiprinimo mokymasis iš naujo paleidus ir tyrinėti (RAE).
- Modelis vėl pradeda samprotavimus iš tarpinių žingsniųpakartotinai patikslinant jo problemų sprendimo metodą.
- Atlygio modelis priskiria balus, pagrįstus savęs taisomomis ir tyrinėjimo gyliu, ir tai lemia progresyvus mokymasis.
Įžvalgos
Vertinimai rodo, kad „Satori“ stipriai atlieka kelis etalonus, dažnai pranokdami modelius, kurie remiasi prižiūrimu tobulinimo ar žinių distiliavimu. Pagrindinės išvados yra:
- Matematinis etalonas:
- „Satori“ pralenkia QWEN-2.5-MATH-7B instrukciją duomenų rinkiniuose, tokiuose kaip GSM8K, Math500, Olympiadbench, AMC2023 ir AIME2024.
- Savarankiško tobulinimo galimybė: Su papildomais sustiprinimo mokymosi etapais „Satori“ demonstruoja nuolatinį tobulinimą be papildomos žmogaus intervencijos.
- Ne domeno apibendrinimas:
- Nepaisant pirmiausia mokymo apie matematinius samprotavimus, „Satori“ eksponuojami Stiprus apibendrinimas Į įvairias samprotavimo užduotis, įskaitant loginius samprotavimus (folio, „Boardgameqa“), „Commonsense“ samprotavimus (strategiją) ir lentelių pagrindus („TableBench“).
- Tai rodo RL varomas savęs tobulinimas padidina pritaikomumą Be matematinių kontekstų.
- Efektyvumo padidėjimas:
- Palyginti su įprastine Prižiūrimas tobulumas„Satori“ pasiekia panašų ar geresnį samprotavimo rezultatą su žymiai mažiau anotuotų mokymo pavyzdžių (10K ir 300K palyginamiems modeliams).
- Šis požiūris sumažina priklausomybę nuo plačių žmonių komentarų, išlaikant veiksmingas samprotavimo galimybes.

Išvada: žingsnis link autonominio mokymosi LLMS
„Satori“ pateikia perspektyvią kryptį LLM samprotavimo tyrimaiparodydami, kad modeliai gali patikslinti savo samprotavimus be išorinių tikrintojų ar aukštos kokybės mokytojų modelių. Integruodamas Apščių samprotavimas, mokymasis stiprinimas ir autoregresyvi paieška„Satori“ parodo, kad LLM gali pakartotinai pagerinti savo samprotavimo gebėjimus. Šis požiūris ne tik padidina problemų sprendimo tikslumą, bet ir išplečia apibendrinimą iki nematytų užduočių. Būsimas darbas gali ištirti tobulinimą Meta-veiksmo rėmai, stiprinimo mokymosi strategijų optimizavimas ir šių principų išplėtimas iki platesnių sričių.
Patikrinkite Popieriaus ir „GitHub“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (reklamuojama)

Aswinas AK yra „MarktechPost“ konsultavimo praktikantas. Jis siekia dvigubo laipsnio Indijos technologijos institute Kharagpur. Jis aistringai vertina duomenų mokslą ir mašininį mokymąsi, sukelia stiprią akademinę patirtį ir praktinę patirtį sprendžiant realaus gyvenimo įvairių sričių iššūkius.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo