Didelių kalbų modeliai (LLM) žymiai pažengė į gamtos kalbų apdorojimą, tačiau samprotavimai išlieka nuolatiniu iššūkiu. Nors užduotys, tokios kaip matematinis problemų sprendimas ir kodų generavimas, gauna naudos iš struktūrizuotų mokymo duomenų, platesnių samprotavimo užduočių, tokių kaip loginis dedukcija, mokslinės išvados ir simboliniai samprotavimai-iš nedaug ir suskaidytų duomenų. Tradiciniai požiūriai, tokie kaip nuolatinis išankstinis kodas, dažnai įterpia samprotavimus, signalizuoja netiesiogiai, todėl modeliams sunku apibendrinti. Net teksto ir kodo generavimo metodai lieka suvaržyti specifinio sintaksės mokymosi metu, ribojant jų pritaikomumą ne tik su programavimu susijusiomis užduotimis. Norint atskleisti LLM į pagrindinius samprotavimo modelius, reikia labiau struktūruoto požiūrio, tuo pačiu išsaugant loginį griežtumą.
„Deepseeek AI“ tyrimų pateikimas Codei/opožiūris, paverčiantis kodu pagrįstus samprotavimus natūralia kalba. „RAW Code“ paverčiant įvesties ir išvesties numatymo formatą Aptartųjų (lovelių) racionaliaiCodei/o leidžia LLMS internalizuoti pagrindinius samprotavimo procesus, tokius kaip Loginis srauto planavimas, sprendimų medžio pervažiavimas ir modulinis skilimas. Skirtingai nuo įprastų metodų, Codei/O atskiria samprotavimus nuo kodo sintaksės, įgalindamas platesnį pritaikomumą išlaikant loginę struktūrą.
Techninė apžvalga ir nauda
„Codei/O“ seka struktūrizuoto duomenų apdorojimo vamzdyną:
- Rinkdami neapdorotus kodo failus: Iš kelių šaltinių buvo surinkta daugiau nei 450K funkcijos, įskaitant algoritmų saugyklas ir švietimo programavimo duomenų rinkinius.
- Duomenų standartizavimas: Surinktas kodas buvo patobulintas naudojant „Deepseek-V2.5“, užtikrinant aiškumą ir vykdymo suderinamumą.
- Generuojamos įvesties ir išvesties poros: Funkcijos buvo vykdomos su skirtingais įvestimis, kad būtų sukurtos struktūrizuotos mokymo pavyzdžiai įvairiose samprotavimo užduotyse.
- Generuoti minčių grandinės samprotavimus: Naudojant tokius modelius kaip „Deepseek-V2.5“, buvo sukurti natūralios kalbos paaiškinimai, siekiant pateikti struktūrizuotus samprotavimus.
- Patikrinimas ir tobulinimas: Prognozės buvo patvirtintos vykdant vykdant, neteisingiems atsakymams pakartotinai patikslinant, siekiant pagerinti samprotavimo tikslumą.
Pagrindinės „Codei/O“ savybės:
- Transformacinis mokymasis: Paverčia įvairius kodo modelius į Natūralios kalbos lovelės racionalaisamprotavimai perkeliami ne tik programavimo kontekstuose.
- Sintaksės dekoruotas mokymasis: Atskiria loginius samprotavimus nuo kodo sintaksėpritaikomumas visose samprotavimo užduotyse.
- Kelių užduočių patobulinimas: Pagerina našumą Simbolinės, mokslinės, loginės, matematinės ir bendros samprotavimo sritys.
- Tikrinimas: Prognozes galima patvirtinti per talpykloje pritvirtintas žemės tiesos atitikimas arba pakartotinis tyrimas.
- Iteracinis tobulinimas: Patobulinta versija, „Codei/O ++“, naudojasi Kelių posūkių peržiūra Siekiant pagerinti samprotavimo tikslumą.

Empiriniai rezultatai ir našumas
„Codei/O“ poveikis buvo patikrintas per visą Keturi baziniai modeliai (nuo 7b iki 30b parametrų) įjungta 14 samprotavimų etalonai Apima logiką, simbolinę išvadą, matematiką, mokslinį dedukciją ir bendrą pagrindimą.
Išvados:
- Nuoseklūs patobulinimai: Codei/o mokymai paskatino Aukštesni balai visuose pagrindų etalonuose Palyginti su tradiciniais išankstiniais metodais.
- Apibendrinimas atliekant užduotis: Skirtingai nuo esamų metodų, kurie pagerina konkrečias užduotis, tačiau pablogina našumą kitur, Codei/O parodė subalansuotus patobulinimus.
- Palyginimas su bazinėmis linijomis: „Codei/O“ pralenktų duomenų rinkinių, tokių kaip „OpenMathInstruct2“, „OpenCoder-SFT-STAGE1“ ir „WebInstruct“.
- Kelių posūkių tobulinimo efektyvumas: „Codei/O ++“ dar labiau patobulino rezultatus, pakartotinai patobulindami neteisingus atsakymus, pasitelkdami įvykdymo atsiliepimus, kad būtų geresnė samprotavimo kokybė.
Pavyzdžiui, loginiais ir simboliniais samprotavimų etalonais, tokiais kaip BBH ir CruxevalCodei/o paskatino pastebimą našumo padidėjimą. Į Matematikos samprotavimo užduotys (GSM8K, Matematika ir MMLU-STEM)tai parodė esamų bazinių linijų patobulinimus. Net bendras samprotavimasKai kodas pagrįsti metodai paprastai kovoja, Codei/O išlaikė patikimus rezultatus.

Išvada
„Codei/O“ pateikia struktūrizuotą būdą, kaip pagerinti LLMS samprotavimus, pasinaudojant įvesties ir išvesties transformacijomis iš realaus pasaulio kodo. Užuot sutelkęs dėmesį į atskiras samprotavimo užduotis, jis ištraukia universalius samprotavimo modelius ir paverčia juos į juos Natūralios kalbos paaiškinimai. Šis struktūrizuotas mokymosi metodas užtikrina, kad modeliai įgyja tvirtus samprotavimo įgūdžius įvairiose srityse.
Įvedimas Kelių posūkių peržiūra (kodinė/o ++) Toliau tobulinamas samprotavimo tikslumas, parodant, kad pasikartojantis mokymasis iš vykdymo grįžtamojo ryšio padidina modelio patikimumą. Darydamas prognozes tikrinamasCodei/o yra keičiamas ir patikimas LLM samprotavimų gerinimo būdas.
Sujungus Kodu pagrįsti ir natūralios kalbos samprotavimaiCodei/o siūlo perspektyvią kryptį, kaip pagerinti LLMS kognityvinius sugebėjimus, ne tik su programavimu susijusias užduotis.
Patikrinkite Popieriaus ir „GitHub“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo