Konkurencinis programavimas ilgą laiką buvo etalonas, skirtas įvertinti problemų sprendimo ir kodavimo įgūdžius. Šie iššūkiai reikalauja pažangaus skaičiavimo mąstymo, efektyvių algoritmų ir tikslaus įgyvendinimo, todėl jie yra puikus bandymas įvertinti AI sistemas. Nors ankstyvieji AI modeliai, tokie kaip „Codex“, parodė stiprias programos sintezės galimybes, jie dažnai rėmėsi išsamiais mėginių ėmimo ir euristiniu būdu pagrįstu atranka, ribodami jų pritaikomumą. Naujausiuose „Openai“ tyrimuose siekiama peržengti šiuos suvaržymus, pasitelkiant stiprinimo mokymąsi (RL), siekiant padidinti AI gebėjimą pagrįsti ir efektyviau išspręsti programavimo iššūkius.
Neseniai „Openai“ pristatė pažangų požiūrį į AI orientuotą konkurencinį programavimą, daugiausia dėmesio skirdamas samprotavimo galimybių gerinimui per stiprinimo mokymąsi. Tyrime lyginamas „Openai“ O1 modelis, bendrosios paskirties didelio samprotavimo modelis (LRM), su O1-IOI, modeliu, tiksliai suderintu 2024 m. Tarptautine informatikos olimpiada (IOI). Tyrimas taip pat įvertina O3, pažengusį modelį, kuris pasiekia aukštą našumą, nesikreipdamas į rankomis sukurtas išvadų strategijas. Pažymėtina, kad O3 užtikrina aukso medalį 2024 m. IOI ir pasiekia kodeforų reitingą, panašų į aukščiausius žmonių programuotojus, parodydamas stiprinimo mokymosi veiksmingumą atliekant daug samprotavimų užduotis.
Techninė informacija ir nauda
„Openai“ požiūrio pagrindas yra sustiprinimo mokymosi pagrindu pagrįstų samprotavimų modeliai, kurie yra struktūrizuotas būdas naršyti sudėtingomis problemomis. Skirtingai nuo ankstesnių metodų, kurie priklausė nuo žiaurios jėgos euristikos, šie modeliai sistemingai patikslina jų problemų sprendimo strategijas per išmoktą patirtį.
Pagrindiniai šio požiūrio aspektai yra:
- Mąstymo grandinės samprotavimai: Modeliai sukuria tarpinius veiksmus, kad būtų galima suskaidyti problemas prieš atvykdami į galutinį sprendimą, pagerindami sudėtingų scenarijų tikslumą.
- Stiprinimo mokymosi tobulinimas: RL yra naudojamas optimizuoti sprendimų priėmimą, leidžiant modeliui dinamiškai atpažinti ir ištaisyti klaidas.
- Autonominės bandymo laiko strategijos: Skirtingai nuo ankstesnių sistemų, kurios rėmėsi iš anksto nustatyta euristika, O3 kuria savo išvadų strategijas, todėl ji tampa labiau pritaikoma.
Šie patobulinimai prisideda prie didesnio lankstumo sprendžiant problemas, geresnį apibendrinimą atliekant skirtingas kodavimo užduotis ir sumažėjęs priklausomybė nuo žmogaus suplanuotų taisyklių. Tai yra žingsnis į priekį nuo tokių modelių kaip „Alphacode“, kuris rėmėsi išsamiu išankstinio atrankos ir euristiniu filtravimu.
Rezultatai ir įžvalgos
„Openai“ vertinimas pateikia įtikinamų šių modelių įrodymų, susijusių su konkurencinio programavimo pažanga:
- Aukso medalis IOI 2024 m.: O3 modelis aplenkė išankstinius artėjimus ir pasiekė aukso medalį nereikalaudamas rankomis suderintų išvadų metodų.
- „Codeforces“ etalonas: „O3“ pasiekė 2724 „Codeforces“ reitingą, pateikdamas jį į 99,8-ąjį procentilį, pranokdamas O1-IOI, kuris naudojo rankiniu būdu sukurtas bandymo laiko strategijas.
- Patobulinti savęs patvirtinimo mechanizmai: Modelis parodė galimybę generuoti žiaurius jėgos sprendimus savarankiškai pažymėti, automatiškai patikslinant jo kodo pateikimus.
Šie rezultatai rodo, kad bendrosios paskirties stiprinimo mokymosi modeliai gali pralenkti domenams būdingus AI sprendimus, savarankiškai mokydamiesi ir vykdydami veiksmingus problemų sprendimo metodus. Perėjimas nuo O1-IOI prie O3 pabrėžia perėjimą nuo žmogaus intervencijos, nes modelis sukuria savo optimizavimo strategijas problemų sprendimo metu.

Išvada
„Openai“ darbas su dideliais samprotavimo modeliais konkurenciniame programavime pabrėžia, kad AI sistemos artėja prie sudėtingo problemų sprendimo. Parodydamas, kad sustiprinimo mokymosi modeliai gali sutapti ir netgi viršyti domenų specifinių metodų našumą, šis tyrimas rodo platesnį AI taikymą mokslinių tyrimų, programinės įrangos kūrimo ir matematinių samprotavimų srityse. Judėjimas į priekį, toliau tobulinant šiuos modelius, gali padėti užpildyti atotrūkį tarp AI pagrįstų samprotavimų ir žmogaus pažinimo įgūdžių, todėl gali atsirasti pajėgesnių ir pritaikomų AI sistemų.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo