Transformatorių pagrįsti modeliai turi žymiai pažengusį natūralios kalbos apdorojimą (NLP), puikiai tinkančius įvairioms užduotims. Tačiau jie kovoja su samprotavimais dėl ilgų kontekstų, daugiapakopių išvadų ir skaitmeninių samprotavimų. Šie iššūkiai kyla dėl jų kvadratinio sudėtingumo savarankiškumo, todėl jie yra neveiksmingi išplėstinėms sekoms ir jų aiškios atminties stoka, o tai riboja jų sugebėjimą efektyviai sintetinti išsklaidytą informaciją. Esami sprendimai, tokie kaip pasikartojantys atminties transformatoriai (RMT) ir gavimo rinkliavos (RAG), siūlo dalinius patobulinimus, tačiau dažnai aukoja efektyvumą arba apibendrinimą.
Pristatykite didelę atminties modelį (LM2)
„Convergence Labs“ pristato didelę atminties modelį (LM2)-tik dekoderio transformatoriaus architektūrą, patobulintą pagalbiniu atminties moduliu, kad būtų galima išspręsti įprastų modelių trūkumus ilgalaikio konteksto pagrindimo. Skirtingai nuo standartinių transformatorių, kurie priklauso tik nuo dėmesio mechanizmų, LM2 apima struktūrizuotą atminties sistemą, sąveikaujančią su įvesties įterpimais per kryžminį dėmesį. Modelio atminties atnaujinimai yra reguliuojami vartų mechanizmais, leidžiančiais jam selektyviai išsaugoti svarbią informaciją, tuo pačiu išsaugant apibendrinimo galimybes. Šis dizainas leidžia LM2 išlaikyti darną ilgose sekose, palengvindamas pagerintus santykinius samprotavimus ir išvadas.
Techninė apžvalga ir nauda
LM2 remiasi standartine transformatoriaus architektūra, įvesdama tris pagrindines naujoves:
- Atminties mažinimo transformatorius: Specialus atminties bankas veikia kaip aiški ilgalaikė saugojimo sistema, gaunama tinkama informacija per kryžminį dėmesį.
- Hibridinės atminties kelias: Skirtingai nuo ankstesnių modelių, modifikuojančių pagrindinę transformatoriaus struktūrą, LM2 palaiko originalų informacijos srautą, integruodamas pagalbinės atminties kelią.
- Dinaminės atminties atnaujinimai: Atminties modulis selektyviai atnaujina savo saugomą informaciją, naudodama mokomąją įvestį, pamiršti ir išvesti vartus, užtikrindamas ilgalaikį išlaikymą be nereikalingo nesikaupimo duomenų.
Šie patobulinimai leidžia LM2 efektyviau apdoroti ilgas sekas, išlaikant skaičiavimo efektyvumą. Selektyviai įtraukdamas atitinkamą atminties turinį, modelis sušvelnina laipsnišką našumo nuosmukį, dažnai pastebimą tradicinėje architektūroje per išplėstinį kontekstą.

Eksperimentiniai rezultatai ir įžvalgos
Norint įvertinti LM2 veiksmingumą, jis buvo patikrintas „Babilong“ duomenų rinkinyje, skirtoje įvertinti daug atminties reikalaujančias samprotavimo galimybes. Rezultatai rodo esminius patobulinimus:
- Trumpo konteksto našumas (0K konteksto ilgis): LM2 pasiekia tikslumą 92,5%viršija RMT (76,4%) ir vanilės lla-3,2 (40,7%).
- Ilgojo konteksto našumas (1K-4K konteksto ilgis): Didėjant konteksto ilgiui, visi modeliai patiria tam tikrą degradaciją, tačiau LM2 palaiko didesnį tikslumą. At 4K konteksto ilgisLM2 pasiekia 55,9%palyginti su 48,4% RMT ir 36,8% LLAMA-3.2.
- Ypatingas ilgo konteksto našumas (≥8K konteksto ilgis): Nors visi modeliai mažėja tikslumu, LM2 išlieka stabilesnis, pralenkdamas RMT daugiapakopių išvadų ir reliacinių argumentacijų.
Be atminties specifinių etalonų, LM2 buvo išbandytas MMLU duomenų rinkinyje, kuriame apima platų akademinių dalykų spektrą. Modelis parodė a 5,0% pagerėjimas, palyginti su iš anksto išmokytu vaniliniu transformatoriumiypač tobulinant humanitarinius ir socialinius mokslus, kur labai svarbu kontekstiniai samprotavimai. Šie rezultatai rodo, kad LM2 atminties modulis pagerina samprotavimo galimybes, nepakenkiant bendram užduotims atlikimui.

Išvada
LM2 įvedimas siūlo apgalvotą požiūrį į standartinių transformatorių apribojimus, susijusius su ilgo konteksto samprotavimais. Integruodamas aiškų atminties modulį, LM2 pagerina daugiapakopius išvadas, reliacinius argumentaciją ir skaitmeninius samprotavimus išlaikydamas efektyvumą ir pritaikomumą. Eksperimentiniai rezultatai parodo esamų architektūrų pranašumus, ypač atliekant užduotis, reikalaujančias išplėstinio konteksto išlaikymo. Be to, „LM2“ gerai veikia bendrais pagrindais, o tai rodo, kad atminties integracija netrukdo universalumui. Toliau vystantis atminties modeliams, LM2 yra žingsnis link veiksmingesnių ilgalaikio konteksto samprotavimų kalbų modeliuose.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo