Dominuojantis požiūris į išankstinį didelių kalbų modelių (LLMS) išankstinį pranešimą priklauso nuo kito pasakojimo prognozės, kuri pasirodė esanti veiksminga fiksuojant kalbinius modelius. Tačiau šis metodas turi pastebimų apribojimų. Kalbos žetonai dažnai perduoda paviršiaus lygio informaciją, reikalaudami modelių apdoroti didžiulį duomenų kiekį, kad būtų sukurtos gilesnės samprotavimo galimybės. Be to, žetonų pagrįstas mokymasis kovoja su ilgalaikių priklausomybių fiksavimu, todėl užduoties, kurioms reikia planuoti ir abstrakciją, apsunkina užduotis. Tyrėjai ištyrė alternatyvių strategijų, tokių kaip distiliavimas žiniomis ir struktūrizuotas įvesties padidinimas, tačiau šie požiūriai nevisiškai nagrinėjo žetonų pagrįsto mokymosi apribojimus. Tai kelia svarbų klausimą: ar LLM gali būti mokomi taip, kad sujungtų žetonų lygio apdorojimą su konceptualiu supratimu? Meta AI pristato Nuolatinis koncepcijos maišymas („Cocomix“) kaip potencialus sprendimas.
„Cocomix“: kitoks požiūris į išankstinį rašymą
„Cocomix“ integruoja žetonų prognozę su modeliavimu Nuolatinės sąvokos Išgauta iš paslėptų išankstinio modelio būsenų. Metodas naudoja a Negausus autocoder (SAE) Norėdami išgauti aukšto lygio semantines reprezentacijas, kurios vėliau įtraukiamos į mokymo procesą, susipynus juos su žetonų įterpimais. Šis dizainas leidžia modeliui išlaikyti mokymosi, pagrįstą žetonais, privalumu, tuo pačiu padidinant jo sugebėjimą atpažinti ir apdoroti platesnes koncepcines struktūras. Praturtindamas žetonų paremtą paradigmą su koncepcijos lygio informacija, „Cocomix“ siekia pagerinti samprotavimo efektyvumą ir modelio aiškinamumą.
Techninė informacija ir nauda
„Cocomix“ veikia per tris pagrindinius komponentus:
- Koncepcijos ištraukimas per retais autocoders (SAE): Išankstinis SAE iš modelio paslėptų būsenų identifikuoja latentines semantines savybes, fiksuojančias informaciją, kuri apima ne tik individualius žetonus.
- Koncepcijos pasirinkimas su priskyrimo balais: Ne visos ištrauktos sąvokos vienodai prisideda prie prognozių. „Cocomix“ naudoja priskyrimo metodus, kad nustatytų, kurios sąvokos yra didesnės, ir turėtų būti išlaikomos.
- Tęstinės sąvokos su žetonais reprezentacijomis: Pasirinktos sąvokos yra suspaustos į ištisinį vektorių ir integruotos į paslėptas būsenas šalia žetonų įterpimo, leidžiančios modeliui naudoti ir žetonų lygį, ir konceptualią informaciją.
Šis požiūris gerėja Imties efektyvumasįgalinantys modelius pasiekti panašų našumą su mažiau mokymo žetonų. Be to, „Cocomix“ sustiprina aiškumas Pateikdami galimybę patikrinti ir pakoreguoti ištrauktas koncepcijas, pateikdamas aiškesnį vaizdą, kaip modelis apdoroja informaciją.

Našumas ir vertinimas
„Meta AI“ įvertino „Cocomix“ įvairiuose etalonuose, įskaitant „OpenWebtext“, „Lambada“, „Wikitext-103“, „Hellaswag“, „Piqa“, „Siqa“, „Arc-Easy“ ir „Winogrande“. Išvados nurodo:
- Patobulintas mėginių efektyvumas: „Cocomix“ atitinka kito mokėjimo prognozės našumą, tuo pačiu reikalaujant 21,5% mažiau treniruočių žetonų.
- Sustiprintas apibendrinimas: Įvairių modelių dydžių (69m, 386m ir 1,38b parametrų) „Cocomix“ parodė nuoseklų paskesnių užduočių atlikimo pagerėjimą.
- Efektyvus žinių perdavimas: „Cocomix“ palaiko žinių perkėlimą iš mažesnių modelių prie didesnių, pralenkdamas tradicinių žinių distiliavimo metodus.
- Didesnis aiškinimas: Nuolatinių koncepcijų integracija leidžia geriau kontroliuoti ir skaidrumą priimant sprendimus dėl modelio, suteikiant aiškesnį supratimą apie jo vidinius procesus.

Išvada
„Cocomix“ pateikia alternatyvų požiūrį į LLM išankstinį pranešimą, derinant žetonų numatymą su koncepcijomis pagrįstais samprotavimais. Įtraukdamas struktūrizuotas reprezentacijas, ištrauktas per SAES, „Cocomix“ padidina efektyvumą ir aiškinamumą, nesutrikdydama pagrindinės kitos prognozavimo sistemos. Eksperimentiniai rezultatai rodo, kad šis metodas suteikia subalansuotą būdą pagerinti kalbos modelio mokymą, ypač tose srityse, kuriose reikalaujama struktūrizuotų samprotavimų ir skaidrių sprendimų priėmimo. Būsimi tyrimai gali sutelkti dėmesį į koncepcijos ištraukimo metodų tobulinimą ir toliau integruoti nuolatinius reprezentacijas į išankstines darbo eigas.
Patikrinkite Popieriaus ir „Github“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų „Telegram“ kanalo