Efektyviai tvarkyti ilgą kontekstą buvo ilgalaikis iššūkis natūralios kalbos apdorojimui. Dideliems kalbų modeliams plečiant savo gebėjimą skaityti, suprasti ir generuoti tekstą, dėmesio mechanizmas, nukreiptas į tai, kaip jie apdoroja įvestį, gali tapti kliūtimi. Įprastoje transformatoriaus architektūroje šis mechanizmas lygina kiekvieną žetoną su kiekvienu kitu žetonu, todėl skaičiavimo išlaidos yra kvadratiškai mastelio su sekos ilgiu. Ši problema tampa aktualesnė, kai kalbų modelius taikome užduotims, kurioms reikia, kad jie galėtų pasikonsultuoti su dideliu teksto informacija: ilgos formos dokumentai, daugiakapių knygos, teisinės trumpikės ar didelės kodo saugyklos. Kai modelis turi naršyti dešimtis ar net šimtus tūkstančių žetonų, naiviai apskaičiuoti visą dėmesį tampa draudžiama.
Ankstesnės pastangos išspręsti šią problemą dažnai priklauso nuo fiksuotų struktūrų ar apytikslių, kurie gali pakenkti tam tikrų scenarijų kokybei. Pvz., Stumdomo lango mechanizmai apima žetonus su vietine kaimynystė, kuri gali užtemdyti svarbius globalius ryšius. Tuo tarpu požiūriai, kurie radikaliai keičia pagrindinę architektūrą, pavyzdžiui, pakeitus „SoftMax“ dėmesį visiškai naujomis konstrukcijomis, gali reikalauti didelio perkvalifikavimo nuo nulio, todėl sunku būti naudinga iš esamų iš anksto apmokytų modelių. Tyrėjai ieškojo metodo, kuris palaiko pagrindinius originalaus transformatorių dizaino pranašumus-tai pritaikomumas ir sugebėjimas užfiksuoti plačias priklausomybes-nepatirdami didžiulės skaičiavimo pridėtinės vertės, susijusios su tradiciniu visu dėmesiu ypač ilgomis sekomis.
Tyrėjai iš „Moonshot AI“, Tsinghua universiteto ir Zhejiango universiteto pristato bloko dėmesio (MOBA), novatoriško požiūrio, kuris taiko ekspertų (MOE) mišinio (MOE), derinį. Padalijus įvestį į valdomus „blokus“ ir naudodamiesi treniruojama vartų sistema, kad nuspręstumėte, kurie blokai yra svarbūs kiekvienam užklausos ženklui, MOBA atkreipia dėmesį į neveiksmingumą, kuris atsiranda, kai modelis turi palyginti kiekvieną žetoną su kiekvienu kitu žetonu. Skirtingai nuo požiūrių, kurie griežtai skatina vietinį ar langų dėmesį, MOBA leidžia modeliui išmokti, kur sutelkti dėmesį. Šis dizainas vadovaujasi „mažesnės struktūros“ principu, tai reiškia, kad architektūra tiksliai nenustato, kuriuos žetonai turėtų sąveikauti. Vietoj to, tai deleguoja tuos sprendimus išmoktam vartų tinklui.
Pagrindinė „MOBA“ savybė yra jos gebėjimas sklandžiai veikti naudojant esamus „Transformer“ pagrįstus modelius. Užuot atsisakęs standartinės savęs lankymo sąsajos, MOBA veikia kaip „papildinio“ ar pakaitalo forma. Jis palaiko tą patį parametrų skaičių, todėl jis neišleidžia architektūros ir išsaugo priežastinį masinį maskavimą, kad užtikrintų teisingumą autoregresyvioje kartoje. Praktiniuose diegimuose MOBA gali būti perjungta tarp nedidelio ir viso dėmesio, suteikiant galimybę modeliui naudotis greičiu, kai reikia atlikti ypač ilgus įvestis, tuo pačiu išsaugant atsarginę atsarginę dalį iki standartinio viso dėmesio mokymo sluoksniuose ar fazėse, kur jis gali būti pageidautinas.
Techninė informacija ir nauda
MOBA sutelkia dėmesį į konteksto padalijimą į blokus, kurių kiekvienas apima iš eilės žetonų diapazoną. Varžybos mechanizmas apskaičiuoja „afiniteto“ balą tarp užklausos žetono ir kiekvieno bloko, paprastai palygindamas užklausą su sujungtu bloko raktų vaizdavimu. Tada jis pasirenka aukščiausio lygio blokus. Dėl to tik tie žetonai svarbiausiuose blokuose prisideda prie galutinio dėmesio paskirstymo. Blokas, kuriame yra pati užklausa, visada yra įtraukta, užtikrinant, kad vietos kontekstas išliks prieinamas. Tuo pačiu metu priežasties kaukė vykdoma, kad žetonai ateityje nedalyvautų pozicijose, išsaugodami autoregresyvią kairę į dešinę.
Dėl šios procedūros MOBA dėmesio matrica yra žymiai mažesnė nei pradiniame transformatoriuje. Vis dėlto jis išlieka pakankamai lankstus, kad prireikus klausimai galėtų patekti į tolimesnę informaciją. Pavyzdžiui, jei klausimą, pateiktą šalia teksto pabaigos, galima atsakyti tik nurodant išsamią informaciją apie pradžią, vartų mechanizmas gali išmokti priskirti aukštą balą atitinkamam ankstesniam blokui. Techniškai šis bloko pagrindu sukurtas metodas sumažina žetonų palyginimų skaičių su subkadratinėmis skalėmis, padidindamas efektyvumo padidėjimą, kuris tampa ypač akivaizdus, kai konteksto ilgis pakyla į šimtus tūkstančių ar net milijonų žetonų.
Kitas patrauklus MOBA aspektas yra jo suderinamumas su šiuolaikiniais greitintuvais ir specializuotais branduoliais. Visų pirma, autoriai sujungia „MOBA“ su „FlashAtertion“-aukštos kokybės biblioteka, skirta greitam, atminties taupančiam tikslui. Atidžiai sugrupuodami užklausos – rakto ir vertės operacijas, pagal kurias buvo pasirinkti blokai, jos gali supaprastinti skaičiavimus. Autoriai praneša, kad esant milijonui žetonų, MOBA gali suteikti maždaug šešis kartus greitį, palyginti su įprastu visu dėmesiu, pabrėždama jo praktiškumą realaus pasaulio naudojimo atvejais.

Rezultatai ir įžvalgos
Remiantis technine ataskaita, „MOBA“ demonstruoja našumą lygiavertėje visiškame dėmesyje įvairiose užduotyse, tuo pačiu siūlydama didelę skaičiavimo sutaupymą, kai susiduria su ilgomis sekomis. Kalbos modeliavimo duomenų testai rodo, kad MOBA pasipiktinimas išlieka artimas viso dalyvavimo transformatoriaus, kurio sekos ilgis yra 8,192 arba 32 768 žetonai, pasipiktinimas. Kritiškai, kadangi tyrėjai pamažu pratęsia konteksto ilgį iki 128 000 ir vėliau, MOBA išlaiko tvirtą ilgalaikį supratimą. Autoriai pateikia „Trings Token“ vertinimus, kuriuose daugiausia dėmesio skiriama modelio gebėjimui numatyti žetonus šalia ilgo raginimo pabaigos – srities, kurioje paprastai pabrėžiami metodų trūkumai, priklausantys nuo sunkių apytiksliųjų. MOBA iš tikrųjų tvarko šias galines pozicijas be jokių drastiškų prognozuojamos kokybės praradimų.
Jie taip pat tiria požiūrio į bloko dydį ir strategijų jautrumą. Kai kuriuose eksperimentuose patobulinus detalumą (ty naudojant mažesnius blokus, bet pasirenkant daugiau jų), modeliui atidžiau apima visą dėmesį. Net ir tais atvejais, kai MOBA palieka dideles konteksto dalis, adaptyvioji vartai gali nustatyti blokus, kurie tikrai svarbūs užklausai. Tuo tarpu „hibridinis“ režimas rodo subalansuotą požiūrį: kai kurie sluoksniai ir toliau naudoja „Moba“ greičiui, o mažesnis sluoksnių skaičius grįžta į visą dėmesį. Šis hibridinis požiūris gali būti ypač naudingas atliekant prižiūrimą derinimą, kai tam tikros įvesties pozicijos gali būti užmaskuotos nuo mokymo tikslo. Išsaugant visą dėmesį keliuose viršutiniuose sluoksniuose, modelis gali išlaikyti plačią konteksto aprėptį, naudodamas užduotis, kurioms reikia daugiau globalios perspektyvos.
Apskritai, šie duomenys rodo, kad MOBA yra tinkamai pritaikytas užduotims, apimančioms platų kontekstą, pavyzdžiui, skaitymo supratimas apie ilgus dokumentus, didelio masto kodo užbaigimas arba kelių posūkių dialogo sistemos, kuriose būtina visa pokalbio istorija. Jo praktinis efektyvumas padidėja ir minimalus veikimo kompromisas nustato „MOBA“ kaip patrauklų metodą, kaip padaryti didelių kalbų modelius efektyvesnius mastu.
Išvada
Apibendrinant galima pasakyti, kad bloko dėmesio (MOBA) mišinys suteikia kelią veiksmingesniam ilgo konteksto apdorojimui didelių kalbų modeliuose, be išsamaus transformatoriaus architektūros kapitalinio remonto ar našumo sumažėjimo. Priėmusi ekspertų idėjų derinį dėmesio modulyje, MOBA siūlo išmoktą, tačiau menką būdą, kaip sutelkti dėmesį į atitinkamas labai ilgų įvesties dalis. Savo dizainui būdingas pritaikomumas, ypač jo sklandus perjungimas tarp nedaug ir viso dėmesio, jis ypač patrauklus vykstančiuose ar būsimuose treniruočių vamzdynuose. Tyrėjai gali tiksliai sureguliuoti, kaip agresyviai sutrumpinti dėmesio modelį arba selektyviai panaudoti visą dėmesį užduotims, reikalaujančioms išsamios aprėpties.
Nors daug dėmesio MOBA dėmesys sutelkiamas į tekstinius kontekstus, pagrindinis mechanizmas taip pat gali pažadėti kitus duomenų būdus. Kad ir kur sekos ilgis yra pakankamai dideli, kad padidintų skaičiavimo ar atminties problemas, sąvoka užklausų priskyrimo ekspertams blokuoti gali palengvinti kliūčių, tuo pačiu išsaugant gebėjimą tvarkyti esmines globalias priklausomybes. Kadangi kalbų programų sekos ilgis ir toliau auga, tokie požiūriai kaip MOBA gali vaidinti lemiamą vaidmenį tobulinant neuroninės kalbos modeliavimo mastelio keitimą ir ekonominį efektyvumą.
Patikrinkite Popieriaus ir „GitHub“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama „Read-LG AI Research“ išleidžia „Nexus“: pažangių sistemos integracinių agentų AI sistemos ir duomenų atitikties standartų, skirtų teisiniams klausimams spręsti AI duomenų rinkiniuose

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
