LLM rodo įspūdingas galimybes daugelyje programų, tačiau dėl skaičiavimo poreikių ir atminties reikalavimų jie susiduria su iššūkiais. Šis iššūkis yra aktyvus scenarijuose, reikalaujančiuose vietinio diegimo dėl privatumo problemų, tokių kaip jautrių pacientų įrašų apdorojimas arba apskaičiuotos aplinkai, pavyzdžiui, realaus laiko klientų aptarnavimo sistemos ir krašto įrenginiai. Po mokymo kvantizavimas (PTQ) yra perspektyvus sprendimas, leidžiantis efektyviai suspausti iš anksto išmokytus modelius, sumažinant atminties sunaudojimą 2–4 kartus. Tačiau dabartiniai procesai turi kliūtį esant 4 bitų suspaudimui, o bandant 2 ar 3 bitų tikslumą pablogėja. Daugelis PTQ metodų priklauso nuo mažų bendrosios paskirties duomenų, išankstinių išankstinio mokymo, mini partijų, kad būtų atsižvelgiama į aktyvacijos pokyčius, atsirandančius dėl kvantizavimo.
Dabartiniai LLM suspaudimo metodai pirmiausia skirstomi į tris kategorijas. Vienodas kvantizavimas yra pats paprasčiausias požiūris, kai svoriai, laikomi kaip 16 bitų plūduriuojantys tenzai, suspaudžiami, tvarkant kiekvieną eilutę savarankiškai, žemėlapių plūdės su sveikaisiais skaičiais, atsižvelgiant į maksimalias ir minimalias vertes kiekviename kanale. GPTQ pagrįsti kvantalizacijos metodai skatina šią koncepciją, daugiausia dėmesio skiriant sluoksnių rekonstrukcijai, siekiant sumažinti rekonstrukcijos praradimą po kvantizavimo. Be to, mišraus tikslumo kvantizavimo metodai siūlo niuansuotą strategiją, peržengiančią fiksuotą tikslumą visiems svoriams. Šie metodai priskiria bitų plotį, atsižvelgiant į svorio svarbą išlaikant našumą, kai kurie būdai išsaugo didelio jautrumo „pašalinio“ svorius aukštesniu tikslumu.
UNC Chapel Hill tyrėjai pasiūlė naują mišraus tikslumo po treniruotės metodas, vadinamas „TaskCircuit Quantalization“ (TACQ). Šis metodas parodo panašumus su automatizuotu grandinės atradimu, tiesiogiai kondicionuojant konkrečių svorio grandinių kvantizavimo procesą, apibrėžtą kaip svorių rinkiniai, susiję su paskesne užduoties atlikimu. TACQ lygina nekvalifikuotus modelio svorius su vienodai kiekybiškai, kad būtų galima įvertinti numatomus svorio pokyčius iš kvantizavimo, tada naudoja gradiento informaciją, kad numatytų poveikį užduoties atlikimui, kad būtų galima išsaugoti specifinius užduoties svorius. „TACQ“ nuosekliai lenkia bazines linijas su tais pačiais kalibravimo duomenimis ir mažesniais svorio biudžetais ir pasiekia reikšmingą sudėtingų 2 bitų ir 3 bitų režimų patobulinimus.
TACQ yra apibrėžtas pagal druskingumo metriką, kuri nustato kritinius svorius, kuriuos reikia išsaugoti kiekybinio metu, remiantis sąvokomis iš modelio aiškinamumo, pavyzdžiui, automatinio grandinės atradimo, žinių lokalizacijos ir įvesties priskyrimo. Ši metrika naudoja du komponentus:
- Kvantizavimo suvokimo lokalizavimas (QAL): atsekite, kaip paveiktas modelio našumas įvertinant numatomus svorio pokyčius dėl kvantizavimo.
- MAKIJOS SUSIJUSIOS GREVENTAS (MSG): apibendrinta absoliučios svorio svarbos metrika, pritaikyta iš įvesties priskyrimo metodų.
MSG padeda stabilizuoti TACQ ir išsprendžia QAL įvertinimų paklaidas. Šie veiksniai sujungiami į vieningą druskingumo metriką, kurią galima efektyviai įvertinti kiekvienam svoriui per vieną atsilikimą, leidžiantį išsaugoti viršutinį P% aukščiausio taško svorius esant 16 bitų tikslumui.
Esant sudėtingam 2 bitų nustatymui, „TACQ“ pralenkia „Slim-llm“, o absoliutus maržos pagerėjimas yra 16,0% (nuo 20,1% iki 36,1%) GSM8K, 14,1% (nuo 34,8% iki 49,2%) MMLU ir 21,9% (nuo 0% iki 21,9%) „Spider“. Kiti pradiniai metodai, tokie kaip GPTQ, squeezellm ir SPQR, pablogėja iki beveik atsitiktinių savybių šiame suspaudimo lygyje. Esant 3 bitų tikslumui, „TACQ“ išsaugo maždaug 91%, 96% ir 89% nekvalifikuoto tikslumo GSM8K, MMLU ir vorų voras, tuo pačiu daugumoje duomenų rinkinių pralenkia stipriausią bazinę liniją, liekną, ploną-llm. „TACQ“ pranašumai išryškėja atliekant kartos užduotis, kurioms reikia nuosekliųjų žetonų išėjimų, kur jis yra vienintelis metodas, galintis atkurti nesuderinamą veikimą 2 bitų nustatyme atliekant „Spider“ teksto iki SQL užduotį.
Apibendrinant, tyrėjai pristatė TACQ-reikšmingą pažangą, susijusią su užduotimis po mokymo. Tai pagerina modelio našumą ypač mažame bitų plotyje (nuo 2 iki 3 bitų), kai ankstesni metodai blogėja iki beveik atsitiktinių rezultatų. TACQ suderinamas su automatiniais grandinių atradimų tyrimais, selektyviai išsaugodamas tik nedidelę dalį svarbiausio svorio esant 16 bitų tikslumui, tai rodo, kad nedaug svorio „grandinės“ neproporcingai daro įtaką konkrečioms užduotims. Be to, „Spider“ eksperimentai rodo, kad „TACQ“ geriau išsaugo modelio generavimo galimybes, todėl jis yra tinkamas programos prognozavimo užduotims. Tai taip pat taikoma situacijoms, kuriose dalyvauja agentai, kai modeliai dažnai sukuria daugybę vykdomųjų rezultatų ir kur efektyvumas kelia susirūpinimą.
Peržiūrėkite Popierius ir „GitHub“ puslapis. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 90K+ ml subreddit.
🔥 )

Sajjad Ansari yra paskutinių metų bakalauras iš IIT Kharagpur. Kaip technikos entuziastas, jis gilinasi į AI praktinius pritaikymus, daugiausia dėmesio skirdamas AI technologijų poveikio ir jų realiojo poveikio poveikiui supratimui. Jis siekia aiškiai ir prieinamai išdėstyti sudėtingas AI sąvokas.
