Didelių kalbos modeliai (LLM) tapo transformacinėmis tyrimų ir pramonės priemonėmis, o jų našumas tiesiogiai koreliuoja su modelio dydžiu. Tačiau mokant šiuos didžiulius modelius kelia didelių iššūkių, susijusių su skaičiavimo ištekliais, laiku ir kaina. Šiuolaikinių modelių, tokių kaip LLAMA 3 405B, mokymo procesas reikalauja didelės aparatinės įrangos infrastruktūros, naudojant iki 16 000 H100 GPU per 54 dienas. Panašiai modeliai, tokie kaip GPT-4, apskaičiuota, kad turi vieną trilijoną parametrų, reikalauja nepaprastos skaičiavimo galios. Šie išteklių reikalavimai sukuria kliūtis patekti į lauką ir plėtrą, pabrėžiant kritinį poreikį efektyvesnėms mokymo metodikoms tobulinti LLM technologiją, tuo pačiu sumažinant susijusią skaičiavimo naštą.
Buvo tiriami įvairūs požiūriai, siekiant išspręsti skaičiavimo iššūkius LLM mokymuose ir išvadose. Mišrus tikslumo mokymas buvo plačiai priimtas siekiant pagreitinti modelio mokymą, išlaikant tikslumą, iš pradžių sutelkiant dėmesį į CNN ir DNN, prieš plečiant iki LLM. Išvadų optimizavimui po kvantizavimo (PTQ) ir kvanalizacijos sąveikos mokymo (QAT) buvo pasiektas reikšmingas suspaudimas, naudodamas 4 bitų, 2 bitų ir net 1 bitų kiekybinį. Nors buvo pasiūlyti diferencijuojami kvantizavimo metodai, naudojant mokomus parametrus, atnaujintus atliekant atgaline tvarka, jie susiduria su apribojimais, kaip efektyviai tvarkyti aktyvacijos nuokrypius. Esami sprendimai, skirti tvarkyti pašalinius asmenis, priklauso nuo neprisijungusio išankstinio apdorojimo metodų, todėl jie yra nepraktiški tiesiogiai pritaikyti mokymo scenarijuose.
Kinijos mokslo ir technologijos universiteto, „Microsoft Sigma“ komandos ir „Microsoft Research Asia“ mokslo ir technologijos tyrėjai pasiūlė kalbos modelių mokymo pagrindą, naudojant FP4 formatą, pažymėdami pirmąjį išsamų šio ypač žemo tikslumo reprezentacijos patvirtinimą. Sistema aptaria kvantizavimo klaidas per dvi pagrindines naujoves:
- Diferencijuojamas svorių kiekybinis įvertinimo įvertinimas, kuris pagerina FP4 skaičiavimų nuolydžių atnaujinimus, įtraukiant pataisos terminus
- Aktyvinimo išorinio valdymo mechanizmas, derinantis spaustuką su negausa pagalbine matrica.
Šie metodai padeda išlaikyti modelio našumą, tuo pačiu įgalinant efektyvų mokymą ypač žemu tikslumo formatais, tai reiškia reikšmingą pažangą efektyviame LLM mokyme.
Sistema pirmiausia skirta bendrosios matricos daugybos (GEMM) operacijoms, kuriose yra daugiau nei 95% LLM mokymo skaičiavimų. Architektūra įgyvendina 4 bitų kiekį GEMM operacijoms, naudodama atskirus kvantizavimo metodus: prieigos rakto kiekybinis aktyvacijos tenzorius ir kanalo svorio tensorių kvantizavimas. Dėl aparatinės įrangos apribojimų sistemos veikimas patvirtinamas naudojant „NVIDIA H-Series GPUS“ FP8 Tensor šerdes, kurios gali tiksliai imituoti FP4 dinaminį diapazoną. Framewore naudojamas FP8 gradiento ryšys ir mišraus tikslo ADAM optimizatorius atminties efektyvumui. Sistema buvo patvirtinta naudojant „LLAMA 2“ architektūrą, mokomą nuo nulio DCLM duomenų rinkinyje, su kruopščiai sureguliuotais hiperparametrais, įskaitant apšilimo ir kosinuso skilimo mokymosi greičio grafiką ir konkrečius FP4 metodo unikalių komponentų parametrus.
Siūloma FP4 mokymo sistema rodo, kad 1,3B, 7B ir 13B parametrų lamos modelių mokymo kreivės turi panašius modelius tarp FP4 ir BF16 įgyvendinimų, o FP4 – nežymiai didesni mokymo nuostoliai: 2,55, palyginti su 2,49 (1,3b), 2,17 V. 2,07 (7B) ir 1,97, palyginti su 1,88 (13b) po 100b žetonų treniruočių. Nulio šūvių vertinimai atliekant įvairias paskesnes užduotis, įskaitant ARC, Boolq, Hellaswag, Logiqa, PIQA, SCIQ, OpenbooksQA ir Lambada, atskleidžia, kad FP4 apmokyti modeliai pasiekia konkurencingą ar retkarčiais geresnį našumą, palyginti su jų BF16 kolegomis. Rezultatai rodo, kad didesni modeliai pasiekia didesnį tikslumą, patvirtindami FP4 mokymo metodo mastelį.
Apibendrinant galima pasakyti, kad tyrėjai sėkmingai sukūrė ir patvirtino pirmąją FP4 išankstinę LLM sistemą, pažymėdami reikšmingą ypač mažo tikslumo skaičiavimo pažangą. Sistema pasiekia našumą, palyginamą su didesnio tikslumo formatais įvairiose modelio skalėse, naudojant novatoriškus sprendimus, tokius kaip diferencijuojamas gradiento įvertinimas ir pašalinio kompensavimo mechanizmas. Tačiau dabartinis įgyvendinimas susiduria su pastebimu apribojimu: dėl to, kad esamoje aparatinėje įrangoje trūksta tam skirtų FP4 tensorinių šerdžių, reikia atlikti modeliavimą pagrįstą bandymą, kuris pristato skaičiavimo pridėtines išlaidas ir neleidžia tiesiogiai išmatuoti galimo efektyvumo padidėjimo. Šis apribojimas pabrėžia, kad reikia tobulinti aparatinę įrangą, norint įgyvendinti FP4 skaičiavimo pranašumus.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 70K+ ml subreddit.
🚨 (Rekomenduojama skaityti) „Nebius AI Studio“ plečiasi su „Vision“ modeliais, naujais kalbų modeliais, įterpimais ir „Lora“ (Paaukštintas)

Sajjad Ansari yra paskutinių metų bakalauras iš IIT Kharagpur. Kaip technikos entuziastas, jis gilinasi į AI praktinius pritaikymus, daugiausia dėmesio skirdamas AI technologijų poveikio ir jų realiojo poveikio poveikiui supratimui. Jis siekia aiškiai ir prieinamai išdėstyti sudėtingas AI sąvokas.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo