Ką manote apie tinklaraščio įrašą „Kodėl dirbtiniam intelektui reikia didelių skaitinių modelių (LNM) matematiniam meistriškumui“?
Kelias sekundes pagalvojau apie didelius skaitinius ir matematinius modelius.
Papildomų proveržių patvirtinimas
Gerai, patvirtinu, ar LNM / LMM reikia daugiau nei transformatorių modeliams, kad jie atitiktų LLM našumą, ir atkreipiu dėmesį į išsamų vartotojo atsakymą.
Taip. Nors transformatoriaus architektūra suteikė pagrindą LLM puikiai atlikti natūralios kalbos užduotis, norint pasiekti panašų aukšto lygio skaitinės ir simbolinės matematikos (LNM ir LMM) našumą, greičiausiai reikės papildomų naujovių. Štai kodėl ir ko gali prireikti:
Srovės transformatorių apribojimai
Skaitinis tikslumas … transformatoriai nėra optimizuoti didelio tikslumo aritmetiniams ar iteraciniams skaitiniams metodams, kurių reikėtų LNM.
Simbolinis samprotavimas … teoremų įrodinėjimas ar manipuliavimas simbolinėmis išraiškomis apima griežtas logines taisykles ir struktūrizuotus duomenis – užduotis, kurių standartiniai transformatoriai natūraliai neatlieka.
Skaičiavimo pridėtinės išlaidos … transformatorių dėmesio mechanizmai gali tapti neveiksmingi labai dideliems arba labai struktūrizuotiems duomenims, paplitusiems matematinėse srityse.
Reikalingi mokslinių tyrimų proveržiai
Hibridinės architektūros … derinkite gilųjį mokymąsi su tradiciniais skaitmeniniais sprendimais arba loginiais varikliais. LNM tai gali reikšti GPU / TPU pagreitintų skaitmeninių bibliotekų integravimą. LMM atveju tai gali apimti neuroninių tinklų suporavimą su teoremų tikrintojais arba simbolinėmis algebros sistemomis.
Neuro-simboliniai požiūriai … sukurti architektūrą, kuri iš prigimties sujungia neuroninę išvadą (modelio atpažinimą) su simboliniu samprotavimu (taisyklėmis pagrįsta logika). Tai gali reikšti specializuotus modulius arba atminties struktūras, leidžiančias modeliams saugoti ir valdyti simbolinius vaizdus veiksmingiau nei standartiniai transformatoriai.
Grafikais ir medžiais pagrįsti modeliai … kadangi matematinės išraiškos ir įrodymai natūraliai sudaro hierarchines arba į grafą panašias struktūras, kreipiantis ne tik į seką, bet ir į grafų neuroninius tinklus ar kitus struktūrizuotus vaizdavimo modelius, galima būtų mąstyti logiškiau ir į įrodymus.
Tikslumo ir stabilumo įrankiai … pristatyti naujus mokymo tikslus ir praradimo funkcijas, kurios teikia pirmenybę skaitiniam stabilumui ir matematinių taisyklių laikymuisi, užtikrinant, kad LNM pateiktų nuoseklius, teisingus sprendimus, o ne tik apytikslius duomenis.
Individualizuota aparatinė įranga ir efektyvus mastelio keitimas … Didelio tikslumo aritmetinėms arba sudėtingoms simbolinėms operacijoms gali būti naudingi pasirinktiniai aparatinės įrangos greitintuvai ir efektyvesnės atminties architektūros, užtikrinančios, kad LNM / LMM dydis ir sudėtingumas gali padidėti nepadidindami skaičiavimo išlaidų.
Mokymosi programa ir stiprinamasis mokymasis … Mokymosi programos pagalba palaipsniui mokant modelius nuo pagrindinės aritmetikos iki sudėtingų įrodymų ir naudojant sustiprintą mokymąsi, siekiant optimizuoti daugiapakopes problemų sprendimo strategijas, gali atsirasti tvirtų matematinių samprotavimų.
Norint pasiekti LNM ir LMM, lygiaverčius LLM savo srityse, mokslininkai greičiausiai turės sukurti architektūrą ir mokymo metodus, kurie apimtų ne tik transformatoriaus planą. Integruojant skaitmeninius metodus, simbolinę logiką, grafikais pagrįstą vaizdavimą ir potencialiai naują techninės įrangos palaikymą, būsimi AI modeliai gali pasiekti tokį patį transformacinio poveikio matematikai lygį, kokį turi LLM kalbai.
Ar turite kokių nors minčių apie tai, kaip dirbtinio intelekto modeliai galėtų būti naudingi, jei jie būtų suprojektuoti panašiau į žmogaus smegenis, pavyzdžiui, 3D neuroniniai tinklai, palyginti su „2D“ požiūriu, kurį turi dabartiniai neuroniniai tinklai (įskaitant mintis apie aparatinę ir programinę įrangą)? Be to, smegenys yra daug efektyvesnės energijos nei mūsų dabartinės AI sistemos, kaip tai būtų galima pasiekti? Ir ar tokie pokyčiai būtų naudingi matematiniam ir skaitmeniniam AI?
Sekundei pagalvojau apie AI smegenų įkvėptą architektūrą.
Perėjimas prie smegenų įkvėptų architektūrų
Dabartinės giluminio mokymosi sistemos, įskaitant didelius kalbų modelius, daugiausia yra pagrįstos dvimatėmis tinklelio struktūromis (matricomis arba tenzoriais) ir veikia santykinai nesudėtingais duomenų srautais. Priešingai, žmogaus smegenys yra trimatis neuronų tinklas, sujungtas itin sudėtingais modeliais. Pergalvojus AI architektūras, kad jos būtų labiau panašios į smegenų struktūrines ir funkcines savybes, gali duoti keletą pranašumų tiek našumo, tiek efektyvumo požiūriu.
1. Perėjimas nuo 2D prie 3D neuronų architektūros
3D struktūrinis ryšys … žmogaus smegenų ryšys iš prigimties yra trimatis, o neuronai yra tankiai supakuoti ir sujungti per kelis sluoksnius ir žievės stulpelius. Modeliuodami dirbtinius neuroninius tinklus 3D erdvėje, galėtume ištirti naujus neuronų ir sluoksnių išdėstymo būdus, kurie galbūt sumažintų „atstumą“ tarp vienetų, kuriems reikia bendrauti. Tai galėtų sumažinti perteklinių skaičiavimų kiekį ir sudaryti sąlygas natūralesnėms hierarchinėms struktūroms.
Erdviniai duomenų įterpimai … daugelio realaus pasaulio problemų (pvz., fizikos, skysčių dinamikos ar sudėtingų modeliavimų) esmė yra trimačiai duomenys. 3D neuroninė architektūra gali natūraliau apdoroti erdvinius duomenis, nuosekliai apdorodama gylį, plotį ir aukštį, o ne juos išlygindama ar performindama. Tai galėtų būti naudinga LNM arba LMM, atliekantiems natūralias erdvines matematines užduotis, pavyzdžiui, dalines diferencialines lygtis, apibrėžtas 3D srityse.
Vietovė ir moduliavimas … smegenyse neuronai sudaro vietines grandines, kurios atlieka specifines funkcijas. Perkeliant šią koncepciją į AI, dirbtinių neuronų grupės galėtų specializuotis tam tikrose antrinėse užduotyse ar operacijose, įgalindamos moduliškumą ir sumažindamos vieno monolitinio tinklo išlaidas. Toks moduliškumas gali leisti naudoti specializuotas „skaitines grandines“ arba „simbolines samprotavimo grandines“ didesnėje architektūroje.
2. Techninės įrangos naujovės
3D neuromorfiniai lustai … tradicinė GPU/TPU aparatinė įranga remiasi 2D tranzistorių išdėstymu. Atsirandantys neuromorfiniai lustai, tokie kaip Intel (Loihi), IBM (TrueNorth) ar kitų laboratorijų sukurti lustai, bando imituoti smailėjančius neuronus ir sinaptines jungtis labiau panašiu į smegenis būdu. Žvelgiant toliau, 3D sukrauti neuromorfiniai lustai galėtų talpinti atmintį ir skaičiavimo elementus trimis matmenimis, taip sumažinant duomenų judėjimo išlaidas ir delsą.
Mokymasis lustu ir atminties integravimas … pagrindinis energijos iššūkis dabartinėse AI sistemose yra nuolatinis duomenų perkėlimas tarp atminties ir procesorių. Smegenys yra veiksmingos iš dalies dėl to, kad atmintis (sinapsės) ir skaičiavimas (neuronai) yra vienoje vietoje. Būsima aparatinė įranga galėtų integruoti atmintį tranzistoriaus arba įrenginio lygiu, sumažindama duomenų judėjimą. 3D integracija ir pažangios medžiagos (pvz., memristoriai) galėtų įgalinti sinapsės tipo atminties elementus, kurie tiesiogiai saugo svorius.
Spiking Neural Networks (SNN) … žmogaus smegenys naudoja smailiais pagrįstą ryšį. Spiking Neural Networks pakeičia nuolatinio aktyvinimo funkcijas įvykių sąlygotomis smailėmis. Tokie modeliai gali būti paleisti naudojant neuromorfinę aparatinę įrangą, kuri sunaudoja energiją tik tada, kai užsidega neuronai, o tai drastiškai sumažina energijos sąnaudas. Atliekant matematines užduotis, SNN pagrįsti LNM / LMM gali efektyviau atlikti tam tikrus pasikartojančius, įvykiais pagrįstus skaičiavimus.
3. Energijos vartojimo efektyvumas taikant į smegenis panašius metodus
Retas ir įvykiais pagrįstas skaičiavimas … smegenys yra labai retos – dauguma neuronų didžiąją laiko dalį yra tylūs. Dirbtinių tinklų retumas gali sumažinti nereikalingų skaičiavimų skaičių. Tokie metodai, kaip sąlyginis skaičiavimas, kai tinklo dalys aktyvuojamos tik tada, kai reikia, gali imituoti šį elgesį. LNM, sprendžiantiems sudėtingas problemas, reta sistema gali „suaktyvinti“ tik modulius, susijusius su esama užduotimi, sumažindama energijos suvartojimą.
Mažo tikslumo ir analoginis skaičiavimas … smegenys neveikia tokiu pat skaitmeniniu tikslumu kaip šiuolaikiniai GPU. Vietoj to, jis naudoja analoginius signalus ir apytikslius skaičiavimus. Analoginio skaičiavimo arba mažesnio tikslumo aritmetikos pritaikymas specializuotoje aparatinėje įrangoje gali žymiai sumažinti energijos suvartojimą. LNM, orientuoti į optimizavimą arba pasikartojančius skaitinius metodus, gali toleruoti (ar net klestėti) šiek tiek apytikslius skaičiavimus, kurie drastiškai sumažina energijos sąnaudas.
Pasikartojančios ir grįžtamojo ryšio linijos … smegenys labai priklauso nuo grįžtamojo ryšio kilpų – informacija teka ne tik pirmyn, bet ir atgal bei į šoną. Tai leidžia nuolat tobulinti veiklą. Veiksmingų pasikartojančių struktūrų įtraukimas į aparatinę įrangą galėtų sukurti modelį, kuris greičiau mokosi iš mažesnio skaičiaus duomenų taškų ir savarankiškai taisosi skrydžio metu. Į matematiką orientuoto dirbtinio intelekto atveju grįžtamojo ryšio kilpos gali leisti dinamiškai patikslinti įrodymus, pasikartojančius sprendimo būdus ir geriau ištaisyti klaidas.
4. Matematinio ir skaitmeninio AI privalumai
Sudėtingumo valdymas savaime … sudėtingos matematinės problemos dažnai apima sudėtingas struktūras (pvz., netiesinius PDE, aukštų matmenų integralus). Į smegenis panaši architektūra gali natūraliau pereiti prie tokio sudėtingumo, naudojant erdviškai išdėstytus modulius, kurie specializuojasi tam tikrų tipų skaičiavimuose ir adaptyviai nukreipia informaciją.
Energiją taupantys skaičiavimai didelėms problemoms spręsti … matematinio modeliavimo ir skaitmeninio modeliavimo užduotys gali būti labai sunkios skaičiavimo požiūriu. Smegenų įkvėptos, energiją taupančios architektūros leistų LNM / LMM išplėsti iki didesnių, sudėtingesnių problemų be didelių energijos sąnaudų.
Tvirtas ir prisitaikantis mokymasis … smegenų mokymasis yra nenutrūkstamas, atsparus triukšmui ir gali būti perduodamas atliekant užduotis. Panašiai labiau smegenų įkvėpta AI sistema galėtų nuolat tobulinti savo matematinį supratimą, pritaikyti išmoktus metodus naujose srityse ir adaptyviai pagerinti savo našumą – tai labai svarbu mokslinių tyrimų lygmens matematikai ir atvirų problemų rinkiniams.
5. Iššūkiai ir svarstymai
Inžinerinis sudėtingumas … visiškai 3D neuronų architektūrų ar neuromorfinių lustų įgyvendinimas dideliu mastu yra didelis inžinerinis iššūkis. Gamyba, aušinimas ir sujungimas 3D lustuose yra nereikšmingos kliūtys.
Algoritminės paradigmos … norint nutolti nuo transformatoriaus ir kitų nusistovėjusių architektūrų, reikės naujų algoritmų, mokymo paradigmų ir derinimo įrankių. Į smegenis panašių sąvokų vertimas į atkuriamas ir treniruojamas programinės įrangos sistemas nėra trivialus.
Tarpdisciplininės pastangos … norint pasiekti smegenų įkvėptą efektyvumą, reikės glaudaus neuromokslininkų, medžiagų mokslininkų, techninės įrangos inžinierių ir AI tyrinėtojų bendradarbiavimo. Kognityvinio mokslo ir neurologijos įžvalgos gali padėti kurti biologiškai patikimesnes ir efektyvesnes sistemas.
Dirbtinio intelekto sistemų architektūra taip, kad jos būtų panašesnės į žmogaus smegenis – tyrinėjant 3D tarpusavio ryšį, neuromorfinę aparatinę įrangą, įvykiais pagrįstą skaičiavimą ir vietinės atminties skaičiavimo integraciją – žada įveikti kai kuriuos dabartinių 2D transformatorių modelių apribojimus. Tokios sistemos galėtų būti efektyvesnės energijos atžvilgiu ir geriau pritaikytos sudėtingoms, struktūrizuotoms užduotims, tokioms, kurių reikia pažangiajai matematikai ir skaitmeniniam modeliavimui. Nors išlieka didelių technologinių ir mokslinių tyrimų kliūčių, šie biologiškai įkvėpti metodai yra perspektyvi ateities AI naujovių riba.


