Difuzijos modeliai sukuria vaizdus palaipsniui tobulinant triukšmą į struktūrizuotus vaizdus. Tačiau skaičiavimo išlaidos, susijusios su šiais modeliais, išlieka pagrindiniu iššūkiu, ypač kai tiesiogiai veikia aukšto matmens taškų duomenis. Tyrėjai tiria būdus, kaip optimizuoti latentinę erdvės reprezentaciją, kad pagerintų efektyvumą, nepakenkiant vaizdo kokybei.
Kritinė difuzijos modelių problema yra latentinės erdvės kokybė ir struktūra. Tradiciniai požiūriai, tokie kaip variaciniai autocoderiai (VAE), buvo naudojami kaip žetonai, norint reguliuoti latentinę erdvę, užtikrinant, kad išmoktos reprezentacijos yra sklandžios ir struktūrizuotos. Tačiau VAES dažnai kovoja su aukšto pikselių lygio ištikimybe dėl suvaržymų, susijusių su sureguliavimu. Automobilių kodai (AES), kurie nenaudoja variantų apribojimų, gali rekonstruoti vaizdus su didesne ištikimybe, tačiau dažnai sukelia įsipainiojusią latentinę erdvę, kuri trukdo mokyti ir atlikti difuzijos modelius. Norint išspręsti šiuos iššūkius, reikia tokio žetono, kuris suteikia struktūrizuotą latentinę erdvę, išlaikant aukštą rekonstrukcijos tikslumą.
Ankstesnėse tyrimų pastangose buvo bandoma išspręsti šias problemas naudojant įvairius metodus. VAE nustato „Kullback-Leibler“ (KL) apribojimą, kad paskatintų sklandų latentinį pasiskirstymą, tuo tarpu reprezentacijai suderintos VAES patikslina latentines struktūras, kad būtų geresnė gamybos kokybė. Kai kuriuose metoduose naudojami Gauso mišinio modeliai (GMM), kad būtų sudarytos latentinės erdvės arba suderintų latentinius vaizdus su iš anksto išmokytais modeliais, kad padidintumėte našumą. Nepaisant šių pažangų, esami metodai vis dar susiduria su skaičiavimo pridėtinėmis išlaidomis ir mastelio apribojimais, todėl reikia veiksmingesnių žetonų strategijų.
Tyrimų komanda iš Carnegie Mellon universiteto, Honkongo universiteto, Pekino universiteto ir AMD pristatė naują tokenizatorių, „Masked Autoencoder Tokenizer“ („Maetok“)spręsti šiuos iššūkius. „Maetok“ naudoja užmaskuotą modeliavimą „Autoencoder“ sistemoje, kad sukurtų labiau struktūrizuotą latentinę erdvę, tuo pačiu užtikrinant didelę rekonstrukcijos ištikimybę. Tyrėjai suprojektavo „Maetok“, kad būtų galima panaudoti užmaskuotų autocoderių (MAE) principus, optimizuodami pusiausvyrą tarp kartos kokybės ir skaičiavimo efektyvumo.
„Maetok“ metodika apima autorinektoriaus mokymą su „Vision Transformer“ (VIT) pagrįsta architektūra, apimančia ir kodavimo įrenginį, ir dekoderį. Koderis gauna įvesties vaizdą, padalytą į pataisas, ir apdoroja juos kartu su mokomųjų latentinių žetonų rinkiniu. Treniruotės metu dalis įvesties žetonų yra atsitiktinai užmaskuota, verčianti modelį nustatyti trūkstamus duomenis iš likusių matomų regionų. Šis mechanizmas padidina modelio gebėjimą išmokti diskriminacinių ir semantiškai turtingų reprezentacijų. Be to, pagalbiniai seklūs dekoderiai prognozuoja užmaskuotas savybes, dar labiau patikslinant latentinės erdvės kokybę. Skirtingai nuo tradicinių VAES, „Maetok“ pašalina variacijos suvaržymų poreikį, supaprastina mokymą, tuo pačiu pagerindamas efektyvumą.
Siekiant įvertinti Maetoko efektyvumą, buvo atlikti išsamūs eksperimentiniai vertinimai. Šis modelis parodė moderniausius „ImageNet“ generavimo etalonų našumą ir žymiai sumažina skaičiavimo reikalavimus. Tiksliau, „Maetok“ buvo naudojamas tik 128 latentiniai žetonai kol pasiekia a Generacinis frechet pradinio pradžia (GFID) 1,69 už 512 × 512 skiriamoji geba. Treniruotės buvo 76 kartus greičiauir išvadų pralaidumas buvo 31 kartus aukštesnis nei įprasti metodai. Rezultatai parodė, kad latentinė erdvė su mažiau Gauso mišinio režimų sukėlė mažesnį difuzijos praradimą, todėl pagerėjo generatyvinis efektyvumas. Modelis buvo apmokytas SIT-XL su 675M parametrais ir aplenkė ankstesnius moderniausius modelius, įskaitant tuos, kurie buvo apmokyti su VAE.
Šis tyrimas pabrėžia latentinės erdvės struktūros svarbą efektyviai difuzijos modeliuose. Integruodami užmaskuotą modeliavimą, tyrėjai pasiekė optimalią pusiausvyrą tarp ištikimybės rekonstrukcijos ir reprezentacijos kokybės, parodydami, kad latentinės erdvės struktūra yra lemiamas generatyvinio našumo veiksnys. Rezultatai suteikia stiprų pagrindą tolesniam difuzijos pagrindu pagrįstos vaizdo sintezės pažangai, siūlančioms požiūrį, kuris padidina mastelio ir efektyvumą neprarandant išvesties kokybės.
Patikrinkite Popieriaus ir „GitHub“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Prisijunkite prie mūsų mašinų mokymosi bendruomenės „Twitter“/X
Nikhil yra „MarkTechPost“ stažuotės konsultantas. Jis siekia integruoto dvigubo laipsnio medžiagų Indijos technologijos institute, Kharagpur mieste. „Nikhil“ yra AI/ML entuziastas, kuris visada tiria programas tokiose srityse kaip biomedžiagos ir biomedicinos mokslas. Turėdamas tvirtą medžiagos mokslo patirtį, jis tyrinėja naujus pasiekimus ir sukuria galimybes prisidėti.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo