Nepaisant naujausių pasiekimų, generatyviniai vaizdo modeliai vis dar stengiasi realiai reprezentuoti judesį. Daugelyje esamų modelių daugiausia dėmesio skiriama taškų lygio rekonstrukcijai, dažnai sukeliantiems judesio suderinamumą. Šie trūkumai pasireiškia kaip nerealioji fizika, trūkstami rėmai ar sudėtingų judesių sekų iškraipymai. Pvz., Modeliai gali kovoti su sukimosi judesių vaizdavimu ar dinaminiais veiksmais, tokiais kaip gimnastika ir objektų sąveika. Šių problemų sprendimas yra būtinas norint pagerinti AI sukurtų vaizdo įrašų realizmą, ypač kai jų programos plečiasi į kūrybines ir profesionalias sritis.
Meta AI dovanos „VideoJam“sistema, skirta pristatyti stipresnį judesio vaizdą vaizdo įrašų generavimo modeliuose. Skatinant a Bendras išvaizdos judesio vaizdas„VideoJam“ pagerina sugeneruoto judesio nuoseklumą. Skirtingai nuo įprastų metodų, kurie judesį traktuoja kaip antrinį aspektą, „VideoJam“ jį tiesiogiai integruoja tiek į mokymo, tiek išvadų procesus. Ši sistema gali būti įtraukta į esamus modelius su minimaliomis modifikacijomis, siūlančiomis efektyvų būdą pagerinti judesio kokybę nepakeisdamas mokymo duomenų.
Techninis požiūris ir nauda
„VideoJam“ sudaro du pirminiai komponentai:
- Mokymo etapas: Įvesties vaizdo įrašas (x1) ir jo atitinkamas judesio vaizdas (D1) abu yra triukšmo ir įterpti į a Vieno sąnario latentinis vaizdas Naudojant linijinį sluoksnį (Laimėk+). Tada difuzijos modelis apdoroja šį vaizdą, o du linijiniai projekcijos sluoksniai numato iš jo išvaizdos ir judesio komponentus (Wout+). Šis struktūruotas metodas padeda subalansuoti išvaizdą ištikimybę su judesio darna, mažinant ankstesnius modelius nustatytą bendrą kompromisą.
- Išvadų fazė (vidinio sukimosi mechanizmas): Išvados metu „VideoJam“ pristato Vidinis sukrėtimaskur modelis naudoja savo besikeičiančias judesių prognozes, kad būtų galima generuoti vaizdo įrašus. Skirtingai nuo įprastų metodų, kurie remiasi fiksuotais išoriniais signalais, vidinis sukrėtimas leidžia modeliui dinamiškai pakoreguoti jo judesio vaizdą, todėl atsiranda lygesni ir natūralesni perėjimai tarp kadrų.
Įžvalgos
„VideoJam“ įvertinimai rodo pastebimus judesio suderinamumo patobulinimus įvairių tipų vaizdo įrašuose. Pagrindinės išvados yra:
- Patobulintas judesio vaizdas: Palyginti su tokiais nustatytais modeliais kaip Sora ir Kling, „VideoJam“ sumažina artefaktus, tokius kaip rėmo iškraipymai ir nenatūralūs objektų deformacijos.
- Patobulintas judesio ištikimybė: „VideoJam“ nuosekliai pasiekia didesnius judesio darnos balus tiek automatizuotuose, tiek žmonių vertinimuose.
- Universalumas tarp modelių: Sistema efektyviai integruoja su įvairiais iš anksto apmokytais vaizdo modeliais, parodydama jo pritaikomumą nereikalaujant didelio perkvalifikavimo.
- Efektyvus įgyvendinimas: „VideoJam“ padidina vaizdo kokybę tik naudojant du papildomi linijiniai sluoksniaitai yra lengvas ir praktiškas sprendimas.

Išvada
„VideoJam“ pateikia struktūrizuotą metodą, kaip pagerinti judesio darną AI sukurtuose vaizdo įrašuose, integruojant judesį kaip pagrindinį komponentą, o ne į poskyrią. Pasinaudojant a Bendras išvaizdos judesio vaizdas ir Vidinio sukilimo mechanizmassistema leidžia modeliams generuoti vaizdo įrašus, turinčius didesnį laiko nuoseklumą ir realizmą. Reikalingas minimalias architektūrines modifikacijas, „VideoJam“ siūlo praktines priemones, leidžiančias patikslinti judesio kokybę generuojamuose vaizdo modeliuose, todėl jie yra patikimesni įvairioms programoms.
Patikrinkite Popieriaus ir projekto puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 „MarkTechPost“ kviečia AI įmones/pradedančiuosius/grupes, kad jie galėtų partnerį už savo būsimus AI žurnalus „Atvirojo kodo AI gamyboje“ ir „Agentic AI“.

Aswinas AK yra „MarktechPost“ konsultavimo praktikantas. Jis siekia dvigubo laipsnio Indijos technologijos institute Kharagpur. Jis aistringai vertina duomenų mokslą ir mašininį mokymąsi, sukelia stiprią akademinę patirtį ir praktinę patirtį sprendžiant realaus gyvenimo įvairių sričių iššūkius.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo