Multimodaliniai didelių kalbos modeliai (MLLM) sulaukė didelio dėmesio už jų sugebėjimą tvarkyti sudėtingas užduotis, apimančias regėjimą, kalbą ir garso integraciją. Tačiau jiems trūksta išsamaus derinimo už pagrindinio prižiūrimo tobulinimo (SFT). Dabartiniai moderniausi modeliai dažnai apeina griežtus suderinimo etapus, paliekant esminius aspektus, tokius kaip teisingumas, saugumas ir žmogaus pirmenybės suderinimas, netinkamai nagrinėjami. Esami metodai nukreipiami tik į konkrečias sritis, tokias kaip haliucinacijos mažinimas ar pokalbio patobulinimai, nesiekiama sustiprinti bendrą modelio našumą ir patikimumą. Šis siauras dėmesys kelia klausimus, ar žmogaus pirmenybės suderinimas gali pagerinti MLLM per platesnį užduočių spektrą.
Pastaraisiais metais buvo padaryta didelė MLLM pažanga, sukurta pagal pažangias LLM architektūras, tokias kaip GPTS, LLAMA, Alpaca, Vicuna ir Mistral. Šie modeliai vystėsi pasitelkiant mokymo metodus nuo galo iki galo, spręsdami sudėtingas multimodalines užduotis, apimančias vaizdo teksto derinimą, samprotavimus ir vadovaujant instrukcijoms. Siekdami išspręsti pagrindinius daugialypius daugialypius iššūkius, atsirado keli atviro kodo MLLM, įskaitant „Otter“, „Mplug-Owl“, „Llava“, „Qwen-VL“ ir „Vita“. Tačiau suderinimo pastangos išliko ribotos. Nors tokie algoritmai kaip „Fact-RLHF“ ir „Llavacritic“ parodė pažadą sumažinti haliucinacijas ir pagerinti pokalbio sugebėjimus, jie nepagerino bendrųjų galimybių. Šiems modeliams įvertinti buvo sukurti tokios vertinimo sistemos kaip MME, MMBECCH ir SEED-BENCH.
Tyrėjai iš Kuaishou, Casia, NJU, USTC, PKU, Alibaba ir Meta AI pasiūlė MM-RLHF-novatorišką požiūrį, kuriame pateikiamas išsamus 120K dailios, žmogaus ananzotizuotų pirmenybės palyginimo porų duomenų rinkinys. Šis duomenų rinkinys yra reikšminga pažanga pagal dydį, įvairovę ir anotacijos kokybę, palyginti su esamais ištekliais. Šis metodas pristato dvi pagrindines naujoves: kritiką pagrįstą apdovanojimo modelį, kuris sukuria išsamią kritiką prieš įvertinant rezultatus, ir dinaminio atlygio mastelį, kuris optimizuoja pavyzdžių svorius pagal atlygio signalus. Tai padidina tiek modelio sprendimų aiškinamumą, tiek suderinimo proceso efektyvumą, atsižvelgdama į tradicinių skaliarinio atlygio mechanizmų apribojimus multimodaliniuose kontekstuose.
MM-RLHF įgyvendinimas apima sudėtingą duomenų paruošimo ir filtravimo procesą trijose pagrindinėse srityse: vaizdo supratimas, vaizdo supratimas ir multimodalinė sauga. Vaizdo supratimo komponentas integruoja duomenis iš kelių šaltinių, įskaitant „Llava-AV“, „VLFeedback“ ir „Llava-RLHF“, o kelių posūkių dialogai paversti vieno posūkio formatu. Šis rinkinys lemia daugiau nei 10 milijonų dialogo pavyzdžių, apimančių įvairias užduotis – nuo pagrindinio pokalbio iki sudėtingų samprotavimų. Duomenų filtravimo procese naudojami iš anksto nustatyti atrankos svoriai, suskirstyti į tris tipus: klausimų su atsakymų variantais klausimai, siekiant patikrinti samprotavimus ir suvokimą, ilgalaikio teksto klausimus, siekiant įvertinti pokalbio sugebėjimus, ir trumpo teksto klausimai pagrindinei vaizdo analizei.
Įvertinus MM-RLHF ir MM-DPO, rodo reikšmingus daugelio matmenų patobulinimus, kai jie naudojami tokiems modeliams kaip LLAVA-AV-7B, LLAVA-AV-0.5B ir InternVL-1B. Pokalbio gebėjimai pagerėjo daugiau nei 10%, o nesaugus elgesys sumažėjo bent 50%. Suderintos modeliai rodo geresnius haliucinacijos mažinimo, matematinių samprotavimų ir daugialypio vaizdo supratimo rezultatus, net ir neturint konkrečių mokymo duomenų apie kai kurias užduotis. Tačiau pastebimi konkrečiai modeliams skirtumai, kai skirtingiems modeliams reikia atskirų hiperparametro parametrų, kad būtų galima optimaliai našumui. Taip pat didelės skiriamosios gebos užduotys rodo ribotą pelną dėl duomenų rinkinio apribojimų ir filtravimo strategijų, kurios nėra nukreiptos į skiriamąją gebos optimizavimą.
Šiame darbe tyrėjai pristatė MM-RLHF, duomenų rinkinio ir derinimo metodą, kuris rodo reikšmingą MLLM plėtros pažangą. Skirtingai nuo ankstesnių užduoties būdų, šis metodas naudojasi holistiniu metodu, siekiant pagerinti modelio našumą keliose dimensijose. Turtingas duomenų rinkinio anotacijos detalumas, įskaitant dimensijų balus ir reitingų racionus, suteikia neišnaudotą potencialą ateityje plėtoti. Būsimose tyrimų kryptyse sutelks dėmesį į šio detalumo panaudojimą naudojant išplėstinius optimizavimo metodus, spręsti didelės skiriamosios gebos duomenų apribojimus ir išplėsti duomenų rinkinį naudojant pusiau automatinius metodus, potencialiai sukurti tvirtesnių multimodalinių mokymosi sistemų pagrindą.
Patikrinkite Popieriaus ir projekto puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama „Read-LG AI Research“ išleidžia „Nexus“: pažangių sistemos integracinių agentų AI sistemos ir duomenų atitikties standartų, skirtų teisiniams klausimams spręsti AI duomenų rinkiniuose

Sajjad Ansari yra paskutinių metų bakalauras iš IIT Kharagpur. Kaip technikos entuziastas, jis gilinasi į AI praktinius pritaikymus, daugiausia dėmesio skirdamas AI technologijų poveikio ir jų realiojo poveikio poveikiui supratimui. Jis siekia aiškiai ir prieinamai išdėstyti sudėtingas AI sąvokas.
