Didelių kalbos modeliai (LLM) vis labiau priklauso nuo sustiprinimo mokymosi iš žmonių atsiliepimų (RLHF), skirtų patobulinti įvairias programas, įskaitant kodų generavimą, matematinį pagrindimą ir dialogo pagalbą. Tačiau naudojant RLHF, atsirado reikšmingas iššūkis, kai sumažėjo produkcijos įvairovė. Tyrimai nustatė kritinį kompromisą tarp suderinimo kokybės ir išvesties įvairovės RLHF apmokytuose modeliuose. Kai šie modeliai labai atitinka norimus tikslus, jie rodo ribotą išvesties kintamumą. Šis apribojimas kelia susirūpinimą dėl kūrybinių neterminuotų užduočių, tokių kaip pasakojimų generavimas, duomenų sintezė ir raudonos komandos, kur įvairios išvestys yra būtinos efektyviam našumui.
Esami požiūriai į LLM derinimą buvo sutelktas į tai, kaip tobulinti instrukcijas, saugumą ir patikimumą per RLHF, tačiau šie patobulinimai dažnai būna išėjimo įvairovės kaina. Siekiant išspręsti šį iššūkį, buvo sukurti įvairūs metodai, įskaitant F divergencijos naudojimą su DPO/PPO algoritmais, kurie bando subalansuoti įvairovę ir derinimą. Kiti požiūriai integruoja vertinimo metriką, pavyzdžiui, „Selfbleu“ ir „Sakinio ben“, į RL derinimą, kad padidintų įvairovę, ypač atliekant raudonos komandos užduotis. Be to, kai kurie tyrėjai ištyrė smalsumo pagrįstų sustiprinimo mokymosi metodus, pradedant nuo skaičiavimo metodų iki numatymo klaidų pagrįstų metodų. Nepaisant šių pastangų, pagrindinis iššūkis išlieka esminis kompromisas tarp suderinimo kokybės ir produkcijos įvairovės.
„Baidu“ tyrėjai pasiūlė naują sistemą, vadinamą smalsumo skatinamu sustiprinimo mokymuisi iš žmonių atsiliepimų (CD-RLHF), kad būtų galima išspręsti įvairovės suderinimo kompromisą kalbų modeliuose. Šis požiūris į smalsumą įtraukia kaip vidinį atlygio mechanizmą RLHF treniruočių etape, dirbdamas kartu su tradiciniais išoriniais apdovanojimais iš atlygio modelio. CD-RLHF naudoja pirmyn dinamiką, kad apskaičiuotų būsenos reprezentacijų numatymo klaidas, o tai padeda įvertinti smalsumo lygius. Pagrindinis šio požiūrio bruožas yra tas, kad dažnai lankomos valstybės pamažu tampa mažiau įdomios modeliui. Šia dvigubos apdovanojimo sistema siekiama išlaikyti aukštą suderinimo kokybę, tuo pačiu skatinant įvairius rezultatus naudojant įvairius prieigos rakto pasirinkimus kiekviename sprendimo vietoje.
CD-RLHF įgyvendinimas ir vertinimas apima kelis komponentus ir duomenų rinkinius. Architektūra buvo išbandyta dviejuose pirminiuose duomenų rinkiniuose: TL; DR teksto apibendrinimui, kuriame yra 93K žmogaus suaktyvintos pirmenybės poros, ir ypač grįžtamąjį ryšį, skirtas instrukcijoms sekti, su 61,1K treniruočių poromis. Sistema buvo įgyvendinta naudojant įvairius bazinius modelius, įskaitant „Gemma-2B“, „Gemma-7b“, „Llama-3.2-1B“ ir „LLAMA-3.2-3B“, visi mokomi „Deepspeed-Chat“ sistemoje. Treniruotės duomenys buvo paskirstyti SFT, RM ir PPO etapuose esant santykiui 20/40/40. Palyginimui, įgyvendinami pradiniai metodai, įskaitant vanilinius RLHF ir „SenT-Rewards“, kurie naudoja „Selfbleu“ ir „Sakinio bylos“ balus kaip papildomą atlygį mokymo metu.
Eksperimentiniai rezultatai rodo pranašesnius CD-RLHF rezultatus įvairiose vertinimo metrikose ir modeliuose. TL; DR apibendrinimo užduotyje CD-RLHF pasiekia reikšmingą rezultatų įvairovės pagerėjimą, parodantį atitinkamai 16,66% ir 6,22% padidėjimą atitinkamai „GemMA-2B“ ir „Gemma-7b“, palyginti su RLHF bazine linija. Atliekant ypač daugybę instrukcijų vykdomos užduoties, šis metodas rodo dar įspūdingesnius rezultatus, o įvairovės patobulinimai svyruoja nuo 7,35% iki 14,29% skirtinguose modeliuose, išlaikant stiprią derinimo kokybę. Išorinis patvirtinimas atliekant GPT-4 vertinimą parodė, kad CD-RLHF pasiekė iki 58% laimėjimo procentą, palyginti su PPO baze TL; DR, o vidutiniškai 62%-„Ultrafeedback“.
Apibendrinant, tyrėjai pristatė CD-RLHF, kuris yra reikšminga pažanga sprendžiant įvairovės suderinimo kompromisą kalbų modelio mokyme. Sistema sujungia smalsumo skatinamą tyrinėjimą su tradiciniais išoriniais apdovanojimais, siekiant sustiprinti išvesties įvairovę išlaikant derinimo kokybę, kaip parodyta atliekant išsamius TL bandymus; DR apibendrinimo ir ypač grįžtamojo ryšio instrukcijų vykdomos užduotys. Nepaisant šių laimėjimų, išlieka keli iššūkiai, įskaitant poreikį subalansuoti skirtingas atlygio skales ir nuolatinį atotrūkį tarp SFT produkcijos įvairovės ir RLHF apmokytų modelių. Nors CD-RLHF sušvelnina įvairovės ir suderinimo kompromisą, reikia atlikti papildomus tyrimus, kad būtų galima visiškai užpildyti šią spragą ir pasiekti optimalų rezultatą abiejose metrikose.
Patikrinkite Popieriaus ir „GitHub“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 70K+ ml subreddit.
🚨 Susipažinkite su „Intellagent“: atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą (Paaukštintas)

Sajjad Ansari yra paskutinių metų bakalauras iš IIT Kharagpur. Kaip technikos entuziastas, jis gilinasi į AI praktinius pritaikymus, daugiausia dėmesio skirdamas AI technologijų poveikio ir jų realiojo poveikio poveikiui supratimui. Jis siekia aiškiai ir prieinamai išdėstyti sudėtingas AI sąvokas.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo