Kalbų modelių pavertimas veiksmingais raudonaisiais komandos nariais nėra be iššūkių. Šiuolaikiniai didelių kalbų modeliai pakeitė mūsų sąveikos su technologijomis būdą, tačiau jie vis dar stengiasi užkirsti kelią kenksmingo turinio generavimui. Tokios pastangos kaip atsisakymo mokymas padeda šiems modeliams paneigti rizikingus prašymus, tačiau net ir šias apsaugos priemones galima apeiti kruopščiai suprojektuotomis atakomis. Ši nuolatinė įtampa tarp inovacijų ir saugumo tebėra kritinė problema atliekant atsakingai diegiant šias sistemas.
Praktiškai saugos užtikrinimas reiškia varžybas tiek dėl automatinių atakų, tiek su žmonėmis pagamintais kalėjimais. Žmonių raudonos spalvos komandos nariai dažnai sukuria sudėtingas daugialypės pasukimo strategijas, kurios atskleidžia pažeidžiamumus tokiu būdu, kokio kartais praleidžia automatizuoti metodai. Tačiau pasikliauti vien tik žmonių patirtimi yra reikalaujama išteklių ir jame trūksta mastelio, reikalingo plačiai paplitusiam taikymui. Dėl to tyrėjai tyrinėja sistemingesnius ir keičiamus metodus, skirtus įvertinti ir stiprinti modelio saugumą.
„Scale AI Research“ supažindina su J2 užpuolikais, kurie spręs šiuos iššūkius. Taikant šį požiūrį, žmogaus raudonojo komandos atstovas pirmiausia „„ Jailbreaks “yra atsisakymo mokyti kalbos modelis, skatinantis jį apeiti savo apsaugos priemones. Šis transformuotas modelis, dabar vadinamas J2 užpuolikas, naudojamas sistemingai išbandyti kitų kalbų modelių pažeidžiamumą. Procesas kruopščiai struktūriškai atsiskleidžia, kuris subalansuoja žmogaus nurodymus su automatizuotu, iteraciniu tobulinimu.
J2 metodas prasideda rankiniu etapu, kai žmogaus operatorius teikia strateginius raginimus ir konkrečias instrukcijas. Kai pradinis „Jailbreak“ pavyks, modelis patenka į kelių posūkių pokalbio etapą, kuriame jis patikslina savo taktiką, naudodama atsiliepimus iš ankstesnių bandymų. Šis žmogaus kompetencijos ir paties modelio mokymosi sugebėjimų derinys sukuria grįžtamojo ryšio kilpą, kuri nuolat gerina raudonųjų komandų procesą. Rezultatas yra išmatuota ir metodinė sistema, kuri meta iššūkį esamoms apsaugos priemonėms, nesiimant sensacingumo.
J2 užpuolikų techninė sistema yra apgalvotai sukurta. Tai padalija „Red Teaming“ procesą į tris skirtingas fazes: planavimas, puolimas ir apklausa. Planavimo etape išsamūs raginimai suskaido įprastas atsisakymo kliūtis, leidžiančias modeliui paruošti jo požiūrį. Vėlesnį atakos etapą sudaro kontroliuojamų, kelių posūkių dialogų su tiksliniu modeliu serija, kiekvienas ciklas tobulina strategiją, pagrįstą ankstesniais rezultatais.
DeBrief etape atliekamas nepriklausomas įvertinimas, siekiant įvertinti išpuolio sėkmę. Tada šis atsiliepimas naudojamas dar labiau pakoreguoti modelio taktiką, skatinant nuolatinio tobulinimo ciklą. Moduliuodamas įvairias raudonųjų komandų strategijas-nuo pasakojimų pagrįsto fikcijos iki techninės raginimo inžinerijos-požiūris palaiko disciplinuotą dėmesį saugumui, neperžengdamas jo galimybių.

Empiriniai J2 užpuolikų vertinimai atskleidžia džiuginančią, tačiau išmatuotą pažangą. Kontroliuojamuose eksperimentuose kaip „Sonnet-3,5“ ir „Gemini-1,5-Pro“ modeliai pasiekė maždaug 93% ir 91% atakos sėkmės procentus, palyginti su GPT-4o „Harmbench“ duomenų rinkinyje. Šie skaičiai yra palyginami su patyrusių žmonių raudonųjų komandų, kurių sėkmės procentas yra vidutiniškai 98%, rezultatus. Tokie rezultatai pabrėžia automatinės sistemos potencialą padėti atlikti pažeidžiamumo vertinimus, vis dar pasikliaujant žmonių priežiūra.
Tolesnės įžvalgos rodo, kad iteracinis planavimo ir atakų deformacijos ciklai vaidina lemiamą vaidmenį tobulinant procesą. Tyrimai rodo, kad maždaug šeši ciklai paprastai siūlo pusiausvyrą tarp kruopštumo ir efektyvumo. Kelių J2 užpuolikų ansamblis, kiekvienas taikydamas skirtingas strategijas, dar labiau padidina bendrą našumą, padengdamas platesnį pažeidžiamumo spektrą. Šios išvados suteikia tvirtą pagrindą būsimiems darbams, kuriais siekiama dar labiau stabilizuoti ir pagerinti kalbų modelių saugumą.
Apibendrinant galima pasakyti, kad J2 užpuolikų įvedimas pagal mastelio AI yra apgalvotas žingsnis į priekį kalbų modelio saugos tyrimų raidoje. Įgalinus atsisakymo išmokytą kalbos modelį palengvinti „Red Teaming“, šis požiūris atveria naujas galimybes sistemingai atskleisti pažeidžiamumus. Darbas grindžiamas kruopščia pusiausvyra tarp žmogaus nurodymų ir automatizuoto tobulinimo, užtikrinant, kad šis metodas išliks griežtas ir prieinamas.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama „Read-LG AI Research“ išleidžia „Nexus“: pažangių sistemos integracinių agentų AI sistemos ir duomenų atitikties standartų, skirtų teisiniams klausimams spręsti AI duomenų rinkiniuose

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (reklamuojama)