Didelių kalbos modeliai (LLM) tapo neatsiejama įvairių programų dalimi, tačiau jie vis dar yra pažeidžiami išnaudojimo. Pagrindinis susirūpinimas yra universalių jailbreaks atsiradimas – priėmimo metodai, kurie apeina apsaugos priemones, leidžiančias vartotojams pasiekti ribotą informaciją. Šie išnaudojimai gali būti naudojami siekiant palengvinti kenksmingą veiklą, tokią kaip nelegalių medžiagų sintezavimas ar kibernetinio saugumo priemonių vengimas. AI galimybės padidėja, taip pat ir metodai, naudojami jais manipuliuoti, pabrėždami patikimų apsaugos priemonių poreikį, subalansuotą saugumą su praktiniu patogumu.
Norėdami sušvelninti šią riziką, antropiniai tyrėjai įveda Konstituciniai klasifikatoriaistruktūrizuota sistema, skirta pagerinti LLM saugumą. Šie klasifikatoriai yra mokomi naudojant sintetinius duomenis, sugeneruotus pagal aiškiai apibrėžtus konstitucinius principus. Apibūdindamas riboto ir leistino turinio kategorijas, šis požiūris suteikia lankstų mechanizmą, kaip prisitaikyti kintančioms grėsmėms.
Konstituciniai klasifikatoriai, užuot pasikliavę statiniais taisyklėmis pagrįstais filtrais ar žmogaus moderavimu, laikosi labiau struktūrizuoto požiūrio, įterpdami etinius ir saugos aspektus tiesiai į sistemą. Tai leidžia nuoseklesniam ir keičiamam filtravimui nepakenkiant patogumui.
Kaip tai veikia ir jo nauda
„Anthropic“ požiūris sutelktas į tris pagrindinius aspektus:
- Tvirtumas prieš „Jailbreaks“: Klasifikatoriai yra mokomi sintetinių duomenų, atspindinčių konstitucines taisykles, gerinant jų sugebėjimą nustatyti ir blokuoti kenksmingą turinį.
- Praktinis diegimas: Sistema pristato valdomą 23,7% išvadą, užtikrinančią, kad ji išliks įmanoma naudoti realiame pasaulyje.
- Pritaikomumas: Kadangi Konstituciją galima atnaujinti, sistema ir toliau reaguoja į kylančius saugumo iššūkius.
Klasifikatoriai veikia tiek įvesties, tiek išvesties etapuose. įvesties klasifikatorius ekranai ragina užkirsti kelią kenksmingoms užklausoms pasiekti modelį, o išvesties klasifikatorius Įvertina atsakymus, kai jie yra generuojami, prireikus leidžiant įsikišti realiuoju laiku. Šis prieigos rakto įvertinimas padeda išlaikyti pusiausvyrą tarp saugos ir vartotojo patirties.

Išvados ir stebėjimai
Antropikas atliko išsamius bandymus, susijusius su Daugiau nei 3000 valandų raudonos komandos su 405 dalyviais, įskaitant saugumo tyrinėtojus ir AI specialistus. Rezultatai pabrėžia konstitucinių klasifikatorių veiksmingumą:
- Ne Universalus jailbreak buvo atrasta, kuri galėtų nuosekliai apeiti apsaugos priemones.
- Sistema sėkmingai užblokavo 95% bandymų „jailbreak“reikšmingas pagerėjimas, palyginti su 14% atsisakymo greičiu, pastebėtu neapsaugotuose modeliuose.
- Klasifikatoriai pristatė tik a 0,38% atsisakymo padidėjimas Atlikus realaus pasaulio naudojimą, tai rodo, kad nereikalingi apribojimai išlieka minimalūs.
- Dauguma puolimo bandymų buvo sutelkti Subtilus perrašymas ir reagavimo ilgio išnaudojimoužuot radę tikrus sistemos pažeidžiamumus.
Nors jokia saugumo priemonė nėra visiškai neklystanti, šie duomenys rodo, kad konstituciniai klasifikatoriai siūlo reikšmingą pagerėjimą mažinant riziką, susijusią su universaliais kalėjimais.

Išvada
„Anthropic“ konstituciniai klasifikatoriai yra pragmatiškas žingsnis siekiant sustiprinti AI saugumą. Struktūrizuojant apsaugos priemones, susijusias su aiškiais konstituciniais principais, šis požiūris yra lankstus ir keičiamas būdas valdyti saugumo riziką, nepagrįstai ribojant teisėtu naudojimu. Toliau vystosi prieštaringos technikos, norint išlaikyti šių gynybos veiksmingumą, reikės nuolatinio tobulinimo. Nepaisant to, ši sistema parodo, kad gerai suplanuotas, adaptyvus saugos mechanizmas gali žymiai sušvelninti riziką, tuo pačiu išsaugant praktines funkcijas.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 „MarkTechPost“ kviečia AI įmones/pradedančiuosius/grupes, kad jie galėtų partnerį už savo būsimus AI žurnalus „Atvirojo kodo AI gamyboje“ ir „Agentic AI“.

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giliųjų mokymosi naujienų aprašymu, paleidimas, kuris yra techniškai pagrįstas ir lengvai suprantamas plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų „Telegram“ kanalo