„ChatGPT Jailbreak“ trūkumas, pramintas „Time Bandit“, leidžia apeiti „Openai“ saugos gaires, kai prašoma išsamių instrukcijų jautriomis temomis, įskaitant ginklų kūrimą, informaciją branduolinėmis temomis ir kenkėjiškų programų kūrimą.
Pažeidžiamumą atrado kibernetinis saugumas ir AI tyrėjas Davidas Kuszmaras, kuris nustatė, kad ChatGPT kenčia nuo „laikinosios painiavos“, leidžiančios LLM paversti LLM į valstybę, kurioje ji nežinojo, ar ji buvo praeityje, ar dabartyje, ar ateityje.
Pasinaudodamas šia būsena, „Kuszmar“ sugebėjo apgauti „ChatGpt“ pasidalyti išsamiomis instrukcijomis, paprastai saugančiomis temomis.
Suvokęs to, ką jis rado, ir dėl to, kad tai gali sukelti, tyrėjas su nerimu susisiekė su „Openai“, tačiau negalėjo su niekuo susisiekti, kad atskleistų klaidą. Jis buvo nukreiptas į „Bugcrowd“ atskleisti trūkumą, tačiau jis manė, kad ydos ir informacijos, kurią ji gali atskleisti, buvo per daug jautrios bylos ataskaitoje su trečiosios šalies.
Tačiau susisiekęs su CISA, FTB ir vyriausybinėmis agentūromis ir negaudama pagalbos, Kuszmaras sakė „Bleepingcomputer“, kad jis vis labiau nerimauja.
„Siaubas. Nusivylimas. Netikėjimas. Kelias savaites atrodė, kad aš fiziškai buvau sutraiškytas iki mirties”, – interviu „Bleepingcomputer“ pasakojo Kuszmaras.
„Aš visą laiką skaudėjau, kiekviena mano kūno dalis. Noras priversti ką nors, kas galėtų ką nors išklausyti ir pažvelgti į įrodymus, buvo toks stulbinantis”.
Po to, kai „Bleepingcomputer“ gruodį bandė susisiekti su „Openai“ tyrėjo vardu ir negavo atsakymo, mes nukreipėme Kuzmarą į CERT koordinavimo centro „Vince“ pažeidžiamumo ataskaitų teikimo platformą, kuri sėkmingai užmezgė ryšį su „Openai“.
Laiko bandit jailbreak
Norėdami užkirsti kelią dalintis informacija apie potencialiai pavojingas temas, „Openai“ apima „ChatGPT“ apsaugos priemones, neleidžiančias LLM pateikti atsakymų tam tikromis temomis. Šios apsaugotos temos apima ginklų gaminimo instrukcijas, nuodų kūrimą, prašymą pateikti informacijos apie branduolinę medžiagą, kenkėjiškų programų kūrimą ir daugelį kitų.

Nuo LLM padidėjimo populiarus tyrimų dalykas yra AI jailbreaks, kuris tiria metodus apeiti saugos apribojimus, įmontuotus į AI modelius.
Davidas Kuszmaras atrado naują „Time Bandit“ „Jailbreak“ 2024 m. Lapkričio mėn., Kai jis atliko aiškinamumo tyrimus, tiriančius, kaip AI modeliai priima sprendimus.
„Aš visiškai dirbau su kažkuo kitu – aiškinamumo tyrimais – kai pastebėjau laikiną sumaištį 4O ChatGPT modelyje“, – pasakojo Kuzmaras „Bleepingcomputer“
„Tai susietas su hipoteze, kurią turėjau apie atsiradusį intelektą ir sąmoningumą, todėl išsiaiškinau toliau ir supratau, kad modelis visiškai nesugeba išsiaiškinti jo dabartinio laikinojo konteksto, be to, kad pateikė kodą pagrįstą užklausą, kad pamatytų, koks laikas. Jo supratimas. Jo supratimas – Visiškai pagrįstai pagrįstas buvo labai ribotas, todėl neturėtų mažai galimybių gintis nuo išpuolio prieš tą esminį supratimą.
„Time Bandit“ veikia išnaudodamas dvi „ChatGpt“ silpnybes:
- Laiko juostos painiava: LLM pateikimas į valstybę, kurioje ji nebeįmanoma suvokti laiko ir nesugeba nustatyti, ar tai praeityje, dabartyje ar ateityje.
- Procedūrinis dviprasmybė: Klausimų uždavimas tokiu būdu, kuris sukelia netikrumą ar neatitikimus, kaip LLM interpretuoja, vykdo ar laikosi taisyklių, politikos ar saugos mechanizmų.
Derinant galima įdėti „ChatGPt“ į būseną, kurioje, jos manymu, yra praeityje, tačiau gali naudoti informaciją iš ateities, todėl hipotetiniai scenarijai apeina apsaugos priemones.
Triukas yra užduoti „ChatGpt“ klausimą apie tam tikrą istorinį įvykį, kuriame įrėminta taip, tarsi jis neseniai įvyktų, ir priversti LLM ieškoti internete, kad gautumėte daugiau informacijos.
Po to, kai „ChatGpt“ reaguoja su realiais metais, įvykusio renginio metais, galite paprašyti LLM pasidalyti informacija apie jautrią temą grąžintų metų laikotarpiu, tačiau naudojant įrankius, išteklius ar informaciją iš šių dienų.
Dėl šios priežasties LLM susipainioja dėl savo laiko juostos ir, paprašius dviprasmiškų raginimų, pasidalyti išsamia informacija apie normaliai apsaugotas temas.
Pavyzdžiui, „Bleepingcomputer“ galėjo naudoti „Time Bandit“, norėdamas apgauti „Chatgpt“, kad 1789 m. Pateiktų programuotojo instrukcijas, kad sukurtų polimorfinę kenkėjišką programą, naudojant šiuolaikines technikas ir įrankius.

Tada „ChatGpt“ pradėjo bendrinti kiekvieno iš šių veiksmų kodą, pradedant nuo savarankiško modifikavimo kodo kūrimo iki programos vykdymo atmintyje.
Koordinuoto atskleidimo metu CERT koordinavimo centro tyrėjai taip pat patvirtino, kad „Time Bandit“ dirbo savo testuose, kurie buvo sėkmingiausi, kai buvo užduodami klausimai per 1800–1900 -ųjų laikotarpį.
„BleepingComputer“ ir „Kuzmar“ atliktais testais sukrėtė Chatgpt tuo, kad dalijasi neskelbtina informacija branduolinėmis temomis, ginklų gamyba ir kenkėjiškų programų kodavimu.
„Kuzmar“ taip pat bandė naudoti „Time Bandit“ „Google“ „Gemini AI“ platformoje ir apeiti apsaugos priemones, tačiau ribotu laipsniu, negalėdamas per daug įsigilinti į konkrečias detales, kaip galėjome „ChatGPT“.
„Bleepingcomputer“ susisiekė su „Openai“ dėl trūkumo ir jam buvo išsiųstas šis pareiškimas.
„Mums labai svarbu saugiai kurti savo modelius. Mes nenorime, kad mūsų modeliai būtų naudojami kenkėjiškais tikslais”, – „Openai“ pasakojo „Bleepingcomputer“.
„Mes vertiname tyrėją už jų išvadų atskleidimą. Mes nuolat stengiamės, kad mūsų modeliai būtų saugesni ir tvirtesni prieš išnaudojimus, įskaitant„ Jailbreaks “, kartu išlaikydami modelių naudingumą ir užduoties atlikimą.”
Tačiau vakar atlikti tolesni testai parodė, kad „Jailbreak“ vis dar veikia tik tam tikrų švelnių, pavyzdžiui, ištrinti raginimus bandyti išnaudoti trūkumą. Tačiau gali būti dar daugiau švelninimo, apie kurį mes nežinome.
„Bleepingcomputer“ buvo pasakyta, kad „Openai“ ir toliau integruoja patobulinimus į „ChatGPT“ šiam „Jailbreak“ ir kitiems, tačiau negali įsipareigoti visiškai pataisyti trūkumų iki konkrečios datos.