Skaitmeniniame amžiuje duomenų privatumas kelia didžiausią susirūpinimą, o tokiais reglamentais kaip Bendrasis duomenų apsaugos reglamentas (BDAR) siekiama apsaugoti asmenų asmens duomenis. Tačiau didelių kalbų modelių (LLM), pvz., GPT-4, BERT ir jų giminaičių, atsiradimas kelia didelių sunkumų įgyvendinant BDAR. Šie modeliai, kurie generuoja tekstą, numatydami kitą žetoną, pagrįstą daugybės mokymo duomenų modeliais, iš esmės apsunkina reguliavimo aplinką. Štai kodėl praktiškai neįmanoma įgyvendinti BDAR LLM.
LLM prigimtis ir duomenų saugykla
Norint suprasti vykdymo dilemą, būtina suprasti, kaip veikia LLM. Skirtingai nuo tradicinių duomenų bazių, kuriose duomenys saugomi struktūrizuotu būdu, LLM veikia skirtingai. Jie mokomi naudoti didžiulius duomenų rinkinius ir per šį mokymą koreguoja milijonus ar net milijardus parametrų (svorių ir paklaidų). Šie parametrai fiksuoja sudėtingus modelius ir žinias iš duomenų, bet nesaugo pačių duomenų atkuriama forma.
Kai LLM generuoja tekstą, ji nepasiekia saugomų frazių ar sakinių duomenų bazės. Vietoj to, jis naudoja išmoktus parametrus, kad nuspėtų labiausiai tikėtiną kitą sekos žodį. Šis procesas panašus į tai, kaip žmogus gali kurti tekstą, remdamasis išmoktais kalbos modeliais, o ne prisimindamas tikslias frazes iš atminties.
Teisė būti pamirštam
Viena iš kertinių teisių pagal BDAR yra „teisė būti pamirštam“, leidžianti asmenims prašyti ištrinti savo asmens duomenis. Tradicinėse duomenų saugojimo sistemose tai reiškia, kad reikia rasti ir ištrinti konkrečius duomenų įrašus. Tačiau naudojant LLM praktiškai neįmanoma nustatyti ir pašalinti konkrečių asmeninių duomenų, įterptų į modelio parametrus. Duomenys nėra saugomi aiškiai, o išsklaidyti per daugybę parametrų taip, kad jų negalima būtų atskirai pasiekti ar pakeisti.
Duomenų ištrynimas ir modelio perkvalifikavimas
Net jei teoriškai būtų įmanoma nustatyti konkrečius duomenų taškus LLM, juos ištrinti būtų dar vienas didžiulis iššūkis. Norint pašalinti duomenis iš LLM, reikėtų perkvalifikuoti modelį, o tai yra brangus ir daug laiko reikalaujantis procesas. Permokant nuo nulio, kad būtų neįtraukti tam tikri duomenys, reikės tų pačių didelių iš pradžių panaudotų išteklių, įskaitant skaičiavimo galią ir laiką, todėl tai būtų nepraktiška.
Anonimizavimas ir duomenų sumažinimas
GDPR taip pat pabrėžia duomenų anonimiškumą ir sumažinimą. Nors LLM gali būti mokomi naudoti anoniminius duomenis, sunku užtikrinti visišką anonimiškumą. Anonimizuoti duomenys kartais vis tiek gali atskleisti asmeninę informaciją, kai jie derinami su kitais duomenimis, todėl gali būti pakartotinai identifikuojami. Be to, LLM reikia daug duomenų, kad jie veiktų efektyviai, o tai prieštarauja duomenų mažinimo principui.
Skaidrumo ir paaiškinamumo trūkumas
Kitas GDPR reikalavimas – galimybė paaiškinti, kaip naudojami asmens duomenys ir priimami sprendimai. Tačiau LLM dažnai vadinamos „juodosiomis dėžėmis“, nes jų sprendimų priėmimo procesai nėra skaidrūs. Norint suprasti, kodėl modelis sukūrė tam tikrą teksto dalį, reikia iššifruoti sudėtingą daugelio parametrų sąveiką, o tai yra užduotis, viršijanti dabartines technines galimybes. Šis paaiškinimo trūkumas trukdo laikytis BDAR skaidrumo reikalavimų.
Judėjimas į priekį: reguliavimo ir techniniai pritaikymai
Atsižvelgiant į šiuos iššūkius, norint įgyvendinti BDAR LLM, reikia ir reguliavimo, ir techninių pritaikymų. Reguliavimo institucijos turi parengti gaires, kuriose būtų atsižvelgta į unikalų LLM pobūdį, daugiausia dėmesio skiriant etiškam AI naudojimui ir patikimų duomenų apsaugos priemonių įgyvendinimui modelio mokymo ir diegimo metu.
Technologiškai modelio aiškinimo ir valdymo pažanga galėtų padėti laikytis reikalavimų. Metodai, skirti LLM skaidresniems, ir metodai, skirti stebėti duomenų kilmę modeliuose, yra nuolatinių tyrimų sritys. Be to, diferencijuotas privatumas, užtikrinantis, kad vieno duomenų taško pašalinimas arba pridėjimas neturėtų reikšmingos įtakos modelio išvesties rezultatams, galėtų būti žingsnis link LLM praktikos suderinimo su GDPR principais.