„Microsoft Research“ pristato duomenų formulatorių: AI programą, kuri panaudoja LLM, norėdama transformuoti duomenis ir sukurti turtingas vizualizacijas

Dauguma šiuolaikinių vizualizacijos autorių įrankių, tokių kaip „Charticulator“, „Data Illustrator“ ir „Lyra“, ir bibliotekos, tokios kaip GGPLOT2, ir „Vegalite“ tikisi tvarkingų duomenų, kai kiekvienas kintamasis bus vizualizuotas, yra stulpelis, o kiekvienas pastebėjimas yra eilutė. Kai įvesties duomenys yra tvarkingai, autoriams tiesiog reikia surišti duomenų stulpelius į vaizdinius kanalus, kitaip jiems reikia paruošti duomenis, net jei pirminiai duomenys yra švarūs ir juose yra visa informacija. Be to, vartotojai turi pakeisti savo duomenis naudodamiesi specializuotomis bibliotekomis, tokiomis kaip „Tidyverse“ ar „Pandas“, arba atskiras įrankius, tokius kaip „Wrangler“, kad galėtų sukurti vizualizacijas. Šis reikalavimas kelia du pagrindinius iššūkius – poreikį programuoti kompetenciją ar specializuotas įrankių žinias ir neefektyvų darbo eigą, nuolat keičiant duomenų pertvarkymą ir vizualizacijos žingsnius.

Atsirado įvairių požiūrių, siekiant supaprastinti vizualizacijos kūrimą, pradedant nuo grafikos koncepcijų, kurios sukūrė pagrindą duomenų žemėlapių sudarymo vaizdams elementams, pagrindą. Aukšto lygio gramatikos pagrindu sukurtos priemonės, tokios kaip „GGPLOT2“, „Vega-Lite“ ir „Altair“, išpopuliarėjo dėl savo glaustos sintaksės ir sudėtingos detalių abstrakcijos. Pažangiausi metodai apima vizualizaciją pagal demonstracinius įrankius, tokius kaip „Lyra 2“ ir „VBD“, kurie vartotojams leidžia nurodyti vizualizacijas tiesiogiai manipuliuodami. Natūralios kalbos sąsajos, tokios kaip NCNET ir VisqA, taip pat buvo sukurtos, kad vizualizacijos kūrimas būtų intuityvesnis. Tačiau šiems sprendimams reikalingas tvarkingas duomenų įvestis arba įvesti naują sudėtingumą, daugiausia dėmesio skiriant žemo lygio specifikacijoms, panašioms į „Falx“.

„Microsoft Research“ komanda pasiūlė „Data Formulator“ – novatorišką vizualizacijos autorizacijos įrankį, sukurtą aplink naują paradigmą, vadinamą „Concept Binding“. Tai leidžia vartotojams išreikšti savo vizualizacijos ketinimus, įpareigojant duomenų koncepcijas vaizdiniais kanalais, kai duomenų koncepcijos gali būti pateikiamos iš esamų stulpelių arba sukurtos pagal pareikalavimą. Įrankis palaiko du naujų sąvokų kūrimo metodus: natūralios kalbos raginimai duomenų išvedimui ir pavyzdžiams pagrįstai įvesties duomenų keitimui. Kai vartotojai pasirenka diagramos tipą ir susieja norimas sąvokas, „Data Formulator“ AI užpakalinė dalis nustato būtinus duomenų transformacijas ir sukuria kandidatų vizualizacijas. Sistema pateikia aiškinamąjį atsiliepimą apie kelis kandidatus, leidžiančius vartotojams patikrinti, patobulinti ir pakartoti jų vizualizacijas per intuityvią sąsają.

Duomenų formuluotės architektūra yra sukurta aplink pagrindinę duomenų koncepcijų kaip pirmos klasės objektų, kurie tarnauja kaip esamų ir potencialių ateities lentelės stulpelių abstrakcijos, koncepciją. Šis dizainas iš esmės skiriasi nuo tradicinių požiūrių, daugiausia dėmesio skiriant koncepcijos lygio transformacijoms, o ne stalo lygio operatoriams, todėl vartotojams tai yra intuityvesnė bendrauti su AI agentu ir patikrinti rezultatus. Natūralios kalbos komponentas naudoja LLMS sugebėjimą suprasti aukšto lygio ketinimus ir natūralias sąvokas, o programavimo pagal pavyzdį komponentas siūlo tikslias, nedviprasmiškas pertvarkymo operacijas demonstravimo metu. Ši hibridinė architektūra leidžia vartotojams dirbti su pažįstamais lentynų konfigūracijos įrankiais, tuo pačiu pasiekti galingas transformacijos galimybes.

Duomenų formuluotės įvertinimas atliekant vartotojo bandymą atskleidė perspektyvius užduoties atlikimo ir naudojimo rezultatų rezultatus. Dalyviai baigė visas priskirtas vizualizacijos užduotis per vidutiniškai 20 minučių, o 6 užduotis reikalauja daugiausiai laiko dėl jo sudėtingumo, susijusio su 7 dienų slenkamojo vidurkio skaičiavimais. Sistemos dvigubos sąveikos metodas pasirodė efektyvus, nors kai kuriems dalyviams reikėjo retkarčiais užuominų apie koncepcijos tipo pasirinkimą ir duomenų tipo valdymą. Išvestinėse koncepcijose vartotojai vidutiniškai surengė 1,62 greitų bandymų su santykinai glaustais aprašymais (vidutiniškai 7,28 žodžio), o sistema sukūrė maždaug 1,94 kandidatų kiekvienam raginimui. Dauguma iššūkių, su kuriais susidūrė, buvo nedideli ir susiję su sąsajos susipažinimu, o ne pagrindinėmis naudojimo problemomis.

Apibendrinant galima pasakyti, kad komanda pristatė duomenų formuluotę, kuri parodo reikšmingą vizualizacijos pažangą, veiksmingai spręsdama nuolatinį duomenų transformacijos iššūkį įgyvendinant jo koncepcijos metodą. Novatoriškas įrankio AI pagalbos ir vartotojo sąveikos derinys leidžia autoriams kurti sudėtingas vizualizacijas, tiesiogiai nenagrinėdami duomenų transformacijų. Vartotojų tyrimai patvirtino įrankio efektyvumą, parodydami, kad net vartotojai, susiduriantys su sudėtingais duomenų transformacijos reikalavimais, gali sėkmingai sukurti norimas vizualizacijas. Žvelgiant į ateitį, šis koncepcijos pagrįstas vizualizacijos metodas rodo žadą daryti įtaką naujos kartos vaizdinių duomenų tyrinėjimui ir autorių kūrimo priemonėms, galinčioms panaikinti ilgalaikį duomenų transformacijos kliūtį kuriant vizualizaciją.

Patikrinkite Popieriaus ir „Github“ puslapis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.

🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ _{(Paaukštintas)}

Sajjad Ansari yra paskutinių metų bakalauras iš IIT Kharagpur. Kaip technikos entuziastas, jis gilinasi į AI praktinius pritaikymus, daugiausia dėmesio skirdamas AI technologijų poveikio ir jų realiojo poveikio poveikiui supratimui. Jis siekia aiškiai ir prieinamai išdėstyti sudėtingas AI sąvokas.

✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo

Source link

„Microsoft Research“ pristato duomenų formulatorių: AI programą, kuri panaudoja LLM, norėdama transformuoti duomenis ir sukurti turtingas vizualizacijas

Paskutinės naujienos

Kauno miesto savivaldybė Valstybinės reikšmės kelių apsaugos zonų nustatymo plano Kauno miesto savivaldybėje Korektūra 2026 m.

Erin Brockovich siekia užtikrinti duomenų centro paslaptį

G. Šimkaus interviu finansiniam portalui „Econostream Media“ (anglų k.)

Paralaksas: parametrizuotas vietinis tiesinis dėmesys, kuris išlaiko Softmax ir prideda išmoktą kovariacijos korekcijos atšaką

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.

Paskutinės naujienos

Kauno miesto savivaldybė Valstybinės reikšmės kelių apsaugos zonų nustatymo plano Kauno miesto savivaldybėje Korektūra 2026 m.

Erin Brockovich siekia užtikrinti duomenų centro paslaptį

G. Šimkaus interviu finansiniam portalui „Econostream Media“ (anglų k.)

Paralaksas: parametrizuotas vietinis tiesinis dėmesys, kuris išlaiko Softmax ir prideda išmoktą kovariacijos korekcijos atšaką