Dirbtinio intelekto srityje, leidžianti didelius kalbų modelius (LLM) naršyti ir sąveikauti su grafinėmis vartotojo sąsajomis (GUI), buvo pastebimas iššūkis. Nors LLM yra tinkama apdoroti tekstinius duomenis, jie dažnai susiduria su sunkumais aiškindami vaizdinius elementus, tokius kaip piktogramos, mygtukai ir meniu. Šis apribojimas riboja jų veiksmingumą atliekant užduotis, kurioms reikia sklandžios sąveikos su programinės įrangos sąsajos, kurios daugiausia yra vaizdinės.
Siekdama išspręsti šią problemą, „Microsoft“ pristatė „Omniparser V2“ – įrankį, skirtą pagerinti LLMS GUI supratimo galimybes. „Omniparser V2“ konvertuoja UI ekrano kopijas į struktūrizuotus, mašiniškai skaitomus duomenis, leidžiančius LLMS efektyviau suprasti ir sąveikauti su įvairiomis programinės įrangos sąsajomis. Šia plėtra siekia užpildyti atotrūkį tarp teksto ir vaizdinio duomenų apdorojimo, palengvinant išsamesnes AI programas.
„Omniparser V2“ veikia per du pagrindinius komponentus: aptikimą ir antraštę. Aptikimo modulyje naudojama tiksliai suderinta „Yolov8“ modelio versija, skirta nustatyti interaktyvius elementus ekrano kopijoje, tokiose kaip mygtukai ir piktogramos. Tuo pačiu metu antraštės modulis naudoja tiksliai suderintą „Florence-2“ bazinį modelį, kad sukurtų šių elementų aprašomosios etiketes, pateikdamas kontekstą apie jų funkcijas sąsajoje. Šis kombinuotas požiūris leidžia LLMS sukurti išsamų GUI supratimą, kuris yra būtinas tiksliam sąveikai ir užduoties vykdymui.
Reikšmingas „Omniparser V2“ patobulinimas yra jo mokymo duomenų rinkinių patobulinimas. Įrankis buvo apmokytas platesniame ir rafinuotesniame piktogramų antraštės ir įžeminimo duomenų rinkinyje, gauname iš plačiai naudojamų tinklalapių ir programų. Šis praturtintas duomenų rinkinys padidina modelio tikslumą nustatant ir apibūdinant mažesnius interaktyvius elementus, kurie yra labai svarbūs veiksmingai GUI sąveikai. Be to, optimizuodamas vaizdo dydžio, apdorotą piktogramos antraštės modeliu 4090 GPU.
„Omniparser V2“ veiksmingumas parodomas per savo veikimą „ScreenSpot Pro Benchmark“ – GUI įžeminimo galimybių vertinimo sistemoje. Derinant su GPT-4o, „Omniparser V2“ pasiekė vidutinį 39,6%tikslumą, pastebimas padidėjimas, palyginti su GPT-4O pradiniu balu-0,8%. Šis patobulinimas pabrėžia įrankio sugebėjimą suteikti LLM galimybę tiksliai interpretuoti ir sąveikauti su sudėtingomis GUI, net ir tų, kurie turi aukštos skiriamosios gebos ekranus ir mažas tikslines piktogramas.
Siekdama palaikyti integraciją ir eksperimentavimą, „Microsoft“ sukūrė „Omnitool“ – dokų „Windows“ sistemą, kurioje yra „Omniparser V2“ kartu su pagrindiniais agentų kūrimo įrankiais. „Omnitool“ yra suderinamas su įvairiais moderniausiais LLM, įskaitant „Openai“ 4O/O1/O3-MINI, „Deepseek's R1“, „Qwen“ 2,5 VL ir „Anthropic“ sonetą. Šis lankstumas leidžia kūrėjams naudoti „Omniparser V2“ įvairiuose modeliuose ir programose, supaprastinant regėjimo GUI agentų kūrimą.
Apibendrinant galima pasakyti, kad „Omniparser V2“ yra reikšminga pažanga integruojant LLM su grafinėmis vartotojo sąsajomis. Konvertuodama UI ekrano kopijas į struktūrizuotus duomenis, tai leidžia LLMS efektyviau suprasti ir sąveikauti su programinės įrangos sąsajomis. Techniniai aptikimo tikslumo, latencijos mažinimo ir etaloninio našumo patobulinimai daro „Omniparser V2“ vertingą įrankį kūrėjams, siekiantiems sukurti intelektualius agentus, galinčius naršyti ir manipuliuoti GUIS autonomiškai. AI tobulėjant, tokios priemonės kaip „Omniparser V2“ yra būtini norint užpildyti atotrūkį tarp teksto ir vaizdinio duomenų apdorojimo, todėl atsiranda intuityvesnės ir pajėgios AI sistemos.
Patikrinkite Techninė informacija, modelis HF ir „GitHub“ puslapyje. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama „Read-LG AI Research“ išleidžia „Nexus“: pažangių sistemos integracinių agentų AI sistemos ir duomenų atitikties standartų, skirtų teisiniams klausimams spręsti AI duomenų rinkiniuose

„MarktechPost“ ir „IIT Madras“ dvigubo laipsnio studentė konsultacinė Sana Hassan aistringai taiko technologijas ir AI, kad galėtų spręsti realaus pasaulio iššūkius. Turėdamas didelį susidomėjimą išspręsti praktines problemas, jis pateikia naują perspektyvą AI ir realaus gyvenimo sprendimų sankryžai.
