„Vision-Language“ modeliai (VLMS) žymiai išplėtė AI sugebėjimą apdoroti multimodalinę informaciją, tačiau jie susiduria su nuolatiniais iššūkiais. Tokie patentuoti modeliai kaip „GPT-4V“ ir „Gemini-1.5-Pro“ pasiekia nepaprastą našumą, tačiau jiems trūksta skaidrumo, ribodami jų pritaikomumą. Atvirojo kodo alternatyvos dažnai stengiasi suderinti šiuos modelius dėl duomenų įvairovės apribojimų, mokymo metodikų ir skaičiavimo išteklių. Be to, ribotos duomenų apie duomenų strategijų dokumentaciją apsunkina replikaciją. Norėdami pašalinti šias spragas, „Nvidia AI“ pristato Erelis 2VLM, sukurtas su struktūrizuotu, skaidriu požiūriu į duomenų kuravimą ir modelio mokymą.
„NVIDIA AI“ pristato „Eagle 2“: skaidri VLM sistema
„Eagle 2“ siūlo naują požiūrį, teikdamas pirmenybę atvirumui pagal savo duomenų strategiją. Skirtingai nuo daugelio modelių, kurie teikia tik apmokytus svorius, „Eagle 2“ detalizuoja savo duomenų rinkimą, filtravimą, padidinimą ir atrankos procesus. Šia iniciatyva siekiama aprūpinti atvirojo kodo bendruomenę įrankiais, kaip sukurti konkurencingus VLM, nepasikliaujant patentuotais duomenų rinkiniais.
„Eagle2-9b“, pažangiausias „Eagle 2“ serijos modelis, kelis kartus veikia kaip modeliai, pavyzdžiui, tie, kurie turi 70B parametrus. Patobulindamas duomenų strategijas po mokymo, „Eagle 2“ optimizuoja našumą, nereikalaujant per didelių skaičiavimo išteklių.

Pagrindinės „Eagle 2“ naujovės
„Eagle 2“ stipriosios pusės kyla iš trijų pagrindinių naujovių: patobulintos duomenų strategijos, kelių fazių mokymo metodas ir į viziją orientuota architektūra.
- Duomenų strategija
- Modelis seka a Pirmasis įvairovė, tada kokybė požiūris, duomenų rinkinio kuravimas iš virš 180 šaltinių Prieš patobulinant jį filtruojant ir pasirinkdami.
- Struktūrizuotas duomenų tobulinimo vamzdynas apima klaidų analizę, apgalvotų (COT) paaiškinimus, taisyklėmis pagrįstą QA generavimą ir efektyvumo duomenų formatavimą.
- Trijų pakopų mokymo sistema
- 1 etapas Suderina regėjimo ir kalbos būdus, mokant MLP jungtį.
- 1.5 etapas Pristato įvairius didelio masto duomenis, sustiprinančius modelio pagrindą.
- 2 etapas Patobulina modelį, naudodamas aukštos kokybės instrukcijų derinimo duomenų rinkinius.
- Plydintys regėjimo kodavimo įrenginių mišinys (juda)
- Modelis integruoja „Siglip“ ir „Convnext“ Kaip dvigubo matymo kodavimo įrenginiai, tobulinantis vaizdų supratimą.
- Aukštos skiriamosios gebos plytelės užtikrina, kad smulkiagrūdės detalės būtų efektyviai išlaikomos.
- Pusiausvyros žinojimas apie godus „Knapsack“ metodas optimizuoja duomenų pakavimą, sumažindamas mokymo išlaidas, tuo pačiu pagerinant mėginių efektyvumą.
Šie elementai daro „Eagle 2“ galingą ir pritaikomą įvairioms programoms.


Spektaklio ir etaloninės įžvalgos
„Eagle 2“ galimybės buvo griežtai išbandytos, parodant stiprius rezultatus keliuose etalonuose:
- „Eagle2-9b“ pasiekia 92,6% „DocVQA“ tikslumasviršijant intervl2-8b (91,6%) ir GPT-4V (88,4%).
- Į Ocrbench„Eagle 2“ balai 868pralenkia „QWEN2-VL-7B“ (845) ir „MinicPM-V-2.6“ (852), pabrėžiant jo stipriąsias puses teksto atpažinimo srityje.
- „Mathvista“ spektaklis pagerėja 10 taškų Palyginti su savo pradiniu, sustiprinant trijų pakopų mokymo metodo efektyvumą.
- „ChartQA“, „OCR QA“ ir multimodalinių samprotavimų užduotys Parodykite pastebimus patobulinimus, pralenkdami GPT-4V pagrindinėse srityse.
Be to, mokymo procesas yra skirtas efektyvumui. Išplėstiniai pogrupių pasirinkimo būdai sumažino duomenų rinkinio dydį iš 12,7 m iki 4,6 m pavyzdžiųišlaikant tikslumą, tuo pačiu pagerinant duomenų efektyvumą.

Išvada
„Eagle 2“ yra žingsnis į priekį, kad aukštos kokybės VLMS būtų prieinamesnės ir atkuriamos. Pabrėždamas Skaidrus į duomenis orientuotas požiūristai padidina atotrūkį tarp atvirojo kodo prieinamumo ir patentuotų modelių našumo. Modelio naujovės Duomenų strategija, mokymo metodai ir regėjimo architektūra Padarykite tai įtikinamą parinktį tyrėjams ir kūrėjams.
Atvirai pasidalindamas savo metodika, Nvidia AI skatina a Bendradarbiavimo AI tyrimų aplinkaleidžiant bendruomenei remtis šiomis įžvalgomis, nesiklijuojant uždaro kodo modeliais. Toliau tobulėjant AI, „Eagle 2“ parodo, kaip apgalvota duomenų kuravimo ir mokymo strategijos gali sukelti patikimus, aukšto lygio vizijos kalbos modelius.
Patikrinkite Popierius, „Github“ puslapis ir modeliai, skirti apkabinti veidą. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 70K+ ml subreddit.
🚨 Susipažinkite su „Intellagent“: atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giliųjų mokymosi naujienų aprašymu, paleidimas, kuris yra techniškai pagrįstas ir lengvai suprantamas plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo