Dirbtinio intelekto modeliai susiduria su esminiu iššūkiu efektyviai padidinti savo samprotavimo galimybes bandymo metu. Nors didėjantis modelio dydis dažnai lemia našumo padidėjimą, jis taip pat reikalauja reikšmingų skaičiavimo išteklių ir išsamių mokymo duomenų, todėl toks požiūris yra nepraktiškas daugeliui programų. Tradiciniai metodai, tokie kaip modelio parametrų išplėtimas arba mąstymo grandinės (COT) samprotavimai, remiasi aiškia tarpinių žingsnių verbalizavimu. Tačiau šiuos metodus riboja konteksto ilgio apribojimai ir poreikis atlikti konkrečias užduotis. Tyrėjai tyrinėjo alternatyvius metodus, leidžiančius AI efektyviau pagrįsti, daugiausia dėmesio skirdami vidiniams skaičiavimams, o ne gaminti papildomus žetonus.
„Huginn-3.5b“: naujas požiūris į latentinį pagrindimą
Tyrėjai iš Elliso instituto Tiubingeno, Max-Plancko intelektualių sistemų instituto, Tiubingeno AI centro, Merilando universiteto, College Park ir Lawrence Livermore nacionalinės laboratorijos, pristatė HUGINN-3,5B-modelį, skirtą pergalvoti bandymo laiko skaičiavimus. HUGINN-3,5B Svertas a Pasikartojantis gylio metodasleidžiant jį pakartoti per latentinę erdvę. Šis metodas patikslina savo paslėptą būseną pakartotinai, o ne generuoja daugiau žetonų, todėl susidaro efektyvesnis ir keičiamas samprotavimo procesas. Modelis gali skirti papildomas skaičiavimo pastangas sudėtingoms užklausoms, išlaikant paprastesnių užduočių efektyvumą.
Pagrindinės savybės ir privalumai
Pagrindinė „Huginn-3.5b“ naujovė yra jos gylio atnaujinimo transformatoriaus architektūra, kurioje yra kilpinis apdorojimo įrenginys. Šis mechanizmas leidžia modeliui:
- Patobulinkite samprotavimus dinamiškai: „Huginn-3.5b“ koreguoja savo skaičiavimo pastangas, pagrįstus užduoties sudėtingumu, prireikus pakartotinai per latentinę erdvę.
- Sumažinkite priklausomybę nuo ilgų kontekstinių langų: Kadangi samprotavimai vyksta latentinėje erdvėje, modeliui reikia mažiau atminties ir apdorojimo galios.
- Funkcija be specializuotų mokymo duomenų: Skirtingai nuo mąstytų metodų grandinės, „Huginn-3.5b“ nereikalauja aiškių samprotavimų demonstracijų, kad būtų galima efektyviai apibendrinti.
- Pritaikyti skaičiavimą už žetoną: Modelis optimizuoja efektyvumą, nustatant, kiek skaičiavimų reikia kiekvienam prieigos raktui.
- Palengvinti efektyvų dekodavimą: HUGINN-3,5B patikslina savo paslėptą būseną prieš generuodami išvesties žetonus, todėl pagerina darną ir sumažintą latenciją.
Spektaklio įžvalgos
Apmokytas 800 milijardų žetonų, apimančių bendrąjį tekstą, kodą ir matematinius samprotavimus, Huginn-3,5b buvo įvertintas įvairiuose etalonuose. Rezultatai apima:
- Pagerintas tikslumas padidėjus skaičiavimui: Pakartojęs toliau savo latentinėje erdvėje, „Huginn-3.5B“ pasiekė našumo lygius, panašius į daug didesnius modelius.
- Konkurencingumas prieš panašaus dydžio modelius: „Huginn-3.5b“ pralenkė „Pythia-6.9b“ ir „Pythia-12b“ dėl samprotavimo etalonų, tokių kaip ARC ir GSM8K.
- Nuo užduoties priklausomas skaičiavimo mastelio keitimas: Modelis skyrė papildomus išteklius sudėtingoms užduotims, tokioms kaip GSM8K, tuo pačiu efektyviai apdorojant paprastesnes užduotis, tokias kaip „OpenBookQA“.
Išvada: latentinių samprotavimų vaidmuo AI
„Huginn-3,5b“ siūlo alternatyvią AI samprotavimo perspektyvą, pereinant nuo aiškaus ženklo pagrįsto apdorojimo prie skaičiavimų latentinėje erdvėje. Tai įgalina efektyvesnį ir pritaikomą bandymo laiko skaičiavimą, nereikalaujant didesnių modelių. AI tobulėjant, pasikartojantis gylio samprotavimas gali suteikti perspektyvią kryptį, papildydama esamas mastelio keitimo strategijas, tuo pačiu siūlant skaičiavimo efektyvumą. Būsimi tyrimai gali dar labiau patobulinti šį požiūrį, integruojant jį su ekspertų modelių mišiniu ir tikslinio derinimo metodais, siekiant padidinti lankstumą ir našumą.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Aswinas AK yra „MarktechPost“ konsultavimo praktikantas. Jis siekia dvigubo laipsnio Indijos technologijos institute Kharagpur. Jis aistringai vertina duomenų mokslą ir mašininį mokymąsi, sukelia stiprią akademinę patirtį ir praktinę patirtį sprendžiant realaus gyvenimo įvairių sričių iššūkius.
✅ (rekomenduojama) Prisijunkite prie mūsų „Telegram“ kanalo