Didelių kalbų modeliai (LLM) parodė išskirtines galimybes atlikti sudėtingų samprotavimo užduotis, atlikdami naujausius patobulinimus atliekant mastelio keitimo ir specializuoto mokymo metodus. Nors tokie modeliai kaip „Openai O1“ ir „Deepseek R1“ nustatė naujus etalonus sprendžiant samprotavimo problemas, jų rezultatų skirtumai skirtingomis kalbomis egzistuoja dideliais skirtumais. Anglų ir kinų dominavimas tokiuose pamatų modeliuose kaip „LlaMa“ ir „Qwen“ mokymo duomenyse sukūrė esminį mažo išteklių kalbų galimybių skirtumą. Tačiau šie modeliai susiduria su tokiais iššūkiais kaip neteisingas charakterio vartojimas ir kodų perjungimas. Šie klausimai išryškėja per samprotavimus orientuotus tobulinimo ir sustiprinimo mokymosi procesus.
Regioninės LLM iniciatyvos atsirado siekiant išspręsti mažai išteklių kalbų apribojimus, naudojant specializuotus išankstinio mokymo ir po mokymo metodus. Tokie projektai kaip „Typhoon“, „Sailor“, „Eurollm“, „AYA“, „Sea-Lion“ ir „Seallm“ sutelkė dėmesį į specifinių tikslinių kalbų modelių pritaikymą. Tačiau į duomenis orientuotas požiūris į samprotavimo galimybių pritaikymą trūksta skaidrumo samprotavimo modelio duomenų receptuose. Be to, norint padidinti mastelį, reikia didelių skaičiavimo išteklių, tai patvirtina „Deepseeek R1 70B“ 800K distiliavimo ir bendrųjų SFT pavyzdžių reikalavimas, žymiai viršijantis akademines pastangas, tokias kaip „Sky-T1“ ir „Sustoke-stratos“. Modelio susiliejimas tapo alternatyviu požiūriu, parodančiu pažadą derinant kelis specializuotus modelius, siekiant pagerinti atlikimą atliekant užduotis be papildomo mokymo.
Tyrėjai iš SCB 10X tyrimų ir plėtros ir SCBX grupės Bankoko, Tailandas pasiūlė novatorišką požiūrį, siekiant pagerinti samprotavimo galimybes konkrečios kalbų LLM, ypač daugiausia dėmesio skirdami tailandiečių kalbos modeliams. Tyrimas sujungia duomenų pasirinkimą ir modelio sujungimo metodus, kad būtų įtrauktos pažangios samprotavimo galimybės, panašios į „Deepseeek R1“, išlaikant tikslinės kalbos mokėjimą. Tyrime nagrinėjamas kritinis iššūkis pagerinti samprotavimo gebėjimus mažo išteklių kalbų modeliuose, naudojant tik viešai prieinamus duomenų rinkinius ir kuklų 1 201 USD skaičiavimo biudžetą, suderinant „Deepseek R1“ samprotavimo galimybes, nepakenkiant tikslinės kalbos užduotims.
Įdiegtoje metodikoje naudojama „Typhoon2 70B“ instrukcija ir „Deepseek R1 70B Distill“ kaip baziniai modeliai. Šis metodas apima prižiūrimų derinimo (SFT) pritaikymą „Typhoon2 70b“ ir sujungti jį su „Deepseek R1 70b“. Treniruotės konfigūracijoje naudojama „Lora“ su konkrečiais parametrais: 32 ir α rango ir 16-os. Treniruotės veikia 4 × H100 GPU iki 15 valandų, naudojant „Axolotl4“, o modelis sujungtas per „Mergekit“. Vertinimas sutelktas į du pagrindinius aspektus: samprotavimo galimybes ir kalbos užduoties atlikimą, naudojant tokius etalonus kaip Aime 2024, Math-500 ir LiveCodeBench, su Tailando vertimais įvertinti.
Eksperimentiniai rezultatai atskleidžia, kad „Deepseek R1 70B Distill“ išsiskiria tokiomis samprotavimo užduotimis kaip Aime ir Math500, tačiau rodo sumažėjusį Tailando specifinių užduočių, tokių kaip „Mtbench-Th“, ir kalbos tikslumo vertinimai. „Typhoon2 70B“ instrukcija rodo stiprius kalbų specifinių užduočių atlikimą, tačiau kovoja su samprotavimo iššūkiais, pasiekdamas tik 10% tikslumą AIME ir „Deepseek R1“-daugiau nei 20% „Math500“. Galutinis modelis „Typhoon2-R1-70B“ sujungia „Deepseeek R1“ samprotavimo galimybes su „Typhoon2“ tailandietišku kalbos mokėjimu, pasiekdamas rezultatus 4% „Typhoon2“ kalbų užduočių, išlaikant palyginamus samprotavimo gebėjimus. Dėl to padidėja 41,6%, palyginti su „Typhoon2“, ir 12,8%, palyginti su „Deepseeek R1“.
Apibendrinant, tyrėjai pateikia metodą, kaip pagerinti samprotavimo galimybes konkrečių kalbų modeliuose, derinant specializuotus modelius. Nors tyrimas įrodo, kad SFT ir modelio susiliejimas gali efektyviai perduoti samprotavimo galimybes su ribotais ištekliais, dabartinės metodikos apribojimai yra keletas apribojimų. Tyrimo apimtis apsiribojo „Dare“ sujungimu dviejų modelių sąrankoje vienos modelio šeimoje, optimizuodamas instrukcijų derinimą, nepaisant turimų aukštos kokybės duomenų rinkinių, tokių kaip „Tulu3“. Dideli iššūkiai išlieka daugiakalbių samprotavimų ir modelių susiliejimo, įskaitant kultūriškai žinomų samprotavimo pėdsakų trūkumą. Nepaisant šių iššūkių, tyrimas žymi žingsnį link LLM galimybių tobulinimo nepakankamai atstovaujamose kalbose.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Sajjad Ansari yra paskutinių metų bakalauras iš IIT Kharagpur. Kaip technikos entuziastas, jis gilinasi į AI praktinius pritaikymus, daugiausia dėmesio skirdamas AI technologijų poveikio ir jų realiojo poveikio poveikiui supratimui. Jis siekia aiškiai ir prieinamai išdėstyti sudėtingas AI sąvokas.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (reklamuojama)