Kompaktiškų, tačiau labai efektyvių kalbų modelių kūrimas išlieka dideliu iššūkiu dirbtiniame intelekte. Didelio masto modeliams dažnai reikalingi dideli skaičiavimo ištekliai, todėl jie neprieinami daugeliui vartotojų ir organizacijų, turinčių ribotas aparatinės įrangos galimybes. Be to, didėja metodų, galinčių tvarkyti įvairias užduotis, paremti daugiakalbį bendravimą ir efektyviai pateikti tikslius atsakymus, nepatirant kokybės, paklausa. Subalansuoti našumą, mastelį ir prieinamumą yra labai svarbus, ypač norint įjungti vietinius diegimus ir užtikrinti duomenų privatumą. Tai pabrėžia novatoriškų metodų poreikį sukurti mažesnius, efektyvius išteklius taupius modelius, kurie suteikia galimybių, palyginamų su didesniais jų kolegomis, tuo pačiu išlikus universaliais ir ekonomiškais.
Naujausi natūralių kalbų apdorojimo patobulinimai buvo sutelkti į didelio masto modelių, tokių kaip GPT-4, LLAMA 3 ir QWEN 2.5, kūrimą, kurie parodo išskirtinius įvairias užduotis, tačiau reikalauja didelių skaičiavimo išteklių. Pastangos kurti mažesnius, efektyvesnius modelius apima instrukcijų derinamas sistemas ir kiekybinio nustatymo metodus, leidžiančius diegti vietinį diegimą išlaikant konkurencinius rezultatus. Daugiakalbiai modeliai, tokie kaip „Gemma-2“, turi pažangų kalbų supratimą įvairiose srityse, o funkcijų skambinimo ir išplėstinių kontekstinių „Windows“ naujovės pagerino specifinį užduočių pritaikomumą. Nepaisant šių žingsnių, siekiant pusiausvyros tarp našumo, efektyvumo ir prieinamumo, vis dar labai svarbu kuriant mažesnius, aukštos kokybės kalbų modelius.
Mistral AI išskiria mažą 3 (Mistral-Small-24B-Instruct-2511) modelį. Tai kompaktiškas, tačiau galingas kalbos modelis, skirtas suteikti moderniausią našumą tik 24 milijardų parametrų. Patobulinta įvairiomis instrukcijomis pagrįstomis užduotimis, jis pasiekia pažangių samprotavimų, daugiakalbių galimybių ir sklandžios programų integracijos. Skirtingai nuo didesnių modelių, „Mistral-Small“ yra optimizuotas efektyviam vietiniam diegimui, palaikant prietaisus, tokius kaip „RTX 4090 GPU“ arba nešiojamieji kompiuteriai su 32 GB RAM per kvantizavimą. Turėdamas 32K kontekstinį langą, jis puikiai tinka tvarkant didelę įvestį, išlaikant aukštą reagavimą. Modelyje taip pat yra tokių funkcijų kaip JSON pagrįstas išvestis ir vietinių funkcijų skambutis, todėl jis yra labai universalus pokalbių ir užduotims būdingų įgyvendinimų.
Siekiant palaikyti tiek komercines, tiek nekomercines programas, šis metodas yra atidarytas pagal „Apache 2.0“ licenciją, užtikrinant lankstumą kūrėjams. Pažangi jos architektūra įgalina mažą latenciją ir greitą išvadą, maitinančią tiek įmonėms, tiek mėgėjams. „Misral-Molial“ modelis taip pat pabrėžia prieinamumą nepakenkiant kokybei, padidindamas atotrūkį tarp didelio masto našumo ir efektyvaus išteklių naudojimo. Sprendžiant pagrindinius mastelio ir efektyvumo iššūkius, jis nustato kompaktiškų modelių etaloną, konkuruodamas su didesnių sistemų, tokių kaip LLAMA 3.3-70B ir GPT-4O-MINI, veikimą, tuo tarpu žymiai lengviau integruoti į ekonomiškai efektyvias sąrankas.
„Mistral-Small-24B-Instruct-2501“ modelis demonstruoja įspūdingą našumą keliuose etalonuose, konkuruoja ar viršija didesnius modelius, tokius kaip „LLAMA 3.3-70B“ ir „GPT-4O-MINI“ specialiose užduotyse. Tai pasiekia didelį tikslumą samprotavime, daugiakalbiame apdorojime ir kodavimo etalonuose, tokiuose kaip 84,8% humanevale ir 70,6% matematikos užduočių. Esant 32K konteksto langui, modelis efektyviai tvarko didelę įvestį, užtikrinant patikimas instrukcijų sekimo galimybes. Vertinimai pabrėžia išskirtinį mokymo laikymąsi, pokalbių pagrindimą ir daugiakalbį supratimą, pasiekiant konkurencinius balus viešuose ir patentuotuose duomenų rinkiniuose. Šie rezultatai pabrėžia jo efektyvumą, todėl tai yra perspektyvi alternatyva didesniems modeliams įvairioms programoms.
Apibendrinant galima pasakyti, kad „Mistral-Small-24B-Instruct-2511“ nustato naują mažesnio masto didelių kalbų modelių efektyvumo ir našumo standartą. Turint 24 milijardus parametrų, jis pateikia moderniausius rezultatus samprotavimus, daugiakalbį supratimą ir kodavimo užduotis, panašias į didesnius modelius, išlaikant išteklių efektyvumą. Jo 32K konteksto langas, tiksliai suderintos instrukcijos, vykdomos ir suderinamos su vietiniu diegimu, daro jį idealiu įvairioms programoms, pradedant nuo pokalbių agentų iki domeno specifinių užduočių. Modelio atvirojo kodo pobūdis pagal „Apache 2.0“ licenciją dar labiau padidina jo prieinamumą ir pritaikomumą. „Mistral-Small-24B-Instruct-2501“ yra svarbus žingsnis siekiant sukurti galingus, kompaktiškus ir universalius AI sprendimus bendruomenės ir įmonių naudojimui.
Patikrinkite Techninė informacija, „Mistralai“/„Mistral-Small-24B-Instruct-2511“ ir Mistralai/Mistral-Small-24B-BASE-2501. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 70K+ ml subreddit.
🚨 Susipažinkite su „Intellagent“: atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą (Paaukštintas)

„MarktechPost“ ir „IIT Madras“ dvigubo laipsnio studentė konsultacinė Sana Hassan aistringai taiko technologijas ir AI, kad galėtų spręsti realaus pasaulio iššūkius. Turėdamas didelį susidomėjimą išspręsti praktines problemas, jis pateikia naują perspektyvą AI ir realaus gyvenimo sprendimų sankryžai.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo