Dirbtinio intelekto sritis greitai vystosi, didėjant pastangoms sukurti pajėgesnius ir efektyvesnius kalbos modelius. Tačiau šių modelių mastelio keitimas kyla iš iššūkių, ypač susijusius su skaičiavimo ištekliais ir mokymo sudėtingumu. Tyrimų bendruomenė vis dar tiria geriausią ypač didelių modelių mastelio keitimo praktiką, nesvarbu, ar jie naudoja tankią, ar ekspertų mišinį (MOE) architektūrą. Iki šiol daugelis informacijos apie šį procesą nebuvo plačiai dalijamasi, todėl sunku patobulinti ir patobulinti didelio masto AI sistemas.
„Qwen AI“ siekia išspręsti šiuos iššūkius su „Qwen2.5-Max“, dideliu MOE modeliu, iš anksto išankstiniu daugiau nei 20 trilijonų žetonų ir toliau tobulinamas per prižiūrimą tobulinimo (SFT) ir stiprinimo mokymąsi iš žmonių atsiliepimų (RLHF). Šis požiūris patobulina modelį, kad geriau atitiktų žmogaus lūkesčius, išlaikant mastelio keitimo efektyvumą.
Techniškai „QWEN2.5-MAX“ naudoja ekspertų mišinio architektūrą, leidžiančią jai suaktyvinti tik jo parametrų pogrupį. Tai optimizuoja skaičiavimo efektyvumą išlaikant našumą. Platus išankstinis fazė suteikia tvirtą žinių pagrindą, o SFT ir RLHF patikslina modelio gebėjimą generuoti nuoseklų ir svarbų atsakymą. Šie metodai padeda pagerinti modelio samprotavimus ir patogumą įvairiose programose.

„QWEN2.5-MAX“ buvo įvertintas pagal pagrindinius modelius ant etalonų, tokių kaip MMLU-PRO, „LiveCodeBench“, „LiveBench“ ir „Arena-Hard“. Rezultatai rodo, kad jis veikia konkurencingai, pranoksta „Deepseek V3“ tokiuose bandymuose kaip „Arena-Hard“, „LiveBench“, „LiveCodeBench“ ir „GPQA-Diamond“. Jos našumas „MMLU-Pro“ taip pat yra stiprus, pabrėžiant savo galimybes gauti žinias, kodavimo užduotis ir platesnes AI programas.
Apibendrinant galima pasakyti, kad „Qwen2.5-MAX“ pateikia apgalvotą požiūrį į kalbų modelių mastelio keitimą, išlaikant efektyvumą ir našumą. Pasitelkdamas MOE architektūrą ir strateginius po treniruotės metodus, jis sprendžia pagrindinius iššūkius kuriant AI modelį. Tobulėjant AI tyrimams, tokie modeliai kaip „Qwen2.5-Max“ parodo, kaip apgalvotas duomenų naudojimas ir mokymo metodai gali sukelti pajėgesnes ir patikimesnes AI sistemas.
Patikrinkite Demonstracija apie apkabinimo veidą ir techninės detalės. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 70K+ ml subreddit.
🚨 (Rekomenduojama skaityti) „Nebius AI Studio“ plečiasi su „Vision“ modeliais, naujais kalbų modeliais, įterpimais ir „Lora“ (Paaukštintas)

Aswinas AK yra „MarktechPost“ konsultavimo praktikantas. Jis siekia dvigubo laipsnio Indijos technologijos institute Kharagpur. Jis aistringai vertina duomenų mokslą ir mašininį mokymąsi, sukelia stiprią akademinę patirtį ir praktinę patirtį sprendžiant realaus gyvenimo įvairių sričių iššūkius.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo