Realiojo laiko kalbos vertimas yra sudėtingas iššūkis, reikalaujantis sklandaus kalbos atpažinimo, mašininio vertimo ir teksto į kalbos sintezės integracijos. Tradiciniai kaskadiniai metodai dažnai įveda sudėtines klaidas, nesugeba išlaikyti garsiakalbių tapatybės ir kenčia nuo lėto apdorojimo, todėl jos yra mažiau tinkamos realiojo laiko programoms, tokioms kaip tiesioginis interpretacija. Be to, esami tuo pačiu metu vertimo modeliai stengiasi subalansuoti tikslumą ir latenciją, remdamiesi sudėtingais išvadų mechanizmais, kuriuos sunku išplėsti. Reikšminga kliūtis išlieka didelio masto, gerai suderintų kalbos duomenų rinkinių trūkumas, ribojantis galimybes treniruoti modelius, kurie gali sukurti kontekstines ir natūralius vertimus, minimaliai atidėtus.
Kyutai sukūrė Hibiki2,7 milijardo parametrų dekoderio modelis, skirtas realaus laiko kalbėjimo į kalbą (S2ST) ir kalbos ir teksto (S2TT) vertimą. Veikiantis 12,5Hz kadravimas su 2,2 kbps bitais„Hibiki“ šiuo metu palaiko Vertimas iš prancūzų iki anglų kalbos ir yra skirtas išsaugoti balso charakteristikas išverstoje išvestyje. Distiliuota versija, „Hibiki-M“ (1,7B parametrai), yra optimizuotas realiojo laiko našumui išmaniesiems telefonams, todėl jis tampa prieinamesnis vertimui į įrenginius.
Techninis požiūris ir nauda
Hibiki's Tik dekoderio architektūra Įgalina vienu metu kalbėjimo apdorojimą naudojant daugialypės kalbos kalbos modelį, kuris numato abu teksto ir garso žetonai. Jame naudojama a Neuroninis garso kodekas (Mimi) Norėdami suspausti garsą, išlaikant ištikimybę, užtikrinant efektyvų vertimo generavimą. Pagrindinis jo dizaino aspektas yra Kontekstinis derinimasmetodas, kuris panaudoja teksto vertimo modelio pasipiktinimą, kad būtų galima nustatyti optimalų kalbos generavimo laiką, leidžiant „Hibiki“ į Dinamiškai pritaikykite vertimo vėlavimus išlaikant darną. Be to, „Hibiki“ palaiko partijos išvadosapdorojimas iki 320 sekos lygiagrečiai H100 GPUtodėl jis yra perspektyvus didelio masto programoms. Modelis mokomas 7M valandos angliško garso, 450K valandų prancūzų ir 40K valandų sintetinių lygiagrečių duomenųprisidedant prie jo tvirtumo įvairiuose kalbos modeliuose.

Našumas ir vertinimas
„Hibiki“ pademonstravo tvirtus vertimo kokybės ir kalbėtojų ištikimybę. Tai pasiekia ASR-BLEU balas yra 30,5viršijant esamas bazines linijas, įskaitant modelius neprisijungus. Žmogaus vertinimai vertina tai Natūralumas esant 3,73/5artėjant prie 4.12/5 Profesionalių žmonių vertėjų balas. Modelis taip pat gerai veikia Kalbėjo panašumassu a 0,52 panašumo balas palyginti su 0,43 už besiūlią. Palyginti su Besiūlė ir srautinėHibiki nuolat pristato Aukštesnė vertimo kokybė ir Geresnis balso perdavimasišlaikant a Konkurencinis latentinis. Distiliuotas Hibiki-M Variantas, nors ir šiek tiek mažesnis garsiakalbių panašume, išlieka efektyvus realiojo laiko naudojimui.
Išvada
„Hibiki“ pateikia praktinį požiūrį į realaus laiko kalbos vertimą, integruojant Kontekstinis derinimas, efektyvus glaudinimas ir realaus laiko išvados Norėdami pagerinti vertimo kokybę, tuo pačiu išsaugant natūralias kalbos ypatybes. Siūlydamas Atviro kodo leidimas pagal leistiną CC-BY licenciją„Hibiki“ gali žymiai prisidėti prie daugiakalbės komunikacijos pažangos.
Patikrinkite Straipsnyje, modeliuose apie veido apkabinimą, „Github“ puslapį ir „Colab“ nešiojamąjį kompiuterį. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Prisijunkite prie mūsų mašinų mokymosi bendruomenės „Twitter“/X

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo