Teksto ir kalbėjimo (TTS) technologija pastaraisiais metais padarė didelę pažangą, tačiau išlieka iššūkiai kuriant natūralią, išraiškingą ir aukšto tikslumo kalbos sintezę. Daugelis TTS sistemų stengiasi atkartoti žmogaus kalbos niuansus, tokius kaip intonacija, emocijos ir akcentai, dažnai sukeliantys dirbtinius balsus. Be to, tikslus balso klonavimas išlieka sudėtingas, ribojant galimybę generuoti individualizuotus ar įvairius kalbos išvestis. Šie iššūkiai paskatino nuolatinius sudėtingesnių TTS modelių tyrimus, galinčius kurti realiojo laiko, išraiškingą ir tikrovišką kalbą.
„Zyphra“ pristatė „Zonos-V0.1“ beta versiją, kurioje pateikiami du realaus laiko TTS modeliai, turintys aukšto tikslumo balso klonavimą. Išleidimą sudaro 1,6 milijardo parametrų transformatoriaus modelis ir panašaus dydžio hibridinis modelis, abu galima įsigyti pagal „Apache 2.0“ licenciją. Šioje atvirojo kodo iniciatyvoje siekiama skatinti TTS tyrimus, padarant aukštos kokybės kalbos sintezės technologiją, prieinamesnę kūrėjams ir tyrėjams.
„Zonos-V0.1“ modeliai yra mokomi maždaug 200 000 valandų kalbos duomenų, apimantys ir neutralius, ir išraiškingus kalbos modelius. Nors pagrindinį duomenų rinkinį sudaro anglų kalbos turinys, buvo įtrauktos didelės kinų, japonų, prancūzų, ispanų ir vokiečių kalbos dalys, leidžiančios sulaukti daugiakalbės paramos. Modeliai sukuria gyvenimo kalbą iš teksto raginimų, naudodami garsiakalbių įterpimus arba garso priešdėlius. Jie gali atlikti balso klonavimą vos 5–30 sekundžių kalbėjimo pavyzdžiu ir pasiūlyti valdiklius, tokius kaip kalbėjimo greitis, žingsnio variacija, garso kokybė ir emocijos, tokios kaip liūdesys, baimė, pyktis, laimė ir staigmena. Susintetinta kalba gaunama esant 44 kHz imties greičiui, užtikrinant aukštą garso ištikimybę.
„Zonos-V0.1“ apima keletą pagrindinių funkcijų:
- „Zero-shot TTS“ su balso klonavimu: Vartotojai gali generuoti kalbą pateikdami trumpą garsiakalbio pavyzdį kartu su teksto įvestimi, kad būtų galima sintetinti balsus su minimaliais duomenimis.
- Garso prefiksų įvestys: Įtraukdami garso priešdėlį, modeliai gali geriau suderinti garsiakalbių charakteristikas ir net atkurti konkrečius kalbėjimo stilius, tokius kaip šnabždesys.
- Daugiakalbė parama: Sistema palaiko kelias kalbas, įskaitant anglų, japonų, kinų, prancūzų ir vokiečių kalbas, padidindama jos universalumą pasaulinėms programoms.
- Garso kokybė ir emocijų kontrolė: Vartotojai gali tiksliai sureguliuoti aspektus, tokius kaip žingsnis, dažnių diapazonas ir emocinis tonas, kad sukurtų išraiškingesnius ir natūralius kalbos išvestis.
- Efektyvus našumas: RTX 4090 važiavimas maždaug du kartus realaus laiko greičiu, modeliai yra optimizuoti realiojo laiko programoms.
- Vartotojui patogi sąsaja: „Gradio“ pagrindu sukurta „Webui“ supaprastina kalbų generavimą, todėl jis yra prieinamas platesniam vartotojų ratui.
- Tiesus diegimas: Modelius galima lengvai įdiegti ir įdiegti naudojant pateiktą „Docker“ sąranką, užtikrinant lengvą integraciją į esamas darbo eigas.

Šios savybės daro „Zonos-V0.1“ lanksčiu įrankiu įvairioms TTS programoms, pradedant turinio kūrimu ir baigiant prieinamumo įrankiais.
Ankstyvieji vertinimai rodo, kad „Zonos-V0.1“ teikia aukštos kokybės kalbų generavimą, dažnai palyginamą su pagrindinėmis patentuotomis sistemomis ar viršijančiomis. Nors objektyvus garso vertinimas išlieka sudėtingas, palyginimai su kitais modeliais, įskaitant patentuotus sprendimus, tokius kaip vienuolika ir kartesija, taip pat atvirojo kodo alternatyvos, tokios kaip „FishSpeech-V1.5“-„Highlight Zonos“ galimybė sukurti aiškią, natūralią ir išraiškingą kalbą. Visų pirma hibridinis modelis siūlo mažesnį latentinį ir mažesnį atminties naudojimą, palyginti su „Transformerio“ variantu, naudinga jo „Mamba2“ pagrindu sukurta architektūra, kuri sumažina priklausomybę nuo dėmesio mechanizmų.
„Zonos-V0.1“ beta versijos leidimas yra svarbus žingsnis į priekį atvirojo kodo TTS plėtroje. Pateikdama aukštą išsamią, išraiškingą ir realiojo laiko kalbos sintezės įrankį pagal prieinamą licenciją, „Zyphra“ siūlo kūrėjams ir tyrėjams galingą šaltinį tobulinti TTS programas. Dėl balso klonavimo, daugiakalbės palaikymo ir smulkiagrūdės garso valdymo derinys tampa universaliu lauko papildymu, o potencialus pritaikymas pagalbinėse technologijose, turinio kūrimas ir už jo ribų.
Patikrinkite Techninė informacija, „GitHub“ puslapis, „Zyphra“/„Zonos-V0.1-Transformer“ ir Zyphra/Zonos-V0.1-hibridai. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (Paaukštintas)

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo