Căpitan al sintetizatorului de vorbire. Ce sunt sintetizatoarele vocale și unde sunt folosite?

K:Wikipedia:Articole fără imagini (tip: nespecificat) K:Software dezvoltat în 2006

eSpeak este un sintetizator de vorbire compact, gratuit, care acceptă limbajul de marcare a sintezei vorbirii (SSML).

Sisteme de operare

Există versiuni de eSpeak pentru sisteme de operare precum Microsoft Windows, Mac OS X, Linux, RISC OS, iar codul sursă în C++ este, de asemenea, disponibil. În plus, documentația oficială a sintetizatorului oferă instrucțiuni despre cum să-l compilați pentru Windows Mobile. Programul are o limitare semnificativă - generarea vocii este posibilă numai într-un fișier WAV.

În plus, eSpeak este utilizat în sistemele de operare mobile Android, începând cu versiunea 1.6, și Maemo, dar aceste proiecte nu sunt supravegheate personal de dezvoltator și nu există pachete corespunzătoare pe site-ul oficial eSpeak, iar versiunea Android are un număr de erori semnificative atunci când lucrați în unele limbi, în special rusă.

Limbi acceptate

eSpeak acceptă aproximativ cinci duzini de limbi diferite. În timpul instalării, utilizatorului i se cere să indice ce dialecte este interesat să accepte.

Mai jos este o listă de limbi acceptate de sintetizatorul eSpeak și simbolurile acestora care sunt utilizate în setările acestuia.

  • albaneză - mp
  • engleză (americană) - en-us
  • Engleză (britanica cu accent nordic) - en-n
  • Engleză (britanica cu accent West Midlands) - en-wm
  • engleză (clasică britanică) - en
  • Engleză (vorbită în general) - en-rp
  • engleză (scoțienă) - en-sc
  • armeană (occidentală) - hy-west
  • armeană (clasică) - hy
  • Afrikaans - af
  • bosniacă - bs
  • Welsh - cy
  • maghiară - hu
  • vietnameză - vi
  • olandeză - nl
  • Voci ale lui MBROLA (voce xxx) - mb-xxx
  • greacă - el
  • Greaca veche - grc
  • indoneziană - id
  • islandeză - este
  • spaniolă (clasică) - es
  • Spaniolă (Americană Latină) - es-la
  • italiană - it
  • catalană - ca
  • Chineză (cantoneză) - zh-yue
  • Chineză (mandarina) - zh
  • kurdă - ku
  • latină - la
  • letonă - lv
  • Lojban - jbo
  • macedoneană - mk
  • germană - de
  • norvegiană - nu
  • poloneză - pl
  • portugheză (braziliană) - pct
  • portugheză (europeană) - pt-pt
  • română - ro
  • Rusă - ru
  • Sârbă - sr
  • Slovacă - sk
  • slovenă - sw
  • Tamil - ta
  • turcă - tr
  • finlandeză - fi
  • franceza - fr
  • Hindi - salut
  • croată - hr
  • Cehă (vorbită) - cs
  • suedeză - sv
  • Esperanto - eo

Lista limbilor acceptate poate fi extinsă și folosind bibliotecile de voce MBROLA, care pot fi conectate la eSpeak.

eSpeak și MBROLA

MBROLA este un algoritm special de sinteză difonică a vorbirii, pe baza căruia au fost create multe produse software diferite cu includerea tehnologiei text-to-speech (TTS). Acest proiect deține recordul printre alte tehnologii de sinteză a vorbirii pentru numărul de limbi diferite pentru care a fost folosit. Deși vocile MBROLA nu au fost încă create pentru unele limbi comune, inclusiv rusă.

eSpeak poate funcționa împreună cu MBROLA, ceea ce face posibilă utilizarea bibliotecilor de voce ale acestui proiect ca parte integrantă a eSpeak în sine. Acest lucru vă permite să extindeți și mai mult lista de limbi acceptate pentru sintetizarea vorbirii din text.

Puteți utiliza combinația eSpeak și MBROLA pe sisteme de operare precum Windows, Linux și Mac OS X.

Cu toate acestea, nu toate bibliotecile de voce MBROLA acceptă integrarea cu eSpeak.

Principii de implementare

Cuvintele textului introdus pentru sinteză trec prin două etape de procesare:

  • un cuvânt în reprezentare cu litere este convertit într-o succesiune de foneme;
  • un semnal sonor este generat pe baza secvenței recepționate.

Regulile pentru obținerea unei secvențe de foneme sunt stocate sub forma „A, B, C = D”. În cazul în care B este litera în cauză, A și C sunt contextul înconjurător al acelei litere din cuvânt, iar D este fonemul în care acea literă poate fi convertită. Contextul de mediu poate fi specificat fie prin litere specifice, fie prin caractere speciale care denotă grupuri de litere. Regulile sintetizatorului permit definirea ambiguă a unor astfel de lanțuri. Pentru a rezolva această ambiguitate, sintetizatorul atribuie fiecărei reguli o prioritate, care se calculează pe baza numărului de litere implicate în regulă și a gradului de specificitate în definirea contextului de mediu. Regulile pot specifica, de asemenea, diferențe de traducere în funcție de stres.

În eSpeak, sunetele vocale sunt întotdeauna sintetizate, consoanele vocale sunt create prin amestecarea sunetelor sintetizate cu zgomote vocale preînregistrate și toate celelalte sunete sunt pur și simplu înregistrate, de exemplu, [sh].

Fiecare sunet, cu excepția consoanelor fără voce, este reprezentat de o secvență de formanți. Pe lângă informațiile despre formanți, fiecare fonem are informații despre amplitudinea, durata sunetului și întârzierea înainte de următorul fonem. Pe baza acestor parametri, sunetul unei vocale este sintetizat folosind algoritmi implementați în sintetizator. Informațiile despre foneme și formați sunt stocate în fișiere separate, care sunt, de asemenea, compilate ulterior într-un format binar.

Utilitarul eSpeak Edit este furnizat împreună cu sintetizatorul. Aceasta este o aplicație GUI scrisă folosind biblioteca WXLib. Vă permite să editați vizual foneme gata făcute. Fonemul este reprezentat ca un grafic de curbă, unde formanții pot fi selectați secvențial și valorile lor, cum ar fi frecvența, înălțimea și lățimea, pot fi modificate. Datorită acestor capacități, bazate pe foneme gata făcute, puteți obține sunete noi, mai precise pentru o anumită limbă. În același timp, unele foneme nu pot fi obținute prin modificarea celor existente. De exemplu, la dezvoltarea părții în limba rusă a eSpeak, sunetul [р] a fost înregistrat special, deoarece nu exista un analog demn pentru el în alte limbi.

Proiecte care utilizează eSpeak

Suplimente de la terți

Unele limbi nu au reguli simple și universale pentru construirea vorbirii alfabetizate, iar eSpeak necesită componente suplimentare pentru a produce o sinteză de înaltă calitate în aceste limbi. Pentru a evita creșterea dimensiunii pachetului principal eSpeak, aceste componente sunt distribuite separat. În special, în limba rusă nu există reguli generale care să stabilească silaba accentuată în cuvinte. În aceste cazuri, eSpeak încearcă să determine accentul cuvântului, dar pronunția dată nu este adesea cea corectă. Pentru a rezolva această problemă, există un dicționar de pronunție extins special, care trebuie instalat separat de pachetul principal eSpeak.

Pe lângă limba rusă, componentele de corectare a vorbirii eSpeak de la terți sunt disponibile și pentru chineză (putonghua și cantoneză).

Puteți descărca aceste dicționare de pe site-ul oficial al proiectului.

Vezi de asemenea

Scrieți o recenzie despre articolul „ESpeak”

Note

Legături

  • pe .

Extras care descrie ESpeak

Tovarășii soldați care mergeau lângă Pierre nu s-au uitat înapoi, la fel ca el, la locul din care s-a auzit o împușcătură și apoi urletul unui câine; dar o expresie aspră se întindea pe toate feţele.

Depoul, prizonierii și convoiul mareșalului s-au oprit în satul Shamsheva. Totul se înghesuia în jurul focurilor. Pierre s-a dus la foc, a mâncat carnea de cal prăjită, s-a întins cu spatele la foc și a adormit imediat. A dormit din nou același somn pe care a dormit în Mozhaisk după Borodin.
Din nou, evenimentele realității au fost combinate cu vise și din nou cineva, fie el însuși, fie altcineva, i-a spus gânduri și chiar aceleași gânduri care i-au fost spuse în Mozhaisk.
„Viața este totul. Viața este Dumnezeu. Totul se mișcă și se mișcă, iar această mișcare este Dumnezeu. Și atâta timp cât există viață, există plăcerea conștiinței de sine a zeității. Iubește viața, iubește-L pe Dumnezeu. Este cel mai dificil și mai fericit să iubești această viață în suferința cuiva, în inocența suferinței.”
„Karataev” - își amintește Pierre.
Și deodată Pierre s-a prezentat unui bătrân profesor viu, de mult uitat, blând, care l-a predat lui Pierre geografie în Elveția. — Stai, spuse bătrânul. Și i-a arătat lui Pierre globul. Acest glob era o minge vie, oscilantă, care nu avea dimensiuni. Întreaga suprafață a mingii era formată din picături strâns comprimate împreună. Și toate aceste picături s-au mișcat, s-au mutat și apoi s-au contopit din mai multe într-unul, apoi dintr-unul au fost împărțiți în multe. Fiecare picătură a căutat să se întindă, să capteze cel mai mare spațiu posibil, dar alții, străduindu-se pentru același lucru, l-au comprimat, când l-au distrus, când s-au contopit cu el.
„Aceasta este viața”, a spus bătrânul profesor.
„Cât de simplu și clar este,” gândi Pierre. „Cum aș putea să nu știu asta înainte?”
„Există Dumnezeu în mijloc și fiecare picătură se străduiește să se extindă pentru a-l reflecta în cea mai mare dimensiune posibilă. Și crește, se îmbină și se micșorează și este distrus la suprafață, intră în adâncuri și plutește din nou în sus. Iată-l, Karataev, debordând și dispărând. „Vous avez compris, mon enfant, [înțelegi.]”, a spus profesorul.
„Vous avez compris, sacre nom, [Înțelegi, la naiba.]”, strigă o voce și Pierre se trezi.
S-a ridicat și s-a așezat. Un francez, care tocmai dăduse deoparte un soldat rus, stătea ghemuit lângă foc, prăjind carnea pusă pe un berbec. Mâinile venoase, suflecate, păroase, roșii, cu degete scurte, întoarseră cu dibăcie toiagul. O față maronie mohorâtă cu sprâncene încruntate era clar vizibilă la lumina cărbunilor.
— Ca lui est bien egal, mormăi el, întorcându-se repede către soldatul care stătea în spatele lui. -...tâlhar. Va! [Nu-i pasă... un tâlhar, într-adevăr!]
Iar soldatul, învârtind toiagul, se uită posomorât la Pierre. Pierre se întoarse, privind în umbră. Un soldat rus, prizonier, cel care fusese împins de francez, s-a așezat lângă foc și a ciufulit ceva cu mâna. Privind mai atent, Pierre a recunoscut un câine violet, care, dând din coadă, stătea lângă soldat.
- Oh, ai venit? – spuse Pierre. „Ah, Pla...” începu el și nu termină. În imaginația lui, deodată, în același timp, legându-se între ele, a apărut o amintire a privirii cu care Platon îl privea, stând sub un copac, a împușcăturii auzite în acel loc, a urletului unui câine, a fețele criminale ale a doi francezi care au fugit pe lângă el, ale filmului cu o armă fumegândă, despre absența lui Karataev la această oprire, și era gata să înțeleagă că Karataev a fost ucis, dar în același moment în sufletul său, venind de la Dumnezeu știe unde, a apărut o amintire despre seara pe care a petrecut-o cu frumoasa poloneză, vara, pe balconul casei sale din Kiev. Și totuși, fără a lega amintirile acestei zile și fără a trage o concluzie despre ele, Pierre a închis ochii, iar tabloul naturii de vară s-a amestecat cu amintirea înotului, a unei mingi lichide care oscila, și s-a scufundat undeva în apă, încât apa convergea deasupra capului lui.
Înainte de răsărit, el a fost trezit de împușcături și țipete puternice și frecvente. Francezii alergau pe lângă Pierre.
- Les cosaques! [Cazaci!] - strigă unul dintre ei, iar un minut mai târziu o mulțime de fețe rusești l-au înconjurat pe Pierre.
Multă vreme Pierre nu a putut înțelege ce se întâmplă cu el. Din toate părțile auzea strigătele de bucurie ale camarazilor săi.
- Fratilor! Dragii mei, dragii mei! – strigau bătrânii soldați, plângând, îmbrățișând cazacii și husarii. Husacii și cazacii i-au înconjurat pe prizonieri și le-au oferit în grabă rochii, cizme și pâine. Pierre plângea în hohote, aşezându-se printre ei, şi nu putu scoate un cuvânt; l-a îmbrățișat pe primul soldat care s-a apropiat de el și, plângând, l-a sărutat.
Dolokhov stătea la poarta unei case ruinate, lăsând să treacă o mulțime de francezi dezarmați. Francezii, încântați de tot ce se întâmplase, vorbeau tare între ei; dar când trecură pe lângă Dolokhov, care își biciuia ușor ghetele cu biciul și se uita la ele cu privirea lui rece și sticloasă, nefăgăduind nimic bun, conversația lor tăcu. De cealaltă parte stătea cazacul Dolokhov și număra prizonierii, însemnând sutele cu o linie de cretă pe poartă.
- Câți? – l-a întrebat Dolokhov pe cazac care număra prizonierii.
— Pentru a doua sută, răspunse cazacul.
„Filez, filez, [Intră, intră.]”, a spus Dolokhov, după ce a învățat această expresie de la francezi și, întâlnind ochii prizonierilor care treceau, privirea i-a strălucit cu o strălucire crudă.
Denisov, cu fața mohorâtă, și-a scos pălăria, a mers în spatele cazacilor, care duceau trupul lui Petya Rostov într-o groapă săpată în grădină.

Din 28 octombrie, când au început înghețurile, zborul francezilor a căpătat doar un caracter mai tragic: oamenii înghețau și se prăjeau până la foc și continuă să călărească în haine de blană și trăsuri cu bunurile jefuite ale împăratului, regilor și ducilor. ; dar, în esență, procesul de fugă și dezintegrare a armatei franceze nu s-a schimbat deloc de la discursul de la Moscova.
De la Moscova la Vyazma, din cele șaptezeci și trei de mii de puternice armate franceze, fără să socotească gărzile (care în tot timpul războiului nu au făcut decât să jefuiască), din șaptezeci și trei de mii au rămas treizeci și șase de mii (din acest număr, nu mai mult). peste cinci mii au murit în lupte). Iată primul termen al progresiei, care îi determină matematic corect pe cele ulterioare.
Armata franceză în aceeași proporție s-a topit și a fost distrusă de la Moscova la Vyazma, de la Vyazma la Smolensk, de la Smolensk la Berezina, de la Berezina la Vilna, indiferent de gradul mai mare sau mai mic de frig, persecuție, blocarea căii și toate celelalte condiții. luate separat. După Vyazma, trupele franceze, în loc de trei coloane, s-au înghesuit într-o grămadă și au continuat așa până la sfârșit. Berthier i-a scris suveranului său (se știe cât de departe de adevăr își permit comandanții să descrie situația armatei). El a scris:
„Je crois devoir faire connaitre a Votre Majeste l"etat de ses troupes dans les differents corps d"annee que j"ai ete a meme d"observer depuis deux ou trois jours dans differents passages. Elles sont presque debandees. Le nombre des soldats qui suivent les drapeaux este în proporție du quart au plus dans presque tous les regiments, les autres marchent isolement dans differentes directions et pour leur compte, în l "esperance de trouver des subsistances et pour se debarrasser de la discipline. general ils regardent Smolensk comme le point ou ils doivent se refaire Ces derniers jours on a remarque que beaucoup de soldats jettent leurs cartouches et leurs armes vues ulterieures qu"on rallie l"armee a Smolensk en commencant a la debarrasser des non combattans. tels que hommes demontes et des bagages inutiles et du materiel de l"artillerie qui n"est plus en proportion avec les forces actuelles. En outre les jours de repos, des subsistances sont necessaires aux soldats qui sont extenues par la faim et la fatigue; beaucoup sont morts ces derniers jours sur la route et dans les bivacs. Cet etat de choses va toujours en augmentant et donne lieu de craindre que si l"on n"y prete un prompt remede, on ne soit plus maitre des troupes dans un combat. Le 9 noiembrie, a 30 verstes de Smolensk.”
[Este de datoria mea să informez Majestatea Voastră despre starea corpului pe care l-am examinat în marș în ultimele trei zile. Sunt aproape în dezordine totală. Doar un sfert dintre soldați rămân cu stindarde, restul merg pe cont propriu în direcții diferite, încercând să găsească mâncare și să scape de serviciu. Toată lumea se gândește doar la Smolensk, unde speră să se relaxeze. În ultimele zile, mulți soldați și-au aruncat cartușele și armele. Oricare ar fi intențiile voastre ulterioare, beneficiul serviciului Majestății Voastre necesită adunarea corpurilor la Smolensk și separarea de ele cavaleri demontați, neînarmați, convoai în exces și o parte din artilerie, deoarece acum nu este proporțional cu numărul de trupe. Este nevoie de mâncare și de câteva zile de odihnă; soldații sunt epuizați de foame și oboseală; În ultimele zile, mulți au murit pe drum și în bivuacuri. Această suferință este în continuă creștere și ne face să ne temem că, dacă nu se iau măsuri prompte pentru a preveni răul, nu vom avea în curând trupe la comandă în cazul unei bătălii. 9 noiembrie, 30 verste din Smolenko.]
După ce au izbucnit în Smolensk, care li se părea pământul promis, francezii s-au ucis unii pe alții pentru provizii, și-au jefuit propriile magazine și, când totul a fost jefuit, au fugit mai departe.

Astăzi, sintetizatoarele de vorbire utilizate în sistemele de computer desktop sau dispozitivele mobile nu mai par neobișnuite. Tehnologia a parcurs un drum lung și a făcut posibilă reproducerea vocii umane. Cum funcționează totul, unde este utilizat, care este cel mai bun sintetizator de vorbire și ce probleme potențiale le poate întâmpina utilizatorul, vezi mai jos.

Ce sunt sintetizatoarele vocale și unde sunt folosite?

Sintetizatoarele de vorbire sunt programe speciale formate din mai multe module care vă permit să traduceți textul tastat pe tastatură în vorbire umană obișnuită sub formă de sunet.

Ar fi naiv să credem că bibliotecile însoțitoare conțin absolut fiecare cuvânt sau expresie posibilă înregistrată în studiouri de oameni reali. Este pur și simplu imposibil din punct de vedere fizic. În plus, bibliotecile de fraze ar fi de o asemenea dimensiune încât instalarea lor chiar și pe hard disk-uri mari moderne, ca să nu mai vorbim de dispozitive mobile, pur și simplu nu ar fi posibilă.

În acest scop, a fost dezvoltată o tehnologie numită Text-to-Speech (traducere text-to-speech).

Sintetizatoarele de vorbire sunt cele mai utilizate pe scară largă în mai multe domenii, care includ învățarea independentă a limbilor străine (programele au adesea suport pentru 50 de limbi sau mai mult), atunci când trebuie să auziți pronunția corectă a unui cuvânt, ascultând în schimb textele din cărți de lectură, crearea de cuvinte și părți vocale în muzică, utilizarea acestora de către persoanele cu dizabilități, emiterea de interogări de căutare sub formă de cuvinte și fraze rostite etc.

Tipuri de programe

În funcție de domeniul de aplicare, toate programele pot fi împărțite în două tipuri principale: cele standard care convertesc direct textul în vorbire și modulele de vorbire sau vocale utilizate în aplicațiile muzicale.

Pentru o înțelegere mai completă a imaginii, vom lua în considerare ambele clase, dar un accent mai mare va fi pus în continuare pe sintetizatoarele de vorbire pentru scopul lor imediat.

Avantajele și dezavantajele aplicațiilor simple de vorbire

În ceea ce privește avantajele și dezavantajele programelor de acest tip, să luăm în considerare mai întâi dezavantajele.

În primul rând, trebuie să înțelegeți clar că un computer este un computer, care în acest stadiu de dezvoltare poate sintetiza vorbirea umană foarte aproximativ. În cele mai simple programe, există adesea probleme cu plasarea accentelor în cuvinte, calitate redusă a sunetului și în dispozitivele mobile - consum crescut de energie și, uneori, încărcare neautorizată a modulelor de vorbire.

Dar există și o mulțime de avantaje, deoarece mulți oameni percep informațiile audio mult mai bine decât informațiile vizuale. Ușurința de percepție este evidentă.

Cum se folosește un sintetizator de vorbire?

Acum câteva cuvinte despre principiile de bază ale utilizării programelor de acest tip. Puteți instala orice tip de sintetizator de vorbire fără probleme. În sistemele staționare, se folosește un instalator standard, unde sarcina principală va fi selectarea modulelor de limbă acceptate. Pentru dispozitivele mobile, fișierul de instalare poate fi descărcat din magazinul sau depozitul oficial precum Google Play sau AppStore, după care aplicația este instalată automat.

De regulă, atunci când porniți pentru prima dată, nu trebuie să faceți alte setări decât setarea limbii implicite. Adevărat, uneori programul poate oferi să selecteze calitatea sunetului (în versiunea standard, folosită peste tot, frecvența de eșantionare este de 4410 Hz, adâncimea este de 16 biți și rata de biți este de 128 kbps). Aceste cifre sunt mai mici pe dispozitivele mobile. Cu toate acestea, o anumită voce este luată ca bază. Folosind un șablon de pronunție standard, folosind filtre și egalizatoare, se obține sunetul unui astfel de timbru.

În timpul utilizării, puteți selecta mai multe opțiuni pentru traducerea manuală, exprimarea textului existent dintr-un fișier, integrarea în alte aplicații (de exemplu, browsere web) cu activarea rezultatelor căutării sau citirea conținutului textului din paginile online. Este suficient să selectați opțiunea de acțiune dorită, limba și vocea în care vor fi pronunțate toate acestea. Multe programe au mai multe tipuri de voci: atât masculine cât și feminine. Pentru a activa procesul de redare, se folosește de obicei butonul de pornire.

Dacă vorbim despre cum să dezactivați sintetizatorul de vorbire, pot exista mai multe opțiuni. În cel mai simplu caz, utilizați butonul de oprire a redării din programul în sine. În cazul integrării în browser, dezactivarea se realizează în setările extensiei sau prin eliminarea completă a pluginului. Dar cu dispozitivele mobile, în ciuda închiderii imediate, pot apărea probleme, care vor fi discutate separat.

În programele muzicale, setările și introducerea textului sunt mult mai complicate. De exemplu, aplicația FL Studio are propriul modul de vorbire, în care puteți alege să modificați ușor setările pentru ton, viteza de redare etc. Pentru a pune accentul înaintea unei silabe, utilizați simbolul „_”. Dar chiar și un astfel de sintetizator este potrivit doar pentru a crea voci robotizate.

Dar pachetul Vocaloid de la Yamaha este un program de tip profesional. Tehnologia Text-to-Speech este implementată aici în cea mai mare măsură. În setări, pe lângă parametrii standard, puteți seta articulația, glissando, puteți utiliza biblioteci cu vocile interpreților profesioniști, puteți compune cuvinte și fraze, ajustându-le la note și o grămadă de alte lucruri. Nu este de mirare că un pachet cu o singură voce ocupă aproximativ 4 GB sau mai mult în distribuția de instalare, iar după despachetare durează de două până la trei ori mai mult.

Sintetizatoare de vorbire cu voci rusești: o scurtă prezentare a celor mai populare

Dar să revenim la cele mai simple aplicații și să le luăm în considerare pe cele mai populare.

RHVoice - conform celor mai mulți experți, cel mai bun sintetizator de vorbire, care este o dezvoltare rusă, sunt disponibile trei voci în versiunea standard (Alexander, Irina, Elena). Setarile sunt simple. Iar aplicația în sine poate fi folosită atât ca program independent, compatibil cu SAPI5, cât și ca modul de ecran.

Acapela este o aplicație destul de interesantă, a cărei caracteristică principală este o voce aproape perfectă a textului în peste 30 de limbi. În versiunea obișnuită, însă, este disponibilă o singură voce (Alena).

Vocalizer este o aplicație puternică cu vocea feminină Milena. Foarte des, acest program este folosit în centrele de apeluri. Există multe setări pentru stres, volum, viteza de citire și instalarea de dicționare suplimentare. Principala diferență este că motorul de vorbire poate fi integrat în programe precum Cool Reader, Moon+ Reader Pro sau Full Screen Caller ID.

Festival este un utilitar puternic de sinteză și recunoaștere a vorbirii, creat pentru sistemele Linux și Mac OS X. Aplicația vine cu cod sursă deschis și, pe lângă pachetele de limbi standard, acceptă chiar finlandeză și hindi.

eSpeak este o aplicație de vorbire care acceptă peste 50 de limbi. Principalul dezavantaj este că fișierele cu vorbire sintetizată sunt salvate exclusiv în format WAV, ceea ce ocupă mult spațiu. Dar programul este multiplatform și poate fi folosit chiar și pe sisteme mobile.

Probleme cu sintetizatorul de vorbire în Google Android

Când instalează sintetizatorul de vorbire „nativ” de la Google, utilizatorii se plâng în mod constant că începe spontan să încarce module de limbă suplimentare, ceea ce nu numai că poate dura o perioadă destul de lungă, dar și risipă de trafic.

Puteți scăpa de acest lucru în sistemele Android foarte simplu. Pentru a face acest lucru, utilizați meniul de setări, apoi accesați secțiunea Limbă și introducere vocală, selectați căutare vocală și în opțiunea de recunoaștere a vorbirii offline, faceți clic pe cruce (dezactivare). În plus, se recomandă să ștergeți memoria cache a aplicației și să reporniți dispozitivul. Uneori poate fi necesar să dezactivați notificările în aplicația în sine.

Care este rezultatul?

Pentru a rezuma, putem spune că, în majoritatea cazurilor, cele mai simple programe sunt potrivite pentru utilizatorii obișnuiți. RHVoice este lider în toate ratingurile. Dar pentru muzicienii care doresc să obțină o voce cu sunet natural, astfel încât diferența dintre vocea live și sinteza computerului să nu fie simțită după ureche, este mai bine să acordați preferință programelor precum Vocaloid, mai ales că pentru ei sunt produse multe biblioteci de voce suplimentare, iar setările au atât de multe posibilități încât aplicațiile primitive, după cum se spune, nici măcar nu erau aproape.

VoiceFabric este un serviciu de internet care vă permite să exprimați orice informație text într-o voce sintetizată.
O sinteză demonstrativă cu diverse voci este disponibilă pe site-ul voicefabric.ru, cu ajutorul ei puteți evalua calitatea sintezei. Astăzi sunt disponibile 8 voci (feminin și masculin), care pot vorbi 3 limbi (rusă, engleză, kazahă).

Sinteza vorbirii de la MDG este utilă atunci când este necesară personalizarea mesajelor vocale trimise. Soluția vă permite să abandonați complet serviciile unui difuzor și preînregistrarea clipurilor audio în meniul IVR, adică textul scris este convertit instantaneu într-o înregistrare audio și exprimat clientului prin linia telefonică.

De asemenea, folosind voci sintetizate, puteți cărți vocale, videoclipuri și înregistra carduri vocale fără a pierde intonația „naturală”. Voicefabric garantează plasarea corectă a accentelor, citirea corectă a abrevierilor, numerelor, abrevierilor.

Vă puteți înregistra pe site-ul web voicefabric.ru și obțineți secunde gratuite de sinteză, precum și acces la interfața software a serviciului.

Am învățat să recunoaștem vorbirea, deși deocamdată, doar engleză, nu vom sta pe loc, vom merge mai departe, sau mai degrabă în direcția opusă - vom converti textul în vorbire vocală.

Cele mai populare și libere sintetizatoare de vorbire pe care le cunosc și cu care am avut experiență practică: Festival, eSpeak, Deschide Mary.
Să ne uităm la toate 3 în ordine.

Festival

OS: Linux
limba rusa:
da (voce masculina)
Site: http://www.cstr.ed.ac.uk/projects/festival/

Un sintetizator destul de avansat, vine cu următoarele pachete de limbi: engleză (în engleză și pronunție americană), galeză și spaniolă. Există și alte pachete precum spaniolă castiliană, cehă, finlandeză, hindi, italiană, marathi, poloneză, rusă și telugu. Festivalul este inclus cu mai multe distribuții Linux. Sintetizatorul înțelege destul de bine limba rusă, dacă vă jucați cu ortografia cuvintelor și semnele de punctuație, puteți obține o vorbire destul de sănătoasă.

Instalare

Există deja o mulțime de materiale în rețea despre instalarea festivalului și adăugarea limbii ruse, așa că nu voi intra în prea multe detalii, voi spune doar că va trebui să instalați festivalul în sine (instalat din depozit - festival) și pachetul în limba rusă, care este instalat și din depozit (festvox-ru), atunci ar trebui să modificați puțin configurația. Există un articol bun pe această temă.

Utilizare

În consolă:

Echo „Bună ziua” | festival --tts --limba rusă

eSpeak

OS: Linux, Windows, Mac OS X, RISC OS
limba rusa:
da (voce masculina)
Site:

Un sintetizator de vorbire software simplu și compact. Potrivit informațiilor, eSpeak este utilizat în sistemele de operare mobile Android, începând cu versiunea 1.6, și Maemo. Versiunile pentru Windows și Linux sunt actualizate în mod regulat împreună cu codul sursă, cu alte platforme lucrurile stau mai rău. Sunt acceptate multe limbi, inclusiv rusă, engleză, franceză, spaniolă etc. Dacă comparăm vorbirea rusă, eSpeak este inferior Festivalului, engleza, franceza și germana sunt la egalitate.

Instalare

În unele distribuții, Linux eSpeak este deja instalat, dacă nu, poate fi instalat și pur și simplu din consolă (espeak), sau descărcam versiunea dorită de pe, de exemplu, în cazul Windows.

Utilizare

În consolă:

Speak "Bună lume!" -vru -s 100

Unde:
-v limbaj (ru, en, de)
-s viteza (80-450)

Deschide Mary

OS: Linux, Windows, Mac OS X
limba rusa:
da (voce masculina)
Site:
http://mary.opendfki.de

Un sintetizator tânăr și, până acum, nu foarte popular, dar în același timp foarte funcțional și avansat. Scris în Java, ceea ce îi permite să fie independent de platformă. Funcționează pe principiul client-server. Are suplimente avansate de vorbire, cu ajutorul cărora puteți specifica intonația, timbrul și viteza pentru fiecare cuvânt. Vine cu un client scris în același Java, cu o interfață grafică.

Instalare

Instalarea este destul de ușoară și nu necesită niciun efort, descărcați programul de instalare Java (nu uitați că este necesar Java) . Lansați programul de instalare și urmați instrucțiunile. La o anumită etapă de instalare, vi se va cere să selectați pachetele de limbi pe care le vom folosi. , Pentru mine, am ales rusă și engleză.

Utilizare

Accesați directorul de instalare, accesați folderul coșul de gunoiși porniți serverul - maryserver. Imediat ce serverul este pornit, lansați clientul - maryclient.

Dacă totul a fost făcut corect, după ce ați apăsat butonul „Play” ar trebui să puteți auzi pronunția textului scris. În folderul exemplu, directorul de mai sus, există exemple de implementări client pentru diferite limbi.

Concluzie

Festival: pentru proiecte medii casnice și corporative (informarea despre vreme, citirea scrisorilor, „limbaj” pentru roboți etc.).
eSpeak: pentru implementarea sarcinilor mici (anunțarea orei curente, informarea despre blocajele în trafic, numărul de litere din cutia poștală, spațiul liber pe hard disk etc.).
OpenMary: pentru proiecte mari (sisteme smart home, voice-over de programe, citirea textelor mari).

Sintetizatoarele de vorbire instalate pe computere sau dispozitive mobile nu mai par a fi programe atât de neobișnuite ca înainte. Datorită tehnologiei moderne, un computer desktop obișnuit poate reproduce vocea umană.

Cum funcționează sintetizatoarele de vorbire? Unde sunt folosite? Care este cel mai bun sintetizator de vorbire? Răspunsurile la aceste și alte întrebări sunt prezentate în acest articol.

Concept general

Sintetizatoarele de vorbire sunt programe speciale care constau dintr-un număr de module care oferă capacitatea de a traduce textele tastate în propoziții rostite de o voce umană. Nu trebuie să credeți că întreaga bază de date de cuvinte și fraze a fost înregistrată de oameni reali în studiouri profesionale. Este imposibil din punct de vedere fizic să duci la bun sfârșit o astfel de sarcină. O bibliotecă cu un număr atât de mare de fraze nu poate fi instalată pe niciun computer modern, cu atât mai puțin pe telefoanele mobile. În acest scop, dezvoltatorii au creat tehnologia Text-to-Speech.

Domeniul de aplicare

Sintetizatoarele de vorbire sunt folosite în învățarea limbilor străine, ascultarea textelor de pe paginile cărților, crearea de părți vocale, emiterea de interogări de căutare sub formă de fraze vorbite etc.

Ce tipuri de programe există? În funcție de domeniul de aplicare, utilitarele pot fi împărțite în 2 tipuri: cele obișnuite care convertesc textul tastat în vorbire și module vocale speciale utilizate în aplicațiile muzicale.

Avantaje și dezavantaje

În momentul de față, computerul sintetizează vorbirea umană doar aproximativ. În cele mai simple programe, puteți observa probleme cu sunetul și plasarea corectă a accentului în diferite cuvinte. Sintetizatoarele de vorbire instalate pe dispozitivele mobile consumă multă energie. Adesea este posibil să observați descărcarea neautorizată a modulelor suplimentare.

Avantajele includ ușurința de percepție. Mulți utilizatori consideră că este mult mai ușor să asimileze informații audio decât orice alt fel.

Cele mai bune sintetizatoare de vorbire cu voci rusești

Programul RHVoice a fost creat de Olga Yakovleva. Versiunea standard a aplicației include 3 voci. Setarile sunt foarte simple. Programul poate fi folosit atât ca aplicație de sine stătătoare, compatibilă cu SAPI5, cât și ca modul suplimentar de ecran.

Sintetizatorul de vorbire Acapela diferă de analogii săi prin pronunția ideală a textului. Aplicația acceptă mai mult de 30 de limbi ale lumii. În versiunea gratuită, este disponibilă doar 1 voce feminină.

Vocalizer este adesea folosit în centrele de apeluri. Utilizatorul poate regla accentul, volumul și viteza de citire. Dacă este necesar, sunt încărcate dicționare suplimentare. Există 1 voce feminină în aplicație. Motorul de vorbire este integrat automat în programele de citire a cărților în format electronic.

Utilitarul eSpeak acceptă peste 50 de limbi. Dezavantajul programului este că salvează fișierele de sunet doar în format WAV, ceea ce necesită mult spațiu pe hard disk.

Aplicația Festival este un utilitar puternic de sinteză a vorbirii care acceptă chiar finlandeză și hindi.

Instalarea programului

Cum se utilizează acest tip de aplicație? Mai întâi trebuie să instalați programul. Sistemele de operare ale computerelor folosesc un program de instalare standard, în care utilizatorul trebuie doar să selecteze modulul de limbă acceptat de utilitar. Programul de instalare pentru dispozitivele mobile poate fi descărcat de pe site-ul oficial, Google Play și App Store. Instalarea aplicației are loc automat.

Prima lansare a programului

În această etapă, utilizatorul trebuie doar să seteze limba implicită. Uneori trebuie să rețineți calitatea sunetului. Versiunea standard presupune o frecvență de eșantionare de 4410 Hz, o adâncime de 16 biți și o rată de biți de 128 kbps. În sistemul de operare mobil, cifrele pot fi mai mici. O voce specifică este folosită ca bază.

Filtrele și egalizatoarele vă ajută să obțineți sunetul dorit. Utilizatorul are trei opțiuni pentru traducerea textului. El poate introduce propoziții pe tastatură, poate activa sunetul unui fișier existent sau poate instala o extensie de browser care convertește conținutul paginilor web în vorbire. Este suficient să notăm cursul necesar de acțiune, timbrul vocii și limba în care va fi rostit textul. Pentru a începe procesul de redare, faceți clic pe butonul „Start”.

Lucrul cu programe complexe

În aplicațiile muzicale, setările sunt mult mai complexe. În modulul de vorbire al programului FL Studio, utilizatorul poate selecta mai multe tipuri de voci, precum și specifica tonul și viteza de redare. Accentuările sunt plasate înaintea silabelor folosind simbolul „_”. Cu ajutorul unui astfel de sintetizator de vorbire, puteți crea doar o voce robotică.

Vocaloid este o aplicație de tip profesional. În plus față de parametrii obișnuiți, utilizatorul poate selecta articulația și glissando. Utilitarul are o bază de date cu voci profesionale. Dacă doriți, puteți ajusta propoziții întregi pentru a se potrivi cu notele. Biblioteca cu voce numai ocupă mai mult de 4 GB în formă comprimată.

„Google Speech Synthesizer”: ce este acest program?

În mai 2014, compania a oferit utilizatorilor posibilitatea de a încerca un nou produs gratuit. Ce este Google Speech Synthesizer pe Android? Acesta este un program care citește text pe ecranul unui dispozitiv mobil sau tabletă. Acum nu mai este nevoie să instalați utilități terțe care necesită o licență. „Google Speech Synthesizer” este folosit atunci când citiți cărți electronice, ascultați pronunția corectă a cuvintelor și lansați aplicația TalkBack.

Noua versiune a programului Google Speech Synthesizer 3.1 acceptă acum engleză, italiană, spaniolă, coreeană, germană, olandeză, poloneză, portugheză, rusă și franceză. Unde pot găsi pachete vocale? Acestea sunt descărcate din aplicația în sine.

Avantajele și dezavantajele produsului de la Google

Particularitățile vocii feminine vorbitoare de rusă sunt sunetul clar, puternic și intonația lină. Viteza de redare poate fi ajustată în setările programului. Utilizatorii care folosesc TalkBack și localizarea în limba rusă a sistemului de operare Android ar trebui să fie precauți atunci când trec la sintetizatorul de vorbire dacă aplicația a fost setată anterior la o altă voce în mod implicit. Este posibil să aveți probleme la menținerea controlului auditiv al dispozitivului dvs. mobil. Aproape toate vocile, cu excepția rusei, nu pot procesa propoziții în chirilic.

Printre dezavantaje, se poate observa o reacție întârziată la citirea textelor constând din fraze în diferite limbi. Vocea rusă se distinge prin note metalice de timbru. Este posibil să auziți un zgomot la frecvențe joase. Avantajele includ stabilitatea aplicației și calitatea acceptabilă a citirii cuvintelor în limba engleză.

„Google Speech Synthesizer”: cum se utilizează programul

Pentru ca utilitarul să funcționeze așa cum ar trebui, trebuie să îl actualizați la cea mai recentă versiune. Pentru a activa procesul de rostire a textului, trebuie să deschideți setările. În secțiunea „limbă și introducere”, trebuie să bifați caseta „sinteză vorbire”. De asemenea, trebuie remarcată linia „sistem implicit”. Nu uitați că pachetele de voce din programul în sine trebuie, de asemenea, actualizate.

Probleme la lucrul cu utilitarul

Dacă este necesar, utilizatorul poate dezactiva aplicația. În cele mai simple utilități, butonul de oprire se află în programul însuși. Dezactivarea unei extensii instalate în browser se face prin dezactivarea suplimentului sau eliminarea completă a pluginului. Probleme pot apărea și la utilizarea programului pe un telefon mobil. Faptul este că sintetizatorul de vorbire începe automat să încarce module de limbă de care utilizatorul nu are nevoie.

Acest proces necesită mult timp și consumă semnificativ traficul. Cum pot dezactiva Google Speech Synthesizer pe dispozitivul meu mobil și să scap de această problemă? Mai întâi trebuie să deschideți setările aplicației. Apoi trebuie să selectați secțiunea „limbă și intrare vocală”. Apoi trebuie să marcați ultima linie.

După ce ați selectat căutarea vocală, ar trebui să faceți clic pe cruce de lângă elementul „recunoaștere vocală offline”. Apoi este recomandat să ștergeți memoria cache a aplicației. Apoi, trebuie să reporniți telefonul mobil. Pentru a dezactiva complet utilitarul, trebuie să deschideți secțiunea „aplicații” din setări, să selectați un sintetizator de vorbire din listă și să faceți clic pe butonul „oprire”.

Dezinstalarea unui program

Se întâmplă ca utilizatorul să nu folosească deloc Google Speech Synthesizer. Este posibil să eliminați utilitarul de pe un dispozitiv mobil? Pentru a face acest lucru, trebuie să deschideți Google Play. Apoi ar trebui să selectați sintetizatorul de vorbire din lista de programe instalate și să faceți clic pe butonul „Ștergere”.

Rezultate

Aplicațiile cu o interfață simplă sunt potrivite pentru utilizatorii obișnuiți și persoanele cu dizabilități. Acesta poate fi fie RHVoice, fie Google Speech Synthesizer. O voce rusă va citi textul afișat pe ecran. Utilizatorul mediu nu are nevoie de mai mult.

Muzicienilor li se recomandă să acorde preferință programului profesional Vocaloid. Aplicația are biblioteci de voce suplimentare și multe opțiuni diferite. Programul vă va permite să obțineți o voce naturală. La urma urmei, este atât de important pentru muzicieni încât sinteza computerului să nu fie perceptibilă de ureche.

mob_info