Microsoft lansează VibeVoice – sinteză vocală AI


 

Microsoft lansează VibeVoice-1.5B – sinteză vocală AI open-source, cu conversații de până la 90 de minute

Microsoft a anunțat VibeVoice-1.5B, un model AI open-source revoluționar pentru sinteza vocală (text-to-speech), capabil să genereze până la 90 de minute de conversație cu patru voci distincte. Această inovație va schimba modul în care sunt create podcasturile, cărțile audio sau conținutul multimedia accesibil.

Arhitectură de ultimă generație
VibeVoice combină un model LLM bazat pe Qwen2.5-1.5B cu tokenizatoare acustice și semantice, astfel încât poate procesa secvențe foarte lungi de dialog, menținând fidelitatea audio la un nivel ridicat. Structura inovatoare separă clar procesarea semantică de detaliile acustice, obținând alternarea naturală a vorbitorilor și păstrarea identității vocale pe termen lung.

Versatilitate și performanță
VibeVoice poate genera simultan patru identități vocale distincte, cu alternanță fluentă pe tot parcursul conversației, acoperă engleza și chineza și poate sintetiza inclusiv voci pentru cântece – o inovație printre modelele open-source text-to-speech.

Open-source și accesibil
Modelul este lansat sub licență MIT și disponibil gratuit pe GitHub și Hugging Face, putând fi folosit pe hardware obișnuit (ex: RTX 3060 cu doar 7 GB VRAM). Microsoft pregătește deja o variantă de 7 miliarde parametri, dedicată streamingului vocal AI la scară largă.

Siguranță și transparență
VibeVoice aduce watermark-uri și restricții clare pentru prevenirea utilizărilor neetice sau imitării vocii umane fără acordul persoanei, astfel încât să fie folosit responsabil.

Limitări
Momentan, suportă doar engleză și chineză, nu permite suprapuneri vocale și nu generează sunete de fundal sau muzică, dar democratizează accesul la tehnologiile de sinteză vocală avansată.


Surse principale și suplimentare:

Comentarii