I ricercatori dell’azienda di Sunnyvale hanno dimostrati che è possibile effettuare sintesi vocale con velocità 400 volte superiori a quelle dei sistemi esistenti.

 

 

I sistemi di sintesi vocale del testo, comunemente indicati come text-to-speech (TTS), rappresentano componenti essenziali di molti dispositivi, come i navigatori satellitari e tutti i dispositivi Android, in quanto consentono l’interazione uomo-macchina senza l’ausilio di interfacce video.

I moderni sistemi TTS sono basati su complesse procedure di elaborazione a più stadi, ciascuno dei quali, rispetto a funzionalità ed euristiche, richiede un processo di ingegnerizzazione ad hoc. A causa di tale complessità, lo sviluppo di un nuovo sistema TTS è difficile e richiede molto lavoro.

Baidu Research ha presentato a fine febbraio DeepVoice, un sistema TTS interamente basato su reti neurali profonde. Il principale ostacolo per la costruzione di un simile sistema è stato la velocità della sintesi vocale, che in precedenti tentativi aveva richiesto un tempo variabile tra pochi minuti e diverse ore per ottenere un risultato. I ricercatori della Baidu Research hanno risolto il problema dimostrando che è possibile effettuare sintesi vocale in tempo reale con una velocità 400 volte superiore ai sistemi basati su WaveNet.

L’architettura di DeepVoice è ispirata ai sistemi TTS tradizionali, ma sostituisce tutti le componenti con reti neurali e semplifica molte funzioni, rendendo DeepVoice più veloce e più facilmente applicabile a nuovi insiemi di dati, senza alcuna necessità di processi di ingegnerizzazione ad hoc.

Il paper che illustra le principali caratteristiche di DeepVoice sarà presentato alla International Conference on Machine Learning (ICML) 2017, che si svolgerà a Praga dal 21 al 23 aprile.

Fonte: Baidu Research