Il ricorso all’IA ha dimezzato il tempo di latenza di Gboard e diminuito la necessità di correzioni manuali da parte dell’utilizzatore, permettendo l’introduzione di nuove funzionalità.
In un post pubblicato il 24 maggio scorso su Google Research Blog, due ricercatori della multinazionale di Mountain View − Françoise Beaufays e Michael Riley − svelano i miglioramenti apportati a Gboard, la tastiera virtuale dei dispositivi Android, per migliorare l’esperienza di digitazione.
Quando un utilizzatore medio digita su un touchscreen, notano Beaufays e Riley, è del 35% più lento rispetto a quando usa una tastiera fisica. Inoltre la digitazione touch è soggetta ad errori fisici (causati dal fatto che le dimensioni della tastiera virtuale sono spesso ridotte rispetto a quelle delle dita dell’utilizzatore), cognitivi (gli errori grammaticali, ad esempio, possono indurre in errore l’algoritmo che sovrintende alla funzionalità di completamento della parola) e tecnici (dovuti alla lentezza dell’elaborazione durante le operazioni di digitazione e quelle di correzione/cancellazione).
Al fine di migliorare i tempi di risposta di Gboard, il team di Google ha introdotto lo stesso approccio che consente a Google Assistant di tradurre comandi vocali in testo.
In precedenza, per anticipare i movimenti sul touchscreen e controllare gli errori fisici, Gboard adottava un modello probabilistico – basato su una distribuzione di Gauss-Laplace − mentre gli errori cognitivi e tecnici erano trattati tramite un semplice modello basato su regole.
Nella nuova versione di Gboard il controllo di queste funzionalità è affidato ad una «long short-term memory», cioè una particolare rete neurale ricorsiva che si è dimostrata efficiente per l’analisi di successioni temporali di dati – quali quelle generate dallo scorrimento del dito sul touchscreen. L’algoritmo provvede a pre-segmentare il flusso di dati, al fine di alimentare il training set della rete neurale, ricorrendo ad un criterio di classificazione connessionista. Individuata e classificata la sequenza, un trasduttore a stati finiti – uno strumento di rappresentazione formale del comportamento di sistemi dinamici a valori discreti assumenti un numero finito di stati in ingresso e in uscita − individua la sequenza di parole più verosimile in base al movimento del dito sul touchscreen.
Nel complesso, concludono Beaufays e Riley, il tempo di latenza per la decodifica dei movimenti sul touchscreen si è dimezzato, la necessità di correzioni manuali da parte dell’utilizzatore è diminuita del 10%, permettendo l’introduzione in Gboard di nuove funzionalità, quali la traslitterazione di 22 lingue indiane ufficiali.
Fonte: Google Research Blog