Autore: Francesca Greco
L’Emotional Text Mining (ETM) è un algoritmo innovativo per l’analisi automatizzata di collezioni di testi, costruito attorno ad una procedura non supervisionata di machine learning.
Il progetto ETM nasce per rispondere ad una specifica esigenza di mercato. Infatti, attualmente non esistono applicazioni per la raccolta di dati testuali da fonti aperte e la successiva estrazione di informazione strutturata con procedure automatizzate. L’ETM è stato sviluppato per svolgere il secondo compito.
In particolare, l’idea progettuale che ha ispirato l’ETM è definire un algoritmo sufficientemente generale da automatizzare tutte quelle attività di knowledge management che presuppongono lo svolgimento di analisi testuali e che attualmente richiedono l’intervento di un operatore umano, non assistito da supporti IT, in una o più fasi della procedura.
L’obiettivo della completa automatizzazione ha quindi comportato l’esclusione di tutte le metodologie supervisionate di machine learning e il riferimento a metodologie non supervisionate.
Inoltre, il disegno dell’ETM è stato profondamente influenzato da un approccio socio-costruttivista. L’ipotesi di base è che gli individui categorizzano in maniera cosciente la realtà e, allo stesso tempo, la simbolizzano emozionalmente a livello inconscio.
Di conseguenza, l’analisi dei dati testuali deve catturare e estrinsecare la «densità» emozionale convogliata da parole o insiemi di parole − da qui il nome dell’algoritmo − tramite idonei modelli conoscitivi che si traducono in metodologie statistiche. Tali metodologie, selezionate fra le tecniche non supervisionate, fanno emergere ricorrenze e relazioni tra nodi di una rete, classificano i testi in gruppi omogenei e individuano dimensioni latenti, che organizzano i testi e individuano categorie emozionali.
Nella sua fase di sperimentazione, l’ETM è stato applicato con successo ad una vasta gamma di ambiti tematici, dal sentiment nelle competizioni elettorali ai problemi connessi al brand management, dall’analisi della percezione della sicurezza da parte dell’opinione pubblica alla valutazione del potenziale comunicativo degli utilizzatori dei social network.