b/View

Reti neurali. Object recognition: uomo-macchina a confronto

Alessandro Polli | Settembre 27, 2017

Sebbene le applicazioni di object recognition siano enormemente progredite negli ultimi anni, gli animali – a partire dalle api agli uccelli, per arrivare all’uomo – mostrano una ineguagliata capacità di ricerca visiva in scene complesse, resa possibile dalla presenza di un meccanismo di apprendimento delle relazioni – essenzialmente di natura probabilistica − che legano gli oggetti al contesto in cui sono collocati.

Con riferimento alla visione umana, questo meccanismo è stato oggetto di uno studio condotto da un team coordinato da Miguel P. Eckstein del Dipartimento di Psicologia e neuroscienze dell’Università di Santa Barbara CA − «Humans, but Not Deep Neural Networks, Often Miss Giant Targets in Scenes» −  i cui risultati sono stati pubblicati su Current Biology. Secondo lo studio, l’essere umano è in grado di decodificare rapidamente informazioni visive in una scena complessa indirizzando la ricerca verso gli oggetti la cui dimensione è più congruente con quella attesa in base all’ambiente visualizzato.

I ricercatori hanno condotto un esperimento molto interessante articolato in due fasi. Nella prima, hanno collocato un oggetto di dimensioni molto più grandi del normale (uno spazzolino da denti alto oltre un metro) vicino ad un lavabo e hanno fotografato la scena. In seguito, hanno sottoposto l’immagine ad un campione di osservatori, scoprendo che gran parte del campione impiegava tempo a individuare lo spazzolino da denti. In sintesi un osservatore ha difficoltà a trovare un oggetto se le sue dimensioni sono diverse da quelle attese e incongruenti con il resto della scena.

Nella seconda fase, il team ha fotografato una scrivania su cui era collocato un desktop e un operatore che digitava sulla tastiera del pc, sottoponendo la scena ad una rete neurale addestrata ad individuare un telefono cellulare standard, cioè dotato di tastiera. Poiché nell’immagine sottoposta alla rete neurale non era presente il cellulare, l’applicazione di object recognition ha scambiato nel 90% dei casi la tastiera per il telefono cellulare, essendo presente nella scena la mano dell’operatore, oggetto frequentemente associato alle immagini di cellulari utilizzate come training set.

In sintesi, una rete neurale di ultima generazione non ha difficoltà nell’individuare oggetti di dimensioni diverse da quelle attese presenti in una scena, ma può essere indotta in errore dalla presenza di altri oggetti, associati a quello cercato, ma inconsistenti con quello effettivamente presente sulla scena.

I risultati dello studio potrebbero avere grande importanza per migliorare le prestazioni delle attuali applicazioni di object recognition. Infatti, non essere in grado di individuare gli oggetti quando non sono della dimensione attesa o non sono congruenti con il resto della scena non è un deficit dell’essere umano. Piuttosto, non prestare attenzione a tali oggetti è il risultato di un’utile strategia messa in atto dal cervello per non essere indotto in errore da potenziali fattori di disturbo, cioè a minimizzare i cosiddetti «falsi positivi».

Fonte: Current Biology

Categorie