b/View

Text mining. Quanto è interdisciplinare un lavoro scientifico?

Alessandro Polli – Dicembre 12, 2017

Negli ultimi anni l’interdisciplinarità − intesa come quella «rete di rapporti di complementarità, di integrazione e di interazione per cui discipline diverse convergono in principî comuni sia nel metodo della ricerca sia nell’ambito della costruzione teorica» − ha rappresentato uno degli indirizzi strategici della ricerca scientifica, in quanto chiave per affrontare sfide complesse e accelerare l’innovazione. Per incentivare la collaborazione tra discipline e la diffusione di metodi computazionali in tutti i settori della ricerca, i lavori interdisciplinari sono stati sostenuti da ingenti risorse finanziarie, anche con la collaborazione delle imprese.

Ovviamente nasce l’esigenza di valutare l’efficacia delle risorse finanziarie mobilitate per raggiungere l’obiettivo descritto, in particolare nell’orientamento della ricerca e delle pratiche accademiche. E poiché la letteratura scientifica è oggi fruibile prevalentemente attraverso canali digitali, disponiamo di ampi corpora di articoli scientifici e tesi di PhD in formato digitale, su cui applicare un’ampia gamma di tecniche di text mining.

Tuttavia fino a tempi recenti le possibilità di analisi erano ristrette dal tipo di approccio seguito dai ricercatori, che nella valutazione dell’interdisciplinarità applicavano essenzialmente tecniche incentrate sull’analisi delle bibliografie, che nella maggior parte dei casi costringono gli analisti a intervenire manualmente, mentre solo recentemente si è passati all’analisi automatica degli abstract.

Un team formato da tre ricercatori italiani – Federico Nanni, Laura Dietz e Simone Paolo Ponzetto – ha recentemente pubblicato i risultati di una ricerca su Digital Scholarship in the Humanities (DSH, è la rivista scientifica dell’Università di Oxford che si occupa prevalentemente di metodi computazionali applicati alle scienze umanistiche) in cui confrontano diverse tecniche di classificazione (basate su metriche quali il TF-IDF e la Latent Dirichlet Allocation) con le prestazioni di un algoritmo (Support Vector Machine) estremamente diffuso nel machine learning applicato alla classificazione, dimostrando che questa tecnica fornisce risultati di gran lunga più accurati nella individuazione dell’interdisciplinarità di un lavoro scientifico.

Lo studio dimostra che l’interdisciplinarità, infatti, non sempre è identificata dalla presenza di termini specifici della o delle discipline di riferimento dell’articolo analizzato, mentre altri fattori giocano un ruolo essenziale. Il team di ricerca, dopo aver raccolto 200 mila abstract in inglese dal portale DART-Europe, relativi a tesi di PhD pubblicate tra il 1980 e il 2015, di cui circa 12 mila italiane, ne hanno valutato l’interdisciplinarità applicando la metodologia di machine learning descritta e analizzando in particolare quanti, fra i lavori pubblicati in ambito umanistico e di scienze della vita, comprendessero applicazioni di metodi quantitativi. Pochi, in realtà. Tra il 5 e il 15%.

Fonte: Digital Scholarship in the Humanities

Categorie