Pochi giorni fa è uscito un articolo su Science dal titolo “The Parable of Google Flu: Traps in Big Data Analysis” in cui si discute di come una grande quantità di dati possa avere un potenziale incredibile per la comprensione del comportamento umano.
In particolare, gli autori esaminano lo strumento di aggregazione dei dati che si riferisce al Google Flu Trend (GFT), che è stato progettato per fornire un monitoraggio in tempo reale dei casi d’influenza in tutto il mondo, utilizzando come base le ricerche fatte su Google su questa malattia.
La tematica non è nuova e riecheggia altri articoli dello stesso tenore, ma meno focalizzati sui temi sociali. Uno di questi apparve alla fine del 2013 pubblicato su Wired intitolato "The End of Theory: The Data Deluge Makes the Scientific Method Obsolete".
In entrambi i casi la conclusione è che i così detti Big data devono essere trattati in modo cautelativo perchè:
1 ) I Big data sono in generale posseduti da istituzioni private e in generale non sono scientificamente calibrati. Questo non li rende inutili da un punto di vista scientifico, ma bisogna analizzarli in modo tale da scoprire se non siano affetti da un qualsiasi “bias” incognito.
Nel caso in questione dell’algoritmo di Google le modifiche apportate avevano influito sul risultato finale.
2) I Big data e i codici di calcolo devono essere più trasparenti, in modo che altri possano sottoporli a varie analisi comparative. Questo è un problema difficile, perché sono coinvolti degli interessi privati legittimi e dei problemi di privacy. Tuttavia il problema rimane e sta ai ricercatori e ai sostenitori della privacy capire come questo può essere risolto.
3) Un punto importante è che non si tratta tanto della dimensione dei dati, quanto piuttosto dell’obiettivo che si vuole ottenere. Questo coinvolge l’uso di modelli e di metodiche che devono essere prima provate su casi limitati, piuttosto che fare un approccio puro su tutti i Big data.
4 ) Più in generale, il mondo scientifico dovrebbe costruire le basi per fare delle collaborazioni con chi possiede i Big data (ad esempio, infrastrutture sicure, intese giuridiche per la condivisione dei dati, ecc.) In secondo luogo, c'è bisogno di molto più lavoro svolto per costruire un ponte tra gli scienziati informatici che lavorano su grandi dati e quelli che si occupano di scienze sociali.
5) I Big data devono essere analizzati anche in funzione di teorie e modelli, per cui prima di stabilire la morte di questi, bisogna andare cauti. Seppure il miglior approccio sia quello che potremmo chiamare “l’esplorazione sperimentale”, diremo guardare a 360 gradi, l’uso delle teorie e dei modelli è necessario per raggruppare e analizzare i dati, siano essi big o no.
Per chi volesse sapere com’è andata la storia dell’algoritmo di Google, uno degli estensori dell’articolo, Ryan Kennedy, che insegna statistica di ricerca dice:
"Molte fonti di 'big data' provengono da aziende private, che, come Google, cambiano continuamente il loro servizio in conformità con il loro modello di business. Abbiamo bisogno di una migliore comprensione di come questo influenza i dati che producono, altrimenti corriamo il rischio di trarre conclusioni errate e adottare politiche improprie".
Per inciso, aggiungo io, i risultati della pandemia d’influenza erano sovrastimati. Quanto è costata alla collettività?
Discussion about this post