È un po’ di tempo che si sente aleggiare una frase composta da due parole: Big Data. Sembra la soluzione di ogni problema. I politici l’hanno fatta propria e così anche alcune società di consulenza. Al cittadino può dire nulla o tutto, a seconda del suo umore. Eppure pochi sanno di che si parla. Nell’ambiente dei Big Data circola la battuta: Big Data + Wrong Methods = Big Fail. Ciò sta a indicare che senza un metodo di analisi corretto non è possibile ottenere un buon risultato, anzi si ottiene un pessimo risultato aggravato da uno sperpero di denaro commisurato con la quantità di dati da gestire (big fail in senso economico).
Intanto cominciamo a dire che Big Data è una locuzione che viene da lontano: in precedenza si chiamava Data Mining. Fin qui nulla di nuovo, quello che era Data Mining ora si chiama Big Data. Ma volete mettere l’impatto mediatico di Big Data rispetto a quello precedente? Prima ci si sentiva intrappolati in una miniera di dati, e ci vedevamo proni a scavare tra le informazioni, ora invece siamo oggetto della grandezza dei dati, siamo parte di loro.
Molte società di consulenza hanno iniziato la conquista dell’Eldorado dei Big Data. Recenti analisi hanno dimostrato che il mercato delle grandi quantità di dati genererebbe 40 miliardi di dollari entro il 2016 che crescerà del 14 per cento ogni anno fino al 2020. Le aziende del settore stanno facendo a gara per sfruttare questa massa enorme di opportunità ma sono rare le aziende che offrono un metodo innovativo e adattato alle sfide dei Big Data.
Innanzitutto partiamo dalla gestione del dato. La crescita dei dati, in alcuni settori, quali quelli della larga distribuzione commerciale, della pubblica amministrazione, della sanità fino a quelli legati alle sequenze geniche, alla epigenetica e alla epigenomica, per citarne alcuni, ha reso obbligatori nuovi concetti di gestione del dato stesso. I Big Data sono dell’ordine degli Zettabyte, ovvero di miliardi di Terabyte (milione di miliardi di byte). Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.
Era necessario rendere il dato semplice e senza infrastrutture e per far questo era necessario creare un software di gestione che non formattasse l’insieme dei dati secondo i tradizionali RDBMS (Relational Database Management System), ma piuttosto secondo sistemi con elevata scalabilità e soluzioni basate sulla NoSQL .
L’espressione NoSQL fa riferimento al linguaggio SQL, che è il più comune linguaggio di interrogazione dei dati nei database relazionali. In questo caso viene preso a simbolo dell’intero paradigma relazionale..
Nascono quindi nuovi modelli di rappresentazione in grado di gestire la grande mole di dati con architetture di elaborazione distribuita come MapReduce di Google e dalla controparte open source Apache Hadoop. Amazon ne fa subito un cavallo di battaglia mettendo a disposizione, a basso costo, la sua potenza di calcolo attraverso l’Amazon Web Services e i suoi server: S3, che è una infrastruttura di immagazzinamento dei dati con una capacità altamente scalabile, affidabile e a bassa latenza e EC2, che è una infrastruttura con capacità di elaborazione, ridimensionabile, nel cloud.
Passiamo poi all’analisi del dato, la parte più ricca di novità. Nascono nuovi tool analitici che utilizzano linguaggi di programmazione preesistenti come R e Python e le cosiddette Machine Learning, sorta di macchine che sono in grado di analizzare e di apprendere automaticamente (anche chiamata intelligenza computazionale). Una delle aree fondamentali dell’AI (Intelligenza Artificiale) che si occupa della realizzazione di sistemi e algoritmi basati sull’osservazione dei dati per ottenere nuova conoscenza.
A fronte di queste innovazioni, purtroppo, molte aziende hanno affrontato le grandi quantità di dati in modo errato. Hanno considerato solo grandi quantità di dati come un problema tecnico, che ha senso solo se non ci sono interessi commerciali. Così i cluster che gestiscono Hadoop e gli algoritmi di analisi sono stati utilizzati per memorizzare i dati e per cercare delle soluzioni, anche se il ritorno sull’investimento sullo sfruttamento di questi dati non è stato ancora dimostrato. Ancora una volta non si è fatto buon uso della tecnologia, dimenticando che l’esperienza umana conta quanto e più dello strumento che si adotta.
Gli analisti più avveduti suggeriscono che quando si vuole lanciare un “caso d’uso” su grandi quantità di dati, è fondamentale applicare il concetto di minimo vitale (MVA), anche qui niente di nuovo: basti ricordare il principio di Occam. L’MVA ha diversi vantaggi:
1. Riduce al minimo gli investimenti mentre rassicura circa l’obiettivo aziendale previsto.
2. Dà agli utenti dell’azienda un’implementazione funzionale e utilizzabile, anche se non è ottimale ed è ancora minimalista.
3. Dà gli elementi misurabili che porteranno a una versione nuova e più ricca, più adattata alla loro esperienza.
Tuttavia questo metodo iterativo per essere efficace non può però diventare un progetto lungo ed esorbitante. Molte aziende di consulenza desiderano applicare gli unici metodi che conoscono, ma Big Data è una nuova sfida su più livelli: tecnico, commerciale, organizzativo e anche metodologico.
Secondo un articolo di Harvard Business Review, il marketing dipende dai Big Data solo per l’11 per cento, nonostante tutta le pubblicità che i Big Data hanno ricevuto.
L’ossessione che si avverte sui Big Data è quindi fuori luogo. Gli strumenti ci sono, laddove mancano gli analisti questi devono essere formati ove c’è competenza. Il che significa che, per esempio, l’analista sulla sicurezza deve essersi formato sulla sicurezza, quello sulla epigenetica/epigenomica deve avere una formazione in epigenetica/epigenomica e quello sul marketing sui vari settori merceologici che del fanno parte del marketing. Il messaggio sull’uso delle nuove tecnologie, non deve prevalere sulla capacità delle persone preposte ad analizzare i dati, perché alla fine prevale la competenza non la tecnologia.