«Abbiamo scoperto una correlazione tra la vendita di gelati e il numero di persone che affogano in mare. Più gelati, più annegati. Non c’è nessun nesso causale tra i due fenomeni, e a noi neanche interessa scoprirlo, ci interessa la correlazione. Toccherà ad altri, se mai, stabilire il nesso. Ma grazie alla nostra scoperta, in teoria, mettendo dei sensori sui chioschi si potrebbero prevenire gli annegamenti e salvare delle vite umane». Così il professore Davide Anguita del Dibris (Dipartimento di Informatica, Bioingegneria, Robotica e Ingegneria dei Sistemi) di Genova, spiega il meccanismo che sta alla base dei “big data”. «Si tratta – precisa – di raccogliere enormi quantità di dati e trovare correlazioni anche impensabili». Per enormi si intende quantità che “pesano” milioni di terabyte, per dare un’idea.
Un metodo rivoluzionario dal punto di vista scientifico, chi sa raccogliere e maneggiare i big data, ha un futuro assicurato lavorativamente parlando. Le aziende che decidono di utilizzarli, si stanno accorgendo di avere un tesoro inestimabile che era stato sinora nascosto. L’Università ha deciso di cavalcare questa enorme richiesta creando un corso di laurea ad hoc, ma già da tempo un gruppo di persone dell’Ateneo, con gli studenti delle facoltà scientifiche (in particolare ingegneria e informatica), sta lavorando in questa direzione. Davide Anguita è uno degli esperti in questo campo e fa chiarezza su cosa sono e a cosa servono i big data.
Non basta osservare le vendite di qualche chiosco per prevedere il numero di incidenti in mare, occorre avere a disposizione una massa di dati sufficiente. Questo vale in ogni settore, ed è possibile grazie ai computer che memorizzano i dati e grazie al moltiplicarsi di oggetti generatori e vettori di informazioni. Social media, dispositivi mobili come smartphone e tablet e installazioni smart, digitalizzazione di molte attività una volta cartacee, sistemi di pagamento on line e off line, sensori, telecamere, rilevatori, producono in misura crescente le informazioni che costituiscono la massa di dati sufficiente a formare i big data.
«Il fenomeno – ricorda Anguita – è nato alla Nasa qualche decennio fa, quando scienziati e tecnici si sono trovati a disposizione un’enorme quantità di dati. Si sono posti la domanda: che farne? Bisogna memorizzare le informazioni e utilizzarle. Per la memorizzazione sono stati impiegati migliaia di computer, sempre più potenti, mentre l’utilizzo delle informazioni ha richiesto nuovi metodi di analisi. Prima ci si affidava a determinati metodi statistici, ora le analisi non sono più gestibili con i vecchi metodi. Ma non sono cambiati solo le tecniche di analisi, è l’approccio che è cambiato radicalmente rispetto alla scienza classica». Lo scienziato cerca la verità, cerca la causa di un determinato fenomeno. Elabora un’ipotesi, costruisce un modello e poi lo verifica sperimentalmente. Nei big data non ci sono modelli, i dati parlano da soli. «Il vero senso dei big data è modellare la realtà senza bisogno di modelli. A noi interessa scoprire correlazioni inaspettate che permettano di formulare delle buone previsioni. Non è neppure necessario essere esperti della materia che riguarda i dati analizzati.
Un’altra correlazione scoperta dal gruppo diretto da Anguita riguarda, per esempio quella tra il tempo, il clima e i ritardi dei treni, un lavoro svolto per conto di Rfi. «Si potrebbe pensare – dice – con il cattivo tempo aumentino i ritardi. Invece è venuto fuori il contrario. Più il tempo è bello, più i ritardi aumentano. Probabilmente questo si deve al fatto che con il bel tempo la gente si sposta di più, va al mare, o cose del genere. Ma questo non ci riguarda. Un altro fenomeno interessante che abbiamo scoperto è che esistono correlazioni tra il comportamento degli studenti con i computer, numero di clic, di finestre aperte eccetera e l’esito dei loro esami».
I big data consentono impieghi rilevanti. «Il primo settore di applicazione è stato il marketing. E lì gli americani rispetto a noi sono troppo avanti, sono partiti molto prima. Il treno del marketing lo abbiamo perso. Ma ci restano spazi notevolissimi in Europa e in Italia. Possiamo lavorare sui trasporti, sulla sanità, il manifatturiero, l’industria, il servizio di assistenza post vendita. È evidente, per esempio, l’importanza della possibilità di prevedere l’usura di determinate componenti di un prodotto e quindi di pianificare ricambi e manutenzione. In questo caso possono essere dei sensori, applicati all’apparecchio che ci interessa, macchina industriale, nave, aereo o altro, a trasmetterci i dati da cui possiamo ricavare delel correlazioni. Noi attualmente, tra l’altro, stiamo lavorando sul porto».
Per chi è in grado di utilizzare i big data le prospettive di lavoro sono ottime. Si tratta di laureati in Ingegneria informatica e in Informatica che, a Genova, seguono con Anguita un corso di quattro mesi, da settembre a dicembre. «I nostri studenti hanno soltanto l’imbarazzo della scelta. Vengono le aziende a chiederceli e non riusciamo neppure a soddisfare la domanda».