I meta dati che uccidono

Se il governo cinese pianifica di intensificare il controllo sui cittadini impugnando l’arma dei big data, gli Stati Uniti lo fanno già da molto tempo. In particolare ha avuto risonanza la notizia che la NSA, l’agenzia di intelligence statunitense, avrebbe basato una parte degli attacchi con droni condotti in Pakistan, responsabili di migliaia di vittime, sull’analisi del traffico telefonico mobile dei cittadini di quel paese.

Se quest’affermazione può destare in voi inquietudine, i dettagli su come questi dati siano stati utilizzati vi sconvolgeranno.

Il 20 maggio del 2013, Edward Snowden, dipendente della NSA vola a Honk Kong dagli Stati Uniti. Non vi farà mai più ritorno. Su quel volo porta con se decine di migliaia di documenti riservati dell’agenzia per cui lavora. È già in contatto con Glenn Greenwald, giornalista del Guardian, e Laura Poitras, documentarista. Loro assicureranno a Snowden un canale di comunicazione con il resto del mondo, pubblicando mese dopo mese il contenuto di quei documenti. Il primo leak esce sul Guardian, proprio a firma di Greenwald, e afferma che la Verizon, una delle maggiori compagnie telefoniche americane, ha messo a disposizione della NSA i dati riguardanti tutti i suoi clienti.

Lentamente si delinea il meccanismo della global surveillance, basato su tre poli: servizi di intelligence, compagnie telefoniche e provider di servizi internet, strutture militari. Non è coinvolto solo il governo degli Stati Uniti, ma anche Canada, Australia, Gran Bretagna, Israele. E molti altri.

Nell’aprile 2014, mentre Snowden è in Russia dove ha ricevuto asilo temporaneo, Michael Hayden, ex direttore della CIA e della NSA, pronuncia la seguente frase: “We kill people based on meta data”. Le agenzie di intelligence americane eliminano fisicamente dei presunti criminali sulla base dei meta dati.

META DATI
Pensiamo alle nostre telefonate intercettate per un mese. Oltre alle parole che noi e i nostri interlocutori abbiamo pronunciato (probabilmente irrilevanti), ci sono molti altri dati che possono essere registrati. La nostra posizione: i nostri percorsi quotidiani, i nostri viaggi, i nostri pernottamenti fuori casa. Quando accendiamo e spegniamo il telefono. Quando cambiamo la nostra SIM. La nostra rete di contatti. Se oltre alle nostre telefonate, per un mese venissero monitorate quelle di tutte le persone che vivono nella nostra città, il bottino sarebbe ancora più ghiotto. Confrontandole potrebbero capire chi abbiamo incontrato, semplicemente perché le nostre posizioni si sono sovrapposte sufficientemente a lungo e in più occasioni.

Certo non sono prove. Nessun tribunale le ammetterebbe per condannare o assolvere un imputato. Ma la NSA le ha utilizzate per condannare a morte dei cittadini Pakistani sospettati di essere terroristi.

PROGRAMMA SKYNET
Questo era (e probabilmente è ancora) l’obiettivo del programma Skynet, i cui dettagli sono stati resi noti nel maggio del 2015 sul sito The Intercept. Snowden ha divulgato le slides interne che i data scientist dell’NSA hanno probabilmente presentato in qualche occasione ufficiale ai loro capi.

Per identificare i potenziali terroristi analizzando i dati sul traffico mobile dei cittadini Pakistani, hanno progettato un algoritmo di machine learning. Hanno dovuto insegnare al computer a riconoscere i terroristi semplicemente osservando le loro abitudini nell’utilizzo del cellulare. Si tratta di un algoritmo statistico, e dunque commette errori con una certa frequenza. Quale grado di errore saremmo disposti ad accettare da un algoritmo se i suoi risultati decidessero vita o morte di altri esseri umani? La NSA ha accettato di commettere un errore apparentemente molto basso. L’algoritmo etichetta cittadini innocenti come terroristi solo nello 0.18% dei casi. Per capire quante sono le persone a rischio dobbiamo però moltiplicare questa percentuale per il numero di cittadini Pakistani in possesso di un cellulare: 55 milioni. Sono quindi 99 mila (0.18% per 55 milioni) i cittadini Pakistani innocenti che potrebbero essere finiti sulla black list del programma Skynet.

MACHINE LEARNING
Il machine learning è una famiglia di algoritmi che permettono di insegnare al computer a classificare dei dati.
Cominciamo con un esempio semplice: dei punti su un piano. Sappiamo che appartengono a due gruppi diversi, rossi e blu. Per una parte dei punti conosciamo la categoria di appartenenza, come nella prima delle quattro figure qui sotto.svmVogliamo tracciare una linea che separi il piano in due zone. Nella zona sopra la linea ci saranno i punti rossi e in quella sotto la linea i punti blu. Ecco la linea nella seconda delle quattro figure. Per tracciarla abbiamo però ammesso un certo grado di errore: se i punti per cui sbagliamo l’assegnazione cadono in una zona abbastanza vicina alla linea, quella delimitata dalle linee tratteggiate, ci riteniamo soddisfatti. L’ampiezza di questa zona è il livello di errore per noi accettabile.
Ora arrivano nuovi punti sul piano. Quelli nella terza figura. Di questi non conosciamo il colore, ma possiamo “indovinarlo” grazie alla nostra linea. Nella quarta figura c’è la nostra classificazione. Tutti i punti che sono nella zona centrale potrebbero essere mal classificati.

Il metodo che ho appena descritto si chiama support vector machine, nella sua versione lineare. È impiegato in numerosi contesti diversi, uno per tutti i sistemi di riconoscimento dell’espressione facciale, fondamentali per raffinare l’interazione tra macchine e esseri umani.
La support vector machine funziona come ogni altro algoritmo di machine learning: viene prima allenato sui dati (fase di training), poi viene utilizzato per classificarne di nuovi.

Il programma Skynet ha impiegato un algoritmo chiamato random forest (se volete capirci qualcosa vi consiglio di guardare i video delle lezioni di Victor Lavrenko e Nigel Goddard della School of Informatics di Edimburgo). L’algoritmo è stato allenato sfruttando l’identità di 7 terroristi Pakistani, noti alle autorità statunitensi. Studiando le loro abitudini nell’utilizzo del  cellulare sono state evidenziate alcune azioni tipiche: frequente spegnimento del cellulare (interpretato come volontà a non essere localizzati), frequenti pernottamenti fuori casa, spostamenti tra Peshawar e Lahore, frequenti cambi di SIM. I dati relativi ai cellulari di altri cittadini Pakistani sono stati quindi analizzati alla ricerca di comportamenti simili. Maggiore la somiglianza maggiore il punteggio assegnato al cittadino in una scala di “pericolosità terroristica”. Il problema sta nei numeri: solo 7 terroristi noti e oltre 55 milioni di persone monitorate. Questo estremo sbilanciamento tra campione di training e campione vero, porta a un basso grado di affidabilità dell’algoritmo.

FALSI NEGATIVI E FALSI POSITIVI
Come si vede nella figura qui sotto, l’algoritmo prescelto (linea verde) ha un alto livello di falsi negativi (terroristi etichettati come innocenti), circa il 50%. Il grado di falsi positivi (innocenti etichettati come terroristi) è dello 0.18% (proprio dove punta la freccia). Falsi positivi e falsi negativi sono come i punti rossi e blu che finiscono nella zona tratteggiata: su quei punti siamo disposti a sbagliare.
È importante sapere che random forest viene utilizzato da molti anni in ambito commerciale. Le aziende lo usano per conoscere i gusti dei potenziali acquirenti e disegnare prodotti più appetibili. Google lo usa per decidere che tipo di pubblicità mostrarci durante le nostre ricerche online. Ma gli interessi in gioco qui sono diversi.
skynet-courier-detection-via-machine-learning-p11-normalATTACCHI CON DRONI
Come è documentato dal sito The Bureau of Investigative Journalism, dal 2004  al 2014 gli attacchi con droni in Pakistan hanno causato tra le 2500 e le 4000 vittime. Almeno una parte di questi attacchi sono stati pianificati sulla base del programma Skynet.

IL PARERE DEGLI ESPERTI
Molti esperti di analisi dei big data e sicurezza informatica si sono pronunciati negativamente su questa notizia.
Bruce SchneierChief Technology Officer of Resilient Systems Harvard’s Berkman Center, ha detto: “Government uses of big data are inherently different from corporate use.”
Patrick BallDirector of research of Human Rights Data Analysis Group, ha detto: “First, there are very few ‘known terrorists’ to use to train and test the model. If they are using the same records to train the model as they are using to test the model, their assessment of the fit is completely bullshit”
George DanezisHead of the Information Security Group of the Computer Science department University College London, ha detto: “… if you apply a classifier with a false-positive rate of 0.18 percent to a population of 55 million you are indeed likely to kill thousands of innocent people [0.18 percent of 55 million = 99,000]”.

 

Pubblicato da

Chiara Sabelli

Cerco. E, quando trovo, racconto. Giornalista scientifica freelance. Fisica di formazione, in finanza dopo il PhD.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.