Il rapporto di causa ed effetto è, senza dubbio, il mezzo più convincente che abbiamo a disposizione per capire il mondo. Un modo di ragionare che sorge fin dalla più tenera età, quando “perché” diventa la nostra domanda preferita. Non vogliamo sapere cosa dobbiamo fare, vogliamo sapere perché succede. E per capire bene una causa, quasi sempre è necessario ricorrere al ragionamento astratto e chiedersi cosa accadrebbe se, o cosa sarebbe accaduto se non. La causalità, secondo il filosofo scozzese David Hume, era proprio questo: chiamiamo un evento “causa” e un altro, successivo, “effetto”, quando possiamo dire che, se avessimo potuto rimuovere la causa, l’effetto non avrebbe avuto luogo. Usando questo ragionamento controfattuale – cosa sarebbe accaduto se non – è possibile interrogare direttamente i dati per capire se ci sono relazioni di causa ed effetto. (…)
Il ragionamento controfattuale è molto potente: ma, di solito, lo possiamo applicare solo a partire da dati non solo inoppugnabili, ma anche confrontabili. Paragonare direttamente la mortalità dell’Italia a quella della Cina, per esempio, non ha molto senso: l’età media cinese è 38,5 anni, mentre quella italiana è intorno ai 46. Sono più di sette anni di differenza che possono contare parecchio. Da qualche anno, però, è possibile fare ragionamenti di causa-effetto anche su dati riguardanti situazioni diverse, grazie a una potentissima tecnica statistica nota come do-calculus, o calcolo obbligato. Usando questa tecnica, alcuni ricercatori dell’Università di Tübingen hanno spiegato un apparente paradosso riguardante la mortalità comparata Italia-Cina. Se guardiamo i dati totali, i morti per Covid sono maggiori in Italia che non in Cina: la mortalità italiana è di circa il 4%, quella cinese del 2%. Ma se guardiamo la mortalità in modo disaggregato, cioè per fasce d’età, la mortalità in Cina è maggiore di quella italiana per qualsiasi fascia d’età. Il fenomeno è noto agli statistici come paradosso di Simpson: un dato sembra avere un certo trend se guardiamo i casi totali, ma un trend inverso se suddividiamo i campioni in categorie. “L’idea è nata quando abbiamo notato il paradosso di Simpson nei tassi di letalità del Covid-19 rilevati in Italia e Cina” spiega Luigi Gresele, uno dei ricercatori che ha studiato il tema. (…) “A nostro avviso, è attraverso la causalità che il paradosso può essere compreso al meglio. La causalità aiuta a definire come si debbano interrogare i dati in base alle caratteristiche del processo che li ha generati”. Il paradosso di Simpson nasce dalla disomogeneità delle popolazioni: in Cina ci sono molti giovani e pochi ottantenni, mentre in Italia le proporzioni sono quasi invertite. Ma, una volta risolto il paradosso, non è chiaro quale dato bisogna guardare. Quello totale o quello per fasce d’età? La chiave sta proprio nel capire il processo che ha generato quei dati: in questo caso, l’essere in Cina o in Italia agisce come causa comune, che influenza sia la demografia (attraverso il controllo delle nascite) che la mortalità (attraverso il sistema sanitario nazionale e le condizioni di vita). L’età a sua volta influenza la mortalità: più facile soccombere a una malattia se hai 80 anni e non 20. In pratica, in questo tipo di processo (in cui una causa comune – lo Stato – influenza due variabili, Età e Mortalità, e l’Età a sua volta causa una diversa Mortalità), il dato corretto è quello disaggregato. Se il processo fosse differente, le cose andrebbero diversamente: se, per esempio, avessimo le variabili Età, Medicina, Mortalità, la decisione di quali farmaci somministrare è spesso causata dall’età di una persona (il contrario non è vero: nessun farmaco ti fa ringiovanire, o trasforma un ventenne in ottantenne). Il diagramma causale, la direzione delle frecce per intendersi, sarebbe diverso, e in questo caso il dato corretto da guardare sarebbe quello aggregato.
“Il paradosso – continua Gresele – fornisce un caso limite che motiva l’utilizzo di metodi di inferenza causale”. In pratica, il punto importante è che guardare la mortalità senza cercare di capirne il meccanismo non si limita a peggiorare quantitativamente il giudizio: ne inverte radicalmente il significato. Otteniamo la risposta contraria. Per questo è importante comprendere il processo che genera i dati: non è un aiuto, è essenziale. Non farlo sarebbe come sviluppare un’auto da corsa per farla andare sempre più veloce e poi non guardare qual è il senso della pista: puoi andare velocissimo, ma se vai al contrario…
Le diverse risposte ottenute da dati aggregati o disaggregati però sollevano una questione: qual è la giusta dimensione territoriale? Ha senso spingersi nel dividere una nazione in Regioni, e le Regioni in Province e Comuni? “Sarebbe interessante comparare diverse Regioni all’interno dello stesso Paese, e paragonarne la letalità in modo più accurato” conferma Gresele. (…) E questo ci fa cadere in un secondo problema, essenziale: la qualità dei dati.
“Quelli che abbiamo raccolto sono pubblici” riporta Gresele. “Per la maggior parte sono rilasciati dai governi o dagli istituti di sanità. La difficoltà deriva dal fatto che Paesi diversi abbiano modi diversi di aggregare o riportare i dati, il che rende faticoso accumularli e più difficile paragonarli”. Secondo Dino Pedreschi, uno dei responsabili dell’analisi dei dati nella task force governativa, il problema è emerso anche in Italia, per la mancanza di un valido sistema di raccolta dati. “Nella stragrande maggioranza dei casi, le persone che devono provvedere sono le stesse che devono gestire l’emergenza: medici e infermieri” spiega. “Non si può ragionevolmente pensare che uno il cui lavoro è prestare assistenza a dieci malati gravi quando ha le strutture e il tempo per gestirne cinque trovi anche modo di inserire i dati: il malato ha ovviamente la precedenza”. Il secondo problema riguarda la disponibilità di dati con un campionamento adeguato. Il team di Pedreschi si è concentrato, principalmente, sui dati di mobilità: quanto e come si spostavano le persone, in base a sistemi di tracciamento anonimi forniti dai gestori di telefonia mobile. (…) E qui emerge la prima incongruenza: perché i numeri dei positivi, invece, erano disponibili solo a livello provinciale, mentre quelli dei tamponi fatti venivano forniti a un livello ancora superiore, quello regionale. Quindi: dati di mobilità comunali, dati di positività provinciali, numero di tamponi regionali.
Che cosa comporta questa mancanza di condivisione? Innanzitutto, che con questo genere di dati i provvedimenti si possono prendere solo a livello regionale, mentre invece avendo a disposizione dati comunali e provinciali si potrebbero attuare misure restrittive in maniera più circoscritta e limitata. (…)
“Se si vuole una stretta, la scelta sia politica e non di un algoritmo” ha detto recentemente il governatore di una Regione italiana, dimostrando di non sapere bene che cosa sia un algoritmo. Un algoritmo è una ricetta. Vale a dire, è una procedura che viene programmata da esseri umani, al fine di trattare dati numerici ingestibili per gli umani stessi. La politica tanto cara ai governatori è già nell’algoritmo, nel modo in cui l’algoritmo è stato programmato.
Per questo motivo, affinché le scelte siano in linea di principio condivisibili da tutti, è necessario rendere trasparenti non solo i dati, ma anche l’algoritmo che li analizza. E rendere trasparente un algoritmo spesso significa spiegare come funziona. Altrimenti non si danno direzioni, ma ordini: una scelta che è giustificabile solo in rarissimi casi, e che porta sempre, sempre, delle conseguenze.