venerdì 8 novembre 2013

Statistica creativa

Ecco in breve cosa ho imparato di analisi dei dati e statistica da uno che di sé afferma:
Nella vita faccio analisi di dati,
e prosegue:
ma non le quattro cose che leggi te sui giornali e pensi de ave capito tutto.
Big data, petabyte di dati su quello che la gente fa, clicca, je piace, non je piace, se je piace X je piacerà pure Y?
Il personaggio, che circola come disqus_pVaCLp7Qu4, spunta fuori nei commenti di un articolo del Fatto Quotidiano, affermando, tra le altre cose,
il 5 stelle crollerà al 7%.
Tanto sicurezza mi fa pensare che il tipo abbia una sfera di cristallo, per cui glielo dico. E lui si premura di spiegarmi meglio che la previsione è solidamente basata sui dati, quelli che mostrano il crollo delle percentuali del M5S:
in ordine di tempo
regionali lombardia: meno 8%
regionali molise: meno 12%
regionali lazio: meno 13%
elezioni provinciali trentino: meno 15%
Al che, mi viene qualche dubbio, che però lui più avanti ci tiene tanto a dissipare vantandosi di ciò che fa nella vita: analisi dei dati, Big data, petabyte di dati su quello che la gente fa, e mi spiega che quello è il futuro, non i sondaggi su commissione. Il che può essere anche vero, ma c'entra poco visto che più che altro non si parla di sondaggi ma risultati elettorali — e gli faccio notare che nelle regioni che dice lui in realtà rispetto alle precedenti consultazioni, quando applicabile, c'è addirittura un incremento: regionali Lazio 2013, 20% (la volta precedente il M5S non c'era, quindi non possiamo fare una differenza che con 0), regionali Molise 2013, 16.8% mentre nel 2011 avevano 5.6%.

Lo scopo non è dimostrare qualcosa sul M5S, ma qualcosa sul suo metodo attraverso il quale ha tratto le sue conclusioni. Ma lui non lo capirà e comincerà a inserire altri argomenti e dire altre sciocchezze in libertà.

In ogni caso, questo trattamento naive dei dati ha ispirato questo post, e più precisamente il seguente grafico che vuole illustrare il problema. (Il grafico non rappresenta dati reali, né pertinenti con le consultazioni di cui sopra: il problema è in un certo senso generalizzato).
Abbiamo 4 serie. Ciascuna serie rappresenta l'andamento (nella realtà ignoto e per questo tratteggiato) del risultato elettorale di una certa categoria nel caso in cui si rivotasse, con quelle modalità, in istanti di tempo diversi da quelli in cui si è effettivamente votato, istanti che sono segnati da tondini e contrassegnati da lettere.

Dunque per ogni serie il dato noto è uno e uno solo. Gli altri sono del tutto ipotetici e non sono importanti per l'argomento: possono essere sovrastimati o sottostimati rispetto alla realtà, è indifferente. Mostrano solo un andamento “qualunque”, nrella realtà ignoto.

La linea in rosso rappresenta l'ipotetico risultato di elezioni nazionali. Il dato è marchiato con N. Le altre linee rappresentano delle elezioni regionali in diverse regioni, i cui risultati noti sono segnati dalle lettere M, U, L.

Il grafico mostra come i valori delle preferenze (nel caso si risondassero tramite elezioni dello stesso tipo) per quella regione, o nazionli, fluttuano — in modo non noto.

Il nostro esperto macinatore di Petabyte di dati prende 3 punti diversi, appartenente ciascuno a 3 serie diverse, e li paragona con il livello delle elezioni politiche nazionali, che sono anche quelle che cronologicamente vengono prima.

Unisce questi tre punti (immaginiamo che faccia un fit lineare) e stima che nelle prossime consultazioni elettorali il livello sarà un tot %.

La cosa più dolce che si possa dire del modo di leggere i dati è che sia improbabile che riescano a cogliere nel segno — se accade, è fortuna, e non è per via della validità del procedimento.

Invece di quelle ipotetiche 3 regioni potremmo sceglierne altre 3 in modo da avere una proiezione diversa. Anche questo fatto conferma che il metodo è molto debole.

Ci possiamo domandare se però si possa comunque dedurre qualcosa dai risultati delle singole regioni. Se ciascuna regione è considerabile un campione significativo, in teoria l'andamento degli umori del suo elettorato nel tempo potrebbe essere indicativo di qualcosa. Ma cambiare campione (cioè considerare poi un'altra regione, anch'essa come campione significativo), come fatto dall'esperto di Petabyte e mostrato nel grafico, non può che portare ad errori di valutazione. Cambia il campione, cambia la propaganda a cui è stato sottoposto, cambia il rapporto tra gli eletti e gli elettori, cambia la cultura (politica e non) locale. Ciascuna regione, singolarmente, non può essere considerata come campione significativo per l'intera nazione (già solo il fatto che il campione sia geograficamente concentrato dovrebbe far suonare qualche campanello).

Come è stato più volte detto, il paragone tra i risultati di elezioni politiche nazionali ed elezioni amminstrative (comunali, regionali, ecc.) presenta delle difficoltà che rendono poco affidabili i significati che commentatori e analisti interessati cercano di estrarre dai numeri.

Nota 1: i numeri in nero rappresentano la differenza tra il livello massimo (determinato dal punto N) e gli altri tre punti.

Nota 2: il titolo del post deriva da un'altra frase del macina-dati, in cui asseriva che la statistica è una cosa seria.

Nessun commento:

Posta un commento

Sii educato, costruisci con cura le frasi, rifletti prima di pubblicare, evita parolacce e offese dirette, non uscire dal tema, cerca di non omettere la punteggiatura, evita errori ortografici, rileggi quel che hai scritto.