Specialmente quando le elezioni si avvicinano, i giornali bombardano le persone di "sondaggi", al punto che se vado a leggere i giornali, si direbbe che ci sia dietro un'industria dei sondaggi , il cui scopo e' "dimostrare" statisticamente quello che il cliente vuole sentirsi dire. Molti si chiedono in quale modo la statistica (che e' matematica) possa venire pervertita in modo da commettere errori tanto vistosi, e ci sono diverse tecniche.

"Ci sono diverse tecniche" non significa che la statistica sia una scienza fallace. Al contrario, si tratta di una scienza esatta. Il problema e' che e' possibile giocare su teoremi e formule che non sono a conoscenza del pubblico, e specialmente su concetti che sono magari noti al pubblico, ma pochi riflettono sulle formule collegate.

Prima pero' faro' una breve carrellata sulle regole di base di una stima a campione, per allinearci, poi vedremo un paio di metodi piu' comuni tra quelli in uso per drogare i sondaggi: la sovrarappresentazione e l'aggregazione "maliziosa". Non andro' a toccare concetti come "spettro" o "densita' di probabilita' ", perche' voglio chiarire quanto poco ci sia di credibile nei sondaggi.

Quasi tutte le persone credono che un sondaggio sia una cosiddetta "Stima a campione". Si tratta di un processo nel quale si prende un campione della popolazione e si misura la prevalenza di qualche dato, per esempio facendo una domanda tipo "E' giusto picchiare la fidanzata?" (ogni riferimento a statistiche ridicole e' puramente casuale).

Ora, il punto e' molto semplice: quanto deve essere grande un campione? In questo senso, la risposta e' che... dipende dalla risposta che misuriamo. La formula "semplice" per calcolare il campione di una stima per popolazioni molto numerose e' questa:

Dove

  • e e' il margine di errore che volete.
  • p e' la deviazione standard che trovate, o se preferite la prevalenza che vi aspettate.
  • Z e' un indice di confidenza.

Allora, credo che il margine di errore sia un concetto chiaro. Se volete misurare , che so io, l'uno per cento, avete bisogno di un margine di errore che sia inferiore , e di molto, al punto percentuale. Altrimenti il margine di errore diventa piu' grande di quello che state misurando.

La deviazione standard e' la differenza tra i valori che volete misurare. Se andate su un discorso si/no, allora "in soldoni" la potete identificare con la prevalenza attesa.  Se per esempio il 99% dice che non e' giusto picchiare la morosa e l' 1% dice di si, e' diverso da quando avete una situazione come 50.1% e 49.9%, per la quale avete bisogno di un campione MOLTO diverso.

Z e' un indice che deriva dalla confidenza che volete avere. "Confidenza" non e' la sicurezza che la stima sia giusta, ma (in soldoni) la sicurezza che il campione sia grande abbastanza per misurare quel che volete.  In genere si usano tabelle, tipo:

  • 80% di confidenza ==> 1,28 di Z.
  • 85% di confidenza ==> 1,44 di Z.
  • 90% di confidenza ==> 1,65  di Z.
  • 95% di confidenza ==> 1,96 di Z.
  • 99% di confidenza ==> 2,58 di Z.

Come potete vedere, per sapere quale campione vi serve, occorre sapere quale sia la deviazione che vi aspettate. Ma prima di avere condotto la stima, non lo sapete. Quindi potete mettere la deviazione a 0.5, calcolare il campione, fare le vostre interviste, e poi a seconda della deviazione standard che trovate... rifare il conto per avere il campione adeguato.

Esistono anche formule piu' complesse, per esempio quando le popolazioni sono piccole, ma nel caso di 60 milioni di individui non dobbiamo entrare nel dettaglio. Quello che volevo rappresentare e' che il calcolo del campione in se' e' molto "tricky", perche' il campione si calcola prima, e POI si comincia a lavorare, e POI (magari) si ricalcola.

Spetta a voi, quando leggete un sondaggio , capire se il campione sia stato sufficiente, o quale confidenza abbiano raggiunto. Perche' se non vi dicono, per dire, con quale confidenza abbiano fatto il campione, in pratica vi stanno dicendo che il sondaggio e' stato fatto con "un numero di persone che FORSE e' sufficiente".

Quando per esempio pubblicano i sondaggi di due partiti che si scontrano in Emilia Romagna e sono "testa a testa", per dire, devono avere un campione molto GRANDE, oppure una confidenza molto bassa. O un margine di errore tremendo, ma siccome le due fazioni sono testa a testa e basta poco a sovvertire il risultato, occorre che sia piccolo. Possono, quindi, giocare SOLO sulla confidenza.

E' relativamente comune nel mondo dei sondaggi , di vendere prodotti con confidenze del 60%, e persino del 55%.  Questo per ridurre drammaticamente il campione, e quindi i costi (e i tempi) del sondaggio stesso.

Ad occhio e croce, un sondaggio come quello delle elezioni emiliane dovrebbe aver coinvolto qualcosa che sta nell'ordine delle ventimila persone, IN SU. Oppure , o il margine di errore e' molto grande, oppure la confidenza e' davvero molto bassa. Con campioni inferiori non si possono ottenere numeri precisi (se indichi la prima cifra decimale mi stai dicendo quanto preciso vuoi essere) oppure con grande confidenza.

Raramente , sui sondaggi che leggete sui giornali, vedete citare confidenza e margine di errore, al massimo vi dicono quanto era grande il campione.  Spoiler: anche i metodi piu' complessi risentono da molti fattori, che rendono possibili ulteriori abusi.

Ma adesso direte che "ehi, il mio sondaggio aveva il campione giusto!". Bene. Adesso che sappiamo che avevi una confidenza adeguata e un errore accettabile, non abbiamo ancora finito.

Dovremmo parlare di distribuzioni polinomiali e eltre diavolerie. Siccome volete una spiegazione semplice, facciamo invece un esempio. Dobbiamo sapere quali artigiani a domicilio {elettricisti, muratori e idraulici} pensano che le casalinghe sono infedeli. (siccome questo blog e' odiato dalle femministe per il suo sessismo, tantovale divertirsi).

Allora, il problema e' che:

  • Gli idraulici pensano , per il 70%, che le casalinghe sono infedeli.
  • I muratori pensano lo stesso, ma solo per il 55%.
  • Gli elettricisti, categoria dimenticata dal porno etero, pensano che siano fedelissime : 15%.

Ora, adesso il problema sarebbe "decidiamo quanti elettricisti, quanti idraulici e quanti muratori chiamare. Qualcuno, ingenuamente dira' che dobbiamo dividere equamente per tre: per quale ragione gli idraulici dovrebbero essere da meno degli elettricisti?

Adesso il problema e' che in senso assoluto, gli elettricisti in una popolazione sono 3000, gli idraulici 1000 e i muratori 15000. Ci troviamo con due problemi: se intervistiamo 500 idraulici, 500 muratori e 500 elettricisti, stiamo sovra-rappresentando gli idraulici e gli elettricisti, e stiamo sottorappresentando i muratori.

Ma se vogliamo una precisione dell' 1%, e andiamo i proporzione chiamando 300 elettricisti, 100 idraulici e 1500 muratori, il parere degli idraulici rischia di essere quasi irrilevante, (spoiler: lo e').

La composizione del campione, cioe', diventa cruciale se vogliamo evitare il cherrypicking.

La nostra agenzia di "sondaggi", quindi, non fa altro che "sapere" in anticipo quale sia il parere delle categorie intervistate, e "dosarle" nel campione , per ottenere i risultati che vuole. Se vuole casalinghe piu' troie deve solo aggiungere idraulici al campione, mentre se le vuole piu' caste deve solo aggiungere elettricisti.

Il campione e' sempre grande uguale, confidenza e' ok, margine di errore ok, ma semplicemente cambiando la composizione del mio campione ho ottenuto i risultati che volevo, a patto di sapere che gli idraulici pensano il peggio e gli elettricisti il meglio.

Ma andiamo avanti con l'esempio: perche' sappiamo anche che gli artigiani  piu' giovani danno le casalinghe per infedeli con piu' frequenza. Quindi adesso si pone lo stesso problema, ma su DUE dimensioni. Non solo la categoria, ma anche l'eta'. E se andiamo ancora avanti, scopriamo che dipende anche dal peso, perche' gli idraulici obesi pensano che le casalinghe sono fedeli, mentre quelli atletici no. Questioni di attrazione.

Allora, se siamo dei bravi statistici quello che dovremo fare e' di scegliere un campione che sia abbastanza bilanciato rispetto a TUTTE le partizioni che presentano delle differenze di distribuzione. Esistono tomi e tomi di tecniche statistiche utili ad affrontare questi casi, e in alcuni campi come la statistica medica senza ρ non andate da nessuna parte. Ma non e' il caso dei sondaggi. Nessuno ha mai pubblicato ρ del campione.

Voi capite subito quanto sia SEMPLICE, semplicemente chiamando ad un certo orario piuttosto che un altro, selezionare un campione. Ma possiamo selezionare anche "citta'" contro "campagna" , per dire, oppure "utenti di una telco economica" contro "utenti di una telco costosa", se conosciamo bene il mercato telco.

Ma andiamo ancora avanti: anche cosi', ci troviamo con delle brutte notizie. Ma il cliente le vuole belle, perche' deve sbatterle sul giornale. Cosa possiamo fare?

Oggi come oggi, questi "sondaggi" e queste "rielaborazioni" sono fatte usando computers, e qualcuno scrive degli algoritmi. Dobbiamo trovare un modo da scrivere un algoritmo "sbagliato" ma apparentemente corretto. Come facciamo?

Beh, a questo punto ci rivolgiamo alla Santa Aggregazione, detto anche Saint GroupBy.

Con il GROUPBY possiamo, durante il calcolo, aumentare tranquillamente i numeri in gioco. Prendiamo un esempio.

Abbiamo un gruppo di dieci persone cui chiediamo se voteranno per A o per B. La percentuale e' 50/50%. Un bel grattacapo. Ma no.

Diciamo che 6 su 10 siano diplomati, e 7 su dieci siano sposati. Non dobbiamo fare altro che raggruppare con un'operazione  il voto  con una bella "aggregazione" per stato matrimoniale e titolo di studio, e otteniamo un totale di tredici voti (sei piu' sette), E a questo punto vince un candidato dei due. Si tratta "solo" di usare categorie che non siano strettamente ortogonali, o complementari ( a seconda di come si fanno il calcoli).

Questo ultimo "trucco" del sum(groupby(qualcosa)) veniva usato anche in passato, ma e' diventato davvero di moda nei sistemi di big-data, quando il "data scientist" vuole moltiplicare un pochino di pani e pesci.  Per chi va a verificare i conti, andare a verificare l'ortogonalita' di ogni raggruppamento che sia soggetto a qualche somma non e' semplice. Se si usano dei linguaggi di programmazione come Spark, si tratta di debuggare il codice, mentre se si tratta di tool grafici (come Tableau o Datameer) , il problema e' gigantesco, perche' la cosa si perde in tutti i tecnicismi dell'interfaccia grafica. Un trucco del genere puo' passare inosservato per anni.

Esistono tantissimi altri trucchi, come le join "left" dove dovrebbero essere "inner", e altri tecnicismi che un "data scientist" smaliziato puo' usare per introdurre degli errori che diventano difficilissimi da notare per chi non ha scritto l'algoritmo. Ma il punto e' che tanto, nessuno andra' a controllare l'algoritmo.

Con questo voglio dire una semplicissima cosa: potreste credere ai sondaggi , ma solo a patto che ci si comporti esattamente come si fa nel mondo delle scienze applicate.

  • Si pubblicano i raw data, i dati utilizzati, cioe' tutto quello che si sa riguardo al campione.
  • Si pubblica per intero la metodologia utilizzata per i calcoli.

In caso contrario, e' possibile che qualcuno che ha "occhio" possa vedere, gia' osservando i numeri, che una certa statistica non sia possibile, o che il risultato (con la precisione data) non abbia senso statistico. Per fare questo, basta che il "sondaggio" rimanga online con pochi numeri, senza alcuna spiegazione sulle metodologie, solo per fare colpo.

Per esempio, i numeri dati ieri da un "sondaggio istat" sul discorso delle violenze alle donne non hanno senso , perche' (osservando il discorso in alto, quello degli artigiani), riguardo ad un argomento generico come "donne" ci sono troppe variabili in gioco: sesso, eta', ceto sociale, scolarizzazione, provenienza geografica, stato civile, professione,  appartenenza politica, preferenze sessuali, gli stessi fattori per la famiglia di provenienza, eccetera. A meno che il campione non sia stato ENORME, fornire delle percentuali con un decimale a destra della virgola e' "perlomeno sospetto" se le domande sono cosi' generiche e le partizioni cosi' numerose.

Una statistica del genere sarebbe credibile SOLO se pubblicassero il raw data, e i calcoli che hanno usato.  

Senza queste condizioni, possiamo dire tranquillamente una cosa:

Il sondaggio XYZ e' pura FUFFA.

Per qualsiasi XYZ nell'insieme dei sondaggi.