Come ho gia' scritto, questo blog tiene a malapena i log classici del webserver, senza usare metodi complessi di analytics (ho tolto google analytics dopo la fine dell'esperimento col porno, come potete verificare) , e uso questi log solo per vedere se ci sono problemi di rete e di connettivita', visto che uso una connessione domestica FTTH per farlo girare.

Il punto e' che, nonostante questo, anche un semplice esame superficiale dei log rivela cose interessanti.

Per prima cosa: c'e' una ragazza lesbica che viene periodicamente su questo blog. Il mio consiglio e': usa un browser migliore. Stai lasciando ovunque tracce delle tue preferenze sessuali. Riesco a vedere chiaramente i tuoi referer. Il mio consiglio e': quando giri per questioni personali usa dei browser un po' migliori, tipo Brave o Tor Browser. Altrimenti ti si vede chiaramente. Tu sai chi sei. Magari non tutti devono saperlo, per esempio... io.

Ma non era questo di cui volevo parlare. Perche' dalla scorsa domenica ci sono alcuni record che hanno iniziato ad apparire "in classifica", e siccome non tengo i log per piu' di 15 giorni, la cosa ha spiccato subito nei grafici. Mi riferisco a questo:

Ho aggiornato la pic onde contenere tutti gli IP di quella sottorete. Abbiate pazienza, come ho detto non ho un sistema di analytics. 

Gli indirizzi IP sono quelli dei crawler di google, i bot che leggono le pagine, le indicizzano e le mettono nel motore di ricerca. Come vedete e' poco traffico, nel senso che circa settemila letture di pagina sono un numero piccolo sul totale  di tre giorni (la percentuale indica proprio questo), ma sono anche pochi dati, il che significa che la risposta e' quasi sempre un "ce lo hai gia' in cache" (304 Not Modified) .

Cosi' direte: ehi, non succede nulla di strano: google ti sta succhiando il blog e lo mette nel motore di ricerca. Davvero?

Gia'.

Ma c'e' un problema.

Per rispettare la vostra privacy posso spiegare il problema solo esponendo degli "aggregati" nei confronti dei quali il GDPR non si applica. Cosi' adesso evitero' di mostrare qualsiasi grafico "che parli di dati". E usero' strumenti antidiluviani: quando sai cosa cercare, grep va benissimo.

Questo non e' un aggregato, ma contiene solo il crawler di google.

Come potete vedere, Google ha preso "ossessivamente" l' abitudine di scaricare sempre lo stesso articolo.

Quanto ossessivamente? Beh, vediamo:

"arrakis" e' il nome del server che raccoglie i log e li ruota

In pratica, ha dedicato all'articolo su joker circa 7 volte piu' "attenzione" rispetto a tutto il resto del blog. Io posso capire che Joker sia un argomento piu' popolare rispetto alla Brexit (seriously?) ma questa attenzione verso un singolo articolo mi sembra assurda: di fatto, google non sta "scaricando" l'articolo:

Lo sta monitorando.

Perche' se il problema era di scaricarlo, non ha bisogno di farlo 7000 volte in tre giorni: quando lo ha fatto una volta, basta e avanza. Ma anche ammettendo che l'articolo cambi, e che si voglia scaricare una versione "accelerata per il mobile", (amp)  mi sembra che le cose non tornino.

Cosi' ho pensato che magari quell'articolo e' molto piu' ricercato e quindi google lo"scarica" molto piu' spesso. Interessante, ma le cose non stanno cosi':

Joker viene al quinto posto dopo la home page, ancora la home page, "quelli che accedono senza specificare alcun URL", il post su arancia meccanica , subito prima del post sul Brexit.

Uhm...

Questo e' molto interessante. E' interessante perche' mi aspettavo di trovare joker tra il post su arancia meccanica e quello sul brexit, se la frequenza fosse stata dovuta alla popolarita'. Al contrario, si direbbe che google abbia scaricato solo qualche dozzina di volte gli altri due (e qui ci sta, visto che magari ho corretto qualcosa e cambiato il contenuto. 27 volte? Mah.)

Ma nel caso del post su joker, non mi sembra affatto di averlo corretto ~7000 volte, e non si spiegano gli ordini di grandezza.

Adesso mi direte: benvenuto nel bellissimo mondo del SEO. Giusto. Tutto dipende dall'argomento trattato, dalle parole chiave, e tutto quanto l'armamentario del buon SEO.

Ma qui viene il problema. Innanzitutto nemmeno la storia del SEO spiega la necessita' di monitorare settemila volte una pagina in tre giorni. Capisco se trovasssi una simile proporzione tra gli accessi dovuti alle richieste di google, ma qui stiamo parlando del crawler.

Ma anche ammesso che sia vero, e si trattasse di un problema di SEO,  il problema e' ancora peggiore (anche perche' Google ha ricevuto una bella multa per una questione simile).

Il punto e' che se provo ad immaginare quali parole abbiano reso popolare l'articolo su Joker piu' di quello di "Arancia Meccanica", otteniamo che dal punto di vista di Google e dal punto di vista del pubblico americano Joker e' molto piu' "interessante". ("interessante" contiene tutti i significati che i SEO danno al termine.) .

Il problema e' semplice: se io facessi pubblicita' e avessi pubblicizzato cose sulla pagina di "Arancia Meccanica", mi aspetterei da google una maggiore attenzione rispetto a quando l'ho messo su "Joker". E questo perche' il MIO traffico ed il MIO pubblico leggono piu' quella pagina. Ma nel momento in cui Google decide di dare la priorita' ad un altro post, la cosa diventa molto diversa. Diventa diversa perche' in un post sulla sinistra italiana io potrei mettere pubblicita' di aziende italiane, mentre sul post di un film americano metterei quelle americane.

Ma questa preferenza nell'indicizzazione , di fatto, stravolge la realta': se l'interesse di google e' sintomo di migliore indicizzazione (cosa che alla fine impatta su tutta l'attivita' di SEO) , allora sta penalizzando i contenuti non-americani. Con il vantaggio relativo per le aziende americane.

Ora, poiche' io non faccio pubblicita' sulle mie pagine (la feci per l'esperimento sul porno, ma ho gia' i numeri che servono, quindi ho smesso) , la cosa mi riguarda poco. Davvero poco.

Ma se fossi un quotidiano nazionale e scoprissi che una pagina su Joker viene spinta piu' di una pagina sul nuovo governo, quando gli italiani hanno guardato piu' il nuovo governo, e quindi la pubblicita' orientata agli italiani, questa cosa sarebbe preoccupante. Molto.

In un post sul brexit, per esempio, avrei potuto mettere pubblicita' di aziende inglesi che vogliono vendere in Italia, ma a quanto pare Google non considera il MIO traffico (che pure conosce perche' avevo anora google analytics quando la misi online) , ma fa considerazioni sue.

Mettiamola cosi':

se qualcuno facesse , usando metodi sistematici, delle statistiche simili su un sito piu' grande (come quello della commissione UE), e ottenesse discrepanze inspiegabili come queste, difficilmente google potrebbe difendersi dall'accusa di discriminare contenuti non-americani, relativa pubblicita', e relative aziende.

Per me non e' un problema: ho appena usato ipfilter per bloccare i crawlers di Google. Finito l'esperimento col porno, non mi servono piu', e il traffico che mi invia Google e' molto piccolo, tutto sommato insignificante.

Ma se qualche grosso giornale dovesse notare cose del genere, con delle discrepanze come "27/7000", beh, il discorso diverrebbe diverso. Il Bertelsmann/Alex Sprenger della situazione, con gli stessi numeri, vi porta tranquillamente all'attenzione della Commissione Europea.

Ma ripeto: qui non stiamo parlando del traffico che mi manda google: stiamo parlando dell'attenzione ossessiva con la quale ha scaricato la stessa pagina due volte al minuto per giorni. Questo monitoraggio di un contenuto e', a mio avviso, inspiegabile.

E se qualcuno accusasse Google di essere uno strumento per il monitoraggio di pagine "politicamente scomode per gli USA", sarebbe un altro caso in cui Google non saprebbe difendersi benissimo.

Cosi', per dire.  Che ti vogliamo tutti bene, caro Google, ma il BDSM e' una cosa diversa, e richiede che tutti siano consenzienti.