Ogni volta che menziono di osservare i log del webserver vedo un picco di proxy, anonimizzatori, e altri "trucchi" coi quali le persone credono di "anonimizzarsi" o di "impedirmi di tracciarli". Ora, sto per dirvi una selva di banalita' sui log di apache e/o sul protocollo HTTP , quindi i tecnici stiano zitti, ma a quanto pare non avete familiarita' con i concetti di base, per cui meglio chiarire.

Per prima cosa, NON dispongo di una vera infrastruttura analytics. Significa che non ho un hadoop sul quale faccio girare job con spark (per esempio) oppure un cluster di splunk con la sua Operational Intelligence che fa outliers detection. Quindi direi di calmarsi: tutto quello che ho sono dei server sui quali inietto dei log, che tengo per 15 giorni , e visualizzo con un grafana. Roba che , visto il volume di traffico, puo' girare su un Odroid. (parliamo di macchine come questa: https://www.pollin.de/p/odroid-hc1-einplatinen-computer-fuer-nas-und-cluster-anwendungen-810766?&gclid=CjwKCAjwusrtBRBmEiwAGBPgE0E-yFO83xfQbDknPmP2qaM-pz7dCk1PbI1oELnuyNDL4uk2Rdz_SRoCYgoQAvD_BwE , potenti circa quanto un cellulare di nuova generazione).

Secondo: "tracciare" e' diverso da "identificare". Identificare significa che imparo dove vivete, nome, cognome, misura di tette, e cosi' via. Dire che venite tracciati NON significa dire che io sappia chi siete: significa che so distinguervi da chiunque altro, pur non sapendo chi siete. Con questo io posso farci poco, ma se parliamo di un google, facebook o altri, il gioco e' molto diverso.

A venire processati sono normalissimi log di apache, in formato combined. Si tratta di quello che fa QUALSIASI server web, quindi il minimo. Il motivo per il quale riesco a vedere che c
e' una ragazza lesbica non e' dovuto a qualche diavoleria che IO faccio sulle mie macchine. E' dovuto alle cattive pratiche che state adottando.

Per esempio, sto notando cose del genere:

Io spero che questo signore NON stia credendo che usare la posta interna della sua azienda lo protegga in qualche modo. Perche' cosi' facendo, tra i referer, mi sta informando del fatto che la sua societa' usa zimbra come software per la posta. E non e' un'informazione neutrale: se questa informazione finisce nelle mani di un hacker, lui andra' qui : (https://www.cvedetails.com/vulnerability-list/vendor_id-7863/Zimbra.html)  , cerchera' le vulnerabilita', e la prossima volta che torni ti trovera' un bell'exploit dritto nella home page.

Morale della storia: usa il cazzo di browser normalmente. I browser almeno si sforzano di nascondere informazioni simili. Zimbra di per se' non ha alcuna contromisura per queste cose.

Al capitolo "client mail" ne trovo di tutti i colori, sempre con tanto di token unici:

Ma qui non sono io il cattivone: qui stiamo parlando di una informazione che questa persona sta spargendo urbi et orbi per internet. Se finisce nelle mie mani amen, me ne faro' una ragione: qualcuno usa davvero zimbra. Ma se finisce nelle mani di qualcun altro che l'azienda x usa zimbra, parliamo di una questione diversa.

Stessa cosa per chi usa lettori di feed.

Cose del genere non vi danno sicurezza. Non solo mi state dando il feed che usate, ma mi avete dato anche il token unico. E questo serviva per NON essere tracciati? Eppure, ogni volta che io scrivo che leggo i log del webserver, gli utenti che arrivano da feedly aumentano. Non funziona. Ripeto: usate un buon browser. Lo stesso dicasi di questi signori qui:

Lo stesso dicasi per quelli che hanno creato dei gruppi di discussioni o che usano i commenti: quello che succede e' che la gran parte dei sistemi per commentare articoli aggiunge degli ID e dei token alle richieste, da cui (semplicemente cliccando sull' URL) e' possibile trovare l'origine e l'autore del post.

Lo stesso dicasi per Forumfree, che ritiene di informarmi da quale messaggio preciso parte il click:

Anche alcun funzioni aggiuntive dei browser piazzano il loro bell' ID unico:

Ah, giusto: poi ci sono quelli che sono anonimi "perche' vengono dal motore di ricerca". Giusto.

Anonimissimo.

Ciao, tovarish! Quanto tempo!

Bingo!!! Altri id unico!

Morale della storia: usate il cazzo di browser. Se proprio volete evitare che il vostro IP venga tracciato usate tor-browser, ma tutti questi espedienti fanno ridere. Se lo scopo era di non venire tracciati, tutti questi ID unici consentono di identificarvi abbastanza che potrei scrivere (se avessi tempo e voglia) una regola che vi blocca selettivamente.

Del resto , esiste una tale varieta' di useragents:

Ho mascherato l' IP e gli altri PII

Che comunque e' sempre possibile fare l'abbinamento tra "Monte Compatri" o "Lanzo d'Intelvi" e la specifica versione di browser per Huawei, nella specifica release.

In definitiva, quindi, il mio consiglio e' molto semplice: usate un fottuto browser. Se cercate di anonimizzarvi usando quella roba che state usando, o usando un cellulare, state fallendo.

La crescita di URL che contengono dei token unici, capaci quindi di identificare il singolo utente (non significa che so chi siete, significa che so distinguervi da chiunque altro!) ogni volta che menziono i log mi fa sentire il bisogno di dirvi una cosa semplice.

Se non sapete cosa state facendo, meglio fare come fanno tutti: scaricate Firefox e usate quello con un normale bookmark. E' la situazione in cui rilasciate meno informazioni.

COme ho detto, per il resto NON ho una vera infrastruttura di data mining, per cui mi diverto ad esplorare i log, ma niente di piu'.

Il guaio viene quando voi fate queste cose con altri siti che magari hanno meno scrupoli, o con Facebook, o con Google.

Detto questo, spero di aver chiarito le ansie che avete. Nel caso, potete sempre usare Tor Browser: https://www.torproject.org/download/

Che almeno un minimo, dico un minimo, vi anonimizza davvero.

Quello che ho scritto non e' nulla di nuovo, e qualsiasi sistemista Junior che abbia dimestichezza coi log di apache lo sa.

Ma a quanto vedo, tutti gli altri hanno una reazione , quando solo menziono dei logs, che mi preoccupa.

I rimedi che trovate SONO PEGGIORI DEL MALE.

Peraltro, anche il simpaticone che da ieri mi ha alzato le letture a mezzo milione al giorno (+300% circa)  sta un pelo seccando, quindi e' pregato di smettere: sono perfettamente in grado di distinguere page hits da visitors, e so bene quante sono di solito le hit per pagina.