domenica 7 dicembre 2014

Alexa e Uriel Fanelli

Uriel è tornato… anche perché in realtà non è mai andato via… e ci fa divertire un po' con i suoi giochi di prestigio e i suoi fuochi d'artificio…

Ma chi sono Alexa e Uriel Fanelli?

Qualcuno si sarà posto queste scomode domande.

Per quanto riguarda Alexa, lascio la parola a Wikipedia o, se preferite, proprio al sito di Alexa.

Per quanto concerne Uriel Fanelli, egli è un irrequieto «figlio di operai di uno zuccherificio»1 — ovvero un cazzaro (questo è il termine tecnico). Ma potete farvi un'idea un po' più nitida con i link che seguono.

Rindirizza la favella

Il soggetto ha da sempre l'abitudine di rindirizzare i link provenienti da altri siti2 verso immagini pornografiche. Ho provveduto ad usare l'attributo HTML5 noreferrer e non ci dovrebbero essere problemi (finché usate un browser “moderno” che capisce e onora l'attributo)… Se doveste subire il rindirizzamento lo stesso, allora, invece di seguire i link, cliccate il tasto destro, selezionate “Copia indirizzo del link” (Copy link address) o una voce che assomigli (l'esatta espressione dipende dal browser) e incollate il link nella barra indirizzi di un altro tab o un'altra finestra del browser che usate. In alternativa, assicuratevi di disabilitare l'HTTP referer (cfr. referrer in inglese) nelle opzioni di navigazione del browser — non so esattamente come venga descritta questa funzionalità nei diversi browser e in italiano, ma dovrebbe trovarsi tra le opzioni della privacy (se non sapete di cosa sto parlando, usate il metodo su descritto o evitate di seguire i link al blog di Uriel Fanelli — se ne può fare a meno…)

La tesi di Uriel Fanelli

Il post Che succede ad M5S? mi conferma che Uriel Fanelli (UF) è in buone condizioni fisiche, ché infatti può ancora accumulare altra cacca sulla sua montagna di merda3 — le condizioni mentali invece sono più o meno stabili.

“Come sapete” ogni tanto sul blog di Grillo viene pubblicizzata qualche votazione riguardante un tema interno al M5S (scelte politiche, decisioni organizzative, ecc.). Lo scopo del post di UF è questo: «chiarire che non sono mai avvenute dette elezioni» online4.

Dovrebbe essere inutile dire che, se sto scrivendo questo post, è perché il modo in cui pretende di illuminarci con la sua “ragione” e di farci toccare la “Verità” è totalmente sbagliato, come pure le sue conclusioni.

Se ipotizziamo che sia consapevole degli errori che sto per esporre, dobbiamo concludere che UF sia in malafede — come si usa dire; ma io preferisco parlare di disonestà intellettuale (però è più breve scrivere “malafede”). Se invece è convinto di aver detto delle grandi cose, intelligentissime e assolutamente vere e inconfutabili… allora siamo di fronte ad uno dei suoi deliri (megalomani) che mettono in luce i limiti culturali e intellettivi di questo «figlio di operai di uno zuccherificio». Interessante, isn't it?

Ciancio alle bande e vediamo gli errori che il genio Uriel Fanelli butta nel pentolone dove studia sempre nuove ricette per diversi tipi di merda coi quali cerca la perfezione per contribuire alla sua montagna di merda.

Guardate, c'è un calo.

UF ci mostra un grafico, preso da “domainleia”, che usa i dati di Alexa ma, a differenza di questo servizio, sembra offrire la possibilità di accedere a più dati di quelli che proprio Alexa mette a disposizione gratuitamente5. In particolare osserviamo che UF fa lo screenshot di quello che sembra essere il grafico delle visite (Visits), come suggerisce il tab selezionato.

In realtà non è così. Se andate sul sito e selezionate il tab Rank e poi impostate l'intervallo di un anno, ottenete lo stesso identico grafico. Se ripetete l'operazione per gli altri tab, vi accorgete presto che il grafico visualizzato è sempre lo stesso.

Tale grafico corrisponde al grafico del rank di Alexa. È chiaro anche dal “titolo” del grafico: «Daily Global Rank Trend»… una discrepanza abbastanza evidente e la domanda surrettizia è questa: perché UF ha fatto un simile screenshot per parlare prima di rank che cala e poi di «perdita di traffico»?6

Dunque il grafico che vediamo è il grafico del ranking.

Visto che i dati sono quelli di Alexa, lasciamo da parte “domainleia” e soprattutto i suoi finti tab e abbeveriamoci direttamente alla fonte.

UF afferma:

Grillo ha un SERIO problema di perdita di traffico sul suo sito.

Questa affermazione è ingannevolmente imprecisa. Quella sicuramente vera è la seguente: il ranking del blog di Grillo è calato di quasi 3000 rispetto i tre mesi precedenti.

La differenza tra le due affermazioni è notevole, perché scendere di classifica non è legato solo alle nostre performance, ma anche a quelle di tutti gli altri siti — lo dice anche il testo sopra il grafico a quale domanda questo risponde: How is this site ranked relative to other sites?

Quindi, anche se il grafico del rank suggerisce un trend negativo (da luglio), almeno relativamente agli altri siti, e anche se il calo del numero delle visite è certamente vero7, non siamo in grado di quantificare l'entità di tale calo guardando il grafico del rank e non possiamo concludere che sia «serio» o no.

Detta altrimenti, è difficile stabilire quante “visite” (stimate) vengono perse, se vengono perse, ad ogni diminuzione di rank.

Rank mio caro rank

Vediamo alcuni problemi nel considerare il rank come misura assoluta del traffico di un sito.

Mettiamo il caso che il vostro sito abbia sempre circa N visite al giorno e che in un dato momento il vostro rank sia P. Anche se il giorno dopo le vostre visite sono invariate, il vostro rank, ricalcolato con i nuovi dati, potrebbe scendere alla posizione P+M perché M siti, che avevano circa N-2ε visite, crescendo sono finiti per averne tutti (un po') più di N, e dunque ci hanno surclassati. Se questo vantaggio si consolida, o altri siti riescono a superare la soglia N giorno dopo giorno, mentre il vostro resta ben saldo a quel valore, il vostro rank continuerà a scendere, sebbene di fatto le vostre visite sono ancora buone come prima.

Se poi il vostro sito non riesce a mantere N visite ma effettivamente ne incassa di meno ogni giorno (almeno nel periodo che state considerando), il sorpasso nella classifica diventa più facile. Ma un lieve calo può apparire come un tracollo del rank: tutti i siti con cui eravamo in diretta competizione per le visite, “intorno a N”, ci scavalcano e il rank precipita in proporzione al numero di siti che avevano circa il nostro numero di visite. Contemporaneamente, entriamo in competizione per il nostro nuovo rank con i siti che hanno circa N-2ε visite (dove -2ε è il calo subito). Potreste essere entrati in una “zona” più competitiva, dove ci sono più siti con circa quel numero di visite, cioè dove la densità dei siti è maggiore; il che vuol dire maggiore “volatilità” del rank, e se lo osservate proprio nel periodo in cui sta retrocedendo, potrete dire che il vostro sito sta andando molto male quando in realtà se la cava ancora benone.

Dunque la posizione nella classifica non è in grado di dirci realmente cosa sta accadendo alle visite di un sito, mentre ci dà un'idea di come sta andando in generale in relazione a tutti gli altri siti. Se leggiamo un calo di rank 3000, possiamo dire con certezza solo che ora ci sono 3000 siti in più (rispetto a prima) che hanno “performance” di visite migliori del sito in esame; che può pure voler dire che il nostro sito non sta andando bene come prima, anche per il solo fatto che non “cresce” rispetto agli altri; ma quantificare queste e trarre delle conclusioni sarebbe azzardato8.

Fin qui ho supposto una “semplice” classifica. Ma il modo esatto in cui Alexa calcola il ranking a partire dai dati a sua disposizione è determinato da una misura combinata (non si sa esattamente come9) di visitatori unici e pageviews, dice Alexa.

Specificano anche una cosa interessante: il traffico dei dati preso in considerazione per il calcolo del rank è aggiornato quotidianamente su una finestra mobile di 3 mesi.

Questo significa che il grafico del rank è buono (con le considerazioni su fatte) per valutare un trend, non per scorgere irregolarità (per esempio dovute a “momenti particolari”) nell'andamento delle pageviews10. È questo il punto che ci interesssa di più in questo post.

Paragoni per paragonare

Tanto per ribadire il punto, vediamo cosa ci dice Alexa di un sito come repubblica.it. Uriel direbbe che il rank dimostra che da metà settembre anche Repubblica (uno dei siti con più volume di traffico in Italia) ha un problema di perdita di traffico.

Ammiriamo invece la scalata di amazon.it, prima lenta e poi esplosiva:

O la ferrea stabilità di uno dei big, yahoo.com.

Riuscite a immaginare perché il rank di yahoo.com varia così poco (in realtà, per niente), cioè perché è fisso a 4?11 È ovvio che questa non-variazione non significa che le pageview di yahoo.com sono rimaste fisse per tutto l'anno.

Concludiamo questa sezione: UF inferisce cose che non può inferire da quei dati12. Uriel inganna il lettore facendogli credere che l'andamento del ranking debba per forza seguire passo passo quello delle visite/accessi.

Riveliamo a cosa gli serve convincere il lettore sprovveduto che visite e ranking siano strettamente legati indipendentemente da altri fattori: se in un determinato momento avviene una votazione online, il grafico deve riportare un picco “ben visibile”, secondo UF, nel giorno delle elezioni13.

Curiosità: cosa accade al rank di yahoo.com se dovessero fare un concorso aperto solo a grillini certificati? La risposta è: assolutamente niente.

È preciso al capello di mammut

Grafico a parte, Alexa fornisce le visite mensili stimate — in realtà no: lo fa “domainleia”, e supporremo che i dati siano presi da Alexa, anche se non si sa come e quando14.

Quanto è “precisa” questa stima mensile del numero di visite?

In un modo assurdamente antiscientifico UF sostiene che sono «piuttosto affidabili» perché la cifra degli accessi mensili per il suo blog15 corrisponde «più o meno» a quella che gli dà Google (che conosce esattamente il suo traffico, misurato in site). Una misura. Il numero (mensile) «più o meno» ci sta16… Dunque è «piuttosto affidabile» per dire in un giorno specifico quante visite ci sono state…

Siamo seri: ciò di cui avremmo bisogno è di una stima dell'errore associato a quel dato17, stima piuttosto difficile da ottenere. Se avessimo i punti quotidiani e volessimo usare la media (mensile), dovremmo considerare l'errore in base alla deviazione standard. Ma se avessimo questi dati puntuali, perché dovremmo usare la media su 30 campioni quando ci interessano proprio le pageview di un giorno specifico?

UF non dispone del dato giornaliero. Considera la rappresentazione grafica del ranking, con i problemi enunciati, e le pageviews mensili18 non prese direttamente da Alexa (ma da “domainleia”, che non si sa quando le ha ottenute visto che dà un ranking vecchio del blog).

Un esempio di quello che andrebbe fatto è l'articolo How accurate is alexa? Si parla di reach (forse nel 2010 Alexa forniva questo reach?), ma la “teoria” è quella giusta.

How accurate is alexa? conclude:

Chiaramente non ci si può fidare di Alexa per avere informazioni di classificazione per delle analisi importanti di un sito[…]19

Dieci polli a me, zero a te; son 5 polli a testa, perché patisci la fame dunque?

UF prende le pageviews mensili (7650k circa), le divide per 30 (i giorni in un mese) e considera quelle come visite giornaliere. Un errore metodologico madornale: quello è il numero di visite giornaliero medio calcolato su base mensile. Detta altrimenti, il giorno 1 potrebbero esserci 170k visite, il giorno 2 85k, il giorno 3 40k, il giorno 4, 215k e così via. La somma finale darà il numerello mensile, ma non sappiamo realmente come sono distribuite queste visite giorno per giorno.

Per quanto detto su riguardo al rank, non dobbiamo aspettarci che tale rank segua passo passo e in proporzione ogni capriccio delle pageviews, sicché il trend generale potrebbe essere al ribasso ma le oscillazioni delle pageviews potrebbero essere tali da non causare salti apprezzabili nel rank. Come già detto, dipende anche molto da come stanno andando gli altri siti nel particolare giorno considerato. Un incremento “improvviso” di 30k visite in un determinato giorno può portare il rank a salire solo di 1, o invece a scendere di 1 (o più), per esempio se il picco di quel giorno non compensa la perdita di pageviews.

Questo erroraccio ovviamente si propaga anche al traffico considerato per lo specifico sottodominio di interesse, sistemaoperativom5s. Infatti, dopo aver fatto questi farlocchi ragionamenti, UF passa alle considerazioni a modo suo (cioè a cazzo di cane) delle visite a sistemaoperativom5s che sono, secondo Alexa, il 4.10% dei visitors, mentre quelle a beppegrillo.it sono il 98.30%20.

Si aggiunge un ulteriore problema: il rank graficato è calcolato sulla combinazione delle due informazioni: quanto pesa, giorno per giorno, il contributo di ciascun sottodominio, quando Alexa stessa specifica che il dato sul “Dove vanno i visitatori di beppegrillo.it” (Where do visitors go on beppegrillo.it), è aggiornato mensilmente (e dunque calcolato su base mensile)?

Nel mese Alexa ha stimato che il 4.10% delle pageviews è attribuibile a sistemaoperativom5s, e il 98.30% a beppegrillo.it (con una “sovrapposizione di utenti” del 2% circa). Non è possibile21 prendere questo dato per affermare che «significa che ci vanno 10045 letture al giorno» e considerare poi questo valore non come valore medio (privo di errore…), ma come valore puntuale “buono” da paragonare con il valore di picco che ci si aspetta di vedere in un determinato giorno per via di certe circostanze (le votazioni).

Troppo tanti, tanti pochi

Avendo il numero di visite al mese, considerando la media giornaliera (calcolata da questo dato mensile) e infine, stabilita la quota spettante a sistemaoperativom5s (sempre a partire dal dato mensile), UF conclude:

Troppo pochi AL GIORNO per essere i 28.000/30.000 che "hanno votato", ma troppi AL MESE per essere visitatori di un sito che viene aperto solo per le votazioni ove votano solo 28/30K persone.

Oltre agli errori di cui sopra, qui UF aggiunge una congettura errata, fornita come ovvietà: il «sito viene aperto solo per le votazioni».

UF ignora, o finge di ignorare, che il «sistema operativo M5S» non serve solo per le votazioni ben pubblicizzate dal blog: si propone anche come strumento di organizzazione e interazione tra gli utenti iscritti, con possibilità di proporre e leggere proposte (di legge) e commentarle22: è, insomma, molto più che un “posto” dove alcuni iscritti vanno solo per votare su di un argomento comparso sul blog23.

Per questo c'è un “rumore” quotidiano e alla fine non si può dire che il dato mensile stimato sia «troppo». Contemporaneamente, ricordiamo che i 10k sono stati calcolati da UF dal valore mensile delle pageviews (che supporremo effettivamente fornito da Alexa) e con la percentuale per il sottodominio, anch'essa un dato che si riferisce in realtà al mese; UF crede o vuole far credere ai lettori che quello sia proprio il numero giornaliero corretto, che è quindi paragonabile direttamente con il numero atteso di utenti in caso avvenga una votazione in un certo giorno.

Il “ragionamento” è due volte assurdo e sbagliato; intuitivamente si può vedere dove conduce. Considerate quanto segue: gli utenti, per non essere «troppo pochi AL GIORNO» secondo il ridicolo calcolo di UF, sarebbero dovuti essere minimo «28.000/30.000», cioè quelli che hanno votato. Dunque il valore medio calcolato da UF doveva essere circa 30k, e questo gli avrebbe fatto quadrare i conti da una parte… Ma 30k al giorno sono 900k/mese… e secondo UF già 300k utenti sono «troppi AL MESE»…

In pratica, come la girate la girate, se vi affidate all'antiscientificità surrettizia di UF, i conti non quadreranno mai e non perché c'è qualcosa di strano, un sordido complotto o un terribile inganno: i conti non tornano perché è sbagliato il modo in cui UF usa i dati e interpreta i numeri.

Un numerologo può far dire qualunque cosa ai numeri inventandosi chissà quali spiegazioni e prove che agli ignoranti impressionabili sembreranno convincenti24: ma non è niente altro che un gioco di prestigio. UF sta facendo questo: un gioco di prestigio.

Tanto per confermare che di statistica capisce di più un parassita intestinale, UF concluderà dicendo:

secondo Alexa non e' mai accaduto nulla come "hanno votato in 30.000". O erano 300.000, e il 90% sono stati ignorati, oppure erano 10.000, e allora se ne sono inventati 18000/20000 di sana pianta

I 300k (il 4.10% del traffico mensile, secondo quanto fornito da “domainleia”), cioè il contributo stimato di sistemaoperativom5s, lui li vorrebbe

  • o tutti concentrati in un solo giorno, quello delle votazioni, cioè fino al giorno prima erano 0, il giorno dopo 300k,
  • o distribuito uniformemente, senza “alti e bassi”, su tutti i 30 giorni del mese (e perciò in pratica sostiene che anche nel giorno delle elezioni il traffico doveva essere esattamente pari alla media così calcolata)…

I numeri, per quanto su detto e per quanto segue, sono compatibili con gli eventi. L'interpretazione di UF, invece, non è compatibile con quanto ci si aspetterebbe da un ingegnere, matematico, ecc.

Alla fine, comunque, il picco locale, c'è…

UF ci invita a «provare col vostro sistema di analisi off site preferito».

Allora facciamo così: invece di “domainleia” consideriamo questo sito, iwebtool; impostiamo l'intervallo di un mese: esso sembra darci proprio il grafico delle pageviews e non del rank25.

Nel caso, andrebbe considerata l'osservazione sulle corrispondenze temporali fatta dall'analisi di How accurate is alexa? In realtà, però, in questo caso non ne abbiamo bisogno. Il grafico che ci dà iwebtool riporta un picco (locale) proprio tra il 24/11 e l'1/12; se cercate di individuare quando la spezzata cambia un po' d'inclinazione, potete identificare il punto corrispondente al picco. Se contate, a partire dal 24/11, arrivate proprio al 27/11, cioè quando sono avvenute le votazioni per l'espulsione di Artini e Pinna.

L'altezza è poco sotto 4.65 milioni — un salto dal punto precedente che sta poco sopra di 4.50, per un numero che è dunque intorno a 0.15 milioni (150k). Anche se i punti sono uniti, in realtà non ci sono dati intermedi; ma, senza alcuna giustificazione, possiamo considerare la differenza dall'intersezione con la linea per 4.6; il salto sarà di circa 50k, ed è comunque sufficiente per “contenere” gli iscritti che votano.

UF parla di due picchi, ma sinceramente ora non mi viene in mente quale dovrebbe essere l'altra votazione tra giugno e novembre. Furbo come una faina cerca i picchi nel paragone che, usando una scala adatta a due siti (l'altro è example.com), dà ancora più “escursione” in ascissa, appiattendo il grafico ulteriormente… E comunque, lo ricordo per l'ennesima volta, sta paragonando appunto i rank.

Allargando la finestra a 6 mesi su iwebtool, è ugualmente più difficile poter identificare i picchi locali (per esempio, quello trovato del 27/11, appare stretto e piccolo e passa, con queste scale, praticamente inosservato: non sembra più un picco, né locale né altro)

Notate invece come nel grafico rank di Alexa non si noti l'andamento delle pageviews giornaliere date da iwebtool:

  • Comparazione senza siti da comparare… (immagine): l'ascissa va da 8000 a poco meno di 3000. Se fate passare il mouse sul grafico, fino ad arrivare al 27/11, leggete un rank di 6629, che il giorno prima era 6644: dal 26/11 al 27/11 è salito di rank di 15… e questo 15 potrebbe corrispondere, nella “vista” delle visite, proprio a quel +150k (dovete considerare un puro accidente che il rapporto sia una potenza di 1026; l'unica cosa che qui considero un minimo indicativa è il fatto che il rank sia aumentato: forse, nonostante il trend al ribasso, il “picco” è stato sufficiente a contrastare la scalata di altri siti)27.
  • Con example.com: ascissa parte da 20000… Così cono ancora meno visibili le increspature del rank che, come abbiamo visto, potrebbero benissimo essere, pur nella loro piccolezza (+15), indicative di un aumento di traffico “interessante” per l'analisi che UF finge di voler fare.

Molto meglio “paragonare senza paragonare”, isn't it?

La polizia è alle spalle

Tanto per non lasciar dubbi sulla sua inutile pretestuosità o sul suo perverso piacere nel prendere in giro il lettore o sé stesso con vaghe insinuazioni ridicole — UF vede tra i related links il sito della Polizia di Stato, e…

Paura eh?

Dalla sua Erkrath forse non si accorto del lavoro “pro polizia” svolto dal blog e dal M5S, dando voce prima a dei sindacati (il controverso caso della tubercolosi), poi incontrando le forze dell'ordine e di sicurezza, e ancora facendo in modo che le autoblu andassero alla polizia, altrimenti sprovvista di mezzi. Per non parlare di un altro caso, controverso, in relazione alla vicenda Cucchi, in cui i soliti ottusi detrattori hanno tentato di strumentalizzare delle dichiarazioni il cui scopo era di evitare l'isterica colpevolizzazione in blocco delle forze dell'ordine.

Tutti motivi abbastanza buoni per creare un qualche tipo di collegamento tra “utilizzatori” del sito della polizia (non necessariamente poliziotti) e lettori del blog e curiosi e maniaci dell'“informazione” e dell'attualità.

Se poi volessimo applicare sragionamenti simili per il sito di Repubblica, dovremmo insinuare che li spiano per carpire segreti giornalistici o per conto del PD? O che il partitodemocratico.it rivela l'ossessione del PD per il blog di Grillo? O che gli elettori del PD che vanno sul sito partitodemocratico.it sono in realtà elettori del M5S sotto copertura o viceversa?

Se sbirciamo i dati per il sito della polizia di stato su Alexa, vediamo che tra i related links c'è la GdF… Forse la guardia di finanza tiene d'occhio la polizia per paura che evadano le tasse… Interessante, isn't it?

Che vuol dire comunque “related links”?

These are sites that are related to this site in some way. For example, they receive traffic from similar keywords, have a similar audience, or are frequently cited together on web pages.

Ulteriori dettagli alla pagina How are Related Links determined?.

Non si capisce benissimo cosa voglia insinuare UF. Ma chiaramente, qualunque cosa sia, va scartata e gettata nel pentolone insieme agli altri suoi vaneggiamenti.

I dati di Alexa

Torniamo ai dati di Alexa e in particolare alla sezione Our data della pagina About.

Le stime del traffico di Alexa sono basate sui dati proveniente dal dal nostro panel globale del traffico, il quale è un campione di milioni di utenti di internet28 che usano una delle oltre 25000 estensioni per browser. In aggiunta, collezioniamo gran parte del nostro traffico da fonti dirette, che sono siti che hanno scelto di installare lo script di Alexa sul loro sito e certificare perciò le loro metriche. […] Il rank globale del traffico è una misura di come sta andando un sito negli ultimi 3 mesi, relativamente a tutti gli altri siti del web. Il rank è calcolato usando una metodologia proprietaria che combina la stima della media dei visitatori unici quotidiani e il suo numero stimato di pageviews sugli ultimi 3 mesi.

Che probabilità c'è che tutti gli iscritti utilizzatori del «sistema operativo M5S» facciano parte del campione considerato?29 Qual è la probabilità che, pescando a caso (nel mondo!) un milione di persone, 30k di esse abbiano una caratteristica specifica che li accomuna, peraltro nemmeno distribuita in modo uniforme sul globo?30

Si può concludere che particolari gruppi (di pochi membri rispetto il numero di tutti gli internauti) non siano ben rappresentati nel global panel — ci si può arrivare anche intuitivamente.

Dunque, anche se il grafico fosse effettivamente il grafico delle pageview (di beppegrillo.it) e non il rank, anche per quanto appena detto non ci dovremmo affatto aspettare di vedere delle “anomalie” particolarmente evidenti nelle visite nel giorno in cui 30k persone circa si connettono al sottodominio sistemaoperativom5s: potrebbe essere che ben poche di loro, o forse addirittura nessuna, facciano parte del global panel di Alexa. Come abbiamo visto, in corrispondenza delle votazioni per l'espulsione di Artini e Pinna, a fronte di una variazione di più di 50k nelle pageviews31, si ritrova una misera variazione di -15 nel rank — ma sarebbe potuta benissimo essere +15, o -1, o +100. Tale variazione, probabilmente (cfr. l'ultima nota), dipende da un piccolo incremento del traffico generale dovuto alla “curiosità” per queste votazioni.

Conclusioni

Uriel Fanelli rilascia un bel contributo sostanzioso alla sua montagna di merda, che a lui non esce solo dallo sfintere anale ma anche dal cervello, viste certe cazzate che scrive in abbondanza.

A volerla spalare tutta servirebbe una vita; questo post dà il suo piccolo contributo ma, data l'ingente produzione urielliana, è ben poca cosa32.

UF conclude:

i numeri di Grillo non quagliano con quelli di Alexa. Io scelgo di credere ad Alexa. Voi sceglierete chi vi pare.

Invece abbiamo visto che i numeri di Alexa «quagliano» (nel senso che non sono affatto incompatibili con gli eventi); che ad Alexa possiamo “credere”, a seconda del tipo di indagine che vogliamo fare, ma comunque sempre cum grano salis; e che invece non dobbiamo credere ai numerologi come Uriel Fanelli, alle loro interpretazioni ignoranti (o strumentali o entrambe) dei dati, ai loro assurdi e maldestri tentativi di far dire alle “informazioni” qualcosa che non possono dire.


  1. Cfr. un suo vecchio post dal titolo ThyssenKrupp

  2. Non proprio da tutti gli altri siti. Non mi sono preso la briga di “analizzare” il criterio usato. Da questo blog, tra gli altri, si viene rindirizzati, perciò urgono contromisure.

  3. Uno dei suoi post più famosi, a cui infatti non può rinunciare e deve perciò riproporre ogni volta, magari “ammodernandolo”, è La teoria della montagna di merda. Oltre alla solita retorica «mi chiedono», «mi scrivono», ecc., notate la goffa invenzione letteraria «Non la ricordo a memoria, ma possedendone i concetti, posso ri-enunciarla oggi» (ovviamente «per chi continua a richiederla»…). Va tradotto così: ho il testo originale (il backup ce l'ha pure la polizia!) e del resto potrei riprenderlo da internet in una delle sue versioni, magari più datate, però così non fa scena e non mi permette di “ammodernarlo”… Un'altra osservazione: l'aggiunta della chiave politica anti-M5S nella frase «tutte le altre minchiate da grillini» — quelle minchiate esistono da prima che comparisse il primo “grillino”, e continueranno ad esistere anche dopo che l'ultimo “grillino” ci avrà lasciati. Allora forse si tornerà a non associarle ad attivisti ed elettori di una forza politica, a seconda della convenienza — per inciso, questo comportamento è molto mainstream ed è “interessante” che UF, che odia il mainstream, si ritrovi a pedalare la stessa bicicletta…

  4. L'accusa secondo me è da querela (se avesse un peso), ma avvocati e querele non lo possono raggiungere e lui «risponde di quel che scrive solo alla giustizia tedesca»… Tuttavia, impariamo in questo stesso post, c'è chi può raggiungerlo: «l'amico degli amici» di qualche politico, interessato a farlo fuori perché Uriel Fanelli dice cose scomode, in grado di disturbare le campagne elettorali… Poi magari gli amici di quell'amico hanno sempre altri amici tra gli “informatori”… I deliri di un paranoico megalomane…

  5. Su domainleila si legge: «The rank of domain beppegrillo.it regarding visitors is about #3,101 according to Alexa». Che però in realtà è oltre 6000 in questo momento. Lezione n. 1: quando un sito vi dice che è stato aggiornato di recente (stamattina), non dovete credere per forza che lo sia veramente in tutti i sensi… Dalle headlines che riporta (tra cui leggiamo «Il M5S incontra le forze dell'ordine e di sicurezza») sembra fermo a 3-4 mesetti fa. Per quanto riguarda i dati, forse Alexa consente a terze parti l'accesso (gratuito per l'utente finale!) ad altre informazioni? Molto probabilmente no.

  6. La domanda non può avere una risposta certa, perché sarebbe pura speculazione; però possiamo fare delle ipotesi ragionevoli. Io la vedo così. Uriel deve creare una suggestione, e un'immagine vale più di mille parole: tramite il grafico con il tab Visits selezionato, quello che si fissa nella testa del lettore sprovveduto è la stretta proporzionalità (inversa — notate che i valori in ascissa diminuiscono andando verso l'alto) tra ranking e numero di visite, cioè: più visite hai, minore sarà il numeretto del ranking (stai su un podio più alto). Questa ovvia e immediata proporzionalità è molto problematica, come emergerà dal testo.

  7. UF sta dicendo che, oltre ad essere vero, esso è “catastrofico” al punto da destare preoccupazioni «serie» e che, per correre ai ripari, c'è tutto un gioco mediatico-politico, messaggi subliminali — comandi nascosti… La mentalità complottara dell'Uriel fa mostra di sé. Chi si occupa del “benessere” dei siti sarà ovviamente molto in ansia nel rilevare un trend negativo (la sua preoccupazione però dipenderà dalle statistiche in site che ha, non dal global panel di Alexa). Il calo delle visite del blog non ci interessa: il tema di questo post è più che altro come pretende di dimostrare che le votazioni non sono mai avvenute.

  8. Parliamo sempre di un sito che fa 7 milioni di visite mensili con un rank globale che oscilla tra 3000 e 7000. Era «tra i blog più visitati del mondo» (la nona voce di questo articolo del The Guardian del marzo 2008, che riporta delle inasattezze ma vabbè: ne aveva ancora altri 41 di cui parlare). Ad aprile 2009, circa un anno dopo, uno snapshot di Alexa fatto da web.archive.org dava un rank 5821. A febbraio 2010 di 5562. Ottobre 2011, 4818. Giugno 2013, 3557. Ed ora è più vicino al rank dell'aprile 2009 (il che, usando le ipersemplificazioni di UF, dovrebbe pur sempre significare che continua ad essere «tra i blog più visitati del mondo»). Secondo questa classifica di eBizMBA, non è tra i primi 15 blog nel mondo più popolari al dicembre 2014. Se andiamo a vedere la classifica italiana e prendiamo i siti di interesse prevalentemente italiano con rank locale più alto e più basso, possiamo paragonare i loro rank globali (immagine qui). Interessante, isn't?

  9. L'algoritmo non viene mai detto realmente: si tengono sul vago. “Spiegano senza spiegare”. Un modo come un altro per dire che i dettagli non sono fatti nostri. L'algoritmo è proprietario e segreto…

  10. I dati presi in considerazione per il mese N sono quelli dei mesi N-1, N-2 e N-3. Quando si passa al mese N+1, per la valutazione del rank si considerano invece N, N-1 e N-2, e così via.

  11. In paragone agli altri siti, il volume del suo traffico è tanto grande che difficilmente altri possono rubargli lo scettro creando delle oscillazioni. Il sito con rank 5 evidentemente ha un traffico stimato con oscillazioni che non sono state, nell'arco di un anno, abbastanza grandi da scavalcare yahoo.com, e lo stesso vale per questo nei confronti di chi occupa la posizione 3. Man mano che il volume di traffico si fa più alto, la densità dei siti che si possono trovare con un volume simile diminuisce e contemporaneamente l'aumento di traffico necessario per passare al “livello successivo” è tanto grande da rendere poco probabile che le normali variazioni creino frequenti cambi di posizione. Conclusione: le posizioni più alte tendono ad essere più stabili. Il che non vuol dire che siano immobili, ovviamente: p.es. amazon.com ha un po' camminato.

  12. Perché sa solo odiare odiare odiare?

  13. Questo sarebbe corretto se 1) il grafico rappresentasse le visite e non il ranking, 2) la variazione (dovuta alle votazioni) “superasse” l'errore associato alla “misura” (cioè alla stima), 3) la variazioni (dovuta alle votazioni) compensasse e superasse il calo di visite di quella giornata. Inoltre, con il grafico delle pageview quotidiane alla mano, una variazione sarebbe “evidentemente un picco” solo con una opportuna scala: se si prende un grafico in cui l'intervallo tra il valore dell'ascissa minore e quello maggiore è troppo ampio, variazioni “piccole” potrebbero apparire come insignificanti increspature. Quello che cerchiamo è un picco locale che, se anche fosse rilevabile dal rank, potrebbe essere indistinguibile da una regolare “oscillazione” (o annullato da una di segno opposto). Questo potrebbe bastare per liquidare il post di UF…

  14. Alexa non fornisce quel dato per account gratis direttamente dal sito — forse terze parti selezionate hanno facoltà di accedere a dati diversi? Non credo. Secondo me viene fornito un solo tipo di dato, e alcuni siti lo rielaborano seguendo certi criteri, per ricavarne apparentemente altre informazioni. Cfr. per esempio questo, che fornisce, sembra, reach, rank e pageviewsimmagine, da paragonare a quella del rank, per esempio mettendole vicine, anche se in un caso abbiamo una scala logaritmica. Forse questo sito applica una sua formuletta per passare dal rank alle pageview. In proposito circolano diverse elucubrazioni e speculazioni proprio per ottenere le pageviews dal rank. Per esempio se si conosce esattamente il traffico di certi siti, si può vedere come li classifica Alexa e provare a interpolare, in modo da ottenere una formuletta di conversione, valida almeno per quel giorno… Il tentativo può essere destinato al fallimento perché l'algoritmo che usa Alexa non permette di mettere in relazione in modo semplice rank e pageviews. Cfr. tentativi come questo. La cosa più comoda sarebbe avere direttamente da Alexa la sua stima delle pageviews quotidiane, ma non è un'informazione accessibile gratis.

  15. L'invenzione letteraria prosegue: dopo aver fatto tutta una sceneggiata per presunte consistenti minacce, colpa di cazzoni che avevano una pagina facebook… Così ha dovuto chiudere… per poi riaprire. Ma ci spiega che, con varie «manovre riguardo al tipo di contenuti (per esempio togliendo le tette ed evitando alcuni temi "caldi" e portando il blog verso argomenti piu' informatici o specialistici )» è riuscito a mantenersi su una quantità di lettori «gestibile al di sotto della soglia di "stai dando fastidio, bada che ti facciamo del male"». Qual è questa soglia? Ci spiega che «quando "davo fastidio" ero arrivato a 260.000 [lettori a settimana]». E quando arrivi a una cifra simile, «si apre la caccia: i politici hanno paura che gli disturbi la campagna elettorale , per loro non sei controllabile, e chiamano l'amico degli amici». UF aveva tanti post importantissimi per due multinazionali telco, al punto che si sono mossi persino i loro avvocati per colpa delle minacce di quei cazzoni… Però insieme a questi evidentemente ce ne erano tanti di natura politica, sennò non si capisce perché si sarebbe dovuta aprire 'sta caccia. L'amico degli amici fu chiamato, c'erano di mezzo questi cazzoni con la loro pagina su facebook, poi gli amici di questo amico «hanno sempre altri "amici" tra gli "informatori"». Ma di che parla? Della «voce N°5 degli accessi del sito di Grillo», cioè della Polizia di Stato… italiana… che quindi era implicata in qualche modo nelle minacce ricevute da Uriel… Forse sta provando a scrivere una sceneggiatura per competere con The Bourne Identity! Secondo me l'unico problema del traffico del suo sito poteva essere dovuto al fatto che l'hosting gli voleva far pagare di più… A proposito di finzioni, in un più recente post, Il novecento che non se ne va, dice che ha dovuto chiudere l'iscrizione alla mailing list… era mai stata davvero aperta? Aspetta, ma la mailing list di cui parla non sarà mica la sottoscrizione, delivered by FeedBurner, per essere sempre aggiornati sui suoi ultimi peti? Boh. Ma poi non aveva detto che avrebbe evitato «alcuni temi "caldi"» (la politica, di per sé, lo è)? Che avrebbe portato il blog «verso argomenti piu' informatici o specialistici»? (Contateli un po'… quanti sono?) Mi sa invece che, tolti i soliti elementi narrativi che tanto gli piacciono, il suo intento era proprio attirare l'attenzione — magari ci è pure riuscito, se io ho trovato un link al suo articolaccio su un forum e se sto scrivendo questo post… Oh, io ho dovuto chiudere la mailing list perché dopo un paio di articoli c'era una tempesta di sgherri di sinistra. Non l'ho mai riaperta. Se non mi credete è solo perché siete Uriel Fanelli.

  16. Ci fidiamo sulla parola: UF potrebbe anche aver mentito in modo da poter far credere al lettore che i numeri corrispondono (anche se non è così) e che, visto che corrispondono, allora possiamo considerare il dato accurato e non preoccuparci di cosucce come l'errore… Ribadiamolo: non è assolutamente questo il modo corretto di valutare l'affidabilità di qualcosa, che sia Alexa o altro. Riguardo i siti con rank maggiore di 100000, dicono: «We do not receive enough data from our sources to make rankings beyond 100,000 statistically meaningful». Il blog di UF, nel momento in cui scrivo, ha rank 132252.

  17. Non siamo ovviamente i primi a porci simili domande. Per esempio: How Accurate are Alexa, Compete, DoubleClick and Google Trends?, conclude così: «In sintesi, questo significa che i dati di Alexa possono non essere molto accurati, ma offre approfondimenti interessanti per ogni sito che si voglia studiare senza avere accesso diretto ai loro dati». Tradotto: serve per farsi un'idea, ma non va preso troppo sul serio. Ovvero: l'errore può essere considerato piuttosto grande.

  18. Senza avere nessuna altra informazione, alle pageviews non darei un errore relativo inferiore al 10% — non mi sembra troppo prudente.

  19. «Clearly Alexa cannot be relied on for accurate ranking information for critical site analysis, and perhaps should only be used as a rough guide, especially for smaller sites subject to the long tail effect.»

  20. Notate che la somma è maggiore del 100%. Come spiega Alexa: «La somma delle percentuali può superare 100% perché un visitatore può visitare più di un sottodominio durante il mese. Valore aggiornato mensilmente».

  21. Qui “non è possibile” significa: chi lo fa è un ignorante, o uno intellettualmente disonesto.

  22. Inutile dire che il «sistema operativo» ha ricevuto numerose critiche e che era stato considerato, almeno al lancio e l'ultima volta che me ne sono interessato, immaturo e poco pratico. Funzionalità simili (un sottoinsieme, un soprainsieme, migliori, peggiori, per questo e quell'altro ecc. — non è qui il posto dove fare queste valutazioni) sono offerte anche da piattaforme come LiquidFeedback e Airesis. (Per inciso, mi è “capitato” di donare a tutti e due i progetti…)

  23. In realtà il fatto che ci siano delle votazioni deve essere notificato via email prima di tutto: potrebbe anche non essere pubblicizzato sul blog. Nel caso delle espulsioni di Artini e Pinna, sembra che molte email siano arrivate a votazione iniziata, il che è, considerando la stretta finestra temporale della votazione, inaccettabile. Se questi ritardi lamentati sono veri, si tratta di un'altra delle deficienze “rilevate” del sistema; già altre volte ho valutato altri avvenimenti concludendo che il sistema è sottodimensionato rispetto alle esigenze. Un simile sistema dovrebbe sforzarsi di garantire ad ogni costo l'invio puntuale delle email di “notifica”. (Dico sforzarsi di e non garantire e basta perché, per come funziona il sistema che consente l'invio e la ricezione delle email, non è possibile garantire sempre al 100% il recapito istantaneo).

  24. In questo tipo di “giochi” è molto importante riuscire a dare spiegazioni che sembrino ovvie o lapalissiane, e che “persino loro” possano intuitivamente cogliere e convincersi che siano vere — anche se sono sbagliate… ma sono facili, populiste e popolane.

  25. Forse anche questo è un inganno: il sito usa il rank, a cui applica una formuletta per mostrare le pageview stimate — ma queste non sono quelle stimate da Alexa, bensì quelle calcolate dal rank di Alexa. (Avete 10 richieste a disposizione; se sperimentate con intevalli temporali e tipo di richiesta — reach, rank o pageview — vedete che il grafico almeno cambia, a differenza di quanto accade a “domainleia”).

  26. Anche perché il numero 150k è stato stimato a occhio sul grafico e quindi è impreciso.

  27. Visto che Alexa ci dà il rank, paragoniamo tale rank con quello fornito da iwebtool. Considerando che iwebtool fornisce il grafico per un mese mentre Alexa per 6 mesi, un paragone dettagliato dell'andamento è piuttosto difficile. Per vedere che c'è qualcosa che non va non abbiamo bisogno nemmeno di fare uno zoom: basta vedere che secondo iwebtool il rank oscilla da meno di 8000 a oltre 9000, mentre su Alexa il rank più basso (cioè il numero più alto) raggiunto è 6809 (il 4 dicembre). Ciò nonostante, le considerazioni sulla variazione di rank tra il 26/11 e il 27/11 restano: il miglioramento temporaneo del rank può benissimo essere dovuto ad un incremento di pageviews. Il piccolo picco locale lo ritroviamo anche sul rank di iwebtool — oltre che sulle pageview (secondo me calcolate a partire dal rank e non attingendo direttamente dai dati di Alexa) — sebbene in ascissa vengano messi dei valori non corrispondenti a quelli di Alexa.

  28. L'espressione è vaga, forse perché in realtà per Alexa stessa è difficile sapere quanti siano esattamente ed è anche difficile dare delle stime più precise.

  29. Con l'autore del testo di questa pagina, possiamo dire: «So lowering your Alexa rank is not as simple as getting more traffic. You still need to get more traffic, but essentially, you need more traffic from readers who have the Alexa toolbar». (Migliorare il rank di Alexa non è tanto semplice quanto ottenere più traffico. Hai bisogno sì di aumentare il traffico ma, essenzialmente, hai bisogno di aumentare il traffico dei lettori che hanno la toolbar di Alexa)

  30. Per entrare nel global panel bisogna aver installato una delle 25000 estensioni che forniscono i dati ad Alexa. Quali sono queste 25000 estensioni/add-on/plugin? Non si sa. Per calcolare la probabilità che, pescando a caso, si prenda una delle combinazioni in cui ci sono tutti gli iscritti al portale del «sistema operativo M5S» (diciamo che siano 30k), bisogna dividere il numero delle combinazioni di 1 milione di utenti (o quel che è) — il panel di Alexa — che hanno anche tali iscritti per il numero totale di combinazioni possibili. Il numero totale di combinazioni che si possono avere con 1M di utenti presi da un totale di, diciamo, 100M (il numero di utenti internet; secondo questo sito è più dell'ordine di 300M, quindi stiamo sottostimando il numero di combinazioni) è dell'ordine di 10 elevato alla 2 milioni. (Si calcola con il coefficiente binomiale; per la stima dell'ordine di grandezza ho proceduto calcolando il logaritmo in base 10). Tra queste combinazioni, un certo numero avranno anche i nostri 30k utenti, ma è ovvio che la stragrande maggioranza di combinazioni sono quelle che non ne hanno nessuno. Anche se consideriamo le combinazioni con 15k o più utenti iscritti al «sistema operativo M5S», questo numero continuerà ad essere una esigua minoranza rispetto al totale delle combinazioni (ci sono ben 99970000 che non sono utenti del «sistema operativo M5S»), sicché il rapporto risulterà tanto piccolo da potersi considerare, per tutti gli scopi pratici, 0. Quindi, la probabilità che nel global panel di Alexa, se Alexa avesse la possibilità di sceglierlo (casualmente), ci finisca un numero consistente dei 30k va considerata bassissima, praticamente nulla. Questo discorso vale per qualunque sottogruppo specifico che ha un interesse locale e limitato; per esempio, se un sito giapponese fa un concorso aperto solo agli iscritti ad alcune associazioni di caccia e pesca giapponese, concorso in cui bisogna mandare la foto del pesce pescato nell'arco di 12h di un certo giorno, non ci dobbiamo aspettare, guardando le pageview di Alexa, che queste mostrino un picco rivelatorio — se vale per le pageview stimate, a maggior ragione vale per il rank, ovviamente.

  31. Secondo iwebtool. L'incremento del traffico potrebbe benissimo essere causato dalla “curiosità”: giornalisti, detrattori, avversari politici e amici politici vanno a controllare il post, magari scavano nei commenti, e causano un incremento di traffico; cioè, tale “picco”, è molto più probabilmente dovuto a questo aumento di “interesse generale” e non all'incremento di connessioni al sistemaoperativom5s. Per il discorso fatto altrove sulla probabilità che gli iscritti facciano parte del global panel di Alexa, ritengo questo lo scenario più probabile che spiega perché in quel giorno risulti effettivamente un salto di traffico (un picco locale).

  32. Il completamento di questo post, iniziato “a smozzichi e bocconi”, è stato possibile solo grazie al fatto di avere la febbre in questi giorni… Altrimenti, con ogni probabilità, avrebbe fatto compagnia ai molti altri scritti-perdi-tempo incompiuti.

Nessun commento:

Posta un commento

Sii educato, costruisci con cura le frasi, rifletti prima di pubblicare, evita parolacce e offese dirette, non uscire dal tema, cerca di non omettere la punteggiatura, evita errori ortografici, rileggi quel che hai scritto.