Avete mai sentito parlare della legge di Benford? Da qualche giorno è disponibile su Netflix una nuova docuserie in 6 puntate, Connected, curata dal giornalista scientifico Latif Nasser. Prevedendo un certo interesse rispetto al tema, come confermato da Google Trend (Figura 1), abbiamo pensato di dedicare qualche post a questo argomento.

Legge di Benford su google trend

Fig. 1 Andamento delle ricerche su Google Trend: confronto tra “legge di Benford” e “legge di gravità”. Per la prima si verifica un picco in corrispondenza dell’uscita della serie Connected.

Ogni episodio di Connected è dedicato ad un tema diverso, ma ad attrarre la nostra attenzione è stato in particolare l’episodio numero 4, dedicato alla legge di Benford, che inizia così:

“Devo parlarvi di un codice, di uno schema di numeri. Quando ne senti parlare per la prima volta sembra banale. Ma poi inizi a vederlo ancora e ancora. Nascosto in bella vista nel caos che ci circonda.”

Ma è davvero così? Esiste davvero uno schema -“un segreto sulla società umana così grande, così profondo, così potente che il Governo Americano non vuole che tu lo sappia“, come Nasser dice all’inizio dell’episodio -?

In cosa consiste davvero questa legge? E perché non ne avete mai sentito parlare prima?

La legge di Benford

Se provate a prendere le misure di tutti i laghi del mondo o provate a vedere quante persone vivono in ogni comune d’Italia, beh, potreste scoprire che circa il 30% delle cifre che avrete raccolto iniziano con il numero 1, il 17% con il numero 2, il 12% con il numero 3 e così via. Potreste, con buone probabilità, scoprire che solo il 5% delle cifre che indicano la lunghezza dei fiumi del mondo comincia con il numero 9 e che solo il 6% dei comuni italiani ha un numero di abitanti che inizia con 7. In questo, approssimativamente, consiste la legge di Benford. Ma per non cadere in facili incomprensioni è utile approfondirne meglio le origini e i meccanismi.

Le origini

La legge di Benford deve il suo nome a Frank Benford, un fisico americano che pubblicò nel 1938 “The Law of Anomalous Numbers”. Ma il primo ad osservare che le pagine delle tavole logaritmiche (un tempo non esistevano le calcolatrici e i logaritmi venivano calcolati rifacendosi a tabelle precompilate) che contenevano i logaritmi dei numeri 1 e 2 erano più consumate delle altre fu nel 1881 Simon Newcomb, un astronomo-matematico americano.

Già nel 1881 Newcomb aveva proposto alcune osservazioni sulla ricorrenza dei numeri basandosi sulla sua osservazione delle tavole logaritmiche, ma fu poi per l’appunto Benford ad effettuare studi più approfonditi sul tema, raccogliendo una serie di esempi di misurazioni che rispettavano la legge.

Cosa osservò Benford? Molte raccolte di dati, da quelle relative alla lunghezza dei fiumi a quelle relative agli abitanti delle città, erano caratterizzate dall’avere tutte una stessa percentuale di cifre che iniziavano con il numero 1, con il numero 2 e via via a scendere.

Uno dei motivi per cui potreste non aver mai sentito parlare di questa legge è perché la sua applicabilità è ancora oggetto di studio e ricerche – trovate alcuni riferimenti utili alla fine di questo articolo – e, a differenza di quanto sembra far intendere la puntata di Connected di stimolo a questo post, non si tratta di una condizione sufficiente a svelare truffe e manipolazioni di dati.

La definizione della legge di Benford

Benford calcolò le probabilità con cui in un determinato set di dati la prima cifra fosse pari a 1, a 2, ecc, facendo poi calcoli simili per determinare anche le probabilità per le cifre in seconda posizione. Come si può vedere dalla figura 2 le probabilità relative alla seconda cifra discostano poco tra loro, pertanto prenderemo in considerazione solo la parte relativa alla prima cifra.

Tabella legge di Benford

Figura 2: la tabella realizzata da Benford

La definizione operativa della legge di Beford dice che:

Una raccolta di dati soddisfa la legge di Benford se la probabilità che la prima cifra dei valori che la compongono sia d sia approssimativamente pari a log10[(d+1)/d]

Ovvero un set di dati soddisfa la legge di Benford se la probabilità che uno dei valori che contiene inizi con il numero 1 sia pari a log102=0,301, che uno dei valori inizi con il numero 2 sia pari a log103/2=0,176, ecc…

Un insieme di dati che rispetta fedelmente questa legge conterrà il 30,1% di numeri che iniziano con il numero 1, il 17,6% che iniziano con il numero 2, ecc… secondo un andamento del tipo in figura:

Ma questo vale per tutte le raccolte di dati?

Se tra voi c’è qualche lettore pigro ecco subito una risposta che è bene tenere a mente: NO, la legge di Benford non vale per tutti i numeri del mondo. Pertanto anche se online è possibile trovare non poche ricerche che provano a dimostrare l’aderenza di una serie di raccolte di dati alla legge di Benford è bene mantenere un certo senso critico rispetto alle rappresentazioni messe a disposizione.

Non tutti i set di dati devono concordare con questa legge: non vale per identificare frodi od errori in qualsiasi elenco di dati.

Se prendiamo ad esempio in considerazione l’altezza dei diciottenni italiani è chiaro che la maggioranza delle cifre inizierà con il numero 1. Le altezze dei diciottenni non rispettano la legge di Benford. E no, la legge di Benford non cambia le probabilità dei risultati nel lancio dei dadi (che, tra l’altro, contengono solo i numeri da 1 a 6).

Se consideriamo la serie data da 10n con n valore intero positivo avremo, anche in questo caso, tutti valori che iniziano con 1 (10, 100, 1000, 10000, ecc…). Anche in questo caso ci troviamo a che fare con un insieme di dati che non rispondono alla legge di Benford, che è invece rispettata dall’andamento di 2n .

Insomma, la legge di Benford è applicabile per raccolte di dati che rispondono quantomeno ad una serie di requisiti: non regola il mondo e non è applicabile ad ogni cosa.

Quando possiamo trovare la legge di Benford

Esistono studi relativi all’applicabilità della legge di Benford per contribuire ad identificare le frodi fiscali e sono state condotte ricerche per provare a verificare la possibilità di individuare i brogli elettorali. Questo è possibile perché tendiamo ad inventarci numeri non per forza casuali e distribuiti. Attenzione: non significa però che queste tipologie di dati siano tenute a rispettare senza margini d’errore la legge di Benford. Le cifre di un bilancio possono infatti essere dettate da vincoli che le fanno uscire dai principi entro i quali la legge è valida.

Non ci sono argomenti intuitivi semplici che permettono di capire quando e perché una serie di numeri rispetta la legge che stiamo considerando. Si è dimostrato ad esempio che più i dati sono distribuiti su più ordini di grandezza più è possibile individuare l’andamento previsto da Benford per le prime cifre, ma non si tratta di una condizione necessaria e sufficiente.

Sono stati sviluppati e dimostrati a livello matematico una serie di proposizioni che permettono di capire meglio le condizioni entro cui la possiamo ritenere valida, ma c’è ancora molto da approfondire, come dimostra un recente articolo a cura di Arno Berger e Theodore P. Hill che mette in risalto alcune convinzioni errate sull’applicabilità di questa legge.

Ad esempio affinché un set di dati sia effettivamente coerente con la legge di Benford occorre che la distribuzione delle cifre significative che andiamo ad analizzare non muti cambiando unità di misura. Le lunghezze dei fiumi misurate da Benford nel suo articolo rispettano la legge sia che misurandole con il sistema anglosassone sia con il Sistema Internazionale. Molti elementi in natura sono caratterizzati dall’invarianza di scala ed è uno dei motivi per cui è frequente identificare in essi la legge di Benford.

Molte, ma non tutte, le serie di numeri con crescita esponenziale rispettano la legge di Benford. Quindi anche l’avere a che fare con una serie non è una condizione sufficiente per ritrovare le percentuali previste da Benford.

Insomma, nessun mistero e nessuna regola che governa il mondo.

Ma se volete divertirvi a trovare la Legge di Benford nelle cose che ci circondano… abbiamo preparato un paio di esercizi che potete divertirvi a replicare!

RISORSE UTILI (GRATUITE, in inglese)

Benford Online Bibliography, A. Berger, T. P. Hill, and E. Rogers, http://www.benfordonline.net, 2009. (Last accessed 20 agosto 2020.)

Benford, Frank. “The Law of Anomalous Numbers.” Proceedings of the American Philosophical Society, vol. 78, no. 4, 1938, pp. 551–572. JSTOR, www.jstor.org/stable/984802. (Last accessed 20 agosto 2020.)

Berger, Arno, e Theodore P. Hill. «The Mathematics of Benford’s Law — A Primer». arXiv:1909.07527 [math, stat], aprile 2020. arXiv.org, http://arxiv.org/abs/1909.07527. (Last accessed 20 agosto 2020.)

Miller, Steven. (2015). Benford’s Law: Theory and Applications. Disponibile su Researchgate. (Last accessed 20 agosto 2020.)

[Poto in copertina by Alex wong on Unsplash]