¿Por qué la ley de Benford se aplica a tantos conjuntos de datos?

TL’DR
Es más que un simple Quirk estadístico, es una fórmula [1] con una prueba, como sigue:
Prueba de Pinkham de la Ley de Benford [2]

Pinkham dividió la prueba en dos segmentos principales: invariancia de escala y unicidad de esta ley

en forma simplificada :
Como Pinkham argumentó, el hecho de que podamos encontrar todo tipo de datos en el mundo real que parezcan ajustarse a la Ley de Benford sugiere que esta ley debe ser invariante a escala, la invariancia a escala de la distribución significa que si multiplicamos todos nuestros números por una constante arbitraria (como lo hacemos cuando cambiamos de libras a yenes, o pies a metros), entonces la distribución de las frecuencias del primer dígito debe permanecer sin cambios.

Como estamos interesados ​​en la distribución de los primeros dígitos significativos, tiene sentido expresar números en notación científica [matemática] x * 10 ^ n [/ matemática] donde [matemática] 1 \ le x <10 [/ matemática]. Esto es posible para todos los números excepto cero. El primer dígito significativo [math] d [/ math] es simplemente el primer dígito de [math] x [/ math]. Podemos derivar fácilmente una distribución invariante de escala para [math] d [/ math] una vez que hayamos encontrado una distribución invariante de escala para [math] x [/ math]. Si una distribución para [math] x [/ math] es invariante a escala, entonces la distribución de [math] y = log_ {10} {x} [/ math] debe permanecer sin cambios cuando agregamos un valor constante a [math] y [/ math]. ¿Por qué? Porque estaríamos multiplicando [matemática] x [/ matemática] por alguna constante [matemática] a [/ matemática], y
[math] log_ {10} {ax} = log_ {10} a + log_ {10} x [/ math] [math] = log_ {10} a + y [/ math]

Ahora, la única distribución de probabilidad en [matemática] y [/ matemática] en [matemática] [0,1) [/ matemática] que permanecerá sin cambios después de la adición de una constante arbitraria a [matemática] y [/ matemática], es La distribución uniforme. Para convencerse de esto, piense en la forma de la función de densidad de probabilidad para la distribución uniforme.
Figura 5

En la figura, [math] y [/ math] se distribuye uniformemente entre [math] log_ {10} 1 = 0 [/ math] y [math] log_ {10} 10 = 1 [/ math]

Si queremos encontrar la probabilidad de que d sea 1, tenemos que evaluar

[matemática] Pr (d = 1) [/ matemática] [matemática] = Pr (1 \ le x <2) = [/ matemática] [matemática] Pr (0 \ le y <log_ {10} 2) [/ matemática ]

Para encontrar esto calculamos la integral
[matemáticas] \ int ^ {log_ {10} 2} _0 1 \, dy = log_ {10} 2 [/ matemáticas]

que es aproximadamente [matemáticas] 0.301 [/ matemáticas]. En general

[matemáticas] Pr (d = n) [/ matemáticas] [matemáticas] = Pr (n \ le x <n + 1) [/ matemáticas] [matemáticas] = Pr (log_ {10} n \ le y <log_ {10 } n + 1) [/ matemáticas]

y esto es dado por

  1. [matemáticas] \ int ^ {log_ {10} n + 1} _ {log_10 n} 1 \, dy = log_ {10} n + 1 – log_ {10} n = [/ matemáticas] [matemáticas] log_ {10} \ frac {n + 1} {n} [/ matemáticas]

La expresión [math] log_ {10} \ frac {n + 1} {n} [/ math] fue exactamente la fórmula dada por Newcomb y más tarde por Benford para la proporción de números cuyo primer dígito es [math] n [/ math] . Entonces, podemos mostrar que la invariancia de escala para una distribución de frecuencias de primer dígito de [math] x [/ math] implica que esta distribución debe ser la Ley de Benford.
Fuente:
http://plus.maths.org/content/os…
2.http: //web.williams.edu/go/math/…

La ley de Benford solo dice que en la vida real, los números que uno encuentra tienden a comenzar con dígitos pequeños como 1 o 2 con mayor frecuencia que los dígitos grandes como 8 o 9.

Aunque esto puede parecer misterioso al principio, en realidad es bastante intuitivo, si te das cuenta de que en muchas situaciones, los números tienden a distribuirse de acuerdo con las leyes exponenciales (de potencia). Básicamente, esto solo significa que los números aparecen en diferentes órdenes de magnitud (es decir, el número de figuras en los números varía). Por ejemplo, esto es cierto para los saldos de las cuentas bancarias, ya que algunas personas tienen ingresos de tres cifras, algunos ingresos de cuatro cifras, algunos de cinco cifras, algunos de seis cifras, etc. También es (muy aproximadamente) cierto de los precios de las acciones, récord ventas, poblaciones de países, constantes físicas, etc.

Para los casos en que esto se cumple, significa que la distribución de dichos números se “estira” en el extremo superior, hacia números grandes, y una consecuencia es que están más comprimidos en el extremo inferior, y se ven más números que comienzan con 1 que con 9. (Para ver una ilustración de esto, tome cualquier número, y con una calculadora agregue repetidamente 10%. Verá un comportamiento similar).

La ley es más una observación general, y no una declaración inmutable sobre todos los números. No se aplica en situaciones que no están distribuidas exponencialmente, como el lanzamiento de un dado, la vida útil de una persona en años o la cantidad de cuerdas de una guitarra.

Finalmente, uno podría preguntarse si esto tiene algo que ver con nosotros usando un sistema de números de base 10. No lo hace. Las cosas se comportan de manera similar en cualquier otra base (bueno,> 2).

Wikipedia tiene mucha más discusión sobre el tema.
http://en.wikipedia.org/wiki/Ben

Para complementar la respuesta de Levy, hay situaciones en las que vemos que la ley de Benford se extiende más allá de aquellas en las que esperaríamos distribuciones de acuerdo con las leyes de poder. Es decir, si bien el caso del crecimiento exponencial hace que la intuición de la ley de Benford como se explicó anteriormente sea evidente, hay una razón más general (podría llamarse una prueba de por qué vemos esta distribución de los primeros dígitos).

En particular, considere un conjunto de datos con unidades de cualquier tipo (dólares para precios, kilogramos para pesos, etc.) y suponga que hay una distribución de los primeros dígitos. Debido a que nuestras unidades son arbitrarias (podríamos haber elegido yenes en lugar de dólares o libras en lugar de kilogramos) y nuestra base es arbitraria (podríamos contar en base binaria o babilónica 64 en lugar de nuestra base habitual 10), entonces cualquier distribución de los primeros dígitos debe ser independiente de la escala y la base. En otras palabras, si multiplicamos cada punto de nuestro conjunto de datos por cualquier constante y cambiamos la base a lo que queramos, entonces nuestra ley aún debe ser válida si de hecho es una ley. La razón por la que obtenemos la distribución de Benford es que, de hecho, es la única distribución que satisface estas dos propiedades de escala e invariancia de base.

Este es un enfoque teórico (es decir, presupone una distribución y muestra que es la distribución de Benford), pero no necesariamente explica por qué vemos esa distribución en primer lugar, y no es tan poderosa en el caso de mediciones sin unidades escalables (para las cuales existen muchos ejemplos siguiendo la ley de Benford). Una respuesta más satisfactoria para esos casos es que matemáticamente si considera distribuciones de probabilidad aleatorias y toma muestras aleatorias de ellos, la distribución de los primeros dígitos de las muestras convergerá a la distribución de Benford. Esto es análogo al teorema del límite central, pero es para los dígitos iniciales.

La ley de Benford puede no ser sorprendente para las cosas que se cuentan, pero se muestra en muchas otras distribuciones para las cosas que se miden. Benford le aplicó pesos moleculares, largos de ríos y poblaciones urbanas. Mirando la Lista de ríos por longitud, puede ver que hay muchos más ríos en el rango de 1,000-1,999km que en el rango de 6,000km más, lo que se espera. Pero la distribución no es tan efectiva cuando las mide en millas. El número 2 en realidad está subrepresentado, mientras que hay un gran número de 8 y 9, porque los ríos más largos superan el límite. Es muy posible que se ajuste más a la ley de Benford si continúa con la lista; se corta en el rango de más de 600 millas. Pero eso fue arbitrario, y la lista podría haberse cortado en cualquier punto (y de hecho siempre se cortará en alguna parte).

Existen varias razones para pensar que la ley de Benford se aplicaría en muchos casos. La invariancia de escala y el crecimiento exponencial tenderán a producir números tipo Ley de Benford cuando se miden en grandes cantidades de escalas. Eso tiende a factorizar las unidades, lo que causó problemas en el ejemplo de km / millas anterior.

La ley de Benford se aplica a conjuntos de datos que son aproximadamente logarítmicos .

La ley de Benford establece que, en un conjunto de datos logarítmicos, el primer dígito de cada punto de datos será 1 aproximadamente el 30,1% del tiempo. Esto es contraintuitivo porque, en una muestra aleatoria de números gaussianos, esperaríamos que el primer dígito sea 1 aproximadamente el 11.1% del tiempo.

Simplemente sucede que muchos conjuntos de datos que encontramos están distribuidos logarítmicamente. Cualquier conjunto de datos que abarque múltiples órdenes de magnitud tenderá a acercarse a la ley de Benford. Sin embargo, es relativamente fácil pensar en conjuntos de datos donde no se aplicará la ley de Benford (por ejemplo, datos de altura humana, millas por galón de vehículo, bpm de canciones pop, etc.)

Si tiene los dígitos del 1 al 9 y los distribuye logarítmicamente, esto es lo que obtiene:

log (1) = 0

log (2) = 0.301

log (3) = 0.477

log (4) = 0.602

log (5) = 0.699

log (6) = 0.778

log (7) = 0.845

log (8) = 0.903

log (9) = 0.954

log (10) = 1

Entonces, si tiene un conjunto de datos logarítmicos, todos los números del 1 al 2 (o del 10 al 20; o del 100 al 200; es decir, todos los que comienzan con 1 ), en un sentido ideal, ocuparán el 30.1% del conjunto de datos . Todos los números del 2 al 3 (o del 20 al 30; o del 200 al 300; es decir, todos los que comiencen con 2 ) ocuparán (0.477–0.377) * 100 = 17.6% del conjunto de datos y así sucesivamente:

1 como primer dígito = 30.1%

2 como primer dígito = 17,6%

3 como primer dígito = 12.5%

4 como primer dígito = 9.7%

5 como primer dígito = 7.9%

6 como primer dígito = 6.7%

7 como primer dígito = 5.8%

8 como primer dígito = 5.1%

9 como primer dígito = 4.6%

Espero que ayude.

Aquí hay una comprensión intuitiva de cómo funciona la Ley de Benford.

Sea n un número aleatorio como resultado de un proceso físico.

En realidad, hay dos procesos aquí:
a) Se determina un nivel superior U para el número aleatorio;
b) El número objetivo n se elige al azar dentro de ese rango.

El nivel superior U se puede elegir al azar completo.

Supongamos que tiene la misma probabilidad de comenzar con cualquiera de los 9 dígitos.
Supongamos que comienza con 2.
Luego, al menos 1/3 de los números entre o y U comienzan con 1. Si U es, por ejemplo, 2000, entonces más de la mitad de los números entre o y U comienzan con 1.
Eso ya sesga los números a favor de 1.

Si marca todos los otros números con los que U puede comenzar, verá que en todos los casos, excepto cuando U = 9999, la probabilidad de que n comience con 1 es mayor que 1 en 9.

Estoy sorprendido porque supongo que la medición y las estadísticas producirían una muestra aleatoria de fracciones decimales. Si eso fuera así, no encontraríamos el 20 por ciento de ellos comenzando con 1. Maldición si sé por qué. Lo encuentro bastante sorprendente.

Es fácil una vez que lo piensas de esa manera, pero no es obvio si simplemente estás pensando en términos de dígitos o en términos de distribución uniforme durante el intervalo de la unidad.

En una escala logarítmica, 1 a 2, 2 a 4 y 4 a 8 son intervalos de igual longitud, y si tiene datos que varían mucho en escala para que no sepa en qué parte de la escala aterrizará, un valor razonable La expectativa es que un punto tiene posibilidades comparables de aterrizar en cada uno de esos intervalos.