¿Pueden dos conjuntos de datos diferentes tener la misma media y desviación estándar, pero diferentes rangos?

TL; DR: Sí. Aunque esto es bastante raro. Vaya al final de mi explicación de lo que estos términos significan incluso para más detalles.


Dada una distribución [matemática] X [/ matemática] con [matemática] N [/ matemática] muestras totales, la media es el valor promedio (o [matemática] \ mu [/ matemática] o valor esperado [matemática] E [X] [/matemáticas]). Puede calcular esto sumando todas las muestras en [matemáticas] X [/ matemáticas] y dividiendo entre [matemáticas] N [/ matemáticas]. Esto se escribe en notación de suma como:

[matemáticas] E [X] = \ mu = \ frac {1} {N} \ sum_ {i = 0} ^ {N} X_i [/ ​​matemáticas]

Eso es genial y todo, pero ¿qué pasa si quieres una medida de cuán espaciado está este conjunto de datos? Seleccionemos un solo punto de esta distribución, [matemática] X [/ matemática] [matemática] _i [/ ​​matemática], y compárelo con la media, y sumemos estas diferencias en todo el conjunto de datos y dividamos por el número de muestras:

[matemáticas] \ frac {1} {N} \ sum_ {i = 0} ^ {N} \ left (X_i – \ mu \ right) [/ math]

Ahora tenemos un problema. ¿Qué sucede si el punto que elegimos, [matemáticas] X_i [/ ​​matemáticas], es menor que [matemáticas] \ mu [/ matemáticas]? Considere dos conjuntos de datos de tres elementos:

[matemáticas] D_1 = \ left \ {- 1.0, 0.0, 1.0 \ right \} [/ matemáticas]

[matemáticas] D_2 = \ left \ {- 2.0, 0.0, 2.0 \ right \} [/ matemáticas]

Observe que la media de [matemática] D_1 [/ matemática] y [matemática] D_2 [/ matemática] es la misma. Sin embargo, si calculamos la diferencia promedio como se muestra arriba, ¡observe que obtenemos la misma diferencia promedio – [matemáticas] 0 [/ matemáticas]! ¡Pero mirando los conjuntos de datos, [math] D_2 [/ math] parece más espaciado que [math] D_1 [/ math]!

Una solución es calcular la diferencia cuadrática promedio. Esto elimina nuestros signos negativos y es una buena manera de obtener lo que estamos buscando: una medida de escasez.

[matemáticas] \ sigma ^ 2 = \ frac {1} {N} \ sum_ {i = 0} ^ {N} \ left (X_i- \ mu \ right) ^ 2 [/ math]

Esto es varianza. Es una forma de medir cuán extendido es un conjunto de datos. En lugar de cuadrar las diferencias, podríamos tomar el valor absoluto y obtener otra medida de la dispersión con propiedades ligeramente diferentes. En su mayor parte, la varianza es lo que se usa para este propósito.

Ahora, volviendo a tu pregunta. ¿Cómo encaja la desviación estándar en todo esto? Representada por la letra griega sigma ([math] \ sigma [/ math]), la desviación estándar es la raíz cuadrada de la varianza.

[matemáticas] \ sigma = \ sqrt {\ frac {1} {N} \ sum_ {i = 0} ^ {N} \ left (X_i- \ mu \ right) ^ 2} [/ math]

[matemáticas] \ sigma = \ sqrt {E [(X- \ mu) ^ 2]} [/ matemáticas]

Ahora, si arreglamos [math] \ mu [/ math] y [math] \ sigma [/ math] para dos distribuciones diferentes, piense en lo que eso significa. El promedio es el mismo, y también lo “espaciado” de las distribuciones de cada uno. En general, tener múltiples conjuntos de datos con idénticos [math] \ sigma [/ math] y [math] \ mu [/ math] pero es posible diseñar diferentes rangos, pero si existen, son bastante raros. Consulte otras respuestas a esta pregunta para ver ejemplos de conjuntos de datos con [math] \ sigma [/ math] y [math] \ mu [/ math] muy similares .


Para ampliar su pregunta, hay ejemplos limitados de conjuntos de datos que logran una propiedad similar que puede estar buscando: estadísticas muy similares pero diferentes rangos de datos. Echa un vistazo al cuarteto de Anscombe. Existen algunos enfoques algorítmicos para generar dichos conjuntos de datos, pero no he encontrado enfoques analíticos. Para obtener una explicación de cómo se pueden generar estos conjuntos de datos, consulte el recocido simulado.

En pocas palabras, el recocido simulado ayuda en esta circunstancia al hacer una búsqueda aleatoria (pero limitada por un factor [matemático] T [/ matemático] llamado temperatura, por lo que es aleatorio pero con una correa cada vez más corta) de posibles valores de distribución que minimicen un costo función. En este caso, una función de costo viable podría minimizar las distancias entre los momentos estadísticos en comparación con una distribución objetivo.

Si facilmente. Si las funciones de distribución de las dos poblaciones son diferentes, la curtosis (medida por el cuarto momento) puede ser muy diferente. Por ejemplo, podría construir una distribución normal y una distribución rectangular con la misma media y varianza (y tercer momento: asimetría, cero en ambos casos) que tendrían curtosis y rangos muy diferentes.

Si. Fácilmente.

Incluso si te limitas a conjuntos simétricos.

Por ejemplo,

[matemáticas] \ {- a, -a, 0, a, a \} [/ matemáticas]

y

[matemáticas] \ {- \ sqrt {2} a, 0,0,0, \ sqrt {2} a \} [/ matemáticas]

cumplir estos requisitos para todos los [matemáticos] a [/ matemáticos] distintos de cero.

Claro si tienen distribuciones diferentes. La primera columna es uniforme la segunda normal

1, 0.195941

2, 2.312196

3, 3.543152

4, 4.503125

5. 5.340005

6, 6.119086

7, 6.880914

8, 7.659995

9, 8.496875

10, 9.456848

11, 10.6878

12, 12.80406

Media 6.5 cada uno

St Dev 3.605551

Rango 11 y 12.60812

More Interesting

¿Qué piensan los matemáticos y físicos del multimillonario Jim Simons?

¿Qué piensan los matemáticos de la física?

¿En qué se diferencian la American Mathematical Society (AMS) y la Mathematical Association of America (MAA)?

La madurez matemática es un término que los matemáticos usan para describir el tipo de sabiduría práctica y confianza que un estudiante solo puede obtener con una exposición repetida y ecléctica a problemas y conceptos en matemáticas. ¿Cómo describirías la madurez de la programación?

¿Cuál es el resto cuando [matemáticas] \ begin {vmatrix} 2014 ^ {2014} y 2015 ^ {2015} y 2016 ^ {2016} \\ 2017 ^ {2017} y 2018 ^ {2018} y 2019 ^ {2019} \ \ 2020 ^ {2020} y 2021 ^ {2021} y 2022 ^ {2022} \ end {vmatrix} [/ math] se divide por 5?

¿Cuándo alcanzarán los matemáticos su límite creativo? Es decir, ¿llegará el momento en que los matemáticos pasen toda su vida aprendiendo el cuerpo matemático existente y, por lo tanto, no tengan tiempo para crear nuevas teorías?

¿Los matemáticos piensan que todas las verdades matemáticas tienen fundamentos necesarios para su veracidad, sin espacio en la arena matemática para la arbitrariedad o contingencia?

Deje g ser una función continua. ¿Cómo calculo los valores de la constante c tal que [matemática] \ displaystyle \ int_ {c} ^ xg (t) dt = 4x ^ {3} -36x? [/ Matemática]

¿Están los matemáticos subestimados y los físicos sobrevalorados por el grupo demográfico más amplio? Si las ciencias fueran una película, ¿serían los físicos los actores glamorosos, mientras que los matemáticos los guionistas brillantes que merecen mucho más crédito?

¿Por qué los matemáticos encuentran los nudos tan interesantes?