¿Por qué la varianza de una variable aleatoria discreta es igual a la suma de [matemáticas] (x ^ 2. P (x)) – [/ matemáticas] m ^ 2?

(Explico mi notación a continuación)

Entonces, ¿por qué los matemáticos querrían saber la varianza de una variable aleatoria? Bueno, la media ya nos dice mucho sobre la variable aleatoria, pero puede ser una medida bastante engañosa sobre las propiedades de los datos en su conjunto. Por ejemplo, la edad promedio en una habitación de solo un bebé recién nacido de 0 años y un hombre de 100 años es de 50 años, lo cual es bastante engañoso. Podemos agregar otra medida de “centralidad” midiendo cómo los datos en promedio están distantes de la media . Matemáticamente parece que necesitamos tomar el promedio de la distancia entre nuestra variable aleatoria y su media. Entonces, la distancia entre nuestra variable aleatoria (todos nuestros datos) y su media (el promedio de los datos) es una nueva variable aleatoria [matemática] Y [/ matemática]

[matemáticas] Y = X- \ displaystyle \ sum_ {i = 1} ^ n p_X (x_i) x_i \ tag {4} [/ matemáticas]

Deje [math] \ mu_X = \ sum_ {i = 1} ^ n p_X (x_i) x_i [/ ​​math] ya que es mejor verlo como la constante que es.

[matemáticas] Y = X- \ mu_X \ etiqueta {5} [/ matemáticas]

Sin embargo, es posible que ya empiece a notar que todo lo que está haciendo esta nueva variable aleatoria es cambiar sus datos en la recta numérica real por la media que sea. Entonces el centro ya no es la media, sino más bien [matemáticas] 0 [/ matemáticas]. Entonces, si tomamos el promedio de esta nueva variable aleatoria [matemática] Y [/ matemática], que es solo [matemática] X [/ matemática] desplazada a la derecha o izquierda por cuál es su valor medio, obtendríamos [matemática] 0 [/ math] siempre. Si recuerda lo que nos propusimos hacer, esto realmente no nos ayuda. Lo que podríamos hacer es tomar el valor absoluto de la distancia y luego tomar el valor promedio de la distancia, pero hacerlo no es matemáticamente favorable ya que a menudo puede crear curvas extrañas no diferenciables dentro de nuestras funciones. Entonces, lo que hicieron los matemáticos fue tomar el cuadrado de la distancia y luego tomar el valor promedio del cuadrado de la distancia . Tomar la raíz cuadrada de esta Variación recién derivada nos daría una medida más intuitiva de la distancia entre la media y nuestros datos que no siempre fue [matemática] 0 [/ matemática] llamada desviación estándar .

Entonces, comenzando con [math] \ left (5 \ right) [/ math], necesitamos tomar el cuadrado de [math] Y [/ math] y luego encontrar el promedio:

[matemáticas] Y ^ 2 = \ left (X- \ mu_X \ right) ^ 2 \ tag {6} [/ math]

[matemáticas] \ mu_ {Y ^ 2} = \ displaystyle \ sum_ {j = 1} ^ n p_X (x_j) (y_j) ^ 2 \ tag {7} [/ matemáticas]

[matemáticas] \ mu_ {Y ^ 2} = \ displaystyle \ sum_ {j = 1} ^ n p_X (x_j) (x_j- \ mu_X) ^ 2 \ tag {8} [/ matemáticas]

[matemáticas] \ mu_ {Y ^ 2} = \ displaystyle \ sum_ {j = 1} ^ n p_X (x_j) (x_j ^ 2-2x_j \ mu_X + \ mu_X ^ 2) \ tag {9} [/ matemática]

[matemáticas] \ mu_ {Y ^ 2} = \ displaystyle \ sum_ {j = 1} ^ n x_j ^ 2p_X (x_j) -2p_X (x_j) x_j \ mu_X + p_X (x_j) \ mu_X ^ 2 \ tag {10} [/matemáticas]

[matemáticas] \ mu_ {Y ^ 2} = \ displaystyle \ sum_ {j = 1} ^ n x_j ^ 2p_X (x_j) -2 \ mu_X \ sum_ {j = 1} ^ n p_X (x_j) x_j + \ mu_X ^ 2 \ sum_ {j = 1} ^ np_X (x_j) \ tag {11} [/ math]

[matemáticas] \ mu_ {Y ^ 2} = \ displaystyle \ sum_ {j = 1} ^ n x_j ^ 2p_X (x_j) -2 \ mu_X (\ mu_X) + \ mu_X ^ 2 (1) \ tag {12} [ /matemáticas]

[matemáticas] Var = \ mu_ {Y ^ 2} = \ displaystyle \ sum_ {j = 1} ^ n x_j ^ 2p_X (x_j) – \ mu_X ^ 2 \ tag {13} [/ matemática]

Para [matemáticas] \ izquierda (11 \ derecha) [/ matemáticas] a [matemáticas] \ izquierda (12 \ derecha) [/ matemáticas], tenga en cuenta que [matemáticas] \ sum_ {j = 1} ^ n p_X (x_j) x_j [/ math] es la definición de la media [math] \ mu_X [/ math] de [math] (3) [/ math] y que [math] \ sum_ {j = 1} ^ np_X (x_j) = 1 [ / math] ya que todas las probabilidades de todos los eventos posibles deben sumar a [math] 1 [/ math].


Primero, limpiemos parte de la notación para que las matemáticas sean un poco más claras. La pregunta pregunta por qué la varianza de una variable aleatoria discreta, [matemáticas] Var (X) [/ matemáticas], es igual a la suma, [matemáticas] \ sum_ {i = 1} ^ {n} {x_i} ^ 2p_X (x_i ) – \ mu ^ 2 [/ math] donde nuestra variable aleatoria de valor real (para hacerlo más simple) toma un evento del espacio muestral [math] \ Omega [/ math] a algún número en la recta numérica real [math] \ Re [/ matemáticas]. [math] x_i [/ ​​math] como está escrito arriba son todos los valores de esa recta numérica real que representan nuestro espacio muestral. Por ejemplo, si estuviéramos lanzando una moneda, nuestro espacio muestral (el conjunto de todos los eventos posibles) [matemática] \ Omega = \ {\ text {Heads}, \ text {Tails} \} [/ math], luego para [ math] \ omega \ in \ Omega [/ math], nuestra variable aleatoria sería

[matemáticas] X (\ omega) = \ begin {cases} 1, & \ text {if} \ \ omega = \ text {Heads,} \\ 0, & \ text {if} \ \ omega = \ text {Tails .} \ end {cases} \ tag {1} [/ math]

Nuestra [matemática] x_i [/ ​​matemática] en este caso sería [matemática] 1 [/ matemática] para [matemática] i = 1 [/ matemática] o [matemática] 0 [/ matemática] para [matemática] i = 2 [/matemáticas]. [math] p [/ math] como se escribió anteriormente es la función de masa de probabilidad que lleva los valores de nuestras variables aleatorias a probabilidades. Continuando con el caso de una moneda justa, sabemos que [math] \ text {Heads} [/ math] ocurre con una probabilidad [math] \ frac {1} {2} [/ math] y de igual manera [math] \ text { Tails} [/ math] ocurre con una probabilidad [math] \ frac {1} {2} [/ math]. Para [math] x \ in X [/ math] notamos esto como

[matemáticas] p_X (x) = \ begin {cases} \ frac {1} {2}, & \ text {if} \ x = 1, \\ \ frac {1} {2}, & \ text {if} \ x = 0. \ end {cases} \ tag {2} [/ math]

[math] \ mu [/ math] en este caso representa el valor promedio o esperado (promedio) . Esta definición se enseña bastante pronto, pero la escribiré aquí como

[matemáticas] \ mu = \ displaystyle \ sum_ {i = 1} ^ n x_ip_X (x_i) \ tag {3} [/ matemáticas]

Debe quedar claro, utilizando las definiciones anteriores, que para nuestro caso de moneda justa, [math] \ mu = \ dfrac {1} {2} [/ math], lo que significa que nuestra variable aleatoria se divide equitativamente entre sus valores [math ] 1 [/ math] y [math] 0 [/ math], que se puede observar experimentalmente cuando se lanza una moneda justa.

La varianza de una variable aleatoria discreta viene dada por

[math] \ mathbb {V} (x) = \ sum_ {i = 0} ^ n \ left (x_i- \ mathbb {E} (x) \ right) ^ 2 [/ math]

Podemos ampliar los términos para producir

[math] \ mathbb {V} (x) = \ sum_ {i = 0} ^ n x_i ^ 2p_i-2 \ mathbb {E} (x) x_ip_i [/ ​​math] [math] + \ mathbb {E} ^ 2 (x) p_i [/ ​​matemáticas]

Debido a la linealidad de la suma, podemos dividir la suma en tres términos.

[matemáticas] \ mathbb {V} (x) = \ sum_ {i = 0} ^ n x_i ^ 2p_i- \ sum_ {i = 0} ^ n2 \ mathbb {E} (x) x_ip_i + \ sum_ {i = 0 } ^ n \ mathbb {E} ^ 2 (x) p_i [/ ​​math]

Otra propiedad de la suma (también debido a la linealidad) es

[matemáticas] \ sum_k ax_k = a \ sum_k x_k [/ matemáticas]

o simplemente podemos mover la constante de la suma. Esto lleva a

[matemáticas] \ mathbb {V} (x) = \ sum_ {i = 0} ^ n x_i ^ 2p_i-2 \ mathbb {E} (x) \ sum_ {i = 0} ^ nx_ip_i + \ mathbb {E} ^ 2 (x) \ sum_ {i = 0} ^ n p_i [/ ​​math]

Ahora no podemos hacer mucho con el primer término sin más información, pero podemos definir lo siguiente

[math] \ mathbb {E} (x) = \ sum_ {i = 0} ^ nx_ip_i [/ ​​math]

lo cual, junto con la propiedad básica de que todas las distribuciones de probabilidad deben ser algunas de 1. Implica

[matemáticas] \ mathbb {V} (x) = \ sum_ {i = 0} ^ n x_i ^ 2p_i-2 \ mathbb {E} (x) \ cdot \ mathbb {E} (x) + \ mathbb {E} ^ 2 (x) \ cdot 1 [/ matemáticas]

que puede reducirse a

[math] \ mathbb {V} (x) = \ sum_ {i = 0} ^ n x_i ^ 2p_i – \ mathbb {E} ^ 2 (x) [/ math]

Que una vez que establecemos (definimos) la media para ser [matemática] m [/ matemática] podemos ver que obtenemos lo que desea.

[math] \ mathbb {V} (x) = \ sum_ {i = 0} ^ n x_i ^ 2p_i-m ^ 2 [/ math]

[matemáticas] V (x) = E ((xm) ^ 2) = [/ matemáticas]

[matemáticas] E (x ^ 2 – 2 · x · m + m ^ 2) = [/ matemáticas]

[matemáticas] E (x ^ 2) – 2E (x) m + m ^ 2 = [/ matemáticas]

[matemática] E (x ^ 2) – 2m · m + m ^ 2 = [/ matemática]

[matemáticas] E (x ^ 2) – m ^ 2 = [/ matemáticas]

[matemáticas] \ Sigma x ^ 2 · p (x) – m ^ 2 [/ matemáticas]