¿Por qué es [matemáticas] \ sqrt {\ frac {(X_1- \ overline {X}) ^ 2+ \ cdots + (X_n- \ overline {X}) ^ 2} {N-1}} \ ne \ frac {| X_1 – \ overline {X} | + \ cdots + | X_n- \ overline {X} |} {N-1} [/ math]?

Respondiendo para aclarar algunos conceptos erróneos. Las unidades son las mismas desde que cuadras y luego raíz cuadrada, mientras que en el otro lado solo tienes valor absoluto. Entonces, en ambos lados, si tiene [matemáticas] X [/ matemáticas] como una longitud, entonces ambas son una longitud al final.

Matemáticamente no son lo mismo. El problema se reduce al hecho de que [matemáticas] (x + y) ^ 2 = x ^ 2 + y ^ 2 + 2xy \ neq x ^ 2 + y ^ 2 [/ matemáticas]. Lo que falta en el lado izquierdo son los “términos cruzados”, [matemática] 2X_i \ bar {X} [/ matemática]. En probabilidad, estos son los términos de correlación, por lo que existe una interpretación clara de que el lado izquierdo (la desviación estándar) no tiene en cuenta las correlaciones entre los términos, mientras que la norma centrada [matemática] L ^ 1 [/ matemática] de [ matemáticas] X [/ matemáticas] hace.

Una buena manera de entenderlos es entenderlos como parte de un continuo conocido como las normas [matemáticas] p [/ matemáticas]. Asumiendo que [math] X [/ math] no es negativo (tome el valor absoluto), las diferentes formas de medir “la distancia entre dos vectores de [math] n [/ math] items” son simplemente sumar los valores, sumar los cuadrados y raíz cuadrada, sume los cubos y tome la raíz cúbica, etc. La norma 2 es la izquierda, la desviación estándar y la distancia euclidiana, es decir, si dibujara [matemáticas] X = (X_1, X_2, X_3 ) [/ math] y [math] \ bar {X} = (\ bar {X}, \ bar {X}, \ bar {X}) [/ math] en una hoja de papel y mida la distancia, esa distancia estar relacionado con el cálculo a la izquierda (dividir por el término de normalización). Es la distancia que un pájaro llevaría a un punto. Si solo te permites medir a lo largo de cada eje a la vez y sumarlos, esa es la forma [matemática] 1 [/ matemática] a la derecha, que es cómo un taxi tendría que conducir por la ciudad y así esta distancia La función proporciona lo que se conoce como la métrica del taxi. Pero puede hacer la norma 3, la norma 4, etc., ¿qué sucede cuando [math] p [/ math] va a [math] \ infty [/ math]? Esa [math] \ infty [/ math] -norm es tomar el máximo (demostrar que así es como realmente limita).

Lo que esto toca es que la diferencia es solo una diferencia en lo que ustedes llaman “distancia”. Pregunta: ¿cuál es la función de distancia adecuada? La elección de la distancia y el costo funciona en un área amplia de la investigación moderna de aprendizaje automático. Estas funciones de distancia simples simplemente tienen en cuenta todo, pero si sabe que los datos deben estar correlacionados de manera específica, la distancia “verdadera” es de alguna manera una forma de medir la distancia entre las dos formas que ha mostrado. Estas formas de entender la distancia conducen a preguntas sobre cómo reducir la dimensionalidad de los conjuntos de datos mientras se preserva la información (es decir, ¿cómo podríamos realinear nuestros datos de manera que las funciones de distancia simples capturen nuestros datos con puntos futuros? PCA), midiendo la geometría / variedades de datos y cómo utilizar “mejores” funciones de distancia / costo para mejorar los algoritmos de predicción (regularización).

Entonces, en total, la pregunta que hace puede responderse simplemente como “olvidó los términos cruzados al frustrar”, pero ¿por qué elegiría una forma de medir sobre la otra? Espero haberte mostrado que es una pregunta profunda.

Como el denominador es el mismo, veamos el numerador. En el LHS, tiene una expresión algebraica que se eleva al cuadrado hasta N, sea cual sea el valor de “N”.

En el RHS, tiene una expresión algebraica similar con un módulo para garantizar un valor positivo neto, pero no una función cuadrada. Incluso si el propósito del cuadrado en el LHS es asegurar un valor positivo neto (es decir, X1

Sin embargo, existe una excepción: si X1 = X bar, entonces tendrán el mismo valor. En todos los demás escenarios, nunca serán lo mismo.

Espero que esto tenga sentido …

Salud,

Manish

1) Porque la forma en que el numerador habría funcionado si fuera el numerador entero al cuadrado en lugar de cada uno

[matemáticas] \ sqrt (a + b) ^ 2 = (a + b) [/ matemáticas]

[matemáticas] \ sqrt (a ^ 2 + b ^ 2) \ neq a + b [/ matemáticas]

2) Incluso si el numerador se estableció en ese, el denominador en el primer valor es N-1, no [matemática] (N-1) ^ 2 [/ matemática] por lo que no habría funcionado.

En muchas preguntas de la forma “¿Tiene [matemática] f (x_1, \ ldots, x_n) = g (x_1, \ ldots, x_n) [/ math]?” Me resulta útil observar las dimensiones (unidades) de dos lados. Si suponemos que [math] x_i [/ ​​math] tiene unidades de tiempo o distancia, entonces [math] f [/ math] y [math] g [/ math] no pueden ser iguales si sus unidades son diferentes.

En este caso, tenga en cuenta que si [math] X_i [/ ​​math] son ​​distancias, entonces también lo son [math] \ bar {X}, (X_i- \ bar {X}) [/ math] y [math] | X_i- \ bar {X} | [/ math], mientras que [math] (X_i- \ bar {X}) ^ 2 [/ math] es un área, no una distancia (son distancias al cuadrado).

Entonces, el lado izquierdo de su ecuación es el producto de distancias cuadradas [matemáticas] N [/ matemáticas], mientras que el lado derecho es el producto de distancias [matemáticas] N [/ matemáticas]. Tienen unidades diferentes, por lo que no pueden ser iguales.