¿Cuál es la diferencia entre correlación y covarianza?

La correlación se define como la covarianza normalizada por el producto de las desviaciones estándar, por lo que la correlación entre [matemáticas] X [/ matemáticas] y [matemáticas] Y [/ matemáticas]
Se define como
[matemáticas]
\ text {Cor} (X, Y) = \ frac {\ text {Cov} (X, Y)} {\ sqrt {\ text {Var} (X) \ text {Var} (Y)}}
[/matemáticas]
La covarianza puede variar entre [matemática] – \ infty [/ matemática] y [matemática] \ infty [/ matemática] mientras que la correlación toma valores en [matemática] [- 1, 1] [/ matemática] (esto se prueba fácilmente con el Cauchy -La desigualdad de Schwarz).
Tenga en cuenta que dos variables aleatorias tienen correlación cero si y solo si tienen covarianza cero.

En la práctica, las personas suelen considerar la correlación en lugar de la covarianza porque es más interpretable, ya que no depende de la escala de ninguna de las variables aleatorias involucradas.

La covarianza es una medida de cuánto varían dos variables aleatorias juntas. Es similar a la varianza, pero donde la varianza le dice cómo varía una sola variable, la covarianza le dice cómo dos variables varían juntas.

Nota: co = juntos, varianza = variar

Covarianza en estadística: ¿qué es? Ejemplo


Correlación : es una medida de cómo se relacionan las cosas. El estudio de cómo se correlacionan las variables se llama análisis de correlación.

Algunos ejemplos de datos que tienen una alta correlación:

  • Su ingesta calórica y su peso.
  • El color de tus ojos y el de tus familiares.
  • La cantidad de tiempo que estudia y su promedio de calificaciones.

Algunos ejemplos de datos que tienen una baja correlación (o ninguna):

  • Su preferencia sexual y el tipo de cereal que come.
  • El nombre de un perro y el tipo de galleta que prefieren.
  • El costo de un lavado de autos y cuánto tiempo lleva comprar un refresco dentro de la estación.

¿Qué es la correlación en las estadísticas? Análisis de correlación explicado

La correlación se escala para que siempre esté entre -1 y 1.

Más específicamente, la covarianza muestral entre X e Y viene dada por:

[matemática] cov (X, Y) = \ frac {1} {N-1} \ sum {(X_ {i} – \ bar {X}) (Y_ {i} – \ bar {Y})} [/ matemáticas]

mientras que la correlación (Pearson) es –

[matemáticas] \ frac {cov (X, Y)} {s_x s_y} [/ matemáticas]

donde N es el número de observaciones, s es la desviación estándar.

La correlación y la covarianza se usan como una medida para verificar cómo cambian dos variables entre sí.

Covarianza : medida del cambio de cómo cambian las variables entre sí.

  1. Es dependiente de la unidad.
  2. La diferencia en la escala puede generar diferentes covarianzas.
  3. Varía de infinito a infinito.

Ejemplo: la altura frente al peso (kg) y la altura frente al peso (lb) tendrán diferentes valores de covarianza

Correlación : la unidad de medida del cambio entre dos variables cambia una con respecto a la otra. (Básicamente es el valor de covarianza normalizado)

  1. Es una unidad independiente.
  2. La diferencia de escala no afecta el valor de correlación.
  3. Varía de -1 a 1.

Ejemplo: Altura vs peso (kg) y Altura vs peso (lb) tendrán los mismos valores de correlación

Este tipo de parámetros se utilizan en ciencia de datos y análisis de datos.

Para dominar Data Science con la ayuda de una capacitación dirigida por un instructor, puede consultar el siguiente enlace:

Curso de ciencia de datos | Capacitación en certificación de ciencia de datos | Edureka

Capacitación en certificación de ciencia de datos | Curso de Python para la ciencia de datos | Edureka

En mi experiencia, este es el mejor curso de Data Science que existe.

Los límites superior e inferior para la covarianza dependen de las variaciones de las variables involucradas. Estas variaciones a su vez pueden variar con la escala de las variables. Incluso un cambio en las unidades de medida puede cambiar la covarianza.

Por lo tanto, para determinar si la covarianza de dos variables es grande o pequeña, debemos evaluarla en relación con las desviaciones estándar de las dos variables. Entonces normalizamos la covarianza dividiéndola con el producto de las desviaciones estándar de las dos variables. Como resultado, el coeficiente de correlación tiene un valor limitado dentro de los límites -1 y 1.

Según la definición, la correlación puede considerarse como una covarianza normalizada.

Ambos miden la dependencia entre dos variables aleatorias, pero la covariante también depende de cómo se mida la variable, por ejemplo, gramos o kilogramos.

La correlación cancela esto al normalizar la covarianza por la varianza estándar de ambas variables radom.

Puedes mirar las fórmulas. Pero la “intuición” es que ambas miden el grado de asociación entre dos variables aleatorias, pero la correlación se normaliza para que solo pueda tomar valores entre -1 y 1.