¿Qué se entiende por matriz de covarianza y por qué la usamos?

Tienes una flota de trabajadores realizando algunas tareas debajo de ti. Algunos de ellos realizan las mismas tareas todos los días y, por lo tanto, son redundantes.
¿Qué harás entonces? … Continúa pagándoles como de costumbre.
Suena como una mala idea, ya que su ganancia se sacrificaría. Entonces, ¿cuál es la solución?
¿Encuentra quiénes son los que realizan la misma actividad todos los días, las mismas acciones, la misma hora de entrada y salida, etc.? Después de la identificación, elimine cualquiera de ellos o elimine todos y, en su lugar, designe a 1 persona que pueda realizar la tarea colectivamente en su nombre.

Ahora, trayendo algunas matemáticas aquí, los trabajadores son las columnas (variables) de datos. Su beneficio es su precisión, y su pago es excesivo.
Para eliminar el problema del sobreajuste, debe eliminar algunas variables adicionales o, en su lugar, designar una variable que pueda tratarse como una colección de 2 o más variables antiguas.

La matriz de covarianza es la solución a su problema, que calcula para cada combinación de variables que son más similares (en una escala de 0 a cualquier número). Luego puede elegir las variables redundantes desde allí para hacer que su modelo sea más efectivo y preciso.

Por ejemplo, aquí hay un ejemplo:

La matriz de covarianza es de dimensión #cols * #cols, la diagonal representa la varianza de cada variable (obviamente, ya que se calcula consigo misma)

De la figura se puede ver que el inglés y el arte no tienen relación , mientras que el matemático y el inglés tienden a covariar muy positivamente.

Definición :
La covarianza es una medida de la medida en que los elementos correspondientes de dos conjuntos de datos ordenados se mueven en la misma dirección. Utilizamos la siguiente fórmula para calcular la covarianza.

Cov ( X , Y ) = Σ ( X i – X m) ( Y i – Ym ) / N
Cov (X) = E (E (X – Xm) ‘* E (X – Xm))

aquí X es el conjunto de datos, Xm es la media de las columnas o variables correspondientes, de manera similar para y. E es la media.

Fuente de ejemplo: Matriz de covarianza

La covarianza es la medida de cómo cambian dos variables entre sí. Es positivo cuando las variables tienden a mostrar un comportamiento similar y negativo de lo contrario.

Estos son algunos enlaces muy buenos para comenzar:
¿Qué es una explicación intuitiva de la covarianza?
Intuición sobre la definición de la covarianza.

Una de las principales aplicaciones en las que puedo pensar donde se usa la matriz de covarianza es en el análisis de componentes principales, que ayuda a reducir la dimensionalidad de los datos y los datos del proyecto en un espacio donde las bases de este nuevo espacio capturan la varianza de los datos. PCA tiene muchas aplicaciones para encontrar las características importantes de datos multidimensionales, agrupamiento, imagen y compresión, reducción de ruido, etc.