Tienes una flota de trabajadores realizando algunas tareas debajo de ti. Algunos de ellos realizan las mismas tareas todos los días y, por lo tanto, son redundantes.
¿Qué harás entonces? … Continúa pagándoles como de costumbre.
Suena como una mala idea, ya que su ganancia se sacrificaría. Entonces, ¿cuál es la solución?
¿Encuentra quiénes son los que realizan la misma actividad todos los días, las mismas acciones, la misma hora de entrada y salida, etc.? Después de la identificación, elimine cualquiera de ellos o elimine todos y, en su lugar, designe a 1 persona que pueda realizar la tarea colectivamente en su nombre.
Ahora, trayendo algunas matemáticas aquí, los trabajadores son las columnas (variables) de datos. Su beneficio es su precisión, y su pago es excesivo.
Para eliminar el problema del sobreajuste, debe eliminar algunas variables adicionales o, en su lugar, designar una variable que pueda tratarse como una colección de 2 o más variables antiguas.
La matriz de covarianza es la solución a su problema, que calcula para cada combinación de variables que son más similares (en una escala de 0 a cualquier número). Luego puede elegir las variables redundantes desde allí para hacer que su modelo sea más efectivo y preciso.
Por ejemplo, aquí hay un ejemplo:
- ¿Por qué el número de vectores de columna linealmente independientes de una matriz es igual al número de vectores de fila linealmente independientes?
- Deje que [math] V [/ math] sea un espacio vectorial sobre algún campo [math] F [/ math], y que [math] W \ subseteq V [/ math] no esté vacío y tenga la propiedad de que [math] x, y \ en W [/ matemática] implica [matemática] x – y \ en W [/ matemática]. ¿Qué otras condiciones en [matemáticas] V [/ matemáticas] son necesarias para que [matemáticas] W [/ matemáticas] sea un subespacio de [matemáticas] V [/ matemáticas]?
- ¿Por qué no puedes multiplicar una matriz de 2 × 2 con una matriz de 3 × 2?
- ¿Cuál es el propósito de la factorización matricial?
- ¿Por qué la multiplicación de matrices no es tan simple como la suma de matrices?
La matriz de covarianza es de dimensión #cols * #cols, la diagonal representa la varianza de cada variable (obviamente, ya que se calcula consigo misma)
De la figura se puede ver que el inglés y el arte no tienen relación , mientras que el matemático y el inglés tienden a covariar muy positivamente.
Definición :
La covarianza es una medida de la medida en que los elementos correspondientes de dos conjuntos de datos ordenados se mueven en la misma dirección. Utilizamos la siguiente fórmula para calcular la covarianza.
Cov ( X , Y ) = Σ ( X i – X m) ( Y i – Ym ) / N
Cov (X) = E (E (X – Xm) ‘* E (X – Xm))
aquí X es el conjunto de datos, Xm es la media de las columnas o variables correspondientes, de manera similar para y. E es la media.
Fuente de ejemplo: Matriz de covarianza