¿Qué es una matriz definida positiva en términos simples?

Las matrices definidas positivas son la generalización de números reales positivos al caso de la matriz, y las matrices semidefinidas positivas son la generalización de números no negativos. Voy a citar una de mis respuestas anteriores aquí para más detalles:

Una matriz simétrica real [matemática] A [/ matemática] es positiva definida si la forma cuadrática [matemática] x ^ TAx [/ matemática] es positiva para cada vector distinto de cero [matemática] x [/ matemática]. Esta es una condición difícil de verificar, pero si [math] x [/ math] es un vector propio de [math] A [/ math] con longitud uno, entonces la forma cuadrática es igual a [math] \ lambda [/ math] , el valor propio asociado con [matemáticas] x [/ matemáticas]. Por lo tanto, una matriz es positiva definida si y solo si todos sus valores propios son positivos.

Las matrices definidas positivas son como números positivos en el sentido de que la suma y el producto de dos matrices definidas positivas también son definidas positivas. Sin embargo, no es el caso de que [matemática] A [/ matemática] o [matemática] -A [/ matemática] sea positiva definida para cada matriz [matemática] A [/ matemática].

También existe la noción de una matriz definida semidefinida positiva o no negativa. Esta es una matriz cuyos valores propios son todos no negativos, pero no estrictamente mayores que cero.

Editar: Esto apareció en los comentarios, pero vale la pena mencionarlo en la respuesta también. Si [math] A [/ math] y [math] B [/ math] son ​​dos matrices simétricas con la misma dimensión y [math] A – B [/ math] es positivo definido, entonces podemos decir que [math] A > B [/ matemáticas]. Esto nos da un orden parcial en el conjunto de matrices simétricas. No es demasiado difícil mostrar que [matemática] A> B [/ matemática] si y solo si [matemática] x ^ TAx> x ^ TBx [/ matemática] para cada [cero] x [/ matemática].

Una matriz positiva es un escalar positivo multidimensional.

Míralo de esta manera. Si tomas un número o un vector y lo multiplicas por una constante positiva, no “va para otro lado”: simplemente va más o menos lejos en la misma dirección.

Una matriz hace lo mismo en múltiples dimensiones: toma un vector y lo multiplica. Sin embargo, se multiplica por diferentes factores en las diferentes direcciones del espacio. Esa es la historia general. Si la matriz es positiva definida, todo esto es cierto, pero al igual que con un escalar positivo, el nuevo vector y el viejo vector van “en la misma dirección” en el sentido de que su ángulo es inferior a 90 grados. Más precisamente: lo viejo y lo nuevo tienen un producto interno positivo. Y en la fórmula: [matemáticas] x ^ t (Ax)> 0 [/ matemáticas].

Ahí tienes. El significado de la fórmula: el vector mapeado [math] Ax [/ math] no “va en la otra dirección” desde el original. (Decir “va en la misma dirección” es un poco peligroso, porque puedes interpretarlo como paralelo).

La frase “escalar positivo multidimensional” se puede hacer un poco más precisa: bajo ciertas condiciones, puede escribir una matriz definida positiva como la combinación de una transformación a un nuevo espacio y una multiplicación positiva a lo largo de cada eje de coordenadas en ese espacio.

Las matrices son transformaciones lineales en un espacio vectorial. Supongamos por ahora que estamos trabajando en un espacio euclidiano. Y supongamos que tenemos un vector [matemático] x [/ matemático], en el cual aplicamos una transformación lineal [matemática] A [/ matemático], para obtear el vector resultante [matemático] y = Ax [/ matemático]. Si [matemática] A [/ matemática] es positiva definida, el ángulo entre [matemática] x [/ matemática] y [matemática] y [/ matemática] es inferior a 90 grados. Formalmente se dice lo mismo que [math] x ^ TA x \ ge 0 [/ math] para todos [math] x [/ math].

Como está pidiendo una interpretación de “cuándo debería usar esta”, estoy de acuerdo con la respuesta de Charles Yang Zheng de que mirar matrices definidas positivas desde la perspectiva de las distancias es una interpretación más útil.

Cuando calcula [matemáticas] x ^ TAx [/ matemáticas], esencialmente está calculando [matemáticas] \ | A ^ {1/2} x \ | [/matemáticas]. En primer lugar, tenga en cuenta que esta expresión permanece constante incluso cuando calcula distancias entre dos puntos, es decir, [matemática] (x – y) ^ TA (x – y) [/ matemática] es igual a [matemática] \ | A ^ {1/2} x – A ^ {1/2} y \ | [/ math]. En segundo lugar, esta equivalencia es verdadera solo porque A es positiva definida; de lo contrario, no puede calcular raíces cuadradas y estas raíces cuadradas no serán simétricas.

¿Qué significa la equivalencia anterior? Significa que antes de calcular la distancia entre dos puntos, esencialmente los está rotando y reescalando de alguna manera.

¿Cuándo sería esto útil?
Permítanme tomar el caso del problema de clasificación en el aprendizaje automático en el que deben separar dos conjuntos de puntos con diferentes etiquetas de clase en ellos.

Ahora, considere una lámina de goma. Ahora, lo que haré es dibujar dos conjuntos de puntos, uno con etiquetas + y otros con etiqueta -. Son buenos conjuntos disjuntos y los he dibujado de tal manera que teóricamente puedes separarlos con una línea. Ahora, le pido que dibuje una línea tal que los dos conjuntos de puntos estén a cada lado de la línea. El problema es que he dibujado los puntos en los límites tan cerca el uno del otro que tiene problemas para dibujar una línea claramente sin intersectar algunos puntos en cada clase. ¿Qué hacer?

Luego se obtiene esta brillante idea, se estira la lámina de goma lo suficiente para que los puntos se vean bastante bien separados y luego se puede dibujar una línea que separa estos dos puntos de manera muy limpia.

En efecto, el estiramiento de la lámina de goma que hicimos suele ser lo que una matriz positiva positiva puede lograr para nosotros.

El concepto de “definicion psotrica” ​​está estrechamente relacionado con el concepto de distancia, ya que intuitivamente, las distancias deben ser no negativas. De hecho, se puede usar una matriz definida positiva para definir una norma o métrica de distancia

Formalmente, la norma asociada con una matriz positiva definida A mide la longitud de un vector x por
[matemáticas] || x || = \ sqrt {x’Ax} [/ math]

Ejemplos de cómo las matrices positivas definidas miden longitudes:

  • La elipse definida por [math] \ {x: x ‘Ax = c ^ 2 \} [/ math] es la colección de todos los puntos x con la distancia c desde el origen, de acuerdo con la norma asociada con A
  • Para las variables aleatorias, una noción de longitud es la desviación estándar: dado que la desviación estándar mide la “distancia” entre la variable aleatoria y su media. Si el vector aleatorio X tiene una matriz de covarianza A, entonces cualquier combinación lineal Y = b’X tiene desviación estándar [matemática] stdev (Y) = \ sqrt {Var (b’X)} = \ sqrt {b’Ab} [/ matemática ]

La importancia de la matriz positiva definida es:
Si multiplica cualquier vector con una matriz definida positiva , el ángulo entre el vector original y el vector resultante siempre es menor que π / 2 .

En términos simples, (matriz definida positiva) es la generalización del número positivo real. Solo estira o contrae el vector original, pero nunca lo refleja sobre el origen.

Encuentro que desarrollo la intuición de los conceptos matemáticos cuando puedo interpretarlos de varias maneras. Por ejemplo, una matriz positiva definida satisface

[matemáticas] x ^ TA x> 0 ~ \ para todos x \ neq 0 [/ matemáticas]

Esto se puede ver como caracterizando un paraboloide elíptico. El ejemplo más simple de esto es la matriz de identidad 2 × 2 donde la definición positiva implica:

[matemáticas] x ^ T x = x_1 ^ 2 + x_2 ^ 2> 0 ~ \ forall x \ neq 0 [/ matemáticas]

que es un parabaloide circular centrado en el origen. Elegir una matriz definida positiva 2 × 2 diferente A solo sesgará el paraboloide elíptico a lo largo de los vectores propios de A en proporción a los valores propios. Para una matriz A positiva definida de NxN, esto simplemente se generaliza a un espacio N dimensional.

Otra forma de intuir una matriz positiva definida es como la matriz de covarianza de una distribución multivariada. Por ejemplo, si está resolviendo un problema de optimización donde el parámetro de optimización es una matriz de covarianza, tendrá una definición positiva como restricción. Convenientemente, esta restricción es convexa.