¿Cuál es el significado de la matriz de Hesse?

¿Recuerdas en el cálculo 101 cómo usarías la concavidad o convexidad en un punto crítico para determinar si el plano (crítico) era un máximo, un mínimo o un poif (silla de montar)?

El hessiano es la versión de mayor dimensión de eso.

El hessiano es el segundo derivado y los parciales cruzados de segundo orden de una función escalar tomada en un punto.

La idea es que la función ƒ tiene muchas entradas x₁, x₂, x₃, … que afectan a su salida escalar. Al cambiar los [math] x_i [/ ​​math] ‘s, cambia esa salida. No puede escribir solo ƒ ′ porque eso no especificaría cuál de las [math] x_i [/ ​​math] se está cambiando. (Necesitas el jacobiano). Y no puedes escribir solo ƒ ″ por la misma razón. Entonces necesitas el Hessian.


(Lo anterior es difícil de leer. Así que traté de capturar la esencia de lo que hay en esa matriz, con cada vez más puntos destacados de lo que se supone que debes notar, a continuación).


(Entonces, [math] ab [/ math], por ejemplo, representa [math] \ partial ^ 2 f / \ partial x_1 / \ partial x_2 [/ math], que también está escrito, de manera menos explícita pero más legible, como [ matemáticas] f_ {1,2} [/ matemáticas].

Estoy usando [matemática] a [/ matemática] para “Tomar derivada por primera variable”, [matemática] b [/ matemática] para “Tomar derivada por segunda variable”, [matemática] c [/ matemática] para “Tomar derivada por tercera variable “, y así sucesivamente. Como se trata de una arpillera, siempre estamos solo [matemática] \ parcial [/ matemática] ‘por dos de las entradas a la vez, es solo una cuestión de cuáles dos).

Observe que [matemática] \ parcial ^ 2 f / \ parcial ^ 2 x_i [/ ​​matemática] baja por el centro …


… y hay una simetría de espejo en las diagonales.

En contraste con el jacobiano: el jacobiano también se sienta en un punto [math] \ vec {x} [/ math] en su espacio. Pero la función de la que habla un jacobiano va de las dimensiones N → N, y un hessiano solo va de la dimensión N → 1.

En otras palabras, comienzas con un campo escalar (más fotos de campos escalares en ¿Cuál es el significado de los vectores de gradiente? Que se preguntó al mismo tiempo que esta Q.) para que un Hessiano tenga sentido.


Si las derivadas dobles y los parciales cruzados no tienen sentido para usted, piénselo de esta manera.


(Mi hermana no es “irracional”, su función de utilidad solo tiene grandes términos de interacción).

Tengo una salida que estoy midiendo y muchas “perillas” para manipularla. Digamos que el rendimiento reproductivo es el resultado y las perillas son todas las diferentes formas en que podría evolucionar.

Para los parciales cruzados [matemática] \ partial_1 \ partial_2 [/ matemática], puede suceder que una combinación de dos variables (como alas y plumas) marque una diferencia mucho mayor que solo una u otra. (Esto también podría suceder en la dirección negativa: perder el brazo izquierdo o el brazo derecho dificulta la vida. Pierde ambos y la situación se volverá mucho más difícil, más que la suma de las partes).
Las combinaciones de tres, cuatro o nueve variables pueden ser importantes (es necesario obtener un título en Ingeniería de Petróleo y aprender sobre empresas y trasladarse a Omán y aprender Petrel y escribir un buen CV y … para ser contratado). Pero el Hessian solo trata con dos perillas a la vez.

Para las segundas derivadas [matemática] {\ partial_j} ^ 2 [/ matemática] solo piense en una dimensión (= una perilla = un parámetro) de sus entradas a la vez y pregunte si es cóncava, convexa o ambas (lineal).





La concavidad es la razón por la cual es difícil para el animasl crecer y la convexidad está aumentando los retornos, como JK Rowling es un millonario, mientras que el segundo autor más rico es relativamente menos rico.

¿Por qué necesitas el Hessian para la optimización?
¿Recuerdas la prueba de la segunda derivada para ver (numéricamente) si un piso dado era un mínimo o máximo local en el cálculo 101? Ahora en N dimensiones donde es más difícil visualizar la función, y tal vez la computadora está pensando en ti en lugar de dibujar 1D → 1D en la pizarra, es aún más importante tener formas computacionales de verificar numéricamente si estás en un mínimo o máximo .