¿Cuándo es la estimación de máxima verosimilitud de una matriz de covarianza no positiva semi-definida?

Esto es bastante común en varios modelos, generalmente donde hay algún tipo de “capa oculta”, variable latente o datos faltantes. Dependen de identificar restricciones para la estimación. Dos ejemplos clásicos son los casos de Heywood en el análisis factorial o una variación o covarianza que viola la desigualdad de Cauchy-Schwartz en un modelo mixto lineal.

Considere el modelo de factor lineal, que es una regresión múltiple multivariada con restricción de dimensionalidad. Ha implicado matriz de covarianza:

[matemáticas] \ Sigma = \ Lambda \ Phi \ Lambda ^ {‘} + \ Theta [/ matemáticas],

donde [math] \ Lambda [/ math] es la matriz de cargas de factores (estos son pesos de regresión), [math] \ Phi [/ math] es la matriz de covarianza de los factores y [math] \ Theta [/ math] es la matriz de covarianza de unicidad o errores.

En el análisis factorial, debe asumir que las puntuaciones de los factores son independientes de los errores, lo que permite la descomposición aditiva que se muestra arriba. (Esta suposición no es tan extraña, ya que es solo una extensión de la suposición habitual de errores independientes en la regresión lineal. Todavía hay otras restricciones de identificación). Esto puede no ser correcto empíricamente. Incluso si es así, si de alguna manera atasca la especificación del modelo, la estructura del error es el único lugar para impulsar la especificación errónea, y ahí es donde terminará.

Si los datos contradicen seriamente estas restricciones de identificación o si el modelo está mal especificado de una manera no trivial, puede terminar haciendo que el estimador de ML vaya a un punto singular o una solución de límite, y eso puede llevarlo a tener una implicación no PSD Matriz de covarianza. No es raro que la [matemática] \ Theta [/ matemática] estimada no sea PSD, particularmente en muestras pequeñas.

Esta es una de las razones por las cuales el NM no regularizado puede ser muy desventajoso.

Quizás una pregunta más fundamental es: ¿cuál es la ecuación de probabilidad cuando la matriz de covarianza [matemática] \ Sigma [/ matemática] no es PSD?

Suponiendo que estamos trabajando en el entorno gaussiano, recuerde que la ecuación de probabilidad ya involucra [matemática] \ Sigma ^ {- 1} [/ matemática], por lo que la cuestión de MLE de la matriz de covarianza está mal definida desde el principio .

En la práctica, debe obtener un rango completo [matemática] \ Sigma [/ matemática] si tiene más observaciones que la dimensión de la matriz. Por supuesto, cuantas más observaciones, menos mal condicionada será su estimación de covarianza.

Una forma de rescatarse en el caso bajo n, alto p (bajo # observaciones, alto # variables) es usar estimadores regularizados como el lazo gráfico o SCAD.

Si está modelando los datos como provenientes de una distribución normal multivariada con datos valorados reales, y lo está haciendo bien, lo único que podría causar esto es errores de redondeo. Es matemáticamente imposible dada la definición de MLE para que la matriz de covarianza no sea semidefinida positiva. Si S es esta estimación, para todos los vectores z en Rn, z ^ T * S * z es una suma de normas al cuadrado de vectores reales, que se garantiza que no es negativa. Así, por definición de semidefinido positivo, S debe ser semidefinido. Si busca el artículo de Wikipedia, esto debería ser inmediatamente obvio a partir de la definición del MLE.

Por supuesto, si está modelando los datos como provenientes de una distribución extraña, realmente no sé cómo resultaría eso.