¿Qué libro o conferencia en línea contiene la mejor explicación del algoritmo de maximización de expectativas?

Este artículo sobre la naturaleza [1] ofrece una visión general muy agradable del método. Sin embargo, si solo desea una explicación intuitiva del algoritmo EM, entonces es bastante simple. Un algoritmo EM es esencialmente cómo los detectives resuelven el crimen.

Un viejo rico acaba de morir. Fue apuñalado hasta la muerte en el corazón. El arma es un cuchillo, pero todas las huellas dactilares han sido limpiadas. Tiene una hija (24 años) y un hijo (13 años). Ambos se benefician de su testamento, pero sale a la luz que el hombre estaba a punto de cambiar el testamento y darle toda su propiedad a su hijo. Sin embargo, murió antes de poder hacer ese cambio. En el momento de la muerte, 4 personas estaban presentes en la mansión: mayordomo, hija, su novio y el hijo.

Un detective tiene dos incógnitas aquí: criminal y motivo. Para el criminal, tiene una distribución de probabilidad sobre la lista de sospechosos: mayordomo, hija, su novio e hijo. Y por motivos, tiene una distribución de probabilidad sobre la lista de motivos estándar: dinero, celos, odio, etc.

E-step del algoritmo EM es la historia esperada dada la distribución sobre sospechoso y motivo. El paso M del algoritmo EM es encontrar los parámetros de la distribución sobre el sospechoso y el motivo que explica mejor la historia que se nos ocurrió en el paso E.

El detective comienza seleccionando aleatoriamente un criminal: mayordomo (esencialmente asigna la distribución donde el mayordomo tiene probabilidad 1 y todos los demás son 0). Luego, selecciona aleatoriamente un motivo: dinero (esencialmente asigna el dinero con probabilidad 1 y todos los demás motivos con 0).

Paso E: El detective luego da la siguiente explicación: el mayordomo mató al viejo con el cuchillo por dinero.

M-Step: Sin embargo, si el motivo es el dinero, ¿no son los beneficiarios de la voluntad del anciano, más probable que el mayordomo? Entonces, nuestra historia en E-step es mejor si nuestros sospechosos son el hijo y la hija. Sin embargo, el cambio en el testamento estaba favoreciendo al hijo, por lo que si el motivo es el dinero, no tiene ninguna razón para matar al viejo por eso. Entonces, el detective ahora asigna probabilidad 1 a la hija y 0 a todos los demás.

Paso E: el detective ahora proporciona la siguiente explicación probable de los acontecimientos: la hija mató al viejo con el cuchillo por dinero.

M-Step: Sin embargo, el viejo fue apuñalado con un cuchillo. La hija, aunque tiene 24 años, no es físicamente fuerte. Entonces, la historia que contamos en E-step es mejor si la hija se coludía con el mayordomo o el novio. Como podría ser cualquiera de ellos, puede seleccionar aleatoriamente al mayordomo en este punto (ya que tiene un acceso más fácil a un cuchillo). El detective ahora asigna la probabilidad 1 al conjunto sospechoso {mayordomo, hija}.

Paso E: El detective ahora da la siguiente explicación: la hija mató al anciano al trabajar junto con el mayordomo.

Paso M: el detective se da cuenta de que el mayordomo es zurdo. Sin embargo, el viejo fue apuñalado en el corazón con un ataque que parece diestro. De este modo, la historia que el detective inventó en E-Step se sostiene mejor si la hija hubiera trabajado junto con el novio en lugar del mayordomo. Entonces, el detective ahora asigna la probabilidad 1 al conjunto sospechoso {hija, novio}.

He simplificado muchas cosas aquí en aras de la brevedad, pero lo anterior captura la idea básica detrás del algoritmo EM.

[1] ¿Cuál es el algoritmo de maximización de expectativas?

“Aprender de los datos” del profesor Caltech Yaser Abu-Mostafa es un excelente curso para comprender algoritmos de este tipo. Está disponible en edX o en YouTube.