Este es un extracto del Capítulo 1 de la Regla de Bayes: Una Introducción Tutorial al Análisis Bayesiano de (yo) James V Stone.
Una versión más completa del Capítulo 1 con mejor formato se puede ver aquí descargada como un archivo pdf desde aquí: BayesRuleBook
Una introducción tutorial a la regla de Bayes
La regla de Bayes es un método riguroso para interpretar la evidencia en el contexto de experiencias o conocimientos previos. Fue descubierto por Thomas Bayes (c. 1701-1761), y descubierto independientemente por Pierre-Simon Laplace (1749-1827).
Después de más de dos siglos de controversia, durante los cuales los métodos bayesianos han sido elogiados y ridiculizados, la regla de Bayes ha surgido recientemente como una herramienta poderosa con una amplia gama de aplicaciones, que incluyen: genética, lingüística, procesamiento de imágenes, imágenes cerebrales, cosmología , aprendizaje automático, epidemiología, psicología, ciencias forenses, reconocimiento de objetos humanos, evolución, percepción visual, ecología e incluso el trabajo del detective ficticio Sherlock Holmes. Históricamente, Alan Turing aplicó los métodos bayesianos al problema de decodificar el código de enigma alemán en la Segunda Guerra Mundial, pero esto permaneció en secreto hasta hace poco.

Figura 1.1: Los padres de la regla de Bayes. a) Thomas Bayes (c. 1701-1761). b) Pierre-Simon Laplace (1749-1827).
Para apreciar el funcionamiento interno de cualquiera de las aplicaciones anteriores, debemos entender por qué la regla de Bayes es útil y cómo constituye una base matemática para el razonamiento. Haremos esto usando algunos ejemplos accesibles, pero primero, brindaremos una garantía tranquilizadora.
Una garantía
Antes de embarcarnos en estos ejemplos, debemos tranquilizarnos con un hecho fundamental sobre la regla de Bayes, o el teorema de Bayes, como también se le llama: el teorema de Bayes no es una cuestión de conjeturas. Por definición, un teorema es una declaración matemática que se ha demostrado que es verdadera. Esto es tranquilizador porque, si tuviéramos que establecer las reglas para calcular con probabilidades, insistiríamos en que el resultado de tales cálculos debe coincidir con nuestra experiencia cotidiana del mundo físico, tan seguramente como insistiríamos en que 1 + 1 = 2 De hecho, si insistimos en que las probabilidades deben combinarse entre sí de acuerdo con ciertos principios de sentido común, entonces Cox (1946) demostró que esto conduce a un conjunto único de reglas, un conjunto que incluye la regla de Bayes, que también aparece como parte de la teoría de probabilidad de Kolmogorov (1933) (posiblemente, más rigurosa).
Ejemplo 1: Enfermedades de Poxy
La perspectiva del paciente
Suponga que un día se despierta con manchas en toda la cara, como en la Figura 1.2. El médico le dice que el 90% de las personas que tienen viruela tienen los mismos síntomas que usted. En otras palabras, la probabilidad de tener estos síntomas dado que tiene viruela es 0.9 (es decir, 90%). Como la viruela a menudo es fatal, estás naturalmente aterrorizado.

Figura 1.2: Thomas Bayes diagnosticando a un paciente.
Sin embargo, después de unos momentos de contemplación, decides que no quieres saber la probabilidad de que tengas estos síntomas (después de todo, ya sabes que los tienes). En cambio, lo que realmente quiere saber es la probabilidad de que tenga viruela.
Entonces le dice a su médico: “Sí, pero ¿cuál es la probabilidad de que tenga viruela dado que tengo estos síntomas?”. “Ah”, dice su médico, “una muy buena pregunta”. Después de garabatear algunas ecuaciones, su médico mira hacia arriba. “La probabilidad de que tenga viruela dado que tiene estos síntomas es 1.1%, o equivalentemente, 0.011”. Por supuesto, esta no es una buena noticia, pero suena mejor que 90%, y (lo más importante) es al menos útil información. Esto demuestra el marcado contraste entre la probabilidad de los síntomas de una enfermedad (que no quiere saber) y la probabilidad de la enfermedad de los síntomas (que sí quiere saber).
La regla de Bayes transforma las probabilidades que parecen útiles (pero a menudo no lo son) en probabilidades que son útiles. En el ejemplo anterior, el médico usó la regla de Bayes para transformar la probabilidad no informativa de sus síntomas dado que tiene viruela en la probabilidad informativa de que tiene viruela debido a sus síntomas.

Figura 1.3: Representación esquemática de la regla de Bayes. Los datos, en forma de síntomas, se utilizan para encontrar una probabilidad, que es la probabilidad de esos síntomas dado que el paciente tiene una enfermedad específica. La regla de Bayes combina esta probabilidad con conocimiento previo, y produce la probabilidad posterior de que el paciente tenga la enfermedad dado que tiene los síntomas observados.
La perspectiva del doctor
Ahora, supongamos que es un médico, confrontado con un paciente cubierto de manchas. Los síntomas del paciente son consistentes con la varicela, pero también son consistentes con otra enfermedad más peligrosa, la viruela. Entonces tienes un dilema. Usted sabe que el 80% de las personas con varicela tienen manchas, pero también el 90% de las personas con viruela tienen manchas. Entonces, la probabilidad (0.8) de los síntomas dado que el paciente tiene varicela es similar a la probabilidad (0.9) de los síntomas dado que el paciente tiene viruela (ver Figura 1.2).
Si usted fuera un médico con experiencia limitada, entonces podría pensar que tanto la varicela como la viruela son igualmente probables. Pero, como usted es un médico experto, sabe que la varicela es común, mientras que la viruela es rara. Este conocimiento, o información previa, se puede utilizar para decidir qué enfermedad probablemente tiene el paciente. Si tuviera que adivinar (y tiene que adivinar porque usted es el médico), entonces combinaría los posibles diagnósticos implicados por los síntomas con su conocimiento previo para llegar a una conclusión (es decir, que el paciente probablemente tiene varicela). Para que este ejemplo sea más tangible, analicémoslo nuevamente, esta vez con números.
La perspectiva del doctor (con números)
Podemos calcular las probabilidades asociadas con una enfermedad mediante el uso de estadísticas de salud pública. Supongamos que se pide a los médicos que informen el número de casos de viruela y varicela, y los síntomas observados. Utilizando los resultados de tales encuestas, es simple encontrar la proporción de pacientes diagnosticados con viruela y varicela, y los síntomas de cada paciente (por ejemplo, manchas). Con estos datos, podríamos encontrar que la probabilidad de que un paciente tenga manchas dado que tiene viruela es del 90% o 0.9. Podemos escribir esto de una manera cada vez más sucinta usando una notación especial
p (los síntomas son manchas | la enfermedad es viruela) = 0.9, (1.1)
donde la letra p representa probabilidad, y la barra vertical | significa “dado que”. Entonces, esta declaración abreviada debe leerse como
“La probabilidad de que los síntomas del paciente sean manchas dado que tiene viruela es del 90% o 0.9”. La barra vertical indica que la probabilidad de que el paciente tenga manchas depende de la presencia de viruela. Por lo tanto, se dice que la probabilidad de manchas depende de la enfermedad en consideración. Por esta razón, tales probabilidades se conocen como probabilidades condicionales. Podemos escribir esto aún más sucintamente como
p (manchas | viruela) = 0.9. (1.2)
Del mismo modo, podríamos encontrar que se observan manchas en el 80% de los pacientes que tienen varicela, que se escribe como
p (manchas | varicela) = 0.8. (1.3)
Las ecuaciones 1.2 y 1.3 formalizan por qué no debemos usar los síntomas solos para decidir qué enfermedad tiene el paciente. Estas ecuaciones no tienen en cuenta nuestra experiencia previa de la prevalencia relativa de la viruela y la varicela, y se basan solo en los síntomas observados. Como veremos más adelante, esto equivale a tomar una decisión basada en la suposición (en este caso, falsa) de que ambas enfermedades son igualmente prevalentes en la población y que, por lo tanto, son a priori igualmente probables.
Tenga en cuenta que la probabilidad condicional p (manchas | viruela) es la probabilidad de manchas dado que el paciente tiene viruela, pero se denomina probabilidad de viruela (que es confusa, pero estándar, nomenclatura). En este ejemplo, la enfermedad de la viruela tiene una probabilidad mayor que la varicela. De hecho, como solo hay dos enfermedades en consideración, esto significa que, de las dos alternativas posibles, la viruela tiene la máxima probabilidad. La enfermedad con el valor máximo de probabilidad se conoce como la estimación de máxima probabilidad (MLE) de la enfermedad que tiene el paciente. Por lo tanto, en este caso, el MLE de la enfermedad es la viruela.
Como se discutió anteriormente, sería difícil argumentar que debemos ignorar nuestro conocimiento o experiencia previa al decidir qué enfermedad tiene el paciente. Pero, ¿cómo debe combinarse exactamente esta experiencia previa con la evidencia actual (por ejemplo, síntomas)? Desde una perspectiva puramente intuitiva, parecería razonable ponderar la probabilidad de cada enfermedad de acuerdo con la experiencia previa de esa enfermedad, como en la Figura 1.3. Como la viruela es rara y, por lo tanto, es intrínsecamente improbable, podría ser razonable ponderar la probabilidad de la viruela en un número pequeño. Esto produciría una pequeña ‘probabilidad ponderada’, que sería una estimación más realista de la probabilidad de que el paciente tenga viruela. Por ejemplo, las estadísticas de salud pública pueden informarnos que la prevalencia de la viruela en la población general es 0.001, lo que significa que existe una probabilidad entre mil de que un individuo elegido al azar tenga viruela. Por lo tanto, la probabilidad de que un individuo elegido al azar tenga viruela es
p (viruela) = 0,001. (1.4)
Esto representa nuestro conocimiento previo sobre la enfermedad en la población antes de haber observado a nuestro paciente, y se conoce como probabilidad previa que cualquier individuo tiene viruela. Como nuestro paciente (antes de que hayamos observado sus síntomas) tiene la misma probabilidad que cualquier otro individuo de tener viruela, sabemos que la probabilidad previa de que tenga viruela es 0.001.
Si seguimos nuestra receta de sentido común, y simplemente ponderamos (es decir, multiplicamos) cada probabilidad por su probabilidad previa, entonces obtenemos cantidades de ‘probabilidad ponderada’ que tienen en cuenta la evidencia actual y nuestro conocimiento previo de cada enfermedad. En resumen, esta receta de sentido común conduce a la regla de Bayes. Aun así, la ecuación para la regla de Bayes dada a continuación no es obvia, y se debe tomar en confianza por ahora. En el caso de la viruela, la regla de Bayes es
p (viruela | manchas) = p (manchas | viruela) p (viruela) / p (manchas). (1.5)
El término p (manchas) en el denominador de la ecuación 1.5 es la proporción de personas en la población general que tienen manchas y, por lo tanto, representa la probabilidad de que un individuo elegido al azar tenga manchas. Como se explicará en p15, este término a menudo no se tiene en cuenta, pero usamos un valor que hace que nuestras sumas salgan bien, y suponemos que p (puntos) = 0.081 (es decir, 81 de cada 1,000 individuos tienen puntos). Si ahora sustituimos números en esta ecuación, obtenemos
p (viruela | puntos) = 0.9 x 0.001 / 0.081 (1.6)
= 0.011, (1.7)
cuál es la probabilidad condicional de que el paciente tenga viruela dado que sus síntomas son manchas.
Crucialmente, la ‘probabilidad ponderada’ p (viruela | manchas) también es una probabilidad condicional, pero es la probabilidad de que la enfermedad de la viruela dados los síntomas observados, como se muestra en la Figura 1.4. Entonces, al hacer uso de la experiencia previa, hemos transformado la probabilidad condicional de los síntomas observados dada una enfermedad específica (la probabilidad, que se basa solo en la evidencia disponible) en una probabilidad condicional más útil: la probabilidad de que el paciente tenga enfermedad particular (viruela) dado que tiene síntomas particulares (manchas).
De hecho, acabamos de hacer uso de la regla de Bayes para convertir una probabilidad condicional, la probabilidad p (manchas | viruela) en una probabilidad condicional más útil, a la que hemos llamado una ‘probabilidad ponderada’, pero se conoce formalmente como la probabilidad posterior p (viruela | manchas).
Como se señaló anteriormente, tanto p (viruela | manchas) como p (manchas | viruela) son probabilidades condicionales, que tienen el mismo estado desde un punto de vista matemático. Sin embargo, para el gobierno de Bayes, los tratamos de manera muy diferente.
La probabilidad condicional p (manchas | viruela) se basa solo en los datos observados (síntomas) y, por lo tanto, es más fácil de obtener que la probabilidad condicional que realmente queremos, es decir, p (viruela | manchas), que también se basa en los datos observados , pero también en conocimiento previo.
Por razones históricas, estas dos probabilidades condicionales tienen nombres especiales. Como ya hemos visto, la probabilidad condicional p (manchas | viruela) es la probabilidad de que un paciente tenga manchas dado que tiene viruela, y se conoce como la probabilidad de viruela. La probabilidad condicional complementaria p (viruela | manchas) es la probabilidad posterior de que un paciente tenga viruela dado que tiene manchas.
En esencia, la regla de Bayes se utiliza para combinar la experiencia previa (en forma de probabilidad previa) con los datos observados (puntos) (en forma de probabilidad) para interpretar estos datos (en forma de probabilidad posterior). Este proceso se conoce como inferencia bayesiana .
El motor de inferencia perfecto
No se garantiza que la inferencia bayesiana proporcione la respuesta correcta. En cambio, proporciona la probabilidad de que cada una de una serie de respuestas alternativas sea verdadera, y éstas pueden usarse para encontrar la respuesta que probablemente sea verdadera. En otras palabras, proporciona una suposición informada. Si bien esto puede no parecer mucho, está lejos de adivinar al azar. De hecho, se puede demostrar que ningún otro procedimiento puede proporcionar una mejor suposición, por lo que la inferencia bayesiana puede interpretarse de manera justificada como la salida de una máquina de adivinanzas perfecta, un motor de inferencia perfecto. Este motor de inferencia perfecto es falible, pero es probablemente menos falible que cualquier otro.
Hacer un diagnostico
Para hacer un diagnóstico, necesitamos conocer la probabilidad posterior de ambas enfermedades bajo consideración. Una vez que tenemos ambas probabilidades posteriores, podemos compararlas para elegir la enfermedad más probable dados los síntomas observados.
Suponga que la prevalencia de la varicela en la población general es del 10% o 0.1. Esto representa nuestro conocimiento previo sobre la varicela antes de que hayamos observado algún síntoma, y se escribe como
p (varicela) = 0.1, (1.8)
cual es la probabilidad previa de varicela. Como se hizo en la Ecuación 1.6 para la viruela, podemos ponderar la probabilidad de varicela con su probabilidad previa de obtener la probabilidad posterior de varicela
p (varicela | manchas) = p (manchas | varicela) xp (varicela) / p (manchas)
= 0.8 x 0.1 / 0.081 = 0.988. (1.9)
Las dos probabilidades posteriores son por lo tanto
p (viruela | manchas) = 0.011 (1.10) p (varicela | manchas) = 0.988. (1.11)
Por lo tanto, la probabilidad posterior de que el paciente tenga viruela es 0.011, y la probabilidad posterior de que el paciente tenga varicela es 0.988. Aparte de un error de redondeo, estos suman uno.
Tenga en cuenta que no podemos estar seguros de que el paciente tenga varicela, pero podemos estar seguros de que existe un 98.8% de probabilidad de que la tenga. Esta no es solo nuestra mejor suposición, sino que es probablemente la mejor suposición que se puede obtener; Es efectivamente la salida de un motor de inferencia perfecto.
En resumen, si ignoramos todo el conocimiento previo sobre la prevalencia de cada enfermedad, entonces tenemos que usar las probabilidades para decidir qué enfermedad está presente. Las probabilidades que se muestran en las ecuaciones 1.2 y 1.3 nos llevarían a diagnosticar que el paciente probablemente tiene viruela. Sin embargo, se puede obtener una decisión más informada teniendo en cuenta la información previa sobre las enfermedades en consideración. Cuando tenemos en cuenta el conocimiento previo, las ecuaciones 1.10 y 1.11 indican que el paciente probablemente tiene varicela. De hecho, estas ecuaciones implican que el paciente tiene aproximadamente 89 (= 0.988 / 0.011) veces más probabilidades de tener varicela que la viruela. Como veremos más adelante, esta razón de probabilidades posteriores juega un papel clave en el análisis estadístico bayesiano.
Tener en cuenta la experiencia previa produce el diagnóstico más probable, dada la evidencia (manchas). Como esta es la decisión asociada con el valor máximo de la probabilidad posterior, se conoce como la estimación máxima a posteriori o MAP de la enfermedad.
La ecuación utilizada para realizar la inferencia bayesiana se llama regla de Bayes, y en el contexto del diagnóstico es
p (enfermedad | síntomas) = p (síntomas | enfermedad) p (enfermedad) / p (síntomas) (1.12)
que es más fácil de recordar como
posterior = probabilidad x probabilidad anterior / marginal (1.13)
La probabilidad marginal también se conoce como evidencia, y tendremos más que decir al respecto en breve.
La regla de Bayes: hipótesis y datos
Si consideramos que una enfermedad putativa representa una hipótesis específica, y los síntomas son algunos datos observados, entonces la regla de Bayes se convierte en
p (hipótesis | datos) = p (datos | hipótesis) xp (hipótesis) / p (datos)
donde la palabra “hipótesis” debe interpretarse como “hipótesis es verdadera”. Escrito en esta forma, el contraste entre la probabilidad y la probabilidad posterior es más evidente. Específicamente, la probabilidad de que la hipótesis propuesta sea cierta dados algunos datos que realmente se observaron es la probabilidad posterior
p (hipótesis | datos), (1.14)
mientras que la probabilidad de observar los datos dado que la hipótesis es verdadera es la probabilidad
p (datos | hipótesis). (1.15)
Cráteres de luz
Cuando miras la figura 1.11, ¿ves una colina o un cráter? Ahora voltee la página al revés. Cuando invierte la página, el contenido de la imagen no cambia, pero lo que ve sí cambia (de una colina a un cráter). Esta ilusión casi seguramente depende del hecho de que su sistema visual asume que la escena está iluminada desde arriba. Esto, a su vez, te obliga a interpretar la Figura 1.11 como una colina, y la versión invertida como un cráter (que es, en realidad).

Figura 1.11: ¿Es esto una colina o un cráter? Vea la versión al revés, a continuación. (Cráter Barringer, con permiso, United States Geological Survey).
En términos de la regla de Bayes, los datos de la imagen son igualmente consistentes con una colina y un cráter, donde cada interpretación corresponde a un valor diferente de probabilidad máxima. Por lo tanto, en ausencia de suposiciones previas de su parte, debería ver la imagen como una colina o un cráter con la misma probabilidad. Sin embargo, la suposición de que la luz proviene de arriba corresponde a una previa, y esto efectivamente lo obliga a interpretar la imagen como una colina o un cráter, dependiendo de si la imagen está invertida o no. Tenga en cuenta que no hay incertidumbre ni ruido; la imagen es perfectamente clara, pero también perfectamente ambigua sin la adición de un previo sobre la fuente de luz. Este ejemplo demuestra que la inferencia bayesiana es útil incluso cuando no hay ruido en los datos observados, y que incluso el acto aparentemente simple de ver requiere el uso de información previa.
Ver no es una aprehensión directa de la realidad, como a menudo nos gusta fingir. Todo lo contrario: ver es inferencia de información incompleta …
ET Jaynes, 2003.

Nota: traduje el texto de un archivo pdf, por lo que es posible que se hayan introducido algunos errores. Si detecta algún error, envíeme un correo electrónico a: [correo electrónico protegido] .
con gracias,
James V Stone.