¿Cuál es una explicación intuitiva de la regla de Bayes?

Usted es un soldado. Estás lanzándose en paracaídas en territorio enemigo por la noche. Sabes que el enemigo es más fuerte y más numeroso en la jungla que en las llanuras. De hecho, el 90% de la selva es de ellos, pero solo el 50% de las llanuras son suyas.

A partir de estos hechos y algunos otros, el tamaño total del lugar y la fracción que es la jungla y la fracción que es llanura, deberías poder calcular el tamaño de la fuerza enemiga en toto.

Pero lo más importante es ir en la otra dirección . Supongamos que conoces el número total de fuerzas enemigas antes de participar en la misión. Sabes que tienes, digamos, un 70% de posibilidades de que te disparen por la mañana cuando puedan verte. Sin embargo, una vez que aterriza , puede observar en qué tipo de terreno se encuentra: nota que es jungla y, por lo tanto, su probabilidad de que le disparen por la mañana cuando pueden verlo ahora es del 90%. Ahí es donde la parte [math] | B [/ math] o [math] | \ texttt {data} [/ math] de la fórmula obtiene significado. ([math] | \ texttt {jungle} [/ math] significa “dado que estoy en la jungla, en lugar de en otro lugar”). Y una vez que escuche a las patrullas enemigas en la jungla ocupada al 90% caminando cerca, el la probabilidad de recibir un disparo se convirtió en 99.9%.

Eso es lo que se llama “actualización bayesiana”. El número del 70% no estuvo mal , se basó en información menos específica . Una vez que recibe [math] | \ texttt {more \ data} [/ math], el número en realidad cambia. Puedes resolver todo lo que he dicho en una hoja de papel con un número específico de enemigos en dos zonas y un tamaño específico de cada zona.

(Funcionaría también si hubiera más tipos de terreno como ciudad, bosque ligero, granja, etc.) De ahí proviene la versión [matemática] \ sum_i B_i [/ ​​matemática] (multidimensional) del teorema de Bayes .)


Además, el clásico: Yudkowsky – Teorema de Bayes y si buscas en google el teorema de bayes menos equivocado, encontrarás varios intentos más de explicaciones intuitivas. La gente menos equivocada realmente quiere que entiendas Bayes.


Además, si bien esa historia intuitiva sobre la actualización es una que puedes contar, de alguna manera los simbólicos son más fáciles de resolver que las implicaciones. Esto se debe a que el Teorema de Bayes simplemente surge de la lógica necesaria de los diagramas de Venn.

A | B es A∩B / B o, en otras palabras, “cuánto ocupa la intersección (almendra) del círculo B”.

Esto está haciendo la lógica sin asignar ningún significado como republicanos o trans * o armados o alfabetizados o lo que sea. Simplemente hablando de dos cosas abstractas en un diagrama de Venn y ↑ A | B significa presionar los círculos juntos, para aumentar la fracción de B que está cubierta por las B que también son A. (↓ A | B significa separar los círculos, por lo que menos B son A)

Sabiendo que A | B = A∩B / B (y, esto no era específico para esas letras; funciona igual si las letras se intercambian así que B | A = B∩A / B (… y B∩A = A ∩B)) puedes derivar la fórmula de Bayes por ti mismo con solo mirar esta imagen y pensar con un trozo de papel, un bolígrafo y conocer las reglas del álgebra. Intenta mutar A | B en B | A usando los términos comunes.

Esa no es la intuición; solo agrega que el álgebra es factible si te sientas un rato con él.

Quiere salir a caminar esta tarde, pero le preocupa que pueda llover. Enciende la televisión: el pronóstico es de lluvia. ¿Deberías renunciar a tu caminata?

Decides investigar un poco. Vaya al sitio web del pronosticador del tiempo y descubra que afirman una tasa de precisión del 90%: de los 100 días en que llovió, predijeron que llovería en 90 de esos días. Suena muy bien.

Excavando un poco más, descubres que de 100 días en los que no llovió, predijeron correctamente que estaría seco en 80 de esos días. Eso tampoco está mal.

Parece que el pronosticador es bastante confiable. Decides seguir adelante con tu caminata pero llevas un paraguas contigo.

¡Es un sol brillante todo el tiempo! ¡No necesitabas el paraguas en absoluto!

¿Por qué?

Porque no usaste el teorema de Bayes.

Verás, resulta que llueve solo el 10% del tiempo donde vives. Entonces, en 100 días, llueve en 10 de esos días. Y el pronosticador del clima, con su índice de precisión del 90%, predeciría correctamente la lluvia en 9 de esos 10 días.

Sin embargo, no llueve en 90 de cada 100 días. Pero el pronosticador del tiempo predeciría erróneamente que llovería en un 20% de estos. Entonces, en 18 días, el pronóstico sería de lluvia cuando en realidad no llovió.

En total, el pronosticador del tiempo predice lluvia en 9 + 18 = 27 días de cada 100. Pero solo en 9 de esos días llueve realmente. Entonces, la proporción de días en que llueve cuando el pronosticador del tiempo pronosticó lluvia es 27/9, que es solo un tercio. Eso es bastante poco confiable.

La impresionante estadística (“¡90% de precisión!”) En el sitio web del pronosticador del tiempo fue la respuesta a la siguiente pregunta: “Dado que llovió, ¿cuál es la probabilidad de que el pronóstico fuera de lluvia?”

El problema surgió porque esta pregunta es al revés. Lo que realmente quiere saber es: “Dado que el pronóstico es de lluvia, ¿cuál es la probabilidad de que realmente llueva?” La estadística aquí es mucho menos impresionante: alrededor del 33%.

¿Por qué pasó esto?

Aunque el pronosticador del tiempo a menudo predice correctamente la lluvia cuando realmente llueve, no llueve muy a menudo, por lo que el número de días en que llueve y en los que se pronostica lluvia es pequeño (9 días). Y aunque el pronosticador del clima rara vez predice lluvia cuando no llueve, hay muchos días en los que no llueve, por lo que hay muchas oportunidades para un pronóstico incorrecto (18 días de cada 100).

Por lo tanto, una predicción de lluvia se asocia más a menudo con un día seco que con un día húmedo. Y eso es lo que te pasó hoy.

Ese es el teorema de Bayes.

***

Acabo de ver que te interesan las estadísticas médicas. Para lluvia lea “enfermedad”; para el pronóstico lea “prueba de diagnóstico”. El teorema de Bayes dice que la pregunta de interés es “Dado que la prueba es positiva, ¿cuál es la probabilidad de que el paciente realmente tenga la enfermedad?”

Hay dos cosas que deseamos evitar. Un falso negativo ocurre cuando un paciente con la enfermedad es diagnosticado como saludable. Un falso positivo ocurre cuando un paciente sano es diagnosticado con la enfermedad.

La respuesta a nuestra pregunta: “Dado que la prueba es positiva, ¿cuál es la probabilidad de que el paciente tenga realmente la enfermedad?” – es la proporción del número de pacientes enfermos que obtienen un resultado positivo en la prueba dividido por el número de pacientes (tanto enfermos como sanos) que obtienen un resultado positivo en reposo. (Si lo desea: verdaderos positivos divididos por todos los positivos).

Para que esta proporción sea alta (es decir, para que la prueba de diagnóstico sea confiable), necesitamos que el número de falsos positivos sea muy bajo.

Por ejemplo, si tenemos 10 positivos verdaderos y 1 falso positivo, entonces la proporción de positivos verdaderos es 10/11, que es muy alta. Pero si tenemos 10 positivos verdaderos y 10 falsos positivos, entonces la proporción es 10/20, ¡lo cual no es mejor que el diagnóstico arrojando una moneda!

Los problemas surgen cuando la tasa base de la enfermedad entre las personas que se hacen la prueba es baja. En un programa de detección de una enfermedad rara, incluso una baja tasa de falsos positivos arrojará una gran cantidad de resultados positivos, porque muchas de las personas evaluadas estarán sanas y una pequeña proporción de una gran cantidad sigue siendo un número razonable de personas, todas las cuales serán diagnosticadas erróneamente. E incluso si la prueba es muy buena para identificar a las personas enfermas, el número real de personas enfermas es bajo (porque la enfermedad es rara), por lo que el número de verdaderos positivos puede no ser muy alto. Por lo tanto, la relación entre los verdaderos positivos y todos los positivos puede, por lo tanto, no ser muy alta, como en mi ejemplo de lluvia.

Supongamos que estás en una fiesta y conoces a alguien llamado X, que tiene una actitud coqueta hacia ti. ¿Sabes cómo determinar si esa persona quiere tener una aventura contigo?

NOTA: Como pensador y escritor sobre la toma de decisiones bajo incertidumbre, comprender el Teorema de Bayes fue ciertamente una necesidad intelectual y un desafío. Aunque hay muchas fuentes con explicaciones muy extensas y sólidas del Teorema de Bayes, no he encontrado ninguna que sea suficientemente concreta, intuitiva y adaptable.

Por lo tanto, me comprometí a entenderlo y crear una manera fácil de aplicarlo. Escribí un artículo completo en Medium. Creo que mi principal contribución al campo es lo que llamé el Cuadro de Fuerza de Hipótesis, que humildemente encuentro la forma más fácil y completa de comprender el teorema de Bayes.

La vida nos alimenta con un flujo imparable de nuevos eventos y piezas de información que nos permiten actualizar nuestras creencias sobre el mundo.

Estos hechos se convierten en una evidencia invaluable que debe usarse para mejorar la calidad de nuestros juicios; Sin embargo, la utilización adecuada es más contraintuitiva de lo que cabría esperar. Por ejemplo, suponga que está en una fiesta y conoce a alguien llamado X, que tiene una actitud coqueta hacia usted. ¿Sabes cómo determinar si esa persona quiere tener una aventura contigo?

Supongo que esta pregunta le resulta intrigante porque, aunque se trata de una situación bastante frívola, responderla con precisión no es sencilla. Afortunadamente, hay una manera de resolver este tipo de desafío: el teorema de Bayes.

Esta fórmula nos permite determinar la probabilidad de ocurrencia de una hipótesis dada nueva evidencia. Además, es la representación matemática de una forma de pensar que puede mejorar nuestra comprensión de la relación entre lo que sabemos y lo que nos rodea. Y en la práctica, puede aumentar drásticamente la calidad de las decisiones que tomamos.

El teorema de Bayes se puede aplicar a casi cualquier instancia de conocimiento, convirtiéndose sin duda en una de las herramientas más importantes que tienen los humanos cuando necesitan reducir la incertidumbre. Entre una amplia variedad de ejemplos, se ha utilizado para determinar la probabilidad de tener una afección médica después de resultados positivos de las pruebas [1], el resultado de elecciones políticas [2], mejorar el rendimiento del aprendizaje automático [3] e incluso para ” probar “[4] y” refutar “[5] la existencia de Dios.

Diseccionando Bayes

El poderoso Teorema de Bayes es simplemente una “prueba de fuerza” entre hipótesis en competencia, con el objetivo de determinar sus probabilidades de ocurrencia a la luz de nuevas pruebas. Usar la fórmula (Figura 1) es mucho más fácil de lo que parece. Para hacerlo, comencemos diseccionándolo en sus diversos componentes [ii] [iii].

  • La hipótesis con la que comenzamos se llama Prior y está representada por la letra H.
  • El nuevo evento se representa con la letra E.
  • La probabilidad de ocurrencia está representada por la letra p seguida por paréntesis.
  • El signo “|” significa dado.
  • Lo que queremos saber es la probabilidad posterior p (H | E) , es decir, la probabilidad de ocurrencia de la hipótesis H dada la nueva evidencia (E).
  • p (E | H) es el probabilidad de ocurrencia de la evidencia E dada la hipótesis H. En otras palabras, “si la hipótesis es verdadera, qué tan probable es la evidencia”.
  • ~ H representa la hipótesis competitiva de H. Estas hipótesis son complementarias, es decir, H significa no H. Por lo tanto, sumar sus probabilidades no debe sumar más de 1 (o su equivalente al 100%).
  • p (E | ~ H) es el probabilidad de ocurrencia de la evidencia E dada la hipótesis competitiva. En otras palabras, “si la hipótesis competitiva es verdadera, qué tan probable es la evidencia”.

La tabla de fuerza de hipótesis

Ahora que conocemos el significado de los elementos, el desafío restante es establecer cada valor para un escenario dado. Quizás esta es la parte más engorrosa (es decir, ¿qué queremos decir con “si la hipótesis competitiva es cierta, qué tan probable es la evidencia?”).

Hay diferentes maneras en que se ha explicado la lógica detrás del Teorema de Bayes, por ejemplo gráficamente a través del diagrama de Venn o con herramientas de apoyo a la decisión, como árboles de decisión; Sin embargo, creo que podría hacerse de una manera más fácil. Propongo usar lo que llamaremos el Gráfico de Fuerza de Hipótesis , una representación visual de las hipótesis en competencia y su relación con la nueva evidencia (Figura 2).

La mejor manera de explicarlo es aplicándolo directamente a la pregunta de “lanzamiento” mencionada anteriormente. Primero, se muestra el cuadro seguido de una descripción paso a paso.

Nuestro objetivo es determinar la probabilidad de que una persona llamada X, que coquetea contigo en una fiesta, de hecho quiera tener una aventura. Por lo tanto, tenemos que considerar las dos hipótesis en competencia: la persona X “quiere” versus “no quiere” tener una aventura contigo.

Comenzamos asignando una probabilidad a la hipótesis H basada en el conocimiento previo. Una hipótesis es una suposición tentativa hecha para extraer y probar sus consecuencias lógicas o empíricas. Para asignar una probabilidad a la hipótesis pregúntese: con toda la información que tengo y según mi experiencia, ¿qué posibilidades hay de que alguien que conozco en una fiesta quiera tener una aventura conmigo?

Si no conoce la respuesta, dele una probabilidad del 50% (un resultado de dos posibilidades). Ahora es evidente que si el p (H) es igual al 50%, p (~ H) también es igual al 50%. Recuerde, siempre trate de asignar un valor a H utilizando la información más objetiva que tenga. Si este tipo de datos está disponible, ajuste sus estimaciones intuitivas con un enfoque externo.

El hecho de que X coqueteó contigo es una evidencia crucial para saber si él o ella quiere tener una aventura contigo. Esto es cuando se vuelve interesante.

Para encontrar el valor de p (E | H) pregúntese: Si la hipótesis es verdadera, ¿qué tan probable es esta evidencia? En nuestro ejemplo, de todas las personas en la fiesta que quieren tener una aventura conmigo, ¿qué tan probable es que coqueteen conmigo? Tenga en cuenta que ahora estamos en un universo que solo incluye personas que quieren tener una aventura contigo. Le estamos dando una probabilidad del 60% porque hay muchas personas que no son coquetas incluso cuando les gusta alguien. Este valor está representado por la barra con la etiqueta “+”. La barra con los signos negativos “-” representa a todas las personas en la fiesta que quieren tener una aventura contigo pero no están dispuestas a coquetear, lo que se estima en un 40%.

Finalmente, incluimos el efecto de la hipótesis alternativa en nuestro cálculo al estimar el valor de p (E | ~ H). De todas las personas que no quieren tener una aventura conmigo, ¿qué tan probable es que coqueteen conmigo? Estamos dando una probabilidad del 10% porque hay personas que coquetean incluso cuando no quieren tener una aventura.

A continuación se muestra el proceso de su resolución matemática:

Gracias al Teorema de Bayes, podemos estimar que la probabilidad de que alguien que coquetea contigo también quiera tener una aventura es del 85%. Sorprendentemente, podemos esperar que este resultado tenga un efecto importante en el comportamiento real. Suponiendo que la atracción con X es mutua, ¿cuál sería su comportamiento hacia él sabiendo que hay 8.5 de 10 posibilidades de que quieran tener una aventura contigo?

..

Si esta publicación le ha resultado útil, haga una Votación a favor, para que más lectores puedan encontrarla. ¡Gracias!

(Continuará … encuentre el artículo completo en esta publicación de Medium)

Lo que significa la regla de Bayes en inglés es esto:

En lugar de calcular la probabilidad de un evento de forma aislada, observe todas las posibles causas o explicaciones para ello. Luego, de esas posibles explicaciones o causas , determine cuál es la más probable o plausible, y finalmente aplique la regla:

P (la explicación es correcta) = P (esa explicación) / P (todas las explicaciones)

En mi opinión (y no estoy negando la existencia de Dios, por cierto), esto tiene un gran significado en el análisis bíblico moderno …

Tome el ejemplo de Moisés separando el Mar Rojo. Hay varias explicaciones de por qué leemos esta historia en Éxodo:

Explicación # 1 . Realmente sucedió exactamente como se describe.

Explicación # 2 . Algunos escribas hebreos en Jerusalén o Babilonia (durante el cautiverio) necesitaban escribir una buena historia, y esto es lo que se les ocurrió.

Explicación # 3 . Quizás algunos hebreos vinieron originalmente de Egipto. Pero a medida que se contaba su historia, y se la volvía a contar y se la volvía a contar, recogía cada vez más “detalles coloridos”.

Explicación # 4 . No era realmente el Mar Rojo, sino el “Mar de Reed”, que era solo un pantano. Pero (como en la Explicación # 3), la historia se volvió más colorida en la narración.

Ahora, aquí está la aplicación de la Regla de Baye: No es suficiente para ti decir: “Bueno, confío en esos antiguos escribas sin nombre. No creo que inventen algo ”. Eso no es suficiente. Lo que tienes que hacer es poner una probabilidad en las explicaciones 2 a 4. ¿Qué probabilidad asignarías? 50%? 30% ¿Solo 10%?

Ahora tiene que determinar, por sí solo, cuál es la probabilidad de la Explicación # 1. Seamos generosos y digamos que es 1 en un millón … aunque realmente deberíamos decir algo como 1 en un billón de billones, en base a nuestra observación directa de la Naturaleza.

Pero de nuevo, seamos realmente generosos. Si la Explicación Número 1 tiene una probabilidad de 1 en un millón, y si las otras explicaciones juntas tienen una probabilidad del 10%, entonces eso significa que estas otras explicaciones son 100,000 veces más probables que la Explicación # 1 .

Entonces, en última instancia, asignamos una probabilidad de verdad final para la Explicación # 1 de 0.001% de probabilidad de ser la correcta.

Podemos hacer lo mismo con el Nuevo Testamento. Para Jesús haber dicho: “Ama a tu prójimo como a ti mismo” no es del todo difícil de creer, en parte porque Jesús mismo encontró este pasaje en Levítico. Que Jesús diría que es extremadamente plausible, y que no hay una explicación rival que sea más probable.

Pero ahora consideremos su multiplicación de panes y peces. Las probabilidades de algo así son 1 en un billón, nuevamente, debido a nuestra observación de la Naturaleza. Puedes decir: “Dios, los autores del Nuevo Testamento probablemente no inventarían tal historia”. ¿No lo harían? De acuerdo, pon esa probabilidad en alrededor del 2%, solo para ser generoso. Diría que hay AL MENOS un 2% de probabilidad de que algún autor cristiano invente esa historia, o que se confunda con el tiempo … y probablemente mucho, mucho más del 2%.

Ahora compare las dos probabilidades … 2% vs. 1 en un billón.

Esa es la regla de Bayes en pocas palabras.

Esta es una rama de mi respuesta más detallada. Respuesta de Anónimo a que he quemado 200 discos y quiero asegurarme de que estén en perfecto estado de funcionamiento. ¿Cuál es la muestra de tamaño más pequeño que podría analizar para tener una confianza relativa de que el 98% de todos los discos están bien / grabados correctamente?

Considere un tablero de dardos que es en parte rojo y en parte azul, con la parte azul más grande. También hay un cuadrado amarillo. Donde el cuadrado amarillo se superpone con el rojo, ves naranja. Donde se superpone con azul, ves verde. Aquí está:

Si lanzo un dardo y dices: “golpeas el tablero, ¿crees que está en azul o rojo?”, Mi mejor conjetura es que estoy en la sección azul, ya que la mayoría del tablero es azul.

Sin embargo, si luego me dice, “también, está en algún lugar del cuadrado amarillo”, mi suposición cambia, y creo que estoy en la sección roja, ya que la mayor parte de la parte amarilla se superpone con la roja.

El teorema de Bayes te dice matemáticamente cuáles son las probabilidades en el segundo caso según las áreas de las diferentes regiones.

Esto encaja con lo que dice la respuesta de Mike, donde “lo que sabías antes de la observación” es el diseño del tablero y “cualquier información nueva” es el hecho de que estás en el cuadrado amarillo. Esa nueva información afecta lo que sabes sobre si estás en rojo o azul.

Esto también es lo mismo que la respuesta de Tracy, donde el rojo y el azul podrían ser géneros y el cuadro amarillo podría ser programadores.

Supongamos que una tienda vende pasteles grandes y pasteles pequeños. También son realmente raros porque están dispuestos a cortar cualquier fracción posible de un pastel para ti. Quizás estén dirigidos por personas locas o estudiantes de matemáticas.

Tu amigo Fred te dice que vayas a buscarle la mitad de un pastel pequeño. Llegas a la tienda y se han quedado sin pequeños pasteles. ¡Maldición! ¡Pero tienen muchos pasteles grandes! Genial, todavía puedes darle a Fred un poco de pastel. Pero espera, ¿qué porción de un pastel grande quieres?

Bueno, depende de la relación de tamaño entre pasteles grandes y pequeños. Supongamos que un pastel grande es el doble de grande. Eso significa medio pastel pequeño = un cuarto de un pastel grande.

Ahora echemos un vistazo a una imagen:


Esta imagen tiene un círculo rojo, un círculo azul y una parte púrpura donde se superponen los dos, y un fondo gris.

Suponga que quiere saber qué fracción del círculo rojo es púrpura, y alguien le dice qué fracción del círculo azul es púrpura. Bueno, esto es como saber que quieres la mitad de un pastel pequeño pero no saber cuánto de un pastel grande es. Para resolver el problema, necesita conocer los tamaños relativos de rojo y azul . Supongamos que el círculo rojo es el doble de grande, entonces la cantidad que le dijeron (fracción del círculo azul que también es púrpura) debería dividirse por dos .

¡Esto es básicamente la regla de Bayes ! Excepto que, en lugar de hablar de “fracciones de un círculo” (algo que a nadie le importa de todos modos), estamos hablando de “probabilidades de cosas que pueden suceder”.

Podemos hacer esto relevante con un ejemplo del mundo real. Supongamos que usted y su amigo están solicitando ingreso a la universidad. Su amigo dice: “El 80% de las personas que ingresan al MIT obtienen al menos un promedio de B + en la escuela secundaria. Tengo una B +. ¡Por las leyes de hierro de las estadísticas estoy en gran forma! ”Hmm, ¿en serio? Volvamos a nuestra imagen de círculos, modificada un poco para que las imágenes se vean bien:

Ahora el gran recuadro gris es “todos los que solicitaron MIT el año pasado”, el pequeño círculo azul es “todos los que ingresaron” y el círculo rojo es “todos los solicitantes del MIT que obtuvieron un promedio de B + en la escuela secundaria”.

Primero, revisemos la estadística de su amigo. Sí, aproximadamente el 80% de la parte azul (personas que ingresaron) también está en la parte roja (promedio B +).

Pero tu amigo dio un salto extraño después de eso. Él dijo: “Obtuve un promedio de B +, por lo tanto , soy un fanático del MIT”. Eso es algo al revés de la declaración anterior. Entonces, veamos si eso es cierto.

Esto es como decir “Estoy en la parte roja (promedio B +), por lo tanto, ¿es probable que esté en la parte azul (entrar al MIT)?” En realidad, ¡no! La clave aquí es que entre los solicitantes del MIT, muchas más personas obtienen un promedio de B + de lo que realmente ingresan (los dos círculos son enormemente diferentes en tamaño). La parte púrpura (superposición) permanece igual, pero el círculo con el que lo está comparando cambia. Entonces, cuando intentas revertir la afirmación sobre las dos cantidades, te metes en problemas.

Finalmente, podemos hacer esto aún más absurdo eligiendo una característica que sea masivamente común. Suponga que su amigo (de quien ahora se está dando cuenta es que quizás fue un poco demasiado optimista en sus opciones de solicitud para la universidad) ahora se emociona aún más: “Las estadísticas muestran que el 99.9% de las personas que ingresan al MIT saben cómo atarse los zapatos. ¡Sé atar mis zapatos! ¡Soy un asaltante! ”(En realidad, ese juego de palabras fue completamente involuntario, pero lo mantengo).

Ahora un experto, pone los ojos en blanco y dibuja algunas formas de esta manera:

Las fracciones del dibujo están un poco apagadas, pero están lo suficientemente cerca. Podemos ver que aumentamos masivamente el tamaño del rojo (que ahora es “solicitantes del MIT que pueden atar sus zapatos”). Ahora envuelve prácticamente todo el azul (“personas que entraron”). Pero la proporción de rojo (niveles de zapatos) que también es azul (entró en el MIT) es aún menor que antes. El atado de zapatos no le dice casi nada sobre las posibilidades de ingresar al MIT.

Esto debería ser tranquilizador: significa que no eres un mejor solicitante del MIT al saber cómo atarte los zapatos que al obtener un promedio de B + en la escuela secundaria.

Para resumir brevemente: cuando alguien le dice que “dado A, B es probable”, no puede saltar a la afirmación inversa de que “dado B, A es probable”, porque está cambiando su marco de referencia : el conjunto de las cosas de las que está tomando una proporción podrían ser más grandes o más pequeñas que antes. (En el ejemplo de tarta es análogo a ” mantener constante la masa de tarta deseada pero cambiar de tartas pequeñas a tartas grandes ” (o viceversa); en la imagen de los círculos es equivalente a ” mantener constante la parte púrpura pero cambiar el círculo en el que está mirando dentro de “).

Tomemos este ejemplo.

  • El 1% de las mujeres tiene cáncer de mama (y, por lo tanto, el 99% no).
  • El 80% de las mamografías detectan el cáncer de seno cuando está allí (y, por lo tanto, el 20% lo omite)
  • El 9.6% de las mamografías detectan el cáncer de seno cuando no está presente (y, por lo tanto, el 90.4% devuelve correctamente un resultado negativo).

Poner en una tabla, las probabilidades se ven así:
¿Cómo lo leemos?

  • 1% de las personas tienen cáncer
  • Si ya tiene cáncer , está en la primera columna. Hay un 80% de posibilidades de que dé positivo. Hay un 20% de posibilidades de que dé un resultado negativo.
  • Si no tienes cáncer , estás en la segunda columna. Hay un 9.6% de probabilidades de que dé positivo, y un 90.4% de que sea negativo.

¿Qué tan precisa es la prueba?
Ahora suponga que obtiene un resultado positivo de la prueba. ¿Cuáles son las posibilidades de que tenga cáncer? 80%? 99%? 1%?
Así es como lo pienso:

  • Ok, obtuvimos un resultado positivo. Significa que estamos en algún lugar de la fila superior de nuestra mesa. No asumamos nada: podría ser un verdadero positivo o un falso positivo.
  • Las posibilidades de un verdadero positivo = posibilidad de que tenga cáncer * la prueba de probabilidad lo detectó = 1% * 80% = .008
  • Las posibilidades de un falso positivo = posibilidad de que no tenga cáncer * la prueba de probabilidad lo detectó de todos modos = 99% * 9.6% = 0.09504

La tabla se ve así:
¿Y cuál era la pregunta otra vez? Ah, sí: ¿cuál es la probabilidad de que realmente tengamos cáncer si obtenemos un resultado positivo? La posibilidad de un evento es la cantidad de formas en que podría ocurrir dados todos los resultados posibles:
Probabilidad = evento deseado / todas las posibilidades
La posibilidad de obtener un resultado real y positivo es 0,008. La posibilidad de obtener cualquier tipo de resultado positivo es la posibilidad de un verdadero positivo más la posibilidad de un falso positivo (.008 + 0.09504 = .10304).
Entonces, nuestra probabilidad de cáncer es .008 / .10304 = 0.0776, o aproximadamente 7.8%.
Interesante: una mamografía positiva solo significa que tiene un 7,8% de posibilidades de cáncer, en lugar del 80% (la supuesta precisión de la prueba). Puede parecer extraño al principio, pero tiene sentido: la prueba arroja un falso positivo el 10% del tiempo, por lo que habrá una tonelada de falsos positivos en cualquier población. Habrá tantos falsos positivos, de hecho, que la mayoría de los resultados positivos serán incorrectos.
Probemos nuestra intuición sacando una conclusión simplemente mirando la mesa. Si toma 100 personas, solo 1 persona tendrá cáncer (1%), y es casi seguro que darán positivo (80% de probabilidad). De las 99 personas restantes, aproximadamente el 10% dará positivo, por lo que obtendremos aproximadamente 10 falsos positivos. Teniendo en cuenta todas las pruebas positivas, solo 1 de cada 11 es correcto, por lo que hay una probabilidad de 1/11 de tener cáncer dado una prueba positiva. El número real es 7.8% (más cercano a 1/13, calculado anteriormente), pero encontramos una estimación razonable sin una calculadora.

FUENTE: Una explicación intuitiva (y breve) del teorema de Bayes

Este es un extracto del Capítulo 1 de la Regla de Bayes: Una Introducción Tutorial al Análisis Bayesiano de (yo) James V Stone.

Una versión más completa del Capítulo 1 con mejor formato se puede ver aquí descargada como un archivo pdf desde aquí: BayesRuleBook

Una introducción tutorial a la regla de Bayes

La regla de Bayes es un método riguroso para interpretar la evidencia en el contexto de experiencias o conocimientos previos. Fue descubierto por Thomas Bayes (c. 1701-1761), y descubierto independientemente por Pierre-Simon Laplace (1749-1827).

Después de más de dos siglos de controversia, durante los cuales los métodos bayesianos han sido elogiados y ridiculizados, la regla de Bayes ha surgido recientemente como una herramienta poderosa con una amplia gama de aplicaciones, que incluyen: genética, lingüística, procesamiento de imágenes, imágenes cerebrales, cosmología , aprendizaje automático, epidemiología, psicología, ciencias forenses, reconocimiento de objetos humanos, evolución, percepción visual, ecología e incluso el trabajo del detective ficticio Sherlock Holmes. Históricamente, Alan Turing aplicó los métodos bayesianos al problema de decodificar el código de enigma alemán en la Segunda Guerra Mundial, pero esto permaneció en secreto hasta hace poco.

Figura 1.1: Los padres de la regla de Bayes. a) Thomas Bayes (c. 1701-1761). b) Pierre-Simon Laplace (1749-1827).

Para apreciar el funcionamiento interno de cualquiera de las aplicaciones anteriores, debemos entender por qué la regla de Bayes es útil y cómo constituye una base matemática para el razonamiento. Haremos esto usando algunos ejemplos accesibles, pero primero, brindaremos una garantía tranquilizadora.

Una garantía

Antes de embarcarnos en estos ejemplos, debemos tranquilizarnos con un hecho fundamental sobre la regla de Bayes, o el teorema de Bayes, como también se le llama: el teorema de Bayes no es una cuestión de conjeturas. Por definición, un teorema es una declaración matemática que se ha demostrado que es verdadera. Esto es tranquilizador porque, si tuviéramos que establecer las reglas para calcular con probabilidades, insistiríamos en que el resultado de tales cálculos debe coincidir con nuestra experiencia cotidiana del mundo físico, tan seguramente como insistiríamos en que 1 + 1 = 2 De hecho, si insistimos en que las probabilidades deben combinarse entre sí de acuerdo con ciertos principios de sentido común, entonces Cox (1946) demostró que esto conduce a un conjunto único de reglas, un conjunto que incluye la regla de Bayes, que también aparece como parte de la teoría de probabilidad de Kolmogorov (1933) (posiblemente, más rigurosa).

Ejemplo 1: Enfermedades de Poxy

La perspectiva del paciente

Suponga que un día se despierta con manchas en toda la cara, como en la Figura 1.2. El médico le dice que el 90% de las personas que tienen viruela tienen los mismos síntomas que usted. En otras palabras, la probabilidad de tener estos síntomas dado que tiene viruela es 0.9 (es decir, 90%). Como la viruela a menudo es fatal, estás naturalmente aterrorizado.

Figura 1.2: Thomas Bayes diagnosticando a un paciente.

Sin embargo, después de unos momentos de contemplación, decides que no quieres saber la probabilidad de que tengas estos síntomas (después de todo, ya sabes que los tienes). En cambio, lo que realmente quiere saber es la probabilidad de que tenga viruela.

Entonces le dice a su médico: “Sí, pero ¿cuál es la probabilidad de que tenga viruela dado que tengo estos síntomas?”. “Ah”, dice su médico, “una muy buena pregunta”. Después de garabatear algunas ecuaciones, su médico mira hacia arriba. “La probabilidad de que tenga viruela dado que tiene estos síntomas es 1.1%, o equivalentemente, 0.011”. Por supuesto, esta no es una buena noticia, pero suena mejor que 90%, y (lo más importante) es al menos útil información. Esto demuestra el marcado contraste entre la probabilidad de los síntomas de una enfermedad (que no quiere saber) y la probabilidad de la enfermedad de los síntomas (que sí quiere saber).

La regla de Bayes transforma las probabilidades que parecen útiles (pero a menudo no lo son) en probabilidades que son útiles. En el ejemplo anterior, el médico usó la regla de Bayes para transformar la probabilidad no informativa de sus síntomas dado que tiene viruela en la probabilidad informativa de que tiene viruela debido a sus síntomas.

Figura 1.3: Representación esquemática de la regla de Bayes. Los datos, en forma de síntomas, se utilizan para encontrar una probabilidad, que es la probabilidad de esos síntomas dado que el paciente tiene una enfermedad específica. La regla de Bayes combina esta probabilidad con conocimiento previo, y produce la probabilidad posterior de que el paciente tenga la enfermedad dado que tiene los síntomas observados.

La perspectiva del doctor

Ahora, supongamos que es un médico, confrontado con un paciente cubierto de manchas. Los síntomas del paciente son consistentes con la varicela, pero también son consistentes con otra enfermedad más peligrosa, la viruela. Entonces tienes un dilema. Usted sabe que el 80% de las personas con varicela tienen manchas, pero también el 90% de las personas con viruela tienen manchas. Entonces, la probabilidad (0.8) de los síntomas dado que el paciente tiene varicela es similar a la probabilidad (0.9) de los síntomas dado que el paciente tiene viruela (ver Figura 1.2).

Si usted fuera un médico con experiencia limitada, entonces podría pensar que tanto la varicela como la viruela son igualmente probables. Pero, como usted es un médico experto, sabe que la varicela es común, mientras que la viruela es rara. Este conocimiento, o información previa, se puede utilizar para decidir qué enfermedad probablemente tiene el paciente. Si tuviera que adivinar (y tiene que adivinar porque usted es el médico), entonces combinaría los posibles diagnósticos implicados por los síntomas con su conocimiento previo para llegar a una conclusión (es decir, que el paciente probablemente tiene varicela). Para que este ejemplo sea más tangible, analicémoslo nuevamente, esta vez con números.

La perspectiva del doctor (con números)

Podemos calcular las probabilidades asociadas con una enfermedad mediante el uso de estadísticas de salud pública. Supongamos que se pide a los médicos que informen el número de casos de viruela y varicela, y los síntomas observados. Utilizando los resultados de tales encuestas, es simple encontrar la proporción de pacientes diagnosticados con viruela y varicela, y los síntomas de cada paciente (por ejemplo, manchas). Con estos datos, podríamos encontrar que la probabilidad de que un paciente tenga manchas dado que tiene viruela es del 90% o 0.9. Podemos escribir esto de una manera cada vez más sucinta usando una notación especial

p (los síntomas son manchas | la enfermedad es viruela) = 0.9, (1.1)

donde la letra p representa probabilidad, y la barra vertical | significa “dado que”. Entonces, esta declaración abreviada debe leerse como

“La probabilidad de que los síntomas del paciente sean manchas dado que tiene viruela es del 90% o 0.9”. La barra vertical indica que la probabilidad de que el paciente tenga manchas depende de la presencia de viruela. Por lo tanto, se dice que la probabilidad de manchas depende de la enfermedad en consideración. Por esta razón, tales probabilidades se conocen como probabilidades condicionales. Podemos escribir esto aún más sucintamente como

p (manchas | viruela) = 0.9. (1.2)

Del mismo modo, podríamos encontrar que se observan manchas en el 80% de los pacientes que tienen varicela, que se escribe como

p (manchas | varicela) = 0.8. (1.3)

Las ecuaciones 1.2 y 1.3 formalizan por qué no debemos usar los síntomas solos para decidir qué enfermedad tiene el paciente. Estas ecuaciones no tienen en cuenta nuestra experiencia previa de la prevalencia relativa de la viruela y la varicela, y se basan solo en los síntomas observados. Como veremos más adelante, esto equivale a tomar una decisión basada en la suposición (en este caso, falsa) de que ambas enfermedades son igualmente prevalentes en la población y que, por lo tanto, son a priori igualmente probables.

Tenga en cuenta que la probabilidad condicional p (manchas | viruela) es la probabilidad de manchas dado que el paciente tiene viruela, pero se denomina probabilidad de viruela (que es confusa, pero estándar, nomenclatura). En este ejemplo, la enfermedad de la viruela tiene una probabilidad mayor que la varicela. De hecho, como solo hay dos enfermedades en consideración, esto significa que, de las dos alternativas posibles, la viruela tiene la máxima probabilidad. La enfermedad con el valor máximo de probabilidad se conoce como la estimación de máxima probabilidad (MLE) de la enfermedad que tiene el paciente. Por lo tanto, en este caso, el MLE de la enfermedad es la viruela.

Como se discutió anteriormente, sería difícil argumentar que debemos ignorar nuestro conocimiento o experiencia previa al decidir qué enfermedad tiene el paciente. Pero, ¿cómo debe combinarse exactamente esta experiencia previa con la evidencia actual (por ejemplo, síntomas)? Desde una perspectiva puramente intuitiva, parecería razonable ponderar la probabilidad de cada enfermedad de acuerdo con la experiencia previa de esa enfermedad, como en la Figura 1.3. Como la viruela es rara y, por lo tanto, es intrínsecamente improbable, podría ser razonable ponderar la probabilidad de la viruela en un número pequeño. Esto produciría una pequeña ‘probabilidad ponderada’, que sería una estimación más realista de la probabilidad de que el paciente tenga viruela. Por ejemplo, las estadísticas de salud pública pueden informarnos que la prevalencia de la viruela en la población general es 0.001, lo que significa que existe una probabilidad entre mil de que un individuo elegido al azar tenga viruela. Por lo tanto, la probabilidad de que un individuo elegido al azar tenga viruela es

p (viruela) = 0,001. (1.4)

Esto representa nuestro conocimiento previo sobre la enfermedad en la población antes de haber observado a nuestro paciente, y se conoce como probabilidad previa que cualquier individuo tiene viruela. Como nuestro paciente (antes de que hayamos observado sus síntomas) tiene la misma probabilidad que cualquier otro individuo de tener viruela, sabemos que la probabilidad previa de que tenga viruela es 0.001.

Si seguimos nuestra receta de sentido común, y simplemente ponderamos (es decir, multiplicamos) cada probabilidad por su probabilidad previa, entonces obtenemos cantidades de ‘probabilidad ponderada’ que tienen en cuenta la evidencia actual y nuestro conocimiento previo de cada enfermedad. En resumen, esta receta de sentido común conduce a la regla de Bayes. Aun así, la ecuación para la regla de Bayes dada a continuación no es obvia, y se debe tomar en confianza por ahora. En el caso de la viruela, la regla de Bayes es

p (viruela | manchas) = ​​p (manchas | viruela) p (viruela) / p (manchas). (1.5)

El término p (manchas) en el denominador de la ecuación 1.5 es la proporción de personas en la población general que tienen manchas y, por lo tanto, representa la probabilidad de que un individuo elegido al azar tenga manchas. Como se explicará en p15, este término a menudo no se tiene en cuenta, pero usamos un valor que hace que nuestras sumas salgan bien, y suponemos que p (puntos) = 0.081 (es decir, 81 de cada 1,000 individuos tienen puntos). Si ahora sustituimos números en esta ecuación, obtenemos

p (viruela | puntos) = 0.9 x 0.001 / 0.081 (1.6)

= 0.011, (1.7)

cuál es la probabilidad condicional de que el paciente tenga viruela dado que sus síntomas son manchas.

Crucialmente, la ‘probabilidad ponderada’ p (viruela | manchas) también es una probabilidad condicional, pero es la probabilidad de que la enfermedad de la viruela dados los síntomas observados, como se muestra en la Figura 1.4. Entonces, al hacer uso de la experiencia previa, hemos transformado la probabilidad condicional de los síntomas observados dada una enfermedad específica (la probabilidad, que se basa solo en la evidencia disponible) en una probabilidad condicional más útil: la probabilidad de que el paciente tenga enfermedad particular (viruela) dado que tiene síntomas particulares (manchas).

De hecho, acabamos de hacer uso de la regla de Bayes para convertir una probabilidad condicional, la probabilidad p (manchas | viruela) en una probabilidad condicional más útil, a la que hemos llamado una ‘probabilidad ponderada’, pero se conoce formalmente como la probabilidad posterior p (viruela | manchas).

Como se señaló anteriormente, tanto p (viruela | manchas) como p (manchas | viruela) son probabilidades condicionales, que tienen el mismo estado desde un punto de vista matemático. Sin embargo, para el gobierno de Bayes, los tratamos de manera muy diferente.

La probabilidad condicional p (manchas | viruela) se basa solo en los datos observados (síntomas) y, por lo tanto, es más fácil de obtener que la probabilidad condicional que realmente queremos, es decir, p (viruela | manchas), que también se basa en los datos observados , pero también en conocimiento previo.

Por razones históricas, estas dos probabilidades condicionales tienen nombres especiales. Como ya hemos visto, la probabilidad condicional p (manchas | viruela) es la probabilidad de que un paciente tenga manchas dado que tiene viruela, y se conoce como la probabilidad de viruela. La probabilidad condicional complementaria p (viruela | manchas) es la probabilidad posterior de que un paciente tenga viruela dado que tiene manchas.

En esencia, la regla de Bayes se utiliza para combinar la experiencia previa (en forma de probabilidad previa) con los datos observados (puntos) (en forma de probabilidad) para interpretar estos datos (en forma de probabilidad posterior). Este proceso se conoce como inferencia bayesiana .

El motor de inferencia perfecto

No se garantiza que la inferencia bayesiana proporcione la respuesta correcta. En cambio, proporciona la probabilidad de que cada una de una serie de respuestas alternativas sea verdadera, y éstas pueden usarse para encontrar la respuesta que probablemente sea verdadera. En otras palabras, proporciona una suposición informada. Si bien esto puede no parecer mucho, está lejos de adivinar al azar. De hecho, se puede demostrar que ningún otro procedimiento puede proporcionar una mejor suposición, por lo que la inferencia bayesiana puede interpretarse de manera justificada como la salida de una máquina de adivinanzas perfecta, un motor de inferencia perfecto. Este motor de inferencia perfecto es falible, pero es probablemente menos falible que cualquier otro.

Hacer un diagnostico

Para hacer un diagnóstico, necesitamos conocer la probabilidad posterior de ambas enfermedades bajo consideración. Una vez que tenemos ambas probabilidades posteriores, podemos compararlas para elegir la enfermedad más probable dados los síntomas observados.

Suponga que la prevalencia de la varicela en la población general es del 10% o 0.1. Esto representa nuestro conocimiento previo sobre la varicela antes de que hayamos observado algún síntoma, y ​​se escribe como

p (varicela) = 0.1, (1.8)

cual es la probabilidad previa de varicela. Como se hizo en la Ecuación 1.6 para la viruela, podemos ponderar la probabilidad de varicela con su probabilidad previa de obtener la probabilidad posterior de varicela

p (varicela | manchas) = ​​p (manchas | varicela) xp (varicela) / p (manchas)

= 0.8 x 0.1 / 0.081 = 0.988. (1.9)

Las dos probabilidades posteriores son por lo tanto

p (viruela | manchas) = ​​0.011 (1.10) p (varicela | manchas) = ​​0.988. (1.11)

Por lo tanto, la probabilidad posterior de que el paciente tenga viruela es 0.011, y la probabilidad posterior de que el paciente tenga varicela es 0.988. Aparte de un error de redondeo, estos suman uno.

Tenga en cuenta que no podemos estar seguros de que el paciente tenga varicela, pero podemos estar seguros de que existe un 98.8% de probabilidad de que la tenga. Esta no es solo nuestra mejor suposición, sino que es probablemente la mejor suposición que se puede obtener; Es efectivamente la salida de un motor de inferencia perfecto.

En resumen, si ignoramos todo el conocimiento previo sobre la prevalencia de cada enfermedad, entonces tenemos que usar las probabilidades para decidir qué enfermedad está presente. Las probabilidades que se muestran en las ecuaciones 1.2 y 1.3 nos llevarían a diagnosticar que el paciente probablemente tiene viruela. Sin embargo, se puede obtener una decisión más informada teniendo en cuenta la información previa sobre las enfermedades en consideración. Cuando tenemos en cuenta el conocimiento previo, las ecuaciones 1.10 y 1.11 indican que el paciente probablemente tiene varicela. De hecho, estas ecuaciones implican que el paciente tiene aproximadamente 89 (= 0.988 / 0.011) veces más probabilidades de tener varicela que la viruela. Como veremos más adelante, esta razón de probabilidades posteriores juega un papel clave en el análisis estadístico bayesiano.

Tener en cuenta la experiencia previa produce el diagnóstico más probable, dada la evidencia (manchas). Como esta es la decisión asociada con el valor máximo de la probabilidad posterior, se conoce como la estimación máxima a posteriori o MAP de la enfermedad.

La ecuación utilizada para realizar la inferencia bayesiana se llama regla de Bayes, y en el contexto del diagnóstico es

p (enfermedad | síntomas) = ​​p (síntomas | enfermedad) p (enfermedad) / p (síntomas) (1.12)

que es más fácil de recordar como

posterior = probabilidad x probabilidad anterior / marginal (1.13)

La probabilidad marginal también se conoce como evidencia, y tendremos más que decir al respecto en breve.

La regla de Bayes: hipótesis y datos

Si consideramos que una enfermedad putativa representa una hipótesis específica, y los síntomas son algunos datos observados, entonces la regla de Bayes se convierte en

p (hipótesis | datos) = p (datos | hipótesis) xp (hipótesis) / p (datos)

donde la palabra “hipótesis” debe interpretarse como “hipótesis es verdadera”. Escrito en esta forma, el contraste entre la probabilidad y la probabilidad posterior es más evidente. Específicamente, la probabilidad de que la hipótesis propuesta sea cierta dados algunos datos que realmente se observaron es la probabilidad posterior

p (hipótesis | datos), (1.14)

mientras que la probabilidad de observar los datos dado que la hipótesis es verdadera es la probabilidad

p (datos | hipótesis). (1.15)

Cráteres de luz

Cuando miras la figura 1.11, ¿ves una colina o un cráter? Ahora voltee la página al revés. Cuando invierte la página, el contenido de la imagen no cambia, pero lo que ve sí cambia (de una colina a un cráter). Esta ilusión casi seguramente depende del hecho de que su sistema visual asume que la escena está iluminada desde arriba. Esto, a su vez, te obliga a interpretar la Figura 1.11 como una colina, y la versión invertida como un cráter (que es, en realidad).

Figura 1.11: ¿Es esto una colina o un cráter? Vea la versión al revés, a continuación. (Cráter Barringer, con permiso, United States Geological Survey).

En términos de la regla de Bayes, los datos de la imagen son igualmente consistentes con una colina y un cráter, donde cada interpretación corresponde a un valor diferente de probabilidad máxima. Por lo tanto, en ausencia de suposiciones previas de su parte, debería ver la imagen como una colina o un cráter con la misma probabilidad. Sin embargo, la suposición de que la luz proviene de arriba corresponde a una previa, y esto efectivamente lo obliga a interpretar la imagen como una colina o un cráter, dependiendo de si la imagen está invertida o no. Tenga en cuenta que no hay incertidumbre ni ruido; la imagen es perfectamente clara, pero también perfectamente ambigua sin la adición de un previo sobre la fuente de luz. Este ejemplo demuestra que la inferencia bayesiana es útil incluso cuando no hay ruido en los datos observados, y que incluso el acto aparentemente simple de ver requiere el uso de información previa.

Ver no es una aprehensión directa de la realidad, como a menudo nos gusta fingir. Todo lo contrario: ver es inferencia de información incompleta …
ET Jaynes, 2003.

Nota: traduje el texto de un archivo pdf, por lo que es posible que se hayan introducido algunos errores. Si detecta algún error, envíeme un correo electrónico a: [correo electrónico protegido] .

con gracias,

James V Stone.

Digamos que el VIH es una preocupación creciente en su área, y las estadísticas dicen que el 1% de las personas en su grupo social son VIH + ve. Decide hacerse una prueba con una precisión del 99%. Esto significa que, si eres VIH + ve, el 99% del tiempo, se mostrará + ve, y si eres VIH-ve, el 99% del tiempo, se mostrará negativo.

La prueba salió + ve. ¿Qué posibilidades hay de que estés infectado con el VIH?

No realmente. Adivinar.

99%?

o 90%

o 50%

o 10%

o 1%?

Es el cincuenta por ciento. Sí, no es el 99%. Ahora, 50%, en oposición a una probabilidad de 1% antes de la prueba, no es nada de lo que burlarse. Pero es solo el 50%. La razón es la regla de Bayes, que explicaré a continuación. Para una enfermedad que ocurre en 1 de cada 100 personas, una prueba precisa del 99% no es una gran prueba de diagnóstico. Es una buena prueba de detección.

Esta es también la razón por la cual un buen médico debe conocer las estadísticas básicas. ¡Para que puedan decirle al paciente que aún no hay necesidad de entrar en pánico!

Digamos que 10,000 personas en su grupo social deciden hacerse la prueba del VIH. Ahora, 100 de ellos tienen el virus (1%) y 9900 no. De los 100 pacientes, en promedio, 99 probarán + ve (verdadero + ve), y 1 probará erróneamente -ve (falso -ve).

De las 9900 personas restantes que no portan el virus, 99 probarán erróneamente + ve (falso + ve) (1% de 9900), y el 9801 restante probará -ve (verdadero -ve) (99% de 9900) .

¡Mire los números en negrita arriba – de las 10,000 personas, 99 probaron verdadero + ve, y 99 probaron falso + ve!

Entonces, si probaste + ve, es igualmente probable que eras un verdadero + ve o falso + ve. Por lo tanto, solo hay un 50% de posibilidades de que en realidad sea VIH + ve.

Esto es lo que dice la regla de Bayes: que cuánto debe preocuparse / celebrar depende no solo de la precisión de la prueba, sino también de cuán común es la afección subyacente.

Esta es también la razón por la cual, además de los médicos, las personas como abogados, jueces, periodistas, deben conocer la probabilidad básica. Gente como Kahneman y Tversky muestran que nuestra intuición a menudo es bastante mala en eso. ¡Pero la probabilidad es asombrosa!

La regla de Bayes es P (A | B) = P (B | A) * P (A) / P (B).

Una forma equivalente, pero más intuitiva de escribir esa declaración es:
P (A y B | B) = P (A y B) / P (B)

Esto es lo mismo porque P (A y B) = P (B | A) * P (A) y P (A | B) = P (A y B | B) (porque P (B | B) = 1)

Esto me parece más intuitivo, porque el lado izquierdo pregunta “¿qué tan probable es que AMBAS de estas cosas sean ciertas dado que B es verdad?” y el lado derecho compara la probabilidad de que ambas sean ciertas con la probabilidad de que B sea cierta. Dado que ambos son verdaderos obviamente requiere que B sea verdadero, no se necesitan otros términos.

Un problema clásico de la regla de Bayes que a menudo se pregunta en entrevistas de trabajo para graduados universitarios recientes es:

Tengo 2 monedas en mi bolsillo. Una de ellas es una moneda justa, y la otra tiene caras en ambos lados. Supongamos que agarro uno de ellos al azar y lo volteo dos veces, y sale cara las dos veces. Dada esta información, ¿qué tan probable es que haya elegido la moneda de dos cabezas?

Esta es una aplicación bastante simple de la regla de Bayes, y si conecta todas las probabilidades relevantes (A = moneda de truco, B = lanzar 2 caras), obtendrá un 80% *.

Alternativamente, podría preguntar “¿qué posibilidades hay de que yo tome la moneda del truco y luego tire 2 cabezas?” Había un 50% de posibilidades de que eso sucediera. Luego preguntas, “¿qué posibilidades tenía de voltear 2 cabezas?” Había una probabilidad de 5/8 de que eso sucediera. Por lo tanto, hay una (1/2) / (5/8) = 4/5 de posibilidades de que elija la moneda del truco.

Puede visualizarlo de esta manera (pretenda que las 8 cajas son del mismo tamaño)

Sabemos que las 8 cajas son igualmente probables, y debido a que volteamos 2 cabezas, sabemos que estamos en una caja verde, por lo que hay una probabilidad de 4/5 de que estemos en una caja de “monedas trucadas”.

* P (truco | 2 cabezas) = ​​P (2 cabezas | truco) * P (truco) / P (2 cabezas)
= 1 * 1/2 / (1/2 * 1 + 1/2 * 1/4)
= .5 / (5/8)
= 4/5 = 80%

Trataré de explicar a través de los ejemplos a continuación.

Situación 1: Encontrar oro
Considere una situación en la que sabe con un 90% de probabilidad de que se encuentre 1 milla cuadrada de oro en un área de 100 millas cuadradas en California. Realiza excavaciones aleatorias que cubren 1 milla cuadrada en cada intento. Ahora déjenos decir que está en el intento número 50 y aún no ha encontrado oro. ¿Cuál es la probabilidad de encontrar oro en el intento 51?

Tenga en cuenta que su probabilidad de encontrar oro aumenta con cada intento dado que sus intentos pasados ​​han sido un fracaso. Esta es la clave de la regla de Bayes. Con cada intento estás cubriendo terreno y tus posibilidades de alcanzar el oro están mejorando siempre y cuando estés seguro de que los intentos anteriores no encontraron oro.

La clave aquí es que con los intentos pasados ​​tienes algún conocimiento adicional que te hace cambiar tus nuevos intentos. (es decir, en el caso de la excavación de oro, no va a volver a cavar los mismos agujeros porque sabe que el oro no está en ellos)

Entonces cuando Michael Jordon dice lo siguiente:

“He fallado más de 9000 tiros en mi carrera. He perdido casi 300 juegos. 26 veces, me han confiado para tomar el tiro ganador y he fallado. He fallado una y otra vez en mi carrera”. vida y es por eso que tengo éxito
Más información en Michael Jordan Citas en BrainyQuote.com ”

Lo que está en juego aquí es que todas esas fallas y fallas lo llevaron a mejorar su conocimiento, visión y habilidad en el juego, lo que hace que sus probabilidades de anotar sean aún mejores.

Me encantan las reglas de Bayes, ya que explica muchas heurísticas sobre el trabajo duro y la coherencia en la vida.

Situación 2: ganar una lotería

Considere una situación en la que tiene $ 52 y juega una lotería semanal para el powerball. Digamos que estás en la semana 14. ¿Es su probabilidad de ganar la semana 15 mejor que la semana 14? No, no es.

En el caso de la lotería, no se acumulan conocimientos, percepciones o habilidades en ningún número de eventos pasados. Cada sorteo es un nuevo sorteo desde cero y, por lo tanto, las reglas de Bayes no ayudan aquí.

Si el sistema de lotería no tuviera reemplazo de números, la lotería hubiera valido la pena.

Consejo de vida
Mi consejo para todos los que conozco es que ingrese los campos (o haga sus apuestas a largo plazo) donde la regla bayes sea aplicable tanto como sea posible. Ganarás eventualmente.

El propio Thomas Bayes dio una explicación intuitiva perfecta para esta propia fórmula. Sigue leyendo.

En realidad, la teoría de Bayes detrás de esta fórmula no fue realmente un retroceso cuando publicó ese artículo. Fue Richard Price , quien años después investigó los documentos de Baye y luego presentó al mundo lo que hoy conocemos como el Teorema de Bayes.

Bayes originalmente consideró un experimento mental . Estaba sentado de espaldas a una mesa cuadrada perfectamente plana y perfecta. Luego le pedía a un asistente que tirara una pelota sobre la mesa. Ahora, esta pelota obviamente podría aterrizar y terminar en cualquier lugar de la mesa y ¿quería averiguar dónde estaba? Entonces, lo que le pidió a su asistente que hiciera fue lanzar otra pelota y decirle si aterrizó a la izquierda, a la derecha, al frente o detrás de la primera pelota. Anotaría esto y luego pediría que se lanzaran más y más bolas sobre la mesa. Se dio cuenta de que, a través de este método, podía seguir actualizando su idea de dónde estaba su primera pelota. Pero, por supuesto, nunca podría estar completamente seguro, pero con cada nueva evidencia obtendría más y más precisión.

Y así fue como Bayes vio el mundo. No era que él pensara que el mundo no estaba determinado, que la realidad no existía, pero era eso, no podíamos saberlo perfectamente y todo lo que podíamos hacer era actualizar nuestra comprensión a medida que había más evidencia disponible. .

Cuando Price introdujo el teorema de Bayes, hizo una analogía con un hombre que salía de una cueva. Puede que el hombre de las cavernas hubiera estado en esa cueva toda su vida y tal vez vio salir el sol por primera vez y probablemente pensó para sí mismo si esto es un quark o si es un quark o si el Sol hace esto cada día. ¡Como el sol lo hacía todos los días, podía estar un poco más seguro de que así funcionaba el mundo!

De hecho, el teorema de Bayes no pretendía ser una fórmula para usarse una vez. Estaba destinado a usarse varias veces, cada vez obteniendo más evidencia y actualizando su probabilidad de que algo sea cierto.

Espero que los dos ejemplos anteriores, especialmente el de Price, le ayuden a obtener una explicación intuitiva del teorema de Bayes.

Fuente : The Bayesian Trap (mira este video para una visión más divertida)

Esta podría no ser la forma más sencilla de explicar este teorema. Pero esto se incluye en la parte de la aplicación y, por lo tanto, es fácil de entender.

1. Supongamos que hay tres cajas con dos compartimentos en cada caja.
2. En la primera caja, coloca lodo en el primer y segundo compartimento.
3. En la segunda caja, colocas una moneda de oro en una y el barro en otro compartimento.
4. En la tercera caja, colocas una moneda de oro en ambos compartimentos.

Ahora le preguntas a un chico que primero elija una caja y dibuje un compartimento. Como el total de monedas de oro = 3 y el número de compartimentos es 6, la probabilidad de obtener oro es 3/6.

Él toma una caja y abre el compartimento. Y obtiene una moneda de oro. Ahora empiezas a pensar cuál es la probabilidad de que el otro compartimento también tenga una moneda de oro.
La suposición básica sería que, dado que el primer compartimento tiene una moneda de oro, se elimina la caja con solo lodo y, por lo tanto, la probabilidad es de 1/2 o 50%.

Pero el teorema de Bayes demuestra que está equivocado al demostrar que la probabilidad de obtener otra moneda de oro es 66.66% o 2/3.

P (moneda de oro / dado ya una moneda de oro) = P (caja de selección con dos monedas de oro) / P (moneda de oro simple) = (1/3) / (2/6) = 2/3 !!!!

Esto se debe a que descuidamos que la primera moneda de oro cambió el juego por completo.

PD: no tengo 3 monedas de oro, ni 3 cajas con dos compartimentos.

La regla de Bayes es P (A | B) = P (B | A) * P (A) / P (B).

El punto realmente clave es que, por sí mismo, P (A | B) no le dice nada sobre P (B | A). p.ej

Si A = “es un hombre adulto blanco americano” y B = “es un senador de los Estados Unidos”, entonces P (A | B) es bastante alto. Creo que 90 senadores son hombres blancos. Pero P (B | A) es muy bajo, solo 90 en aproximadamente 100,000,000.

La diferencia es el múltiplo de P (A) / P (B) o, si toda la población es, digamos, todos los estadounidenses de cualquier edad, entonces P (A) = aproximadamente .3 y P (B) es 100 / 300,000,000

Con más información, puede hacer mejores predicciones.

Por ejemplo: si no sé nada de ti, no tengo información sobre tu género. Si sé que usted es un programador de computadoras, puedo suponer que es un hombre con muchas posibilidades de ser correcto.

Su compañero de cuarto, que es un poco flojo, está tratando de convencerlo de que el dinero no puede comprar la felicidad, citando un estudio de Harvard que muestra que solo el 10% de las personas felices son ricas.

Después de pensarlo, se te ocurre que esta estadística no es muy convincente. Lo que realmente quieres saber es qué porcentaje de personas ricas son felices . Esto daría una mejor idea de si hacerse rico podría hacerte feliz.

El teorema de Bayes le dice cómo calcular esta otra estadística inversa utilizando dos datos adicionales:

  1. El porcentaje de personas en general que son felices
  2. El porcentaje de personas en general que son ricas

La idea clave del teorema de Bayes es invertir la estadística utilizando las tasas generales. Dice que la fracción de personas ricas que son felices es la fracción de personas felices que son ricas, multiplicada por la fracción general que son felices, dividida por la fracción general que son ricas.

Así que si

  1. 40% de las personas son felices; y
  2. 5% de las personas son ricas

Y si el estudio de Harvard es correcto, entonces la fracción de personas ricas que son felices es:
[matemáticas] 10 \% \ veces \ frac {40 \%} {5 \%} = 80 \% [/ matemáticas]
Entonces, una mayoría bastante fuerte de la gente rica es feliz.

No es difícil ver por qué esta aritmética funciona si solo conectamos algunos números específicos. Digamos que la población de todo el mundo es de 1000, solo para mantenerlo fácil. Luego, el Hecho 1 nos dice que hay 400 personas felices, y el estudio de Harvard nos dice que 40 de estas personas son ricas. Entonces hay 40 personas que son ricas y felices. Según el hecho 2, hay 50 personas ricas en total, por lo que la fracción de ellos que están contentos es 40/50, o el 80%.

Aquí hay una variación del argumento de Scott Brickner, presentado gráficamente (destinado al consumo de personas en la calle, es decir, no académicos):

Tendré curiosidad por ver si alguien obtiene algo de esta representación altamente no verbal. . . . suponiendo que no se ponga en el cubo de bits de Quora (debido a su ‘falta de verborrea).

En aras de la simplicidad, solo se proporciona una sola “tasa de precisión de prueba” (98%) arriba. En realidad, la “tasa de precisión de la prueba” podría variar en función de una enfermedad realmente enferma o realmente saludable o de cualquier otra cantidad de variables (es decir, edad del paciente, raza, presencia o ausencia de otras afecciones o tomar otros medicamentos, etc., etc. ,).

Si bien el hermoso y simple ejemplo en la última respuesta explica la Regla de Bayes aplicada a los conceptos cotidianos, solo quería agregar que el tipo de pensamiento ha quedado atrás de ese ejemplo ‘intuitivo’.

Los axiomas probabilísticos básicos que son fundamentales en la formulación de la Regla de Bayes son,

1. Si A es un evento con P (A) es la probabilidad, entonces P (A) se encuentra entre el intervalo unitario de (0-1). Entonces, P (A) = 1 significa que el evento A es una certeza, y P (A) = (0) significa que no es probable que suceda.

2. Si A y B son dos eventos mutuamente excluyentes, entonces P (A) excluye P (B) y P (AUB)

es igual a P (A) + P (B). Esto se puede extender a más de 2 eventos.

Y para eventos independientes, P (AB) = P (A) .P (B)

Pero,

3. Si A y B son dos eventos independientes, de modo que P (A / B) es la probabilidad condicional de que A suceda dado el evento B, entonces P (AB) = P (A / B). P (B) ,

y si B es condicional a A, entonces P (AB) = P (B / A) .P (A). Por lo tanto, a partir de estas dos igualdades, se puede derivar la probabilidad condicional inversa de B dado A, cuando eso no está ahí para empezar.

P (A / B) P (B) = P (B / A) P (A)

Y así, P (B / A) = [P (A / B) P (B)] / P (A)

Donde, P (A) ahora representa la probabilidad total de que A suceda en todas las condiciones de B.

A partir de estos axiomas, Thomas Bayes (1764) y luego LaPlace refinaron las probabilidades extendidas a las distribuciones y definieron la densidad de probabilidad de una variable X dada θ, como f (X / θ) con su concepto paramétrico de θ. Y, una densidad de probabilidad “anterior”, g (θ) con la creencia de que hay una variación en θ, y que la función g (θ) expresa esa variación con su rango de variación apropiado.

La aplicación de la regla de Bayes conduce a la probabilidad condicional inversa, por lo tanto, la probabilidad condicional resultante de θ, que se denominó probabilidad ‘posterior’, g ‘(θ / X).

Debemos recordar que en tal caso tenemos que lidiar con los rangos completos de variaciones de ambos, la variable X y el parámetro θ.

oh hombre, no voy a tratar de abordar esta pregunta con estadísticas.
¿Cuál es la probabilidad de que la riqueza monetaria pueda traerte felicidad?
¿Es así como está abordando esta pregunta?
a riesgo de sonar sin refinar, ofrezco que cuando se toman las encuestas, la “felicidad” de un individuo puede ser el resultado directo de eventos que ocurrieron horas, días antes de la entrevista. “La felicidad es algo que encontrarás en el camino” Creo que es John Lennon. Pero en realidad es un logro financiero, incluso la estabilidad es una buena razón para la felicidad, pero una vez que se adquiere (si alguna vez queda), criterios más personales y complicados contribuyen a la felicidad de una persona. Esto incluye alegría o desesperación situacional experimentada de inmediato, que en mi opinión puede provenir de otros aspectos de la “vida” que no sean el dinero.
Volviendo a la pregunta, ¿alguna vez has escuchado lo siguiente?
este dicho:
“A veces prefiero tener suerte que bien”.
o “haces tu propia suerte”.
es más probable que caigas en el lugar correcto en el momento correcto, mientras más oportunidades crees para ti mismo, instantáneamente aumentan las probabilidades.
obvio, ponte en el lugar correcto más a menudo y sucederá con más frecuencia.
Dime que piensas.

Lee esto:-

La respuesta de Mark Eichenlaub a ¿Qué significa cuando una chica te sonríe cada vez que te ve?

Es sencillo. Solo usa el teorema de Bayes.

La probabilidad de que le gustes es

es lo que quieres saber: la probabilidad de que le gustes dado el hecho de que te sonríe.

es la probabilidad de que sonría dado que ve a alguien que le gusta.

es la probabilidad de que le guste una persona al azar.

es la probabilidad de que ella le sonría a una persona al azar.

Por ejemplo, supongamos que ella solo sonríe a todos. Entonces la intuición dice que el hecho de que ella te sonríe no significa nada de una manera u otra. En efecto, y , y tenemos

lo que significa que saber que ella te sonríe no cambia nada.

En el otro extremo, supongamos que sonríe a todos los que le gustan y solo a los que le gustan. Entonces y . Entonces nosotros tenemos

y ella seguramente te gustará.

En el caso intermedio, lo que debe hacer es encontrar la proporción de probabilidades de sonreír a las personas que le gusta sonreír en general, multiplicar por el porcentaje de personas que le gustan, y ahí está su respuesta.

Cuanto más sonríe en general, menor es la posibilidad de que le gustes. Cuanto más sonríe a la gente que le gusta, mayor es la oportunidad. Y, por supuesto, cuanta más gente le guste, mayores serán sus posibilidades.

Por supuesto, cómo determinar realmente estos valores es un misterio que nunca he resuelto.