Tienes tres botones. Cada botón multiplica el dinero apostado en el botón por 2, 3 y 5 veces. ¿Cuánto debería apostar en cada botón para ganar?

(¿Puede el que publica esta pregunta decirme cuál es la probabilidad de que la máquina elija el botón x2, x3 y x5? Usted mencionó que la probabilidad de elegir el botón x2 es mayor que el otro, pero no dio el valor exacto de ellos. Es difícil responder a su pregunta sin ese detalle.)

[ACTUALIZADO]

(Perdón por capturar texto no relevante)

Nuevamente, suponga que las probabilidades de que la máquina elija el botón x2,3,5 son las mismas.

Después de cambiar su pregunta, al encontrar el valor esperado, se muestra que poner toda su apuesta en el botón x5 puede maximizar su valor esperado.

Entonces, ¿qué pasa si la probabilidad de elegir el botón x2 es mayor? Suponga que P (selección del botón x2)> P (selección del botón x3) = P (selección del botón x5).

(Perdón por lastimarte el cuello)

Llegamos a una ecuación. Como no sé el valor de x (Probabilidad de que el botón x2 sea el botón correcto), calculo aproximadamente qué combinación es la mejor por Excel:

Como puede ver, para x <0.5, apostar todo su dinero en el botón x2 es el mejor. Para x = 0.5, apueste que todo su dinero en x2 o x5 es el mismo. Para x> 0.5, apuesta todo tu dinero en el botón x2.

[ORIGINAL]

Según mis malas habilidades de lectura en inglés, la pregunta significa que hay 3 botones para elegir en una máquina aleatoria. Inserta algo de dinero en esa máquina y la máquina elige un botón al azar. Si esa máquina elige el mismo botón que usted elige, obtendrá x2 / 3/5 el dinero que insertó. O bien, pierde el dinero que insertó 🙁

Los pasos que se muestran arriba de la línea de separación muestran que si la máquina tiene la misma posibilidad de elegir los 3 botones, presionar el botón x5 es lo mejor .

Sin embargo, mencionó en un comentario que la posibilidad de que la máquina seleccione el botón x2 es mayor que x3 y x5. Supongo que P (selección del botón x2)> P (selección del botón x3) = P (selección del botón x5).

Entonces, si la posibilidad de que el botón x2 sea seleccionado es mayor al 50%. entonces el jugador debe elegir el botón x2 para maximizar el valor esperado.

Hay una suposición crucial que hacer sobre las probabilidades de que cada botón sea elegido.

Llamemos a los buttuns [matemática] A [/ matemática], [matemática] B [/ matemática] y [matemática] C [/ matemática] y las probabilidades [matemática] p (A) [/ matemática], [matemática] p (B) [/ matemáticas] y [matemáticas] p (C) [/ matemáticas]. En el caso de que los tres botones sean igualmente probables, [matemática] p (A) = p (B) = p (C) = 1/3 [/ matemática] se mantiene, pero supongamos que la situación es un poco más general , de lo contrario, la solución es trivial: coloque todo el dinero en el botón de retorno más alto.

Ahora, suponiendo que apueste una cierta cantidad de dinero en cada botón, es decir, [matemática] m (A) [/ matemática] en el botón [matemática] A [/ matemática], [matemática] m (B) [/ matemática] en botón [matemáticas] B [/ matemáticas] y [matemáticas] m (C) [/ matemáticas] en el botón [matemáticas] C [/ matemáticas], entonces gana dos veces su dinero cuando se ilumina el botón A. Dado que esto sucede con la probabilidad p (A), debe esperar una ganancia de totel de [matemática] 2m (A) p (A) [/ matemática]. Pero también pierde todo el dinero que apuesta en el botón A cuando A no se enciende, y esto sucede con probabilidad (1-p (A)). Entonces su pérdida esperada es [matemática] m (A) (1-p (A)) [/ matemática]. Puede hacer eso para cada botón y encontrar el retorno esperado (las ganancias son positivas, las pérdidas negativas) es

[matemáticas] \ langle m \ rangle = 2 m (A) p (A) – m (A) (1-p (A)) + 3 m (B) p (B) – m (B) (1-p (B)) + 5 m (C) p (C) – m (C) (1-p (C)) [/ matemáticas]

o combinando todos los términos para hacerlo un poco más corto

[matemáticas] \ langle m \ rangle = m (A) (3 p (A) -1) + m (B) (4p (B) -1) + m (C) (6p (C) -1) [/ matemáticas]

Desea maximizar el rendimiento esperado [matemáticas] \ langle m \ rangle [/ matemáticas], dado que apuesta una cantidad total de dinero [matemáticas] M = m (A) + m (B) + m (C) [/ matemáticas]. También debe limitar las cantidades a valores positivos, ya que tradicionalmente no puede apostar deuda. Entonces, las siguientes restricciones son [matemáticas] m (A)> 0, m (B)> 0, m (C)> 0 [/ matemáticas].

De aquí en adelante, es un simple problema de optimización. Puede reemplazar [matemática] m (A) [/ matemática] por [matemática] Mm (B) -m (C) [/ matemática], reduciendo el número de variables a dos:

[matemáticas] \ langle m \ rangle = M (3 p (A) -1) + m (B) (4p (B) -3p (A)) + m (C) (6p (C) -3p (A) )[/matemáticas]

Ambos, [matemática] m (B) [/ matemática] y [matemática] M (C) [/ matemática] pueden tomar valores entre [matemática] 0 [/ matemática] y [matemática] M [/ matemática], pero su suma nunca puede exceder [matemáticas] M [/ matemáticas], ya que esta es la cantidad total de dinero. Como la ecuación anterior describe un plano, el valor máximo debe tomarse en los bordes del intervalo, por lo que

I) [matemáticas] m (B) = 0, 0 \ leq m (C) \ leq M [/ matemáticas], sin dinero en B

II) [matemáticas] 0 \ leq m (B) \ leq M, m (C) = 0 [/ matemáticas], sin dinero en C,

III) [matemáticas] m (B) = M, m (C) = 0 [/ matemáticas], ya que todo el dinero está ahora en el botón B, un caso especial de II

IV) [matemáticas] m (B) = 0, m (C) = M [/ matemáticas], ya que todo el dinero está ahora en el botón C, pero este es solo el caso I

Probemos el caso I y II.

I) [matemáticas] \ langle m \ rangle = M (3 p (A) -1) + 3 m (C) (2p (C) -p (A)) [/ matemáticas]

Si [matemática] 2 p (C)> p (A) [/ matemática], esto toma su máximo en [matemática] m (C) = M [/ matemática] (todo el dinero en C) y en este caso el valor es

a) [matemáticas] 2 p (C)> p (A): \ langle m \ rangle = M (6 p (C) -1) [/ matemáticas]

Si [matemática] 2 p (C) \ leq p (A) [/ matemática] el máximo está en [matemática] m (C) = 0 [/ matemática] (todo el dinero en A)

b) [matemáticas] 2 p (C) \ leq p (A): \ langle m \ rangle = M (3 p (A) -1) [/ matemáticas]

II) [matemáticas] \ langle m \ rangle = M (4p (B) -1) [/ matemáticas]

Hecho. Ese fue un caso fácil.

Ahora tenemos tres escenarios de apuestas diferentes (Ia, Ib, II), dependiendo de cómo sean las probabilidades para cada botón. Probémoslos con la suposición [matemáticas] p (A) = p (B) = p (C) = 1/3. [/ Matemáticas]

El escenario Ib no es válido, porque la condición [matemática] 2p (C) \ leq p (A) [/ matemática] no coincide. El escenario II produce [matemáticas] M / 3 [/ matemáticas], por lo que no está mal. Esperamos una pequeña ganancia a largo plazo. El escenario Ia es el ganador: tenemos un rendimiento de [matemáticas] M [/ matemáticas], es decir, ganamos la cantidad de dinero que apostamos.

Esta podría haber sido una forma muy complicada e innecesariamente compleja de llegar a una respuesta que el sentido común le dio a primera vista. Pero ahora está en condiciones de responder una pregunta algo diferente: suponga que ejecutó ese juego usted mismo, ¿cómo ajusta las probabilidades para cada botón, de modo que sea un juego justo, es decir, [matemáticas] \ langle m \ rangle = 0 [/matemáticas]

A menos que defina qué probabilidades tienen los 3 botones, la respuesta no tiene sentido. Deje que [math] x_i [/ ​​math] sea su apuesta en el botón. Deje que [math] p_i [/ ​​math] sea la probabilidad de que el siguiente botón sea el correcto. Ahora su ganancia promedio es:

[matemáticas] R = 2p_1x_1 + 3p_2x_3 + 5p_3x_3- (x_1 + x_2 + x_3) [/ matemáticas]

Veamos cuánto podemos ganar sin saber nada:

Suponiendo que gastamos una suma fija de dinero para todas las apuestas (que sea 1). Obtenemos:

[matemáticas] R = 2p_1x_1 + 3p_2x_3 + 5p_3x_3–1 \ to max, x_1 + x_2 + x_3 = 1, x_1, x_2, x_3 \ ge 0 [/ math]

Ahora tenemos un típico juego antagónico. Si nuestra combinación de apuestas tiene ganancias iguales contra cualquier estrategia pura, entonces tendrá la misma victoria contra cualquier estrategia. ¿Por qué deberíamos seleccionar tal estrategia? Porque si hacemos una estrategia con victorias desiguales, el oponente puede seleccionar su estrategia pura para nuestra peor victoria posible. Ahora encontremos nuestra estrategia:

[matemáticas] 2x_1 = 3x_2 = 5x_3 = \ lambda \ Leftrightarrow x_1 = \ frac {\ lambda} {2}, x_2 = \ frac {\ lambda} {3}, x_3 = \ frac {\ lambda} {5}. 1 = \ frac {\ lambda} {2} + \ frac {\ lambda} {3} + \ frac {\ lambda} {5} = \ lambda \ frac {15 + 10 + 6} {30} \ Rightarrow \ lambda = \ frac {30} {31} \ Rightarrow x_1 = \ frac {15} {31}, x_2 = \ frac {10} {31}, x_3 = \ frac {6} {31} [/ math]. Lamentablemente, su “ganancia” promedio garantizada es [matemática] – \ frac {1} {31} [/ matemática]. Por lo tanto, no existe una estrategia que le brinde una ganancia garantizada sin saber las probabilidades de los botones.

Si [math] v_1, v_2, v_3 [/ math] son ​​multiplicadores de botones, entonces la condición de una ganancia positiva garantizada es [math] \ frac {1} {v_1} + \ frac {1} {v_2} + \ frac {1 } {v_3} \ lt 1 [/ math]

Nuestra ganancia promedio en este caso es [matemática] \ frac {1} {\ frac {1} {v_1} + \ frac {1} {v_2} + \ frac {1} {v_3}} – 1 [/ matemática]

Lamentablemente, en nuestro caso [matemáticas] \ frac {1} {v_1} + \ frac {1} {v_2} + \ frac {1} {v_3} = \ frac {1} {2} + \ frac {1} {3 } + \ frac {1} {5} = \ frac {31} {30} \ gt 1 [/ math]

Pero si conoce las probabilidades, la situación cambia. Por ejemplo, si sabe que las probabilidades son iguales, simplemente puede apostar por el tercer botón y obtener una ganancia promedio: [matemáticas] \ frac {2} {3} [/ matemáticas].

En general, si conoce las probabilidades, apueste por el botón con la mejor ganancia promedio: [math] v_ip_i-1 [/ math].

Dado que hay tres botones, cada botón tiene una probabilidad de uno en tres de ganar. Si apuesta por el botón que multiplica su apuesta por dos, debe duplicar su dinero una de cada tres veces. Pierdes a la larga. Si apuesta por el botón que multiplica su apuesta por tres, debe triplicar su apuesta cada tres veces. Deberías alcanzar el equilibrio a la larga. Entonces, si apuesta su dinero en el botón que se multiplica por cinco, entonces debe quintuplicar su dinero cada tres veces. ganas a la larga. Este es el principio básico de las probabilidades del pozo