En general, la teoría de juegos no se usa a menudo en robótica, al menos no que yo sepa. Pero un puñado de personas lo han investigado. También es cómo me adentré en la robótica, donde pasé los últimos 15 años.
Proyecto DARPA MICA (circa 2001–2004)
Hasta donde sé, uno de los primeros usos de Game Theory aplicado a la robótica surgió de un esfuerzo conjunto entre la Universidad Estatal de Ohio y el equipo de la Universidad de Pittsburgh que trabaja en el proyecto DARPA MICA (Control de Iniciativa Mixta de Equipos de Automa). circa 2001-2003. El esfuerzo fue dirigido por el Dr. José Cruz y mi asesor, el Dr. Marwan Simaan.
El control óptimo ocupa un lugar único en Ingeniería Eléctrica. Requiere una sólida formación matemática teórica, especialmente con respecto a las técnicas de optimización numérica y analítica. Pero gracias al trabajo de Riccati, Kalman, et al … puede ser difícil encontrar (y financiar) nuevas aplicaciones interesantes en el control tradicional. Los investigadores a menudo miran fuera de la caja para encontrar oportunidades.
- Cómo estimar el costo de un transformador de potencia
- ¿Cuál es el voltaje de línea de transmisión más alto en India?
- ¿Lenovo T430 -2344BMU es compatible con RAM de bajo voltaje (PC3L y DD3L)?
- En puertas lógicas, ¿se considera el valor de 3,5 V de voltaje alto o bajo?
- ¿Debe un ingeniero eléctrico saber acerca de las listas vinculadas?
El Dr. Simaan había sido alumno del Dr. Cruz a principios de los años setenta. Juntos fueron pioneros en aplicar la estrategia de Stackelberg en juegos de suma no nula.
Avance rápido un cuarto de siglo. Los drones Predator comenzaron a volar en 1995 y Global Hawks en 1998, pero se necesitaron 5 operadores para volar cada dron. DARPA anunció el proyecto MICA para ver cómo podría mejorarse eso. En lugar de necesitar cinco operadores para controlar un avión no tripulado, querían construir un sistema de gestión de campo de batalla que permitiera una relación 1: 5 de operador a UAV. DARPA también quería que el operador pudiera interactuar con el sistema en múltiples niveles estratégicos. Visualizaron un operador capaz de controlar un solo UAV, encargar a un escuadrón o administrar operaciones a nivel de teatro. Mientras tanto, el sistema proporcionaría comentarios sobre las decisiones y haría predicciones sobre posibles acciones enemigas.
Fue un poco ambicioso.
Porque el sistema tenía que poder pensar estratégicamente en todos los niveles, con acciones desconocidas tanto de amistosos como de enemigos. El Dr. Simaan y el Dr. Cruz pensaron que esta era una excelente aplicación para retomar algunos de sus trabajos anteriores sobre Game Theory.
En ese momento yo era un estudiante graduado en la Universidad de Pittsburgh que estudiaba el control óptimo bajo el Dr. Simaan en ese momento junto con su compañero de estudios Yong Lu. Uno de los estudiantes del Dr. Cruz examinó las técnicas teóricas de los juegos para la planificación del camino en los juegos de persecución / evasión. Mi trabajo consistía en manejar la estrategia de nivel de salida; es decir, dada una fuerza compuesta por UAV de ataque sigiloso ágil y UAV de bombarderos pesados, ¿cuál es la mejor manera de atacar un objetivo de interés (bunker) defendido por los sitios de misiles de superficie a aire vinculados por RADAR y Comando y Control.
Brevemente: hice algunas suposiciones simplificadoras y reduje el problema a un problema síncrono de asignación de objetivos de armas. Luego formulé un concepto Near Nash en el que se define una nueva función de costo que mide la suma al cuadrado de la cantidad que cada jugador podría mejorar cambiando unilateralmente su estrategia (es decir, qué tan “Nash” es la estrategia). Utilicé técnicas de optimización combinatoria para resolver estas estrategias de “Near-Nash” y comparé su efectividad con varios métodos para generar acciones adversas.
Y resulta que las estrategias de “Cerca de Nash” funcionaron mejor que cualquier otra estrategia, independientemente de la estrategia con la que se emparejó.
JUEGO ESTRATEGIAS DE ASIGNACIÓN DE OBJETIVOS TEÓRICOS EN SISTEMAS COMPETITIVOS DE MÚLTIPLES EQUIPOS _Galati-04
Problemas con los enfoques teóricos del juego a la robótica
Si no recuerdo mal, las estrategias de “Near-Nash” fueron 3–7% mejores que las técnicas de optimización teóricas que no son de juego. Entonces, ¿por qué no se usa más ampliamente?
Razón 1: Complejidad
Las técnicas teóricas del juego duplicarán o aumentarán el número de grados de libertad con los que está lidiando en su espacio de búsqueda. Esa complejidad dificulta el problema. O se ve obligado a hacer suposiciones de simplificación adicionales que reducen en gran medida la precisión de cualquier modelo de costo con el que esté trabajando o está limitando la optimización de cualquier solución que se le ocurra.
Razón 2: Modelado
Además, los enfoques de teoría de juegos requieren razonamiento sobre posibles acciones adversas. Sin embargo, esas acciones generalmente no se pueden expresar en un bonito formato de matriz ordenada. Por lo general, hay muchas acciones adversas, todas en diferentes niveles de estrategia y completamente asíncronas. Entonces, para que cualquier técnica teórica del juego sea razonablemente válida, su modelo debe tener una representación bastante buena de la realidad. E incluso entonces es probable que ingrese fallas en su modelo en lugar de estrategias válidas reales.
P.ej. Imagínese si quisiera que un robot aprendiera a jugar fútbol con un motor basado en TechmoBowl. Ese robot terminaría aprendiendo que la mejor estrategia de fútbol era darle el balón a Bo Jackson y esperaría que su oponente intentara contrarrestarlo.
También existe el peligro de que su robot pueda ser manipulado. Los humanos son terriblemente buenos en este tipo de razonamiento. Al menos por ahora, cualquier robot será una gran simplificación de esta habilidad. Un adversario humano probablemente podrá aprender y adaptarse, induciendo a los robots “inteligentes” a realizar acciones tontas.
Conclusión
Game Theory es una herramienta poderosa. La investigación en técnicas de teoría de juegos probablemente aumentará a medida que los robots se vuelvan más capaces. Pero va a tomar algo de trabajo para dar a los robots la experiencia contextual que necesitan para razonar sobre acciones adversas de una manera inteligente.