¿Qué es una función de costo en la teoría de control? Educación te da un futuro mejor

Creo que puede encontrar muchas conferencias / tutoriales / blogs en línea que pueden explicar esto. Pero permítanme describirlo brevemente en términos de seleccionar una política óptima para un vehículo que quiere llegar a una ubicación objetivo ([matemáticas] x_F [/ matemáticas]).

El problema de control óptimo funciona con la minimización de alguna función (es decir, una función de costo) que es la medida del rendimiento / penalización / recompensa por la ejecución de una acción. Esto es análogo a la función de utilidad en la optimización (podemos decir que función de costo = -1 * función de utilidad). Ahora déjenme tomar un caso muy simple, cuando el estado [math] x_t [/ math] es la posición de un vehículo en una dimensión y la acción (u) es el acelerador.

Ahora definiré la medida de rendimiento para mi vehículo. Digamos que quiero minimizar el tiempo de viaje (desde el inicio hasta la posición final), entonces mi función de costo será:

[matemáticas] J = t_f – t_0 = \ int_ {t_0} ^ {t_f} dt [/ matemáticas]

Aquí [math] t_0 [/ math] es el tiempo inicial y [math] t_1 [/ math] es el tiempo final.

Del mismo modo, puedo definir varias medidas de rendimiento como esfuerzo mínimo, control de terminal y problema de seguimiento. Puede consultar este enlace para más detalles. Encontré este libro bastante fascinante y bien explicado con ejemplos. Puede comenzar directamente con su capítulo 5, si tiene un tiempo limitado.

Ahora este era un ejemplo simple. La función de costo más común que generalmente utilizamos es la siguiente:

[matemáticas] J = (x_ {t_F} -x_F) ^ T * M * (x_ {t_F} -x_F) + \ sum_ {t = t_0} ^ {t_F-1} [(x_ {t} -x_F) ^ T * Q * (x_ {t} -x_F) + u ^ T * R * u + e (t) ^ T * S * e (t)] [/ math]

donde los términos son muy comunes para una persona que trabaja en la teoría del control. Aquí [math] x_t [/ math] es el estado del vehículo en el tiempo t, [math] x_F [/ math] es la posición final / objetivo, u es la acción / entrada, [math] e (t) [/ matemáticas] es la desviación de mi trayectoria predefinida. M, Q, R y S son matrices semi-definidas positivas (aunque no todas). Los detalles se enumeran en los enlaces que mencioné anteriormente.

Permítanme explicar la necesidad de cada término, el primer término fuera de la integral asegura que en el momento final debería terminar en el estado terminal / final ([matemáticas] x_F [/ matemáticas]) de lo contrario [matemáticas] M [/ matemáticas] explotará y me dará un costo infinito. El término junto con Q asegura que debería seguir avanzando en la dirección del estado de la meta, un mayor costo al alejarme de la meta. El término con [matemática] R [/ matemática] penalizará la aceleración alta (la aceleración alta da sacudidas en la trayectoria). El término con [matemática] S [/ matemática] proporciona el error de trayectoria cruzada con una trayectoria predefinida [matemática] y (t) [/ matemática] y [matemática] e (t) = (x_t-y_t). [/matemáticas]

La función de costo anterior es para un problema de tiempo discreto, para continuo debe leer sobre el cálculo de la variación, que es la optimización de las integrales (un buen libro sobre esto está aquí).

Espero que esto sea lo suficientemente claro. Por cierto, la función de costo es el quid de cualquier problema de control óptimo y tomará tiempo entenderlo. Para un mayor detalle, debe consultar los siguientes enlaces.

Recursos en línea:
http://www.me.umn.edu/courses/me…
* [Incluya video conferencias y diapositivas] http://www.athenasc.com/dpbook.html
[capítulo 9 y 10] Robótica poco activa

Libros:
[Naidu] Compre en línea el libro Optimal Control Systems (Electrical Engineering Series) a precios bajos en India
[Bertsekas] aquí

En primer lugar, debe analizar la programación dinámica y los criterios de optimización de botones.