¿Podría medir la calidad de la profundidad interpolando dos imágenes 2D de diferentes ángulos, tal como lo hacen nuestros ojos para construir un modelo 3D del mundo?

Si. Conociendo los ángulos y las posiciones en que se tomaron dos imágenes, uno podría usar reglas trigonométricas básicas para inferir la distancia de cualquier objeto. Computacionalmente, tendría que reconocer los objetos en ambas imágenes y comparar sus ubicaciones, lo cual no es un problema trivial, pero dependiendo de los detalles de la imagen (los contrastes, la complejidad de las formas y colores disponibles, etc.) se puede resolver relativamente bien. Sin embargo, la precisión de este método disminuye rápidamente para distancias más grandes, ya que la sensibilidad de las variables de entrada (los ángulos de los ojos / cámaras) es inversa-tangencial a la salida (la distancia del objeto).

El cerebro humano también acumula conocimiento de las distancias durante el movimiento, en lugar de evaluar la distancia de cada objeto nuevamente para cada “cuadro” a tiempo de forma independiente. Esto no debería presentar un problema computacional particularmente difícil, aunque tampoco lo llamaría fácil.
Más difícil es otro truco que hace el cerebro, que es el reconocimiento y la memoria de los objetos que vemos. La información previamente guardada del tamaño real de un objeto dado se puede comparar con su tamaño aparente para estimar la distancia, y la información sobre el color verdadero de un objeto se puede comparar con el color aparente a medida que las cosas que están más lejos se ven a través de más niebla y aparecerá menos saturado. El reconocimiento de objetos hace que el problema sea significativamente más difícil, pero también depende de la complejidad de las imágenes dadas; si especializas el programa para reconocer solo círculos rosados ​​y triángulos verdes, no es tan difícil, pero usando imágenes del mundo real el problema es casi imposible de resolver.

Nota: nunca he intentado esto y solo tengo un conocimiento superficial tanto del sistema visual humano como del procesamiento de imágenes de la máquina.

Nota: la interpolación en el contexto científico es la estimación de un valor intermedio f (b) dado f (a) yf (c) donde a <b <c (aproximadamente), aunque en inglés también puede significar "insertar". De cualquier manera, no está utilizando el término correctamente, ya que no desea crear una imagen intermedia o insertar una imagen en la otra.