¿Está el Instituto Allen interesado en problemas de visión pura por computadora, además de lenguaje + visión?

Sí, estamos trabajando activamente en varios problemas centrales de visión por computadora en AI2, liderados por el increíble Ali Farhadi.

Además de nuestro esfuerzo en la comprensión de diagramas para responder preguntas científicas [1], trabajamos en una amplia variedad de problemas de visión, como la adquisición de conocimiento de sentido común, el conocimiento sobre la física del mundo, soluciones de aprendizaje profundo altamente eficientes, y la comprensión de la escena y Detección de objetos.

Uno de nuestros enfoques de investigación es comprender la física de los objetos en las escenas. La capacidad de comprender la interacción entre fuerzas y objetos es un componente importante en el razonamiento visual. Puede encontrar nuestro último trabajo en [2,3].

Recientemente, propusimos un marco de aprendizaje profundo binario [4] que reduce el tamaño de la red en ~ 32x y ofrece la posibilidad de cargar redes neuronales muy profundas en dispositivos portátiles con memoria limitada.

Tenemos varios esfuerzos de investigación sobre detección de objetos y comprensión de escenas. Por ejemplo, un trabajo reciente [5] procesa 155 cuadros por segundo mientras logra el doble de rendimiento que otros detectores de objetos en tiempo real.

[1] Un diagrama vale más que una docena de imágenes, referencia de Semantic Scholar.

[2] Comprensión de la imagen newtoniana: Despliegue de la dinámica de los objetos en imágenes estáticas, referencia de Semantic Scholar.

[3] “Qué sucede si …” Aprendiendo a predecir el efecto de las fuerzas en las imágenes, referencia de Semantic Scholar.

[4] XNOR-Net: clasificación de ImageNet utilizando redes neuronales convolucionales binarias, referencia de estudios semánticos.

[5] Solo miras una vez: Detección de objetos unificada, en tiempo real, referencia semántica académica.