¿Cómo se utilizan los métodos tensoriales en la visión por computadora y el aprendizaje automático? Educación te da un futuro mejor

El modelado de tensor se empleó por primera vez en la visión por computadora y el aprendizaje automático para reconocer a las personas en función de sus imágenes faciales (TensorFaces en 2002), y en función de la forma en que se mueven (Human Motion Signatures en 2001), pero pueden usarse para reconocer cualquier objeto, o atributos del objeto. Existen dos tipos de técnicas de modelado de tensor, modelado de tensor multilineal y modelado de tensor lineal. Los métodos de modelado de tensor multilineales son particularmente adecuados para el análisis de datos multimodales donde una observación, una imagen, tiene varios factores causales.

Por ejemplo, una imagen facial es el resultado de varios factores causales, como la geometría facial de una persona, la ubicación / parámetros de la cámara, las condiciones de iluminación, la expresión, etc. Si bien podemos observar y medir directamente los valores de gris (o color) en En una imagen, a menudo estamos más interesados en la información asociada con los factores causales, como la identidad de la persona, la dirección de visualización o la expresión que puede inferirse, pero que no se puede medir directamente. Los factores causales son las variables latentes u ocultas en un modelo computacional.

(Imagen y texto Copyright M. Alex O. Vasilescu)

TensorFaces se basa en la idea de que los métodos tensoriales multilineales (PCA multilineal o ICA multilineal) pueden modelar y descomponer explícitamente una imagen en términos de los factores causales de la formación de datos al calcular un conjunto de estadísticas asociadas con cada factor causal. En comparación, las descomposiciones matriciales, como PCA o ICA, capturan la información estadística general (varianza, curtosis) sin ningún tipo de diferenciación.

Dada una imagen nueva y sin etiqueta más un modelo de tensor aprendido, como TensorFaces, una proyección multilineal (ICCV 2007, FG 2011) determina las etiquetas de imágenes asociadas con los factores causales de la formación de datos: identificación de la persona, expresión, punto de vista, etc.

Aquí hay un par de documentos que son introducciones suaves a los métodos de tensor para el reconocimiento de personas:

“Análisis multilineal de conjuntos de imágenes: caras tensoras ” – ECCV 2002 www.media.mit.edu/~maov/tensorfaces/eccv02_corrected.pdf
“Análisis del subespacio multilineal para conjuntos de imágenes”, CVPR 2003
www.media.mit.edu/~maov/tensorfaces/cvpr03.pdf
“Análisis de componentes independientes multilineales”, CVPR 2005
www.media.mit.edu/~maov/tensorfaces/cvpr03.pdf
“Firmas de movimiento humano” – ICPR 2002
www.media.mit.edu/~maov/motionsignatures/hms_icpr02_corrected.pdf
Para información adicional, ver:
www.media.mit.edu/~maov

Tamara Kolda y Brett Bader Tecom Decomposiciones y aplicaciones El documento SIAM 2008 proporciona una buena visión general del álgebra tensorial.

En conclusión, los métodos de tensor multilineal (Tucker / SVD en modo M / SVD multilineal), en oposición a los métodos de tensor lineal (CANDECOMP / Parafac), extraen una firma facial o una firma de movimiento humano descomponiendo una imagen en términos de información de la persona, información de la cámara, información de iluminación, etc. cuando los datos se organizan en un tensor de datos parametrizado en función de los factores causales de la formación de datos. El enfoque de reconocimiento facial se llama TensorFaces, y el enfoque de reconocimiento de la marcha se llama Human Motion Signatures.

Para obtener detalles sobre las diferentes descomposiciones de tensor, consulte las respuestas a esta pregunta de Quora:
¿Cuáles son las descomposiciones de tensor equivalentes a la matriz SVD?
Diferencias esenciales: Tucker vs. Candecomp / descomposiciones de tensor Parafac

Las siguientes respuestas proporcionan ejemplos concretos con ilustraciones de tensores y descomposición de tensores de datos:

¿Cuál es todo el alboroto actual sobre las descomposiciones del tensor de datos?
¿Cómo se utilizan los métodos tensoriales en la visión por computadora y el aprendizaje automático?
¿Cuál es la diferencia entre una “matriz de datos” y una matriz, o un “tensor de datos” y un tensor?
¿Qué son las descomposiciones de tensor equivalentes a la matriz SVD? Diferencias esenciales: descomposición de Tucker versus Candecomp / Parafac Tensor
¿Hay ejemplos concretos para comprender SVD de orden superior (descomposición de Tucker)?