¿Cómo puedo abordar la selección de vectores efectivos usando la descomposición del valor singular?

Parece que está describiendo componentes principales dispersos (consulte Bair y Tibshirani 2005 para la versión supervisada, o Witten y Tibshirani 2008 y 2009 para versiones no supervisadas, para algunas de las muchas referencias a este tema) o la selección de K sin ruido singular vectores a través de (por ejemplo) parsimonia o teoría de matriz aleatoria (ver, por ejemplo, Teschendorff 2010 para una referencia a este último). La primera es relativamente más fácil de justificar que la segunda, pero elegir la dimensionalidad apropiada para una representación de bajo rango de una matriz de datos de alta dimensión no es un asunto resuelto.

Hay un atractivo elegante e intuitivo para la interpretación probabilística de PCA como se describe en Tipping & Bishop (http://www.robots.ox.ac.uk/~cvrg…) especialmente cuando se combina con una aproximación variacional a la distribución posterior. Pero eso no siempre produce resultados sustancialmente mejores que las heurísticas descritas.

(Para matrices de datos pequeñas, puede forzar la materia bruta de forma iterativa, pero para matrices pequeñas esto no es un problema importante :-))