¿Qué conceptos de álgebra lineal debería dominar uno para ser un buen científico de datos? ¿Qué recursos proporcionan una lista completa de conceptos de álgebra lineal utilizados para el aprendizaje automático?

Casos de uso:

  • Para el aprendizaje automático : muchos conceptos de aprendizaje automático están vinculados a conceptos de álgebra lineal. Algunos ejemplos básicos, PCA – valor propio, regresión – multiplicación de matrices … Como la mayoría de las técnicas de ML tratan con datos de alta dimensión, a menudo se representan como matrices.
  • Para el modelado matemático : por ejemplo, si desea capturar comportamientos (ventas, compromiso, etc.) en un modelo matemático, puede usar una matriz para desglosar las muestras en sus propios subgrupos, y cada uno tiene su propio parámetro en lugar de usar un global valor. Esto requiere una manipulación básica de la matriz. Inversión matricial, derivación, resolución de ecuaciones diferenciales parciales o diferenciales de primer orden con matrices, por ejemplo.
  • Para comprender la distribución de alta dimensión: multinomial como el ejemplo básico y hay muchos más.

Recurso:

  • Álgebra lineal bien hecho, Axler : No puedo recomendar más este libro. Elegante, claro, ordenado. Toma LA en un enfoque no tradicional. No se apresura a introducir todas las fórmulas, pero se asegura de explicar bien los fundamentos matemáticos de cada concepto. Una buena pregunta para evaluar su verdadera comprensión de LA es: ¿qué es el valor propio? (No me digas la fórmula). Axler te da la respuesta si la lees hasta el final.
  • The Matrix Cookbook : página en math.uwaterloo.ca Esto ya se menciona en las otras respuestas. Más como una herramienta de referencia.

Conceptos:

  • En cuanto a los conceptos, la tabla de la página de contenido en el libro de cocina matriz es una buena lista. Pero quiero enfatizar que una cosa es saber cómo hacer el cálculo y otra es comprender fundamentalmente un concepto más allá de lo que dice la fórmula. Numerosos paquetes de software pueden hacer lo primero, leer detenidamente Axler u otro buen libro de texto le dará lo último.

Si trabaja como científico de datos de nivel de entrada en una startup (como menciona en la descripción de la pregunta), es probable que realmente no necesite mucho conocimiento de álgebra lineal, como familiaridad con los lenguajes de script (python, R), herramientas como scikit- aprender, los pandas y las tecnologías de bases de datos son a menudo más importantes que comprender las matemáticas detrás del aprendizaje automático.

Dicho esto, el libro de cocina Matrix es un recurso útil: el libro de cocina Matrix

Realmente depende de qué tipo de problemas se encuentren.

  • La descomposición de valores singulares y la comprensión particular de su relación con el análisis de componentes principales es probablemente el concepto más útil para conocer. Vea mi respuesta a ¿Existe una relación entre la descomposición QR, ICA y PCA? y referencias en el mismo.
  • Comprender las proyecciones y los problemas de optimización del tipo de mínimos cuadrados es útil para la reducción de la dimensionalidad, la agrupación e incluso la regresión.
  • En un nivel más avanzado, los espacios de reproducción de Hilbert del núcleo se utilizan a menudo en el aprendizaje automático (proceso gaussiano, máquina de vectores de soporte, PCA del núcleo). Puede aprender sobre esto en Aprendizaje con núcleos: máquinas de vectores de soporte, regularización, optimización y más allá por Bernhard Schoelkopf

A medida que profundizo en Big Data, tiendo a recordar capítulos de matemáticas y estadísticas que estudié durante mi graduación y postgrado.

Puedo recordar fácilmente el muestreo de una distribución normal multivariada y una estimación de máxima verosimilitud.

El desafío a gran escala nos motiva a desarrollar técnicas de álgebra lineal numérica linealmente escalables en la configuración de matriz densa, que es un escenario común en el análisis de datos. Hay varios desarrollos recientes en los cálculos de las funciones matriciales y en la solución de un sistema lineal de ecuaciones, donde las matrices son a gran escala, totalmente densas, pero estructuradas. Las ideas principales de estos desarrollos son la exploración de las estructuras y el uso de multiplicaciones rápidas de matriz-vector para reducir el costo cuadrático en el almacenamiento y el costo cúbico en el cálculo de una matriz densa general.

“Big data” ofrece una nueva oportunidad para que los analistas numéricos desarrollen algoritmos con un objetivo central de escalabilidad en mente. Los algoritmos escalables son clave para convencer a los estadísticos y profesionales de aplicar las poderosas teorías estadísticas en datos a gran escala que actualmente se sienten incómodos de manejar.

Hay un curso a su propio ritmo sobre Edx: Análisis de datos para ciencias biológicas 2: Introducción a los modelos lineales y el álgebra matricial.

Las diversas versiones de mínimos cuadrados son muy importantes. También vale la pena comprender cómo derivar mínimos cuadrados y otros estimadores óptimos utilizando optimización convexa / cálculo matricial.

Incluso solo hacer un descenso de gradiente requiere que pueda tomar la derivada de la función de costo con respecto al vector de parámetros que se está optimizando. Los métodos de tipo Newton requerirán también el hessiano.

Vale la pena comprender no solo las descomposiciones, como SVD, sino cómo se relacionan con técnicas como el análisis de componentes principales / análisis semántico latente, o cómo los vectores propios se relacionan con el rango de página.

Minería de conjuntos de datos masivos http://www.stanford.edu/class/cs246 ofrece una excelente visión general de esto. También hay un libro disponible de forma gratuita en http://infolab.stanford.edu/~ull… .