¿Qué conceptos de álgebra lineal debería dominar uno para ser un buen científico de datos? ¿Qué recursos proporcionan una lista completa de conceptos de álgebra lineal utilizados para el aprendizaje automático?

Casos de uso:

Para el aprendizaje automático : muchos conceptos de aprendizaje automático están vinculados a conceptos de álgebra lineal. Algunos ejemplos básicos, PCA – valor propio, regresión – multiplicación de matrices … Como la mayoría de las técnicas de ML tratan con datos de alta dimensión, a menudo se representan como matrices.
Para el modelado matemático : por ejemplo, si desea capturar comportamientos (ventas, compromiso, etc.) en un modelo matemático, puede usar una matriz para desglosar las muestras en sus propios subgrupos, y cada uno tiene su propio parámetro en lugar de usar un global valor. Esto requiere una manipulación básica de la matriz. Inversión matricial, derivación, resolución de ecuaciones diferenciales parciales o diferenciales de primer orden con matrices, por ejemplo.
Para comprender la distribución de alta dimensión: multinomial como el ejemplo básico y hay muchos más.

Recurso:

Álgebra lineal bien hecho, Axler : No puedo recomendar más este libro. Elegante, claro, ordenado. Toma LA en un enfoque no tradicional. No se apresura a introducir todas las fórmulas, pero se asegura de explicar bien los fundamentos matemáticos de cada concepto. Una buena pregunta para evaluar su verdadera comprensión de LA es: ¿qué es el valor propio? (No me digas la fórmula). Axler te da la respuesta si la lees hasta el final.
The Matrix Cookbook : página en math.uwaterloo.ca Esto ya se menciona en las otras respuestas. Más como una herramienta de referencia.

Conceptos:

En cuanto a los conceptos, la tabla de la página de contenido en el libro de cocina matriz es una buena lista. Pero quiero enfatizar que una cosa es saber cómo hacer el cálculo y otra es comprender fundamentalmente un concepto más allá de lo que dice la fórmula. Numerosos paquetes de software pueden hacer lo primero, leer detenidamente Axler u otro buen libro de texto le dará lo último.

¿Qué es una explicación intuitiva de la matriz DFT W?

¿Cuáles son algunas aplicaciones geniales de vectores propios?

Álgebra lineal: ¿Cómo se escribe un programa en C para reducir una matriz a una forma escalonada o una forma escalonada reducida?

¿Cuál es la intuición detrás de tomar dos vectores y hacer un escalar a través de la generalización del producto punto?

¿Cuáles son las ventajas de la notación de brackets de Dirac?

¿Por qué CSE en NSIT se considera mejor que CSE en DTU?

Si trabaja como científico de datos de nivel de entrada en una startup (como menciona en la descripción de la pregunta), es probable que realmente no necesite mucho conocimiento de álgebra lineal, como familiaridad con los lenguajes de script (python, R), herramientas como scikit- aprender, los pandas y las tecnologías de bases de datos son a menudo más importantes que comprender las matemáticas detrás del aprendizaje automático.

Dicho esto, el libro de cocina Matrix es un recurso útil: el libro de cocina Matrix

Realmente depende de qué tipo de problemas se encuentren.

La descomposición de valores singulares y la comprensión particular de su relación con el análisis de componentes principales es probablemente el concepto más útil para conocer. Vea mi respuesta a ¿Existe una relación entre la descomposición QR, ICA y PCA? y referencias en el mismo.
Comprender las proyecciones y los problemas de optimización del tipo de mínimos cuadrados es útil para la reducción de la dimensionalidad, la agrupación e incluso la regresión.
En un nivel más avanzado, los espacios de reproducción de Hilbert del núcleo se utilizan a menudo en el aprendizaje automático (proceso gaussiano, máquina de vectores de soporte, PCA del núcleo). Puede aprender sobre esto en Aprendizaje con núcleos: máquinas de vectores de soporte, regularización, optimización y más allá por Bernhard Schoelkopf

Hamideh Iraj

A medida que profundizo en Big Data, tiendo a recordar capítulos de matemáticas y estadísticas que estudié durante mi graduación y postgrado.

Puedo recordar fácilmente el muestreo de una distribución normal multivariada y una estimación de máxima verosimilitud.

El desafío a gran escala nos motiva a desarrollar técnicas de álgebra lineal numérica linealmente escalables en la configuración de matriz densa, que es un escenario común en el análisis de datos. Hay varios desarrollos recientes en los cálculos de las funciones matriciales y en la solución de un sistema lineal de ecuaciones, donde las matrices son a gran escala, totalmente densas, pero estructuradas. Las ideas principales de estos desarrollos son la exploración de las estructuras y el uso de multiplicaciones rápidas de matriz-vector para reducir el costo cuadrático en el almacenamiento y el costo cúbico en el cálculo de una matriz densa general.

“Big data” ofrece una nueva oportunidad para que los analistas numéricos desarrollen algoritmos con un objetivo central de escalabilidad en mente. Los algoritmos escalables son clave para convencer a los estadísticos y profesionales de aplicar las poderosas teorías estadísticas en datos a gran escala que actualmente se sienten incómodos de manejar.

Hamideh Iraj

Hay un curso a su propio ritmo sobre Edx: Análisis de datos para ciencias biológicas 2: Introducción a los modelos lineales y el álgebra matricial.

Justin Rising

Las diversas versiones de mínimos cuadrados son muy importantes. También vale la pena comprender cómo derivar mínimos cuadrados y otros estimadores óptimos utilizando optimización convexa / cálculo matricial.

Incluso solo hacer un descenso de gradiente requiere que pueda tomar la derivada de la función de costo con respecto al vector de parámetros que se está optimizando. Los métodos de tipo Newton requerirán también el hessiano.

Vale la pena comprender no solo las descomposiciones, como SVD, sino cómo se relacionan con técnicas como el análisis de componentes principales / análisis semántico latente, o cómo los vectores propios se relacionan con el rango de página.

Minería de conjuntos de datos masivos http://www.stanford.edu/class/cs246 ofrece una excelente visión general de esto. También hay un libro disponible de forma gratuita en http://infolab.stanford.edu/~ull… .

Justin Rising

More Interesting

¿Qué es un vector propio de una matriz de covarianza?

¿Cómo se prueba [matemáticas] L (x + y) = L (x) + L (y) \ iff L (cx) = cL (x) [/ matemáticas] cuando L es una función lineal?

¿Qué es un espacio dual? ¿Cuál es su utilidad?

Álgebra lineal: para la inversión de matriz, ¿cuándo debería preferirse la descomposición de LU sobre la inversión usando pseudoinverso (por SVD)?

¿Hay alguna forma de representar un mapa lineal que no sea con una matriz?

Álgebra lineal: ¿Qué hace que el espacio de columna y el espacio de fila de una matriz tengan la misma dimensión?

¿Qué es una matriz definida positiva en términos simples?

Álgebra lineal: ¿Cuáles son las ventajas y desventajas de las diversas descomposiciones de matriz?

¿Qué representa realmente el determinante de una matriz, tanto matemática como físicamente?

Álgebra lineal: ¿Se pueden determinar las propiedades del permanente de una matriz 0-1 sin calcular explícitamente el permanente?