¿El aprendizaje automático es solo programación de computadora de Álgebra lineal +?

Esas son ciertamente dos herramientas importantes para el aprendizaje automático, pero están lejos de ser una imagen completa. Además de otras herramientas críticas (cálculo, probabilidad, estadísticas), existe una gran preocupación sobre cómo modelar problemas de aprendizaje automático. Los métodos de aprendizaje automático a menudo, pero no siempre, se expresan en términos de un problema de optimización. La pregunta es cómo formular el problema de optimización de modo que 1) tenga un resultado significativo / útil cuando se resuelva y 2) sea manejable computacionalmente.

¡Y eso es solo aprendizaje supervisado! No sé tanto sobre el aprendizaje no supervisado, por lo que no comentaré sobre eso, pero el aprendizaje por refuerzo plantea su propio conjunto de problemas. Por ejemplo, debe considerar cómo representar políticas y quizás cómo manejar entornos que son parcialmente observables o cambian con el tiempo. RL tiene una sensación mucho más “clásica de IA” en el sentido de que la interacción entre el agente y su entorno es primordial.

¿Cuáles son las consecuencias para la existencia y la unicidad de las soluciones del sistema lineal [matemáticas] A \ vec {x} = \ vec {b}, \ vec {b} \ in \ mathbb {R} ^ m [/ matemáticas]?

Cómo examinar si una transformación lineal es inyectiva, sobreyectiva o biyectiva

Cómo encontrar coordenadas de polinomios con respecto a las bases [matemáticas] B_ {1} [/ matemáticas] y [matemáticas] B_ {2} [/ matemáticas]

[matemáticas] W = \ {(x_1, x_2, x_3) ^ T: 3x_1 + \ frac {1} {4} x_2 = 0 \} [/ matemáticas]. ¿Es W un subespacio de [math] \ mathbb {R} ^ 3 [/ math]?

¿Cuál es la derivada del vector normal unitario en términos de vector tangente unitario y vector normal unitario?

¿Podría alguien guiarme paso a paso a través de la prueba del teorema fundamental de calc en el libro de texto de cálculo de Larson y Edwards?

Gracias por a2a. En resumen NO.

Si bien el álgebra lineal es una forma efectiva de agrupar datos en matrices, modelar problemas complejos en el espacio de estados y luego aplicar funciones de transferencia no lineales, no es el único enfoque. Tampoco es el más eficiente en algunas circunstancias. Aunque en general es la mejor manera de implementar un algoritmo de procesamiento de datos con reconocimiento de caché para un procesador estándar. Y algo que es muy recomendable hacer.

Echemos un vistazo a Machine Learning. Sin pérdida de generalidad, la inclinación de la máquina es donde uno busca algorítmicamente un conjunto de parámetros del modelo con respecto a algunas observaciones con ciertas propiedades. Como puede ver, esta es una definición muy flexible, pero excluye la posibilidad de usar solo sentidos humanos en el proceso. Pero no es demasiado restrictivo para diferenciar entre varios métodos de aprendizaje: aprendizaje supervisado, no supervisado, reforzado (, …)

La búsqueda algorítmica es un proceso para encontrar algunos parámetros favorables para el modelo. La optimización es otra forma de expresar lo mismo. De hecho, la optimización convexa es una disciplina dedicada a un conjunto de problemas con ciertas propiedades geométricas. SVM o modelos lineales generalizados son problemas convexos que se superponen a los dos campos. En otros casos, no se supone convexidad (las redes neuronales caen aquí) pero la superficie de error sigue siendo suave. ¿Mencioné que la función de activación ReLU no es diferenciable en todas partes? o métodos de entrenamiento que no son funciones de estimación de máxima verosimilitud MLE, costo y penalización? El modelo de entrenamiento bayesiano aborda el mismo problema de generalización desde un ángulo ligeramente diferente. ¿El problema de la generalización, el fenómeno técnico de la explosión / desaparición de gradientes y su impacto en las arquitecturas profundas?

Los ejemplos anteriores son para demostrar la amplitud / profundidad de este campo; está lejos de ser extenso ni concluyente, pero espero que rascar la superficie te dé la idea: el aprendizaje automático es más que solo álgebra lineal pegada con algún código.

Michael Röschter

Hay mucho que puedes hacer con muy poco y al mismo tiempo hay mucha teoría maravillosa por ahí.

Excelentes estadísticos están produciendo algoritmos de aprendizaje automático muy interesantes que usan más que álgebra lineal. Por ejemplo, Michael Jordan y sus diversos estudiantes y colaboradores: Michael I. Jordan

Un tema común entre este estilo de aprendizaje automático es utilizar las estadísticas bayesianas a través de modelos gráficos. Muchas de las ideas se traducen de la literatura de mecánica estadística, utilizando ideas maravillosas desarrolladas por excelentes físicos del siglo XX. Personas importantes, como luminarias como Andrei Kolmogorov, quien fue uno de los principales fundadores matemáticos de la teoría de la probabilidad, han analizado preguntas importantes como “qué tan cerca están estos dos modelos” y “cuánta información está presente en estos datos”.

No creo que sea una evaluación justa llamar a Machine Learning ‘solo’ programación de Álgebra lineal +.

Istvan Varga

Si * sonrie *

Bueno, los fundamentos teóricos se encuentran en el álgebra lineal, pero hay bastante detalle. Primero tenga en cuenta que no todas las asignaciones son lineales solo porque lo llamamos álgebra lineal.

Una red neuronal del tipo empleado en AlphaGo cuando se ejecuta, es solo una serie de multiplicación de matrices y búsquedas de matriz (para la función de respuesta).
Desde una perspectiva matemática, una red neuronal es un mapeo que se aproxima a una función de respuesta lineal de alta dimensión con una función de respuesta no lineal de menor dimensión.

Todo esto se aborda y analiza con métodos de álgebra lineal. ¿Ahora puedes ir y construirlo?

Garrett Thomas

More Interesting

Matemáticas: ¿Las matrices se encuentran en la naturaleza o son una idea hecha por el hombre?

¿Qué curso de matemáticas te dio más problemas en la universidad y por qué: Cálculo II, Álgebra lineal, Introducción a problemas y estadísticas?

Cuando dos vectores están en dirección opuesta, los restamos para obtener su resultante. ¿Por qué?

Cómo encontrar las matrices de los siguientes mapas: [matemática] \ psi, \ varphi, 5 \ varphi + 3 \ psi, \ varphi \ circ \ psi, \ psi \ circ \ varphi, \ varphi ^ 2 [/ math]

¿Cuál es la diferencia entre fasor y un vector?

¿Cuál es el rango de una matriz en términos simples?

¿Hay una cámara fotográfica que tome fotos en el registro en lugar de lineal?

Como resolver un sistema de ecuaciones lineales

Cómo calcular la dimensión y la base de [matemáticas] v [/ matemáticas] si [matemáticas] A \ cdot v = 0 [/ matemáticas] y [matemáticas] A = \ begin {pmatrix} 0 y 2 y -1 \\ 2 y 1 y -1 \ end {pmatrix} [/ math]

Cómo aplicar variación directa e inversa a la vida real