¿Cómo funciona la pena de Lasso en términos simples?

La estimación del lazo es una estimación que minimiza la suma del cuadrado y satisface la restricción a continuación.

Para P = 2 caso,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {1} [/ matemáticas]

sujeto a

[matemáticas] \ sum_ {j = 1} ^ 2 | \ beta_j | <= s \ tag {} [/ math]

Al usar el multiplicador de Lagrange, la ecuación anterior se convierte en,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 | \ beta_j | – s) \ tag {2} [/ math]

Tanto [math] \ lambda [/ math] como s son constantes, por lo que la ecuación anterior se convierte en

[matemáticas] Min \ underbrace {\ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2}} _ \ text {suma del término de error cuadrado} + \ underbrace {\ lambda (\ sum_ {j = 1} ^ 2 | \ beta_j |)} _ \ text {Término de penalización} \ tag {3} [/ math]

Plazo de penalización de lazo

No necesitamos tratar esos dos parámetros ([math] \ lambda [/ math] y s) por separado porque están estrechamente relacionados. Consulte la función de optimización de regresión de lazo (ecuación 1). Si s toma un valor [math] \ infty [/ math], entonces \ lambda será cero. Si [math] \ lambda [/ math] toma un valor [math] \ infty [/ math] o un valor muy grande, entonces todos los coeficientes serán cero. Significa que s será cero. Muestra que [math] \ lambda [/ math] ys están inversamente relacionados. Entonces, solo necesitamos controlar uno de los parámetros para encontrar el mejor estimador para una regresión Lasso. También entendimos que un tamaño óptimo de s depende del parámetro ([math] \ lambda [/ math]). Podemos encontrar el valor óptimo [math] \ lambda [/ math] usando la validación cruzada K-fold.

¿Cuál es el significado de la norma nuclear?

¿Existe una interpretación física del producto cruzado de dos vectores ‘documento’?

¿Cuáles son las ventajas de los clasificadores lineales?

¿Son todos los núcleos definidos positivos funciones definidas positivas?

¿Qué es mejor, aprender programación de una universidad o un curso en línea como academia de códigos, casa del equipo y código?

¿Qué piensan los matemáticos del ‘Álgebra lineal bien hecha’ de Axler? ¿Axler “va demasiado lejos” al criticar el uso pedagógico de los determinantes, o es su organización mejor que el enfoque estándar?

Supongamos que ajustamos un modelo lineal:
[matemáticas] Y = XB + \ epsilon [/ matemáticas]
donde Y es un vector de respuesta de longitud ny X es una matriz de predictores n por p (cada columna es un predictor). Estimamos B usando mínimos cuadrados y la i- ésima entrada de B nos da una indicación de la relación entre la i- ésima columna de X e Y.

Estamos interesados en saber qué covariables (es decir, qué columnas de X) realmente están afectando la respuesta (podría ser el caso de que haya covariables completamente no relacionadas introducidas por accidente).
Por lo tanto, estamos interesados en descubrir cuáles de las covariables son estadísticamente significativas. Esto es equivalente a descubrir qué entradas de B son estadísticamente diferentes de 0. Por lo tanto, queremos inferir el conjunto [matemáticas] A = \ {i: B_i! = 0 \} [/ matemáticas].

Una forma de hacerlo es realizando pruebas de hipótesis. Pero esto se vuelve complicado si tiene muchas columnas y se vuelve aún más complicado si p> n (en realidad, en este caso, ni siquiera puede estimar B). Otros enfoques incluyen el uso de enfoques como AIC, pero estos también tendrán dificultades cuando p> n (o n es pequeño en general). Entonces aquí es donde entra el LASSO. El LASSO puede aprender correctamente el conjunto [matemático] A [/ matemático] de entradas distintas de cero en B al imponer una penalización [matemática] l_1 [/ matemática] en el objetivo de mínimos cuadrados función. Como tal, LASSO minimiza:
[matemáticas] || Y- XB || ^ 2 + \ lambda || B || _1 [/ matemáticas]
donde el término de penalización [matemática] || B || _1 [/ matemática] es la suma de valores absolutos de B. Por lo tanto, LASSO ofrece una compensación entre la bondad de ajuste y tener un vector B con una pequeña suma de valores absolutos .

Ahora, la razón por la cual LASSO puede producir soluciones dispersas es porque cuando estamos cerca de 0, la norma [matemática] l_1 [/ matemática] (es decir, el valor absoluto) dominará sobre el cuadrado [matemática] || Y- XB || ^ 2 [/ matemática] penalización. Por ejemplo: | 0.1 | > 0.1 ** 2. Entonces, en este caso, tiene sentido que el LASSO establezca coeficientes en cero y pague una pequeña cantidad en la penalización [matemática] || Y- XB || ^ 2 [/ matemática].

Balaji Pitchai Kannu

santa mierda l1 minimización!
Me gusta esta perspectiva. Hay algunas visualizaciones buenas después de un poco de verbose.

Balaji Pitchai Kannu

More Interesting

¿Cuál es la importancia del álgebra lineal para la formación teórica general de la informática?

¿Cuál es la interpretación de los valores propios / vectores generalizados en la teoría de grafos espectrales?

Visión por computadora: ¿podemos encontrar correspondencia de puntos 2D con una matriz esencial conocida?

¿Cuál es la relación entre matrices y caminos en gráficos?

¿Cuál es la relación entre autoencoders y autovectores?

¿Existe alguna relación entre las funciones propias y los vectores propios de un sistema LTI (lineal invariante en el tiempo)?

Cómo resolver ecuaciones lineales usando amplificadores operacionales

¿Cuáles son algunos métodos para factorizar una matriz asimétrica?