¿Cómo funciona la pena de Lasso en términos simples?

La estimación del lazo es una estimación que minimiza la suma del cuadrado y satisface la restricción a continuación.

Para P = 2 caso,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {1} [/ matemáticas]

sujeto a

[matemáticas] \ sum_ {j = 1} ^ 2 | \ beta_j | <= s \ tag {} [/ math]

Al usar el multiplicador de Lagrange, la ecuación anterior se convierte en,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 | \ beta_j | – s) \ tag {2} [/ math]

Tanto [math] \ lambda [/ math] como s son constantes, por lo que la ecuación anterior se convierte en

[matemáticas] Min \ underbrace {\ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2}} _ \ text {suma del término de error cuadrado} + \ underbrace {\ lambda (\ sum_ {j = 1} ^ 2 | \ beta_j |)} _ \ text {Término de penalización} \ tag {3} [/ math]

Plazo de penalización de lazo

No necesitamos tratar esos dos parámetros ([math] \ lambda [/ math] y s) por separado porque están estrechamente relacionados. Consulte la función de optimización de regresión de lazo (ecuación 1). Si s toma un valor [math] \ infty [/ math], entonces \ lambda será cero. Si [math] \ lambda [/ math] toma un valor [math] \ infty [/ math] o un valor muy grande, entonces todos los coeficientes serán cero. Significa que s será cero. Muestra que [math] \ lambda [/ math] ys están inversamente relacionados. Entonces, solo necesitamos controlar uno de los parámetros para encontrar el mejor estimador para una regresión Lasso. También entendimos que un tamaño óptimo de s depende del parámetro ([math] \ lambda [/ math]). Podemos encontrar el valor óptimo [math] \ lambda [/ math] usando la validación cruzada K-fold.

Supongamos que ajustamos un modelo lineal:
[matemáticas] Y = XB + \ epsilon [/ matemáticas]
donde Y es un vector de respuesta de longitud ny X es una matriz de predictores n por p (cada columna es un predictor). Estimamos B usando mínimos cuadrados y la i- ésima entrada de B nos da una indicación de la relación entre la i- ésima columna de X e Y.

Estamos interesados ​​en saber qué covariables (es decir, qué columnas de X) realmente están afectando la respuesta (podría ser el caso de que haya covariables completamente no relacionadas introducidas por accidente).
Por lo tanto, estamos interesados ​​en descubrir cuáles de las covariables son estadísticamente significativas. Esto es equivalente a descubrir qué entradas de B son estadísticamente diferentes de 0. Por lo tanto, queremos inferir el conjunto [matemáticas] A = \ {i: B_i! = 0 \} [/ matemáticas].

Una forma de hacerlo es realizando pruebas de hipótesis. Pero esto se vuelve complicado si tiene muchas columnas y se vuelve aún más complicado si p> n (en realidad, en este caso, ni siquiera puede estimar B). Otros enfoques incluyen el uso de enfoques como AIC, pero estos también tendrán dificultades cuando p> n (o n es pequeño en general). Entonces aquí es donde entra el LASSO. El LASSO puede aprender correctamente el conjunto [matemático] A [/ matemático] de entradas distintas de cero en B al imponer una penalización [matemática] l_1 [/ matemática] en el objetivo de mínimos cuadrados función. Como tal, LASSO minimiza:
[matemáticas] || Y- XB || ^ 2 + \ lambda || B || _1 [/ matemáticas]
donde el término de penalización [matemática] || B || _1 [/ matemática] es la suma de valores absolutos de B. Por lo tanto, LASSO ofrece una compensación entre la bondad de ajuste y tener un vector B con una pequeña suma de valores absolutos .

Ahora, la razón por la cual LASSO puede producir soluciones dispersas es porque cuando estamos cerca de 0, la norma [matemática] l_1 [/ matemática] (es decir, el valor absoluto) dominará sobre el cuadrado [matemática] || Y- XB || ^ 2 [/ matemática] penalización. Por ejemplo: | 0.1 | > 0.1 ** 2. Entonces, en este caso, tiene sentido que el LASSO establezca coeficientes en cero y pague una pequeña cantidad en la penalización [matemática] || Y- XB || ^ 2 [/ matemática].

santa mierda l1 minimización!
Me gusta esta perspectiva. Hay algunas visualizaciones buenas después de un poco de verbose.