¿La regresión lineal múltiple siempre necesita una relación lineal entre cada predictor individual y la variable dependiente?

Su modelo de regresión básico se verá así:

[matemáticas] y = \ beta_0 + \ beta_1x_1 + \ beta_2x_2 + \ beta_3x_3 + \ epsilon [/ matemáticas]

Aquí estamos asumiendo una relación lineal entre cada una de nuestras [matemáticas] x [/ matemáticas] y nuestras [matemáticas] y [/ matemáticas] donde un aumento de una unidad en [matemáticas] x_j [/ matemáticas] aumentará [matemáticas] y [/ math] por [math] \ beta_j [/ math]. La estimación se puede hacer de diferentes maneras, pero en principio es elegir un valor para cada [math] \ beta [/ math] para minimizar la cantidad de variación explicada por [math] \ epsilon [/ math], maximizando la cantidad de variación en [math] y [/ math] explicado por [math] x [/ math] ‘s.

El efecto marginal de [matemáticas] x_1 [/ matemáticas] (la misma idea básica que una derivada parcial) es solo:

[matemáticas] \ frac {\ partial y} {\ partial x_1} = \ beta_1 [/ matemáticas]

La pendiente es una constante, tan claramente lineal, ¿verdad?

Aunque el estimador es necesariamente lineal, tenemos algunas opciones de especificación para tener en cuenta los efectos no lineales. Una opción es usar un término de interacción. Si creemos que el efecto de [matemáticas] x_1 [/ matemáticas] en [matemáticas] y [/ matemáticas] está condicionado a [matemáticas] x_3 [/ matemáticas], podemos especificar la ecuación como:

[matemáticas] y = \ beta_0 + \ beta_1x_1 + \ beta_2x_2 + \ beta_3x_3 + \ beta_4x_1x_3 + \ epsilon [/ matemáticas]

Haciendo nuestro efecto marginal:

[math] \ frac {\ partial y} {\ partial x_1} = \ beta_1 + \ beta_4x_3 [/ math]

La pendiente de nuestra línea con respecto a un cambio en [matemática] x_1 [/ matemática] en [matemática] y [/ matemática] será diferente para diferentes valores de [matemática] x_3 [/ matemática]. No es un efecto no lineal en el sentido del sistema de la palabra, pero con un efecto marginal no constante claramente no es una línea recta.

Aquí hay un ejemplo que muestra una interacción entre ideología política y educación. Tenga en cuenta las diferentes pendientes, que muestran cuánto se preocupa alguien por el aumento del mar, los cambios con niveles de educación condicionados a la ideología política.

(Por archivo IChiloe: GSS sealevel Interaction.png)

Ahora imagine una variable continua para la ideología, y esto se convierte en un plano.

Otra opción es iniciar sesión en [math] x_1 [/ math]. Si creemos que su efecto en [matemáticas] y [/ matemáticas] es constante en una escala de proporción (o aproximadamente porcentaje), podemos especificar nuestra ecuación como:

[matemáticas] y = \ beta_0 + \ beta_1ln (x_1) + \ beta_2x_2 + \ beta_3x_3 + \ epsilon [/ matemáticas]

Haciendo nuestro efecto marginal:

[matemáticas] \ frac {\ partial y} {\ partial x_1} = \ beta_1 (\ frac {1} {x_1}) [/ matemáticas]

Nuestra relación se parece a la gráfica de la derecha. El gráfico de la izquierda nos muestra cómo se vería la relación si registramos [math] y [/ math]:

(Uso de la econometría: una guía práctica)

Un tercer ejemplo para un efecto no lineal sería construir un umbral.

Digamos que tenemos una variable que es una escala de cuán democrático es un sistema político. Creemos que la única diferencia relevante aquí es si el país es una democracia; realmente no importa cuán democrático o autoritario dentro de los umbrales respectivos. Podemos tomar esta escala y generar una variable ficticia cero uno, donde el coeficiente de la variable representa la diferencia en las intersecciones para un grupo. La ecuación y el efecto marginal serán los mismos que para el primer modelo, excepto que [math] x_1 [/ math] ahora es una variable cero uno. Lo que hacemos aquí es dar una intercepción diferente para cada grupo.

Me gusta esto.

(Por Shailaja.k Archivo: Gráfico que muestra Salario = α0 + δ0female + α1education + U, δ0 0.jpg)

Estas son solo algunas de las opciones de especificación que tenemos. También tenemos términos cuadráticos, estimadores no lineales cubiertos bajo regresión como tobit o logit, series de tiempo que estudias usando variables endógenas y retrasos y analizas evaluando el efecto de un shock a lo largo del tiempo.

Pero incluso con un estimador lineal básico, tenemos una variedad de formas de estimar efectos marginales no lineales.

Un modelo lineal significa algo muy específico en estadística. Tanto los modelos lineales como los no lineales pueden modelar la curvatura. Entonces, esa no es la distinción. Los tipos de modelo, lineales y no lineales, se refieren a la forma del modelo. Los modelos lineales tienen una forma básica: son lineales en los parámetros.
Y = Constante + Parámetro * Predictor + Parámetro * Predictor. . .
Los modelos no lineales son literalmente cualquier modelo que no se ajusta a la forma lineal.
Escribí una publicación de blog que analiza las diferencias entre los modelos de regresión lineal y no lineal:
http://statisticsbyjim.com/regre

No los necesita pero los asume. Sin embargo, puede agregar al modelo polinomios y otras transformaciones de las variables.