Tema 2a. El modelo de regresión simple

Definición del modelo de regresión lineal

El Modelo de Regresión Lineal Simple busca encontrar la recta de regresión que relaciona 2 variables X e Y de la siguiente forma:

Y_i=\beta_0 + \beta_1 \cdot X_i+\epsilon_i

donde:

Y es la variable dependiente.

X es la variable independiente.

\beta_0 y \beta_1 son los parámetros del modelo que debemos estimar.

\epsilon es el termino error.

Para poder aplicar el Modelo de Regresión Lineal simple se deben cumplir las siguientes hipótesis:

Hipótesis 1 (H1): Las variables independiente y dependiente (X e Y) son cuantitativas y aleatorias y presentan por tanto una relación aleatoria.

Hipótesis 2 (H2): La variable independiente explica la dependiente, es decir, X explica a Y y no al revés.

Hipótesis 3 (H3): La variable independiente se relaciona linealmente con la variable dependiente, X se relaciona linealmente con Y.

Hipótesis 4 (H4): El modelo esta correctamente especificado y la relación entre las variables es de causalidad o causa-efecto.

Hipótesis 5 (H5): β1 es constante, lo que implica que las variaciones de Y ante cambios de X presentan un valor estable para las distintas muestras.

Hipótesis 6 (H6): El tamaño muestral es suficientemente grande para afrontar la estimación de los parámetros del modelo.

Hipótesis 7 (H7): El término error es un término completamente aleatorio que sigue una distribución normal, de esperanza 0 (E\left[\epsilon_i\right]=0).

Hipótesis 8 (H8): La varianza del error es constante a lo largo de las observaciones del modelo (VAR\left[\epsilon_i\right]=\sigma^2).

Hipótesis 9 (H9): El término error no esta correlacionado entre los elementos del modelo y es independiente también de la variable explicativa.

Para estimar los parámetros del modelo buscaremos los valores de \beta_0 y \beta_1 que construyan una recta, de modo que la distancia de los puntos a ella sea la mínima posible.

MRS

Los estimadores por el método de mínimos cuadrados ordinarios para el modelo de regresión lineal simple son:

\hat{\beta_1}=\frac{COV(X,Y)}{VAR(X)}

\hat{\beta_0}=\bar{Y}-\hat{\beta_1} \cdot \bar{X}

Estos estimadores son insesgados y eficientes.

Ejemplo.-

Se plantea el estudio del salario de un individuo, encontrando el modelo que lo relaciona con su educación, medida a través de los años dedicados a su formación. Los datos son los siguientes:

Salario Bruto anualAños de formación
22.00020
19.00015
25.00020
30.00025
35.00027
24.00021
26.00023
41.00026
45.00025
18.00013
19.00014
21.00015

Calcular los estimadores por el método de mínimos cuadrados.

Coeficiente de correlación lineal

Llamamos correlación al grado de dependencia mutua entre las variables. La correlación trata, por tanto de medir la intensidad con que dos variables pueden estar relacionadas.

Coeficiente de correlación lineal calcula mediante:

r=\frac{COV(X,Y)}{\sqrt{Var(X)}*\sqrt{Var(Y)}}

El valor del coeficiente de correlación lineal siempre estará entre -1 y 1.

  • Si r=1: correlación lineal perfecta positiva y los valores teóricos coinciden con los observados, ya que todos los puntos de la nube están en la recta. Es decir, existe dependencia funcional que viene reflejada por una recta creciente.
  • Si r=-1, la correlación lineal es perfecta negativa y, aquí también, los valores teóricos coinciden con los observados, pero la recta es decreciente. De nuevo es un caso de dependencia funcional.
  • Si r=0, la correlación lineal es nula. Es decir, no hay asociación lineal y por mucho que varíe X, la variable Y no se verá afectada (de forma lineal).
  • Si -1<r<0, la correlación lineal será negativa y la recta será decreciente puesto que el signo de su pendiente coincide con el de la covarianza que es la que da el signo a r, luego al ser r negativo también lo será la pendiente.Si r es cercano a 0 diremos que la relación es débil, y cuanto más se acerque a -1 consideráremos que la relación es más fuerte.
  • Si 0<r<1, la correlación lineal es positiva. Esto indica que la recta es creciente y cuando los valores de una variable crecen lo de la otra también crecerán. Consideraremos también que cuanto más se acerque a 0 más débil es la relación entre las variables y si el valor es próximo a 1 la relación podrá considerarse fuerte. Cuando dos variables son estadísticamente independientes su covarianza es cero. Por consiguiente, si las variables son independientes, están también incorrelacionadas linealmente, al ser r=0. Sin embargo: Dos variables pueden estar incorrelacionadas linealmente y ser dependientes, puesto que cuando r=0 lo único que podemos decir es que la dependencia estadística lineal es nula, pero esas variables pueden depender según otro tipo de función (parabólica, exponencial, etc.) Además se puede demostrar la invarianza de r ante transformaciones lineales. Ejemplo.-  Calcule el coeficiente de correlación lineal para el modelo de regresión lineal simple planteado en el ejemplo 1.

Coeficiente de determinación

El coeficiente de determinación se interpreta como el porcentaje de variación de la variable dependiente explicado por el modelo.

En modelos de regresión lineal simple, se calcula simplemente como el cuadrado de coeficiente de correlación lineal:

R^2=\frac{\left(COV(X,Y)\right)^2}{Var(X)*Var(Y)}

Ejemplo.-

Calcule el coeficiente de determinación para el modelo de regresión lineal simple planteado en el ejemplo 1.

Residuos y sumas de cuadrados

Residuos

En un modelo de regresión simple, los residuos son las diferencias entre los verdaderos valores que toma la variable dependiente y los valores estimados. Se calculan por tanto mediante:

\hat{\epsilon_i}=y_i-\hat{y_i}=y_i-\hat{\beta_0}-\hat{\beta_1}\cdot x_i

De este modo en cada modelo estimado tendremos tantos residuos como observaciones incluya la muestra (n).

Residuo

Sabemos que el método de mínimos cuadrados calcula los estimadores  de \beta_0 y \beta_1 de forma que la suma de los cuadrados de los residuos sea mínima.

La expresión “mínimos cuadrados ordinarios” viene de este hecho.

Ejemplo.-

Calcule los residuos para el modelo de regresión lineal simple planteado en el ejemplo anterior.

Sumas de cuadrados

Suma total de cuadrados (STC)

La suma total de cuadrados me permite medir la variabilidad total de la variable dependiente (Y) y se calcula como:

STC=\sum_{i=1}^n \left( y_i - \bar Y \right)^2

Suma explicada de los cuadrados (SEC)

La suma explicada de los cuadrados acumula la parte de la variabilidad de la variable dependiente que consigue explicar el modelo, y se calcula como:

SEC=\sum_{i=1}^n \left( \hat y_i - \bar Y \right)^2

Suma de cuadrados de los residuos (SCE)

La suma de cuadrados de los residuos acumula la variabilidad de la variable dependiente que no conseguimos explicar con el modelo y se calcula mediante:

SEC=\sum_{i=1}^n \left( y_i - \hat y_i\right)^2=\sum_{i=1}^n \left( \hat \epsilon_i\right)^2

Como podemos observar, la variabilidad total de la variable se puede descomponer en la variabilidad que explica el modelo y la variabilidad que no explica el modelo. Se cumple por tanto que:

STC = SEC + SCE

 El coeficiente de determinación se puede calcular en base a estas suma como cociente entre la suma explicada de cuadrados y la suma de cuadrados total:

R^2=\frac{SEC}{SCT}=1-\frac{SCE}{SCT}

Ejemplo.-

Calcule la suma total de cuadrados (STC), la suma explicada de los cuadrados (SEC) y la suma de los cuadrados de los residuos (SCE) para el modelo de regresión lineal simple planteado en el ejemplo 1.

Compruebe que se cumple que STC = SEC + SCE y calcule el coeficiente de determinación a partir de estas sumas.