Tema 4b. Correlación y regresión.

  • La correlación pretende analizar el grado de dependencia estadística que presentan dos variables.
  • La regresión pretende encontrar la estructura que relaciona dos variables, para trata de estimar los valores de una de ellas a partir de los valores de la otra.
  • En este sentido Correlación y Regresión están muy vinculadas y se estudiarán conjuntamente.

Regresión

Definición.- Regresión

La regresión pretende encontrar la estructura de dependencia que mejor explique el comportamiento de una variable Y a la que denominaremos (variable dependiente, explicada o endógena) a partir de un conjunto de variables X_1, X_2, …, X_p (variables independientes, explicativas o exógenas) relacionadas con Y.

Definición.- Regresión lineal simple

La regresión lineal simple pretende encontrar la recta que mejor explica el comportamiento de la variable dependiente Y a partir del comportamiento de una única variable X.

Nube de puntos

El gráfico de dispersión o nube de puntos representa cada par de valores de X e Y mediante un punto en el espacio eucliedo bidimensional. Si el par (x,y) se repite más de una vez se representará mediante el valor correspondiente a la frecuencia junto al punto. Si los datos están agrupado en intervalos para alguna de las variables, la nube de puntos se obtendrá haciendo uso de las marcas de clase. El gráfico de dispersión  será lo primero que observemos para analizar la estructura que presentan los datos.

Regresión lineal simple

Como hemos visto, la regresión lineal simple utiliza la estructura de una línea recta para relacionar el comportamiento de X e Y. La ecuación del modelo será por tanto:

Y=a+bX+\epsilon

A partir de la información de la muestra tendremos que encontrar los valores de a y b que consiguen minimizar las distancias entre la recta y los valores de las variables. Utilizaremos por tanto el método de mínimos cuadrados ordinarios, según el cual:

b=\frac{S_{XY}}{S_X^2}=\frac{m_{11}}{m_{10}}

a=\bar{Y}-b \bar{X}

La recta obtenida para los datos de la nube de puntos anterior, puede observarse en el siguiente gráfico:

Correlación lineal

Ya hemos visto que la covarianza nos da una medida de la relación que presentan dos variables. Sin embargo las unidades de medida no nos permiten interpretarla adecuadamente. De este modo, para calcular el grado de dependencia mutua que presentan dos variables o la intensidad con la que dos variables están relacionadas usaremos el coeficiente de correlación lineal:

r=\frac{S_{XY}}{S_X \cdot S_Y}

El coeficiente de correlación lineal toma siempre valores entre -1 y 1, es decir, -1≤r≤1.

El coeficiente de correlación lineal r tomará valores 1 o -1 cuando la relación entre las variables sea de dependencia funcional. En esta situación los datos observados coincidirán exactamente con los datos teóricos y en la nube de puntos todos los valores estarán sobre la recta.

Si r es 1 la relación entre las variables será una dependencia funcional positiva y por tanto la recta será creciente y si es -1 una dependencia funcional negativa, con una recta decreciente.

Cuando las variables son independientes, la covarianza será cero y por tanto el coeficiente de correlación lineal también se anulará.

Será difícil encontrar estas dos situaciones cuando analizamos datos reales.

En la mayoría de los casos tendremos que -1<r<0 o 0<r<1. Ambos implican una dependencia estadística entre las variables que será de mayor grado cuanto más cerca se encuentre r de -1 o 1.

El signo como siempre indicará la dirección de la relación entre las variables y nos dirá por tanto si la recta de regresión entre ellas es creciente o decreciente.

Ejemplo de calculo de la covarianza

Para el ejemplo considerado obtendremos ahora la recta de regresión que explica Y en función de X y la correlación entre las variables.

Y 0 1 2 3 n_{i \cdot} x_i  \cdot n_{i \cdot} (x_i - \bar{X}) \cdot n_i
X

8

0 2 4 7 13 104

234,81

12

2 3 4 1 10 120

0,62

15

9 8 3 1 21 315

158,81

n_{ \cdot j}

11 13 11 9 44 539

394,25

y_j \cdot n_{ \cdot j}

0 13 22 27

62

(y_j - \bar{Y}) \cdot n_j 21,84 2,17 3,84 22,78 50,63

Para el ejemplo considerado obtendremos ahora la recta de regresión que explica Y en función de X y la correlación entre las variables.

\bar{X} =12,25

\bar{Y} =1,41

S_{XY} =-2,01

m_{20}=8,96

m_{02} =0,82

Y=a+bX+\epsilon

b=\frac{S_{XY}}{S_X^2}=\frac{-2,01}{8,96}=-0,22

a=\bar{Y}-b \cdot \bar{X}=1,41+0,22 \cdot 12,25 = 4,15

\hat{Y}=4,15-0,22X

r=\frac{S_{XY}}{S_X S_Y}= \frac{-2,01}{\sqrt{8,96} \cdot \sqrt{0,82}}=-0,74