- La correlación pretende analizar el grado de dependencia estadística que presentan dos variables.
- La regresión pretende encontrar la estructura que relaciona dos variables, para trata de estimar los valores de una de ellas a partir de los valores de la otra.
- En este sentido Correlación y Regresión están muy vinculadas y se estudiarán conjuntamente.
Índice
Regresión
Definición.- Regresión
La regresión pretende encontrar la estructura de dependencia que mejor explique el comportamiento de una variable Y a la que denominaremos (variable dependiente, explicada o endógena) a partir de un conjunto de variables , , …, (variables independientes, explicativas o exógenas) relacionadas con Y.
Definición.- Regresión lineal simple
La regresión lineal simple pretende encontrar la recta que mejor explica el comportamiento de la variable dependiente Y a partir del comportamiento de una única variable X.
Nube de puntos
El gráfico de dispersión o nube de puntos representa cada par de valores de X e Y mediante un punto en el espacio eucliedo bidimensional. Si el par (x,y) se repite más de una vez se representará mediante el valor correspondiente a la frecuencia junto al punto. Si los datos están agrupado en intervalos para alguna de las variables, la nube de puntos se obtendrá haciendo uso de las marcas de clase. El gráfico de dispersión será lo primero que observemos para analizar la estructura que presentan los datos.
Regresión lineal simple
Como hemos visto, la regresión lineal simple utiliza la estructura de una línea recta para relacionar el comportamiento de X e Y. La ecuación del modelo será por tanto:
A partir de la información de la muestra tendremos que encontrar los valores de a y b que consiguen minimizar las distancias entre la recta y los valores de las variables. Utilizaremos por tanto el método de mínimos cuadrados ordinarios, según el cual:
La recta obtenida para los datos de la nube de puntos anterior, puede observarse en el siguiente gráfico:
Correlación lineal
Ya hemos visto que la covarianza nos da una medida de la relación que presentan dos variables. Sin embargo las unidades de medida no nos permiten interpretarla adecuadamente. De este modo, para calcular el grado de dependencia mutua que presentan dos variables o la intensidad con la que dos variables están relacionadas usaremos el coeficiente de correlación lineal:
El coeficiente de correlación lineal toma siempre valores entre -1 y 1, es decir, -1≤r≤1.
El coeficiente de correlación lineal r tomará valores 1 o -1 cuando la relación entre las variables sea de dependencia funcional. En esta situación los datos observados coincidirán exactamente con los datos teóricos y en la nube de puntos todos los valores estarán sobre la recta.
Si r es 1 la relación entre las variables será una dependencia funcional positiva y por tanto la recta será creciente y si es -1 una dependencia funcional negativa, con una recta decreciente.
Cuando las variables son independientes, la covarianza será cero y por tanto el coeficiente de correlación lineal también se anulará.
Será difícil encontrar estas dos situaciones cuando analizamos datos reales.
En la mayoría de los casos tendremos que -1<r<0 o 0<r<1. Ambos implican una dependencia estadística entre las variables que será de mayor grado cuanto más cerca se encuentre r de -1 o 1.
El signo como siempre indicará la dirección de la relación entre las variables y nos dirá por tanto si la recta de regresión entre ellas es creciente o decreciente.
Ejemplo de calculo de la covarianza
Para el ejemplo considerado obtendremos ahora la recta de regresión que explica Y en función de X y la correlación entre las variables.
Y | 0 | 1 | 2 | 3 | ||||
X | ||||||||
8 |
0 | 2 | 4 | 7 | 13 | 104 |
234,81 |
|
12 |
2 | 3 | 4 | 1 | 10 | 120 |
0,62 |
|
15 |
9 | 8 | 3 | 1 | 21 | 315 |
158,81 |
|
|
11 | 13 | 11 | 9 | 44 | 539 |
394,25 |
|
|
0 | 13 | 22 | 27 |
62 |
|||
21,84 | 2,17 | 3,84 | 22,78 | 50,63 |
Para el ejemplo considerado obtendremos ahora la recta de regresión que explica Y en función de X y la correlación entre las variables.