Tema 6. Autocorrelación

¿Qué es la autocorrelación?

La Autocorrelación es un problema que presentan los modelos de regresión cuando el error presenta correlaciones distintas de cero entre los distintos momentos del tiempo o para los distintos individuos.

Sabemos que la matriz de varianzas-covarianzas del error para los distintos items, debe ser una matriz diagonal que contenga la varianza del error en la diagonal principal, siendo está única, es decir:

VAR[\epsilon_i,\epsilon_j]=\left(\begin{array}{cccc} \sigma_\epsilon^2 & 0 & ... & 0\\ 0 & \sigma_\epsilon^2 & ... & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0&0&... &  \sigma_\epsilon^2 \\ \end{array}  \right)

Si existen correlaciones distintas de cero para los errores en los distintos items, está matriz no será diagonal, ya que tendrá valores distintos de cero fuera de la diagonal principal. Esto supondría el incumplimiento de una de las hipótesis básicas del modelo de regresión lineal, que indica que el error para los distintos items debe ser completamente independiente, o dicho de otro modo, se debe cumplir que:

COV(\epsilon_i,\epsilon_j)=0 \forall i,j

Diremos por tanto que un modelo de regresión lineal tiene un problema de autocorrelación, cuando no se cumpla la expresión anterior.

Los problemas de autocorrelación se presentan con mayor frecuencia en series temporales, dónde es común que la variable dependiente tenga cierta relación para los distintos momentos del tiempo y está relación a veces se trasmite al error, por no estar contenida en el modelo. En este caso hablamos de autocorrelación o correlación serial. Si el problema se presentase en datos de corte trasversal hablaríamos de correlación espacial.

La autocorrelación puede estar originada por errores de especificación en el modelo. Este sería el caso que comentabamos anteriormente sobre las series temporales. Si una serie está correlacionada con sus momentos anteriores, deberíamos incluir estos momentos anteriores como variables del modelo, ya que si no lo hacemos quedarán reflejados en el error. Cuando esto sucede, la única solución posible es reespecificar el modelo.

Consecuencias de la autocorrelación

El estimador que se obtiene para los parámetros del modelo de regresión lineal por el método de mínimos cuadrados ordinarios, sigue siendo insegado en presencia de autocorrelación, sin embargo deja de ser eficiente, y no se pueden obtener como hasta ahora las varianzas de los estimadores de los parámetros, por lo que los contrastes pierden validez.

En esta situación, tendiendo en cuenta las correlaciones del error, es posible obtener un estimador para los parámetros del modelo que resulte más eficiente: el estimador de mínimos cuadrados generalizados.

Ejemplo de detección de autocorrelación

Para detectar la autocorrelación utilizaremos tres métodos:

  • El estadístico de Durbin-Watson.
  • El contraste de Breusch-Godfrey.
  • El contraste de Ljung-box

Analizaremos para ello un ejemplo en el que se pretende modelizar el comportamiento de las exportaciones de un país a partir de su producto interior bruto y su inversión extranjera. La estimación del modelo es la siguiente:

El estadístico de Durbin-Watson

En la estimación del modelo Eviews incluye el estadístico de Durbin-Watson. Este es uno de los métodos más utilizados la detección de problemas de autocorrelación en los modelos de regresión lineal, por eso el software lo incluye directamente en la ventana de la estimación.

El estadístico de Durbin-Watson sirve para contrastar la hipótesis nula de «ausencia de autocorrelación en el modelo», frente a la alternativa que plantea la existencia problemas de autocorrelación en el modelo, que vienen dados por una correlación serial de orden 1 (AR(1)), es decir:

H_0: \rho_1=0   \equiv  Ausencia de autocorrelación.

H_1: \rho_1\neq0 \equiv AR(1) \equiv   Problemas de autocorrelación.

El estadístico de Durbin-Watson se calcula mediante:

d= \frac{\sum_{i=2}^n(e_t-e_{t-1})^2}{\sum_{i=1}^ne_t^2}

Este estadístico toma valores cercanos a 2 cuando el modelo no tiene problemas de autocorrelación. Si existe una autocorrelación positiva entre las perturbaciones, el estadístico tendrá un valor cercano a 0, mientras que si la correlación es negativa será próximo a 4.

  • d \approx  2 \rightarrow No hay problemas de autocorrelación.
  • d \approx 0 \rightarrow Autocorrelación positiva.
  • d \approx  4 \rightarrow Autocorrelación negativa.

En nuestro ejemplo el estadístico de Durbin-Watson toma valor 0,964133, por lo que podemos decir que el modelo presenta problemas de autocorrelación positiva entre las perturbaciones, ya que el valor es cercano a 0.

El estadístico de Durbin-Watson tiene el problema de que solo permite contrastar si existe autocorrelación con un esquema AR(1), es decir, si el error está correlacionado únicamente con su pasado inmediatamente anterior. Si hubiese un problema de autocorrelación de orden mayor que 1, este contraste no lo detectaría.

Además, este contraste no proporciona datos fiables si la muestra tiene un tamaño pequeño y requiere que el modelo planteado incluya término independiente. En el caso de incluir algún retardo de la variable endógena como variable explicativa, tampoco se podrá utilizar.

El contraste de Breusch-Godfrey

El contraste de Breusch-Godfrey permite contrastar la presencia de problemas de autocorrelación en un modelo de regresión lineal, en un esquema más amplio que el estadístico de Durbin-Watson, ya que, en la hipótesis alternativa, contempla tanto procesos autorregresivos de orden superior a 1 (AR(p)) como procesos de medias móviles de cualquier orden (MA(q)). Esto permite su uso incluso si se han incluido retardos de la variable dependiente como regresores en el modelo, cosa que no permitía el estadístico de Durbin-Watson.

El contraste de Breusch-Godfrey contrasta la hipótesis nula de ausencia de autocorrelación, frente a la alternativa de presencia de esquemas autorregresivos AR(p) o MA(q), es decir:

H_0: \rho_i=0 \forall i \in (1,r)  \equiv  Ausencia de autocorrelación.

H_1: AR(r) o MA(r)  \equiv  Problemas de autocorrelación.

Este contraste se apoya en un modelo auxiliar que trata de explicar el comportamiento de los residuos a partir de la variables explicativas incluidas en el modelo y del pasado de los residuos. De este modo, si este contraste consigue su objetivo de explicar el comportamiento de los residuos, esto será sin duda una señal de problemas de autocorrelación, ya que implicará que los residuos están relacionados con su pasado.

En este modelo auxiliar se pueden incluir tantos retardos como se deseen contrastar. El estadístico de Breusch-Godfrey se calcula como el producto entre el tamaño muestral y el coeficiente de determinación del modelo auxiliar y bajo la hipótesis nula sigue una distribución chi-cuadrado con r grados de libertad, es decir,

n R^2 \sim \chi^2(r)

Para realizar el contraste en Eviews debemos usar el siguiente menú de la ventana ecuación:

View -> Residual Diagnostic -> Serial Correlation LM test

En el cuadrado de dialogo que aparece debemos indicar r, es decir, el número de retardos que queremos incluir en la regresión auxiliar.

En nuestro ejemplo, al hacer el contraste de Breusch-godfrey para 3 retardos se obtiene un estadístico de contraste de 11,60 y un p-valor de 0,0089 que permite rechazar la hipótesis nula de ausencia de autocorrelación a nivel de significación 0,05. Concluimos por tanto que este modelo tiene un problema de autcorrelación.

El contraste de Ljung-Box

El contraste de Ljung-Box es uno de los más utilizados para detectar esquemas de autocorrelación en el modelo, ya que nos permite determinar de forma precisa el comportamiento de dicha autocorrelación. Es bastante utilizado también en el análisis de series temporales, justamente por este motivo, porque ayuda a encontrar la mejor forma de modelizar las series. Con este objetivo, Eviews lo calcula junto con las funciones de autocorrelación y autocorrelación parcial de la serie, pero para detectar simplemente problemas de aucorrelación en un modelo de regresión lineal, no será necesario que nos fijemos en estas.

Al igual que en los anteriores, en el contraste de Ljung-Box la hipótesis nula es la ausencia de autocorrelación, pero la alternativa ahora permite plantear esquemas ARMA(p,q) en los que los elementos autorregresivos y de medias móviles se combinan en una misma ecuación. Las hipótesis nula y alternativa serán por tanto:

H_0: \rho_i=0 \forall i \in (1,r)  \equiv  Ausencia de autocorrelación.

H_1: ARMA(p,q)  \equiv  Problemas de autocorrelación.

El estadístico de contraste del contraste de Ljung-Box es:

Q=n \cdot (n+2) \sum_{j=1}^k \frac{\hat{\rho}_j^2}{n-j}

Y bajo la hipótesis nula de ausencia de autocorrelación en el modelo, este estadístico sigue una distribución Chi-cuadrado con r-p-q grados de libertad, donde r es el número máximo de retardos incluidos en el contraste, p el orden del proceso autorregresivo y q el orden del proceso de medias móviles.

Para realizar el contraste de Ljung-Box en Eviews debemos seleccionar en el menú del modelo:

View -> Residual Diagnostic -> Correlogram-Q-statistic

y seleccionar el número de retardos a contrastar en el cuadrado de dialogo que aparece a continuación. Para nuestro ejemplo tendremos:

En la salida del contraste vemos como adelantábamos las funciones de autocorrelación y autocorrelación parcial junto a los valores del estadístico de contraste y el p-valor asociado en cada caso. Eviews calculará tantos contrastes como retardos hayamos solicitado en el cuadro de dialogo anterior. El primero de ellos contrasta la hipótesis nula para r=1, el segundo para r=2 y así sucesivamente.

Vemos en nuestro ejemplo como se rechaza la hipótesis nula para todos los estadísticos calculados, por lo que debemos asumir de nuevo que existe un problema de autocorrelación en el modelo.