Tema 3. Multicolinealidad con Gretl

Para analizar adecuadamente los resultados de un modelo de regresión lineal múltiple, es importante estudiar el grado de relación lineal existente entre las variables explicativas que lo componen.

Encontramos en este sentido 3 posibles situaciones:

  • Ortogonalidad.
  • Multicolinealidad perfecta.
  • Multicolinealidad imperfecta.

Ortogonalidad.

La ortogonalidad surge cuando la relación lineal entre los regresores incluidos en el modelo es nula. Implica por tanto que no existen relaciones lineales entre los regresores del modelo.

La ortogonalidad no supone el incumplimiento de ninguna de las hipótesis de nuestro modelo. De hecho una de las hipótesis del modelo es que las variables explicativas sean independientes entre sí.

Es difícil encontrar variables en el mundo real que presenten ortogonalidad.

Multicolinealidad Perfecta

Un modelo de regresión lineal presentará multicolinealidad perfecta cuando exista alguna relación lineal exacta entre algunos de los regresores que lo componen.

Considerando la ecuación general del modelo de regresión lineal múltiple:

y_i = \beta_0 + \beta_1 \cdot x_1 + \beta_2 \cdot x_2 + ... \beta_k \cdot x_k +\epsilon_i

Diremos que el modelo presenta multicolinealidad perfecta si sucede por ejemplo que:

X_{4i} = X_{1i}+ 5 \cdot X_{3i}   o   X_{3i} = X_{2i} - 1

En ambos casos podemos obtener de forma exacta las observaciones de una variable regresora a partir de una combinación lineal de otra u otras.

La multicolinealidad perfecta supone el incumplimiento de una de las hipótesis en la que se basa el modelo de regresión lineal clásico, que es la inexistencia de combinaciones lineales exactas entre los regresores del modelo.

Esta hipótesis garantiza la existencia de la matriz (XtX)-1, de modo que si no se cumple no se podrán calcular los estimadores de los parámetros del modelo, por no existir el determinante de XtX. En esta situación, Gretl ignora una de las variables que forman el problema de forma automática y estima el modelo sin ella.

Multicolinealidad Imperfecta

Decimos que un modelo de regresión múltiple presenta multicolinealidad imperfecta cuando existen relaciones lineales fuertes entre algunas de sus variables explicativas.

Ejemplo.- Si tratamos de explicar el número de tarjetas de crédito que tienen las familias y utilizamos como variables explicativas:

  • El número de miembros de la unidad familiar
  • La renta familiar
  • El número de vehículos

Fácilmente nos encontraremos con un problema de multicolinealidad fuerte, pues es de esperar que en nuestros datos existan altas correlaciones  entre variables como la renta y el número de vehículos, o el número de vehículos y el número de miembros de la familia.

Consecuencias de la Multicolinealidad Imperfecta

La multicolinealidad imperfecta es un problema muy común en los modelos econométricos que incumple la hipótesis básica de independencia entre las variables explicativas.

Si un modelo presenta multicolinealidad, los estimadores de mínimos cuadrados ordinarios siguen siendo los mejores estimadores que pueden  obtenerse y cumpliendo muchas de las propiedades deseadas para un estimador como la insesgadez y la eficiencia.

De la multicolinealidad imperfecta se derivan las siguientes consecuencias:

  1. Errores estándar de estimación elevados o varianzas grandes en los estimadores.
  2. Inestabilidad de los estimadores ante pequeñas variaciones muestrales. Este problema es consecuencia directa del anterior, ya que si las varianzas de los estimadores son grandes, los estimadores resultan más inestables.
  3. Dificultad para interpretar los coeficientes y por tanto sus estimaciones. Los coeficientes de regresión (βi) se interpretan como el cambio que se produce en la variable dependiente (y) ante variaciones de la variable independiente (xi) de una unidad, siempre que el resto de las variables explicativas permanezca constante. Cuando existe multicolinealidad imperfecta es imposible suponer que el resto de las variables permanecen constantes cuando una cambia, ya que si están altamente relacionadas cambios en una implicarán cambios en el resto. Por este motivo los parámetros pierden significado.

Ejemplo completo de análisis de multicolinealidad.

El fichero ahorro_familias.gdt recoge datos del ahorro anual de una muestra de familias y otras variables relacionadas, que son:

  • Renta: Renta neta anual de la unidad familiar, calculada como la suma de las rentas netas de todos los miembros de la unidad familiar en activo.
  • Tamanno: Número total de miembros que conviven en el domicilio familiar.
  • GastoViv: Gasto anual en vivienda de la unidad familiar, ya sea como pago de un préstamo para la adquisición de la misma o como alquiler.

Se generará un modelo para explicar el ahorro familiar a partir de la renta familiar, del tamaño y del gasto en vivienda y se analizará si el modelo presenta problemas de multicolinealidad.

Estimación del modelo

Para estudiar la multicolinealidad tenemos las siguiente herramientas:

  • Observar la matriz de correlaciones entre las variables explicativas y su determinante.
  • Analizar la significación individual y conjunta de los regresores.

Matriz de correlaciones de las variable explicativas

La matriz de correlaciones  entre las variables explicativas nos permite observar el grado de relación lineal existente entre cada par de regresores. Cuando alguno de los coeficientes de correlación es elevado (próximo a ±1) tendremos un indicio de la existencia de multicolinealidad imperfecta en el modelo.

En nuestro ejemplo la matriz de correlaciones es:

Observamos que la correlación entre las variables GastoViv y Renta es muy alta (0,9920) lo que nos alerta de que probablemente tendremos un problema de multicolinealidad generado por la presencia de estas dos variables en el modelo, ya que prácticamente contienen la misma información.

Entre el tamanno y la renta y el tamanno y el GastoViv, las correlaciones también son altas aunque no tanto como para generar un problema muy grave, pero sí habrá que tenerlo en cuenta a la hora de interpretar los parámetros.

Determinante de la matriz de correlaciones de las variable explicativas

En ocasiones, aunque los coeficientes de correlación lineal no presentan grandes correlaciones, existe un problema de multicolinealidad que se debe a la relación entre más de dos variables. En estos casos es necesario obtener el determinante de la matriz de correlaciones para detectarla la presencia de multicolinealidad.

El determinante de la matriz de correlaciones mide la relación de todas las variables explicativas en conjunto. Cuando la relación entre las variables explicativas es muy alta, el determinante de la matriz de correlaciones toma un valor cercano a cero. Y en el caso de relaciones lineales perfectas, el determinante tomará valor cero.

Para calcular el determinante de la matriz de correlaciones en Gretl tendremos que hacer uso de la consola de Gretl. Para abrirla tenemos la secuencia:

Herramientas -> consola de Gretl

En la consola de Gretl podemos realizar operaciones con los objetos de nuestro archivo haciendo uso de los comandos de Gretl.

Para obtener el determinante de la matriz de correlaciones de las variables regresoras del modelo, seguiremos los siguientes pasos:

  1. Generar una matriz con las variables explicativas.
  2. Calcular la matriz de correlaciones de las variables explicativas.
  3. Obtener el determinante.

1.Para agrupar las variables en una matriz hacemos:

  matrizvariables = {Renta, tamanno, GastoViv}

2.Una vez que tenemos las variables agrupadas en una matriz, calculamos la matriz de correlaciones:

 matrizcorrelaciones=mcorr(matrizvariables)

3.Finalmente obtendremos el determinante con la función det:

  determinante=det(matrizcorrelaciones)

En el ejemplo que nos ocupa sobre el ahorro familiar, el determinante de la matriz de correlaciones de los regresores tiene un valor de 0,00866012. Como se trata de un valor cercano a cero podemos decir que el modelo presenta un problema de multicolinealidad.

Significatividad individual y conjunta de las variables explicativas

En presencia de multicolinealidad imperfecta los errores estándar de estimación de los parámetros se hacen anormalmente grandes. En esta situación los contrastes de significatividad individual tienden a fallar, aceptando como variables no significativas a variables con capacidad explicativa sobre la variable dependiente.

Para detectar esta situación tenemos dos opciones:

– Observar si las variables que aparecen como no significativas en el modelo están altamente correlacionadas con la variable dependiente.

– Observar si las variables que aparecen como no significativas en el modelo generan por si solas modelos significativos.

En nuestro modelo si tenemos en cuenta el contraste de significatividad individual diremos que las variables tamaño y gasto en vivienda no son significativas:

Sin embargo, podemos observar que las correlaciones que tienen con la variable dependiente son fuertes.

Por otro lado, si plantemos modelos de regresión simple para explicar el ahorro de las familias a partir de estas variables encontraremos que estos modelos sí son significativos.

Este es otro indicio de que hay problemas de multicolinealidad con ambas variables.

Medidas de corrección de la multicolinealidad.

Como la multicolinealidad es un problema muestral, en muchos casos se puede resolver simplemente ampliando la muestra. No obstante, si teníamos acceso a más información deberíamos haberla usado desde el principio.

Una posible solución para la multicolinealidad imperfecta es la eliminación de alguna de las variables causantes de dicha multicolinealidad. En este caso se puede incurrir en un error de especificación por omisión de una variable relevante.

Hay que tener en cuenta que, cuanto mayor sea la información compartida por las variables, es decir, cuanto mayor sea el grado de multicolinealidad, menor será el riesgo de cometer un error de especificación por omisión al eliminar una de las variables que la generan.

Si el objetivo del modelo es principalmente predictivo nos podemos plantear la eliminación de variables para resolver un problema de multicolinealidad, pero si se trata de encontrar los factores que afectan a una variable no deberíamos eliminar ningún factor.

Otra solución práctica a la que se recurre con frecuencia es  la transformación de las variables incluidas en el modelo, en un intento de que las variables transformadas presenten correlaciones lineales más bajas.

Las transformaciones más comúnmente utilizadas son el cálculo de los incrementos de la variables (si se trata de una serie temporal) o relativizarlas con respecto a una variable común (por ejemplo ponerlas en término per cápita).

En nuestro ejemplo podemos trabajar con las variables en pércapita para tratar de resolver el problema de multicolinealidad.

Ejercicio propuesto.-  Estimar el nuevo modelo con las variables per capita y estudiar su multicolinealidad.

Otra solución sería utilizar otros métodos de estimación.

No obstante si los fines que se persiguen con la construcción del modelo son predictivos, el problema de la multicolinealidad no es tan relevante, ya que no afecta a la capacidad explicativa conjunta de la variables y ni, por tanto, a su capacidad predictiva.