Tema 1c. Introducción al Gretl

¿Qué es Gretl?

Gretl es un software de libre distribución diseñado especialmente para el análisis econométrico y la estimación de modelos econométricos.

Tanto el paquete principal como los paquetes específicos se pueden descargar de forma gratuita en: http://gretl.sourceforge.net/.

Existen versiones para Windows(http://gretl.sourceforge.net/win32/) y Mac(http://gretl.sourceforge.net/osx.html).

El software incluye una “guía de usuario” en su menú de ayuda en la que se explican detalladamente todas sus funcionalidades.

Gretl dispone de un interfaz gráfica que facilita su uso. Es capaz de integrarse con R y de producir salidas en LateX. Permite además importar datos de archivos: csv, Excel, Stata, Eviews y OpenDocument Spreadsheet, entre otros formatos.

Gestión de datos con Gretl

Para comenzar a trabajar en Gretl, el primer paso es incluir los datos con los que vamos a trabajar. En este sentido tenemos 3 posibilidades:

  1. Incluir los datos manualmente.
  2. Abrir datos pertenecientes a un archivo Gretl.
  3. Abrir datos con formatos diferentes a Gretl.

1. Incluir los datos manualmente.

Es poco habitual incluir los datos de forma manual. No obstante, si necesitamos crear el conjunto de datos de cero y no los tenemos digitalizados debemos hacer clic en:

Archivo -> Nuevo conjunto de datos

Obtendremos a continuación un cuadro de diálogo en el que nos preguntarán el tamaño de la muestra.

Posteriormente tendremos que indicar si los datos son:

  • Sección cruzada
  • Serie temporal
  • Datos de panel

Y finalmente confirmamos que la estructura es correcta y comenzamos a incluir los datos:

Si incluimos datos de series temporales tendremos que definir su periodicidad e indicar la fecha de inicio de los datos.

2. Abrir datos pertenecientes a un archivo Gretl.

Los archivos de gretl, tienen extensión .gdt y se abren haciendo clic en:

Archivo -> Abrir Datos -> Archivo de usuario.

3. Abrir datos con formatos diferentes a Gretl.

Desde Gretl se pueden abrir archivos de datos en formatos diferentes, entre lo que destacaremos: Excel, ASCII, Eviews y Stata. La secuencia de comandos es la misma que para abrir archivos .gdt:

Archivo -> Abrir Datos -> Archivo de usuario.

Lo que cambia es que en el cuadro de dialogo que aparece para buscar el archivo, debemos seleccionar primero la extensión de nuestros datos

Para que gretl abra correctamente nuestro archivo de datos, es importante que este tenga el formato adecuado, es decir, que tengamos los datos de las distintas variables dispuestos en columnas, con el nombre de la variable en la primera celda. Si no tenemos el nombre de la variable en la primera celda gretl le dará nombres a las variables de forma automática. Antes de importar datos de Excel, nos pregunta en qué celda se encuentra el primero de ellos, la identificaremos por la fila y la columna.

Una vez que hemos abierto el conjunto de datos nos aparecerá la pantalla de gretl con el listado de variables que contengan los datos:

En este caso tenemos 3 variables cuyos nombres son v1, v2 y v3. El objeto “const” aparecerá siempre por defecto.

Si hemos incluido datos de archivos diferentes a Gretl, es interesante indicar al software si se trata de datos de sección cruzada o datos de panel. Podemos hacerlo a través de la secuencia:

Datos -> Estructura del conjunto de datos.

El menú datos también nos ofrece otras opciones que pueden resultar de interés como son:

  • Mostrar valores: Para mostrar los valores de la variable.
  • Editar valores: Para modificar datos en caso necesario.
  • Trasponer datos: Traspone la matriz de datos original ( de la que se han importando los datos). Convierte por tanto, las variables en observaciones y las observaciones en variables, ya que asume que los datos originales tenían las variables organizadas por filas.
  • Ordenar datos: Nos permite ordenar todo el conjunto de datos en orden ascendente o descendente de acuerdo con los valores de la variable que queramos.

Cuando incorporamos los datos de archivos diferentes a gretl, si no tenemos los nombres de las variables en el lugar adecuado gretl nombra nuestras variables como v1, v2,… posteriormente podremos cambiar este nombre e incluir alguna etiqueta mediante:

Variable -> Editar atributos.

Aquí podemos cambiar el nombre, incluir descripciones, añadir las etiquetas que queremos que aparezcan en los gráficos e incluso indicarle al software que se trata de una variable discreta.

Estadística descriptiva

Ejemplo 1.- El archivo Excel “Ventas” contiene datos sobre las ventas medidas en unidades de un determinado grupo de productos, su precio y la inversión realizada en I+D por unidad de producto vendida.

Se tomarán estos datos como ejemplo para ilustrar el análisis descriptivo univariante y multivariante.

Estadísticos univariantes

Mediante el menú:

Variable -> Estadísticos principales.

Obtendremos los siguientes estadísticos descriptivos para la variable ventas:

También podemos obtener la distribución de frecuencias mediante:

Variable -> Distribución de frecuencias.

En este caso debemos rellenar el cuadro de dialogo indicando como queremos estructurar los datos y si deseamos mostrar únicamente los datos o queremos incluir contraste para ver si los datos siguen una distribución normal o una distribución gamma.

Si solicitamos el contraste de normalidad, obtendremos la siguiente salida:

Y el siguiente gráfico:

Contraste de normalidad

Gretl incluye 4 contrastes de normalidad. Todos ellos contrastan la misma hipótesis nula:

  • H0: Los datos de la muestra provienen de una distribución normal.
  • H1: La distribución de los datos no es normal.

En el caso de la variable ventas de nuestro ejemplo, que vemos que en todos los contrastes el p-valor está por encima del nivel de significación 0,05, por lo que no tenemos evidencias suficientes para rechazar la hipótesis nula y debemos aceptar que los datos provienen de una distribución normal.

Estadísticos multivariantes

En el menú: Ver -> Estadísticos principales

Podemos obtener los principales estadísticos descriptivos para un conjunto de variables a la vez, que podemos seleccionar de entre las variables disponibles en el conjunto de datos.

Matriz de correlaciones

La matriz de correlaciones incluye las correlaciones cruzadas entre las variables que seleccionemos. La obtenemos mediante la secuencia:

Ver -> Matriz de correlación



Coeficiente de correlación lineal

Llamamos correlación al grado de dependencia mutua entre las variables. La correlación trata de medir la intensidad con que dos variables pueden estar relacionadas.

  • Si r=1 -> correlación lineal perfecta positiva.
  • Si r=-1 -> correlación lineal perfecta negativa.
  • Si r=0 -> correlación lineal nula.
  • Si -1<r<0 -> correlación lineal negativa. Si r es cercano a 0 diremos que la relación es débil, y cuanto más se acerque a -1 consideráremos que la relación es más fuerte.
  • Si 0<r<1 -> correlación lineal positiva.Consideraremos también que cuanto más se acerque a 0 más débil es la relación entre las variables y si el valor es próximo a 1 la relación podrá considerarse fuerte.

Gráfico de dispersión

Ver -> Gráficos -> Gráfico X-Y (Scatter)

Gráfico de dispersión (múltiple): Ver -> Gráficos múltiples -> Gráficos X-Y (Scatter)

Gráficos de distribuciones

Herramientas -> Gráficos de distribuciones

Gráficos de funciones

Herramientas -> Dibujar una curva

Transformación de variables y submuestras

Añadir variables

Podemos crear nuevas variables para incluir los datos manualmente o bien generando los datos a partir de transformaciones de otras variables. Para ello debemos usar la secuencia:

Añadir -> Definir nueva variable

Si incluimos únicamente un nombre de variable nos generará una variable vacía a la que podemos incluir los datos manualmente. Para generar los datos de la nueva variable a partir de las variables incluidas en el fichero debemos incluir la fórmula que la generará. Ejemplo.- Doble_ventas=ventas*2

Existen multitud de operadores, expresiones y fórmulas a la definición de variables.

Operadores: suma +, resta -, multiplicación *, división / y potencia ^ 

Funciones:

  • abs(x): Valor Absoluto de X.
  • round(x): Redondeo de X al entero más próximo.
  • floor(x): Entero más próximo a X por defecto, esto es, parte entera de X.
  • exp(x): Exponencial de x.
  • log(x): Logaritmo Natural.
  • sqrt(x), sqr(x): Raíz cuadrada de x.

Retardos:

Cuando trabajamos con series temporales en ocasiones nos interesa tomar como variable la propia variable en el pasado. Esto es lo que denominamos retardo. Para crear una variable con los retardos de orden 3 de ventas (a la que denominaremos Retardo3) haremos:

Retardo3=Ventas(3)

Podría interesarnos también crear variables ficticia dicotómicas. Para poder crearlas es posible utilizar operadores lógicos como son:

= , <> , < , >

Un cambio estructural es un cambio que se produce en las series temporales por efecto de algún suceso que hace que cambie la estructura de los datos.

Si en vez de tener las ventas y precios para un conjunto de productos tuviésemos la evolución de las ventas para un producto a lo largo del tiempo, está podría verse afectada por una campaña de publicidad que se produjese en un momento determinado.

Para realizar un cambio estructural primero debemos generar la variable índice, para ello usaremos la secuencia:

Añadir -> Variable Indice

Y con ella podremos crear una variable ficticia que tome valor 0 para un periodo y 1 para otro:

Submuestras

El menú muestra nos permite determinar las observaciones que incluiremos en nuestro estudio, ya que en ocasiones nos interesará trabajar con parte de la muestra y no con la muestra completa.

La secuencia: muestra -> Establecer rango permite fijar el rango de observaciones con el que queremos trabajar, seleccionando la primera y la última. Cuando queramos volver a trabajar con todas las observaciones debemos hacer clic en muestra -> Recuperar rango completo.

La sencuencia: muestra -> submuestra aleatoria permite fijar el rango de trabajo en una submuestra aleatoria del tamaño que queramos.

Contrastes de hipótesis en Gretl

Ejemplo.- Supongamos que queremos contrastar la siguiente hipótesis:

  • H0: µ = 10
  • H1: µ < 10

Y lo hacemos para una población de datos normales con desviación típica 0,2, es decir, X~N(μ;0,2), de la que contamos con una muestra de 100 datos.

Sabemos que en esta situación, podemos usar como estadístico de contraste la media muestral y la distribución de la media muestral es:

\bar{X}  \sim N(\mu; \sigma / \sqrt{n})

luego en nuestro caso, si la hipótesis nula es verdadera, la distribución de la media muestral será: \bar{X}  \sim N(10; 0,2/ \sqrt{100})

Valores críticos

Gretl nos permite obtener un valor crítico para esta distribución a través del menú: Herramientas -> Tablas estadísticas:

P-valor

Si quisiéramos obtener un, p-valor para este contraste podríamos hacerlo a través del menú: herramientas -> buscador de p-valores.

Para obtener un p-valor necesitaremos conocer el valor de la media muestral, supongamos en este caso que \bar{X}=9,95.

Si la media muestral es de 9,95 ya sabemos que debemos rechazar la hipótesis nula (H0: µ = 10), ya que la región crítica marcaba rechazarla siempre que la media muestral fuese inferior a 9,9671.

No obstante, atendiendo al criterio del p-valor debemos fijarnos en la probabilidad que nos queda a la izquierda, ya que se trata de un contraste de una cola (H1: µ < 10). En este caso el p-valor es 0,0062, por lo que a nivel de significación 0,05 debemos rechazar la hipótesis nula de que la media poblacional tome valor 10.

Contrastes de hipótesis

Gretl permite contrastar hipótesis nulas básicas, para el caso de datos que provienen de una distribución normal, a través del menú:

Herramientas -> Calculadora de estadísticos de contraste.

El contraste que aparece en la primera pestaña, es sobre la media poblacional, con lo que podemos continuar con nuestro ejemplo. El software también permite realizar contrastes, en base a la información muestral de las variables de las que disponemos. Con ejemplo que tenemos obtendremos:

Vamos a contrastar ahora si la varianza poblacional de la variable ventas toma valor 3000, es decir:

  • H0: σ = 3000
  • H1: σ ≠ 3000

A nivel de significación 0,05 no tenemos evidencias suficientes para rechazar que la varianza poblacional sea 3000.

Contraste de igualdad de medias

Resulta de especial interés el contraste de igualdad de medias, que nos permite contrastar, entre otras cosas, si la media de una determinada variable se ve modificada por alguna variable dicotómica o cambio estructural.

Para realizar este contraste en gretl tendremos que separar los valores de la variable primero, ya que el software no permite categorizarlos de forma automática.

Asumiremos que los datos de nuestra variable ventas incluyen las ventas de un producto a lo largo del tiempo y nos interesa ver si se han visto afectadas por la campaña de publicidad que mencionábamos antes, que tuvo lugar en index=13.

Crearemos 2 variables:

  • Antes = index<13
  • Despues = index>=13

Una vez creadas las multiplicaremos por ventas para separar estas variable en las ventas antes de la campaña y las ventas después.

Ahora es necesario eliminar los ceros para que no los tome como observaciones. Para ello debemos hacer uso de la secuencia:

Datos -> Establecer código de ‘valor ausente’

Debemos tener en cuenta   que al hacer esto todos los ceros que haya en el conjunto de datos se convertirán en valores perdidos. Si tenemos alguna otra variable que pueda tener valor 0, sin ser este un valor ausente, tendremos que buscar la forma de recodificar para no perder dicho valor.

En nuestro caso se perderán únicamente los ceros de las variables dicotómicas que hemos creado, pero no importa, ya que si las necesitamos de nuevo podemos volver a crearlas.

Una vez que tenemos las variables podemos hacer el contraste:

Para ello seleccionaremos el contraste de 2 medias y marcaremos usar variables del conjunto de datos. Seleccionaremos las variables generadas: ventasantes y ventasdespues.

Las hipótesis del contraste son:

  • H0: µ1 = µ2  ó µ1 – µ2 = 0
  • H1: µ1 ≠ µ2  ó µ1 – µ2 ≠ 0

En este caso vemos que el p-valor a dos colas es de 0.975, por lo que no tenemos evidencias suficientes para rechazar la hipótesis nula de que las medias de la variable Ventas, antes y después de la campaña publicitaria son iguales.

Hemos usado en este caso el contras de 2 colas porque nuestra hipótesis nula es que las medias son iguales y la alternativa que son diferente.