Índice
- Planteamiento del modelo de regresión múltiple
- Estimación del modelo de regresión lineal
- Propiedades algebraicas de los estimadores de mínimos cuadrados
- Teorema de Gauss-Markov
- Análisis de la Varianza
- Coeficiente de Determinación
- Esperanza de $latex \hat{\beta}&s=3$
- Matriz de Varianzas-Covarianzas de $latex \hat{\beta}&s=3$
Planteamiento del modelo de regresión múltiple
El modelo de regresión múltiple tiene como objetivo explicar el comportamiento de una variable dependiente utilizando la información proporcionada por los valores de un conjunto de variables explicativas.
En este sentido, este modelo relaciona las variables explicativas con la variable explicada mediante una ecuación lineal con la siguiente estructura:
Los coeficiente (parámetros) , , …, denotan la magnitud del efecto que las variables explicativas , , …, tienen sobre la variable dependiente o explicada, considerando que el resto de variables permanece constante.
El coeficiente se denomina término constante o independiente del modelo.
El término se denomina término de error del modelo.
Para poder aplicar el Modelo de Regresión Lineal simple se deben cumplir las siguientes hipótesis:
Hipótesis 1 (H1): La variable dependiente y las variables independientes (, , …, ) presentan una relación aleatoria y la variable dependiente es cuantitativa.
Hipótesis 2 (H2): Las variables independientes explican a la dependiente, es decir, (, , …, ) explican a Y y no al revés.
Hipótesis 3 (H3): La variable dependiente se relaciona linealmente con las variables dependientes, es decir Y se relaciona linealmente con (, , …, ).
Hipótesis 4 (H4): El modelo esta correctamente especificado, es decir:
No se omiten variables explicativas relevantes para explicar la variabilidad de Y.
No se incluyen variables explicativas superfluas para explicar la variabilidad de Y.
La muestra de datos se adecua a los requerimientos del modelo.
Hipótesis 5 (H5): Los parámetros son constantes, lo que implica que las variaciones de Y ante cambios cada una de las presentan un valor estable para las distintas muestras.
Hipótesis 6 (H6): El tamaño muestral es suficientemente grande para afrontar la estimación de los parámetros del modelo.
n >> K+1
Hipótesis 7 (H7): Las variables explicativas son deterministas, es decir, no son aleatorias y no existe incertidumbre sobre ellas. Esta hipótesis no siempre se cumple.
Un ejemplo de su incumplimiento son las series financieras donde en ocasiones es necesario incluir como variable explicativa la variable dependiente retardada.
Hipótesis 8 (H8):
Las variables explicativas son linealmente independientes entre sí. Esto garantiza que no haya variables redundantes.
Hipótesis 9 (H9):
El término error es un término completamente aleatorio que sigue una distribución normal, de esperanza 0 ().
Hipótesis 10 (H10): La varianza del error es constante a lo largo de las observaciones del modelo ().
Hipótesis 11 (H11): El término error no esta correlacionado entre los elementos del modelo y es independiente también de las variables explicativas.
Estimación del modelo de regresión lineal
Si utilizamos la notación matricial, la ecuación del modelo puede escribirse como:
Si utilizamos la notación matricial, la ecuación del modelo puede escribirse como:
donde:
Partiendo de esta definición matricial, los estimadores de mínimos cuadrados ordinarios (MCO) para los parámetros del modelo () pueden obtenerse haciendo uso de la siguiente expresión:
Teniendo en cuenta que este vector de parámetros no incluye el término independiente, para calcularlo debemos usar:
Propiedades algebraicas de los estimadores de mínimos cuadrados
- Hacen que la línea de regresión muestral pase por el centro de gravedad de las variables que intervienen, es decir, por sus valores medios Y, ,…, .
- Hacen que los residuos tenga media 0, supuesto clave cuando componemos el modelo de regresión lineal en desviaciones a las medias.
- Conforman residuos de regresión no correlacionados con los regresores.
- Conforman residuos de regresión no correlacionados con la estimación de la variable que queremos explicar.
- El valor medio de las n estimaciones de Y coinciden con su valor medio observado.
- Son insesgados y eficientes (de varianza mínima).
Teorema de Gauss-Markov
Supuestos:
- Puede establecerse la relación lineal entre la variable dependiente y las independientes que plantea el modelo.
- Las observaciones han sido obtenidas mediante un muestreo aleatorio.
- La esperanza del termino error es nula.
- Ninguna de las variables independientes es constante y no existen relaciones lineales exactas entre ellas.
- Homoscedasticidad: La varianza del error es constante.
El teorema de Gauss-Markov dice que bajo los supuestos 1 a 5, los estimadores obtenidos por el método de mínimos cuadrados ordinarios son estimadores lineales, insesgados y óptimos de los parámetros del modelo de regresión lineal múltiple.
Análisis de la Varianza
Coeficiente de Determinación
Al igual que en el modelo de regresión lineal simple, el coeficiente de determinación se interpreta como el porcentaje de variación de la variable dependiente explicado por el modelo.
Se calcula como:
Problema: El valor del coeficiente de determinación siempre aumenta cuando incluimos nuevas variables en el modelo, incluso cuando están son poco significativas o tienen poca correlación con la variable dependiente.
Coeficiente de Determinación Corregido
El coeficiente de Determinación es un coeficiente que corrige el problema del coeficiente de determinación.
Se define como:
Como vemos este coeficiente tiene en cuenta el número de variables incluidas en el modelo (K-1).
Este coeficiente permite comparar modelizaciones alternativas que, manteniendo las mismas observaciones, incluyen distinto número de variables.
Esperanza de
Por ser un estimador insesgado de β, su esperanza coincide con el verdadero valor de β:
Matriz de Varianzas-Covarianzas de
Se demuestra que es de varianza mínima, es decir eficiente.