X la matriz Tx k de observaciones de las variables explicativas, con e u




descargar 62.95 Kb.
títuloX la matriz Tx k de observaciones de las variables explicativas, con e u
fecha de publicación19.02.2016
tamaño62.95 Kb.
tipoDocumentos
b.se-todo.com > Economía > Documentos
Matrices no escalares y heteroscedasticidad.



  1. Introducción.


En un modelo cuya perturbación aleatoria tiene de matriz de varianzas 2 I se dice que es escalar pues todos los elementos son iguales en la diagonal y los de fuera de ella son ceros.
Existen sin embargo, dos situaciones en que la matriz tiene una situación compleja:
- Una de tales situaciones se produce cuando la varianza del termino error no es constante, es decir s#t. Que suele ser frecuente en datos de corte transversal. A esta situación se le denomina heteroscedasticidad, a diferencia del caso en que la varianza sea constante, que hablábamos de homoscedasticidad.
- Una segunda situación ocurre cuando, los datos de fuera de la diagonal no son cero es decir cov (ut,us) = E (ut,us) #0, para algún elemento. Esta situación que hace que la matriz no sea diagonal, se le denomina autocorrelación y es más frecuente en series de corte temporal.
La definición del estimador MCO que venimos utilizando no depende de la estructura de la matriz de covarianzas del termino del error del modelo. Por consiguiente podemos establecer la siguiente definición, que es más general:
Dado el modelo y = X+ u en donde y, u son Tx1 y X la matriz Tx k de observaciones de las variables explicativas, con E(u) = 0 y Var (u) = 2 , el estimador MCO del vector de parámetros  es una solución del sistema de ecuaciones normales:
(X’X)=X’Y
Cuando dicha matriz X´X es invertible, entonces dichos sistema tiene una solución única, dada por = (X’X)-1 (X’Y) , en la que fácilmente se puede probar de = + (X’X)-1 X’u .
- Como podemos considerar el estimador lineal por definición.
- Insesgado, pues:
E () = E( + (X’X)-1 X’u ) = +(X’X)-1 X’ E(u) = +(X’X)-1 X’0 =

  • Probando la varianza, con la nueva hipótesis: Var (u) = E (u u’) = 2


Var () = E[( -E()) ( -E() )’ ] = E [ + (X’X)-1 X’u - ) ( + (X’X)-1 X’u - )’] = E [ (X’X)-1 X’u u’ X (X’X)-1 ] = =(X’X)-1 X’ E (u u’) X (X’X)-1 = (X’X)-1 X’ 2 X (X’X)-1 =

= 2(X’X)-1 X’ X (X’X)-1

- Observamos que ya no da 2 (X’X)-1 y por lo tanto ya no es eficiente.

  • Además introducir la nueva varianza ya no son ciertos los estadísticos basados en la F y t.

  • Pero si se siguen manteniendo las hipótesis de que la X es determinista y el término error u sigue una distribución normal N ( 0 , 2 ). Entonces:

MCO  N(  , 2 (X’X)-1 X’  X (X’X)-1 )




  1. El estimador mínimo cuadrado generalizado.



En estas circunstancias, sería interesante poder transformar el modelo econométrico en otro cuyos coeficientes fuesen los mismos que los del modelo original. Pero cuyo término tuviese una matriz de covarianzas escalar.



Para ello premultiplicamos, el modelo por una matriz P de dimensiones TxT, para obtener:

Py = PX + Pu



Y denotamos y* = Py, X* = PX u* = Pu. Notemos que y* y u* son todavía T x 1 y X* una matriz Txk.
Observando que por lo general ninguna de las variables * tiene un significado económico claro.
Por otra parte, la linealidad del modelo permite que los coeficientes  del modelo transformado sean precisamente los mismos que los del modelo original. La matriz de covarianzas del nuevo término de error es:
Var (u* ) = Var ( Pu ) = 2 P P’

Si esto debe ser igual a 2 I entonces P P’ = I y en consecuencia  = P –1 P’-1 = (P’P)-1.
Las matemáticas nos aseguran que si la matriz  es simétrica y definida positiva (asegurado por proceder de una matriz de varianzas covarianzas) existe una matriz cuadrada y no singular ( matriz singular es una matriz cuadrado cuyo determinante es cero) que cumple  = V’V
Lógicamente podemos hacer P = V-1 y como ya se cumple la hipótesis de que la matriz de varianzas y covarianzas de la perturbación aleatoria es una matriz escalar, aplicamos MCO y los llamaremos Mínimo Cuadrados Generalizados:
MCG = (X*’X*)-1 (X*’Y*)
Y si sustituimos las variables con * por su valor obtendremos:
MCG = (X’-1X)-1 (X’-1Y)



  1. Las propiedades del estimador mínimo cuadrado generalizado.




    1. Es lineal pues tiene la misma forma que MCO y en consecuencia le podemos aplicar el mismo criterio de que es insesgado por definición.




    1. Para comprobar que es insesgado, como MCG = + (X*’X*)-1 (X*’u*):

E(MCG )=E(+(X*’X*)-1 (X*’u*))= + (X*’X*)-1 X*’E(Pu)=

=+(X*’X*)-1 X*’PE(u) = + (X*’X*)-1 X*’P 0 =


    1. Para comprobar la eficiencia de la matriz de covarianzas del estimador MCG :


Var (MCG )=E [(– E () ) ( - E())’] = E [ ( + (X*’X*)-1 X*’u* - )( + (X*’X*)-1 X*’u*- )’] = E[(X*’X*)-1 X*’u* u’*X (X*’X*)-1 ] =

=(X*’X*)-1 X*’E(u*u’)*X (X*’X*)-1 =(X*’X*)-1 X*’2 I*X (X*’X*)-1= = 2 (X*’X*)-1


    1. Y como este estimador no es más que un estimador MCO del modelo transformado también satisface las ecuaciones normales del ajuste:


(X*’X*)-1 MCG = (X*’Y*)

(X’-1X*)-1 MCG = X’ -1Y


    1. Al haber comprobado que es lineal, insesgado y de varianza un valor igual a la cota de mínima varianza según comprobamos por (Gauss Markov) el estimador será eficiente.

    2. La estimación del parámetro que falta no es nada más que una copia del procedimiento de estimadores MCO pero con el modelo transformado.




Donde
Del que fácilmente se puede demostrar que es insesgado pues los residuos obtenidos satisfacen
g) La suma residual del modelo y = X + u con Var (u) = 2  tiene de suma residual:

que podemos llevarlo al numerador del estimador anterior:


  1. El coeficiente de determinación.


Una dificultad que aparece en el contexto es el no poder utlidzar el estadístico R2 como medida de ajuste del modelo:


  • En primer lugar, el modelo transformado puede no tener término constante por lo que R2 calculado no está acotado entre 0 y 1.




  • En caso de existir mediríamos la capacidad de explicar y* que no es la variable en cuestión.




  • Si se dan las condiciones bajo las cuales el estimador MCO tiene buenas propiedades estadísticas ( var (u) = 2 I ), entonces la utilización de las expresiones del estimador MCG, tanto en lo que respecta al vertor como a su matriz de varianzas, conducirá al esimador MCO.


  1. Introducción al problema de la heterocedasticidad.



Supongamos que le término de error del modelo lineal y = X + u tiene de matriz de covarianzas:

es decir, que la varianza el término error ut varia a lo largo del tiempo. Sin embargo, seguimos suponiendo que E(ut,us) = 0 para todo t#s.
La matriz anterior se puede descomponer:

P = = P’
Que podemos utilizar para estimar por MCO las variables transformadas y*, X*, u*.
Mientras que si lo que deseamos es calcular -1 entonces:

-1 =
Observamos que a los datos que obtenemos equivalen a multiplicar las distintas observaciones por 1/t, que equivale a una ponderación de los datos, por esta razon se denominan también mínimos cuadrados ponderados.

Uno de los mayores problemas es que los parámetros t son desconocidos por lo que es encasaría su estimación. Y esto es imposible si no se encuentra una pauta de comportamiento, del tipo de forma que la dependencia solo sea de un reducido número de parámetros, ello nos llevará a formular en las matrices anteriores .



  1. El estimador de máxima verosimilitud.


Si mantenemos la hipótesis de que el error se supone que tiene una distribución, aunque con matriz de varianzas covarianzas no escalar.
u  N (0, 2 )
Podríamos utilizando la función de máxima verisimilitud:


Derivando con respecto a y 2 obtendremos los estimadores máximo verisímiles que coincidirán con lo mínimos cuadrados generalizados en el caso de .
Mientras que el de 2 será:

Planteando, el mismo problema que teníamos en mínimos cuadrados ordinarios.


  1. Inferencia estadística con matrices de covarianzas no escalares.


Debido a la linealidad del modelo, los coeficientes son los mismos y por tanto el contraste de un conjunto de q hipótesis lineales, H0 :R=r, sobre los componentes del vector puede hacerse indistintamente sobres cualquiera de ambos modelos. Y así si suponemos
u  N (0, 2 )

u*  N(0,2I)
y como consecuencia, utilizando los resultados de los capítulos anteriores:

tiene una distribución Fq,n-k. O bien en función de las originales:


El problema estriba en que la matriz  es desconocida y en consecuencia ha de sustituirse tanto en el numerados como en el denominador por su estimación y en consecuencia ya no tiene una distribución F sino que es aproximada.
Otro estadístico alternativo, podría ser:


Donde y denotan los vectores de residuos obtenidos del modelo original, sustituyendo el vector de parámetros desconocidos por su estimador mínimo cuadrado generalizado, respectivamente.
La matriz de covarianzas  debe sustituirse por una estimación MCO previa, y ésta podría ser restringida o sin restringir. Sobre la base del análisis de simulación, es aceptado que la matriz sea la calculada a partir de los residuos MCO en el modelo con las restricciones.



  1. La predicción en un modelo com matriz de covarianzas genérica.



Una matriz de covarianzas no escalar para el término de error del modelo econométrico puede afectar al modo en que se obtienen predicciones a partir de dichos modelos de dos formas diferentes: alterando el modo de generar las predicciones numéricas o alterando la forma en que se construyen sus intervalos de confianza.
En el caso de heterocedasticidad se continua cumpliendo ET uT+1 = 0, supuesto que veremos no será válido en el caso de existir autocorrelación.
Por otra parte, la heterocedasticidad hace que no tenga sentido hablar del parámetro 2 como una constante, sino una función de algo, lo que habrá de ser tenido en cuenta al calcular la amplitud de los intervalos de confianza para la predicción.
En resumen, la heterocedasticidad parece afectar al modo en que se obtienen los intervalos de confianza de la predicción, aunque no a ésta, mientras que la autocorrelación tiene el efecto contrario.
Las ecuaciones relevantes en la obtención de predicciones e intervalos de confianza a partir del modelo econométrico son:




donde el estimador se ha obtenido con las T primeras observaciones y donde se supone , entre otras cosas que los valores futuros de las variables explicativas son conocidas de antemano. Si existe heterocesdaticidad en el modelo, entonces, tras estimar el modelo por MCG, la predicción yT+1 es Et yT+1 =x’T+1 y la varianza del error de predicción se convierte en:



  1. Estimación mínimo cuadrática en presencia en heterocedasticidad.



El estimador MCG es eficiente siempre y cuando la heteroscedasticidad sea de la forma que se ha supuesto al diseñar el estimador, no pudiéndose garantizar las propiedades si la heteroscedasticidad es de otro tipo.
Respondiendo que solo merece la pena utilizar MCG si se confía en poder hacer una especificación suficiente aproximada de la estructura que adopta la sucesión .
Por consiguiente, es siempre una buena idea utilizar el estimador MCO como referencia con el que comparar el MCG.
Una nota de atención adicional se refiere a la estimación del parámetro 2 que acompañe a la matriz  en presencia de heterocedasticidad. Para ello no puede utilizarse la suma residual de la estimación MCO. La razón es que dicha suma residual sufre un problema de escala con respecto a la suma residual que se obtendría de los residuos MCG, que es la que se debe utilizar.
White ha propuesto una aproximación a la matiz de covarianzas del estimador MCO que no precisa de una representación específica de la forma funcional que adopta la heteroscedasticidad.

donde se estima:

Su comparación con la expresión 2 (x’x)-1 puede dar una idea del grado de heteroscedasticidad presente en el modelo.
El procedimiento de estimación por MCG bajo heteroscedasticidad es siempre el mismo y sigue las siguientes líneas:
1 – Se estima el modelo por MCO, ignorando la heteroscedasticidad deñ término error.
2 – Se establece un supuesto acerca de la estructura de la sucesión de .
3 – Se utilizan los residuos MCO para estimar la forma funcional supuesta para .
4 – Se divide cada observación por .
5 - Se vuelve a estimar el modelo con las variables transformadas.
Este procedimiento de ponderación podemos observar que equivale a dar a cada observación una importancia inversamente relacionada con la varianza del término de error en ese periodo. Pues considera que si una observación en un periodo o momento tiene mucha varianza, entonces la observación recogida estará sujeta a una componente aleatoria muy importante.
En consecuencia dicha observación no es muy informativa.


  1. Contrastes de heteroscedasticidad (todos contrastan en la hipótesis nula la ausencia de heteroscedasticidad).


10. 1 El contraste de Golfeld y Quant
Este contraste parte del supuesto de que la magnitud de 2 depende de una de las variables explicativas que llamaremos zt.
El contraste consiste en seguir los siguientes pasos:


  1. Ordenar las observaciones por la variable zt.




  1. Omitir p observaciones centrales.




  1. Estimar dos veces el modelo una con las (T-p)/2 iniciales y otra con las finales calculando SR.




  1. Sean SR1 y SR2 las sumas residuales de ambas regresiones. Entonces bajo el supuesto de homoscedasticidad y Normalidad del término error, el cociente:


donde


La idea del contraste es la siguiente: si existe heroscedasticidad del tipo que se ha supuesto desde un principio, entonces, con la ordenación del amuestra que se ha hecho, la varianza del término de error será mayor que hacia el final de la muestra o al principio que el otro grupo.
Para elegir el valor de p, el número de observaciones a omitir en la parte central de la muestra tendra en cuenta:



  • Eliminar muchas significa perder muchos grados de libertad, con lo que las estimaciones son poco precisas y el contraste pierde potencia. Pero al eliminar muchas los grupos serán más dispares y la heteroscedasticidad más fácil de detectar.




  • Si excluimos pocas observaciones las observaciones centrales serán más parecida con lo que el supuesto de homoscedasticidad gana enteros.




  • Harvey y Phillips sugieren no eliminar más de la tercera parte de las observaciones.



Si el contraste nos lleva a la conclusión de que no existe heteroscedasticidad puede ser debido a la no elección de una variable correcta de ordenación siendo conveniente probarlo con todas.
10. 2 El contraste de Glesjer
Este contraste es más ambicioso que el anterior pues no solo trata de detectar la presencia de heteroscedasticidad sino también dar su estructura.
Sin embargo una limitación es que solo resulta útil cuando se cree que la estructura de la heteroscedasticidad sólo resulta útil cuando se cree que dicha estructura puede explicarse con tan solo una variable, quizá junto a un término independiente.
Las etapas en que se desarrolla el contraste son:
1 – Estimar el modelo por MCO y obtener los residuos correspondientes.

2 – Estimar una regresión del valor absoluto de los errores sobre una potencia de la variable zt, es decir:


Para distintos valores del exponente h={-1,1,1/2.-1/2}.
3 – De todas las regresiones anteriores se toma aquella que tenga menor SR y 1 es significativa esta es la estructura seleccionada.
Una vez obtenido el valor del parámetro h se divide el vector de dimensión k+1 formado por la observaciones y X entre la estructura de la regresión o por su raíz si el ajuste se hizo de la forma:


Y se estima el modelo por MCO siendo los estimadores obtenidos estimadores MCG.
La obtención de una regresión adecuada no quiere decir que no pudiese existir otra por lo menos tan buena.
La aceptación de la hipótesis de no heterocedasticidad no excluye el pensar que quizas la variable seleccionada no es la adecuada, debiéndose probar con otra.

10. 3 El contraste de rangos.
Este contraste se basa en la intuición de que si la varianza del término de error depende directamente de los valores xt entonces el tamaño de los residios debería estar relacionado con el tamaño de dicha variable.
Así tras estimar el modelo por MCO, se ordenan en sentido creciente tanto el valor absoluto de los residuos obtenidos, , como los valores de xt y se calcula el coeficiente de correlación de rangos:

Donde d es la diferencia en el puesto que ocupan en dichas clasificaciones el valor xt y el valor , correspondiente a un mismo periodo.
Si el tamaño de la muestra es grande, entonces la expresión:

se distrubuye aproximadamente como una t de Student con T – 2 grados de libertad.
Hemos de tener en cuenta que no llega comprobándola con una de las variables pues puede ser otra la causante de la heterocedasticidad.

similar:

X la matriz Tx k de observaciones de las variables explicativas, con e u iconA Fijan las células entre sí o con la matriz extracelular

X la matriz Tx k de observaciones de las variables explicativas, con e u iconResumen Las variables que más influyen en el éxito de la integración...

X la matriz Tx k de observaciones de las variables explicativas, con e u iconResumen : Se evaluaron las variables fisiológicas durante la anestesia...

X la matriz Tx k de observaciones de las variables explicativas, con e u iconRevisa el comentario que he hecho a tu tema de investigación en el...

X la matriz Tx k de observaciones de las variables explicativas, con e u iconCon parámetros y. En este caso la V a. asociada al experimento aleatorio...

X la matriz Tx k de observaciones de las variables explicativas, con e u iconEl resumen conceptual de las observaciones efectuadas es que

X la matriz Tx k de observaciones de las variables explicativas, con e u iconAlgunas observaciones críticas a las bases científicas de la ‘Ingeniería genética’

X la matriz Tx k de observaciones de las variables explicativas, con e u iconSolución: 1º La hipótesis nula es que las dos variables son independientes (edad y voto)

X la matriz Tx k de observaciones de las variables explicativas, con e u iconLey se establece cuando una teoría es comprobada varias veces y...

X la matriz Tx k de observaciones de las variables explicativas, con e u iconEn una investigación, el doctor a administra a ratas dosis controladas...




Todos los derechos reservados. Copyright © 2019
contactos
b.se-todo.com