Tema 4a. Variable n_dimensional. Tablas de contingencia.

Índice

Tablas de correlación y tablas de contingencia

Distribuciones marginales

Distribuciones condicionadas

Estructuras de dependencia

Covarianza

Momentos bidimensionales

Transformaciones lineales

Una variable n-dimensional recogerá la información de n características de cada ítem o individuo de forma simultánea.
En este tema nos centraremos en el estudio de las variables bidimensionales, que recogerán por tanto, dos características de cada ítem o individuo incluido en la muestra de forma simultánea.
De este modo, para organizar la información no será suficiente con las distribuciones de frecuencias y tendremos que utilizar tablas de correlaciones o tablas de contigencia.

Las tablas de correlación o tablas de contingencia presentan la siguiente estructura:

X\Y	$y_1$	…	$y_j$	…	$y_k$	$n_{i \cdot}$
$x_1$	$n_{11}$	…	$n_{1j}$	…	$n_{1k}$	$n_{1 \cdot}$
$\vdots$	$\vdots$	$\vdots$	$\vdots$	…	$\vdots$	$\vdots$
$x_i$	$n_{i1}$	…	$n_{ij}$	…	$n_{ik}$	$n_{i \cdot}$
$\vdots$	$\vdots$	$\vdots$	$\vdots$	…	$\vdots$	$\vdots$
$x_h$	$n_{h1}$	…	$n_{hj}$	…	$n_{hk}$	$n_{h \cdot}$
$n_{\cdot j}$	$n_{\cdot 1}$	…	$n_{\cdot j}$	…	$n_{\cdot k}$	N

Estas tablas contienen en la primera fila y la primera columna los valores de cada una de las variables en estudio. En el interior incluyen las frecuencias con las que se repite cada par de valores. Por ejemplo, $n_{11}$ nos dice el numero de veces que sale $x_{1}$ conjuntamente con $y_{1}$ ; $n_{12}$ la frecuencia conjunta de $x_{1}$ e $y_{2}$ , etc.

Las tablas de correlación también pueden tener la siguiente estructura:

$X_i$	$Y_j$	$n_{ij}$
$x_1$	$y_1$	$n_{11}$
$\vdots$	$\vdots$	$\vdots$
$x_i$	$y_j$	$n_{ij}$
$\vdots$	$\vdots$	$\vdots$
$x_h$	$y_k$	$n_{hk}$

Las denominaremos tablas de correlación cuando incluyan variables numéricas y tabla de contingencia cuando incluyan atributos.

Ejemplo 1.- Supongamos que una aseguradora pretenden analizar la posible relación entre el número de accidentes de coche que tiene una persona a lo largo de su vida y el número de punto que refleja su carnet de conducir. Tomando datos de sus clientes podría obtener la siguiente muestra:

Las distribuciones marginales muestran los datos aislados de cada una de las variables incluidas en la tabla de correlación.

Para construirlas tomaremos como siempre en la primera columna los distintos valores que presenta la variable y obtendremos las frecuencias del siguiente modo:

Para el valor i-ésimo de la variable X, la frecuencia marginal será:

$n_{i \cdot} =n_{i1}+ n_{i2}+...+ n_{ij}+...+ n_{ik}= \sum_{j=1}^k n_{ij}$

Análogamente, la frecuencia marginal del valor j-ésimo de Y será:

$n_{\cdot k}= n_{1j} + n_{2j} +...+ n_{ij}+...+ n_{hj}= \sum_{i=1}^h n_{ij}$

Las distribuciones marginales presentarán la siguiente estructura:

X
$X_i$	$n_{i \cdot}$
$X_1$	$n_{1 \cdot}$
$X_2$	$n_{2 \cdot}$
$\vdots$	$\vdots$
$X_i$	$n_{i \cdot}$
$\vdots$	$\vdots$
$X_h$	$n_{h \cdot}$
	N

Y
$Y_j$	$n_{ \cdot j}$
$Y_1$	$n_{ \cdot 1}$
$Y_2$	$n_{ \cdot 2}$
$\vdots$	$\vdots$
$Y_j$	$n_{ \cdot i}$
$\vdots$	$\vdots$
$Y_h$	$n_{ \cdot k}$
	N

Aunque habitualmente se presentan en la misma tabla de correlación como una fila o columna final. A partir de estas distribuciones podemos calcular cualquiera de las medidas unidimensionales que hemos aprendido hasta el momento.

Las distribuciones condicionadas muestran la distribución de una de las variables condicionada a que la otra variable tome un valor concreto.

Por ejemplo, nos puede interesar la distribución de la variable X condicionada a que Y tome el valor $y_2$ . En este caso, la distribución de frecuencias las frecuencias sería:

$x_i / y_2$	$n_{i / 2}$
$x_1$	$n_{12}$
$x_2$	$n_{22}$
$\vdots$	$\vdots$
$x_i$	$n_{i2}$
$\vdots$	$\vdots$
$x_h$	$n_{h2}$
	$n_{\cdot 2}$

En general, podemos expresar las distribuciones condicionadas de x e y mediante:

$y_j / x_i$	$n_{j/i}$
$y_1$	$n_{i1}$
$y_2$	$n_{i2}$
$\vdots$	$\vdots$
$y_j$	$n_{ij}$
$\vdots$	$\vdots$
$y_k$	$n_{ik}$
	$n_{i\cdot}$

$x_i /y_j$	$n_{i/j}$
$x_1$	$n_{1j}$
$x_2$	$n_{2j}$
$\vdots$	$\vdots$
$x_i$	$n_{ij}$
$\vdots$	$\vdots$
$x_h$	$n_{hj}$
	$n_{\cdot j}$

Podemos definir además las frecuencias relativas de la distribución condicionada de X a algún valor de Y, o de la distribución condicionada de Y a algún valor de X serán, respectivamente:

$f_{i/j}=\frac{n_{ij}}{n_{\cdot j}}$

$f_{j/i}=\frac{n_{ij}}{n_{i \cdot }}$

Definición.- Dependencia funcional

Diremos que dos variables X e Y presentan una relación de dependencia funcional cuando existe una función tal que Y = f(x), es decir una función que transforma de forma perfecta los valores de X en los valores de Y.

Definición.- Dependencia estadística

Existe dependencia estadística entre X e Y cuando ambas variables están relacionadas, pero no existe una función matemática mediante la cual podamos obtener los valores de Y a partir de los valores de X.

Hablaremos entonces del grado de dependencia estadística que presentan las variables, ya que estás relaciones estadísticas pueden ser más o menos fuertes.

La dependencia estadística entre variables se denomina correlación y entre atributos contingencia.

Definición.- Independencia

Diremos que X e Y son independientes cuando exista ningún tipo de relación entre ellas.

Independencia estadística

Cuando dos variables son independientes estadísticamente su frecuencia relativa conjunta será igual al producto de las frecuencias relativas marginales:

$\frac{n_{ij}}{N}=\frac{n_{i \cdot}}{N} \cdot \frac{n_{\cdot j}}{N}, \nabla i,j$

En esta situación, las frecuencias relativas condicionadas serán iguales a las relativas marginales, es decir,

$f_{i/j}=\frac{n_{ij}}{n_{\cdot j}}=\frac{n_{ i \cdot} \frac{n_{\cdot j}}{N} }{n_{\cdot j}}=\frac{n_{i \cdot}}{N}=f_{i \cdot}$

Para analizar el grado de relación que presentan dos variables X e Y utilizaremos la covarianza.

Definición.- Covarianza

La covarianza es una medida del grado de variación conjunta entre dos variables estadísticas, respecto a sus medias. Se obtiene mediante la siguiente fórmula:

$COV(X,Y)=m_{11}=S_{XY}=\sum_{i=1}^h \sum_{j=1}^k \left(x_i - \bar{X} \right) \left(y_j - \bar{Y} \right) \frac{n_{ij}}{N}$

Cuando X e Y son independientes la covarianza entre ellas es 0. Pero el reciproco no es cierto.

Si las variables presentan una relación positiva (cuando una crece la otra también crece) la covarianza será positiva. Si la relación entre las variables es negativa, la covarianza también lo será.

La covarianza es un momento bidimensional. Definiremos en general los momentos bidimensionales de forma análoga a la definición de momentos unidimensionales. Distinguiremos por tanto también entre momentos respecto al origen y momentos respecto a la media:

Momentos respecto al origen:

$\alpha_{rs}=\sum_{i=1}^h \sum_{j=1}^k x_i^r y_j^s \frac{n_{ij}}{N}$

De los momentos bidimensionales respecto al origen destacaremos:

$\alpha_{10}=\bar{X}$ y $\alpha_{01}=\bar{Y}$

Momentos respecto a las medias:

$m_{rs}=\sum_{i=1}^h \sum_{j=1}^k \left(x_i - \bar{X} \right)^r \left(y_j - \bar{Y} \right)^s \frac{n_{ij}}{N}$

De los momentos bidimensionales respecto a las medias destacaremos:

$m_{20}=S_X^2=\alpha_{20}-\alpha_{10}^2 \rightarrow$ Varianza de X

$m_{02}=S_Y^2=\alpha_{02}-\alpha_{01}^2 \rightarrow$ Varianza de Y

$m_{11}=S_{XY}=\alpha_{11}-\alpha_{10}\cdot \alpha_{01} \rightarrow$ Covarianza de X e Y

Como siempre, los momentos con respecto a la media se pueden calcular a partir de momentos respecto al origen. Encontramos así un método alternativo par el calculo de la covarianza.

$n_{i \cdot}$

$n_{i \cdot}$

$n_{\cdot j}$

Recordemos el comportamiento de las principales medidas estadísticas ante transformaciones lineales de las variable.

Consideraremos para ello las variables X e Y para las que conocemos las medias ( $\bar{X}$ e $\bar{Y}$ ), las varianzas ( $S_X^2$ y $S_Y^2$ ) y la covarianza (Cov(X,Y)). Si consideramos las siguientes transformaciones lineales: