Tema 2. Variables estadísticas y distribuciones de frecuencias.

Distribución de frecuencias

Cuando obtenemos los datos del mundo real, lo que tenemos es un conjunto de valores desordenados que tenemos que organizar para facilitar el cálculo de las diferentes medidas de interés.

Supongamos por ejemplo que hacemos una encuesta y preguntamos por el número de líneas de móvil que tenemos en la unidad familiar. El resultado podría ser similar al siguiente:El primer paso para el análisis será por tanto organizar los datos en una distribución de frecuencias, que es una tabla que incluye los siguientes elementos:

5 2 3 3 2 5 4 1 6 2 2 3 3 3 2 2
2 1 1 1 2 3 3 3 4 5 6 7 2 2 2 1
2 3 2 2 4 4 2 3 4 4 2 3 3 2 1 4
5 7 2 2 2 4 4 4 5 5 5 2 3 2 2 2
4 4 5 3 3 2 3 4 5 2 3 3 3 2 1 1
3 2 4 4 4 5 3 3 2 1 3 3 2 1 2 2
3 4 4 2 5 3 2 1 2 2 3 5 5 4 3 1
  • Frecuencia absoluta, n_i: Contabiliza el número de veces que se repite cada valor o dato de la variable dentro de la muestra.
  • Frecuencia relativa, f_i: Contabiliza el porcentaje de veces que encontraremos cada dato en la muestra. Se calcula como la frecuencia absoluta dividida entre el tamaño muestral [N].
  • Frecuencia absoluta acumulada, N_i: Contabiliza el número de veces que aparece en la muestra un valor igual o inferior al dato considerado.
  • Frecuencia relativa acumulada, F_i: resultado de dividir cada frecuencia acumulada por el número total de datos.

Se debe tener en cuenta que:

  • Si sumamos todas las frecuencias absolutas obtendremos el tamaño muestral.
  • La última de las frecuencias absolutas acumuladas es igual a tamaño muestral.
  • Si sumamos todas las frecuencias relativas obtendremos 1.
  • La última de las frecuencias relativas acumuladas también es igual a 1.
  • Diremos que dos distribuciones son iguales si todas sus x_i y n_i son iguales.

Para el ejemplo considerado la distribución de frecuencias será:

x_i n_i f_i N_i F_i
1 12 0,11 12 0,11
2 36 0,32 48 0,43
3 28 0,25 76 0,68
4 19 0,17 95 0,85
5 13 0,12 108 0,96
6 2 0,02 110 0,98
7 2 0,02 112 1,00
112 1

Distribución de frecuencias agrupadas

Si los datos presentan mayor variabilidad resulta más interesante agrupar la distribución construyendo intervalos.

Consideremos que en vez de el número de líneas preguntamos por la factura total que pagaron estás familias el mes pasado. El resultado podría ser  ahora similar al siguiente:

28,43 18,55 15,87 39,89 34,13 80,79 76,78 24,95
23,45 18,13 20,86 10,31 27,08 23,61 81,92 57,51
20,09 32,92 9,95 13,24 21,97 70,54 21,21 66,45
43,79 103,36 11,51 22,81 10,26 60,39 56,13 68,57
43,25 71,45 11,31 76,00 23,10 17,88 9,02 75,76
12,77 47,02 115,10 19,80 35,27 48,98 16,08 58,07
54,25 32,93 50,38 18,71 72,12 33,80 12,96 10,54
175,88 18,04 20,24 50,90 69,47 86,56 42,85 54,14
55,23 110,75 70,57 87,20 48,50 25,55 21,65 20,94
17,03 20,97 35,12 9,82 11,45 55,50 9,87 89,90
135,57 24,84 56,29 15,58 59,78 50,80 25,93 29,93
47,54 56,55 10,80 27,87 18,40 36,30 24,47 10,72
48,38 22,93 30,85 10,61 20,56 26,19 40,94 44,16
36,53 43,08 20,66 145,73 111,50 114,13 56,71 10,71

En esta situación será interesante agrupar los datos en intervalos o clases, para los que debemos tener en cuenta las siguientes consideraciones:

  • Los intervalos son creados por el investigador de forma arbitraria, basándose en unas reglas de referencia.
  • Al agrupar una distribución en intervalos perdemos información.
  • Para crear los intervalos debemos tener en cuenta que cada dato debe estar necesariamente en un solo intervalo, es decir, que un mismo dato no puede estar en dos intervalos a la vez y debe aparecer en alguno.
  • Denominaremos L_i al extremo superior del intervalo y L_{i-1} al extremo inferior.

Recorrido

Para generar los intervalos es necesario conocer los valores máximo y mínimo de la muestra. También será interesante tener en cuenta el recorrido que se define como la diferencia entre el máximo y el mínimo valor que tomarán los datos:

Re=max_i (x_i) - min_i (x_i)

En el ejemplo anterior:

Min: 9,02

Máximo: 175,88

Recorrido: 166,85

Amplitud del intervalo

La amplitud del intervalo (c_i) se calcula como la diferencia entre el límite superior y el límite inferior,

c_i = L_i - L_{i-1}

Si se toman intervalos de igual amplitud se cumple que:

Re = Num \  intervalos \cdot c_i

Marca de clase

La marca de clase (x_i), representa el punto central de cada intervalo y se empleará cuando sea necesario usar una única medida del intervalo, por ejemplo en el calculo de la media aritmética o de la varianza.

x_i = \frac{L_i + L_{i-1}}{2}

Para el ejemplo considerado la distribución de frecuencias de una posible agrupación será:

Li-1 Li ni xi Ni fi Fi
9 20 28 14,5 28 0,25 0,25
20 35 30 27,5 58 0,27 0,52
35 50 16 42,5 74 0,14 0,66
50 75 22 62,5 96 0,20 0,86
75 100 8 87,5 104 0,07 0,93
100 135 5 117,5 109 0,04 0,97
135 180 3 157,5 112 0,03 1,00
112 1

Representaciones gráficas

La representación gráfica de los datos de una muestra ayuda a entender mejor la naturaleza de los mismos y es esencial antes de la aplicación de un análisis estadístico.

Existen numerosos tipos de gráficos, entre los que destacaremos:

  • Para fenómenos cualitativos (atributos):
    • Diagramas sectoriales.
    • Diagramas de barras.
  • Para fenómenos cuantitativos (variables):
    • Distribuciones no agrupadas:
      • Diagrama de barras.
      • Diagrama de escalera o escalonado  (frecuencias acumuladas).
    • Distribuciones agrupadas en intervalos:
      • Histograma
      • Polígono de frecuencias
  • Pictogramas.

GRÁFICOS PARA ATRIBUTOS: DIAGRAMAS SECTORIALES

Los diagramas sectoriales representan en un círculo los las frecuencias de cada uno de los valores del atributo, mediante un ángulo cuya medida es proporcional a las mismas.

Diagrama sectorial

GRÁFICOS PARA ATRIBUTOS: DIAGRAMAS DE BARRAS PARA ATRIBUTOS

Los diagramas de barras representan mediante barras las frecuencias absolutas de cada posible valor de la variable.

Diagrama de barras para atributos

GRÁFICOS PARA VARIABLES: DIAGRAMAS DE BARRAS

En el diagrama de barras las variables se representa en los ejes de coordenadas cartesianas:

  • En el eje de abscisas (eje horizontal) se sitúan los valores de la variable.
  • En el eje de ordenadas (eje vertical) se sitúan las frecuencias (absolutas o relativas).

Diagrama de barras para variables

GRÁFICOS PARA VARIABLES: DIAGRAMAS DE ESCALERA

El diagrama de escalera es similar al diagrama de barras para variables, pero tomará en el eje de ordenadas las frecuencias acumuladas.

Diagrama de escalera

GRÁFICOS PARA VARIABLES AGRUPADAS: HISTOGRAMA

El histograma se representa también sobre los ejes de coordenadas cartesianas, levantando un sobre cada intervalo un rectángulo de área proporcional a la frecuencia absoluta del mismo.

  • Si los intervalos son de amplitud constante, las alturas de los rectángulos serán iguales a las frecuencias absolutas respectivas.
  • Si los intervalos son de amplitudes desiguales, las alturas de los rectángulos serán las densidades de frecuencia di, obtenidas dividiendo la frecuencia absoluta entre la longitud del intervalo.

d_i = \frac{n_i}{c_i}

GRÁFICOS PARA VARIABLES AGRUPADAS: POLIGONO DE FRECUENCIAS

El polígono de frecuencias puede obtenerse tanto para frecuencias absolutas como para frecuencias acumuladas.

Con frecuencias acumuladas:

  • Se dibujan los intervalos en el eje de abscisas comenzando por el límite inferior de cada intervalo.
  • En el extremo final de cada intervalo se dibuja la frecuencia acumulada y se unen los puntos.
  • De este modo, la altura de la última ordenada será igual al tamaño muestral, si hemos utilizado frecuencias absolutas acumuladas; o igual a 1 si hemos empleado frecuencias relativas acumuladas.
  • La primera ordenada se une al extremo inferior del primer intervalo, y, a partir de la ordenada del extremo superior del último intervalo se prolonga con una paralela al eje horizontal.

Poligono de frecuencias

GRÁFICOS PARA VARIABLES AGRUPADAS: POLIGONO DE FRECUENCIAS

Con frecuencias no acumuladas:

  • Se dibujan los intervalos en el eje de abscisas comenzando por el límite inferior de cada intervalo.
  • Se unen los puntos medios de cada intervalo o marca de clase a la frecuencia o densidad de frecuencia según si los intervalos de igual amplitud o distinta.
  • Una vez creado, el área recogida bajo el polígono de frecuencias es la misma que el área correspondiente al histograma.

OTROS GRÁFICOS: PICTOGRAMAS

En ocasiones se pretende representar de forma original un carácter cualitativo o cuantitativo. En estos caso se hace uso de los pictogramas, que utilizar imágenes que nos recuerden el significado que lo que estamos representando. Un ejemplo sería:

pictograma