La distribución de frecuencias organiza toda la información disponible en la muestra, pero para entenderla mejor será útil resumirla. Las medidas de posición nos ofrecen resúmenes de la información contenida en la muestra, son por tanto, valores que describen el comportamiento del fenómeno. Para que estos resúmenes sean útiles será interesante que tengan propiedades como:
- Que utilicen toda la información de la muestra, es decir, todos los valores.
- Que se puedan calcular siempre o la mayoría de las situaciones.
- Que tengan un único valor paca cada distribución de frecuencias.
La media aritmética
La media aritmética es probablemente la medida de posición más relevante porque es muy sencilla de interpretar. Nos ofrece el valor central de la muestra, el que tomarían los datos si fueran todos iguales.
Se calcula como la suma de todos los valores de la muestra dividida entre el tamaño muestral:
Si la distribución tiene los datos agrupados se tomarán la marca de clase para calcular la media.
Para el ejemplo de las líneas móviles por unidad familiar la media aritmética será:
xi | ni | xi*ni |
1 | 12 | 12 |
2 | 36 | 72 |
3 | 28 | 84 |
4 | 19 | 76 |
5 | 13 | 65 |
6 | 2 | 12 |
7 | 2 | 14 |
112 | 335 |
Propiedades de la media aritmética
- Considera todos los valores de la distribución.
- En datos numéricos, se puede calcular siempre salvo con datos agrupados en intervalos abiertos.
- Es única para cada distribución.
- Se considera el centro de la gravedad de la distribución, ya que la suma de las desviaciones de los valores de la variable respecto a su media es siempre cero, es decir, .
- Teorema de König:
- La media de la variable a·X+b es igual a .
Desventajas de la media aritmética
- En presencia de datos extremos, la media aritmética resulta menos representativa.
La media aritmética ponderada
En ocasiones resulta interesante ponderar a la media aritmética por diferentes motivos.
Ponderar la media consiste en dar distintos pesos a los distintos valores que tome la variable. Si representamos estos pesos mediante, ωi ,la media aritmética ponderada se puede calcular mediante:
Una aplicación práctica sería el calculo de la nota de los alumnos en caso de evaluación continua con distintos pesos para las distintas actividades.
La media Geométrica (G)
La media geométrica de una muestra se define como la raíz N-ésima del producto de los N valores de la distribución, es decir,
Podemos decir que la media geométrica nos indica la cantidad que, al elevarla a N, nos da el producto de los datos de la muestra.
En otras palabras, responde a la pregunta Si todas las cantidades fueran iguales, ¿cuál sería esa cantidad de forma que el producto fuera el mismo?
Propiedad: El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores de la variable.
Para el ejemplo considerado la media aritmética será:
xi | ni | xi^ni | ni*log(xi) |
1 | 12 | 1 | 0 |
2 | 36 | 68719476736 | 10,8371 |
3 | 28 | 2,28768E+13 | 13,3594 |
4 | 19 | 2,74878E+11 | 11,4391 |
5 | 13 | 1220703125 | 9,08661 |
6 | 2 | 36 | 1,5563 |
7 | 2 | 49 | 1,6902 |
112 | 9,30515E+47 | 47,9687 |
Ventajas de la media geométrica
- Tiene en cuenta todos los valores de la muestra.
- Es menos sensible a los valores extremos que la media aritmética.
Desventajas de la media geométrica
- Su interpretación es menos intuitiva que la de la media aritmética.
- Su cálculo es más difícil que el de la media aritmética.
- No se puede calcular si algún valor de la muestra se anula.
La media Armónica (H)
La media armónica se calcula mediante la siguiente fórmula:
Suele utilizarse para promediar velocidades, tiempos, rendimientos, etc.
Propiedad:
- La inversa de la media armónica es la media aritmética de los inversos de los valores de la variable.
- Con esta propiedad, se puede pasar de una media armónica a una media aritmética transformando adecuadamente los datos.
Ejemplo.-
Una cadena de supermercados tiene tiendas en 5 provincias españolas y ha recopilado en la siguiente tabla los ingresos totales y los ingresos por tienda para cada una de ellas, en el año 2016:
Provincia | Ingresos (en millones de euros) | Ingresos por tienda (millones de €/tienda) |
Madrid
Barcelona Bilbao Valencia Sevilla |
21 17,5 10 4,4 2,5 |
3 3,5 2,5 2,2 2,5 |
Determínese los ingresos medios por tienda para toda España.
Solución.-
ni | xi | ||
Provincia | Ingresos (en millones de euros) | Ingresos por tienda (millones de €/tienda) | 1/xi*ni |
Madrid | 21 | 3 | 7 |
Barcelona | 17,5 | 3,5 | 5 |
Bilbao | 10 | 2,5 | 4 |
Valencia | 4,4 | 2,2 | 2 |
Sevilla | 2,5 | 2,5 | 1 |
55,4 | 19 |
Ventajas de la media armónica
- La media armónica utiliza toda la información disponible en la muestra, es decir, tiene en cuenta todos los datos.
- Resulta más representativa que la media aritmética cuando se trata de calcular el promedio de ratios.
Desventajas de la media armónica
- Esta medida de posición se ve muy influenciada por los valores pequeños.
- Si la muestra presenta alguna observación con valor cero, no se puede calcular la media armónica.
Para cualquier distribución de frecuencias (xi; ni) se verifica que:
Siempre que todas las medidas se puedan calcular.
La mediana (Me)
La mediana es el valor que se encuentra en la posición central de la distribución, es decir, que deja a su izquierda y a su derecha el 50% de los datos respectivamente. Para calcularla debemos ordenar los datos de menor a mayor y buscar el valor que se encuentre en la posición central. Se debe tener en cuenta que si el tamaño muestral es par tendremos dos posiciones en el centro mientras que si es impar tendremos únicamente una. En este sentido, si el tamaño muestral es par tomaremos los valores ubicados en las dos posiciones centrales de la distribución y calcularemos la media entre ellos.
La mediana también se puede definir como el valor de la distribución cuya frecuencia acumulada es N/2 (o la frecuencia relativa acumulada igual a 50%). Así, a partir de la distribución de frecuencias de la muestra será sencillo encontrar el valor situado en dicha posición.
Tomando los datos del ejemplo de las líneas de móvil, la mediana será:
xi | ni | Ni |
1 | 12 | 12 |
2 | 36 | 48 |
3 | 28 | 76 |
4 | 19 | 95 |
5 | 13 | 108 |
6 | 2 | 110 |
7 | 2 | 112 |
112 |
N/2=112 -> posiciones 56 y 57.
Valores:
- Posición 56: 3
- Posición 57:3
Mediana: 3
En distribuciones agrupadas en intervalos, una vez localizada la posición que ocupa la mediana encontramos un intervalo mediano en lugar de un valor. Para calcular el valor mediano utilizaremos la siguiente fórmula:
Esta fórmula puede utilizarse tanto para intervalos de igual amplitud como para intervalos de distinta amplitud.
Li-1 | Li | ni | Ni |
9 | 20 | 28 | 28 |
20 | 35 | 30 | 58 |
35 | 50 | 16 | 74 |
50 | 75 | 22 | 96 |
75 | 100 | 8 | 104 |
100 | 135 | 5 | 109 |
135 | 180 | 3 | 112 |
112 |
112/2=56 -> Intervalo mediano: (20, 35]
Propiedad: La mediana hace mínima la suma de todas las desviaciones absolutas. Es decir:
Ventajas de la Mediana
- La mediana tiene una interpretación muy sencilla e intuitiva y puede calcularse con cualquier clase de datos, incluso si están agrupados y presentan intervalos abiertos, salvo en el caso de que la mediana estuviese justamente en un intervalo abierto.
- Resulta de especial interés en datos en escala ordinal, donde no se puede calcular la media aritmética.
- Esta medida no se ve afectada por los datos atípicos.
Desventajas de la Mediana
- No tiene en cuenta toda la información disponible en la muestra, ya que no utiliza todos los datos de la distribución.
La moda (Mo)
La moda es el valor de la variable que más veces se repite. Para calcularla basta con buscar en la distribución de frecuencias el valor de la variable que presenta la máxima frecuencia.
Con esta definición una distribución puede presentar más de una moda, por lo que existen distribuciones bimodales, trimodales, etc.
En el ejemplo de las líneas de móvil por unidad familiar la moda será: 2
xi | ni |
1 | 12 |
2 | 36 |
3 | 28 |
4 | 19 |
5 | 13 |
6 | 2 |
7 | 2 |
112 |
En distribuciones agrupadas en intervalos de la misma amplitud, una vez seleccionado el intervalo con mayor frecuencia, debemos obtener la Moda mediante alguno de los siguientes criterios:
- Podemos considerar como moda la marca de clase, es decir: Mo=xi.
- O bien podemos aplicar la siguiente fórmula:
Si los intervalos tienen distinta amplitud, el intervalo con mayor frecuencia no resultará en todos los casos es más representativo. Nos interesará encontrar el intervalo con la mayor densidad de frecuencia y una vez encontrado podemos de nuevo utilizar simplemente la marca de clase o bien aplicar la siguiente fórmula:
En el ejemplo del gasto en móvil, al presentar intervalos de distinta amplitud será necesario obtener las densidades de frecuencia. La moda será:
Li-1 | Li | ni | di |
9 | 20 | 28 | 2,54 |
20 | 35 | 30 | 2 |
35 | 50 | 16 | 1,07 |
50 | 75 | 22 | 0,88 |
75 | 100 | 8 | 0,32 |
100 | 135 | 5 | 0,14 |
135 | 180 | 3 | 0,07 |
112 |
Intervalo modal: (9, 20]
Ventajas
- Si los datos están en escala nominal, la moda es la medida más represetativa, ya que no se pueden calcular ni la media aritmética (por no ser númericos), ni la mediana (por no poder ordenarse).
- No se ve afectada por los valores extremos o atípicos.
- Se puede calcular aunque haya intervalos abiertos.
Desventajas
- No se utilizan todos los datos de la distribución.
- En distribuciones con mucha variabilidad, puede ser simplemente cuestión de suerte el hecho de que un valor se repita más que el resto.
- No es un valor único, y en estas situaciones resulta difícil de interpretar.
Los cuantiles
Los cuantiles son medidas que dividen la distribución en partes iguales, o dicho de otro modo, en intervalos que contienen el mismo número de datos.
Los más utilizados son:
- Los cuartiles: Son tres valores que dividen la distribución en cuatro partes iguales, es decir, en cuatro intervalos dentro de cada cual están incluidos el 25% de los valores de la distribución.
- Los deciles: Son los nueve valores que dividen la distribución en diez partes que incluyen al 10% de los valores cada una.
- Los percentiles: Son los noventa y nueve puntos que dividen la distribución en cien partes iguales.
K=4
Cuartiles | Deciles | Percentiles |
k = 4 | k = 10 | k = 100 |
r = 1,2 o 3 | r =1, 2, 3, 4, …, 9 | r = 1, 2, 3, …, 99 |
Una vez encontrada la posición el valor que contenga será el cuantil buscado. Si los datos están agrupados en intervalos, sobre el intervalo encontrado aplicaremos la siguiente fórmula:
Los momentos potenciales
Los momentos de una distribución son unos valores que se calculan a partir de los datos de la distribución y nos dan información relevante de la misma. Por eso podemos decir que se trata de un conjunto de valores que caracterizan a la distribución. Se cumple por tanto que dos distribuciones son iguales si tienen todos sus momentos iguales.
El momento de orden r respecto a un origen arbitrario se define como:
Momentos respecto al origen
Se representan por y se obtienen haciendo sobre la fórmula anterior, es decir:
Algunos momentos potenciales con respecto al origen son:
Momentos respecto a la media aritmética o centrales
Se representan por y se obtienen haciendo , por tanto:
Algunos momentos potenciales con respecto a la media son:
(Varianza)
(Simetría)
(Curtosis)
Todos los momentos respecto a la media se pueden expresar en función de los momentos respecto al origen.