domingo, 15 de noviembre de 2015

Medidas de forma

Son medidas que determinan numéricamente algunas características de la forma en que estan distribuidos los datos. Entre estas medidas se tiene: el coeficiente de asimetría y el coeficiente de curtosis.


Coeficiente de asimetría: Se dice que una distribución de datos estadísticos es simétrica cuando la línea vertical que pasa por su media, divide a su representación gráfica en dos partes simétricas. Ello equivale a decir que los valores equidistantes de la media, presentan la misma frecuencia. En las distribuciones simétricas los parámetros media, mediana y moda coinciden, mientras que si una distribución presenta cierta asimetría, de un tipo o de otro, los parámetros se sitúan como muestra el siguiente gráfico:
Posiciones relativas de parámetros centrales.svg

Ello puede demostrarse fácilmente si se tiene en cuenta la atracción que la media aritmética siente por los valores extremos, que ya se ha comentado más arriba y las definiciones de mediana (justo en el centro de la distribución, tomando el eje de abscisas como referencia) y moda (valor que presenta una ordenada más alta).

Por consiguiente, la posición relativa de los parámetros de centralización pueden servir como una primera medida de la simetría de una distribución.

Medidas de curtosis: Con estos parámetros se pretende medir cómo se reparten las frecuencias relativas de los datos entre el centro y los extremos, tomando como comparación la campana de Gauss. El parámetro usado con más frecuencia para esta medida es el coeficiente de curtosis de Fisher, definido como:
\gamma_2 = \frac{\sum_{i=1}^n (x_i-\bar{x})^4}{n\sigma^4}-3

La comparación con la distribución normal permite hablar de distribuciones platicúrticas o más aplastadas que la normal; distribuciones mesocúrticas, con igual apuntamiento que la normal; y distribuciones leptocúrticas, esto es, más apuntadas que la normal.
Por último, existen otras medidas para decidir sobre la forma de una distribución con ajuste a modelos menos usuales como los que se muestran en las siguientes gráficas:

Forma distribucion.svg

Medidas de dispersión

Las medidas de dispersión, muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Las medidas de dispersión son:

Rango o recorrido: es la diferencia entre el mayor y el menor de los datos de una distribución estadística.

Desviación media: La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética.
Di = x - x
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.
Se representa por signo

desviación media
desviación media

Desviación media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es: 
delegación media
desviación media


 Varianza: es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.
La varianza se representa por signo.
varianza        varianza

Varianza para datos agrupados
varianza      varianza
Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.
varianza     varianza
varianza      varianza

Propiedades de la varianza:
  1. La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
  2. Si a todos los valores de la variable se les suma un número la varianza no varía.
  3. Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número.
  4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total.
Si todas las muestras tienen el mismo tamaño:
varianzas
Si las muestras tienen distinto tamaño:
varianzas
Observaciones sobre la varianza:
  1. La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas.
  2. En los casos que no se pueda hallar la media tampoco será posible hallar la varianza.
  3. La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado.
 
Desviación típica: es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.
La desviación típica se representa por σ.
de relación típica         desviación

Desviación típica para datos agrupados

desviación típica     desviación
Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.
desviación típica         desviación típica

desviación típica         desviación típica

Propiedades de la desviación típica:
  1. La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
  2. Si a todos los valores de la variable se les suma un número la desviación típica no varía.
  3. Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.
  4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total.
Si todas las muestras tienen el mismo tamaño:
desviación típica
Si las muestras tienen distinto tamaño:
desviación típica

Observaciones sobre la desviación típica
  1. La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.
  2. En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica.
  3. Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

jueves, 29 de octubre de 2015

Medias de posición

Dividen un conjunto de datos en grupos con el mismo número de individuos. Valores de la variable estadística que dejan por debajo de sí determinada cantidad de los datos. Son, en definitiva, una generalización del concepto de la mediana. Mientras que ésta deja por debajo de sí al 50% de la distribución, los cuantiles pueden hacerlo con cualquier otro porcentaje. Se denominan medidas de posición porque informan, precisamente, de la posición que ocupa un valor dentro de la distribución de datos.



Cuartiles: Son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.


Calculo de los cuartiles

  1. Ordenamos los datos de menor a mayor
  2. Buscamos el lugar que ocupa cada cuartil mediante la expresion
Número impar de datos
2, 5, 3, 6, 7, 4, 9

cuartiles
Número par de datos 
2, 5, 3, 4, 6, 7, 1, 9
cuartiles

Calculo de los cuartiles para datos agrupados
En primer lugar buscamos la clase donde se encuentra Cálculo de los cuartiles , en la tabla de las frecuencias acumuladas.
fórmula de los cuartiles
  • Li es el límite inferior de la clase donde se encuentra la mediana.
  • N es la suma de las frecuencias absolutas.
  • Fi-1 es la frecuencia acumulada anterior a la clase mediana.
  • ai es la amplitud de la clase.
Deciles: son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D5 coincide con la mediana.

Calculo de los deciles

En primer lugar buscamos la clase donde se encuentra Cálculo de los cuartiles , en la tabla de las frecuencias acumuladas.
fórmula de los cuartiles

  • Li es el límite inferior de la clase donde se encuentra la mediana.
  • N es la suma de las frecuencias absolutas.
  • Fi-1 es la frecuencia acumulada anterior a la clase mediana.
  • ai es la amplitud de la clase.

  Percentiles: son los 99 valores que dividen la serie de datos en 100 partes iguales. Dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P50 coincide con la mediana.
Calculo de los percentiles
En primer lugar buscamos la clase donde se encuentra Cálculo de los cuartiles, en la tabla de las frecuencias acumuladas.
fórmula de los cuartiles

  • Li es el límite inferior de la clase donde se encuentra la mediana.
  • N es la suma de las frecuencias absolutas.
  • Fi-1 es la frecuencia acumulada anterior a la clase mediana.
  • ai es la amplitud de la clase.

viernes, 23 de octubre de 2015

Medidas de centralizacion

Habitualmente necesitamos disponer de un valor numérico que represente la disparidad de datos de una distribución de frecuencias. Estos valores son los llamados parámetros centrales o medidas de centralización, ya que son valores "intermedios" que se sitúan alrededor del centro de la distribución.


Media aritmética: es la cantidad total de la variable distribuida a partes iguales entre cada observación
Una de las limitaciones de la media aritmética es que se trata de una medida muy sensible a los valores extremos; valores muy grandes tienden a aumentarla mientras que valores muy pequeños tienden a reducirla, lo que implica que puede dejar de ser representativa de la población.
La media aritmética se calcula sumando todos los componentes y dividiendo el resultado entre el número de componentes. El resultado entero o decimal es la media aritmética.
Dados los n númerosla media aritmética se define como:

Por ejemplo, la media aritmética de 8, 5 y -1 es igual a:


Se utiliza la letra X con una barra horizontal sobre el símbolo para representar la media de una muestra \overline{X} , mientras que la letra µ (mu) se usa para la media aritmética de una población, es decir, el valor esperado de una variable.

Mediana: es la puntuación de la escala que separa la mitad superior de la distribución y la inferior, es decir divide la serie de datos en dos partes iguales.
Existen dos métodos para el cálculo de la mediana:

1- Considerando los datos en forma individual, sin agruparlos.
Sean  los datos de una muestra ordenada en orden creciente y designando la mediana como M_e.
a) Si n es impar, la mediana es el valor que ocupa la posición (n+1)/2  una vez que los datos han sido ordenados (en orden creciente o decreciente), porque éste es el valor central. Es decir: M_e=x_{(n+1)/2} 
b) Si n es par, la mediana es la media aritmética de los dos valores centrales. Los dos datos que están en el centro de la muestra ocupan las posiciones n/2   n/2+1.  Es decir: M_e = (x_{\frac{n}{2}} + x_{{\frac{n}{2}}+1})/2

2- Utilizando los datos agrupados en intervalos de clase.
Al tratar con datos agrupados, si   {{\frac {n} {2}}}   coincide con el valor de una frecuencia acumulada, el valor de la mediana coincidirá con la abscisa correspondiente. Si no coincide con el valor de ninguna abscisa, se calcula a través de semejanza de triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la siguiente equivalencia:



 Moda: es el valor con una mayor frecuencia en una distribución de datos. Si todas las variables tienen la misma frecuencia diremos que no hay moda. El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos con datos agrupados antes de definir la moda, se ha de definir el intervalo modal.

La moda, cuando los datos están agrupados, es un punto que divide al intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

\frac{p}{c-p}=\frac{n_i-n_{i-1} }{n_i-n_{i+1} }

Siendo la frecuencia absoluta del intervalo modal las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal.
\gamma n_{i-1} \gamma n_{i+1}

Para obtener la moda en datos agrupados se usa la siguiente fórmula:
M = L_{i} + \left( \frac{D_1}{D_1+D_2} \right)A_{i}
Donde:
L_{i} = L inferior de la clase modal.
D_1 = es el delta de frecuencia absoluta modal y la frecuencia absoluta premodal.
D_2 = es el delta de frecuencia absoluta modal y la frecuencia absoluta postmodal.
A_{i} = Amplitud del intervalo modal.