martes, 15 de febrero de 2011

Resumen: Medidas de Esparcimiento

Cuando se examina un conjunto de data, utilizamos estadísticas descriptivas para proveer información sobre como la data esta esparcida. El rango es la diferencia entre el número mayor y el número menor del conjunto de datos. El rango intercuartil (IRQ) es la diferencia entre el cuartillo superior y el cuartillo inferior. Una medida más informativa de esparcimiento es basada en la media. Podemos mirar cuanto cada punto individual se aleja de la media, restándole a cada valor la media. Esto es llamado la desviación. La desviación estándar es una medida de la desviación “promedio” del conjunto de data completo. Debido a que las desviaciones siempre suman a cero, encontramos la desviación estándar sumando las desviaciones cuadradas. Cuando tenemos la población completa, la suma de las desviaciones cuadradas es dividida por el tamaño de la población. Esta cantidad es llamada la varianza. Al tomar la raíz cuadrada de la varianza obtenemos la desviación estándar. Para una población, la desviación estándar es denotada por σ. Debido a que una muestra es propensa a variación aleatoria (sampling error), ajustamos la desviación estándar para hacerla un poco mayor al dividir la suma de las desviaciones cuadradas por uno menos que el número de observaciones. El resultado de esta división es la varianza de la muestra y la raiz cuadrada de la varianza de la muestra es la desviación estándar de la muestra, usualmente denotada por s. El Teorema de Chebyshev nos da información sobre el porcentaje mínimo de data que está a ciertos números de desviaciones estándar de la media, esto aplica a cualquier población o muestra, sin importar de como la data está distribuida.

No hay comentarios:

Publicar un comentario