miércoles, 23 de febrero de 2011

martes, 15 de febrero de 2011

Resumen: Medidas de Esparcimiento

Cuando se examina un conjunto de data, utilizamos estadísticas descriptivas para proveer información sobre como la data esta esparcida. El rango es la diferencia entre el número mayor y el número menor del conjunto de datos. El rango intercuartil (IRQ) es la diferencia entre el cuartillo superior y el cuartillo inferior. Una medida más informativa de esparcimiento es basada en la media. Podemos mirar cuanto cada punto individual se aleja de la media, restándole a cada valor la media. Esto es llamado la desviación. La desviación estándar es una medida de la desviación “promedio” del conjunto de data completo. Debido a que las desviaciones siempre suman a cero, encontramos la desviación estándar sumando las desviaciones cuadradas. Cuando tenemos la población completa, la suma de las desviaciones cuadradas es dividida por el tamaño de la población. Esta cantidad es llamada la varianza. Al tomar la raíz cuadrada de la varianza obtenemos la desviación estándar. Para una población, la desviación estándar es denotada por σ. Debido a que una muestra es propensa a variación aleatoria (sampling error), ajustamos la desviación estándar para hacerla un poco mayor al dividir la suma de las desviaciones cuadradas por uno menos que el número de observaciones. El resultado de esta división es la varianza de la muestra y la raiz cuadrada de la varianza de la muestra es la desviación estándar de la muestra, usualmente denotada por s. El Teorema de Chebyshev nos da información sobre el porcentaje mínimo de data que está a ciertos números de desviaciones estándar de la media, esto aplica a cualquier población o muestra, sin importar de como la data está distribuida.

domingo, 13 de febrero de 2011

Resumen: Medidas de Tendencia Central

Cuando se examina un conjunto de data, utilizamos estadística descriptiva para proveer información sobre donde la data está centrada. La moda es una medida del número que ocurre en un conjunto de data y es más útil para data categórica y data medida al nivel nominal. La media y la mediana son dos de las medidas de tendencia central más comúnmente utilizadas. La media o promedio, es la suma de los datos dividido por el número total de datos en el conjunto. En un conjunto de data que es una muestra de la población, la media es denotada como x. Cuando la población completa está envuelta, la media de la población es µ. La mediana es el medio numérico del conjunto de data. Si hay un número impar de números, el valor del medio es fácil de encontrar. Si hay un número par de valores la mediana es la media de los dos valores del medio. La mediana es resistente, es decir que no es afectada por la presencia de “outliers”. Un “outlier” es un número que tiene un valor extremo cuando se compara con la mayoría de la data. La media no es resistente, por lo cual la mediana tiende a ser una medida de tendencia central más apropiada para utilizarse en muestra que contienen “outliers”. Debido a que la media es el punto numérico de balance de la data, es una medida de tendencia central extremadamente importante que es la base para otros cómputos y procesos necesarios para hacer conclusiones útiles sobre un conjunto de data.

Otras medidas de tendencia central incluyen el “midrange”, el cual es la media de los valores máximos y mínimos. En un “% trimmed mean”, se remueve un cierto porciento de la data (la mitad de cada extremo) antes de calcular la media. El “weighted mean” o media ponderada, envuelve multiplicar los valores de data individual por sus frecuencias antes de sumarlas y luego dividiéndolas por el total de las frecuencias.

Un percentil es un valor de data en el cual el porcentaje especificado de la data está por debajo de ese valor. La mediana es el percentil 50. Dos percentiles muy conocidas son el percentil 25, el cual es llamado el cuartil inferior (LQ o Q1) y el percentil 75, el cual es llamado el cuartil superior (UQ o Q3).

viernes, 11 de febrero de 2011

Examen - Introducción al Análisis Estadístico de Data

Instrucciones
 Este examen deberá ser entregado, en las manos del profesor Carreras, el jueves 17 de febrero, en o antes de las 8:00 am. (No se harán excepciones).
 Realizado en papel tamaño 8 ½ x 11 (papel blanco de computadora), que deberán estar grapado a esta hoja.
 Todo será escrito a lápiz y en forma clara y organizada.
 Debe aparecer todo el procedimiento para cada uno de los ejercicios.
 Todas las respuestas deberán aparecer encerradas en un rectángulo.

Introducción Al Análisis Estadístico de Data

martes, 1 de febrero de 2011

Resumen: Una Visión General de Data

La data puede ser medida a diferentes niveles dependiendo en el tipo de variable y cantidad del detalle que es recogido. Un método ampliamente utilizado para categorizar los diferentes tipos de medidas se descompone en cuatro grupos. Data nominal la cual es medida por clasificación o categorías. Data ordinal la cual utiliza categorías numéricas que conducen a un orden significativo. La medida de intervalo muestra orden y los espacios entre los valores también tienen un valor significativo. En la medida de ratio, la razón entre cualquier dos valores tienen significado porque la data incluye un valor cero absoluto.

Los estadísticos e investigadores utilizan mayormente dos técnicas para llegar a conclusiones importantes sobre las relaciones entre variables. Un estudio observacional es cuando un investigador observa los sujetos en el mudo real sin manipularlos. Un experimento es la forma de establecer relaciones “causa y efecto” ciertas. Esto requiere que el investigador imponga algún tratamiento asignado aleatoriamente en los sujetos en un esfuerzo de aislar el efecto de una sola variable.

Para poder resumir un conjunto de data, a menudo buscamos por una sola cantidad que describe donde está centrada. Existen varias medidas que son utilizadas para realizar este tipo de resumen, incluyendo la media, la mediana y la moda. Estas se discuten en detalle en próximas clases, pero se le refiere a estas, generalmente, como medidas de tendencia central. Similarmente, para información de como la data está esparcida, se investiga las medidas de esparcimiento que incluyen el rango, rango intercuartil y la desviación estándar.

Resumen: Definiciones de Terminología Estadística

En estadística, el grupo total estudiando es llamado la población. Los individuos (personas, animales o cosas) en la población son llamados unidades. Las características de aquellos individuos de interés para nosotros son llamadas variables. Estas variables generalmente son de dos tipos, numéricas o cuantitativas y categórica o cualitativa.
Las variables cuantitativas se pueden categorizar como aquellas que solo se le pueden dar valores "enteros" o variables discretas y aquellas que pueden ser un rango de valores o variables continuas.
Debido a las dificultades de obtener información de todas las unidades en una población, es común utilizar un subconjunto pequeño y representativo de la población llamado muestra. Un valor real de una variable de la población (por ejemplo, número de tortugas, peso promedio de todas las tortugas, etc.) es llamado un parámetro. Un estimado de un parámetro de una muestra es llamado un estadístico.
Siempre que se utiliza una muestra en lugar de la población completa, tenemos que aceptar que nuestros resultados son meramente estimados por lo cual hay alguna probabilidad de que esten incorrectos. Esto es llamado "sampling error"