lunes, 21 de marzo de 2011

Examen - Visualización de Data

Instrucciones
 Este examen deberá ser entregado, en las manos del profesor Carreras, el martes 29 de marzo, en o antes de las 8:00 am. (No se harán excepciones).
 Realizado en papel tamaño 8 ½ x 11 (papel blanco de computadora), que deberán estar grapado a esta hoja.
 Todo será escrito a lápiz y en forma clara y organizada.
 Debe aparecer todo el procedimiento para cada uno de los ejercicios.
 Todas las respuestas deberán aparecer encerradas en un rectángulo.

martes, 15 de marzo de 2011

Resumen: Box-and-Whisker Plots

El resumen de los cinco números es una colección útil de medidas estadísticas que consiste de los siguientes en orden ascendente: mínimo, cuartillo inferior, mediana, cuartillo superior y máximo.

Un Box-and-Whisker Plot es una representación gráfica del resumen de los cinco números mostrando una caja delimitada por los cuartillos superiores e inferiores y la mediana como una línea dentro de la caja. Los “whiskers” o bigotes son segmentos que se extienden desde los cuartillos hasta los valores mínimo y máximo. Cada bigote y sección de la caja contienen aproximadamente 25% de la data. El ancho de la caja es el rango intercuartil (IRQ) y este muestra el esparcimiento del 50% de la data de en medio. Los box-and-whisker plots son efectivos en dar una impresión general de la forma, centro y esparcimiento de la data. Mientras que un “outlier” es simplemente un punto que no es típico al resto de la data, existe una definición aceptada de un “outlier” en el contexto de un box-and-whisker plot”. Cualquier punto que esté a más de 1.5 veces el largo de la caja (IRQ) de cualquier lado de la caja, es considerado un “outlier”. Cuando se cambian unidades de una distribución, el centro y el esparcimiento se afectan, pero la forma permanece igual.

viernes, 4 de marzo de 2011

Resumen: Gráficas Comunes y Diagramas de Data

Las gráficas de barra son utilizadas para representar data categórica en una forma que se parece, pero no es lo mismo que un histograma. Una gráfica circular es útil para mostrar variables categóricas, especialmente cuando es importante mostrar como los porcentajes de un conjunto completo de data encajan en categorías individuales. Un dot plot es una manera conveniente de representar data numérica univariada colocando puntos individuales a lo largo de una recta numérica para representar cada valor. Este tipo de diagrama es especialmente útil en darnos una impresión rápida de la forma, centro y esparcimiento de la data, pero son tediosas de hacer a mano cuando se trabaja con conjuntos grandes de data. Los stem and leaf plots muestran información similar con el beneficio añadido de mostrar los valores de los datos. La data bivariada puede ser representada utilizando un scatterplot para mostrar si existe alguna asociación entre las dos variables. Usualmente una de las variables, explanatory variable (independiente), puede ser identificada como aquella que tiene algún impacto en la otra variable, response variable (dependiente). La variable explanatory debe ser colocada en el eje horizontal y la variable response en el eje vertical. Cada punto es dibujado individualmente. Si existe asociación entre las dos variables, esta puede ser identificada como fuerte si los puntos se acomodan en una forma bien distintiva con poca variación de la forma en los puntos individuales, o débil se los puntos aparentan estar colocados mas aleatoriamente. Si los valores de la variable response generalmente aumenta a medida que los valores de la variable explanatory también aumenta, entonces la data tiene una asociación positiva. Si la variable response generalmente disminuye a medida que la variable explanatory aumenta, la data tiene una asociación positiva. En una gráfica de línea, hay significado al cambio entre puntos consecutivos así que estos puntos se conectan. Las gráficas de línea son usualmente utilizadas cuando la variable explanatory es tiempo.

Resumen: Histogramas y Distribuciones de Frecuencia

Una tabla de frecuencia es útil para organizar data en clases de acuerdo al numero de ocurrencias en cada clase, o frecuencia. La frecuencia relativa muestra el porcentaje de la data en cada clase. Una representación gráfica de un tabla de frecuencia que utiliza “bins” para mostrar la cantidad en cada clase es llamado un histograma. A pesar de que se asemeja mucho, una gráfica de barra es utilizada solamente para variables categóricas. Un polígono de frecuencia se crea marcando los puntos medios de cada “bin” y sus frecuencias y conectando estos puntos con segmentos de recta. Los polígonos de frecuencia son útiles para ver la forma general de la distribución de una data y para comparar múltiples conjuntos de data. Para cualquier distribución de data debes siempre poder describir la forma, centro y esparcimiento. La data que forma montones puede ser clasificada como simétrica o sesgada (skewed). Las distribuciones que son sesgadas a la izquierda tiene la mayoría de la data concentrada en la derecha y la data esparcida o menos concentrada en el lado izquierdo. Este extremo donde hay menos concentración se conoce como cola (tail). Una distribución que es sesgada a la derecha tiene gran parte de la data concentrada al lado izquierdo y la cola al lado derecho. Un diagrama de ojiva, o diagrama de frecuencia relativa acumulada muestra como la data se acumula a través de los diferentes valores de la variable.

Trabajo de Gráficas Comunes y Diagramas de Data