viernes, 8 de abril de 2011

Examen - Introducción a Probabilidad

Instrucciones
 Este examen deberá ser entregado, en las manos del profesor Carreras, el jueves 14 de abril, en o antes de las 8:00 am. (No se harán excepciones).
 Realizado en papel tamaño 8 ½ x 11 (papel blanco de computadora), que deberán estar grapado a esta hoja.
 Todo será escrito a lápiz y en forma clara y organizada.
 Debe aparecer todo el procedimiento para cada uno de los ejercicios.
 Todas las respuestas deberán aparecer encerradas en un rectángulo.

jueves, 7 de abril de 2011

Una Introducción a Probabilidad

Resumen: Reglas Aditivas y Multiplicativas

  1. La Regla Aditiva de Probabilidad establece que la unión de dos eventos puede ser encontrada sumando las probabilidades de cada evento y restando la intersección de los dos eventos. 
  2. $P(A \cup B)=P(A)+P(B)-P(A \cap B)$
  3. Si $A \cap B$ no contiene eventos simples, entonces A y B son mutuamente exclusivos. Matemáticamente, esto significa $P(A \cup B)=P(A)+P(B)$
  4. La Regla Multiplicativa de Probabilidad establece $P(A \cap B)=P(B)P(A|B)$
  5. Si el evento B es independiente del evento A, entonces la ocurrencia de A no afecta la probabilidad de la ocurrencia del evento B. Matematicamente, $P(B)=P(B|A)$

Resumen: Probabilidad Condicional

  1. Si A y B son dos eventos, entonces la probabilidad de que el evento A ocurra, dado que el evento B ocurra es llamada probabilidad condicional. Denotamos esta por el símbolo P(A|B), el cual se lee “la probabilidad de A dado B”.
  2. La probabilidad condiccional puede ser encontrada con la ecuación $P(A|B)=P(A\cap B)/P(B) $

Resumen: El Complemento de un Evento

  1. El complemento A’ de un evento A consiste de todos los eventos simples (resultados) que no están en A.
  2. La Regla Complementaria establece que la suma de las probabilidades de un evento y su complemento debe ser igual a 1, o para un evento A, P(A) + P(A’) = 1.

Resumen: Eventos Compuestos

  1. La unión de dos eventos A y B, ocurre si ocurre el evento A o el evento B o ambos en la realización de un solo experimento.
  2. La intersección de dos eventos A y B, ocurre solamente si ambos eventos ocurren en la realización de un solo experimento.
  3. Las intersecciones y uniones pueden ser utilizadas para combinar mas de dos eventos.

Resumen: Eventos, Espacios Muestrales y Probabilidad

  1. Un evento es algo que ocurre o sucede con uno o más resultados.
  2. Un experimento es el proceso de tomar medidas o hacer una observación.
  3. Un evento simple es el resultado mas simple de un experimento.
  4. El espacio muestral es el conjunto de todos los posibles resultados de un experimento, tipicamente denotado por S.

lunes, 21 de marzo de 2011

Examen - Visualización de Data

Instrucciones
 Este examen deberá ser entregado, en las manos del profesor Carreras, el martes 29 de marzo, en o antes de las 8:00 am. (No se harán excepciones).
 Realizado en papel tamaño 8 ½ x 11 (papel blanco de computadora), que deberán estar grapado a esta hoja.
 Todo será escrito a lápiz y en forma clara y organizada.
 Debe aparecer todo el procedimiento para cada uno de los ejercicios.
 Todas las respuestas deberán aparecer encerradas en un rectángulo.

martes, 15 de marzo de 2011

Resumen: Box-and-Whisker Plots

El resumen de los cinco números es una colección útil de medidas estadísticas que consiste de los siguientes en orden ascendente: mínimo, cuartillo inferior, mediana, cuartillo superior y máximo.

Un Box-and-Whisker Plot es una representación gráfica del resumen de los cinco números mostrando una caja delimitada por los cuartillos superiores e inferiores y la mediana como una línea dentro de la caja. Los “whiskers” o bigotes son segmentos que se extienden desde los cuartillos hasta los valores mínimo y máximo. Cada bigote y sección de la caja contienen aproximadamente 25% de la data. El ancho de la caja es el rango intercuartil (IRQ) y este muestra el esparcimiento del 50% de la data de en medio. Los box-and-whisker plots son efectivos en dar una impresión general de la forma, centro y esparcimiento de la data. Mientras que un “outlier” es simplemente un punto que no es típico al resto de la data, existe una definición aceptada de un “outlier” en el contexto de un box-and-whisker plot”. Cualquier punto que esté a más de 1.5 veces el largo de la caja (IRQ) de cualquier lado de la caja, es considerado un “outlier”. Cuando se cambian unidades de una distribución, el centro y el esparcimiento se afectan, pero la forma permanece igual.

viernes, 4 de marzo de 2011

Resumen: Gráficas Comunes y Diagramas de Data

Las gráficas de barra son utilizadas para representar data categórica en una forma que se parece, pero no es lo mismo que un histograma. Una gráfica circular es útil para mostrar variables categóricas, especialmente cuando es importante mostrar como los porcentajes de un conjunto completo de data encajan en categorías individuales. Un dot plot es una manera conveniente de representar data numérica univariada colocando puntos individuales a lo largo de una recta numérica para representar cada valor. Este tipo de diagrama es especialmente útil en darnos una impresión rápida de la forma, centro y esparcimiento de la data, pero son tediosas de hacer a mano cuando se trabaja con conjuntos grandes de data. Los stem and leaf plots muestran información similar con el beneficio añadido de mostrar los valores de los datos. La data bivariada puede ser representada utilizando un scatterplot para mostrar si existe alguna asociación entre las dos variables. Usualmente una de las variables, explanatory variable (independiente), puede ser identificada como aquella que tiene algún impacto en la otra variable, response variable (dependiente). La variable explanatory debe ser colocada en el eje horizontal y la variable response en el eje vertical. Cada punto es dibujado individualmente. Si existe asociación entre las dos variables, esta puede ser identificada como fuerte si los puntos se acomodan en una forma bien distintiva con poca variación de la forma en los puntos individuales, o débil se los puntos aparentan estar colocados mas aleatoriamente. Si los valores de la variable response generalmente aumenta a medida que los valores de la variable explanatory también aumenta, entonces la data tiene una asociación positiva. Si la variable response generalmente disminuye a medida que la variable explanatory aumenta, la data tiene una asociación positiva. En una gráfica de línea, hay significado al cambio entre puntos consecutivos así que estos puntos se conectan. Las gráficas de línea son usualmente utilizadas cuando la variable explanatory es tiempo.

Resumen: Histogramas y Distribuciones de Frecuencia

Una tabla de frecuencia es útil para organizar data en clases de acuerdo al numero de ocurrencias en cada clase, o frecuencia. La frecuencia relativa muestra el porcentaje de la data en cada clase. Una representación gráfica de un tabla de frecuencia que utiliza “bins” para mostrar la cantidad en cada clase es llamado un histograma. A pesar de que se asemeja mucho, una gráfica de barra es utilizada solamente para variables categóricas. Un polígono de frecuencia se crea marcando los puntos medios de cada “bin” y sus frecuencias y conectando estos puntos con segmentos de recta. Los polígonos de frecuencia son útiles para ver la forma general de la distribución de una data y para comparar múltiples conjuntos de data. Para cualquier distribución de data debes siempre poder describir la forma, centro y esparcimiento. La data que forma montones puede ser clasificada como simétrica o sesgada (skewed). Las distribuciones que son sesgadas a la izquierda tiene la mayoría de la data concentrada en la derecha y la data esparcida o menos concentrada en el lado izquierdo. Este extremo donde hay menos concentración se conoce como cola (tail). Una distribución que es sesgada a la derecha tiene gran parte de la data concentrada al lado izquierdo y la cola al lado derecho. Un diagrama de ojiva, o diagrama de frecuencia relativa acumulada muestra como la data se acumula a través de los diferentes valores de la variable.

Trabajo de Gráficas Comunes y Diagramas de Data

miércoles, 23 de febrero de 2011

martes, 15 de febrero de 2011

Resumen: Medidas de Esparcimiento

Cuando se examina un conjunto de data, utilizamos estadísticas descriptivas para proveer información sobre como la data esta esparcida. El rango es la diferencia entre el número mayor y el número menor del conjunto de datos. El rango intercuartil (IRQ) es la diferencia entre el cuartillo superior y el cuartillo inferior. Una medida más informativa de esparcimiento es basada en la media. Podemos mirar cuanto cada punto individual se aleja de la media, restándole a cada valor la media. Esto es llamado la desviación. La desviación estándar es una medida de la desviación “promedio” del conjunto de data completo. Debido a que las desviaciones siempre suman a cero, encontramos la desviación estándar sumando las desviaciones cuadradas. Cuando tenemos la población completa, la suma de las desviaciones cuadradas es dividida por el tamaño de la población. Esta cantidad es llamada la varianza. Al tomar la raíz cuadrada de la varianza obtenemos la desviación estándar. Para una población, la desviación estándar es denotada por σ. Debido a que una muestra es propensa a variación aleatoria (sampling error), ajustamos la desviación estándar para hacerla un poco mayor al dividir la suma de las desviaciones cuadradas por uno menos que el número de observaciones. El resultado de esta división es la varianza de la muestra y la raiz cuadrada de la varianza de la muestra es la desviación estándar de la muestra, usualmente denotada por s. El Teorema de Chebyshev nos da información sobre el porcentaje mínimo de data que está a ciertos números de desviaciones estándar de la media, esto aplica a cualquier población o muestra, sin importar de como la data está distribuida.

domingo, 13 de febrero de 2011

Resumen: Medidas de Tendencia Central

Cuando se examina un conjunto de data, utilizamos estadística descriptiva para proveer información sobre donde la data está centrada. La moda es una medida del número que ocurre en un conjunto de data y es más útil para data categórica y data medida al nivel nominal. La media y la mediana son dos de las medidas de tendencia central más comúnmente utilizadas. La media o promedio, es la suma de los datos dividido por el número total de datos en el conjunto. En un conjunto de data que es una muestra de la población, la media es denotada como x. Cuando la población completa está envuelta, la media de la población es µ. La mediana es el medio numérico del conjunto de data. Si hay un número impar de números, el valor del medio es fácil de encontrar. Si hay un número par de valores la mediana es la media de los dos valores del medio. La mediana es resistente, es decir que no es afectada por la presencia de “outliers”. Un “outlier” es un número que tiene un valor extremo cuando se compara con la mayoría de la data. La media no es resistente, por lo cual la mediana tiende a ser una medida de tendencia central más apropiada para utilizarse en muestra que contienen “outliers”. Debido a que la media es el punto numérico de balance de la data, es una medida de tendencia central extremadamente importante que es la base para otros cómputos y procesos necesarios para hacer conclusiones útiles sobre un conjunto de data.

Otras medidas de tendencia central incluyen el “midrange”, el cual es la media de los valores máximos y mínimos. En un “% trimmed mean”, se remueve un cierto porciento de la data (la mitad de cada extremo) antes de calcular la media. El “weighted mean” o media ponderada, envuelve multiplicar los valores de data individual por sus frecuencias antes de sumarlas y luego dividiéndolas por el total de las frecuencias.

Un percentil es un valor de data en el cual el porcentaje especificado de la data está por debajo de ese valor. La mediana es el percentil 50. Dos percentiles muy conocidas son el percentil 25, el cual es llamado el cuartil inferior (LQ o Q1) y el percentil 75, el cual es llamado el cuartil superior (UQ o Q3).

viernes, 11 de febrero de 2011

Examen - Introducción al Análisis Estadístico de Data

Instrucciones
 Este examen deberá ser entregado, en las manos del profesor Carreras, el jueves 17 de febrero, en o antes de las 8:00 am. (No se harán excepciones).
 Realizado en papel tamaño 8 ½ x 11 (papel blanco de computadora), que deberán estar grapado a esta hoja.
 Todo será escrito a lápiz y en forma clara y organizada.
 Debe aparecer todo el procedimiento para cada uno de los ejercicios.
 Todas las respuestas deberán aparecer encerradas en un rectángulo.

Introducción Al Análisis Estadístico de Data

martes, 1 de febrero de 2011

Resumen: Una Visión General de Data

La data puede ser medida a diferentes niveles dependiendo en el tipo de variable y cantidad del detalle que es recogido. Un método ampliamente utilizado para categorizar los diferentes tipos de medidas se descompone en cuatro grupos. Data nominal la cual es medida por clasificación o categorías. Data ordinal la cual utiliza categorías numéricas que conducen a un orden significativo. La medida de intervalo muestra orden y los espacios entre los valores también tienen un valor significativo. En la medida de ratio, la razón entre cualquier dos valores tienen significado porque la data incluye un valor cero absoluto.

Los estadísticos e investigadores utilizan mayormente dos técnicas para llegar a conclusiones importantes sobre las relaciones entre variables. Un estudio observacional es cuando un investigador observa los sujetos en el mudo real sin manipularlos. Un experimento es la forma de establecer relaciones “causa y efecto” ciertas. Esto requiere que el investigador imponga algún tratamiento asignado aleatoriamente en los sujetos en un esfuerzo de aislar el efecto de una sola variable.

Para poder resumir un conjunto de data, a menudo buscamos por una sola cantidad que describe donde está centrada. Existen varias medidas que son utilizadas para realizar este tipo de resumen, incluyendo la media, la mediana y la moda. Estas se discuten en detalle en próximas clases, pero se le refiere a estas, generalmente, como medidas de tendencia central. Similarmente, para información de como la data está esparcida, se investiga las medidas de esparcimiento que incluyen el rango, rango intercuartil y la desviación estándar.

Resumen: Definiciones de Terminología Estadística

En estadística, el grupo total estudiando es llamado la población. Los individuos (personas, animales o cosas) en la población son llamados unidades. Las características de aquellos individuos de interés para nosotros son llamadas variables. Estas variables generalmente son de dos tipos, numéricas o cuantitativas y categórica o cualitativa.
Las variables cuantitativas se pueden categorizar como aquellas que solo se le pueden dar valores "enteros" o variables discretas y aquellas que pueden ser un rango de valores o variables continuas.
Debido a las dificultades de obtener información de todas las unidades en una población, es común utilizar un subconjunto pequeño y representativo de la población llamado muestra. Un valor real de una variable de la población (por ejemplo, número de tortugas, peso promedio de todas las tortugas, etc.) es llamado un parámetro. Un estimado de un parámetro de una muestra es llamado un estadístico.
Siempre que se utiliza una muestra en lugar de la población completa, tenemos que aceptar que nuestros resultados son meramente estimados por lo cual hay alguna probabilidad de que esten incorrectos. Esto es llamado "sampling error"