![]() ![]() ![]() |
3. Procedimientos Estadísticos Utilizados en el Análisis de la Información
3.1. Gráfico de Tallos y Hojas
Gráfico similar al histograma, pero proporciona información más detallada acerca de los datos. La longitud de cada fila corresponde al número de casos que cae en un intervalo particular. Para representar cada caso usa símbolos que corresponden al caso real observado. Esto se hace dividiendo los valores observados en dos componentes : el primer dígito o dígitos, llamado tallo, y un dígito siguiente, llamado la hoja . En el gráfico cada fila representa un tallo y cada caso está representado por su valor hoja. La última fila del gráfico de tallos y hojas es para casos que están alejados del resto, se dan los datos reales.
3.2. Gráfico de Cajas
Resume la información acerca de la distribución de los datos. En lugar de graficar los datos, exhibe estadísticos que resumen características de su distribución. Grafica los estadísticos de posición la mediana, el 25° percentil, el 75° percentil, y los valores que están alejados del resto. (Ver en la siguiente página un diagrama del gráfico de cajas). El borde inferior de la caja es el 25° percentil y el borde superior es el 75° percentil. La línea que atraviesa la caja representa la mediana. La longitud de la caja corresponde al rango intercuartil, que es la diferencia entre el 75° y el 25° percentiles.
![]()
El gráfico de cajas incluye dos categorías de casos con valores distantes. Casos con valores mayores que 3 longitudes de caja del borde superior o inferior de la caja , que se llaman valores extremos; en el gráfico se les designa con "S". Casos con valores entre 1.5 y 3 longitudes de caja del borde superior o inferior de la caja, que se llaman valores atípicos; se les designa con la letra "O". También se muestran los valores más grande y el más pequeño que no sean atípicos. Se trazan líneas de los extremos de la caja a estos valores, que se conocen como "bigotes".
De la mediana podemos determinar la tendencia central. De la longitud de la caja podemos ver la dispersión o variabilidad de las observaciones. Si la mediana no está en el centro de la caja se sabe que los valores observados son sesgados. Si la mediana está más cerca de la base de la caja que del extremo superior, los datos son positivamente sesgados. Hay una cola con valores grandes. Si la mediana está más cerca del extremo superior de la caja que de la base, lo opuesto es verdadero. La distribución es negativamente sesgada. La longitud de la cola se muestra por los bigotes y los puntos atípicos y extremos.
Los gráficos de cajas son particularmente útiles para comparar la distribución de datos de varios grupos.
3.3. Prueba de una muestra Kolmogorov - Smirnov
La prueba de una muestra Kolmogorov - Smirnov es una prueba de bondad de ajuste. Esto es, se trata del grado de coincidencia que existe entre la distribución de un conjunto de valores muestrales (puntajes observados) y alguna distribución teórica específica. Determina si los puntajes de la muesta pueden razonablemente considerarse como provenientes de una población que tenga la distribución teórica.
Brevemente, la prueba involucra la especificación de la distribución de frecuencias acumuladas que ocurriría bajo la distribución teórica y la comparación con las distribución de frecuencias acumulada observada. La distribución teórica representa lo que se esperaría bajo H0, la hipótesis nula. Se determina el punto en el cual estas dos distribuciones teórica y observada, muestran la mayor divergencia. La referencia a la distribución de muestreo indica si tal divergencia grande es probable sobre la base del azar. Esto es, la distribución de muestreo indica si una divergencia de la magnitud observada probablemente ocurriría si las observaciones fuesen realmente una muestra aleatoria de la distribución teórica.
3.4. La prueba x2 para una muestra
Con frecuencia al realizar un estudio, el investigador está interesado en el número de sujetos, objetos o respuestas que son clasificados en varias categorías. Por ejemplo un grupo de pacientes puede clasificarse de acuerdo a su tipo de preponderante de respuesta a la quimioterapia, y el investigador puede predecir tipos que serán más frecuentes que otros. O los niños pueden categorizarse de acuerdo a sus más frecuentes maneras de juego, para probar la hipótesis que estas maneras difieren en frecuencias. O las personas pueden categorizarse de acuerdo a si están "a favor de", "indiferentes" u "opuestos" a alguna propuesta de opinión, para capacitar al investigador para probar la hipótesis de que éstas respuestas difieren en frecuencia.
La prueba X2 es conveniente para analizar datos como estos. El número de categorías pueden ser dos ó más. La técnica es del tipo bondad de ajuste y que puede utilizarse para probar si existe una diferencia significativa entre un número observado de objetos o respuestas que son clasificados en cada categoría y un número esperado basado en la hipótesis nula.
3.5. Método de Dalenius para la construcción de Estratos
Método de estratificación que tiene por variable para dividir (estratificar) la población en subgrupos da tal manera que la varianza en los grupos sea mínima. Para ello utiliza la distribución acumulada de las raíces cuadradas de las frecuencias de los datos observados, de tal manera que los cortes formen intervalos iguales.
A continuación ilustramos su aplicación a la variable Logaritmo del Ingreso para la Región Sierra.
Requerimos dividir los hogares en 5 subgrupos de acuerdo a la variable Logaritmo del Ingreso. La información de partida es la distribución de frecuencias para intervalos de la variable Logaritmo del Ingreso.
Punto de corte : Acum / 5 = 5421.53 / 5
|