1.2 Análisis de datos, Tablas de Distribución de frecuencias y Tablas de Contingencia “A partir de la realidad observable se debe crear un modelo numérico teórico para intentar estudiar ésta realidad”
Una vez que los datos se han codificado, transferidos a una matriz y guardado en una computadora podemos proceder a analizarlos, proceso que se hace con un programa estadístico como SPSS o INFOSTAT, de forma manual solo se pueden manejar pocos datos y variables es por ello que el énfasis de este libro está más en la interpretación de resultados que en los procedimientos de cálculo. El procedimiento de análisis sugerido se esquematiza en la figura siguiente: En general el investigador debe buscar de primero cómo describir sus datos y posteriormente efectuar el análisis estadístico para relacionar las variables generadas. Los tipos de análisis son variados y cada método tiene su razón de ser un propósito específico, “la estadística no es un fin en sí misma, sino una herramienta para analizar datos”.
Los principales análisis que pueden efectuarse son:
Estadística descriptiva de las variables.
Pruebas de hipótesis para la toma de decisiones.
“la estadística está ligada a la toma, organización, presentación y análisis de un grupo de datos”.
Una primera tarea luego de construir una tabla o matriz de datos, es explorarlos buscando información atípica o anormal y corregir los casos que la información atípica se deba a una mala digitación o error en la recolección de datos. Lo siguiente para observar el comportamiento de los datos es realizar una “distribución frecuencias” en forma de tabla y gráficos. Para esto, los datos se agrupan en clases o categorías y para grupo se calcula las frecuencias absolutas y relativas. En este momento es importante poder definir el tipo de escala de medición usada, sucesión de medidas que permite organizar datos o para agrupar los datos, en este sentido se pueden reconocer diferentes escalas:
Las Escalas Nominales, son discontinuas y se usan cuando describimos algo dándole un nombre a cada categoría o clase y estas son mutuamente excluyentes. A cada categoría se le adjudica un valor numérico. Por ejemplo la variable sexo donde “varón = 1” y “mujer = 2”.
Las Escalas Ordinales, son discontinuas y se usan donde hay un orden jerárquico de un conjunto de objetos o eventos con respecto a algún atributo específico, por ejemplo ordenar los ingresos en tres niveles: “alto =1”, “medio = 2” y “bajo = 3”.
Las Escalas de Intervalos Iguales, estas pueden ser sumadas, restadas multiplicadas y divididas sin afectar las distancias relativas entre las calificaciones. Por ejemplo las medidas de temperatura en Grados C0, las calificaciones de un examen en una escala de 1 a 100. En esta escala el “0” es arbitrario y no necesariamente representa ausencia, también nos dice que un valor de 30 puntos de un examen de español no necesariamente representa la mitad de conocimiento de un valor de 60 puntos.
Las Escala de Razón Constante, tienen todas las propiedades de las Escalas de intervalos más un cero absoluto, por ejemplo las medidas de tiempo, peso y distancia, el valor “0” representa ausencia del valor.
Un caso especial de escala ordinal es la escala de Likert, esta escala es muy usada en las ciencias sociales y se usa para medir actitudes, “Una actitud es una predisposición aprendida par responder consistentemente de una manera favorable o desfavorable ante un objeto de sus símbolos”. Así las personas tenemos actitudes hacia muy diversos objetos o símbolos, por ejemplo: actitudes hacia la política económica, un profesor, la ley, nosotros, etc. Las actitudes están relacionadas con el comportamiento que mantenemos. Estas mediciones de actitudes deben interpretarse como “síntomas” y no como hechos. Esta escala es bipolar porque mide tanto el grado positivo como negativo de cada enunciado y consiste en un conjunto de ítem presentado en forma de afirmaciones o juicios ante los cuales se pide reacción a los sujetos en estudio en una escala de 5 puntos, cada punto tiene un valor numérico. Un ejemplo de cómo calificar con afirmaciones positivas es ¿Le gusta cómo se imparte la clase de estadística?:
1- Muy en desacuerdo, 2- En desacuerdo, 3- Ni de acuerdo, ni en desacuerdo,
4- De acuerdo, 5-Muy de acuerdo.
Estar de acuerdo con la idea presentada significa un puntaje mayor. Ejercicio 1.3: entre los participantes de la clases tomar datos de 15 variables al menos por ejemplo: Edad, Sexo, Procedencia, etc. Y luego ordénelos en forma de matriz de datos, recodifique la información cualitativa en numérica.
Organización de una matriz de información a partir de un cuestionario.
Una encuesta impersonal con preguntas cerradas es una manera de recolectar mucha información rápidamente que luego se puede codificarla fácilmente, la debilidad de este instrumento es que no siempre la gente responde adecuadamente y que las respuestas generadas se limitan a las opciones previamente definidas y la experiencia nos dice que la realidad es mucho más rica que lo que creemos ocurre a priori. Para los que trabajan con entrevistas hay que saber que también la información que se genera de las entrevistas puede luego tabularse numéricamente de la misma manera que una encuesta.
Encuestas o Cuestionarios: Al diseñar una encuesta esta debe ayudar a responder a las preguntas que genera la hipótesis del trabajo, un error común es hacer una encuesta primero y luego que se han recolectado los datos, se solicita a un estadístico que no ayude a analizar la información, “la lógica es al revés” se debe pensar como se analizará la información desde el mismo momento que se diseña la encuesta. Se sugiera que las variables cualitativas (ej. nombres) se deben recodificar al momento del llenado de la base de datos creando variables numéricas discretas, por ej. Si quiero clasificar la becas que otorga una Universidad puedo codificar a estas de la siguiente manera: Beca interna =1, Beca externa =2 y No beca =0. Si las opciones que genera una variable discreta permite hacer combinaciones de las respuestas se sugiere crear muchas variables dicotómicas del tipo Si o No (1,0). Veamos un ejemplo: Si se pregunta: que prácticas de en los cultivos realiza un campesino, estas pueden ser varias y combinadas como: Insecticidas Botánicos, Trampas amarillas, Barreras vivas, Semilla resistente etc. En este caso lo que se hace es generar un variable del tipo 0-1 para cada opción de práctica de cultivo, generando muchas variables en una sola pregunta. Para crear una base de datos hay que recordar que se está obteniendo una matriz de datos donde en la primera fila se tiene el nombre abreviado de la variable y en el resto de las filas los datos para cada encuesta o individuo en estudio. Las variables cualitativas se deben recodificar, veamos el siguiente ejemplo hipotético de 8 encuestas:
Encuesta
| Sexo
| Edad
| Ingresos semanales C$
| Comunidad
| Labor realizada
| 1
| 1
| 31
| 1,394
| 2
| 3
| 2
| 1
| 35
| 1,311
| 4
| 2
| 3
| 1
| 43
| 1,300
| 2
| 3
| 4
| 1
| 28
| 1,304
| 3
| 1
| 5
| 2
| 45
| 1,310
| 1
| 3
| 6
| 2
| 36
| 1,443
| 2
| 2
| 7
| 2
| 21
| 1,536
| 2
| 3
| 8
| 2
| 32
| 1,823
| 1
| 3
| Esta matriz se codifica así: la variable “Sexo”: 1= varón, 2 = mujer. Para la variable “comunidad” hay 4 tipos diferentes donde: 1= Estelí, 2= Condega, 3= Pueblo Nuevo y 4= Limay y para “Labor realizado”: 1= en otra finca, 2= en la cuidad y 3= en la propia finca. De esta manera se transforma en datos numéricos una información descriptiva, estos números permiten luego hacer estadística. Ejercicio 1.4: Intente codificar numéricamente las respuestas que se generan a partir de la encuesta de caracterización socioeconómica, que a continuación se detalla, discuta las posibles respuestas, diga si las preguntas están bien formuladas, sugiera si alguna de ellas está de más y que preguntas propone para completar la información. Hoja de Encuesta
Número de ficha___________
Fecha: ______________________________________________________
Primer Apellido_______________ Segundo Apellido___________________________
Nombres:________________________ Año____________
Dirección: _____________________________________________________
Estado Civil: _____ Número de personas que habitan la vivienda________________
Nivel de estudio de ellos ______________Edad de cada una de ellos________
Profesión: _____________________________________________________ Ejercicio 1.5:
Defina variables para caracterizar a los estudiantes del curso con el objetivo de determinar posibles causas que tengan influencia en el rendimiento académico del grupo.
Cree una base de datos de al menos 25 individuos. Ver ejemplo.
Ejemplo de una matriz de datos generados con datos de estudiantes. Códigos: Estado Civil: 1 Soltero, 2 Casado; Origen: 1 Estelí, 2 No Estelí; Sexo: 1 Varón, 2 Mujer; Becas: 1 Si 2 No; Opinión: 1 Negativa 5 Positiva

Principios a utilizar al construir una Tabla de Distribución de Frecuencias, TDF.
Aunque esta tabla sirve para resumir información de variables discretas ó continuas, de manera particular la TDF permite transformar una variable continua, a una variable discreta definida por el número de intervalos y su frecuencia. Esta transformación permite construir gráficos de histogramas o polígonos. Con Variables continuas como (peso, altura, producción / superficie, etc.) el recorrido de la variable se parte en intervalos semiabiertos, las clases. Lo primero para construir una TDF es definir el “número de clases” ó intervalos a crear y el “ancho” de cada intervalo. Para que los gráficos permitan visualizar tendencias de la variable en estudios, el número de clases se recomienda que no sean menor de 5 ni mayor de 20. Al ancho de clase se calcula dividiendo el Rango (valor mayor – valor menor), con un valor que debe variar entre 5 y 20. Hay que utilizar más clases cuando se tiene más datos disponibles, si el número de clases es muy grande es posible tener muchas clases vacías, si es demasiado pequeño podrían quedar ocultas características importantes de los datos al agruparlos. Se tendría que determinar el número de clases a partir de la cantidad de datos presente y de su uniformidad, en general con menos de treinta datos se usa una TDF con 5 clases, para tener un criterio sobre el número de clases en función del número de datos ver la tabla siguiente .
Tabla para determinar el número de clases de una TDF Número datos
| Número de clases
| 30-50
| 5-7
| 51-100
| 6-10
| 101-250
| 7-12
| +250
| 10-20
|
El valor central de una clase se llama “marca de clase”, este valor se usa para construir los gráficos de polígonos de frecuencia. Veamos un ejemplo de cómo se construye una Tabla de Distribución de Frecuencias. Es importante resaltar que con las variables nominales no se construyen intervalos, límites ó marcas de clase, esto no tiene sentido con este tipo de variable. Ejemplo con Datos de ingresos de 24 familias. Variable: Ingresos semanales en C$ por familia, n = 24 datos. 1,450
| 1,443
| 1,536
| 1,394
| 1,623
| 1,650
| 1,480
| 1,355
| 1,350
| 1,430
| 1,520
| 1,550
| 1,425
| 1,360
| 1,430
| 1,450
| 1,680
| 1,540
| 1,304
| 1,260
| 1,328
| 1,304
| 1,360
| 1,600
| Secuencia de actividades
Se calcula el Rango de los datos, valor mayor menos valor menor: 1680- 1,260 = 420 C$.
Ancho de clase: El rango se divide en cuatro, 420/4= 105 C$, se ajusta a 100 C$ y de esta manera el número de clases queda en cinco.
Se construye los límites inferiores y superiores de cada clase como intervalos semiabiertos,
Luego se cuentan las frecuencias por clase, esto es la Frecuencia Absoluta
Se calcula la Frecuencia Relativa (Frecuencia Absoluta / n)
Se hace Frecuencia Acumulada. que es la suma de las frecuencias absolutas. También se pueden hacer las frecuencias expresadas en porcentajes.
Tabla de Distribución de frecuencias, TDF.
Clase
| Límite Inferior
Igual a
| Lim. Superior
Menor a
| Marca de clase
| Frecuencia
Absoluta
| Frecuencia
Relativa
| Frecuencia
Acumulada
| 1
| 1,200
| <1,300
| 1,250
| 1
| 0.04
| 1
| 2
| 1,300
| <1,400
| 1,350
| 8
| 0.33
| 9
| 3
| 1,400
| <1,500
| 1,450
| 7
| 0.29
| 16
| 4
| 1,500
| <1,600
| 1,550
| 4
| 0.17
| 20
| 5
| 1,600
| <1,700
| 1,650
| 4
| 0.17
| 24
|
|
|
| Total
| 24
| 1.00
|
| Ejemplo de gráfico construido con estos datos

| “Histograma y Polígono de Frecuencias Relativas de Ingresos semanales de 24 familias del Barrio Virginia Quintero, Estelí. 2008”
|
Se puede observar que la información que lleva el gráfico es completa, incluye todos los datos y permite explicar el contenido del mismo por ejemplo: la barra de mayor altura contiene la moda y al no ser un gráfico simétrico concluyo que la media y mediana son diferentes y que los datos son sesgados hay un agrupamiento de frecuencias a la izquierda del centro. Una manera de representar una distribución de Frecuencias es:
Por medio de un gráfico de Barras con variables nominales.
Con un Histograma con variables continuas.
Un polígono de Frecuencias cuando se quieren mostrar las frecuencias absolutas.
Con un gráfico de Pastel cuando se tienen porcentajes o proporciones.
Tablas de contingencia
Las tablas de contingencia, o tablas cruzadas, se usan para resumir la relación de variables cualitativas con pocas categorías, incluso dicotómicas. Estas tablas generalmente vinculan dos variables y en las celdas generadas se muestran las frecuencias absolutas o relativas de las variables involucradas, también se puede mostrar los porcentajes. En las filas suele ir la variable más importante y si se muestran las frecuencias relativas éstas se calculan por fila. Las sumas de las filas y las columnas generan frecuencias marginales y en la celda de la esquina inferior derecha se tiene el total de datos. Con estas tablas se pueden construir gráficos de barras bivariados. A continuación a modo de ejemplo se muestran dos tablas, una de frecuencias absolutas y otra de frecuencias relativas de los datos de una sección de 31 estudiantes, las variables en estudio son: “sexo” y “si disponen de beca”. Cómo en este estudio la variable más importante de cruce es sexo, ésta se ubica en las filas y así se observan las frecuencias relativas.
Frecuencias absolutas
En columnas: Beca
Sexo No Si Total
Mujer 10 7 17
Varón 7 7 14
Total 17 14 31
| Frecuencias relativas por filas
En columnas: Beca
Sexo No Si Total
Mujer 0.59 0.41 1.00
Varón 0.50 0.50 1.00
Total 0.55 0.45 1.00
|
Ejercicio 1.6 Realizar una tabla de frecuencias con una variable discreta (contable) y una variable continua (medible) de la matriz generada con los datos obtenidos en clase. Con dos variables cualitativas construye una tabla de contingencia.
|