
Una vez construida la base debemos realizar un análisis de consistencia de los datos y depurarla,
para lo cual podemos ayudarnos con la representación de las variables en tablas y gráficos. Este
resumen o representación depende del tipo de variable considerada, y permite realizar un primer
análisis de éstas. En las secciones siguientes trabajaremos con cada tipo de variable en particular, a
fin de poder organizar y presentar los datos. El resumen y la presentación de datos a través de tablas
y gráficos, permite mostrar la información de un conjunto de datos a una forma más simple, de tal
manera que facilita a quien los lee tener una idea general de su comportamiento, es decir de la forma
en que están distribuidos. Otro aspecto que consideraremos es si el análisis es para una variable, lo
que en estadística se denomina análisis unidimensional o si se analizan dos o más variables
conjuntamente, lo que se denomina análisis bidimensional o multidimensional. En esta asignatura,
veremos los dos primeros tipos (unidimensional y bidimensional), apuntando en este capítulo, a la
forma en que habitualmente se presentan los datos.
Distribuciones Unidimensionales
Comenzaremos con el análisis de las variables categóricas, para continuar luego con numéricas
discretas y continuas. En la sección anterior mostramos que en una base de datos cada fila
corresponde a una unidad de análisis y cada columna a una variable. Si tomamos una columna en
particular, la misma constituye lo que en estadística se llama una serie simple, la que muestra cada
una de las observaciones en el orden en que fueron recopiladas. A partir de esos datos elaboraremos
distribuciones de frecuencias.
Variables Categóricas
Para armar una tabla resumen de este tipo de variables, contamos la cantidad de casos que
pertenecen a cada clase o categoría, lo que se denomina frecuencia absoluta y calculamos la
proporción de casos en cada una de ellas, lo que se denomina frecuencia relativa, las que pueden
expresarse en porcentajes. Con estas frecuencias, se puede construir una tabla de tres columnas,
donde en la primera se anotarán las categorías y en las otras dos, la cantidad y el porcentaje de
observaciones
Cuando hablamos de frecuencia hacemos referencia a la repetición de cada valor o categoría de la
variable.
Clasificación de frecuencias:
● Frecuencia Absoluta: Es la cantidad de veces que se repite el valor. ( ni)
● Frecuencia Relativa: Es la proporción de veces que se repite la variable. Se calcula como la
frecuencia absoluta dividido el total de observaciones con el que estamos trabajando (hi = ni /
n)
● Frecuencia Absoluta Acumulada: Suma de las frecuencias absolutas ( Ni)
● Frecuencia Relativa Acumulada: Suma de las frecuencias relativas ( Hi)
- Las frecuencias acumuladas en el caso de este tipo de variables no son útiles, por lo tanto no es
necesario el cálculo de las mismas -
Esta información puede representarse gráficamente. Los gráficos no agregan información, pero se
emplean para tener una representación visual de la totalidad de la misma, presentando los datos de
tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos con otros. En el caso
de variables categóricas, utilizamos el Diagrama Circular ( gráfico de torta o pastel) y el Gráfico de
Barras