Resumen Unidad 1 Estadistica 1 | Estadística I | Licenciatura en Administración de Empresas UNC |

Volver a Estadística I

¿ Qué es la Estadística?

Es la ciencia de recolectar, organizar, presentar, analizar e interpretar datos para ayudar en una toma

de decisiones más efectiva (bajo condiciones de incertidumbre)

Conceptos Importantes:

*Variabilidad: Cuando efectuamos mediciones a ciertos elementos,los resultados varían de una

unidad a la otra

*Incertidumbre: Es generada cuando se trabaja con una parte de la totalidad de elementos que están

bajo consideración en una investigación

Población y Muestra

En Estadística, como las poblaciones a menudo son muy grandes, es imposible o muy costoso

recoger información de toda la población, lo que obliga a trabajar con una parte representativa de esa

población, denominada Muestra Aleatoria.

Una población es el conjunto completo de elementos o individuos que interesa en una investigación,

cada elemento se designa como unidad estadística y su tamaño se representa por la letra N. En

cambio, una muestra es una parte de la población que se selecciona para realizar una determinada

investigación y su tamaño se indica con n. Los elementos de la muestra deben ser seleccionados

aleatoriamente.

● Tanto en la población como en la muestra es muy importante determinar espacio y tiempo

● La unidad de Relevamiento es el individuo o el elemento de donde uno toma el dato o la

característica que quiere analizar, generalmente coincide con la unidad estadística pero no

necesariamente tiene que ser así,por ejemplo: en el censo de vivienda la unidad estadística

son las personas, pero la unidad de relevamiento es el hogar o el jefe de hogar que es el que

va a responder las preguntas.

Una Muestra Aleatoria es aquella en la que todos los elementos de la población tienen una

probabilidad conocida de ser seleccionados. Si la probabilidad es igual para todas las unidades

estadísticas, se trata de una Muestra Aleatoria Simple. El listado de los elementos a partir del cual

se selecciona la muestra en estadística es denominado Marco muestral. Las características de la

unidad estadística relacionada con el tema sobre el cual estamos investigando que deben relevarse y

que varían de una unidad a la otra se denominan variables en estadística.

Parámetro y Estadístico

Toda medida resumen que se calcula para describir características poblacionales se llama parámetro,

el cual es una cantidad fija que generalmente no se conoce y debe ser estimada. Es una única

medida, una constante.

Un estadístico es una medida calculada con las observaciones muestrales. Es una variable

Estadística descriptiva e inferencial

Dada la base de datos, y después de una primera organización de los datos, es posible avanzar en el

descriptivo de los datos y aplicar técnicas que permiten la resolución de problemas bajo condiciones

de incertidumbre. Teniendo en cuenta ello, podemos dividir los métodos estadísticos en dos grandes

ramas:

1. Estadística Descriptiva : está formada por aquellos métodos gráficos y numéricos que se

utilizan para resumir y procesar los datos, con el fin de describir sus principales

características.

2. Inferencia Estadística : incluye los métodos que permiten hacer generalizaciones con

respecto a la población con base en información proporcionada por una muestra aleatoria,

con un grado de incertidumbre cuantificable.

La Estadística Descriptiva, desde la década del 60, incorporó nuevas medidas y gráficos al análisis

descriptivo tradicional que se presentaron bajo el nombre Análisis exploratorio de datos. Los métodos

de la Estadística Inferencial se basan en la teoría de probabilidad, y permiten construir intervalos de

estimación para los parámetros desconocidos y realizar pruebas de hipótesis.

Etapas del método estadístico

Las etapas a seguir para realizar un estudio estadístico que permitirá la toma racional de decisiones,

se pueden organizar de la siguiente manera:

• Planteamiento del Problema: en primer lugar, se deben definir los objetivos del estudio, la población

objetivo, a partir de la cual se construirá el marco muestral y las variables de interés y sus relaciones.

Cuando se trabaja con una muestra, en el planteamiento del problema, se debe decidir el método de

muestreo más conveniente, determinar el tamaño de la muestra y la precisión esperada, temas que

escapan al alcance de esta materia

• Diseño y recopilación: Formulación estadística de la cuestión: definir la población de estudio a

partir del marco muestral, el tipo de estudio a realizar y las variables de interés. Diseñar cómo se

obtienen los datos, una vez recolectados se realiza un análisis de consistencia, elaborando de esta

manera la base de datos para su análisis.

• Organización y presentación de datos: se refiere a la presentación de los datos en tablas y

gráficos, que muestran su comportamiento y de este modo nos ayudan a comprender la información

recabada.

• Análisis: consiste en el cálculo de medidas descriptivas y la interpretación de la información

obtenida (estadística descriptiva), lo que, de manera conjunta, nos permitirá responder los objetivos

del estudio. Cuando se está trabajando con una muestra, los resultados se proyectan a la población,

estableciendo un error, esto forma parte de la estadística inferencial que básicamente consiste en

realizar estimaciones por intervalos, contrastar hipótesis y validar los supuestos en que se basan los

modelos planteados.

• Resultados y conclusiones: Finalmente se informan los resultados más relevantes respondiendo a

los objetivos iniciales planteados en la formulación del problema. Es importante concluir con base a

los resultados de manera adecuada, de forma tal que contribuya a una mejor comprensión y

exposición de los mismos, en función de los objetivos del trabajo

En este capítulo y en el siguiente se introducen los conceptos de las dos primeras etapas señaladas

y se ilustran las técnicas para la organización, cálculo de medidas descriptivas y su interpretación.

1. Planteamiento del Problema

Como señalamos, lo primero que se debe tener en cuenta en una investigación es definir el problema

que se quiere abordar, para lo cual debe tenerse muy en claro la población objetivo, los parámetros a

estimar y/o las pruebas de hipótesis que se plantean.

De acuerdo a los objetivos que persiguen, los estudios se clasifican como:

1. Estudios Exploratorios: -Observacionales(información de documentos) -Entrevistas

-Grupos Focales

Son indagaciones sobre cada elemento, que no son cuantificables en un número. No se

basan en selecciones aleatorias, sino que se basan en procedimientos preestablecidos. Por

este motivo, no representan al total, se eligen determinados elementos específicos. No es

información estructurada.

2. Estudios Descriptivos/ Confirmatorios: -Experimentos -Relevamientos Muestrales

En estos estudios el objetivo es hacer inferencia respecto a la población, para lo que se

trabaja con una muestra aleatoria. En los relevamientos muestrales se estiman parámetros

desconocidos de la población. En los experimentos el diseño es más exigente ya que se

quieren probar relaciones de causalidad.

Generan resultados estructurados y cuantificables, para obtener resultados numéricos.

2. Recopilación de datos

Los datos pueden provenir de fuentes primarias o secundarias.

Una de las principales fuentes primarias es la encuesta por muestreo (“survey”), en los que los datos

son recolectados aplicando un cuestionario a los elementos de la población o muestra seleccionada.

Los datos de fuentes secundarias son aquellos que han sido reunidos y publicados por otras

instituciones. En general se trabaja con datos provenientes de organismos públicos o privados tales

como INDEC, BCRA, AFIP, Cámaras empresariales, ONU, FMI, sólo para mencionar algunos

5.3. Tipos de variables

En estadística, cada una de las características a estudiar se denomina variable, la cual admite

diversas respuestas para las unidades estadísticas. A su vez, la realización de una respuesta

particular constituye un dato.

Clasificación de las variables

Las variables se clasifican en:

Cuando la pregunta admite como respuesta un número, se trata de una variable cuantitativa o

numérica.

A su vez, si los valores que asume la variable surgen de un conteo o de una enumeración, la variable

es numérica discreta, como por ejemplo “cantidad de materias aprobadas” (números enteros). En

cambio, si se obtienen datos a través de un sistema de medición, la variable es continua ya que

asumiría valores en un intervalo (números reales). En el relevamiento a los alumnos, el “gasto en

libros” y la “estatura” constituyen ejemplos de este tipo de variables. Otro ejemplo son las variables en

unidad de tiempo y monetarias, como la edad o el salario.

Cuando la variable no admite una respuesta numérica, sino que la unidad de análisis se asigna a una

clase o categoría la variable es cualitativa o categórica. Ejemplos de variables cualitativas son: sexo,

lugar de procedencia, nivel de educación de los padres, el motivo por el cual necesita financiación

para exportar.

¿Cómo se miden las variables?

La medición de una variable es el proceso de asignar números o símbolos a los elementos. La regla

por la cual se asignan los números o símbolos constituye una escala de medición, y cada escala

cuenta con propiedades que la distinguen.

La escala de medición es nominal cuando los elementos se asignan a categorías preestablecidas.

La propiedad que la caracteriza es categorizar o dar categorías. A estas categorías se le suelen

asignar números.

Las categorías a las que se le asignan las unidades de observación son mutuamente excluyentes y

exhaustivas. Mutuamente excluyente ya que si un elemento pertenece a una categoría, no puede

pertenecer a la otra. Exhaustivas ya que todos los elementos de la población o muestra deben ser

clasificados en una categoría.

En el caso particular en el que las variables presentan sólo dos categorías se las llama variables

dicotómicas.

La escala es ordinal cuando las respuestas están dispuestas en un cierto orden. Al asignar números

se utiliza la propiedad de orden, como por ejemplo la variable “nivel de educación de los padres”.

También aquí las categorías deben ser mutuamente excluyentes y exhaustivas.

Las escalas de intervalo y de razón que veremos a continuación sólo pueden utilizarse con

variables numéricas.

La escala de intervalo agrega a la propiedad de orden la propiedad de igualdad de diferencias,dada

por distancias o intervalos iguales. No solo permite conocer cuál es el valor más grande, sino

cuantificar en cuanto es más grande. En esta clase de medida, la proporción entre dos intervalos

cualesquiera es independiente de la unidad de medida y del punto cero.

Sin embargo, en la mayoría de las mediciones con escala numérica, se define un punto cero real en

su origen, lo que define una escala de razón. Son variables donde el cero indica la nulidad o la

ausencia de lo que se estudia. En esta escala, además de la distinción de orden y distancia , permite

establecer en qué proporción es mayor un valor de la variable que otro.

3. Organización y presentación de datos estadísticos

Una vez que disponemos de los datos los organizamos en una tabla donde en las columnas

definimos las variables y en las filas a los individuos. A esta tabla la denominamos base de datos

Una vez construida la base debemos realizar un análisis de consistencia de los datos y depurarla,

para lo cual podemos ayudarnos con la representación de las variables en tablas y gráficos. Este

resumen o representación depende del tipo de variable considerada, y permite realizar un primer

análisis de éstas. En las secciones siguientes trabajaremos con cada tipo de variable en particular, a

fin de poder organizar y presentar los datos. El resumen y la presentación de datos a través de tablas

y gráficos, permite mostrar la información de un conjunto de datos a una forma más simple, de tal

manera que facilita a quien los lee tener una idea general de su comportamiento, es decir de la forma

en que están distribuidos. Otro aspecto que consideraremos es si el análisis es para una variable, lo

que en estadística se denomina análisis unidimensional o si se analizan dos o más variables

conjuntamente, lo que se denomina análisis bidimensional o multidimensional. En esta asignatura,

veremos los dos primeros tipos (unidimensional y bidimensional), apuntando en este capítulo, a la

forma en que habitualmente se presentan los datos.

Distribuciones Unidimensionales

Comenzaremos con el análisis de las variables categóricas, para continuar luego con numéricas

discretas y continuas. En la sección anterior mostramos que en una base de datos cada fila

corresponde a una unidad de análisis y cada columna a una variable. Si tomamos una columna en

particular, la misma constituye lo que en estadística se llama una serie simple, la que muestra cada

una de las observaciones en el orden en que fueron recopiladas. A partir de esos datos elaboraremos

distribuciones de frecuencias.

Variables Categóricas

Para armar una tabla resumen de este tipo de variables, contamos la cantidad de casos que

pertenecen a cada clase o categoría, lo que se denomina frecuencia absoluta y calculamos la

proporción de casos en cada una de ellas, lo que se denomina frecuencia relativa, las que pueden

expresarse en porcentajes. Con estas frecuencias, se puede construir una tabla de tres columnas,

donde en la primera se anotarán las categorías y en las otras dos, la cantidad y el porcentaje de

observaciones

Cuando hablamos de frecuencia hacemos referencia a la repetición de cada valor o categoría de la

variable.

Clasificación de frecuencias:

● Frecuencia Absoluta: Es la cantidad de veces que se repite el valor. ( ni)

● Frecuencia Relativa: Es la proporción de veces que se repite la variable. Se calcula como la

frecuencia absoluta dividido el total de observaciones con el que estamos trabajando (hi = ni /

● Frecuencia Absoluta Acumulada: Suma de las frecuencias absolutas ( Ni)

● Frecuencia Relativa Acumulada: Suma de las frecuencias relativas ( Hi)

- Las frecuencias acumuladas en el caso de este tipo de variables no son útiles, por lo tanto no es

necesario el cálculo de las mismas -

Esta información puede representarse gráficamente. Los gráficos no agregan información, pero se

emplean para tener una representación visual de la totalidad de la misma, presentando los datos de

tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos con otros. En el caso

de variables categóricas, utilizamos el Diagrama Circular ( gráfico de torta o pastel) y el Gráfico de

Barras

En el Diagrama Circular se representa en el círculo el 100% de las empresas encuestadas y las

porciones o divisiones se hacen en función a los tipos de empresas según las frecuencias ya

indicadas. Puede utilizarse también el gráfico de barras, donde cada una de ellas representa una

categoría (en el ejemplo, un sector de la economía) y la altura de cada barra, la frecuencia

correspondiente.

El gráfico de barras debe cumplir con ciertas características:

● Para cada categoría debemos tener una barra

● La distancia entre las barras y el ancho de cada una debe ser igual (equidistante), representa

que todas las categorías tienen la misma importancia

● En el eje de las “y” se pueden representar tanto la frecuencia absoluta como la relativa

● Cada barra debe tener la altura correspondiente a la frecuencia de la categoría que

representa

Comentarios adicionales:

- Generalmente, es más frecuente que el gráfico de torta se utilice para representar frecuencias

relativas y el gráfico de barras para representar frecuencias absolutas -

- El porcentaje es más utilizado en estas variables (cualitativas), porque es mejor para la

interpretación -

Variables numéricas

En primer lugar, analizaremos las variables numéricas discretas, que son aquellas que provienen de

un proceso de conteo y que estarán representadas con números enteros.

Para resumir la información, construiremos la tabla de distribución de frecuencias de manera

análoga a como lo hicimos para las variables categóricas. En la primera columna de la tabla se

enumerarán los k valores distintos de la variable, que se denotan con xi para i= 1, 2,…,k, donde x1 es

el mínimo y xk es el máximo valor que asume. Observe que el número de distintos valores (k) que

asume la variable es siempre menor o a lo sumo igual al número de observaciones (n).

Las frecuencias simples (absolutas o relativas) se

representan en un gráfico de bastones donde para los

distintos valores que puede asumir la variable se levanta una

ordenada que representa la cantidad o porcentaje de

observaciones.

(Se diferencia con el de barras ya que este utiliza líneas)

Para las frecuencias acumuladas (absolutas y

relativas) se utiliza un gráfico escalonado , donde

para cada valor xi se marca la frecuencia acumulada,

valor que se mantiene constante hasta el siguiente

donde se produce el próximo escalón.

Cuando trabajamos variables numéricas continuas es necesario agrupar los datos en intervalos.

(cabe aclarar que cuando la variable es discreta pero asume muchos valores distintos, puede

presentarse por una distribución de intervalos).

Previo a la confección de la tabla por intervalos, podemos realizar una exploración de este tipo de

datos utilizando el diagrama de tallo y hojas que constituye una variante de la distribución de

frecuencias. Este diagrama divide a las observaciones en digitos primarios y dígitos derivados.Por

ejemplo si las observaciones de los datos tuvieran por lo menos dos dígitos, la columna de las

decenas serían el dígito primario y la columna restante sería el dígito derivado. Si las observaciones

fueran de tres dígitos, el dígito primario está formado por las centenas y las decenas, y el dígito

derivado por las unidades. Cuando los datos están formados por más de tres dígitos es conveniente

cambiar la escala de medida.

Los dígitos primarios de los datos se denominan “tallo”, y los dígitos derivados “hojas”. La unidad de

hoja se refiere a la escala que se utiliza para presentar los datos en el diagrama.

A través de este gráfico podemos observar el comportamiento de la variable. Nos da una idea de la

concentración de los valores más frecuentes, los valores menores y los más grandes.

Para construir una tabla de distribución de frecuencias por intervalos, debemos seguir los siguientes

pasos:

1. Decidir la cantidad de intervalos de clase apropiados (k): Si bien depende de la cantidad

de observaciones con las que se cuenta, se recomienda establecer no menos de 5 intervalos

y no más de 20. Si fueran muy pocas clases los intervalos podrían ser muy grandes, es decir

cada intervalo abarcaría demasiada cantidad de observaciones como para permitir detectar

la tendencia de los datos. Por otra parte,tener demasiados intervalos se contradice con el

propósito que se persigue, que es resumir un conjunto grande de datos para facilitar el

análisis o la toma de decisiones.

2. Obtener la amplitud de los intervalos de clase ( c): Una opción que se utiliza

frecuentemente es que todos los intervalos sean de igual amplitud, lo cual facilita la

interpretación. Este valor c, se obtiene calculando la diferencia entre el valor más grande del

conjunto de datos (valor máximo) y el más pequeño (valor mínimo) dividiendo luego esta

diferencia entre el número de clases elegido. El desvío del numerador es lo que se conoce

como recorrido o rango ( R)

Por conveniencia y facilidad de lectura se deberá redondear siempre el valor de c por

exceso. Por último se repartirá la diferencia entre el nuevo recorrido y el original (R´- R) por

defecto y por exceso.

3. Establecer una regla general para definir los límites de intervalo de cada clase: Los

intervalos serán semiabiertos, por lo tanto, podrán ser abiertos por la izquierda o por la

derecha.

Para graficar las frecuencias absolutas o relativas simples de distribuciones por intervalos se utilizan

gráficos de superficie llamados Histogramas. El histograma está formado por rectángulos o barras

que se levantan desde el eje de las abscisas donde se ha marcado previamente los límites de cada

intervalo o clase en una escala numérica. La altura de cada una de las barras, que se registra en el

eje de ordenadas, se determina de manera tal que su área sea proporcional a la frecuencia de cada

clase, pudiendo representarse tanto las frecuencias absolutas como las relativas (o relativas en

porcentaje) cuando los intervalos son de igual amplitud.

Cuando los intervalos son de distinta amplitud, la altura de cada barra se obtendrá como la

proporción entre las frecuencias absolutas y la amplitud del intervalo (ni/ ci), fracción que se

denomina densidad de frecuencia. Será el resultado de esta fracción lo que marcará sobre el eje de

las ordenadas para cada intervalo.

Si suavizamos los extremos de cada intervalo, el histograma se transforma en un polígono de

frecuencias, que representa la forma tradicional de graficar un conjunto de datos de escalas

medibles.

El histograma y el polígono de frecuencias tienen la misma superficie, ya que cada porción de la

superficie (triangulo) del histograma, que se pierde en un extremo del intervalo de clase, se gana en

el otro extremo del mismo.

La representación grafica de las frecuencias acumuladas, cuando la variable es numerica continua,

es la ojiva, que es un grafico lineal y se utiliza cuando se desea aproximar cuantas o que porcentaje

de las observaciones estan por encima o por debajo de ciertos valores clave.

Distribuciones bidimensionales

Dos variables categóricas: Se construye una tabla de frecuencias conjunta denominada tabla de

contingencia. En esta tabla de contingencia una variable se representa en las filas y otras en

columnas, por lo tanto la tabla tendrá tantas filas y columnas como las categorías de las variables. En

cada celda de la tabla se representa la frecuencia (absoluta o relativa) asociada al par de categorías

que se intersecan entre la fila y la columna.

Los valores que presentan dos características conjuntamente se denominan frecuencias conjuntas.

Los totales por filas y por columnas se denominan frecuencias marginales.

Generalizando para las variables categóricas X con I categorías, e Y con J categorías, simbolizamos

con nij, a la frecuencia correspondiente a la categoría i de X conjuntamente con j de Y. Los totales

por fila se denotan “ ni. “ y los totales por columna “ n.j ”

En la tabla de contingencia se cumplen las siguientes relaciones:

Si dividimos todos los valores de la tabla por el total de observaciones, se obtienen las frecuencias

relativas conjuntas , que denotaremos como “ hij “, y se calculan como:

Las frecuencias relativas pueden ser más útiles que las absolutas en algunas interpretaciones.

Para graficar frecuencias absolutas o relativas conjuntas se pueden utilizar los gráficos de barras

múltiples o los de barras componentes o apiladas.

En un gráfico de barras múltiples se representa, para cada categoría de una variable, tantas barras

como categorías de la otra, y la altura de cada barra es el porcentaje de frecuencia conjunta entre las

dos categorías analizadas.

Este tipo de gráfico es muy útil cuando una de las categorías es dicotómica.

En cambio, en un gráfico de barras componentes, cada barra representa cada categoría de una

variable y se divide en tantas partes como categorías de la otra

Este documento contiene más páginas...

Descargar Completo

Estadistica- Unidad 1.pdf

Estamos procesando este archivo...

Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.

Descargar

Este documento contiene más páginas...

Estamos procesando este archivo... Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.

Estamos procesando este archivo...

Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.