Apunte: Python - Google Colab | Informatica Aplicada a la Nutricion | Nutricion UNC |

Volver a Informatica Aplicada a la Nutricion

PYTHON - GOOGLE COLAB

INTRODUCCIÓN

COMANDO

USO

Import pandas as pd

Import numpy as np

Import matplotlib.pyptlot as plt

Import seaborn

from google.colab import files

Ejecutar si o si para poder trabajar con

estas librerías en la base de datos

base = files.upload ()

Para buscar en nuestro escritorio la base

de datos sobre la que vamos a trabajar

data = pd.read_excel (nombre de la base)

data.head ()

Se nombra como data a la base de datos

cargada

Visión rápida de la base, entre paréntesis

se pueden poner la cantidad de filas que se

quiere observar; sino por defecto muestr las

5 primeras filas

from google.colab import drive

drive.mount (‘/content/drive’)

Para vincular nuestro drive a colab

data.shape

Para ver la cantidad de filas y columnas

que tiene la base

data.columns

Para conocer solo el nombre de las

columnas (variables)

data.nombre de la variable

Si deseo obtener los valores de una

variable, debo primero “llamar” a la base y

seguido de un punto el nombre de la

columna o variable

data.nombre de la variable.value_counts()

Para conocer los conteos de de las

diferentes categorías dentro de una

variable categórica

data.nombre de la variable.unique()

Para poder conocer los valores que pueden

aparecer en una variable

data.[‘nombre de la variable’].min()

data.[‘nombre de la variable’].max()

data.nombre de la variable.mean()

data.[‘nombre de la variable’].std()

data.[‘nombre de la variable’].count()

data.[‘nombre de la variable’].sum()

data.[‘nombre de la variable’].median()

data.[‘nombre de la variable’].describe()

Para un análisis descriptivo (med resumen)

Mínimo

Máximo

Media

Desvío estándar

Conteo

Sumatoria

Mediana

data.describe(include = ‘all’)

Para observar conteos,medias, DE, rangos

mínimos y máximos, percentiles.

data.dtypes

objet

int64

float64

bool

datetime64

Para conocer la naturaleza de los datos de

la variable

Datos tipo texto o mixtos, incluyendo

caracteres numéricos como no numéricos

Números enteros

Números decimales

Valores verdadero/falso

Valores de fechas y horas

data.nombre de la

variable.value.counts().plot(kind=’barh’)

Para graficar

pd.crosstab(data[‘nombre de la variable

1’],data[‘nombre de la variable 2’],

margins=true, margins_name=’Totales’)

Para realizar una tabla de contingencia. La

primera variable que se nombra va en las

filas y la segunda en las columnas.

Con margins true puedo observar los

totales por filas y columnas

pd.crosstab(data[‘nombre de la variable

1’],data[‘nombre de la variable 2’],

margins=true,

margins_name=’Totales’).apply(lambda r:

r/len(data) *100, axis=1)

Para conocer los valores relativos de una

variable (filas y columnas)

pd.crosstab(data[‘nombre de la variable

1’],data[‘nombre de la variable

2’]).apply(lambda r: r/r.sum() *100, axis=1)

pd.crosstab(data[‘nombre de la variable

1’],data[‘nombre de la variable 2

’]).apply(lambda r: r/r.sum() *100, axis=0)

.plot(kind=’barh’)

Para conocer el valor relativo por fila

Para conocer el valor relativo por columna

Para agregar al final si queremos visualizar

los resultados

from scipy.stats import chi2_contingency,

fisher_exact

tabla_contingencia =

pd.crosstab(data[‘nombre de la variable 1’],

data[‘nombre de la variable 2’])

Para realizar prueba chi2 o fisher

Aquí colocamos las variables/columnas

resultado =

chi2_contingency(tabla_contingencia,

correction=false)

print(‘Estadistico chi2=%.4f, p valor=%.4f,

df=%i expected_frep=%s’ %resultado

Importante que sea el valor sin corregir

pd.crosstab(data[‘nombre de la variable 1’],

[‘nombre de la variable 2’])

Para observar si tenemos un valor menor a

5 para realizar prueba chi2 o fisher

data[‘nombre de la variable’]=[1 if s >=30

else 0 for s in data [‘nombre de la variable

2’]]

Para generar una nueva columna sobre la

cual puedo evaluar la división de la variable

fisher_exact(pd.crosstab(data[‘nombre de la

variable 1’], data[‘nombre de la variable 2’]))

Prueba fisher

VISUALIZACIÓN DE DATOS

TABLAS

COMANDO

USO

pip install --upgrade xlrd

Para reiniciar el entorno de ejecución

Import pandas as pd

Import numpy as np

from google.colab import files

Import matplotlib.pyptlot as plt

Import seaborn as sns

Ejecutar si o si para poder trabajar con

estas librerías en la base de datos

base = files.upload

Para buscar en nuestro escritorio la base

de datos sobre la que vamos a trabajar

data = pd.read_excel (nombre de la base)

data.head ()

Para nombrar a la base como “data”

Para pedir que me muestre el encabezado,

entre paréntesis puedo elegir la cantidad de

filas que quiero ver

data.dtypes

objet

int64

float64

bool

datetime64

Para conocer la naturaleza de los datos de

la variable

Datos tipo texto o mixtos, incluyendo

caracteres numéricos como no numéricos

Números enteros

Números decimales

Valores verdadero/falso

Valores de fechas y horas

data.pivot_table(‘nombre de la variable

1’,[‘nombre de la variable 2’],’nombre de la

variable 3’)

Para conocer de forma rápida los datos

según subgrupos.

Podemos seguir agregando a la tabla

variables para observar la distribución de

los datos

agrup=data.groupby(‘nombre de la

variable’)

agrup=data.mean()

agrup.describe()

Agrupación de datos para sacar valores

rápidamente (variables categóricas)

Para agrupar datos

Para calcular el promedio o media

Para generar estadísticas descriptivas

GRÁFICOS

Seaborn Podemos ir modificando algunos parámetros y obtener la visualización

más adecuada y estética para nuestros resultados

COMANDO

USO

seaborn.set()

style =’darkgrid’, ‘whitegrid’, ‘white’, ‘dark’,

‘ticks’

palette =‘none’, ‘muted’, ‘deep’, ‘pastel’,

‘dark’, ‘bright’, ‘colorblind’

color =‘m’, ‘r’, ‘b’, ‘c’, ‘g’, etc

Para ajustes del gráfico

Estilo

Paleta

Color

BAR PLOT (gráfico de barras)

visualización de datos agregados, como la media

sns.set(style=’darkgrid’)

plot=sns.catplot(x=’nombre de variable 1’,

y=’nombre de la variable 2’, hue=‘nombre

de la variable 3’,data=data, height=6,

kind=’bar’, palette=’pastel’

plot.despine(left=true)

plot.set_ylabels(‘nombre de la variable 2’)

plot.set_xlabels(‘nombre de la variable 1’)

plt.title(‘nombre del gráfico’)

Para ajustes del gráfico

Para nombrar las variables que se

utilizarán, height es altura, kind es tipo de

gráfico

Despine para eliminar los bordes del

gráfico, en este caso será el izquierdo

labels etiquetas y

labels etiquetas x

Título del gráfico

plt.figure(figsize=(10,5))

sns.set(style=’white’)

sns.barplot(x=’nombre de la variable 1’,

y=’nombre de la variable 2’, data=data,

palette=’spectral’)

plt.title(‘nombre del gráfico’, fontsize=’30’)

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

segundo después de la coma es el alto

Ajustes del gráfico

Ubicación de las variables en los ejes ‘x’ y

‘y’

Fontsize para especificar el tamaño de la

fuente del texto

LINE PLOT (gráfico de líneas)

adecuado cuando queremos mostrar una evolución temporal y el número de datos a

representar es muy elevado

plt.figure(figsize=(10,6))

plt.title(‘nombre del gráfico’)

sns.set(style=’white’, palette=’bright’)

sns.lineplot(x=’nombre de la variable 1’,

y=’nombre de la variable 2’, hue=’nombre

de la variable 3’, style=’_’, data=data)

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

segundo después de la coma es el alto

Título del gráfico

Ajustes del gráfico

Ubicación de las variables en los ejes ‘x’ y

‘y’

HIST PLOT (histograma)

para conocer la distribución de los datos, pero muy influenciada por el número de bins

que se seleccionen y el ancho de cada uno

plt.figure(figsize=(8,6))

plt.title(‘nombre del gráfico’)

sns.set(style=’white’, palette=’colorblind’,

color_codes=true)

sns.histplot(data[‘nombre de la variable 1’],

bins=10, color ‘b’)

plt.tight_layout

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

segundo después de la coma es el alto

Título del gráfico

Ajustes del gráfico, color codes es código

de colores, true es verdadero

Para variables contínuas, bins son los

contenedores o barras

Para que el gráfico encaje dentro del área

de la figura y se vea bien

KDE PLOT/KERNEL DENSITY ESTIMATION PLOT (gráfico de estimación de la

densidad del núcleo)

genera mejores representaciones de distribuciones de datos que un histograma, pero no

aporta información estadística

plt.figure(figsize=(10,6))

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

plt.title(‘nombre del gráfico’)

sns.set(style=’white’, palette=’colorblind’,

color_codes=true)

sns.kdeplot(data=data[‘nombre de la

variable 1’], fill=true, color= ‘g’)

plt.tight_layout

segundo después de la coma es el alto

Título del gráfico

Ajustes del gráfico, color codes es código

de colores, true es verdadero

Para variables contínuas, fill es rellenar

Para que el gráfico encaje dentro del área

de la figura y se vea bien

BOX PLOT (gráfico de cajas)

para conocer los rangos de datos, si existen outliers (valores atípicos), la media y el rango

intercuartil en el que se distribuyen los datos

plt.figure(figsize=(8,5))

sns.set(style=’ticks’, palette=’pastel’)

sns.boxplot(y=’nombre de la variable 1’

x=’nombre de la variable 2’, hue=’nombre

de la variable 3’, color=’g’, data=data)

sns.despine(offset=10,trim=true)

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

segundo después de la coma es el alto

Ajustes del gráfico

Ubicación de las variables en los ejes ‘y’ y

‘x’

Despine para eliminar los bordes del

gráfico, offset especifica el número de

puntos para alejar los bordes de los datos y

trim significa si se deben recortar los

bordes a la marca principal más pequeña y

más grande en caja eje sin borde

VIOLIN PLOT (gráfico de violín)

combinación de una box plot y una KDE plot.Representa la distribución, su media, el

rango intercuartil y el intervalo de confianza de 95% en el que se distribuyen los mapas

plt.figure(figsize=(13,8))

plt.title(‘nombre del gráfico’)

sns.set(style=’dark’, palette=’pastel’,

color_codes=true)

sns.violinplot(y=’nombre de la variable 1’

x=’nombre de la variable 2’, hue=’nombre

de la variable 3’, split=true, inner=’quartile’,

data=data)

plt.xlabel(‘nombre de la variable 2’)

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

segundo después de la coma es el alto

Título del gráfico

Ajustes del gráfico

Ubicación de las variables en los ejes ‘y’ y

‘x’, split es dividir el violín por la mitad, inner

es interior

labels etiquetas x

sns.despine(left=true)

Despine para eliminar los bordes del

gráfico, en este caso será el izquierdo

plt.figure(figsize=(13,8))

plt.title(‘nombre del gráfico’)

sns.set(style=’whitegrid’, palette=’pastel’,

color_codes=true)

sns.violinplot(y=’nombre de la variable 1’

x=’nombre de la variable 2’, hue=’nombre

de la variable 3’, inner=’quartile’, data=data,

palette=’set2’)

plt.xlabel(‘nombre de la variable 2’)

sns.despine(left=true)

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

segundo después de la coma es el alto

Título del gráfico

Ajustes del gráfico

Ubicación de las variables en los ejes ‘y’ y

‘x’, inner es interior, no hay split por que no

se divide el violín por la mitad, set 2 se

refiere al segundo violín, set 3 al tercero

labels etiquetas x

Despine para eliminar los bordes del

gráfico, en este caso será el izquierdo

SWARM PLOT (gráfico de enjambre)

útil para cuando en el análisis se representan variables categóricas, otra alternativa es el

diagrama de barras

plt.figure(figsize=(10,6))

sns.set(style=’whitegrid’)

ax=sns.swarmplot (x=’nombre de variable

1’, y=’nombre de la variable 2’,

hue=‘nombre de la variable 3’, data=data,

palette=’set1’, dodge=true)

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

segundo después de la coma es el alto

Ajustes del gráfico

Ax para personalizar la apariencia del

gráfico, puedo cambiar los colores

poniendo set2 o set 3 en lugar de set 1,

dodge es evadir (quedan como una línea

de puntos que forman como barras)

SCATTER PLOT O RELPLOT (diagrama de dispersión)

para la representación de correlaciones y cómo una variable afecta a la otra

plt.figure(figsize=(16,16))

sns.set(style=’ticks’)

g=sns.relplot (x=’nombre de variable 1’,

y=’nombre de la variable 2’, hue=‘nombre

de la variable 3’, data=data

plt.title(‘nombre del gráfico’)

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

segundo después de la coma es el alto

Ajustes del gráfico

G para personalizar la apariencia del

diagrama

Título del gráfico

plt.figure(figsize=(20,20))

sns.set(style=’ticks’)

g=sns.relplot (x=’nombre de variable 1’,

y=’nombre de la variable 2’, hue=‘nombre

de la variable 3’, size=’nombre de variable

4’, palette=[‘aqua’,’indigo’], sizes=(10,200),

col=’nombre de la variable 5’, data=data)

Figsize para especificar el tamaño de la

altura El primer número es el ancho y el

segundo después de la coma es el alto

Ajustes del gráfico

G para personalizar la apariencia del

diagrama, size/s para el tamaño de los

puntos, col para especificar el color de los

puntos

GRÁFICO DE BARRAS

GRÁFICO DE LÍNEAS

HISTOGRAMA

GRÁFICO DE ESTIMACIÓN DE LA

DENSIDAD DEL NÚCLEO (KDE)

GRÁFICO DE CAJA

GRÁFICO DE VIOLÍN

GRÁFICO DE ENJAMBRE

DIAGRAMA DE DISPERSIÓN

PYTHON-GOOGLE COLAB.pdf

Estamos procesando este archivo...

Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.

Descargar

Estamos procesando este archivo... Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.

Estamos procesando este archivo...

Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.