PYTHON - GOOGLE COLAB
INTRODUCCIÓN
COMANDO
USO
Import pandas as pd
Import numpy as np
Import matplotlib.pyptlot as plt
Import seaborn
from google.colab import files
Ejecutar si o si para poder trabajar con
estas librerías en la base de datos
base = files.upload ()
Para buscar en nuestro escritorio la base
de datos sobre la que vamos a trabajar
data = pd.read_excel (nombre de la base)
data.head ()
Se nombra como data a la base de datos
cargada
Visión rápida de la base, entre paréntesis
se pueden poner la cantidad de filas que se
quiere observar; sino por defecto muestr las
5 primeras filas
from google.colab import drive
drive.mount (‘/content/drive’)
Para vincular nuestro drive a colab
data.shape
Para ver la cantidad de filas y columnas
que tiene la base
data.columns
Para conocer solo el nombre de las
columnas (variables)
data.nombre de la variable
Si deseo obtener los valores de una
variable, debo primero “llamar” a la base y
seguido de un punto el nombre de la
columna o variable
data.nombre de la variable.value_counts()
Para conocer los conteos de de las
diferentes categorías dentro de una
variable categórica
data.nombre de la variable.unique()
Para poder conocer los valores que pueden
aparecer en una variable
data.[‘nombre de la variable’].min()
data.[‘nombre de la variable’].max()
data.nombre de la variable.mean()
data.[‘nombre de la variable’].std()
data.[‘nombre de la variable’].count()
data.[‘nombre de la variable’].sum()
data.[‘nombre de la variable’].median()
data.[‘nombre de la variable’].describe()
Para un análisis descriptivo (med resumen)
Mínimo
Máximo
Media
Desvío estándar
Conteo
Sumatoria
Mediana
data.describe(include = ‘all’)
Para observar conteos,medias, DE, rangos
mínimos y máximos, percentiles.
data.dtypes
objet
int64
float64
bool
datetime64
Para conocer la naturaleza de los datos de
la variable
Datos tipo texto o mixtos, incluyendo
caracteres numéricos como no numéricos
Números enteros
Números decimales
Valores verdadero/falso
Valores de fechas y horas
data.nombre de la
variable.value.counts().plot(kind=’barh’)
Para graficar
pd.crosstab(data[‘nombre de la variable
1’],data[‘nombre de la variable 2’],
margins=true, margins_name=’Totales’)
Para realizar una tabla de contingencia. La
primera variable que se nombra va en las
filas y la segunda en las columnas.
Con margins true puedo observar los
totales por filas y columnas
pd.crosstab(data[‘nombre de la variable
1’],data[‘nombre de la variable 2’],
margins=true,
margins_name=’Totales’).apply(lambda r:
r/len(data) *100, axis=1)
Para conocer los valores relativos de una
variable (filas y columnas)
pd.crosstab(data[‘nombre de la variable
1’],data[‘nombre de la variable
2’]).apply(lambda r: r/r.sum() *100, axis=1)
pd.crosstab(data[‘nombre de la variable
1’],data[‘nombre de la variable 2
’]).apply(lambda r: r/r.sum() *100, axis=0)
.plot(kind=’barh’)
Para conocer el valor relativo por fila
Para conocer el valor relativo por columna
Para agregar al final si queremos visualizar
los resultados
from scipy.stats import chi2_contingency,
fisher_exact
tabla_contingencia =
pd.crosstab(data[‘nombre de la variable 1’],
data[‘nombre de la variable 2’])
Para realizar prueba chi2 o fisher
Aquí colocamos las variables/columnas
resultado =
chi2_contingency(tabla_contingencia,
correction=false)
print(‘Estadistico chi2=%.4f, p valor=%.4f,
df=%i expected_frep=%s’ %resultado
Importante que sea el valor sin corregir
pd.crosstab(data[‘nombre de la variable 1’],
[‘nombre de la variable 2’])
Para observar si tenemos un valor menor a
5 para realizar prueba chi2 o fisher
data[‘nombre de la variable’]=[1 if s >=30
else 0 for s in data [‘nombre de la variable
2’]]
Para generar una nueva columna sobre la
cual puedo evaluar la división de la variable
fisher_exact(pd.crosstab(data[‘nombre de la
variable 1’], data[‘nombre de la variable 2’]))
Prueba fisher
VISUALIZACIÓN DE DATOS
TABLAS
COMANDO
USO
pip install --upgrade xlrd
Para reiniciar el entorno de ejecución
Import pandas as pd
Import numpy as np
from google.colab import files
Import matplotlib.pyptlot as plt
Import seaborn as sns
Ejecutar si o si para poder trabajar con
estas librerías en la base de datos
base = files.upload
Para buscar en nuestro escritorio la base
de datos sobre la que vamos a trabajar
data = pd.read_excel (nombre de la base)
data.head ()
Para nombrar a la base como “data”
Para pedir que me muestre el encabezado,
entre paréntesis puedo elegir la cantidad de
filas que quiero ver
data.dtypes
objet
int64
float64
bool
datetime64
Para conocer la naturaleza de los datos de
la variable
Datos tipo texto o mixtos, incluyendo
caracteres numéricos como no numéricos
Números enteros
Números decimales
Valores verdadero/falso
Valores de fechas y horas
data.pivot_table(‘nombre de la variable
1’,[‘nombre de la variable 2’],’nombre de la
variable 3’)
Para conocer de forma rápida los datos
según subgrupos.
Podemos seguir agregando a la tabla
variables para observar la distribución de
los datos
agrup=data.groupby(‘nombre de la
variable’)
agrup=data.mean()
agrup.describe()
Agrupación de datos para sacar valores
rápidamente (variables categóricas)
Para agrupar datos
Para calcular el promedio o media
Para generar estadísticas descriptivas
GRÁFICOS
Seaborn Podemos ir modificando algunos parámetros y obtener la visualización
más adecuada y estética para nuestros resultados
COMANDO
USO
seaborn.set()
style =’darkgrid’, ‘whitegrid’, ‘white’, ‘dark’,
‘ticks’
palette =‘none’, ‘muted’, ‘deep’, ‘pastel’,
‘dark’, ‘bright’, ‘colorblind’
color =‘m’, ‘r’, ‘b’, ‘c’, ‘g’, etc
Para ajustes del gráfico
Estilo
Paleta
Color
BAR PLOT (gráfico de barras)
visualización de datos agregados, como la media
sns.set(style=’darkgrid’)
plot=sns.catplot(x=’nombre de variable 1’,
y=’nombre de la variable 2’, hue=‘nombre
de la variable 3’,data=data, height=6,
kind=’bar’, palette=’pastel’
plot.despine(left=true)
plot.set_ylabels(‘nombre de la variable 2’)
plot.set_xlabels(‘nombre de la variable 1’)
plt.title(‘nombre del gráfico’)
Para ajustes del gráfico
Para nombrar las variables que se
utilizarán, height es altura, kind es tipo de
gráfico
Despine para eliminar los bordes del
gráfico, en este caso será el izquierdo
labels etiquetas y
labels etiquetas x
Título del gráfico
plt.figure(figsize=(10,5))
sns.set(style=’white’)
sns.barplot(x=’nombre de la variable 1’,
y=’nombre de la variable 2’, data=data,
palette=’spectral’)
plt.title(‘nombre del gráfico’, fontsize=’30’)
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
segundo después de la coma es el alto
Ajustes del gráfico
Ubicación de las variables en los ejes ‘x’ y
‘y’
Fontsize para especificar el tamaño de la
fuente del texto
LINE PLOT (gráfico de líneas)
adecuado cuando queremos mostrar una evolución temporal y el número de datos a
representar es muy elevado
plt.figure(figsize=(10,6))
plt.title(‘nombre del gráfico’)
sns.set(style=’white’, palette=’bright’)
sns.lineplot(x=’nombre de la variable 1’,
y=’nombre de la variable 2’, hue=’nombre
de la variable 3’, style=’_’, data=data)
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
segundo después de la coma es el alto
Título del gráfico
Ajustes del gráfico
Ubicación de las variables en los ejes ‘x’ y
‘y’
HIST PLOT (histograma)
para conocer la distribución de los datos, pero muy influenciada por el número de bins
que se seleccionen y el ancho de cada uno
plt.figure(figsize=(8,6))
plt.title(‘nombre del gráfico’)
sns.set(style=’white’, palette=’colorblind’,
color_codes=true)
sns.histplot(data[‘nombre de la variable 1’],
bins=10, color ‘b’)
plt.tight_layout
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
segundo después de la coma es el alto
Título del gráfico
Ajustes del gráfico, color codes es código
de colores, true es verdadero
Para variables contínuas, bins son los
contenedores o barras
Para que el gráfico encaje dentro del área
de la figura y se vea bien
KDE PLOT/KERNEL DENSITY ESTIMATION PLOT (gráfico de estimación de la
densidad del núcleo)
genera mejores representaciones de distribuciones de datos que un histograma, pero no
aporta información estadística
plt.figure(figsize=(10,6))
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
plt.title(‘nombre del gráfico’)
sns.set(style=’white’, palette=’colorblind’,
color_codes=true)
sns.kdeplot(data=data[‘nombre de la
variable 1’], fill=true, color= ‘g’)
plt.tight_layout
segundo después de la coma es el alto
Título del gráfico
Ajustes del gráfico, color codes es código
de colores, true es verdadero
Para variables contínuas, fill es rellenar
Para que el gráfico encaje dentro del área
de la figura y se vea bien
BOX PLOT (gráfico de cajas)
para conocer los rangos de datos, si existen outliers (valores atípicos), la media y el rango
intercuartil en el que se distribuyen los datos
plt.figure(figsize=(8,5))
sns.set(style=’ticks’, palette=’pastel’)
sns.boxplot(y=’nombre de la variable 1’
x=’nombre de la variable 2’, hue=’nombre
de la variable 3’, color=’g’, data=data)
sns.despine(offset=10,trim=true)
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
segundo después de la coma es el alto
Ajustes del gráfico
Ubicación de las variables en los ejes ‘y’ y
‘x’
Despine para eliminar los bordes del
gráfico, offset especifica el número de
puntos para alejar los bordes de los datos y
trim significa si se deben recortar los
bordes a la marca principal más pequeña y
más grande en caja eje sin borde
VIOLIN PLOT (gráfico de violín)
combinación de una box plot y una KDE plot.Representa la distribución, su media, el
rango intercuartil y el intervalo de confianza de 95% en el que se distribuyen los mapas
plt.figure(figsize=(13,8))
plt.title(‘nombre del gráfico’)
sns.set(style=’dark’, palette=’pastel’,
color_codes=true)
sns.violinplot(y=’nombre de la variable 1’
x=’nombre de la variable 2’, hue=’nombre
de la variable 3’, split=true, inner=’quartile’,
data=data)
plt.xlabel(‘nombre de la variable 2’)
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
segundo después de la coma es el alto
Título del gráfico
Ajustes del gráfico
Ubicación de las variables en los ejes ‘y’ y
‘x’, split es dividir el violín por la mitad, inner
es interior
labels etiquetas x
sns.despine(left=true)
Despine para eliminar los bordes del
gráfico, en este caso será el izquierdo
plt.figure(figsize=(13,8))
plt.title(‘nombre del gráfico’)
sns.set(style=’whitegrid’, palette=’pastel’,
color_codes=true)
sns.violinplot(y=’nombre de la variable 1’
x=’nombre de la variable 2’, hue=’nombre
de la variable 3’, inner=’quartile’, data=data,
palette=’set2’)
plt.xlabel(‘nombre de la variable 2’)
sns.despine(left=true)
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
segundo después de la coma es el alto
Título del gráfico
Ajustes del gráfico
Ubicación de las variables en los ejes ‘y’ y
‘x’, inner es interior, no hay split por que no
se divide el violín por la mitad, set 2 se
refiere al segundo violín, set 3 al tercero
labels etiquetas x
Despine para eliminar los bordes del
gráfico, en este caso será el izquierdo
SWARM PLOT (gráfico de enjambre)
útil para cuando en el análisis se representan variables categóricas, otra alternativa es el
diagrama de barras
plt.figure(figsize=(10,6))
sns.set(style=’whitegrid’)
ax=sns.swarmplot (x=’nombre de variable
1’, y=’nombre de la variable 2’,
hue=‘nombre de la variable 3’, data=data,
palette=’set1’, dodge=true)
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
segundo después de la coma es el alto
Ajustes del gráfico
Ax para personalizar la apariencia del
gráfico, puedo cambiar los colores
poniendo set2 o set 3 en lugar de set 1,
dodge es evadir (quedan como una línea
de puntos que forman como barras)
SCATTER PLOT O RELPLOT (diagrama de dispersión)
para la representación de correlaciones y cómo una variable afecta a la otra
plt.figure(figsize=(16,16))
sns.set(style=’ticks’)
g=sns.relplot (x=’nombre de variable 1’,
y=’nombre de la variable 2’, hue=‘nombre
de la variable 3’, data=data
plt.title(‘nombre del gráfico’)
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
segundo después de la coma es el alto
Ajustes del gráfico
G para personalizar la apariencia del
diagrama
Título del gráfico
plt.figure(figsize=(20,20))
sns.set(style=’ticks’)
g=sns.relplot (x=’nombre de variable 1’,
y=’nombre de la variable 2’, hue=‘nombre
de la variable 3’, size=’nombre de variable
4’, palette=[‘aqua’,’indigo’], sizes=(10,200),
col=’nombre de la variable 5’, data=data)
Figsize para especificar el tamaño de la
altura El primer número es el ancho y el
segundo después de la coma es el alto
Ajustes del gráfico
G para personalizar la apariencia del
diagrama, size/s para el tamaño de los
puntos, col para especificar el color de los
puntos
GRÁFICO DE BARRAS
GRÁFICO DE BARRAS
GRÁFICO DE LÍNEAS
HISTOGRAMA
GRÁFICO DE ESTIMACIÓN DE LA
DENSIDAD DEL NÚCLEO (KDE)
GRÁFICO DE CAJA
GRÁFICO DE VIOLÍN
GRÁFICO DE VIOLÍN
GRÁFICO DE ENJAMBRE
DIAGRAMA DE DISPERSIÓN
DIAGRAMA DE DISPERSIÓN
PYTHON-GOOGLE COLAB.pdf
browser_emoji Estamos procesando este archivo...
browser_emoji Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.
Descargar
. . . . .