Python para Data Science
Python para Data Science Texto Leccion

Introduccion a Pandas

Pandas: análisis de datos tabulares Pandas es la herramienta que más usarás como analista. Trabaja con datos en forma de tabla, igual que una hoja de cálculo, pero con la potencia de Python. Sus dos estructuras son la Series (una columna con índice) y el DataFrame (una tabla con filas y columnas). El DataFrame será tu compañero diario. Crear estructuras import pandas as pd # Series: array 1D con índice s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']) # DataFrame: la tabla 2D que más usará
Tiempo de estudio
15 Min

Pandas: análisis de datos tabulares



Pandas es la herramienta que más usarás como analista. Trabaja con datos en forma de tabla, igual que una hoja de cálculo, pero con la potencia de Python. Sus dos estructuras son la Series (una columna con índice) y el DataFrame (una tabla con filas y columnas). El DataFrame será tu compañero diario.



Crear estructuras



import pandas as pd

# Series: array 1D con índice
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

# DataFrame: la tabla 2D que más usarás
df = pd.DataFrame({
'nombre': ['Ana', 'Luis', 'María'],
'edad': [25, 30, 28],
'ciudad': ['Madrid', 'Barcelona', 'Valencia']
})


Cargar datos desde fuentes reales



# CSV (lo más habitual)
df = pd.read_csv('datos.csv')

# Excel
df = pd.read_excel('datos.xlsx', sheet_name='Hoja1')

# JSON
df = pd.read_json('datos.json')

# Directamente desde una URL
df = pd.read_csv('https://ejemplo.com/data.csv')


Exploración inicial: lo primero que haces siempre



df.head()      # primeras 5 filas
df.tail(10) # últimas 10 filas
df.shape # (filas, columnas)
df.info() # tipos de dato y conteo de nulos
df.describe() # estadísticas de las columnas numéricas

df.columns # nombres de columnas
df['ciudad'].unique() # valores únicos
df['ciudad'].value_counts() # frecuencia de cada valor


Consejo

Antes de transformar nada, ejecuta siempre df.head(), df.info() y df.describe(). En 30 segundos sabes el tamaño, los tipos y dónde hay valores faltantes.



Seleccionar datos: loc e iloc



df['nombre']            # una columna (Series)
df[['nombre', 'edad']] # varias columnas (DataFrame)

# iloc: por posición numérica
df.iloc[0] # primera fila
df.iloc[0:3] # filas 0, 1, 2

# loc: por etiqueta de índice y nombre de columna
df.loc[0, 'nombre'] # valor concreto
df.loc[:, 'edad'] # toda la columna edad


¿Cuándo uso loc y cuándo iloc?

Usa iloc cuando piensas en posiciones (la fila número 3, las columnas 0 a 2). Usa loc cuando piensas en etiquetas (la fila con índice "2025-01" y la columna "ventas"). Mezclarlos es una fuente frecuente de errores.



Quieres ver rápidamente cuántos valores nulos hay en cada columna. ¿Qué método te lo muestra?

df.info() lista cada columna, su tipo y el número de valores no nulos, de donde deduces los faltantes.


Ejercicio práctico


Objetivo: cargar y explorar un conjunto de datos de verdad.



  1. Crea un DataFrame con 6 productos: columnas nombre, categoría, precio y stock.

  2. Ejecuta head(), info() y describe() y describe en una frase lo que ves.

  3. Selecciona solo las columnas nombre y precio.

  4. Usa value_counts() sobre categoría para ver cuántos productos hay por tipo.


Entregable: notebook con la exploración inicial y el conteo por categoría.



Para recordar


  • Series = columna con índice; DataFrame = tabla; este último es el que más usarás.

  • read_csv, read_excel y read_json cargan datos desde casi cualquier fuente.

  • loc selecciona por etiqueta y iloc por posición.

Texto Leccion 1/14
Estas viendo
Introduccion a Pandas
Hablar por WhatsAppContactar por WhatsApp