Limpieza de datos

Lectura
15 min~2 min lectura
Objetivo de la lección

Preparando datos para analisis Los datos reales raramente estan limpios.

Puntos de control
  • Preparando datos para analisis
  • Valores nulos
  • Duplicados
  • Tipos de datos

Preparando datos para analisis

Los datos reales raramente estan limpios. Pandas tiene herramientas poderosas para limpiarlos.

Valores nulos

import pandas as pd
import numpy as np

# Detectar nulos
df.isnull()          # DataFrame de True/False
df.isnull().sum()    # Cuenta nulos por columna

# Eliminar filas con nulos
df.dropna()                    # cualquier nulo
df.dropna(subset=['columna'])  # nulo en columna especifica

# Rellenar nulos
df.fillna(0)                   # con valor fijo
df.fillna(df.mean())           # con media
df['col'].fillna(df['col'].median())  # con mediana
df.fillna(method='ffill')      # con valor anterior
df.fillna(method='bfill')      # con valor siguiente

Duplicados

# Detectar duplicados
df.duplicated()           # True/False por fila
df.duplicated().sum()     # contar duplicados

# Eliminar duplicados
df.drop_duplicates()
df.drop_duplicates(subset=['columna'])  # solo considera columna
df.drop_duplicates(keep='last')         # mantener ultimo

Tipos de datos

# Convertir tipos
df['edad'] = df['edad'].astype(int)
df['precio'] = df['precio'].astype(float)
df['fecha'] = pd.to_datetime(df['fecha'])

# Categorias (ahorra memoria)
df['ciudad'] = df['ciudad'].astype('category')

Strings

# Metodos de string con .str
df['nombre'] = df['nombre'].str.lower()     # minusculas
df['nombre'] = df['nombre'].str.upper()     # mayusculas
df['nombre'] = df['nombre'].str.strip()     # quitar espacios
df['nombre'] = df['nombre'].str.replace('a', 'x')

# Extraer con regex
df['codigo'] = df['texto'].str.extract(r'(d+)')

# Contiene
df[df['nombre'].str.contains('Mar')]

Renombrar columnas

# Renombrar especificas
df.rename(columns={'old_name': 'new_name'})

# Todas a minusculas
df.columns = df.columns.str.lower()

# Reemplazar espacios
df.columns = df.columns.str.replace(' ', '_')

Practica de portfolio

Convierte esta leccion en evidencia real: arma una entrega pequena que puedas mostrar en una entrevista, en LinkedIn o en tu portfolio. Trabaja con un caso propio o con una empresa ficticia, pero deja claro el problema, la decision y el resultado.

  • Entregable: una captura, documento, repositorio o tablero con el resultado final.
  • Checklist: objetivo, pasos seguidos, criterio de calidad y mejora pendiente.
  • Mini-rubrica: si otra persona lo revisa, debe entender que hiciste, por que y como repetirlo.
Laboratorio de práctica

Antes de marcar esta lección como completa, escribí una evidencia breve para Python para Data Science: un ejemplo, una decisión, una captura, una mini demo o una nota que puedas reutilizar en portfolio.

Reflexión rápida

¿Qué cambiarías en tu forma de trabajar después de aplicar limpieza de datos?

De lección a portfolio

Convertí esta lección en evidencia para Data Analyst.

Sumá un mini caso con datos, una conclusión de negocio y una captura del resultado. Eso pesa más que decir que viste la herramienta.

Paso 1

Publicá una consulta, dashboard o notebook con una conclusión clara.

Paso 2

Agregá contexto: problema, dato usado, decisión recomendada y limitación.

Paso 3

Guardá el enlace en tu CV, LinkedIn o portfolio antes de postular.

Newsletter Cursalo

Recibí rutas y cursos nuevos

Sumate para recibir recursos orientados a empleo y portfolio.

  • Rutas de empleo
  • Cursos prácticos
  • Portfolio y entrevistas

Sin spam. También podés entrar con tu cuenta para guardar progreso. Iniciá sesión