Concepto clave
La limpieza básica de datos en Power BI es el proceso de preparar tus datos crudos para que sean útiles en análisis y visualizaciones. Imagina que estás organizando una reunión ejecutiva: antes de presentar información, necesitas asegurarte de que los números estén correctos, que los nombres estén completos y que no haya duplicados que distorsionen la realidad. En el mundo de los datos, esto significa eliminar errores, estandarizar formatos y corregir inconsistencias.
El Editor de Consultas es tu herramienta principal para esta tarea. Piensa en él como tu "taller de datos" donde puedes transformar información desordenada en datos listos para el análisis. A diferencia de trabajar directamente en Excel, el Editor de Consultas aplica transformaciones de manera no destructiva, lo que significa que siempre puedes volver atrás si cometes un error. Esto es crucial cuando trabajas con datos ejecutivos, donde la precisión es fundamental.
Cómo funciona en la práctica
Vamos a ver un ejemplo paso a paso con datos de ventas. Supongamos que tienes una tabla con esta información:
| Fecha | Vendedor | Region | Ventas |
|---|---|---|---|
| 01/01/2023 | Juan Perez | Norte | 1500 |
| 02/01/2023 | maria lopez | norte | 2000 |
| 03/01/2023 | Juan Perez | Norte | 1800 |
| 04/01/2023 | ANA GARCIA | Sur | 2200 |
Paso 1: Carga los datos en Power BI y abre el Editor de Consultas. Paso 2: Selecciona la columna "Vendedor" y haz clic en "Transformar" → "Formato" → "Capitalizar cada palabra" para estandarizar los nombres. Paso 3: Selecciona la columna "Region" y aplica la misma transformación para que "norte" se convierta en "Norte". Paso 4: Verifica que la columna "Ventas" tenga el tipo de dato correcto (número decimal). Paso 5: Haz clic en "Cerrar y aplicar" para guardar los cambios.
Recuerda: Cada transformación que aplicas se registra en el panel "Pasos aplicados". Puedes hacer clic en cualquier paso para editarlo o eliminarlo si es necesario.
Caso de estudio
Una empresa de retail necesita analizar sus ventas mensuales. Los datos crudos vienen con estos problemas: fechas en diferentes formatos (DD/MM/AAAA y MM-DD-AAAA), nombres de productos con espacios extraños, y valores de ventas mezclados con texto (ej: "1500 USD").
En el Editor de Consultas, el analista ejecuta estas acciones: 1) Divide la columna de ventas usando el delimitador " " (espacio) para separar números de texto. 2) Cambia el tipo de datos de la nueva columna numérica a "Número decimal". 3) Estandariza las fechas usando "Cambiar tipo" → "Fecha". 4) Usa "Recortar" en la columna de productos para eliminar espacios innecesarios. El resultado es una tabla limpia lista para crear un dashboard ejecutivo que muestre tendencias de ventas por producto y mes.
Errores comunes
- No verificar tipos de datos: Muchos usuarios asumen que Power BI detecta automáticamente si una columna es texto, número o fecha. Siempre revisa y ajusta manualmente los tipos de datos.
- Eliminar filas sin analizar: Al encontrar valores nulos o errores, algunos eliminan filas completas sin investigar por qué existen esos problemas. Mejor práctica: filtrar temporalmente para entender el contexto.
- Ignorar mayúsculas/minúsculas: "Norte" y "norte" se consideran valores diferentes en Power BI, lo que puede duplicar categorías en tus visualizaciones. Estandariza el caso desde el principio.
- No documentar transformaciones: Cuando trabajas en equipo, es crucial que otros entiendan qué cambios aplicaste. Usa nombres descriptivos para los pasos en el Editor de Consultas.
- Limpiar datos en la visualización: Intentar corregir problemas directamente en los gráficos en lugar de hacerlo en el Editor de Consultas. Esto lleva a inconsistencias y trabajo duplicado.
Checklist de dominio
- Puedo identificar y corregir valores duplicados en mis datos
- Sé cómo cambiar tipos de datos (texto a número, texto a fecha)
- Puedo estandarizar formatos de texto (mayúsculas/minúsculas, recortar espacios)
- Entiendo cómo manejar valores nulos o en blanco
- Puedo dividir columnas basándome en delimitadores
- Sé revisar el historial de transformaciones en "Pasos aplicados"
- Puedo aplicar y guardar transformaciones correctamente
Limpieza de datos de ventas regionales
Descarga el archivo CSV ventas_sucias.csv que contiene datos de ventas con múltiples problemas. Tu tarea es limpiarlos usando el Editor de Consultas de Power BI.
- Abre Power BI Desktop y carga el archivo CSV
- En el Editor de Consultas, revisa cada columna y corrige estos problemas:
- La columna "Monto" tiene valores como "1,500.50" (con comas) que Power BI lee como texto
- La columna "Region" tiene valores inconsistentes: "NORTE", "norte", "Norte"
- La columna "Fecha" está en formato texto con el patrón "01-ene-2023"
- Hay espacios extra al inicio y final de los nombres en "Vendedor"
- La columna "Producto" tiene algunos valores duplicados con diferencias mínimas
- Aplica las transformaciones necesarias paso a paso
- Guarda tu trabajo y crea una tabla simple para verificar que los datos estén limpios
- Usa la funcion "Reemplazar valores" para cambiar comas por puntos en la columna Monto antes de cambiar el tipo de dato
- Para la columna Fecha, primero cambia el tipo a texto, luego aplica transformaciones de formato, y finalmente cambia a tipo Fecha
- La opcion "Quitar duplicados" en el menu contextual de una columna puede ayudarte con el ultimo punto
Evalua tu comprension
Completa el quiz interactivo de arriba para ganar XP.