Por que Python para Data Science?
Python: el lenguaje de los datos
Python se ha convertido en el lenguaje dominante para la ciencia de datos. Su sintaxis legible, su enorme ecosistema de librerías y su comunidad activa lo hacen ideal para pasar de un archivo CSV en bruto a un análisis que aporta decisiones. En este curso vas a recorrer ese camino completo: leer datos, limpiarlos, transformarlos, analizarlos y visualizarlos.
¿Por qué Python y no otra herramienta?
- Fácil de leer: el código se parece a pseudocódigo, lo que reduce errores y acelera el aprendizaje.
- Ecosistema completo: NumPy para cálculo numérico, Pandas para datos tabulares, Matplotlib y Seaborn para gráficos, scikit-learn para modelos.
- Reproducibilidad: un mismo script da el mismo resultado, algo difícil de garantizar en una hoja de cálculo manual.
- Escala: sirve igual para un análisis de 100 filas que para uno de millones.
Nota
Excel es excelente para revisar datos a ojo, pero se complica con archivos grandes y no deja rastro de los pasos que aplicaste. Python documenta cada transformación en código que puedes repetir y auditar.
El stack que usarás en este curso
# Librerías fundamentales de data science
import numpy as np # cálculo numérico con arrays
import pandas as pd # manipulación de datos tabulares
import matplotlib.pyplot as plt # gráficos base
import seaborn as sns # gráficos estadísticos sobre matplotlibConfigura tu entorno paso a paso
- Instala las librerías con pip o usa la distribución Anaconda, que ya las trae.
- Abre un Jupyter Notebook, el entorno preferido para análisis exploratorio.
- Verifica las versiones para asegurar reproducibilidad.
# Instalación con pip
pip install numpy pandas matplotlib seaborn jupyter
# Iniciar Jupyter
jupyter notebook
# Verificar versiones dentro del notebook
import numpy as np, pandas as pd
print(np.__version__, pd.__version__)¿Cuál es la principal ventaja de Python sobre una hoja de cálculo para un análisis serio?
Ejercicio práctico
Objetivo: dejar tu entorno listo y verificado, como harías el primer día en un proyecto real.
- Crea un entorno e instala numpy, pandas, matplotlib, seaborn y jupyter.
- Abre un notebook nuevo y, en la primera celda, importa las cuatro librerías con sus alias convencionales (np, pd, plt, sns).
- Imprime la versión de NumPy y Pandas.
- Crea una lista de Python con 5 números y conviértela en un array con
np.array; imprime su tipo contype().
Entregable: captura del notebook mostrando las versiones impresas y el array creado sin errores.
Para recordar
- El stack base es NumPy, Pandas, Matplotlib y Seaborn.
- Jupyter Notebook mezcla código, texto y gráficos en un solo documento.
- La ventaja clave de Python es la reproducibilidad y la escala.