Apache Airflow: Construcción de Pipelines ETL Automatizados con DAGs
Curso práctico para data engineers que desean dominar Apache Airflow en la orquestación de pipelines ETL complejos. Aprenderás a diseñar, programar y monitorear DAGs robustos, integrando herramientas como Python, bases de datos y APIs. Al finalizar, serás capaz de automatizar flujos de datos escalables en entornos productivos.
Generando contenido con IA...
El contenido de este curso esta siendo generado por IA. Volve en unos minutos.
Contenido del curso
Este módulo te prepara para trabajar con Airflow desde cero, instalando y configurando un entorno local que simule un escenario real. Aprenderás los conceptos clave como DAGs y operadores, evitando errores comunes en la puesta en marcha.
- 1.1Instalación de Airflow con Docker para Desarrollo LocalLectura15 min
- 1.2Estructura de un DAG: Tasks, Dependencies y SchedulingLectura20 min
- 1.3Configuración de Conexiones y Variables en la Interfaz WebLectura10 min
- 1.4Práctica: Crear tu Primer DAG que Ejecuta un Script PythonLectura25 min
- 1.5Quiz: Conceptos Básicos de Airflow y ConfiguraciónQuiz10 min
Aquí profundizarás en los componentes que ejecutan tareas en Airflow, usando operadores para extraer, transformar y cargar datos. Dominarás sensores para gestionar dependencias externas, clave en pipelines complejos.
- 2.1Uso de Operadores PythonOperator y BashOperator en ETLLectura20 min
- 2.2Integración con Bases de Datos: PostgresOperator y MySqlHookLectura25 min
- 2.3Sensores para Esperar Archivos o APIs ExternasLectura15 min
- 2.4Práctica: Construir un Pipeline que Extrae Datos de una API y los Guarda en CSVLectura30 min
- 2.5Quiz: Operadores, Sensores y su Aplicación en ETLQuiz10 min
Aprenderás a hacer tus DAGs resilientes gestionando fallos y dependencias complejas. Configurarás alertas y logs para monitorear pipelines en producción, asegurando confiabilidad en entornos reales.
- 3.1Configuración de Retries, Timeouts y Alertas por EmailLectura20 min
- 3.2Branching y SubDAGs para Flujos CondicionalesLectura25 min
- 3.3Monitoreo con Logs y Métricas en la Interfaz WebLectura15 min
- 3.4Práctica: Implementar un DAG con Manejo de Errores y NotificacionesLectura30 min
- 3.5Quiz: Dependencias, Manejo de Errores y MonitoreoQuiz10 min
En este módulo final, aplicarás todo lo aprendido para construir un pipeline ETL de principio a fin. Diseñarás un DAG que orquesta múltiples fuentes, transformaciones y cargas, emulando un escenario de data engineering real.
- 4.1Diseño del Pipeline: Extracción de Datos de Múltiples Fuentes (APIs y Archivos)Lectura25 min
- 4.2Transformación de Datos con Pandas y Almacenamiento en Base de DatosLectura30 min
- 4.3Orquestación del DAG: Scheduling, Dependencias y Parámetros DinámicosLectura20 min
- 4.4Práctica: Implementar y Ejecutar el Pipeline Completo en tu Entorno LocalLectura40 min
- 4.5Quiz: Evaluación del Proyecto Integrador y Mejores PrácticasQuiz15 min
Crea tu propio curso
La IA genera el contenido. Vos elegis el tema. En minutos tenes un curso completo para compartir.
Crear curso gratis