Instructora
Elena Suárez es Diseñadora instruccional y UX con base en Caracas, Venezuela. Su trabajo se enfoca en transformar temas complejos en rutas de aprendizaje claras, prácticas y fáciles de seguir.
Ha acompañado a estudiantes, profesionales y equipos de empresas en procesos de formación online, combinando teoría útil con ejercicios aplicables desde la primera clase.
En Cursalo diseña experiencias de aprendizaje con ejemplos reales, lenguaje directo y una estructura pensada para avanzar paso a paso sin perder contexto.
Este curso incluye 4 modulos, 20 lecciones y 6:50 horas de materiales.
Concepto claveLa instalación de Apache Airflow con Docker para desarrollo local es una estrategia que permite crear un entorno aislado y reproducible donde puedes diseñar, probar y depurar tus DAGs (Directed Acyclic Graphs) sin afectar sistemas de producción. Imagina que Docker es como una caja de herramientas portátil: dentro tienes todo lo necesario (Airflow, sus dependencias, bases de datos) empaquetado en contenedores, listo para usar en cualquier máquina. Esto elimina problemas de compatibi
Concepto claveUn DAG (Grafo Acíclico Dirigido) en Apache Airflow es la unidad fundamental que define un flujo de trabajo automatizado. Piensa en él como un plano arquitectónico para tus pipelines de datos, donde cada paso del proceso se representa como un Task (tarea) y las relaciones entre ellos como Dependencies (dependencias). La magia está en que Airflow no solo ejecuta estas tareas, sino que las Schedule (programa) automáticamente según cronogramas definidos, similar a cómo un sistema de ri
Tipo de lección: VideoConcepto claveEn Apache Airflow, las conexiones y variables son mecanismos fundamentales para gestionar credenciales y configuraciones de manera segura y centralizada. Las conexiones almacenan información de autenticación para sistemas externos como bases de datos, APIs o servicios en la nube, mientras que las variables permiten almacenar valores configurables que pueden ser reutilizados en multiples DAGs.Imagina que estás construyendo una red de tuberías en una planta indu
Concepto claveUn DAG (Grafo Acíclico Dirigido) en Apache Airflow es la unidad fundamental para definir workflows de datos. Piensa en él como un plano arquitectónico para tu pipeline ETL: especifica qué tareas deben ejecutarse, en qué orden y bajo qué condiciones, pero sin definir el momento exacto de ejecución (eso lo maneja el scheduler).En la práctica, un DAG es un archivo Python que describe dependencias entre tareas usando operadores. La analogía perfecta es una receta de cocina: los ingredi
Tipo de lección: QuizConcepto claveApache Airflow es una plataforma de orquestación de flujos de trabajo que permite programar y monitorear pipelines de datos mediante DAGs (Directed Acyclic Graphs). Un DAG es una colección de tareas con dependencias definidas que se ejecutan en un orden específico, similar a cómo una receta de cocina tiene pasos secuenciales: no puedes hornear un pastel antes de mezclar los ingredientes.La arquitectura de Airflow se basa en componentes clave: el scheduler (que
Concepto claveEn Apache Airflow, los operadores son los componentes fundamentales que ejecutan tareas especificas dentro de un DAG. Piensalos como las herramientas en una caja de un ingeniero de datos: cada una tiene una funcion unica. El PythonOperator te permite ejecutar codigo Python arbitrario, ideal para transformaciones de datos complejas o integraciones con APIs. El BashOperator ejecuta comandos de shell, perfecto para mover archivos, ejecutar scripts externos o interactuar con sistemas d
Concepto claveEn Apache Airflow, la integración con bases de datos es fundamental para pipelines ETL automatizados. Dos componentes esenciales son el PostgresOperator y el MySqlHook. El PostgresOperator es un operador que ejecuta comandos SQL directamente en PostgreSQL, ideal para tareas como crear tablas, insertar datos o ejecutar procedimientos almacenados. En cambio, MySqlHook es un hook (gancho) que proporciona una conexión programática a MySQL, permitiendo mayor flexibilidad para operacione
Tipo de lección: VideoConcepto claveLos sensores en Apache Airflow son operadores especializados que esperan hasta que se cumple una condición externa antes de continuar con la ejecución del DAG. Piensa en ellos como guardianes que verifican si un archivo ha llegado a un bucket de S3, si una API externa está disponible, o si una base de datos tiene nuevos datos. Sin sensores, tus pipelines ETL podrían fallar porque intentan procesar datos que aún no existen.En el mundo real, imagina un sistema d
Concepto claveEn Apache Airflow, los operadores son las unidades básicas de trabajo que ejecutan tareas específicas, mientras que los sensores monitorean condiciones externas antes de permitir que el flujo continúe. Para un pipeline ETL que extrae datos de una API, necesitas combinar ambos: un sensor para verificar que la API esté disponible y operadores para realizar la extracción y transformación.Imagina que estás construyendo una línea de ensamblaje en una fábrica. Los operadores son como las
Tipo de lección: QuizConcepto claveEn Apache Airflow, los operadores son las unidades básicas de trabajo que ejecutan tareas específicas dentro de un DAG. Piensa en ellos como los trabajadores especializados en una línea de producción: cada uno sabe exactamente qué hacer (extraer datos, transformarlos, cargarlos) y solo necesita las instrucciones correctas para ejecutarse.Los sensores, por otro lado, son operadores especializados que esperan por una condición externa antes de continuar. Imagina
Concepto claveEn Apache Airflow, la configuración de retries, timeouts y alertas por email es fundamental para construir pipelines ETL robustos que puedan manejar fallos temporales sin intervención manual. Imagina un sistema de entrega de paquetes: si el primer intento falla por tráfico, el sistema programa reintentos automáticos; si el paquete tarda demasiado, se marca como timeout y se notifica al remitente. De manera similar, en Airflow, los retries permiten que una tarea se reintente automát
Concepto claveEn Apache Airflow, los flujos de trabajo no siempre son lineales. Muchas veces necesitamos tomar decisiones basadas en datos o condiciones externas. Aquí es donde entran en juego dos herramientas poderosas: Branching y SubDAGs.El Branching (ramificación) permite que tu DAG tome diferentes caminos segun el resultado de una tarea. Imagina que eres un chef en un restaurante: cuando recibes un pedido, primero verificas si tienes todos los ingredientes. Si los tienes, procedes a cocinar
Tipo de lección: Video Monitoreo con Logs y Métricas en la Interfaz Web de Airflow La capacidad de monitorear el comportamiento de tus DAGs y tasks es lo que separa un pipeline experimental de uno listo para producción. Apache Airflow no solo automatiza la ejecución de flujos de trabajo, sino que proporciona una interfaz web rica en herramientas de observabilidad. Esta lección se adentra en el uso práctico de los logs y métricas integrados, enseñándote a transformar datos crudos de ejecución en
Práctica: Implementar un DAG con Manejo de Errores y Notificaciones En esta lección práctica, integraremos todos los conceptos teóricos sobre robustez en Apache Airflow para construir un DAG de producción. Un pipeline ETL no es útil si falla silenciosamente en mitad de la noche. Por lo tanto, la capacidad de manejar errores de forma elegante y notificar a los equipos responsables es tan crítica como la lógica de transformación de datos en sí. Pasaremos de un DAG básico a uno resiliente, que no s
Tipo de lección: Quiz Quiz: Evaluando tu Dominio en Dependencias, Manejo de Errores y Monitoreo Has llegado a un punto crucial en tu aprendizaje de Apache Airflow. Las lecciones anteriores te han equipado con las herramientas teóricas y prácticas para diseñar DAGs, definir dependencias, gestionar fallos y observar el comportamiento de tus pipelines. Este quiz no es una simple evaluación de memoria; es una herramienta de diagnóstico diseñada para consolidar tu comprensión y prepararte para implem
Introducción al Diseño de Extracción de Múltiples Fuentes En el núcleo de cualquier pipeline ETL robusto se encuentra la fase de extracción, una etapa crítica donde la calidad, confiabilidad y estructura de los datos obtenidos sientan las bases para todo el proceso posterior. En un proyecto integrador con Apache Airflow, esta fase se vuelve significativamente más compleja cuando debemos orquestar la recolección de información desde orígenes heterogéneos, como APIs RESTful con límites de tasa, ar
Introducción a la Transformación y Carga en un Pipeline Airflow En esta lección, nos adentramos en el núcleo del procesamiento de datos dentro de un DAG de Airflow. Hasta ahora, hemos aprendido a extraer datos de diversas fuentes. El siguiente paso crítico, y el foco de esta lección, es la Transformación y la Carga. Aquí es donde los datos en bruto se convierten en información valiosa, estructurada y lista para el análisis. Utilizaremos Pandas, la biblioteca de análisis de datos por excelencia d
Tipo de lección: Video Introducción a la Orquestación Avanzada en Airflow La verdadera potencia de Apache Airflow se despliega cuando dominamos la orquestación de nuestros DAGs. Más allá de definir tareas y sus dependencias lineales, un pipeline ETL complejo exige un control preciso sobre cuándo se ejecuta, cómo se adapta a diferentes condiciones y cómo fluyen los datos entre sus componentes. Esta lección se adentra en los mecanismos que convierten un DAG simple en un sistema de producción robus
Práctica: Implementar y Ejecutar el Pipeline Completo en tu Entorno Local Has llegado al momento culminante del curso. En esta lección, pasarás de los conceptos teóricos y los ejercicios fragmentados a la construcción y ejecución de un pipeline ETL completo utilizando Apache Airflow en tu propia máquina. Este proyecto integrador simulará un escenario realista: procesar datos de ventas de una tienda online, enriquecerlos con información de clientes, realizar agregaciones y finalmente cargar los r
Tipo de lección: Quiz Evaluación de un Pipeline ETL Complejo: Del Código a la Operación Llegar al final del proyecto integrador no significa simplemente tener un DAG que se ejecute. La evaluación de un pipeline ETL en Apache Airflow implica una revisión multidimensional que abarca la corrección funcional, la robustez operativa, la eficiencia y la mantenibilidad a largo plazo. En esta lección, nos transformaremos en revisores expertos, capaces de auditar nuestro propio trabajo o el de un equipo,
Data Analyst at Microsoft
Responder al comentario