Instructora
Valeria Méndez es Docente de negocios digitales con base en Lima, Perú. Su trabajo se enfoca en transformar temas complejos en rutas de aprendizaje claras, prácticas y fáciles de seguir.
Ha acompañado a estudiantes, profesionales y equipos de empresas en procesos de formación online, combinando teoría útil con ejercicios aplicables desde la primera clase.
En Cursalo diseña experiencias de aprendizaje con ejemplos reales, lenguaje directo y una estructura pensada para avanzar paso a paso sin perder contexto.
Este curso incluye 4 modulos, 20 lecciones y 7:10 horas de materiales.
Concepto claveInstalar Apache Airflow con Docker es como montar una fábrica de producción automatizada dentro de un contenedor estandarizado. En lugar de construir manualmente cada máquina con todas sus dependencias, Docker te permite empaquetar Airflow con todo lo necesario (Python, bibliotecas, configuraciones) en una imagen reproducible que puedes ejecutar en cualquier sistema. Esto elimina los problemas de "funciona en mi máquina" y garantiza consistencia entre entornos de desarrollo, prueba
Concepto clave: DAGs, Operadores y Tareas en AirflowEn Apache Airflow, un DAG (Grafo Acíclico Dirigido) es la estructura fundamental que define un flujo de trabajo. Imagina un DAG como un plano de construcción para tu pipeline de datos: especifica qué tareas deben ejecutarse, en qué orden y bajo qué condiciones. A diferencia de un script lineal, un DAG permite dependencias complejas, ejecución paralela y manejo de errores de manera elegante.Los operadores son los componentes que realizan el trab
Tipo de lección: VideoConcepto claveUn DAG (Directed Acyclic Graph) en Apache Airflow es la unidad fundamental para definir workflows de datos. Imagina que estás organizando una cadena de producción en una fábrica: cada paso (como cortar, ensamblar, pintar) es una tarea, y el DAG es el plano que define el orden y las dependencias entre ellas, asegurando que no haya ciclos (como pintar antes de ensamblar). En el contexto de pipelines ETL, un DAG orquesta extracciones, transformaciones y cargas de
Concepto claveUn DAG (Grafo Acíclico Dirigido) en Apache Airflow es la unidad fundamental de orquestación que define un flujo de trabajo de datos. Piensa en él como un plano arquitectónico para tu pipeline: especifica qué tareas deben ejecutarse, en qué orden y bajo qué condiciones. A diferencia de un script secuencial tradicional, un DAG permite paralelismo, reintentos automáticos y monitoreo centralizado.La analogía perfecta es una receta de cocina compleja. El DAG es la receta completa, mient
Tipo de lección: QuizConcepto claveApache Airflow es una plataforma de orquestación de workflows diseñada para programar y monitorear pipelines de datos de manera programática. Imagina que estás construyendo una fábrica automatizada donde cada máquina realiza una tarea específica, como extraer datos de una base de datos, transformarlos y cargarlos en un almacén. Airflow actúa como el supervisor que coordina todas estas máquinas, asegurándose de que cada paso se ejecute en el orden correcto, en e
Concepto claveEn Apache Airflow, las dependencias entre tareas definen el orden de ejecución de tu pipeline. Imagina que estás construyendo una casa: primero debes poner los cimientos, luego las paredes, y finalmente el techo. No puedes poner el techo antes que las paredes. De la misma manera, en un pipeline ETL, no puedes transformar datos antes de extraerlos. Las funciones set_upstream y set_downstream son los métodos principales para establecer estas relaciones de precedencia entre tareas en
Tipo de lección: VideoConcepto claveEn Apache Airflow, el branching y los condicionales permiten crear flujos de trabajo dinámicos donde las tareas no siempre se ejecutan en secuencia lineal. Imagina que estás construyendo una autopista con múltiples salidas: dependiendo del tráfico (condición), algunos carriles se dirigen a una ciudad, otros a otra, pero todos convergen eventualmente. En Airflow, esto significa que tu DAG puede tomar decisiones en tiempo de ejecución sobre qué rama de tareas ej
Concepto claveEn pipelines ETL complejos, las tareas pueden fallar por diversas razones: problemas de red, sobrecarga de recursos, o errores temporales en sistemas externos. Retries y timeouts son mecanismos de resiliencia que permiten a Airflow manejar estos fallos de manera elegante, evitando que un error puntual detenga todo el flujo de datos.Imagina que estás coordinando un equipo de mensajeros que entregan paquetes críticos. Si un mensajero encuentra tráfico inesperado (error temporal), en
Concepto claveEn pipelines ETL complejos, los flujos de trabajo rara vez son lineales. A menudo necesitas ramificaciones para manejar diferentes escenarios de datos y mecanismos de fallback para garantizar la resiliencia del sistema. Imagina una cadena de montaje en una fabrica: cuando un producto llega a un punto de decision, puede seguir diferentes lineas segun su tipo, pero siempre hay una ruta alternativa si la principal falla.En Apache Airflow, esto se implementa mediante operadores como Br
Tipo de lección: QuizConcepto claveEn Apache Airflow, las dependencias definen el orden de ejecución de las tareas dentro de un DAG. Piensa en ellas como las reglas de un juego de dominó: cada ficha (tarea) solo cae cuando la anterior la empuja. El control de flujo es cómo Airflow gestiona estas dependencias, decidiendo qué tareas ejecutar, cuándo y bajo qué condiciones.En el mundo real, imagina una cadena de montaje en una fábrica de coches. No puedes pintar el chasis antes de soldarlo, ni inst
Concepto claveLos operadores de bases de datos SQL en Apache Airflow son componentes especializados que permiten ejecutar comandos SQL en sistemas de bases de datos relacionales como PostgreSQL, MySQL, o SQL Server. Piensa en ellos como conectores inteligentes que traducen las tareas de tu DAG en instrucciones específicas que la base de datos puede entender y ejecutar.En el contexto de un pipeline ETL, estos operadores actúan como puentes automatizados entre Airflow y tus almacenes de datos. Ima
Tipo de lección: VideoConcepto claveEl PythonOperator en Apache Airflow es una herramienta fundamental para ejecutar funciones de Python dentro de tus DAGs. Piensa en él como un trabajador especializado que puedes entrenar para realizar tareas específicas de extracción de datos, ya sea desde APIs o archivos. A diferencia de operadores predefinidos, el PythonOperator te da la flexibilidad de escribir código personalizado, lo que es esencial cuando trabajas con fuentes de datos no estandarizadas.E
Concepto claveEn los pipelines ETL, la transformación de datos es la fase donde los datos crudos se convierten en información útil y estructurada. Imagina que eres un chef: los ingredientes crudos (datos sin procesar) llegan a tu cocina, pero necesitas cortarlos, mezclarlos y cocinarlos para crear un plato delicioso (datos analizables). En el contexto de Airflow, esta transformación ocurre dentro de las tareas de un DAG, utilizando herramientas como Pandas, una biblioteca de Python especializada
Concepto claveEn el mundo de la ingeniería de datos, Apache Airflow actúa como el director de orquesta que coordina múltiples músicos (tareas ETL) para crear una sinfonía armoniosa (pipeline de datos). Imagina una cadena de montaje en una fábrica: cada estación realiza una operación específica (extraer, transformar, cargar), y Airflow es el sistema de control que asegura que cada pieza llegue a tiempo y en el orden correcto.Un DAG (Directed Acyclic Graph) es el plano maestro que define las depen
Tipo de lección: QuizConcepto claveLa integración de Apache Airflow con herramientas de datos y la automatización ETL se centra en orquestar flujos de trabajo complejos donde múltiples sistemas deben colaborar de manera coordinada. Imagina que eres el director de una orquesta: Airflow es el director que marca el tempo y coordina a cada músico (herramienta), asegurando que todos toquen en el momento correcto y en armonía. En este contexto, las herramientas de datos pueden ser bases de datos, serv
Concepto claveDiseñar la arquitectura de un pipeline de datos en tiempo real con Apache Airflow implica crear un sistema que procese datos continuamente con baja latencia, utilizando DAGs (Directed Acyclic Graphs) para orquestar tareas automatizadas. A diferencia de los pipelines por lotes que procesan datos en intervalos fijos, los pipelines en tiempo real manejan flujos de datos que llegan constantemente, como logs de aplicaciones, métricas de servidores o transacciones financieras.La arquitec
Tipo de lección: VideoConcepto claveEn esta lección, implementaremos un DAG (Directed Acyclic Graph) en Apache Airflow que orquesta un pipeline de datos en tiempo real con extracción, transformación y carga continua. A diferencia de los pipelines batch tradicionales que se ejecutan en intervalos fijos, este enfoque maneja flujos de datos que llegan constantemente, como logs de aplicaciones, métricas de servidores o transacciones financieras.La clave está en diseñar tareas que sean idempotentes (
Concepto claveEn el mundo de los pipelines de datos, el monitoreo y las alertas son como el sistema nervioso de un organismo vivo. Imagina que estás operando una planta de fabricación automatizada: los logs son los registros detallados de cada máquina (qué hizo, cuándo, y si hubo anomalías), mientras que las métricas son los indicadores clave de rendimiento, como la velocidad de producción o la tasa de fallos. En Airflow, esto se traduce en supervisar tus DAGs para detectar problemas antes de qu
Concepto claveEn esta lección, aprenderás a construir y desplegar un pipeline de datos en tiempo real completo usando Apache Airflow. Un pipeline en tiempo real procesa datos a medida que llegan, en lugar de hacerlo en lotes programados. Imagina una cadena de montaje en una fábrica: cada estación (tarea en Airflow) realiza una operación específica (como limpiar, transformar o cargar datos) de forma continua, asegurando que el producto final (datos analíticos) esté siempre actualizado.El corazón
Tipo de lección: QuizConcepto claveUn pipeline de datos en tiempo real con Apache Airflow no procesa datos instantáneamente como un sistema de streaming, sino que orquesta tareas que se ejecutan con alta frecuencia (por ejemplo, cada minuto) para manejar datos casi en tiempo real. Piensa en esto como una línea de ensamblaje en una fábrica: los datos llegan continuamente, y Airflow coordina los pasos de extracción, transformación y carga (ETL) de manera automatizada y confiable, asegurando que ca
Data Analyst at Microsoft
Responder al comentario