Volver al curso

Data Engineering con Python: Pipelines y Big Data

leccion
11 / 12
advanced
32 horas
Data Engineering en Produccion y Carrera

Infraestructura Cloud para Data Engineering

Lectura
50 min~1 min lectura

Cloud Computing para Data Engineers

El 95% de los pipelines modernos corren en la nube. En LATAM, AWS lidera con ~45% de market share, seguido de Azure (~25%) y GCP (~20%). GCP tiene la ventaja de BigQuery, posiblemente el mejor data warehouse.

ServicioAWSGCPAzure
Data WarehouseRedshiftBigQuerySynapse
Object StorageS3GCSBlob Storage
Spark ManagedEMRDataprocHDInsight
StreamingKinesisPub/Sub + DataflowEvent Hubs
OrquestacionMWAA (Airflow)Cloud ComposerData Factory
# Terraform - Data Platform en AWS
resource 'aws_s3_bucket' 'data_lake' {
  bucket = 'empresa-data-lake-latam'
  lifecycle_rule {
    enabled = true
    transition {
      days = 90
      storage_class = 'GLACIER'
    }
  }
}

resource 'aws_redshift_cluster' 'warehouse' {
  cluster_identifier = 'warehouse-latam'
  database_name = 'analytics'
  node_type = 'ra3.xlplus'
  number_of_nodes = 2
}

🚀 Certificaciones Valoradas

AWS: Data Analytics Specialty ($300 USD). GCP: Professional Data Engineer ($200 USD). Databricks: Data Engineer Associate ($200 USD). Una certificacion puede aumentar tu salario 15-25% en LATAM.

TamanoStackCosto Mensual
Startup (<10GB)BigQuery + Airbyte + dbtUSD 50-200
Mediana (10GB-1TB)Redshift + Airflow + dbt + S3USD 500-2,000
Grande (1TB+)Databricks + Kafka + Delta LakeUSD 5,000-50,000+
Cloud computing

Elige una cloud, dominala profundamente, y aprende conceptos transferibles.