Volver al curso

DevOps Moderno: CI/CD, Docker y Kubernetes

leccion
11 / 12
advanced
30 horas
Observabilidad, IaC y Carrera DevOps

Observabilidad: Prometheus, Grafana y Alerting

Lectura
50 min~1 min lectura

Los Tres Pilares de la Observabilidad

La observabilidad es la capacidad de entender el estado interno de un sistema a partir de sus salidas. Los tres pilares son: metricas, logs y traces. Sin observabilidad, estas volando a ciegas en produccion.

PilarHerramientaQue responde
MetricasPrometheus + GrafanaCuantas requests/seg? Cuanto CPU?
LogsLoki / ELK StackQue paso exactamente? Que error?
TracesJaeger / TempoDonde esta el cuello de botella?
# prometheus-values.yml (Helm)
prometheus:
  prometheusSpec:
    retention: 15d
    resources:
      requests:
        memory: 512Mi
        cpu: 250m
    serviceMonitorSelector: {}

grafana:
  adminPassword: my-secure-password
  dashboardProviders:
    dashboardproviders.yaml:
      apiVersion: 1
      providers:
        - name: default
          folder: ''
          type: file
          options:
            path: /var/lib/grafana/dashboards

alertmanager:
  config:
    route:
      receiver: slack-notifications
      group_wait: 30s
    receivers:
      - name: slack-notifications
        slack_configs:
          - api_url: https://hooks.slack.com/services/xxx
            channel: '#alerts'
            title: '{{ .Status | toUpper }}: {{ .CommonAnnotations.summary }}'

Alertas que Importan

AlertaCondicionSeveridad
Alta latenciap99 > 2 segundos por 5 minWarning
Error rate alto> 1% errores 5xx por 5 minCritical
CPU saturado> 90% por 10 minWarning
Pods crasheandorestarts > 5 en 10 minCritical
Disco lleno> 85% usoWarning

🚀 Dato Clave

No alertes por todo. Solo alerta por cosas que requieren accion humana. Si una alerta se dispara 5 veces sin que nadie haga nada, eliminala. La fatiga de alertas es el peor enemigo del DevOps.

Dashboard Grafana

Observabilidad no es opcional en produccion. Es lo que te permite dormir tranquilo.