Observabilidad: Prometheus, Grafana y Alerting | DevOps Moderno: CI/CD, Docker y Kubernetes

Los Tres Pilares de la Observabilidad

La observabilidad es la capacidad de entender el estado interno de un sistema a partir de sus salidas. Los tres pilares son: metricas, logs y traces. Sin observabilidad, estas volando a ciegas en produccion.

Pilar	Herramienta	Que responde
Metricas	Prometheus + Grafana	Cuantas requests/seg? Cuanto CPU?
Logs	Loki / ELK Stack	Que paso exactamente? Que error?
Traces	Jaeger / Tempo	Donde esta el cuello de botella?

# prometheus-values.yml (Helm)
prometheus:
  prometheusSpec:
    retention: 15d
    resources:
      requests:
        memory: 512Mi
        cpu: 250m
    serviceMonitorSelector: {}

grafana:
  adminPassword: my-secure-password
  dashboardProviders:
    dashboardproviders.yaml:
      apiVersion: 1
      providers:
        - name: default
          folder: ''
          type: file
          options:
            path: /var/lib/grafana/dashboards

alertmanager:
  config:
    route:
      receiver: slack-notifications
      group_wait: 30s
    receivers:
      - name: slack-notifications
        slack_configs:
          - api_url: https://hooks.slack.com/services/xxx
            channel: '#alerts'
            title: '{{ .Status | toUpper }}: {{ .CommonAnnotations.summary }}'

Alertas que Importan

Alerta	Condicion	Severidad
Alta latencia	p99 > 2 segundos por 5 min	Warning
Error rate alto	> 1% errores 5xx por 5 min	Critical
CPU saturado	> 90% por 10 min	Warning
Pods crasheando	restarts > 5 en 10 min	Critical
Disco lleno	> 85% uso	Warning

🚀 Dato Clave

No alertes por todo. Solo alerta por cosas que requieren accion humana. Si una alerta se dispara 5 veces sin que nadie haga nada, eliminala. La fatiga de alertas es el peor enemigo del DevOps.

Observabilidad no es opcional en produccion. Es lo que te permite dormir tranquilo.