Los Tres Pilares de la Observabilidad
La observabilidad es la capacidad de entender el estado interno de un sistema a partir de sus salidas. Los tres pilares son: metricas, logs y traces. Sin observabilidad, estas volando a ciegas en produccion.
| Pilar | Herramienta | Que responde |
|---|---|---|
| Metricas | Prometheus + Grafana | Cuantas requests/seg? Cuanto CPU? |
| Logs | Loki / ELK Stack | Que paso exactamente? Que error? |
| Traces | Jaeger / Tempo | Donde esta el cuello de botella? |
# prometheus-values.yml (Helm)
prometheus:
prometheusSpec:
retention: 15d
resources:
requests:
memory: 512Mi
cpu: 250m
serviceMonitorSelector: {}
grafana:
adminPassword: my-secure-password
dashboardProviders:
dashboardproviders.yaml:
apiVersion: 1
providers:
- name: default
folder: ''
type: file
options:
path: /var/lib/grafana/dashboards
alertmanager:
config:
route:
receiver: slack-notifications
group_wait: 30s
receivers:
- name: slack-notifications
slack_configs:
- api_url: https://hooks.slack.com/services/xxx
channel: '#alerts'
title: '{{ .Status | toUpper }}: {{ .CommonAnnotations.summary }}'Alertas que Importan
| Alerta | Condicion | Severidad |
|---|---|---|
| Alta latencia | p99 > 2 segundos por 5 min | Warning |
| Error rate alto | > 1% errores 5xx por 5 min | Critical |
| CPU saturado | > 90% por 10 min | Warning |
| Pods crasheando | restarts > 5 en 10 min | Critical |
| Disco lleno | > 85% uso | Warning |
🚀 Dato Clave
No alertes por todo. Solo alerta por cosas que requieren accion humana. Si una alerta se dispara 5 veces sin que nadie haga nada, eliminala. La fatiga de alertas es el peor enemigo del DevOps.
Observabilidad no es opcional en produccion. Es lo que te permite dormir tranquilo.