Outils & Frameworks SRE
Les outils essentiels pour garantir la fiabilité des systèmes en production.
📊 Monitoring & Observabilité
Prometheus
Système de monitoring et alerting open source, standard Kubernetes.
Grafana
Dashboards et visualisation pour toutes vos sources de données.
Datadog
Plateforme SaaS d'observabilité complète : métriques, logs, APM.
New Relic
Observabilité full-stack avec APM, logs et infrastructure.
📝 Logging
Elastic Stack (ELK)
Elasticsearch, Logstash, Kibana - la stack de référence pour les logs.
Loki
Système de logging de Grafana, conçu pour être efficace et simple.
Splunk
Plateforme enterprise pour l'analyse des données machine.
🔍 Distributed Tracing
Jaeger
Distributed tracing open source, natif OpenTelemetry.
Tempo
Backend de tracing de Grafana, facile à opérer.
OpenTelemetry
Standard de collecte de télémétrie (traces, metrics, logs).
🚨 Incident Management
PagerDuty
Leader de l'incident management et on-call scheduling.
OpsGenie
Solution Atlassian pour l'alerting et incident management.
Incident.io
Incident management moderne avec intégration Slack native.
Rootly
Plateforme de gestion d'incidents avec automatisation.
🎯 SLO Management
Sloth
Générateur de SLO pour Prometheus, définit les SLO en YAML.
Nobl9
Plateforme SaaS dédiée au SLO management.
Pyrra
SLO avec Prometheus, dashboards et alertes automatiques.
💥 Chaos Engineering
Chaos Monkey
L'outil original de Netflix pour tuer des instances aléatoirement.
LitmusChaos
Plateforme de chaos engineering cloud-native pour Kubernetes.
Gremlin
Plateforme enterprise de chaos engineering.
Chaos Mesh
Plateforme de chaos engineering pour Kubernetes.
⚡ Load Testing
k6
Outil moderne de load testing avec scripts JavaScript.
Locust
Load testing avec scripts Python, facile à utiliser.
Gatling
Load testing haute performance en Scala.
📢 Status Pages
Statuspage
Status pages hébergées par Atlassian.
Cachet
Status page open source auto-hébergée.
Upptime
Status page hébergée sur GitHub Pages, gratuit.