Expert RSE senior (+5 ans)
Job Summary
Nous recherchons un SRE senior capable de structurer et industrialiser les pratiques SRE au sein de la DSI Digitale et daccompagner les équipes Produit afin de renforcer la fiabilité et la performance des services Digitaux tout en augmentant lautonomie des équipes produits et en réduisant lincidentologie.
Léquipe SRE en cours de construction au sein de la DSI Digitale est composée de 2 SRE et dun manager.
Elle couvre lensemble du périmètre Digital : applications métier socles backend/frontend et plateformes Data.
Le prestataire intégrera léquipe en tant que SRE confirmé à forte composante développement avec pour priorité loutillage lautomatisation et la montée en compétences des équipes produits sur les pratiques SRE - y compris les pratiques émergentes autour de lIA.
Tâches principales (attendues dès le démarrage)
- Développer et maintenir des outils dautomatisation SRE : scripts dexploitation automatisation des opérations récurrentes infrastructure as code (Helm Kustomize template IaC) intégration dans les pipelines CI/CD (Jenkins / GitLab CI)
- Améliorer lobservabilité : mise en place et enrichissement de dashboards (Prometheus/Grafana ELK/Opensearch APM) définition dalertes pertinentes réduction du bruit suivi de la fiabilité et des performances
- Réduire la dette opérationnelle : produire une cartographie priorisée des chantiers et les traiter par itérations
- Accompagner les équipes produits : être un des référents SRE auprès des équipes de développement co-construire les pratiques (revues de déploiement readiness checklists définition des SLO/SLA) aider opérationnellement les équipes dans la mise en place des outils/pratiques documenter et partager les standards
- Intégrer des pratiques SRE IA : contribuer à loutillage IA et identifier les opportunités dAIOps pour améliorer la fiabilité des systèmes
Tâches secondaires (montée en charge progressive)
- Contribuer à la gestion des incidents majeurs et aux post-mortems
- Participer au renforcement de la résilience (tests de reprise chaos engineering)
- Contribuer à la définition du framework SLO/SLA et des error budgets
- Participer au suivi de la capacité et à loptimisation des coûts AWS
Qualifications :
Environnement technique :
- Cloud & infra : AWS (EC2 EKS S3 RDS) - bonne maîtrise requise
- Orchestration : Kubernetes Docker
- CI/CD : Jenkins / GitLab CI Helm
- Observabilité : Prometheus/Grafana ELK/Opensearch
- Langages : Java ou Python (principal) Bash
- Messaging : Kafka VCS : Git
- Pratiques : SRE DevOps GitOps sécurité by design (secrets IAM durcissement)
- Environnement applicatif : Java 17/21 - Quarkus 3 Angular MySQL 8 Maven/NPM SonarQube
Compétences requises ( obligatoires) :
- Expérience significative en production sur des systèmes distribués critiques
- Solide maîtrise de Java ou Python pour le développement doutils et dautomatisations SRE
- Bonnes bases Linux (réseau process filesystem troubleshooting)
- Expérience concrète des pratiques SRE : métriques dashboards alertes gestion dincidents post-mortems SLO/SLA
- Maîtrise de Kubernetes et dAWS (services principaux)
- Expérience avec une chaîne CI/CD (Jenkins ou GitLab CI)
- Capacité à collaborer étroitement avec des équipes de développement en contexte agile
- Capacité à documenter clairement et à accompagner ladoption des pratiques par des équipes non-SRE
- Niveau danglais opérationnel (lecture/écriture technique)
Informations supplémentaires :
Compétences facultatives mais appréciées ( clairement un plus) :
- Expérience ou appétence pour les pratiques SRE appliquées à lIA (AIOps)
- Pratiques GitOps (ArgoCD)
- Expérience en chaos engineering / game days
- Connaissance des bonnes pratiques de sécurité en production (gestion des secrets IAM politiques réseau)
- Expérience en optimisation des coûts cloud AWS
- Expérience multi-équipes produit ou multi-périmètres
Qualités humaines recherchées :
- Forte orientation fiabilité/service pragmatisme opérationnel
- Goût pour le développement et loutillage pas uniquement pour les pratiques théoriques
- Esprit dinitiative et autonomie dans un cadre déquipe en construction
- Capacité à vulgariser et à embarquer des équipes de développement
- Curiosité technologique appétence pour lamélioration continue et les pratiques SRE émergentes (IA incluse)
Remote Work :
No
Employment Type :
Full-time
About Company
Tilencia is an IT consulting firm specializing in Cloud, DevOps and Security. Our experts are involved at the heart of our clients' technological transformation, from design to production security. We provide our clients with our experience and expertise to support them in their sear ... View more