Buscamos um(a) Engenheiro(a) de Confiabilidade de Site (SRE) Sênior para assumir a responsabilidade técnica da nossa infraestrutura em nuvem AWS.
Você será peça-chave na garantia de disponibilidade performance e segurança dos nossos ambientes liderando iniciativas de automação observabilidade e evolução contínua da plataforma com visão estratégica e execução.
Mais do que manter a casa em ordem buscamos alguém que antecipe problemas antes que virem incidentes e que quando o pior acontecer seja a pessoa que todos querem ao lado: calma sob pressão raciocínio rápido e decisões assertivas.
Perfil que buscamos:
Profissional sênior com mentalidade orientada a confiabilidade monitoramento e automação capaz de tomar decisões técnicas com autonomia liderar frentes estratégicas de infraestrutura e atuar como multiplicador de boas práticas dentro do time. Alguém que enxerga cada falha como oportunidade de melhoria que seja pró-ativo e resolutivo. Procuramos alguém que não espere o problema chegar que rastreia antecipa e age. Quando o incidente ocorre é quem assume o controle com clareza coordena a resolução sem entrar em pânico e não sai da crise sem um plano para que ela não se repita.
Principais Responsabilidades:
Desenvolver manter e evoluir pipelines de CI/CD garantindo entregas contínuas estáveis e seguras
Automatizar processos de infraestrutura e deploy de aplicações reduzindo toil e aumentando a confiabilidade
Monitorar e otimizar continuamente a performance disponibilidade e segurança dos ambientes produtivos
Administrar e dar suporte aos ambientes em nuvem AWS assegurando resiliência e escalabilidade
Ser referência técnica para o time de desenvolvimento apoiando boas práticas de entrega contínua
Garantir observabilidade end-to-end com práticas sólidas de métricas logs tracing versionamento e rollback
Administrar e garantir a disponibilidade e performance dos bancos de dados MongoDB e PostgreSQL
Atuar como tutor e referência em FinOps promovendo cultura de eficiência e controle de custos na nuvem
Liderar a resposta a incidentes críticos diagnosticar rapidamente coordenar a resolução e garantir comunicação clara durante crises
Conduzir post-mortems sem cultura de culpa transformando incidentes em aprendizado e melhorias concretas
Requisitos Técnicos:
Experiência comprovada com CI/CD Jenkins e similares
Domínio de containers e orquestração Docker e Kubernetes
Sólida vivência com Infraestrutura como Código Terraform
Experiência com observabilidade e monitoramento Datadog
Experiência em ambientes de cloud AWS.
Conhecimento em FinOps otimização e governança de custos em nuvem
Diferenciais:
Experiência com automação de segurança DevSecOps
Certificações AWS (Solutions Architect DevOps Engineer ou SysOps)
Participação em projetos de migração para cloud
Conhecimento em Python para automação e scripting