Champion de Observabilidad
Job Summary
Keppri Busca Champion de Observabilidad
En Keppri los seres humanos son el núcleo de nuestro desarrollo tecnológico.
Somos una compañía enfocada en el ciclo de productos digitales con amplia experiencia en los sectores financiero e inmobiliario. Si buscas un entorno donde el desarrollo personal y profesional es una prioridad esta oportunidad es para ti.
Tu Rol
Champion de Observabilidad (Cloud / SRE / Plataforma)
Serás responsable de liderar y evangelizar la estrategia de observabilidad end-to-end para un cliente del sector financiero (banca) asegurando visibilidad completa sobre sus productos y capacidades digitales (APIs microservicios integraciones transacciones autorizaciones etc.).
Tu misión será que los equipos puedan detectar diagnosticar y resolver incidentes más rápido mejorar el performance y operar con métricas claras de confiabilidad (SLO/SLI) impulsando una cultura de mejora continua basada en datos.
Este rol requiere liderazgo transversal (sin necesidad de tener equipo directo): influirás en arquitectura desarrollo DevOps/SRE seguridad y operación.
Responsabilidades clave
1) Estrategia y Gobierno de Observabilidad
-
Definir estándares y buenas prácticas de observabilidad: métricas logs y
trazas
(naming tags/labels cardinalidad convenciones). -
Diseñar el modelo de madurez de observabilidad y el roadmap de adopción por
equipos y dominios.
2) Diseño e Implementación de Plataforma
-
Diseñar/implementar la plataforma de observabilidad en nube
(preferiblemente
AWS) integrando servicios y herramientas (APM logging tracing alerting). -
Asegurar observabilidad para EKS/Kubernetes Lambda API Gateway
servicios gestionados y workloads híbridos si aplica.
3) Instrumentación y Trazabilidad Distribuida
-
Liderar la instrumentación de aplicaciones y plataformas con OpenTelemetry
(y/o agentes APM) promoviendo tracing distribuido correlación
(traceId/correlationId) y propagación de contexto. -
Asegurar que la observabilidad esté incorporada desde el diseño (no como
afterthought).
4) SLO/SLI Alertas y Reducción de Ruido
-
Definir y operacionalizar SLIs/SLOs por servicio y journey crítico (ej.
autenticación pagos autorizaciones transferencias). -
Diseñar alertas accionables reducir alert fatigue y mejorar la señal vs ruido.
5) Operación Incidentes y Mejora Continua
-
Estandarizar runbooks tableros (dashboards) y prácticas de postmortems /
RCA. -
Impulsar aprendizaje continuo: tendencias capacity/performance
degradaciones silenciosas análisis de causa raíz.
6) Evangelización y Acompañamiento a Equipos
-
Facilitar workshops guías y acompañamiento a squads para acelerar adopción.
-
Traducir datos técnicos a impacto de negocio: disponibilidad latencia
experiencia del usuario riesgos operativos.
Competencias Clave
-
5 años de experiencia en roles como SRE DevOps Plataforma Arquitectura
de Software o Ingeniería de Producción (con foco en confiabilidad). -
Experiencia sólida implementando observabilidad en entornos cloud-native
(microservicios contenedores Kubernetes). -
Conocimiento práctico de conceptos y frameworks:
-
Observabilidad: métricas logs trazas APM profiling (ideal).
-
SRE: SLI/SLO error budgets gestión de incidentes postmortems.
-
-
Experiencia con herramientas (no necesitas todas pero sí base sólida en varias):
-
OpenTelemetry (deseable fuerte)
-
Prometheus / Grafana
-
ELK/EFK / OpenSearch o plataformas de logs equivalentes
-
APMs como Datadog / New Relic / Dynatrace / Splunk (o similares)
-
En AWS: CloudWatch X-Ray (deseable) y/o servicios administrados
relacionados - Conocimientos de AWS y arquitecturas modernas (EKS Lambda redes IAM etc.).
-
-
Automatización e Infraestructura como Código: Terraform / CloudFormation
(deseable). -
Capacidad para comunicar y alinear: explicar decisiones técnicas a
stakeholders
no técnicos influir sin autoridad formal. -
Experiencia en entornos de desarrollo ágil y colaboración con múltiples equipos.
Deseables (no excluyentes)
-
Experiencia en ecosistemas bancarios/financieros (alta transaccionalidad
auditoría compliance disponibilidad). -
Conocimiento de prácticas FinOps aplicadas a observabilidad (costo de
métricas/logs retención muestreo). -
Service mesh (Istio/Linkerd) eBPF/observabilidad avanzada chaos engineering.
Lo que ofrecemos
-
Salario competitivo acorde a tu experiencia.
-
Desarrollo profesional: apoyo para formación/certificaciones.
-
Bonificaciones por desempeño.
-
Un ambiente centrado en tu crecimiento humano y profesional.
-
Proyectos retadores con impacto real en confiabilidad operación y
experiencia de cliente.
Si estás listo para impulsar una cultura de observabilidad elevar la confiabilidad de plataformas críticas y liderar la transformación operativa basada en datos únete a Keppri!