




Resumen: Este puesto implica garantizar la fiabilidad de los servicios centrales en múltiples nubes, impulsar la automatización, mentorizar a ingenieros junior y colaborar con los equipos de desarrollo para integrar la resiliencia en la entrega de funcionalidades. Aspectos destacados: 1. Garantizar la fiabilidad de los servicios centrales en múltiples nubes 2. Impulsar la automatización y mentorizar a ingenieros junior 3. Colaborar con los equipos de desarrollo para integrar la resiliencia en la entrega de funcionalidades Resumen técnico Usted será responsable de la fiabilidad de los servicios centrales en múltiples nubes, impulsará la automatización y mentorizará a ingenieros más junior. Colaborará con los equipos de desarrollo para integrar la resiliencia en la entrega de funcionalidades. Responsabilidades * Definir y mantener los indicadores de nivel de servicio (SLI) y los objetivos de nivel de servicio (SLO), supervisar su cumplimiento y el uso del presupuesto de errores * Liderar la respuesta a incidencias y las reuniones posteriores (postmortems), e implementar medidas correctivas * Automatizar tareas operativas mediante herramientas (por ejemplo, autocorrección, reglas de escalado) * Construir, mejorar y mantener canalizaciones de integración y despliegue continuos (CI/CD), despliegues progresivos (canary) y estrategias de despliegue azul/verde * Liderar discusiones técnicas con los clientes para alinear los requisitos de fiabilidad, escalabilidad y rendimiento * Impulsar mejoras continuas de la plataforma durante todo el ciclo de vida del servicio, incluyendo arquitectura, monitorización y procesos operativos * Implementar y ampliar sistemas de observabilidad (métricas, trazado, agregación de registros) * Optimizar el rendimiento y los costos ajustando los servicios en la nube, el escalado automático y el dimensionamiento adecuado de los recursos * Diseñar, desplegar y operar cargas de trabajo contenerizadas utilizando Docker y Kubernetes en entornos de producción * Colaborar con los equipos de desarrollo para integrar patrones de resiliencia (circuit breakers, bulkheading) * Participar en discusiones de arquitectura sobre alta disponibilidad y recuperación ante desastres Mentorizar a ingenieros SRE intermedios y junior; realizar revisiones de diseño de fiabilidad * Requisitos obligatorios * 5–8 años de experiencia en un puesto relacionado con fiabilidad u operaciones * Certificación agnóstica respecto a la nube\*\*: Terraform Associate, Certified Kubernetes Administrator (CKA) o SRE Foundation Certificación de proveedor de nube\*\*: certificación profesional en AWS (Solutions Architect), Azure (Solutions Architect Expert), GCP (Professional Cloud Architect) u Oracle Cloud (Architect Professional) * Competencias sólidas de programación (Python, Go o equivalente) Experiencia con infraestructura como código (IaC), canalizaciones CI/CD y pilas de monitorización/observabilidad (Prometheus, Grafana, OpenTelemetry, ELK) * Conocimientos prácticos de pilas de observabilidad (Prometheus, Grafana, OpenTelemetry, ELK, Jaeger) * Experiencia trabajando con sistemas distribuidos y servicios a escala de producción Competencias deseables * Exposición a replicación de datos multi-nube o redes transnube * Experiencia en ingeniería del caos o inyección de fallos


