




Resumen: Asumir la responsabilidad de la fiabilidad de los servicios clave en múltiples nubes, impulsar la automatización, mentorizar a ingenieros junior y colaborar con los equipos de desarrollo para integrar la resiliencia en la entrega de funcionalidades. Aspectos destacados: 1. Asumir la responsabilidad de la fiabilidad de los servicios clave y liderar la automatización 2. Liderar la respuesta a incidentes y las revisiones posteriores (postmortems); implementar medidas correctivas 3. Mentorizar a ingenieros SRE intermedios y junior y realizar revisiones de diseño para la fiabilidad Usted asumirá la responsabilidad de la fiabilidad de los servicios clave en múltiples nubes, impulsará la automatización y mentorizará a ingenieros más junior. Colaborará con los equipos de desarrollo para integrar la resiliencia en la entrega de funcionalidades. Responsabilidades * Definir y mantener los indicadores de nivel de servicio (SLI) y los objetivos de nivel de servicio (SLO), supervisar su cumplimiento y el uso del presupuesto de errores * Liderar la respuesta a incidentes y las revisiones posteriores (postmortems); implementar medidas correctivas * Automatizar tareas operativas mediante herramientas (por ejemplo, corrección automática, reglas de escalado) * Crear, mejorar y mantener canalizaciones de CI/CD, despliegues progresivos (canary) y estrategias blue/green * Liderar discusiones técnicas con clientes para alinear requisitos de fiabilidad, escalabilidad y rendimiento * Impulsar mejoras continuas de la plataforma durante todo el ciclo de vida del servicio, incluyendo arquitectura, monitorización y procesos operativos * Implementar y ampliar sistemas de observabilidad (métricas, trazado, agregación de registros) * Optimizar el rendimiento y los costos ajustando los servicios en la nube, el escalado automático y el dimensionamiento adecuado de los recursos * Diseñar, desplegar y operar cargas de trabajo contenerizadas utilizando Docker y Kubernetes en entornos de producción * Colaborar con los equipos de desarrollo para integrar patrones de resiliencia (ruptores de circuito, aislamiento por compartimentos) * Participar en discusiones arquitectónicas sobre alta disponibilidad y recuperación ante desastres * Mentorizar a ingenieros SRE intermedios y junior; realizar revisiones de diseño para la fiabilidad Requisitos obligatorios * 5–8 años de experiencia en un puesto relacionado con fiabilidad u operaciones * Certificación independiente de nube: Terraform Associate, Certified Kubernetes Administrator (CKA) o SRE Foundation * Certificación de proveedor de nube: certificación profesional en AWS (Solutions Architect), Azure (Solutions Architect Expert), GCP (Professional Cloud Architect) u Oracle Cloud (Architect Professional) * Conocimientos sólidos de programación (Python, Go o equivalente) * Experiencia con infraestructura como código (IaC), canalizaciones de CI/CD y pilas de monitorización/observabilidad (Prometheus, Grafana, OpenTelemetry, ELK) * Capacidad para trabajar con pilas de observabilidad (Prometheus, Grafana, OpenTelemetry, ELK, Jaeger) * Experiencia trabajando con sistemas distribuidos y servicios a escala productiva Habilidades deseables * Exposición a replicación de datos multi-nube o redes entre nubes * Experiencia en ingeniería del caos o inyección de fallos


