




Resumen del Puesto: El Data & Site Reliability Engineer Senior garantiza la confiabilidad, estabilidad y operación continua de plataformas de datos y servicios analíticos, liderando la prevención de incidentes y la automatización. Puntos Destacados: 1. Liderar la estrategia de confiabilidad de la plataforma de datos. 2. Diseñar e implementar frameworks de observabilidad (Grafana + Prometheus). 3. Impulsar la evolución hacia modelos operativos IOps y NoOps. ¡Sé parte de Stefanini! En Stefanini somos más de 30\.000 genios, conectados desde 41 países, haciendo lo que les apasiona y co\-creando un futuro mejor. **Responsabilidades y atribuciones** * El Data \& Site Reliability Engineer Senior es responsable de garantizar la confiabilidad, estabilidad y operación continua de las plataformas de datos y servicios analíticos de la organización. Este rol combina las mejores prácticas de Site Reliability Engineering (SRE) y Data Reliability Engineering (DRE), enfocándose en la prevención de incidentes, automatización de procesos, reducción del tiempo de recuperación ante fallos (MTTR) y mejora de la experiencia operativa de extremo a extremo. Lidera la definición y gobierno de indicadores de servicio (SLIs/SLOs) como frescura, completitud, latencia, confiabilidad y disponibilidad, impulsando la evolución hacia modelos operativos IOps y NoOps. Responsabilidades: * Liderar la estrategia de confiabilidad de la plataforma de datos de NEQUI * Diseñar e implementar el framework de observabilidad sobre Grafana \+ Prometheus * Construir y mantener runbooks operativos en colaboración con el Tech Lead de NEQUI * Liderar postmortem de incidentes P1/P2 y hacer seguimiento de planes de acción * Identificar y ejecutar iniciativas de automatización (iOps, NoOps, AIOps) * Gestionar el backlog técnico de deuda operativa y mejoras de confiabilidad * Ser el punto de articulación técnico de Stefanini con el Tech Lead de NEQUI * Proponer y ejecutar el roadmap de AIOps en coordinación con NEQUI * Mínimo 3 años o más de experiencia en roles de SRE, DRE, DevOps o ingeniería de plataformas de datos en ambientes productivos. * Experiencia comprobable liderando incidentes críticos y proyectos de automatización en entornos de datos. **Requisitos y calificaciones** * 3\+ años de experiencia en roles SRE, DRE, DataOps o Platform Engineering * Dominio de Apache Airflow: gestión de DAGs, depuración, optimización de pipelines * Experiencia con dbt (data build tool): modelos, pruebas, linaje de datos * Conocimiento de Amazon Redshift: administración, optimización de consultas, WLM * Manejo de Grafana \+ Prometheus: dashboards, alertas, PromQL * Experiencia con OpsGenie o herramienta equivalente de gestión de alertas * Conocimiento de AWS Glue, Lambda, CloudWatch * Familiaridad con metodologías SRE: error budgets, SLOs, SLIs, SLAs * Experiencia con Jira Service Management o herramienta ITSM equivalente Habilidades soft: * Liderazgo técnico y capacidad para coordinar equipos multidisciplinarios durante incidentes críticos (P1/P2\). * Pensamiento analítico y enfoque en la resolución de problemas complejos. * Capacidad para realizar análisis de causa raíz (postmortems) y proponer mejoras estructurales. * Comunicación efectiva para interactuar con equipos técnicos y de negocio. * Proactividad, orientación a la mejora continua y gestión bajo presión. * Habilidad para documentar procesos, incidentes y automatizaciones de manera clara y estandarizada. **Informaciones adicionales** ¿Buscas un lugar donde tus ideas brillen? Con más de 38 años y una presencia global, en Stefanini transformamos el mañana juntos. Aquí, cada acción cuenta y cada idea puede marcar la diferencia. Únete a un equipo que valora la innovación, el respeto y el compromiso. Si eres una persona disruptiva, te mantienes en aprendizaje continuo y la innovación está en tu ADN, entonces somos lo que buscas. ¡Ven y construyamos juntos un futuro mejor!


