Ingeniero DevOps - AIOps

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

111411, Los Mártires, Bogotá, Colombia

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Buscamos un Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps de Plataforma de IA práctico, que se haga cargo del aprovisionamiento de infraestructura, la automatización de CI/CD, las canalizaciones de telemetría y la implementación en producción de servicios impulsados por IA. Aspectos destacados: 1. Rol centrado en SRE y en infraestructura, enfocado en sistemas de IA fiables 2. Rol fundamental para construir la base de los servicios de IA a escala 3. Oportunidad de trabajar con tecnologías de plataformas de IA de vanguardia **Descripción de la empresa** La tecnología es nuestro cómo. Y las personas son nuestro porqué. Durante más de dos décadas, hemos aprovechado la tecnología para impulsar cambios significativos. Al combinar ingeniería de clase mundial, experiencia sectorial y una mentalidad centrada en las personas, asesoramos y colaboramos con marcas líderes de diversos sectores para crear plataformas dinámicas y experiencias digitales inteligentes que impulsen la innovación y transformen los negocios. Desde el prototipo hasta el impacto en el mundo real: forma parte de un cambio global realizando un trabajo que importa. **Descripción del puesto** Buscamos un **Ingeniero de Confiabilidad del Sitio (SRE) / Ingeniero DevOps de Plataforma de IA** práctico para encargarse del aprovisionamiento de infraestructura, la automatización de CI/CD, las canalizaciones de telemetría y la implementación en producción de servicios, agentes y sistemas de orquestación impulsados por IA. Se trata de un **rol intensivo en SRE y centrado en la infraestructura**, enfocado en garantizar que los sistemas de IA que operan en producción sean: * Fiables * Observables * Escalables * Seguros * Eficientes desde el punto de vista de costos * Seguros de implementar y operar Usted desempeñará un rol fundamental al construir y mantener la base de la plataforma que permita que los servicios de IA se ejecuten de forma segura y eficiente a escala. Principales responsabilidades 1\. Aprovisionamiento y automatización de infraestructura * Diseñar y gestionar infraestructura en la nube mediante Infraestructura como Código (Terraform o similar) * Aprovisionar y mantener clústeres de Kubernetes y servicios de apoyo * Automatizar la configuración de entornos en desarrollo, preproducción y producción * Gestionar redes, IAM, secretos, almacenamiento y escalado de recursos de cómputo * Garantizar alta disponibilidad, resiliencia y preparación para recuperación ante desastres 2\. Ingeniería de CI/CD e implementación * Construir y mantener canalizaciones de CI/CD para: + Servicios de IA + Marcos de agentes + Sistemas de orquestación + Artefactos de modelos * Implementar puertas de validación automática de pruebas y fiabilidad * Habilitar implementaciones blue/green y canary * Crear mecanismos seguros de reversión para servicios y modelos * Integrar comprobaciones de fiabilidad y salud en los flujos de trabajo de implementación 3\. Gobernanza de implementación de modelos y agentes * Empaquetar, versionar e implementar modelos en entornos contenerizados * Gestionar el almacenamiento y la promoción de artefactos de modelos entre entornos * Supervisar el rendimiento de los modelos y detectar su deterioro * Apoyar la integración del ciclo de reentrenamiento y los flujos de actualización de modelos * Garantizar la implementación y reversión seguras de versiones de modelos * Implementar supervisión de latencia, rendimiento y costos de inferencia 4\. Canalizaciones de datos para telemetría y observabilidad * Diseñar y mantener canalizaciones de datos para ingerir, limpiar y procesar telemetría de alto volumen (registros, métricas, trazas, eventos) * Habilitar telemetría estructurada para flujos de trabajo de IA y orquestación * Garantizar la fiabilidad del procesamiento en tiempo real y por lotes * Optimizar la escalabilidad y el rendimiento de las canalizaciones 5\. Integración de la plataforma AIOps * Evaluar, implementar e integrar plataformas AIOps * Mejorar la detección de anomalías, la correlación y la inteligencia de alertas * Reducir el ruido de alertas y mejorar la calidad de la señal * Integrar las salidas de AIOps en los flujos de trabajo operativos y la gestión de incidencias 6\. Automatización inteligente de incidencias * Automatizar los flujos de detección y corrección de incidencias * Crear scripts de autorreparación y runbooks inteligentes * Reducir el MTTD y el MTTR mediante automatización * Integrar información de análisis inteligente de causas raíz impulsado por IA en las herramientas operativas * Mejorar la prevención de incidencias recurrentes 7\. Fiabilidad en producción y excelencia SRE * Definir y gestionar SLI, SLO y presupuestos de errores * Implementar sistemas de supervisión, paneles de control y alertas * Participar en turnos de guardia * Liderar la clasificación de incidencias y el análisis de causas raíz * Mejorar la resiliencia, el escalado y el manejo de fallos * Implementar mecanismos de corte de circuito, límites de tasa y conmutación por error 8\. Seguridad y gobernanza * Implementar controles de acceso de mínimo privilegio * Gestionar secretos y rotación de credenciales * Hacer cumplir el aislamiento entre entornos * Garantizar la auditabilidad y el cumplimiento normativo de los sistemas de IA **Requisitos** Experiencia requerida * 5 o más años de experiencia en puestos de Ingeniería de Confiabilidad del Sitio (SRE), DevOps o Ingeniería de Plataformas * Amplia experiencia práctica con plataformas en la nube (AWS, Azure o GCP) * Experiencia demostrada con Kubernetes y cargas de trabajo contenerizadas * Experiencia con Infraestructura como Código (Terraform, CloudFormation, etc.) * Amplia experiencia en la implementación de CI/CD (GitHub Actions, GitLab CI, Jenkins, etc.) * Experiencia en la construcción de pilas de observabilidad (Prometheus, Grafana, OpenTelemetry, ELK, Datadog, etc.) * Experiencia definiendo y gestionando SLI/SLO y presupuestos de errores * Experiencia práctica en respuesta a incidencias y soporte en producción * Excelentes habilidades de programación (Python, Bash o similares) Experiencia en plataformas de IA/ML (altamente deseable) * Experiencia implementando y gestionando servicios de IA/ML en producción * Conocimientos sobre empaquetado, versionado y gestión de artefactos de modelos * Comprensión de la gestión del ciclo de vida de los modelos y de los flujos de reentrenamiento * Experiencia supervisando el rendimiento, la latencia y los costos de inferencia * Conocimiento de herramientas AIOps y sistemas inteligentes de alertas Habilidades adicionales * Profundo conocimiento de patrones de fiabilidad en sistemas distribuidos * Conocimiento de las mejores prácticas de seguridad en entornos nativos de la nube * Experiencia implementando estrategias de alta disponibilidad y recuperación ante desastres * Excelentes habilidades de resolución de problemas y análisis de causas raíz * Excelentes habilidades comunicativas y capacidad para colaborar entre equipos de ingeniería y de IA **Información adicional** Descubra algunos de los beneficios globales que permiten a nuestros empleados convertirse en la mejor versión de sí mismos: * **Finanzas:** Paquete salarial competitivo, plan de acciones, bonos por desempeño corporativo, premios de reconocimiento basados en valor, bono por referidos; * **Desarrollo profesional:** Asesoramiento profesional, oportunidades profesionales globales, trayectorias profesionales no lineales, programas internos de desarrollo para liderazgo técnico y gerencial; * **Oportunidades de aprendizaje:** Proyectos complejos, rotaciones, comunidades técnicas internas, formación, certificaciones, asesoramiento, suscripciones a plataformas de aprendizaje en línea, sesiones de transmisión de conocimientos, talleres, conferencias; * **Equilibrio entre vida laboral y personal:** Trabajo híbrido y horarios flexibles, programa de asistencia al empleado; * **Salud:** Programa global interno de bienestar, acceso a aplicaciones de bienestar; * **Comunidad:** Comunidades técnicas internacionales, clubes y grupos de interés, programas de inclusión y diversidad, eventos y celebraciones. En Endava estamos comprometidos con la creación de un entorno abierto, inclusivo y respetuoso donde todos se sientan seguros, valorados y empoderados para ser lo mejor de sí mismos. Aceptamos candidaturas de personas de todos los orígenes, experiencias y perspectivas, porque sabemos que los equipos inclusivos nos ayudan a ofrecer soluciones más inteligentes e innovadoras a nuestros clientes. Las decisiones de contratación se basan en el mérito, las habilidades, las calificaciones y el potencial. Si necesita ajustes o apoyo durante el proceso de reclutamiento, no dude en hacérnoslo saber.

Fuentea: indeed Ver publicación original