




Resumen: Buscamos un Ingeniero Senior de DevOps para estandarizar la automatización y el rendimiento de la programación mediante la administración de Kubernetes con Volcano, la gestión de cuotas y la automatización de operaciones para trabajos avanzados de inteligencia artificial e investigación. Aspectos destacados: 1. Fortalecer la orquestación compatible con GPU en Kubernetes y Linux 2. Administrar Kubernetes con Volcano para inteligencia artificial avanzada e investigación 3. Impulsar mejoras continuas en la infraestructura y la automatización Estamos fortaleciendo la orquestación compatible con GPU en Kubernetes y Linux, y necesitamos un Ingeniero Senior de DevOps para estandarizar la automatización y el rendimiento de la programación. Usted administrará Kubernetes con Volcano, gestionará cuotas y aislamiento, y automatizará operaciones mediante Python y Bash para apoyar trabajos avanzados de inteligencia artificial e investigación. Envíe su solicitud para comenzar. **Responsabilidades** * Provisionar, configurar y dar soporte a clústeres de Kubernetes habilitados para GPU y entornos de cómputo Linux independientes para mantener la programación y el rendimiento en su punto máximo. * Operar la programación de trabajos de Volcano, gestionando la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas de espacio de nombres. * Asumir la administración integral de Kubernetes, incluidos los espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo. * Automatizar la presentación de trabajos, el aprovisionamiento de recursos y la generación de informes mediante scripts en Python y Shell mantenidos a lo largo del tiempo. * Coordinarse con los equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de capacidad y los flujos de trabajo de los investigadores. * Supervisar la salud de la infraestructura y el consumo de recursos, y compartir los datos requeridos para optimización e informes. * Impulsar mejoras continuas en la infraestructura, las herramientas y los flujos de trabajo de automatización para potenciar el rendimiento, la escalabilidad y la usabilidad. * Apoyar los procesos operativos que garanticen una experiencia eficiente para los investigadores en diversas cargas de trabajo de inteligencia artificial y computacionales. **Requisitos** * 3 o más años de experiencia en DevOps o ingeniería de infraestructura en entornos grandes y complejos. * Competencia experta en la administración de Kubernetes, incluidos espacios de nombres, programación/distribución de POD, PVC, NFS y gestión de cuotas de recursos. * Experiencia práctica con el programador Volcano para trabajos con GPU, incluida la configuración de colas y la priorización de cargas de trabajo con integración en Kubernetes. * Historial comprobado en la gestión de entornos de clústeres con GPU tanto en Kubernetes como en nodos de cómputo Linux independientes. * Capacidad avanzada en Python para automatización de infraestructura y sólidos conocimientos prácticos de scripting UNIX Shell, como Bash. * Excelentes habilidades en administración de sistemas Linux, con experiencia en resolución de problemas, ajuste de rendimiento y gestión de configuraciones. * Conocimiento sólido de los conceptos de automatización y orquestación de infraestructura, así como de las herramientas utilizadas para implementarlos. * Dominio fluido del inglés (hablado y escrito) para colaborar directamente con clientes. **Deseable** * Conocimientos de Helm para empaquetar y gestionar aplicaciones de Kubernetes. * Experiencia con pilas de monitoreo y observabilidad, especialmente Prometheus, Grafana y Loki. * Familiaridad con Infraestructura como Código, incluido Terraform. * Experiencia en entornos de Kubernetes multi-nube, como Amazon EKS y Google GKE. * Conocimiento de redes de Azure, incluidas VPN, ExpressRoute y seguridad de red. * Experiencia en el uso de herramientas de programación asistida por IA, como GitHub Copilot, ChatGPT y Claude. * Conocimiento de enfoques híbridos (nube y local) para la programación y la optimización de recursos.


