




Resumen: Buscamos un Ingeniero DevOps intermedio para mejorar la fiabilidad de Kubernetes y Linux en plataformas de computación de IA, centrándonos en la orquestación de cargas de trabajo GPU y la automatización para apoyar una computación GPU escalable. Aspectos destacados: 1. Fortalecer la fiabilidad de Kubernetes y Linux para plataformas de computación de IA 2. Mejorar la orquestación de cargas de trabajo GPU con Kubernetes y Volcano 3. Automatizar operaciones con Python y UNIX Shell Estamos incorporando a un Ingeniero DevOps intermedio para fortalecer la fiabilidad de Kubernetes y Linux en plataformas de computación de IA e investigación. Usted mejorará la orquestación de cargas de trabajo GPU con Kubernetes y Volcano, gestionará la programación y las cuotas, y automatizará operaciones con Python y UNIX Shell mientras trabaja con clientes. Postúlese para ayudar a los equipos a ejecutar una computación GPU escalable sin interrupciones. **Responsabilidades** * Mantener clústeres de Kubernetes habilitados para GPU y entornos de cómputo Linux independientes para garantizar una programación eficiente y un rendimiento sólido * Configurar y solucionar problemas de programación de trabajos con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas de espacio de nombres * Supervisar la administración de Kubernetes en toda la pila, incluidos espacios de nombres, RBAC, cuotas de recursos y enfoques de aislamiento de cargas de trabajo * Desarrollar y mantener automatizaciones en Python y Shell para simplificar el envío de trabajos, el aprovisionamiento de recursos y los informes del sistema * Colaborar con equipos de orquestación, optimización y observabilidad para incrementar la eficiencia de la programación, la utilización de la capacidad y los flujos de trabajo de los investigadores * Supervisar la salud de la plataforma y el uso de los recursos, proporcionando datos y retroalimentación para satisfacer las necesidades de optimización e informes * Identificar y recomendar mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para mejorar el rendimiento, la escalabilidad y la usabilidad * Garantizar el funcionamiento fluido de las operaciones diarias para los investigadores que ejecutan diversas cargas de trabajo de IA y computacionales **Requisitos** * Experiencia práctica de 2+ años en roles de DevOps o ingeniería de infraestructura que respalden entornos complejos y de gran escala * Conocimientos expertos en administración y orquestación de Kubernetes, incluidos espacios de nombres, programación/distribución de POD, PVC, NFS y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos GPU, configuración de colas, priorización de cargas de trabajo e integración con Kubernetes * Trayectoria comprobada gestionando entornos de clústeres GPU en Kubernetes y en nodos de cómputo Linux independientes * Habilidades avanzadas de creación de scripts en Python para automatización de infraestructura, además de dominio de la creación de scripts en UNIX Shell (por ejemplo, Bash) * Capacidad sólida de administración de sistemas Linux, incluida la solución de problemas, la optimización del rendimiento y la gestión de la configuración * Comprensión sólida de los conceptos de automatización y orquestación de infraestructura y las herramientas relacionadas * Competencia fluida en inglés (hablado y escrito) para la interacción directa con clientes **Deseable** * Helm para la gestión de paquetes de aplicaciones en Kubernetes * Herramientas de monitoreo y observabilidad, especialmente Prometheus, Grafana y Loki * Herramientas de Infraestructura como Código (IaC), como Terraform * Experiencia con Kubernetes multi-nube, incluidos Amazon EKS y Google GKE * Conocimientos de redes de Azure, incluidas VPN, ExpressRoute y seguridad de red * Familiaridad con herramientas de programación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) * Experiencia con la programación y la optimización de recursos híbridos (nube + local)


