




Resumen: Buscamos un Ingeniero DevOps Intermedio para gestionar y perfeccionar plataformas confiables de Kubernetes y Linux para computación de IA e investigación, centrándose en la orquestación y automatización de GPU. Aspectos destacados: 1. Ejecutar plataformas confiables de Kubernetes y Linux para computación de IA e investigación 2. Automatizar y perfeccionar la orquestación de GPU con Kubernetes y Volcano 3. Colaborar directamente con los clientes para ofrecer computación escalable y eficiente Estamos ampliando nuestro equipo de entrega con un Ingeniero DevOps Intermedio para ejecutar plataformas confiables de Kubernetes y Linux para computación de IA e investigación. Usted automatizará y perfeccionará la orquestación de GPU con Kubernetes y Volcano, utilizando Python y Shell, mientras colabora directamente con los clientes. ¡Postúlese ahora para ayudar a entregar entornos de computación escalables y eficientes! **Responsabilidades** * Implementar y ejecutar clústeres de Kubernetes habilitados para GPU y entornos de computación Linux independientes para mantener una programación y un rendimiento eficientes * Implementar y dar soporte a la programación de trabajos con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas de espacio de nombres * Administrar plataformas de Kubernetes de extremo a extremo, incluidos espacios de nombres, RBAC, cuotas de recursos y prácticas de aislamiento de cargas de trabajo * Crear y mantener automatizaciones en Python y Shell para agilizar la presentación de trabajos, el aprovisionamiento de recursos y los informes del sistema * Colaborar con los equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de la capacidad y los flujos de trabajo de los investigadores * Supervisar la salud de la plataforma y el uso de los recursos, proporcionando datos y retroalimentación para satisfacer las necesidades de optimización e informes * Proponer mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para incrementar el rendimiento, la escalabilidad y la usabilidad * Garantizar que las operaciones ofrezcan una experiencia fluida y eficaz a los investigadores que ejecutan diversas cargas de trabajo de IA y computación **Requisitos** * Experiencia práctica de 2+ años en puestos de DevOps o ingeniería de infraestructura que respalden entornos complejos y de gran escala * Conocimientos expertos en administración y orquestación de Kubernetes, incluidos espacios de nombres, programación/distribución de POD, PVC, NFS y gestión de cuotas de recursos * Experiencia práctica con el planificador Volcano para la ejecución de trabajos en GPU, configuración de colas, priorización de cargas de trabajo e integración con Kubernetes * Trayectoria comprobada gestionando entornos de clústeres de GPU en Kubernetes y en nodos de computación Linux independientes * Habilidades avanzadas de scripting en Python para automatización de infraestructura, además de competencia en scripting UNIX Shell (por ejemplo, Bash) * Capacidad sólida de administración de sistemas Linux, incluida la solución de problemas, la optimización del rendimiento y la gestión de la configuración * Comprensión sólida de los conceptos y herramientas relacionadas con la automatización y la orquestación de infraestructuras * Competencia fluida en inglés (hablado y escrito) para la interacción directa con los clientes **Deseable** * Helm para la gestión de paquetes de aplicaciones en Kubernetes * Herramientas de monitorización y observabilidad, especialmente Prometheus, Grafana y Loki * Herramientas de Infraestructura como Código (IaC), tales como Terraform * Experiencia con Kubernetes multi-nube, incluidos Amazon EKS y Google GKE * Conocimientos de redes de Azure, incluidas VPN, ExpressRoute y seguridad de red * Familiaridad con herramientas de programación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) * Experiencia con la programación y la optimización de recursos híbridos (nube + local)


