




Resumen: Únase a un equipo que interactúa directamente con clientes como Ingeniero DevOps intermedio para apoyar y mejorar los entornos de Kubernetes destinados a cargas de trabajo GPU, operar nodos Linux y ofrecer automatización que ayude a los investigadores a ejecutar trabajos de IA sin interrupciones. Aspectos destacados: 1. Apoyar y mejorar los entornos de Kubernetes con Volcano para cargas de trabajo GPU 2. Desarrollar automatización en Python y Bash para infraestructura a gran escala 3. Mejorar la eficiencia de la programación y simplificar los flujos de trabajo de los investigadores Estamos construyendo una infraestructura escalable de Kubernetes y Linux diseñada para cargas de trabajo GPU, programación eficiente y automatización repetible a gran escala. Como Ingeniero DevOps intermedio, usted apoyará y mejorará los entornos de Kubernetes con Volcano, operará nodos de cómputo Linux y entregará automatización en Python y Bash dentro de un equipo que interactúa directamente con clientes. Postúlese para ayudar a los investigadores a ejecutar trabajos de IA sin interrupciones en plataformas de cómputo confiables. **Responsabilidades** * Instalar, configurar y operar clústeres de Kubernetes habilitados para GPU y entornos independientes de cómputo Linux para mantener una programación y rendimiento optimizados * Configurar y administrar la programación de trabajos con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas de espacio de nombres * Gestionar Kubernetes de extremo a extremo, cubriendo espacios de nombres, RBAC, cuotas de recursos y enfoques de aislamiento de cargas de trabajo * Crear y mantener automatización en Python y Shell para agilizar el envío de trabajos, el aprovisionamiento de recursos y los informes del sistema * Colaborar con equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, aumentar la utilización de la capacidad y simplificar los flujos de trabajo de los investigadores * Supervisar la salud de la infraestructura y la utilización de recursos, proporcionando datos y comentarios para necesidades de optimización e informes * Impulsar mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para mejorar el rendimiento, la escalabilidad y la usabilidad * Apoyar los procesos operativos que garanticen una experiencia fluida y eficiente para los investigadores que ejecutan diversas cargas de trabajo de IA y computacionales **Requisitos** * Experiencia práctica de 2+ años en DevOps o ingeniería de infraestructura dentro de entornos complejos y de gran escala * Amplia experiencia en administración y orquestación de Kubernetes, incluidos espacios de nombres, programación/distribución de POD, PVC, NFS y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos GPU, configuración de colas y priorización de cargas de trabajo integrada con Kubernetes * Capacidad comprobada para operar entornos de clústeres GPU en Kubernetes, así como en nodos de cómputo Linux independientes * Habilidades avanzadas de programación en Python para automatización de infraestructura, además de competencia en scripting UNIX Shell, como Bash * Sólidas habilidades de administración de sistemas Linux, incluidas la resolución de problemas, la optimización del rendimiento y la gestión de configuraciones * Comprensión sólida de los conceptos de automatización y orquestación de infraestructura y las herramientas relacionadas * Dominio fluido del inglés (hablado y escrito) para la interacción directa con clientes **Deseable** * Conocimientos sobre la gestión de paquetes Helm para aplicaciones de Kubernetes * Familiaridad con soluciones de monitorización y observabilidad, especialmente Prometheus, Grafana y Loki * Competencias en herramientas de Infraestructura como Código (IaC), como Terraform * Experiencia en entornos de Kubernetes multi-nube, incluidos Amazon EKS y Google GKE * Conocimientos sobre redes de Azure, incluidas VPN, ExpressRoute y seguridad de red * Familiaridad con herramientas de codificación asistida por IA, como GitHub Copilot, ChatGPT y Claude * Experiencia en programación y optimización de recursos híbridos (nube y locales)


