Ingeniero Senior de DevOps

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

79Q22222+22

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Buscamos un Ingeniero Senior de DevOps para gestionar la infraestructura de Kubernetes y Linux para cargas de trabajo intensivas en GPU de IA e investigación computacional, centrándose en la automatización y el rendimiento. Aspectos destacados: 1. Gestionar infraestructura de Kubernetes y Linux de alto rendimiento para cargas de trabajo de IA/GPU 2. Desarrollar automatización en Python y scripts de shell UNIX para operaciones fiables 3. Unirse a un equipo de entrega centrado en el cliente que impulsa mejoras en la infraestructura Estamos entregando infraestructura automatizada y de alto\-rendimiento de Kubernetes y Linux que soporta cargas de trabajo de IA e investigación computacional intensivas en GPU. En este puesto de Ingeniero Senior de DevOps, usted gestionará la administración de Kubernetes y la programación con Volcano, ajustará entornos Linux y desarrollará automatización en Python y scripts de shell UNIX para operaciones fiables. ¡Postúlese ahora para unirse a un equipo de entrega centrado en el cliente! **Responsabilidades** * Configurar, configurar y mantener clústeres de Kubernetes habilitados para GPU y entornos de cómputo Linux independientes, con énfasis en el rendimiento y la calidad de la programación * Operar la programación con Volcano para cargas de trabajo GPU, incluidas las colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas de espacio de nombres * Realizar actividades de administración de Kubernetes en espacios de nombres, RBAC, cuotas de recursos y estrategias de aislamiento de cargas de trabajo * Desarrollar y dar soporte a scripts en Python y Shell para automatizar la presentación de trabajos, el aprovisionamiento de recursos y los informes operativos * Colaborar con equipos de orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de la capacidad y los flujos de trabajo de los investigadores * Supervisar la salud y la utilización de la infraestructura, generando información útil para satisfacer los requisitos de optimización e informes * Impulsar mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para aumentar la escalabilidad, el rendimiento y la usabilidad * Apoyar prácticas operativas que permitan una experiencia eficiente para los investigadores que ejecutan diversas cargas de trabajo de IA y computacionales **Requisitos** * Mínimo 3 años de experiencia profesional en DevOps o ingeniería de infraestructura en plataformas complejas y de gran escala * Competencia experta en operaciones de Kubernetes, incluidos espacios de nombres, programación/distribución de POD, PVC, NFS y gestión de cuotas de recursos * Experiencia práctica utilizando Volcano para la ejecución de trabajos GPU, configuración de colas, priorización de cargas de trabajo e integración con Kubernetes * Capacidad comprobada para gestionar clústeres GPU en Kubernetes, así como en nodos de cómputo Linux independientes * Habilidad avanzada en Python para automatización y sólida competencia en scripting de shell UNIX (por ejemplo, Bash) * Fuertes habilidades en administración de Linux, incluida la resolución de problemas, ajuste de rendimiento y gestión de configuraciones * Conocimiento sólido de los principios y herramientas comunes de automatización y orquestación de infraestructura * Dominio fluido del inglés (hablado y escrito) para interacción directa con clientes **Deseable** * Experiencia con Helm para empaquetar y gestionar aplicaciones de Kubernetes * Antecedentes en observabilidad con Prometheus, Grafana y Loki * Experiencia con Terraform para Infraestructura como Código * Experiencia con Kubernetes multi-nube en Amazon EKS y Google GKE * Habilidades en redes de Azure, incluidas VPN, ExpressRoute y seguridad de red * Exposición a herramientas de codificación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) * Experiencia en programación y optimización de recursos híbridos (nube \+ local)

Fuentea: indeed Ver publicación original