




Resumen: Buscamos un Ingeniero Cloud Senior para poseer y operar una plataforma de AWS, construyendo infraestructura estandarizada, automatización, observabilidad y escalado para cargas de trabajo HPC. Aspectos destacados: 1. Poseer y operar una plataforma de AWS para cargas de trabajo HPC a gran escala 2. Construir infraestructura estandarizada, automatización y observabilidad 3. Liderar la propiedad técnica e impulsar estándares entre equipos Buscamos un **Ingeniero Cloud Senior** que posea y opere una plataforma de AWS que permita a un equipo HPC ejecutar cargas de trabajo de forma fiable a gran escala. Construirá infraestructura estandarizada, automatización, observabilidad y escalado en entornos de AWS multi-cuenta y Kubernetes; postúlese para ayudar a entregar fundamentos cloud robustos. **Responsabilidades** * Gestionar el entorno y las operaciones de la plataforma de AWS que soportan cargas de trabajo HPC a gran escala * Provisionar y gestionar cuentas de AWS mediante herramientas internas de autoservicio y patrones estandarizados * Crear y mantener código Terraform para provisionar recursos de AWS y clústeres orientados a HPC * Diseñar y operar canalizaciones centralizadas de CI/CD para gestionar todas las cuentas y clústeres desde un único repositorio * Migrar las cuentas restantes de AWS al repositorio central y estandarizar los patrones de infraestructura * Operar y dar soporte a un registro de contenedores dentro del clúster (Harbor) y a componentes relacionados de la plataforma * Implementar y completar el despliegue de observabilidad en todo el entorno de AWS, incluidas métricas, registros, paneles de control y alertas * Dar soporte a las operaciones de clústeres de Kubernetes y solucionar problemas de la plataforma que afecten a las cargas de trabajo HPC * Ser responsable de Cast AI y mejorarlo como mecanismo principal para el escalado y la optimización de clústeres * Diseñar y dar soporte a soluciones de transferencia de datos y redes entre nubes, tales como AWS DataSync y Interconnect entre AWS y GCP * Colaborar con el equipo HPC para traducir requisitos en soluciones de plataforma implementadas * Coordinar los horarios laborales para mantener al menos 4 horas de superposición con la zona horaria de Houston y, ocasionalmente, con la de Australia **Requisitos** * 3 o más años de experiencia práctica con Amazon Web Services en entornos multi-cuenta * Experiencia en infraestructura como código con Terraform (HCL/tofu), incluidos módulos y estado * Experiencia en operaciones de Kubernetes, incluida la solución de incidencias en clústeres y cargas de trabajo * Capacidad demostrada para liderar la propiedad técnica como colaborador individual de nivel senior e impulsar estándares entre equipos * Fuertes habilidades de ejecución de proyectos para transformar requisitos en soluciones, evaluar opciones y entregar resultados con mínima supervisión * Conocimientos avanzados de programación en Python para automatización, herramientas e integraciones * Fuertes habilidades de scripting en Bash para automatización operativa * Conocimientos sólidos de flujos de trabajo de CI/CD y GitOps utilizando herramientas como GitLab CI o GitHub Actions * Fuertes habilidades en observabilidad en métricas, registros, paneles de control y alertas mediante Prometheus y Grafana * Experiencia en escalado de clústeres y optimización de costos mediante Cast AI u otras herramientas similares * Capacidad para utilizar herramientas asistidas por IA para generación de código, depuración y documentación en el trabajo diario * Dominio del inglés de nivel intermedio-alto (CEFR B2) **Deseable** * Experiencia con Google Cloud Platform, especialmente en integraciones entre nubes con AWS * Experiencia en computación de alto rendimiento (HPC) con planificadores o canalizaciones intensivas en datos


