




Resumen: Buscamos un experimentado Ingeniero Líder de Datos con dominio avanzado de PySpark para construir canalizaciones ETL y arquitecturas de data lake en AWS, integrando datos procedentes de diversas fuentes empresariales. Aspectos destacados: 1. Liderar iniciativas de ingeniería de datos en proyectos a gran escala en AWS 2. Utilizar PySpark, AWS Glue y Airflow para crear canalizaciones de datos robustas 3. Integrar fuentes complejas de datos empresariales como SAP y OSI PI Buscamos un experimentado **Ingeniero Líder de Datos** con experiencia avanzada en PySpark y práctica directa en la construcción de canalizaciones ETL, arquitecturas de data lake e integración de flujos de datos en AWS. Usted gestionará tanto datos estructurados como no estructurados, ingiriendo información desde una variedad de fuentes locales y empresariales, tales como SAP, Intelex, bases de datos SQL y OSI PI, hacia entornos AWS. Este puesto ofrece la oportunidad de trabajar en proyectos de datos a gran escala y colaborar con equipos diversos en un entorno dinámico y acelerado. **Responsabilidades** * Crear, perfeccionar y gestionar canalizaciones ETL mediante PySpark y trabajos de AWS Glue para procesar extensos conjuntos de datos estructurados y no estructurados * Coordinar flujos de trabajo de datos con Apache Airflow, garantizando una programación confiable, gestión adecuada de dependencias y manejo eficaz de errores * Desarrollar y mantener flujos de datos desde sistemas locales y empresariales hacia entornos de data lake en AWS * Integrar con fuentes empresariales, incluidas SAP para datos ERP y operativos, Intelex para datos ambientales, de salud, seguridad y calidad, bases de datos SQL para datos relacionales y OSI PI para datos industriales y de historiadores de procesos en tiempo real * Construir y supervisar interacciones mediante API para recuperar datos desde servicios locales hacia AWS * Gestionar la extracción, transformación y carga de datos en múltiples formatos y protocolos * Apoyar el diseño y mantenimiento de arquitecturas de data lake en AWS utilizando Amazon S3, AWS Glue y Lake Formation * Asegurar que los datos estén debidamente catalogados, particionados y optimizados para análisis e informes * Aplicar controles de calidad de datos, validación y seguimiento de linaje en todas las canalizaciones **Requisitos** * Al menos 5 años de experiencia en puestos de ingeniería de datos * Un año mínimo de experiencia liderando y gestionando equipos de desarrollo * Alto nivel de competencia en Python y PySpark para procesamiento de datos y creación de canalizaciones * Sólida base en procesos ETL para integración de datos * Experiencia coordinando flujos de trabajo con Apache Airflow * Demostrada experiencia en la construcción de canalizaciones de datos productivas en AWS * Experiencia práctica con trabajos de AWS Glue para operaciones ETL * Conocimientos prácticos de Amazon S3, metodologías de data lake y prácticas de catalogación de datos * Experiencia con herramientas nativas de AWS para monitoreo y operaciones * Capacidad comprobada para integrar sistemas empresariales mediante API, JDBC o conectores nativos, incluidos SAP, Intelex, bases de datos SQL y OSI PI * Capacidad para trabajar con formatos de datos estructurados y no estructurados * Excelentes habilidades en documentación, comunicación y colaboración * Dominio del inglés al nivel B2+ o superior, tanto escrito como hablado **Deseable** * Experiencia trabajando en entornos de datos energéticos, del petróleo y gas o industriales * Conocimientos sobre flujos de datos y terminología relacionados con perforación y terminación


