




Resumen: Únase a un equipo remoto como Ingeniero Senior de Software de Datos para desarrollar e implementar canalizaciones ETL de grado productivo utilizando Apache Spark para una empresa británico-estadounidense de análisis. Aspectos destacados: 1. Desarrollar e implementar canalizaciones ETL de grado productivo utilizando Apache Spark 2. Colaborar con equipos multifuncionales y orientar a miembros junior 3. Se requiere una sólida experiencia en programación en Python y en Apache Spark Buscamos un **Ingeniero Senior de Software de Datos** altamente calificado para unirse a nuestro equipo **remoto**, trabajando con una empresa británico-estadounidense de análisis, cotizada en bolsa, que opera una serie de servicios basados en suscripción. Como Ingeniero Senior de Software de Datos, será responsable de desarrollar e implementar canalizaciones ETL de grado productivo utilizando Apache Spark. Si le apasiona la ingeniería de software de datos y posee una gran atención al detalle, le invitamos a formar parte de nuestro equipo. **Responsabilidades** * Desarrollar e implementar canalizaciones ETL de grado productivo utilizando Apache Spark (PySpark) para manejar grandes volúmenes de datos * Contribuir al diseño, desarrollo e implementación de canalizaciones de datos escalables y fiables * Realizar análisis de datos y verificaciones de calidad de datos para garantizar la exactitud e integridad de los mismos * Crear y mantener documentación técnica para todos los procesos ETL y las canalizaciones de datos * Colaborar con equipos multifuncionales para revisar los requisitos del software y garantizar una integración perfecta con otros sistemas * Brindar orientación técnica y mentoría a los miembros junior del equipo **Requisitos** * Mínimo 3 años de experiencia en Ingeniería de Software de Datos, demostrando su experiencia en programación en Python para el manejo de datos (uso de pandas, numpy) * Sólida experiencia en Apache Spark (PySpark) para el manejo de grandes volúmenes de datos (varios cientos de GB) * Experiencia en la escritura de funciones definidas por el usuario (UDF) en Spark * Experiencia con bases de datos relacionales; se prefiere PostgreSQL/Snowflake * Conocimientos básicos de tecnologías de Big Data como HBase e Hive * Experiencia práctica con AWS Cloud, AWS Glue, Amazon EMR y Databricks * Inglés fluido, tanto hablado como escrito, a nivel intermedio-alto o superior **Deseable** * Experiencia previa con Apache Airflow es deseable * Experiencia en servicios de datos de AWS como Glue y EMR


