




Resumen: Este puesto implica diseñar, construir y mantener tuberías de datos y procesos ETL utilizando Databricks y Apache Spark, optimizando los flujos de trabajo para lograr un rendimiento y escalabilidad óptimos. Aspectos destacados: 1. Diseñar y optimizar tuberías de datos utilizando Databricks y Apache Spark 2. Colaborar en cargas de trabajo avanzadas de análisis y aprendizaje automático 3. Garantizar la calidad, gobernanza y seguridad de los datos Elegir a Capgemini significa elegir una empresa donde tendrás la libertad de moldear tu carrera tal como deseas, donde contarás con el apoyo e inspiración de una comunidad colaborativa de colegas de todo el mundo, y donde podrás reimaginar lo que es posible. Únete a nosotros y ayuda a las principales organizaciones mundiales a desbloquear el valor de la tecnología y construir un mundo más sostenible e inclusivo. **Descripción del puesto** ------------------- **Tu función:** * Diseñar, construir y mantener tuberías de datos y procesos ETL utilizando Databricks y Apache Spark. * Optimizar los flujos de trabajo de datos para lograr un rendimiento, escalabilidad y eficiencia de costos óptimos. * Implementar arquitecturas de Lakehouse y gestionar la ingesta de datos desde múltiples fuentes. * Colaborar con científicos de datos y analistas para habilitar cargas de trabajo avanzadas de análisis y aprendizaje automático. * Garantizar la calidad, gobernanza y seguridad de todos los activos de datos. * Supervisar y solucionar problemas relacionados con clústeres, trabajos y flujos de trabajo de Databricks. * Integrar Databricks con servicios en la nube (AWS, Azure o GCP) y otros sistemas empresariales. * Documentar procesos, estándares y mejores prácticas de ingeniería de datos. **Tu perfil:** * Experiencia práctica con Databricks, Apache Spark y PySpark. * Conocimientos sólidos de SQL, Python y principios de modelado de datos. * Experiencia con plataformas en la nube (AWS, Azure o GCP) y sus servicios de datos. * Conocimiento de Delta Lake, arquitectura Lakehouse y gobernanza de datos. * Comprensión de pipelines CI/CD y prácticas DevOps aplicadas a flujos de trabajo de datos. **\#LI\-DC10** **\#LI\-Remote** Capgemini es un socio global de transformación empresarial y tecnológica impulsado por inteligencia artificial, que genera valor comercial tangible. Imaginamos el futuro de las organizaciones y lo hacemos realidad mediante la inteligencia artificial, la tecnología y las personas. Con una sólida trayectoria de casi 60 años, somos un grupo responsable y diverso compuesto por 420 000 miembros del equipo en más de 50 países. Ofrecemos servicios y soluciones de extremo a extremo con nuestra profunda experiencia sectorial y un sólido ecosistema de socios, aprovechando nuestras capacidades en estrategia, tecnología, diseño, ingeniería y operaciones empresariales. El Grupo registró ingresos globales de 2024 por 22,1 mil millones de euros. Hazlo realidad \| www.capgemini.com


