




Resumen: Este puesto implica diseñar, construir y mantener canalizaciones de datos y procesos ETL mediante Databricks y Apache Spark, optimizar flujos de trabajo de datos y garantizar la calidad y gobernanza de los datos. Aspectos destacados: 1. Diseñar y construir canalizaciones de datos con Databricks y Apache Spark 2. Optimizar flujos de trabajo de datos para rendimiento, escalabilidad y eficiencia de costos 3. Colaborar con científicos de datos para análisis avanzados y aprendizaje automático Elegir a Capgemini significa elegir una empresa en la que podrás forjar tu carrera tal como deseas, donde recibirás apoyo e inspiración de una comunidad colaborativa de colegas de todo el mundo, y donde podrás reimaginar lo que es posible. Únete a nosotros y ayuda a las principales organizaciones mundiales a desbloquear el valor de la tecnología y construir un mundo más sostenible y más inclusivo. **Descripción del puesto** ------------------- **Tu función:** * Diseñar, construir y mantener canalizaciones de datos y procesos ETL mediante Databricks y Apache Spark. * Optimizar flujos de trabajo de datos para rendimiento, escalabilidad y eficiencia de costos. * Implementar la arquitectura Lakehouse y gestionar la ingesta de datos desde múltiples fuentes. * Colaborar con científicos de datos y analistas para habilitar cargas de trabajo de análisis avanzado y aprendizaje automático. * Garantizar la calidad, gobernanza y seguridad de todos los activos de datos. * Supervisar y solucionar problemas de clústeres, trabajos y flujos de trabajo de Databricks. * Integrar Databricks con servicios en la nube (AWS, Azure o GCP) y otros sistemas empresariales. * Documentar procesos, estándares y mejores prácticas para ingeniería de datos. **Tu perfil:** * Experiencia práctica con Databricks, Apache Spark y PySpark. * Conocimientos sólidos de SQL, Python y principios de modelado de datos. * Experiencia con plataformas en la nube (AWS, Azure o GCP) y sus servicios de datos. * Familiaridad con Delta Lake, arquitectura Lakehouse y gobernanza de datos. * Comprensión de pipelines CI/CD y prácticas DevOps para flujos de trabajo de datos. **\#LI\-DC10** **\#LI\-Remote** Capgemini es un socio global de transformación empresarial y tecnológica impulsado por inteligencia artificial, que aporta valor empresarial tangible. Imaginamos el futuro de las organizaciones y lo hacemos realidad con IA, tecnología y personas. Con nuestra sólida trayectoria de casi 60 años, somos un grupo responsable y diverso de 420 000 miembros del equipo en más de 50 países. Ofrecemos servicios y soluciones integrales con nuestra profunda experiencia sectorial y un sólido ecosistema de socios, aprovechando nuestras capacidades en estrategia, tecnología, diseño, ingeniería y operaciones empresariales. El Grupo registró ingresos globales de 2024 por 22,1 mil millones de euros. Hazlo realidad \| www.capgemini.com


