




Resumen: Este puesto implica diseñar, construir y mantener canalizaciones de datos y procesos ETL mediante Databricks y Apache Spark, optimizar flujos de trabajo de datos y garantizar la calidad y gobernanza de los datos. Aspectos destacados: 1. Diseñar y construir canalizaciones de datos y procesos ETL utilizando Databricks y Spark. 2. Optimizar flujos de trabajo de datos para rendimiento, escalabilidad y eficiencia de costos. 3. Colaborar con científicos de datos para análisis avanzados y cargas de trabajo de aprendizaje automático. Elegir Capgemini significa elegir una empresa donde podrás forjar tu carrera tal como desees, donde recibirás apoyo e inspiración de una comunidad colaborativa de colegas de todo el mundo, y donde podrás reimaginar lo que es posible. Únete a nosotros y ayuda a las principales organizaciones mundiales a desbloquear el valor de la tecnología y construir un mundo más sostenible e inclusivo. **Descripción del puesto** ------------------- **Tu función:** * Diseñar, construir y mantener canalizaciones de datos y procesos ETL utilizando Databricks y Apache Spark. * Optimizar flujos de trabajo de datos para rendimiento, escalabilidad y eficiencia de costos. * Implementar arquitectura Lakehouse y gestionar la ingesta de datos desde múltiples fuentes. * Colaborar con científicos de datos y analistas para habilitar análisis avanzados y cargas de trabajo de aprendizaje automático. * Garantizar la calidad, gobernanza y seguridad de todos los activos de datos. * Supervisar y solucionar problemas de clústeres, trabajos y flujos de trabajo de Databricks. * Integrar Databricks con servicios en la nube (AWS, Azure o GCP) y otros sistemas empresariales. * Documentar procesos, estándares y mejores prácticas para ingeniería de datos. **Tu perfil:** * Experiencia práctica con Databricks, Apache Spark y PySpark. * Conocimientos sólidos de SQL, Python y principios de modelado de datos. * Experiencia con plataformas en la nube (AWS, Azure o GCP) y sus servicios de datos. * Familiaridad con Delta Lake, arquitectura Lakehouse y gobernanza de datos. * Comprensión de pipelines CI/CD y prácticas DevOps para flujos de trabajo de datos. **\#LI\-DC10** **\#LI\-Remote** Capgemini es un socio global de transformación empresarial y tecnológica impulsado por inteligencia artificial, que genera valor empresarial tangible. Imaginamos el futuro de las organizaciones y lo hacemos realidad con IA, tecnología y personas. Con una sólida trayectoria de casi 60 años, somos un grupo responsable y diverso de 420.000 miembros del equipo en más de 50 países. Ofrecemos servicios y soluciones de extremo a extremo con nuestra profunda experiencia sectorial y un sólido ecosistema de socios, aprovechando nuestras capacidades en estrategia, tecnología, diseño, ingeniería y operaciones empresariales. El Grupo registró ingresos globales de 2024 por 22,1 mil millones de euros. Hazlo realidad \| www.capgemini.com


