Ingeniero de Investigación en IA - Aprendizaje por Refuerzo (100% Remoto)

Salario negociable

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Domicilio, Laureles - Estadio, Laureles, Medellín, Antioquia, Colombia

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

***Únete a Tether y da forma al futuro de las finanzas digitales*** En Tether, no solo estamos creando productos, estamos liderando una revolución financiera global. Nuestras soluciones de vanguardia permiten a las empresas —desde exchanges y billeteras hasta procesadores de pagos y cajeros automáticos— integrar sin problemas tokens respaldados por reservas en diferentes blockchains. Al aprovechar el poder de la tecnología blockchain, Tether te permite almacenar, enviar y recibir tokens digitales de forma instantánea, segura y global, todo a una fracción del costo. La transparencia es la base de todo lo que hacemos, garantizando confianza en cada transacción. ***Innova con Tether*** **Tether Finance:** Nuestra suite de productos innovadores incluye el stablecoin más confiable del mundo, **USDT**, utilizado por cientos de millones de personas en todo el mundo, junto con servicios pioneros de tokenización de activos digitales. Pero eso es solo el comienzo: **Tether Power:** Impulsando un crecimiento sostenible, nuestras soluciones energéticas optimizan el exceso de energía para minería de Bitcoin mediante prácticas ecológicas en instalaciones modernas y geográficamente diversas. **Tether Data:** Potenciando avances en IA y tecnologías punto a punto, reducimos los costos de infraestructura y mejoramos las comunicaciones globales con soluciones de vanguardia como **KEET**, nuestra aplicación principal que redefine el intercambio seguro y privado de datos. **Tether Education**: Democratizando el acceso al aprendizaje digital de alto nivel, capacitamos a las personas para prosperar en las economías digital y gig, impulsando el crecimiento y las oportunidades globales. **Tether Evolution**: En la intersección entre la tecnología y el potencial humano, estamos expandiendo los límites de lo posible, diseñando un futuro donde la innovación y las capacidades humanas se fusionen de formas poderosas e inéditas. ***¿Por qué unirte a nosotros?*** Nuestro equipo es un centro global de talento, trabajando de forma remota desde todos los rincones del mundo. Si te apasiona dejar huella en el sector fintech, esta es tu oportunidad de colaborar con algunas de las mentes más brillantes, rompiendo barreras y estableciendo nuevos estándares. Hemos crecido rápido, manteniéndonos ágiles, y asegurado nuestro lugar como líderes en la industria. Si tienes excelentes habilidades comunicativas en inglés y estás listo para contribuir en la plataforma más innovadora del planeta, Tether es el lugar indicado para ti. **¿Estás listo para ser parte del futuro?** **Acerca del puesto** Como miembro del equipo de modelos de IA, impulsarás la innovación en métodos de aprendizaje por refuerzo para modelos avanzados. Tu trabajo optimizará la toma de decisiones y el comportamiento adaptativo para ofrecer mayor inteligencia, mejor rendimiento y capacidades específicas por dominio ante desafíos del mundo real. Trabajarás en un amplio espectro de sistemas, incluyendo modelos eficientes en recursos diseñados para entornos con hardware limitado y arquitecturas multimodales complejas que integran datos como texto, imágenes y audio. Esperamos que tengas experiencia profunda en el diseño de sistemas de aprendizaje por refuerzo y una sólida formación en arquitecturas avanzadas de modelos. Adoptarás un enfoque práctico y basado en investigación para desarrollar, probar e implementar nuevos algoritmos de aprendizaje por refuerzo y marcos de entrenamiento. Tus responsabilidades incluirán curar entornos de simulación especializados y conjuntos de datos de entrenamiento, fortalecer el rendimiento de políticas básicas e identificar y resolver cuellos de botella en el proceso de aprendizaje por refuerzo. El objetivo final es desbloquear un rendimiento superior y adaptado por dominio de la IA, y ampliar los límites de lo que estos modelos pueden lograr en entornos dinámicos y reales. **Responsabilidades** * Desarrollar e implementar algoritmos de aprendizaje por refuerzo de última generación diseñados para optimizar los procesos de toma de decisiones tanto en entornos simulados como del mundo real. Establecer objetivos claros de rendimiento, como maximización de recompensas y estabilidad de políticas. * Crear, ejecutar y monitorear experimentos controlados de aprendizaje por refuerzo. Seguir indicadores clave de rendimiento mientras documentas resultados iterativos y comparas resultados con puntos de referencia establecidos. * Identificar y curar entornos de simulación y conjuntos de datos de alta calidad adaptados a desafíos específicos por dominio. Establecer criterios medibles para garantizar que la selección y preparación de estos recursos mejoren significativamente el proceso de aprendizaje y el rendimiento general del modelo. * Depurar y optimizar sistemáticamente la canalización de aprendizaje por refuerzo analizando métricas de eficiencia computacional y rendimiento de aprendizaje. Abordar problemas como ruido en la señal de recompensa, estrategias de exploración y divergencia de políticas para mejorar la convergencia y estabilidad. * Colaborar con equipos multifuncionales para integrar agentes de aprendizaje por refuerzo en sistemas de producción. Definir métricas claras de éxito, como mejoras de rendimiento en el mundo real y robustez bajo condiciones variables, y garantizar el monitoreo continuo y refinamientos iterativos para mantener la adaptación por dominio. * Título universitario en Ciencias de la Computación o campo relacionado. Idealmente doctorado en PLN, Aprendizaje Automático o campo afín, complementado con un historial sólido en I+D de IA (con buenas publicaciones en conferencias A\*). * Experiencia demostrada en experimentos de aprendizaje por refuerzo a gran escala, incluyendo técnicas de RL en línea como Group Relative Policy Optimization (GRPO), es esencial. Tus contribuciones deben haber generado mejoras medibles en la toma de decisiones específica por dominio y en el rendimiento general de las políticas. * Se requiere un conocimiento profundo de algoritmos de aprendizaje por refuerzo, incluyendo métodos modernos de RL en línea y otros enfoques de optimización basados en gradientes como gradientes de política, actor-crítico y GRPO. Tu experiencia debe enfatizar la mejora de la estabilidad de políticas, la exploración y la eficiencia muestral en entornos complejos y dinámicos. * Es imprescindible una fuerte experiencia en PyTorch y frameworks relevantes de aprendizaje por refuerzo. Se espera experiencia práctica en el desarrollo de canalizaciones de RL, desde simulación y entrenamiento en línea hasta evaluación posterior al entrenamiento e implementación de soluciones basadas en RL en entornos de producción. * Demostrar capacidad para aplicar investigación empírica y superar desafíos del aprendizaje por refuerzo como ineficiencia muestral, equilibrio entre exploración y explotación, e inestabilidad en el entrenamiento. Debes ser competente en diseñar marcos de evaluación robustos e iterar sobre innovaciones algorítmicas para seguir ampliando los límites del rendimiento de los agentes de RL. **Información importante para candidatos** Los fraudes de reclutamiento se han vuelto cada vez más comunes. Para protegerte, ten en cuenta lo siguiente al postularte para puestos: * **Postúlate únicamente a través de nuestros canales oficiales.** No utilizamos plataformas ni agencias externas para contratación, salvo que se indique claramente. Todos los puestos disponibles están listados en nuestra página oficial de carreras: https://tether.recruitee.com/ * **Verifica la identidad del reclutador.** Todos nuestros reclutadores tienen perfiles verificados en LinkedIn. Si tienes dudas, puedes confirmar su identidad revisando su perfil o contactándonos a través de nuestro sitio web. * **Ten cuidado con métodos de comunicación inusuales.** No realizamos entrevistas por WhatsApp, Telegram o SMS. Toda la comunicación se realiza mediante correos electrónicos oficiales de la empresa y plataformas designadas. * **Verifica detenidamente las direcciones de correo.** Toda comunicación de nuestra parte provendrá de correos que terminen en **@**tether.to **o @**tether.io * **Nunca solicitaremos pagos ni detalles financieros.** Si alguien solicita información financiera personal o un pago en cualquier etapa del proceso de contratación, es un fraude. Por favor, repórtalo inmediatamente. **Si tienes dudas, no dudes en contactarnos a través de nuestro sitio web oficial.**

Fuentea: indeed Ver publicación original