Ingeniero C++ Runtime de IA (Bogotá, Colombia)

Salario negociable

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

111411, Los Mártires, Bogotá, Colombia

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

### **Sobre nosotros** Somos una startup en modo **sigilo** desarrollando infraestructura de nueva generación para la industria de la IA. Nuestro equipo cuenta con décadas de experiencia en software, sistemas y tecnologías profundas. Estamos trabajando en un nuevo tipo de runtime de IA que amplía los límites de rendimiento y flexibilidad, haciendo que los modelos avanzados sean portátiles, eficientes y personalizables para su implementación en el mundo real. Si deseas formar parte de un equipo pequeño y dinámico que está moldeando el **futuro de los sistemas de IA aplicada**, esta es tu oportunidad. ### **El puesto** Buscamos a un **ingeniero C\+\+** con sólida experiencia en sistemas y programación de GPU para ayudarnos a extender y optimizar un runtime de inferencia de IA de código abierto. Trabajarás en los componentes internos de bajo nivel para la ejecución de modelos de lenguaje grandes, centrándote en: * Integración dinámica de adaptadores (por ejemplo, LoRA/QLoRA) * Mecanismos de actualización incremental del modelo * Almacenamiento en caché y planificación de inferencia multi-sesión * Mejoras de rendimiento en GPU (Núcleos Tensoriales, CUDA/ROCm) Este es un puesto **práctico**: diseñarás, codificarás, realizarás perfiles y iterarás sobre código de inferencia de alto rendimiento que se ejecuta directamente en CPUs y GPUs. ### **Responsabilidades** * Implementar soporte para **carga dinámica de adaptadores en tiempo de ejecución (LoRA)**, permitiendo personalizar modelos sobre la marcha sin necesidad de reentrenarlos ni fusionar modelos. * Diseñar e implementar mecanismos para **deltas incrementales del modelo**, permitiendo extender y actualizar modelos de forma eficiente. * Extender el runtime para manejar **ejecución multi-sesión**, con estrategias de aislamiento y caché para usuarios concurrentes. * Optimizar núcleos matemáticos básicos y estructuras de memoria para mejorar el rendimiento de inferencia en **backends de CPU y GPU**. * Colaborar con ingenieros de backend e infraestructura para integrar tu trabajo en APIs y capas de orquestación. * Escribir pruebas de referencia, pruebas unitarias y herramientas de perfilado para garantizar la corrección y medir las mejoras de rendimiento. * Participar en discusiones sobre arquitectura del sistema y ayudar a definir la hoja de ruta para futuras funciones del runtime. ### **Requisitos** * Dominio sólido de **C\+\+ moderno (C\+\+14/17/20\)** y programación de sistemas. * Comprensión sólida de **optimización de bajo nivel**: gestión de memoria, multihilo, SIMD, eficiencia de caché. * Experiencia con programación de GPU **CUDA** y/o **ROCm/HIP**. * Conocimiento de **núcleos de álgebra lineal** (multiplicación de matrices, atención) y cómo se mapean a aceleración por hardware (Núcleos Tensoriales, bibliotecas BLAS, etc.). * Experiencia con **frameworks de inferencia de aprendizaje automático** (por ejemplo, llama.cpp, TensorRT, ONNX Runtime, TVM, componentes internos de PyTorch) es un plus. * Comodidad trabajando en entornos **Unix/Linux**; experiencia con sistemas de compilación (CMake, Bazel) y pipelines de CI. * Habilidades sólidas para resolución de problemas y depuración; capacidad para profundizar tanto en código como en trazas de rendimiento. * Autonomía y capacidad para prosperar en un entorno de **startup dinámico**. ### **Deseable** * Experiencia implementando **LoRA o ajuste fino basado en adaptadores** en runtimes de inferencia. * Conocimiento de **métodos de cuantización** y despliegue eficiente de modelos cuantizados. * Antecedentes en sistemas distribuidos o orquestación multi-GPU. * Contribuciones a **proyectos de código abierto en sistemas de IA/ML**. ### **Por qué unirse** * Construir propiedad intelectual clave en la intersección entre **IA e ingeniería de sistemas**. * Trabajar con un equipo fundador altamente técnico en problemas que son intelectualmente desafiantes y con impacto comercial. * Oportunidad de dar forma al rumbo de una nueva plataforma de IA desde cero. * Compensación competitiva (contrato o tiempo completo), posibilidad de participación accionaria y trabajo remoto flexible. Por favor, usa este enlace para postularte a este empleo: https://www.baasi.com/career/apply/3164017

Fuentea: indeed Ver publicación original