




### **Sobre nosotros** Somos una startup en modo **sigilo** desarrollando infraestructura de nueva generación para la industria de la IA. Nuestro equipo cuenta con décadas de experiencia en software, sistemas y tecnologías profundas. Estamos trabajando en un nuevo tipo de runtime de IA que amplía los límites de rendimiento y flexibilidad, haciendo que los modelos avanzados sean portátiles, eficientes y personalizables para su implementación en el mundo real. Si deseas formar parte de un equipo pequeño y dinámico que está moldeando el **futuro de los sistemas de IA aplicada**, esta es tu oportunidad. ### **El puesto** Buscamos a un **ingeniero C\+\+** con sólida experiencia en sistemas y programación de GPU para ayudarnos a extender y optimizar un runtime de inferencia de IA de código abierto. Trabajarás en los componentes internos de bajo nivel para la ejecución de modelos de lenguaje grandes, centrándote en: * Integración dinámica de adaptadores (por ejemplo, LoRA/QLoRA) * Mecanismos de actualización incremental del modelo * Almacenamiento en caché y planificación de inferencia multi-sesión * Mejoras de rendimiento en GPU (Núcleos Tensoriales, CUDA/ROCm) Este es un puesto **práctico**: diseñarás, codificarás, realizarás perfiles y iterarás sobre código de inferencia de alto rendimiento que se ejecuta directamente en CPUs y GPUs. ### **Responsabilidades** * Implementar soporte para **carga dinámica de adaptadores en tiempo de ejecución (LoRA)**, permitiendo personalizar modelos sobre la marcha sin necesidad de reentrenarlos ni fusionar modelos. * Diseñar e implementar mecanismos para **deltas incrementales del modelo**, permitiendo extender y actualizar modelos de forma eficiente. * Extender el runtime para manejar **ejecución multi-sesión**, con estrategias de aislamiento y caché para usuarios concurrentes. * Optimizar núcleos matemáticos básicos y estructuras de memoria para mejorar el rendimiento de inferencia en **backends de CPU y GPU**. * Colaborar con ingenieros de backend e infraestructura para integrar tu trabajo en APIs y capas de orquestación. * Escribir pruebas de referencia, pruebas unitarias y herramientas de perfilado para garantizar la corrección y medir las mejoras de rendimiento. * Participar en discusiones sobre arquitectura del sistema y ayudar a definir la hoja de ruta para futuras funciones del runtime. ### **Requisitos** * Dominio sólido de **C\+\+ moderno (C\+\+14/17/20\)** y programación de sistemas. * Comprensión sólida de **optimización de bajo nivel**: gestión de memoria, multihilo, SIMD, eficiencia de caché. * Experiencia con programación de GPU **CUDA** y/o **ROCm/HIP**. * Conocimiento de **núcleos de álgebra lineal** (multiplicación de matrices, atención) y cómo se mapean a aceleración por hardware (Núcleos Tensoriales, bibliotecas BLAS, etc.). * Experiencia con **frameworks de inferencia de aprendizaje automático** (por ejemplo, llama.cpp, TensorRT, ONNX Runtime, TVM, componentes internos de PyTorch) es un plus. * Comodidad trabajando en entornos **Unix/Linux**; experiencia con sistemas de compilación (CMake, Bazel) y pipelines de CI. * Habilidades sólidas para resolución de problemas y depuración; capacidad para profundizar tanto en código como en trazas de rendimiento. * Autonomía y capacidad para prosperar en un entorno de **startup dinámico**. ### **Deseable** * Experiencia implementando **LoRA o ajuste fino basado en adaptadores** en runtimes de inferencia. * Conocimiento de **métodos de cuantización** y despliegue eficiente de modelos cuantizados. * Antecedentes en sistemas distribuidos o orquestación multi-GPU. * Contribuciones a **proyectos de código abierto en sistemas de IA/ML**. ### **Por qué unirse** * Construir propiedad intelectual clave en la intersección entre **IA e ingeniería de sistemas**. * Trabajar con un equipo fundador altamente técnico en problemas que son intelectualmente desafiantes y con impacto comercial. * Oportunidad de dar forma al rumbo de una nueva plataforma de IA desde cero. * Compensación competitiva (contrato o tiempo completo), posibilidad de participación accionaria y trabajo remoto flexible. Por favor, usa este enlace para postularte a este empleo: https://www.baasi.com/career/apply/3164017


