




Resumen: Buscamos un/a Ingeniero/a de Pruebas de Calidad (QA) (nivel intermedio o senior) que asuma la responsabilidad de la calidad en sistemas impulsados por IA y sus integraciones, centrándose especialmente en la verificación de funciones basadas en modelos de lenguaje grande (LLM) y sistemas no deterministas. Aspectos destacados: 1. Gestionar de extremo a extremo las pruebas de calidad (QA) para agentes de IA, tuberías de prompts e integraciones. 2. Diseñar estrategias de prueba para sistemas de IA no deterministas. 3. Trabajar en problemas genuinamente novedosos dentro del ámbito del QA para IA. ### **El puesto** Buscamos un/a Ingeniero/a de Pruebas de Calidad (QA) (nivel intermedio o senior) capaz de asumir la responsabilidad integral de la calidad en sistemas impulsados por IA y las integraciones asociadas. Este no es un rol tradicional de QA para aplicaciones. Pondrá a prueba funciones impulsadas por LLM, tuberías de prompts, flujos de trabajo de agentes, integraciones con MCP y tuberías de entrega basadas en GitHub que los sustentan. Trabajará directamente dentro de nuestros repositorios (incluidos degen-engine y skeleton), colaborará con ingenieros que utilizan Claude Code y Gemini Code Assist, y contribuirá a definir cómo verificamos sistemas no deterministas. Si la pregunta «¿cómo se realiza QA sobre un LLM?» es algo sobre lo que ya ha comenzado a responder, siga leyendo. ### **Sus responsabilidades** * Gestionar de extremo a extremo las pruebas de calidad (QA) para Skeleton: agentes de IA, tuberías de prompts, integraciones con el servidor MCP, trabajos programados (Vercel Cron), ingesta de datos (Apify) y flujos de base de datos (Drizzle ORM). * Diseñar estrategias de prueba para sistemas no deterministas: entornos de evaluación, conjuntos de datos de referencia (golden datasets), suites de regresión para prompts, puntuación de la calidad de las salidas, detección de alucinaciones y desviaciones (drift). * Escribir y mantener pruebas de integración en toda nuestra pila tecnológica (Next.js, TypeScript, pnpm, Vercel, Sentry, Jira), incluidas pruebas de contrato de API para integraciones con terceros. * Realizar pruebas directamente en GitHub: revisar solicitudes de extracción (PR), ejecutar suites de pruebas en CI/CD, validar despliegues automáticos en la rama principal (main) y verificar correcciones antes de su lanzamiento. * Colaborar con ingenieros que usan Claude Code, Gemini Code Assist y nuestro flujo general de desarrollo con IA —incluida la redacción de prompts de prueba, la validación de salidas generadas por herramientas y la realización de pruebas de estrés sobre estrategias de caché de prompts. * Construir y mantener monitoreo y observabilidad para funciones de IA en producción (Sentry, paneles personalizados de evaluación, seguimiento de costos y latencia). * Definir umbrales de calidad y criterios de lanzamiento para funciones impulsadas por IA, y colaborar con el equipo de ingeniería en la respuesta ante incidencias cuando las salidas en producción presenten desviaciones. * Diagnosticar y reproducir incidencias en sistemas integrados: cuando algo falla, usted rastreará el problema desde la notificación en Slack hasta los registros de Vercel, las trazas de Sentry, la base de datos y, finalmente, hasta el prompt original. ### **Qué buscamos** ### **Nivel intermedio (3–5 años)** * 3 o más años de experiencia en QA / SDET / Ingeniería de pruebas en software en producción. * Experiencia práctica probando funciones impulsadas por IA / LLM en producción (OpenAI, Anthropic, Gemini o similares) — evaluaciones de prompts, validación de salidas, pruebas de regresión. * Conocimientos sólidos de TypeScript / JavaScript; capacidad para leer y escribir código, no solo realizar pruebas de caja negra. * Experiencia con pilas tecnológicas web modernas: Next.js, APIs REST/GraphQL, computación sin servidor (Vercel / AWS Lambda) y al menos un ORM (Drizzle, Prisma, etc.). * Dominio de Git y flujos de trabajo en GitHub: revisión de PR, protección de ramas, tuberías CI/CD y comprobaciones de estado. * Experiencia escribiendo pruebas automatizadas con frameworks modernos (Vitest, Jest, Playwright, Cypress). * Capacidad para trabajar en repositorios junto a ingenieros y contribuir directamente con código de pruebas —no limitarse únicamente a reportar incidencias. ### **Nivel senior (5+ años)** * Todo lo mencionado para nivel intermedio, además de: experiencia profunda definiendo estrategias de QA para sistemas de IA / ML en producción. * Historial comprobado construyendo frameworks de evaluación para salidas de LLM (LLM como juez, conjuntos de datos de referencia, pruebas A/B de prompts, suites de regresión para sistemas no deterministas). * Experiencia con MCP (Model Context Protocol), uso de herramientas / llamadas a funciones, frameworks de agentes o flujos de trabajo multi-paso con LLM. * Capacidad para trabajar con pilas de observabilidad (Sentry, Datadog, paneles personalizados) y construirlas cuando no existen. * Experiencia mentorizando a ingenieros en prácticas de calidad y moldeando una cultura generalizada de pruebas dentro del equipo. * Conocimiento de técnicas como caché de prompts, selección de modelos, gestión de contexto y otras estrategias para mantener sistemas de IA rápidos y económicos en producción. ### **Deseable** * Experiencia directa con Claude (API, Claude Code, SDK de Anthropic), Gemini Code Assist u otras herramientas similares para el desarrollo con IA. * Experiencia con Apify, Playwright u otros frameworks de scraping o automatización de navegadores. * Antecedentes en pruebas de tuberías de datos, flujos ETL o sistemas analíticos. * Experiencia con automatización en Jira, aplicaciones para Slack o API de Notion. * Contribuciones a proyectos de código abierto relacionados con herramientas para IA o frameworks de pruebas. * Curiosidad por la ingeniería de prompts, el diseño de agentes o la ciencia detrás de la evaluación de modelos de lenguaje. ### **Por qué le encantará trabajar aquí** * Trabajar en problemas genuinamente novedosos: el QA para sistemas de IA está siendo inventado ahora mismo, y usted ayudará a inventarlo aquí. * Acceso directo a un pequeño equipo senior que construye desde cero tuberías de IA en producción —no se trata de un rol de mantenimiento, sino de vanguardia. * Pila tecnológica moderna, herramientas actuales y ninguna deuda técnica heredada que arrastrar.


