This is a remote position.
En Layer7 se está construyendo tecnología de hiperescala e inteligencia artificial confiable con el propósito de impulsar sistemas que impactan a millones de usuarios y a las operaciones críticas de grandes empresas.
El equipo formado por más de 100 profesionales entre ingenieros científicos y expertos en QA trabaja en desafíos de alta complejidad técnica desde sistemas distribuidos y resilientes hasta modelos de lenguaje avanzados listos para producción.
La cultura de Layer7 combina alto rendimiento innovación y curiosidad técnica fomentando el crecimiento personal y profesional dentro de un entorno colaborativo y equilibrado.
Únete a nuestro equipo!
Queremos que formes parte de nuestro talentoso equipo de profesionales!
Aprovecha esta oportunidad para desarrollar tus habilidades y crecer profesionalmente en un ambiente dinámico y colaborativo.
Como AI QA Engineer tu misión será diseñar ejecutar y documentar pruebas de calidad y seguridad para modelos de lenguaje a gran escala. Trabajarás en conjunto con equipos de ingeniería producto y ciencia de datos asegurando que cada modelo cumpla con estándares rigurosos de precisión coherencia y cumplimiento.
Tus principales responsabilidades incluirán:
Diseñar y ejecutar planes de prueba para evaluar razonamiento factualidad consistencia y robustez de prompts.
Identificar y documentar alucinaciones errores lógicos bias y fallas de grounding o jailbreak.
Evaluar la fidelidad de la recuperación (RAG) el uso correcto de herramientas y la estabilidad en tareas complejas.
Definir y mantener rúbricas de evaluación criterios de aprobación y reportes reproducibles de errores.
Colaborar en estrategias de red-teaming y pruebas adversariales para mejorar la seguridad de los modelos.
Automatizar flujos de validación y métricas (precisión recall faithfulness toxicidad latencia) usando Python/SQL.
Proponer mejoras a prompts sistemas de guardrails y procesos de evaluación continua.
Oportunidades de Desarrollo:
Trabajar con tecnologías de vanguardia en evaluación de LLMs (OpenAI Evals W&B RAG evaluators).
Desarrollar frameworks de QA para sistemas generativos de nivel empresarial.
Participar en pruebas multilingües y de cumplimiento normativo (compliance & safety).
Colaborar con equipos internacionales y contribuir directamente a la confiabilidad de modelos desplegados globalmente.
Ambiente de Trabajo
Formarás parte de un equipo especializado en evaluación de IA generativa y aseguramiento de calidad con alta autonomía técnica y enfoque ético. Promovemos un entorno donde la comunicación clara el pensamiento crítico y la curiosidad técnica son fundamentales.
LLMS ML/IA OpenAI Evals W&B RAG evaluators). PyTest SQL). LangChain ML Flow Data Sience