ML Ops Engineer HF
Courbevoie - France
Job Summary
Mission principale
Garantir que les solutions dIA produites par Brain soient déployées exploitées et supervisées de manière fiable performante et reproductible en cohérence avec les standards de la DSI et les exigences métier.
Industrialisation des APIs Brain :
Concevoir maintenir et faire évoluer les chaînes CI/CD (Azure DevOps) pour les APIs développées par Brain (.NET sur Linux notamment).
Packager les applications via Helm gérer les charts les valeurs par environnement (dev / staging / prod) et les hooks de déploiement.
Définir les bonnes pratiques de configuration Kubernetes : requests / limits sondes liveness / readiness autoscaling gestion des secrets observabilité.
Diagnostiquer et résoudre les incidents de plateforme (OOMKilled hooks Helm en échec problèmes RBAC certificats etc.) en collaboration avec la DSI.
Déploiement et exploitation des LLMs
Mettre en place les pipelines de déploiement de modèles (LLMs auto-hébergés ou via API externes) : versionning gestion du cycle de vie rollback A/B testing.
Optimiser linférence : choix du runtime (vLLM TGI Triton ONNX Runtime ou équivalent) gestion GPU / CPU mise en cache batching quantification.
Intégrer les briques décosystème LLM (vector stores orchestrateurs type LangChain / Semantic Kernel passerelles type LiteLLM) dans des architectures industrielles.
Mettre en place le monitoring spécifique aux LLMs : latence coûts par requête qualité des réponses dérive télémétrie applicative.
Interface avec la DSI groupe :
Être linterlocuteurrice technique privilégiée entre Brain et la DSI sur les sujets infrastructure sécurité conformité et déploiement.
Aligner les pratiques de Brain avec les standards groupe (gestion des clusters Kubernetes politiques RBAC gestion des secrets conformité réseau).
Co-construire les processus de mise en production : revues darchitecture critères de Go Live gestion des changements astreintes éventuelles.
Documenter et transmettre la connaissance : runbooks schémas darchitecture post-mortems.
Observabilité fiabilité et sécurité :
Mettre en place et faire vivre la stack dobservabilité (logs métriques traces) pour les APIs et les modèles.
Définir et suivre les indicateurs SRE pertinents (SLO SLI error budgets) sur les services Brain.
Intégrer la sécurité dès la conception : gestion des secrets scans de vulnérabilités signature dimages supply chain.
Optimiser les coûts dinfrastructure et dinférence (FinOps appliqué à lIA).
Stack Technique :
- Frameworks ML/DL : PyTorch et/ou TensorFlow scikit-learn ; compréhension du cycle entraînement checkpoint export (ONNX SafeTensors).
- Serving de modèles : Triton Inference Server TorchServe BentoML KServe/Seldon Core sur Kubernetes. Expérience sur clusters on-premise appréciée.
- CI/CD : Azure DevOps (pipelines YAML) GitOps (ArgoCD ou Flux) pratiques de déploiement progressif.
- Conteneurisation : Docker optimisation dimages multi-stage builds sécurité.
- Infrastructure as Code : Terraform Ansible ou équivalent.
- Observabilité : Prometheus Grafana OpenTelemetry ELK ou stack équivalente.
Qualifications :
Nous recherchons un profil doté dun excellent sens du dialogue et de la pédagogie capable de traduire de manière claire les contraintes liées à lintelligence artificielle auprès des équipes IT.
La personne devra faire preuve de pragmatisme avec une capacité à aller à lessentiel livrer rapidement des résultats et adopter une démarche damélioration continue par itérations.
Une curiosité technique est également indispensable notamment concernant les évolutions rapides de lécosystème des modèles de langage (LLM) et des technologies associées.
Le poste requiert par ailleurs une grande autonomie ainsi quune bonne capacité à prioriser dans un environnement en construction et en évolution constante.
Informations supplémentaires :
Rejoindre Septeo cest aussi :
- Grandir et sépanouir grâce à un parcours de formation personnalisé des opportunités de mobilité interne et la possibilité de sauto-former via notre plateforme Udemy
- Vivre une aventure humaine échanger et partager autour dévènements thématisés (afterworks sport RSE séminaires etc.)
- Rejoindre un collectif qui prend soin des autres et sengage en faveur de légalité des chances la diversité et linclusion
Vous faites quoi lundi
Remote Work :
No
Employment Type :
Full-time
About Company
Septeo, éditeur de logiciels de référence en Europe, est un groupe qui grandit vite. Qui se transforme. En 10 ans, nous sommes devenus un des leaders européens de la tech, une référence dans l’édition de logiciels. Cette évolution, c’est le fruit d’un collectif. Le résultat d’un trava ... View more