Apprentissage par renforcement pour une IA agentique fiable Stage HF

Courbevoie - France

Monthly Salary: Not Disclosed

Posted on: 30+ days ago

Vacancies: 1 Vacancy

Job Summary

Nous recherchons un(e) stagiaire pour participer à la mise en place dIA agentique sure et efficace pour des workflows dingénierie en contexte réglementé nucléaire. Vous appliquerez lapprentissage par renforcement (RL) associé à des garde fous solides à une évaluation rigoureuse pour permettre à un agent LLM de planifier dutiliser les outils et de vérifier les résultats sur une infrastructure cloud et sur site.

Vous travaillerez main dans la main avec notre référent technique LLM pour appliquer des méthodes de RL de pointe (optimisation des préférences (DPO/IPO) bandits RL hors ligne) à des cas dusages concrets à destination des équipes dingénierie - tout en répondant aux attentes du secteur en matière de sécurité et de conformité.

Missions principales:

Construire une boucle dagents (planning appels outils vérification) avec garde-fous.
Récompenses multi objectifs multi-objective rewards prenant en compte également latence coût..
Construire un pipeline preference/feedback RLHF/RLAIF.
Explorer différentes méthodes RL : preference optimization (DPO/IPO) bandits;
Sécuriser le pipeline: règles provenance tracking confidence human-in-the-loop approvals.
Appliquer à la réalisation dun assistant pilote agentique démontrant un gain de temps sur des cas dusage réels.

Pourquoi réaliser votre stage chez Assystem On a 3 bonnes raisons pour vous convaincre !

Travailler au sein dune équipe engagée qui ramène expertise et croissants le matin !

Découvrir pourquoi 92% de nos stagiaires apprécient lambiance et leur environnement de travail

Gagner en compétences et développer votre expertise métier en échangeant au quotidien avec les collaborateurs Assystem ainsi que le client en direct pour plus de proximité !

Qualifications :

Niveau de formation :
Étudiant en BAC5 (Master école dingénieur ou équivalent).
Un niveau BAC4 pourra être envisagé pour un(e) candidat(e) particulièrement motivé(e).

Domaine de spécialisation :
Informatique Intelligence Artificielle ou Mathématiques appliquées.

Compétences techniques :

Solide maîtrise de Python avec une expérience sur PyTorch (ou TensorFlow).
Intérêt marqué pour lapprentissage par renforcement (reward design bandits policy/preference optimization).
Intérêt pour les LLMs et les agents intelligents ; une expérience avec LangChain LangGraph ou outils similaires est un plus.
Bonne compréhension des bonnes pratiques de développement : tests reproductibilité suivi des expériences (experiment tracking).
Familiarité avec Git et Docker.

Compétences transverses :
Curiosité rigueur autonomie esprit dinitiative sens de la collaboration et anglais opérationnel.

Informations supplémentaires :

Nous nous engageons au respect de légalité de traitement entre les candidats et célébrons toutes les formes de diversité. Chez Assystem seules les compétences comptent ! Si vous souhaitez porter à la connaissance dAssystem une quelconque situation ou des besoins spécifiques nhésitez pas vous serez accompagné(e) !

Remote Work :

Employment Type :

Intern

Nous recherchons un(e) stagiaire pour participer à la mise en place dIA agentique sure et efficace pour des workflows dingénierie en contexte réglementé nucléaire. Vous appliquerez lapprentissage par renforcement (RL) associé à des garde fous solides à une évaluation rigoureuse pour permettre à un...

Missions principales:

Construire une boucle dagents (planning appels outils vérification) avec garde-fous.
Récompenses multi objectifs multi-objective rewards prenant en compte également latence coût..
Construire un pipeline preference/feedback RLHF/RLAIF.
Explorer différentes méthodes RL : preference optimization (DPO/IPO) bandits;
Sécuriser le pipeline: règles provenance tracking confidence human-in-the-loop approvals.
Appliquer à la réalisation dun assistant pilote agentique démontrant un gain de temps sur des cas dusage réels.

Pourquoi réaliser votre stage chez Assystem On a 3 bonnes raisons pour vous convaincre !

Travailler au sein dune équipe engagée qui ramène expertise et croissants le matin !

Découvrir pourquoi 92% de nos stagiaires apprécient lambiance et leur environnement de travail

Gagner en compétences et développer votre expertise métier en échangeant au quotidien avec les collaborateurs Assystem ainsi que le client en direct pour plus de proximité !

Qualifications :

Niveau de formation :
Étudiant en BAC5 (Master école dingénieur ou équivalent).
Un niveau BAC4 pourra être envisagé pour un(e) candidat(e) particulièrement motivé(e).

Domaine de spécialisation :
Informatique Intelligence Artificielle ou Mathématiques appliquées.

Compétences techniques :

Solide maîtrise de Python avec une expérience sur PyTorch (ou TensorFlow).
Intérêt marqué pour lapprentissage par renforcement (reward design bandits policy/preference optimization).
Intérêt pour les LLMs et les agents intelligents ; une expérience avec LangChain LangGraph ou outils similaires est un plus.
Bonne compréhension des bonnes pratiques de développement : tests reproductibilité suivi des expériences (experiment tracking).
Familiarité avec Git et Docker.

Compétences transverses :
Curiosité rigueur autonomie esprit dinitiative sens de la collaboration et anglais opérationnel.

Informations supplémentaires :

Remote Work :

Employment Type :

Intern

Key Skills

Engineering Support
MAC
Hydraulic
General Services
Ado
Health Education

Apply Now

About Company

ASSYSTEM

Assystem, one of the world's leading independent nuclear engineering companies, is committed to accelerating the energy transition. We see ourselves as an activist in the development of nuclear energy, convinced that it is an essential part of the fight against climate change. 7,500 ... View more

View Profile View Profile

AI AutoApply

Apply to 100+ jobs with one click