drjobs Stage - Data Scientist spécialisé en apprentissage par renforcement (RL) F/H/N

Stage - Data Scientist spécialisé en apprentissage par renforcement (RL) F/H/N

Employer Active

1 Vacancy
drjobs

Job Alert

You will be updated with latest job alerts via email
Valid email field required
Send jobs
Send me jobs like this
drjobs

Job Alert

You will be updated with latest job alerts via email

Valid email field required
Send jobs
Job Location drjobs

France

Monthly Salary drjobs

Not Disclosed

drjobs

Salary Not Disclosed

Vacancy

1 Vacancy

Job Description

Le sujet du stage : Optimisation et industrialisation des agents (LLMs) en entreprise

Comment amliorer lefficacit et la performance des LLMs en utilisant lapprentissage par renforcement (RL) En sinspirant dinnovations rcentes comme celles de Kimi K2 nous explorerons diffrentes stratgies doptimisation pour crer des solutions industrialisables et adaptables.

Le Why du stage : 

Le march optimise les workflows dagents mais les vrais gains viennent de loptimisation directe via RL. Rcemment : des modles 1.5B surpassent o1-preview avec $42 de cot dentranement un modle 7B bat un modle de 671B sur des tches spcialises (Sakana AI 2025). 

Nous recherchons un profil motiv pour apprendre industrialiser ces techniques en quantifiant leur robustesse multi-domaines.

Les missions du stage :

  • Recherche et approfondissement de la littrature
  • Dvelopper et valider exprimentalement de nouveaux algorithmes doptimisation pour agents LLMs.
  • Entrainer des modles pour des mtiers spcialiss.
  • criture dun article sur la mthodologie dveloppe durant le stage.

Le droulement du stage :

tape 1 : Dcouverte et cadrage

  • Faire de la veille bibliographique.
  • Choisir les algorithmes explorer.
  • Dfinir la roadmap avec les objectifs raliser.

tape 2 : Exploration

  • Exploration des possibilits existantes de package proposant dimplmenter ce genre de solution.

tape 3 : Contribution

  • Contribution loutil OpenSource rpondant aux besoins.

tape 4 : Partage

  • Partage aux autres Octos pendant et la fin du stage rdaction dun article.

Livrable : Stack technique : Python Git


Qualifications :

OCTO Wanted

  • Vous prparez un BAC5 et vous tes la recherche dun stage de fin dtudes.
  •  Vous avez une apptence pour les sujets de Data Science et pour lexploration de ltat de lart.
  •  Vous savez expliquer comme marche un modle complexe et tes intress par le Reinforcement Learning.
  •  Vous souhaitez approfondir vos comptences en participant des sujets open-source.
  •  Vous tes curieux ambitieux et autonome.


Informations supplmentaires :

OCTO Rewards

Et parce que nous savons quun stage nest pas juste un stage on vous partage aussi quelques petits qui font notre diffrence :

  • 6 participations 6 podiums au palmars Great Place To Work le bien-tre et la progression des Octos est vraiment au cur de nos proccupations et nous venons de renouveler notre certification pour la 7e fois cette anne ! 

  • There is always a better way : nous encourageons et soutenons linnovation par la R&D. Au-del dune direction Scientifique ddie nous valorisons le temps hors mission pour partager ses connaissances : blog OCTO talks meet-up livre blanc BBL en bref de lopen source aliment par tous les Octos ; 

  • Parce que ce ne sont pas que des mots nous marquons au quotidien notre engagement en matire de numrique responsable : depuis 2021 OCTO est Certifi BCorp. Nous formons les Octos et nos clients la fresque du climat et uvrons pour la sobrit numrique en interne et auprs de nos clients ; 

  • Le management est un point central de notre culture. Les Octos tuteurs sont forms pour vous accompagner dans le dveloppement de vos comptences ;

  • Parce quon na jamais fini dapprendre vous pourrez tirer parti de nos formations apprendre avec des OCTOs plus expriments et faire parti dun collectif de passionns ! 

  • Signataire en 2023 de la charte de la diversit et de laccord Handicap et depuis 2022 de la Charte de lAutre Cercle concernant linclusion des personnes LGBTQI en entreprise.

Sans oublier les fondamentaux :

  • Matriel au choix : ordinateur (PC ou Mac) ;

  • Tltravail ;

  • Et bien sr : carte Swile absences autorises payes CSE

OCTO priority 

Collaborer avec des personnes talentueuses issues de diffrents horizons. Aussi ce que nous cherchons avant tout ce sont des personnalits qui enrichiront OCTO. 

En respectant lgalit des chances les candidatures sont examines sans aucun prjug quant lge lethnie lidentit de genre lexpression de genre le handicap la nationalit la religion ou lorientation sexuelle.


Remote Work :

Yes


Employment Type :

Full-time

Employment Type

Remote

Company Industry

Key Skills

  • Laboratory Experience
  • Immunoassays
  • Machine Learning
  • Biochemistry
  • Assays
  • Research Experience
  • Spectroscopy
  • Research & Development
  • cGMP
  • Cell Culture
  • Molecular Biology
  • Data Analysis Skills

About Company

Report This Job
Disclaimer: Drjobpro.com is only a platform that connects job seekers and employers. Applicants are advised to conduct their own independent research into the credentials of the prospective employer.We always make certain that our clients do not endorse any request for money payments, thus we advise against sharing any personal or bank-related information with any third party. If you suspect fraud or malpractice, please contact us via contact us page.