Référent des données (data engineerData steward)

Health Data Hub

Not Interested
Bookmark
Report This Job

profile Job Location:

Paris - France

profile Monthly Salary: Not Disclosed
Posted on: 3 hours ago
Vacancies: 1 Vacancy

Job Summary

Le pôle des référents données de la Plateforme des Données de Santé joue un rôle clé pour garantir la qualité et lexploitation des données de santé. Ses objectifs sont :

Assurer la qualité du patrimoine de données en garantissant leur fiabilité leur interopérabilité et leur conformité réglementaire avant mise à disposition.

Mutualiser lexpertise technique pour orienter les développements de la plateforme et contribuer à des évolutions adaptées aux besoins des utilisateurs.

Accompagner les porteurs de projets afin de faciliter lappropriation de lenvironnement technique et optimiser lusage des données.

Activités du poste :

#1 Analyse et préparation des données

  • Collaborer avec la Direction des Projets et Services aux Utilisateurs pour comprendre les objectifs des projets accompagnés : découverte fonctionnelle et technique des jeux de données rédaction de la documentation associée et définition des règles de vérification automatisée.

  • Manipuler de grands volumes de données (To) en utilisant et enrichissant les ressources existantes (packages internes scripts Python/PySpark) pour traiter des formats variés (tabulaires texte libre images JSON) dans les délais impartis.

  • Préparer et transformer les données (reformatage jointure transformation parquet) en garantissant leur intégrité et conformité.

  • Cibler et extraire les données depuis les bases du catalogue du SNDS en assurant performance et standardisation et la qualité attendue.

#2 Gestion des flux et conformité

  • Vérifier lanonymisation des imports/exports en lien avec les producteurs et les chercheurs.

#3 Support et accompagnement utilisateur

  • Fournir un support technique expert (exemples de code bonnes pratiques) lors des permanences pour faciliter lusage des données par les utilisateurs.

#4 Amélioration continue et innovation

  • Concevoir des solutions techniques ad-hoc pour des cas dusage spécifiques participer activement à la qualification (tests/recette) des nouvelles fonctionnalités de la plateforme.

  • Contribuer à la documentation et aux bonnes pratiques de développement collaboratif (Git).

  • Remonter les besoins pour faire évoluer les librairies et outils internes afin doptimiser la qualité et la rapidité des opérations.

Ces missions sont essentielles pour garantir la fiabilité des recherches menées sur la plateforme technologique. Elles impliquent de relever des défis majeurs liés à la diversité des données (données médico-administratives imagerie médicale compte-rendus médicaux) et des efforts nécessaires pour les rendre exploitables.

Cette liste est non exhaustive; le collaborateur pourra appuyer sa (ses) direction(s) dans dautres missions.

Le poste sappuie sur une stack moderne orientée traitement de données à grande échelle et collaboration :

  • Python comme langage de programmation principal (notebooks Jupyter pandas PySpark) pour le développement et la manipulation des données.

  • Spark / PySpark pour le traitement de données volumineuses.

  • R comme langage danalyse statistique et de support aux études.

  • SQL pour lextraction le ciblage et loptimisation des requêtes.

  • Outils de versioning et de collaboration (GitLab Gitea).

  • Infrastructure cloud dédiée au stockage et au requêtage de données volumineuses (Microsoft Azure).

  • dbt pour lexécution des pipelines de transformation des données (SNDS OMOP).

  • Suite Google pour la bureautique et la collaboration (Docs Sheets etc.).


Required Experience:

IC

Le pôle des référents données de la Plateforme des Données de Santé joue un rôle clé pour garantir la qualité et lexploitation des données de santé. Ses objectifs sont :Assurer la qualité du patrimoine de données en garantissant leur fiabilité leur interopérabilité et leur conformité réglementaire a...
View more view more

Key Skills

  • Apache Hive
  • S3
  • Hadoop
  • Redshift
  • Spark
  • AWS
  • Apache Pig
  • NoSQL
  • Big Data
  • Data Warehouse
  • Kafka
  • Scala

About Company

Company Logo

Présentation L'objectif du Health Data Hub est de permettre d'accéder de manière facilitée, unifiée, transparente et sécurisée à un catalogue de bases de données de santé françaises pour des projets de recherche d’intérêt public. Nous accompagnons des porteurs de projets innovants qui ... View more

View Profile View Profile