Admin Système HPC N2N3 (Hybrid)

GECI Int.

Job Location:

Paris - France

Monthly Salary: Not Disclosed

Posted on: 30+ days ago

Vacancies: 1 Vacancy

Job Summary

Contexte de la mission (N2)

Dans le cadre dun projet stratégique de modernisation et dexploitation dune infrastructure de calcul intensif au sein dun grand organisme public réglementaire nous recherchons un(e) Administrateur(trice) Systèmes HPC confirmé(e). Lenvironnement sinscrit dans un contexte de haute disponibilité et dexigences de sécurité strictes en lien avec des missions critiques de simulation et danalyse scientifique.

Responsabilités principales

Administration et maintien en condition opérationnelle des clusters de calcul (Linux RHEL/Rockynœuds)

Gestion des ordonnanceurs de jobs (Slurm) : configuration des partitions QoS accounting et optimisation du scheduling

Administration des systèmes de fichiers parallèles (Lustre GPFS/Spectrum Scale) : tuning I/O gestion des quotas surveillance des performances

Déploiement et gestion des environnements logiciels scientifiques via Environment Modules et Spack

Supervision des réseaux haute performance (InfiniBand HDR/HDR100 Ethernet RoCE)

Support utilisateur de niveau 2 : diagnostic de problèmes de performance aide à loptimisation dapplications scientifiques

Contribution à lautomatisation des opérations (Ansible scripts Bash/Python)

Participation aux astreintes et gestion des incidents critiques en lien avec léquipe senior

Rédaction de documentation technique et de procédures dexploitation

Compétences techniques requises

Systèmes & infrastructure

Linux avancé (RHEL/Rocky Linux/CentOS) administration à grande échelle

Virtualisation et conteneurisation : KVM Singularity/Apptainer

Outils dautomatisation : Ansible (maîtrise opérationnelle) Puppet (connaissance appréciée)

Scripting : Bash (avancé) Python (maîtrise fonctionnelle)

HPC

Ordonnanceur Slurm : configuration partitions accounting QoS

Systèmes de fichiers parallèles : Lustre et/ou GPFS (exploitation et tuning)

Réseaux HPC : InfiniBand Ethernet haut débit

Gestion des stacks logicielles scientifiques : Spack Environment Modules

Monitoring & sécurité

Outils de supervision : Prometheus/Grafana Nagios/Zabbix

Sécurité Linux : hardening gestion des accès audit (conformité SI sensible)

Gestion des identités : LDAP/Active Directory

Profil et expérience attendus

Formation supérieure en informatique systèmes ou domaine connexe (Bac3 à Bac5)

3 à 6 ans dexpérience en administration systèmes dont au moins 2 ans en environnement HPC ou datacenter critique

Expérience en environnement réglementé ou sécurisé appréciée

Capacité à travailler en équipe et à communiquer avec des utilisateurs scientifiques exigeants

Rigueur autonomie dans le cadre défini sens du service

Maîtrise du français (langue de travail) ; anglais technique lu/écrit

Modalités pratiques

Rythme de présence

2 jours sur site / 3 jours en télétravail par semaine

Durée de la mission

12 mois renouvelables

Astreintes

Participation aux astreintes de niveau 2 (planning partagé)

Déplacements

Ponctuels sur site client (Île-de-France)

Contexte de la mission (N3)

Dans le cadre dun projet de modernisation dinfrastructure HPC critique nous recherchons un(e) Ingénieur(e) Systèmes HPC de niveau expert pour piloter des activités techniques à forte valeur ajoutée : architecture optimisation avancée intégration de nouveaux composants matériels et logiciels et transfert de compétences. Le profil exercera en pleine autonomie en lien étroit avec léquipe dexploitation et les équipes scientifiques du client.

Responsabilités principales

Référent technique de niveau 3 sur lensemble de la stack HPC (ordonnancement stockage parallèle réseaux sécurité)

Conception et implémentation darchitectures HPC et de stockage haute performance pour répondre aux besoins scientifiques

Optimisation avancée des systèmes de fichiers parallèles (Lustre GPFS) : tuning fin diagnostics de performance I/O gestion de la résilience

Expertise sur les interconnexions InfiniBand (HDR/NDR) : configuration UCX diagnostics fabric intégration MPI

Pilotage des enjeux GPU : intégration daccélérateurs (AMD/NVIDIA) configuration des drivers et des stacks ROCm/CUDA

Conseil et support N3 aux équipes internes et aux utilisateurs scientifiques sur loptimisation dapplications (profiling portage scaling MPI)

Définition et mise en œuvre de la politique de sécurité des systèmes HPC (hardening gestion des accès audit de conformité)

Automatisation avancée et Infrastructure as Code (Ansible Terraform CI/CD HPC)

Veille technologique évaluation de nouvelles solutions rédaction de documents darchitecture et de recommandations

Encadrement technique des profils N2 de léquipe

Compétences techniques requises

Architecture & systèmes

Linux expert (RHEL/Rocky architecture kernel tuning OS à grande échelle)

Maîtrise avancée dAnsible ; connaissance de Terraform ou outils IaC équivalents

Scripting avancé : Python (bibliothèques système APIs) Bash

Conteneurisation HPC : Singularity/Apptainer Podman ; connaissance de Kubernetes appréciée

HPC expertise avancée

Slurm : architecture multi-cluster federation Burst Buffer accounting avancé

Systèmes de fichiers parallèles : Lustre (MDT/OST tunables kernel) GPFS/Spectrum Scale (architecture NSDs AFM)

Réseaux : InfiniBand HDR/NDR OpenSM diagnostics avec ibdiagnet ; UCX/RDMA

Interconnexion MPI : OMPI/MPICH WI4MPI (portabilité MPI) optimisation collective

Accélérateurs GPU : intégration AMD MI200/MI300 (ROCm) NVIDIA (CUDA) profiling matériel

Sécurité & conformité

Sécurité SI sensible : conception et application de politiques de sécurité en environnement réglementé

Gestion des identités et des accès : LDAP Kerberos PAM

Audit et conformité : outils SCAP gestion des CVE durcissement système

Profil et expérience attendus

Formation supérieure en informatique ou systèmes (Bac5 ingénieur ou équivalent)

7 ans et plus dexpérience en systèmes dont au minimum 4 ans en environnement HPC de production à grande échelle

Expérience confirmée en environnement réglementé ou hautement sécurisé (défense nucléaire espace ou équivalent)

Capacité à exercer en pleine autonomie à distance avec des interlocuteurs techniques et scientifiques de haut niveau

Excellentes capacités rédactionnelles (documentation darchitecture procédures rapports dincident)

Leadership technique naturel capacité à structurer et transmettre une expertise

Maîtrise du français (langue de travail) ; anglais technique courant (lu écrit oral)

Modalités pratiques

Rythme de présence

Full remote déplacements ponctuels sur site si nécessaire (frais remboursés)

Durée de la mission

12 mois renouvelables

Astreintes

Participation occasionnelle aux astreintes de niveau 3 (faible fréquence)

Déplacements

Exceptionnels à définir avec le client

Contexte de la mission (N2)Dans le cadre dun projet stratégique de modernisation et dexploitation dune infrastructure de calcul intensif au sein dun grand organisme public réglementaire nous recherchons un(e) Administrateur(trice) Systèmes HPC confirmé(e). Lenvironnement sinscrit dans un contexte de...