Admin Système HPC N2N3 (Hybrid)
Job Summary
Contexte de la mission (N2)
Dans le cadre dun projet stratégique de modernisation et dexploitation dune infrastructure de calcul intensif au sein dun grand organisme public réglementaire nous recherchons un(e) Administrateur(trice) Systèmes HPC confirmé(e). Lenvironnement sinscrit dans un contexte de haute disponibilité et dexigences de sécurité strictes en lien avec des missions critiques de simulation et danalyse scientifique.
Responsabilités principales
Administration et maintien en condition opérationnelle des clusters de calcul (Linux RHEL/Rockynœuds)
Gestion des ordonnanceurs de jobs (Slurm) : configuration des partitions QoS accounting et optimisation du scheduling
Administration des systèmes de fichiers parallèles (Lustre GPFS/Spectrum Scale) : tuning I/O gestion des quotas surveillance des performances
Déploiement et gestion des environnements logiciels scientifiques via Environment Modules et Spack
Supervision des réseaux haute performance (InfiniBand HDR/HDR100 Ethernet RoCE)
Support utilisateur de niveau 2 : diagnostic de problèmes de performance aide à loptimisation dapplications scientifiques
Contribution à lautomatisation des opérations (Ansible scripts Bash/Python)
Participation aux astreintes et gestion des incidents critiques en lien avec léquipe senior
Rédaction de documentation technique et de procédures dexploitation
Compétences techniques requises
Systèmes & infrastructure
Linux avancé (RHEL/Rocky Linux/CentOS) administration à grande échelle
Virtualisation et conteneurisation : KVM Singularity/Apptainer
Outils dautomatisation : Ansible (maîtrise opérationnelle) Puppet (connaissance appréciée)
Scripting : Bash (avancé) Python (maîtrise fonctionnelle)
HPC
Ordonnanceur Slurm : configuration partitions accounting QoS
Systèmes de fichiers parallèles : Lustre et/ou GPFS (exploitation et tuning)
Réseaux HPC : InfiniBand Ethernet haut débit
Gestion des stacks logicielles scientifiques : Spack Environment Modules
Monitoring & sécurité
Outils de supervision : Prometheus/Grafana Nagios/Zabbix
Sécurité Linux : hardening gestion des accès audit (conformité SI sensible)
Gestion des identités : LDAP/Active Directory
Profil et expérience attendus
Formation supérieure en informatique systèmes ou domaine connexe (Bac3 à Bac5)
3 à 6 ans dexpérience en administration systèmes dont au moins 2 ans en environnement HPC ou datacenter critique
Expérience en environnement réglementé ou sécurisé appréciée
Capacité à travailler en équipe et à communiquer avec des utilisateurs scientifiques exigeants
Rigueur autonomie dans le cadre défini sens du service
Maîtrise du français (langue de travail) ; anglais technique lu/écrit
Modalités pratiques
Rythme de présence
2 jours sur site / 3 jours en télétravail par semaine
Durée de la mission
12 mois renouvelables
Astreintes
Participation aux astreintes de niveau 2 (planning partagé)
Déplacements
Ponctuels sur site client (Île-de-France)
Contexte de la mission (N3)
Dans le cadre dun projet de modernisation dinfrastructure HPC critique nous recherchons un(e) Ingénieur(e) Systèmes HPC de niveau expert pour piloter des activités techniques à forte valeur ajoutée : architecture optimisation avancée intégration de nouveaux composants matériels et logiciels et transfert de compétences. Le profil exercera en pleine autonomie en lien étroit avec léquipe dexploitation et les équipes scientifiques du client.
Responsabilités principales
Référent technique de niveau 3 sur lensemble de la stack HPC (ordonnancement stockage parallèle réseaux sécurité)
Conception et implémentation darchitectures HPC et de stockage haute performance pour répondre aux besoins scientifiques
Optimisation avancée des systèmes de fichiers parallèles (Lustre GPFS) : tuning fin diagnostics de performance I/O gestion de la résilience
Expertise sur les interconnexions InfiniBand (HDR/NDR) : configuration UCX diagnostics fabric intégration MPI
Pilotage des enjeux GPU : intégration daccélérateurs (AMD/NVIDIA) configuration des drivers et des stacks ROCm/CUDA
Conseil et support N3 aux équipes internes et aux utilisateurs scientifiques sur loptimisation dapplications (profiling portage scaling MPI)
Définition et mise en œuvre de la politique de sécurité des systèmes HPC (hardening gestion des accès audit de conformité)
Automatisation avancée et Infrastructure as Code (Ansible Terraform CI/CD HPC)
Veille technologique évaluation de nouvelles solutions rédaction de documents darchitecture et de recommandations
Encadrement technique des profils N2 de léquipe
Compétences techniques requises
Architecture & systèmes
Linux expert (RHEL/Rocky architecture kernel tuning OS à grande échelle)
Maîtrise avancée dAnsible ; connaissance de Terraform ou outils IaC équivalents
Scripting avancé : Python (bibliothèques système APIs) Bash
Conteneurisation HPC : Singularity/Apptainer Podman ; connaissance de Kubernetes appréciée
HPC expertise avancée
Slurm : architecture multi-cluster federation Burst Buffer accounting avancé
Systèmes de fichiers parallèles : Lustre (MDT/OST tunables kernel) GPFS/Spectrum Scale (architecture NSDs AFM)
Réseaux : InfiniBand HDR/NDR OpenSM diagnostics avec ibdiagnet ; UCX/RDMA
Interconnexion MPI : OMPI/MPICH WI4MPI (portabilité MPI) optimisation collective
Accélérateurs GPU : intégration AMD MI200/MI300 (ROCm) NVIDIA (CUDA) profiling matériel
Sécurité & conformité
Sécurité SI sensible : conception et application de politiques de sécurité en environnement réglementé
Gestion des identités et des accès : LDAP Kerberos PAM
Audit et conformité : outils SCAP gestion des CVE durcissement système
Profil et expérience attendus
Formation supérieure en informatique ou systèmes (Bac5 ingénieur ou équivalent)
7 ans et plus dexpérience en systèmes dont au minimum 4 ans en environnement HPC de production à grande échelle
Expérience confirmée en environnement réglementé ou hautement sécurisé (défense nucléaire espace ou équivalent)
Capacité à exercer en pleine autonomie à distance avec des interlocuteurs techniques et scientifiques de haut niveau
Excellentes capacités rédactionnelles (documentation darchitecture procédures rapports dincident)
Leadership technique naturel capacité à structurer et transmettre une expertise
Maîtrise du français (langue de travail) ; anglais technique courant (lu écrit oral)
Modalités pratiques
Rythme de présence
Full remote déplacements ponctuels sur site si nécessaire (frais remboursés)
Durée de la mission
12 mois renouvelables
Astreintes
Participation occasionnelle aux astreintes de niveau 3 (faible fréquence)
Déplacements
Exceptionnels à définir avec le client
About Company
GECI International est un spécialiste de la Technologie et du Digital. Depuis son origine en 1980, le Groupe innove pour concevoir et développer des solutions, produits et services intelligents pour les secteurs de la Recherche, de l’Industrie et des Services.