Software Engineer (HPC & Cloud)

GECI Int.

Job Location:

Paris - France

Monthly Salary: Not Disclosed

Posted on: 30+ days ago

Vacancies: 1 Vacancy

Job Summary

Londres 1 j/sem on-site remote / Démarrage mi-juin 2026

Contexte

Notre client éditeur SaaS international construit une plateforme de calcul distribué GPU-accelerated sur AWS. Lobjectif : exécuter des workloads de calcul intensif sur des GPUs partagés en mode service à grande échelle.

Le projet est 100 % greenfield. Les choix darchitecture sont posés mais le code distribué nest pas encore en production. Léquipe SRE centrale gère linfrastructure sous-jacente ce rôle consiste à construire le tooling et la couche opérationnelle au-dessus.

Cest un rôle software engineering en premier lieu observabilité tooling cloud ops avec une dimension HPC. Pas un poste dinfra.

Ce que tu vas construire

Fondations techniques de léquipe

Les pipelines CI/CD et environnements de développement pour lensemble de léquipe engineering dès le premier jour

Le provisioning et la gestion des instances GPU sur AWS (EC2 EKS IAM VPC)

Les outils de benchmarking GPU et de scheduling des runs de performance sur instances cloud

Observabilité de bout en bout

Linstrumentation complète des services distribués : distributed tracing de bout en bout avec propagation de contexte dans les messages Apache Pulsar logs structurés métriques de performance

Des dashboards de performance sur lensemble du cluster et des outils danalyse comparative entre versions

Un framework de validation automatique des outputs GPU versus référence CPU (correction numérique)

Contexte distribué dans lequel tu interviens

Léquipe construit des services worker/consumer sur Apache Pulsar des pipelines de données entre nœuds CPU nœuds GPU et stockage haute performance (Lustre/FSx) avec des mécanismes de fault tolerance et back-pressure sur des workloads de calcul intensif. Tu opères et instrumentes cette couche tu nen es pas le seul auteur mais tu dois la comprendre en profondeur.

Environnement technique

Apache Pulsar AWS (EC2 EKS IAM VPC) Kubernetes Lustre / FSx for Lustre Go ou Rust OpenTelemetry / Jaeger Prometheus / Grafana CI/CD

Profil recherché

Ce quon cherche vraiment :

Un ingénieur qui a construit du tooling de production pour des systèmes distribués observabilité CI/CD benchmarking pas uniquement de la configuration dinfra

Maîtrise de lobservabilité de bout en bout : distributed tracing (Jaeger OpenTelemetry) métriques logs structurés

Capacité à écrire du code robuste en Rust ou équivalent ce rôle nécessite du software engineering pas uniquement de lIaC

AWS et Kubernetes en production

Anglais courant léquipe est internationale basée à Londres

Signaux positifs :

Expérience messaging distribué Kafka Pulsar RabbitMQ NATS

Expérience GPU ou HPC : environnements de calcul intensif benchmarking stockage haute performance (Lustre GPFS)

RDMA ou transport inter-nœuds haute performance

Rust (un vrai plus)

Kubernetes Operator ou controller custom en Go

Contexte scale-up / produit technique : gaming fintech SaaS B2B à grande échelle

Londres 1 j/sem on-site remote / Démarrage mi-juin 2026ContexteNotre client éditeur SaaS international construit une plateforme de calcul distribué GPU-accelerated sur AWS. Lobjectif : exécuter des workloads de calcul intensif sur des GPUs partagés en mode service à grande échelle.Le projet est ...