Data Engineer Senior - NLP / données non structurées (freelance ; 6 mois minimum)
Nous recrutons un(e) Data Engineer senior pour un projet à forte portée : digitaliser le droit au Maroc et en Afrique et créer la première base de connaissance juridique interrogeable par lIA.
Notre ambition est de construire une plateforme capable de répondre à des questions juridiques de façon fiable sourcée et traçable en sappuyant sur un corpus massif de documents juridiques hétérogènes.
Vous rejoignez une mission infrastructure de connaissance :
contribuer à rendre le droit plus accessible
bâtir un actif durable : une base structurée du droit marocain (français) extensible à lAfrique
travailler sur un défi technique concret et profond : transformer du non-structuré en une donnée exploitable fiable et maintenable à grande échelle
Vous serez responsable de la chaîne documents données structurées qui alimentera notre moteur IA (RAG).
Constituer une base de données structurée du droit marocain en français à partir de données très hétérogènes :
PDF (texte et scannés) Word images fichiers texte parfois bruités ou incomplets
extraction de texte (parsing OCR si nécessaire) nettoyage
structuration : détection titres/chapitres/sections/articles hiérarchie normalisation
chunking intelligent (par structure juridique plutôt que par taille arbitraire) avec traçabilité (source page identifiants)
métadonnées : date type de texte (loi/décret/circulaire/jurisprudence) source version numéros darticles etc.
déduplication & versioning : documents redondants amendements versions consolidées
industrialisation : orchestration logs retries idempotence monitoring tests qualité
3 ans dexpérience en Data Engineering et/ou Document AI / NLP appliqué
Très bonne maîtrise de Python
Expérience réelle avec documents non structurés : parsing PDF OCR nettoyage structuration
Habitude de livrer en production : pipelines robustes observabilité qualité performance
Stockage : AWS
Traitement documents : outils OCR/parsing pipelines de prétraitement texte
Tests & qualité : métriques échantillonnage validation automatique
Expérience sur corpus juridiques / réglementaires / contenus à forte exigence de précision
Familiarité avec les problématiques multilingues (FR/AR) et encodage
Connaissances de base sur les besoins en aval (vector DB retrieval citation)
Test en ligne (20 min)
Entretien technique (60 min)
Poste basé à Casablanca
Remote possible (au Maroc ou à létranger) selon profil et niveau dautonomie
Collective is the platform to find freelance work Go and check us out we are the biggest platform in terms of jobs published