Data Engineer Senior NLP données non structurées

Collective

Not Interested
Bookmark
Report This Job

profile Job Location:

Casablanca - Morocco

profile Daily Salary: EUR 350 - 350
Posted on: 2 hours ago
Vacancies: 1 Vacancy

Job Summary

Data Engineer Senior - NLP / données non structurées (freelance ; 6 mois minimum)


Nous recrutons un(e) Data Engineer senior pour un projet à forte portée : digitaliser le droit au Maroc et en Afrique et créer la première base de connaissance juridique interrogeable par lIA.

Notre ambition est de construire une plateforme capable de répondre à des questions juridiques de façon fiable sourcée et traçable en sappuyant sur un corpus massif de documents juridiques hétérogènes.

Pourquoi ce projet est différent

Vous rejoignez une mission infrastructure de connaissance :

  • contribuer à rendre le droit plus accessible

  • bâtir un actif durable : une base structurée du droit marocain (français) extensible à lAfrique

  • travailler sur un défi technique concret et profond : transformer du non-structuré en une donnée exploitable fiable et maintenable à grande échelle

Votre mission

Vous serez responsable de la chaîne documents données structurées qui alimentera notre moteur IA (RAG).

Au cœur du poste (intérêt technique)

Constituer une base de données structurée du droit marocain en français à partir de données très hétérogènes :

  • PDF (texte et scannés) Word images fichiers texte parfois bruités ou incomplets

  • extraction de texte (parsing OCR si nécessaire) nettoyage

  • structuration : détection titres/chapitres/sections/articles hiérarchie normalisation

  • chunking intelligent (par structure juridique plutôt que par taille arbitraire) avec traçabilité (source page identifiants)

  • métadonnées : date type de texte (loi/décret/circulaire/jurisprudence) source version numéros darticles etc.

  • déduplication & versioning : documents redondants amendements versions consolidées

  • industrialisation : orchestration logs retries idempotence monitoring tests qualité

Profil recherché

  • 3 ans dexpérience en Data Engineering et/ou Document AI / NLP appliqué

  • Très bonne maîtrise de Python

  • Expérience réelle avec documents non structurés : parsing PDF OCR nettoyage structuration

  • Habitude de livrer en production : pipelines robustes observabilité qualité performance

Stack / compétences (indicatif)

  • Stockage : AWS

  • Traitement documents : outils OCR/parsing pipelines de prétraitement texte

  • Tests & qualité : métriques échantillonnage validation automatique

Bonus (appréciés)

  • Expérience sur corpus juridiques / réglementaires / contenus à forte exigence de précision

  • Familiarité avec les problématiques multilingues (FR/AR) et encodage

  • Connaissances de base sur les besoins en aval (vector DB retrieval citation)

Process de sélection

  • Test en ligne (20 min)

  • Entretien technique (60 min)

Localisation

  • Poste basé à Casablanca

  • Remote possible (au Maroc ou à létranger) selon profil et niveau dautonomie

Data Engineer Senior - NLP / données non structurées (freelance ; 6 mois minimum)Nous recrutons un(e) Data Engineer senior pour un projet à forte portée : digitaliser le droit au Maroc et en Afrique et créer la première base de connaissance juridique interrogeable par lIA.Notre ambition est de const...
View more view more

Key Skills

  • Apache Hive
  • S3
  • Hadoop
  • Redshift
  • Spark
  • AWS
  • Apache Pig
  • NoSQL
  • Big Data
  • Data Warehouse
  • Kafka
  • Scala

About Company

Company Logo

Collective is the platform to find freelance work Go and check us out we are the biggest platform in terms of jobs published

View Profile View Profile