Data engineer

Casablanca - Morocco

Monthly Salary: Not Disclosed

Posted on: 30+ days ago

Vacancies: 1 Vacancy

Job Summary

Au sein de léquipe Data vous prenez en charge la conception lindustrialisation et loptimisation de pipelines de données sur un environnement Big Data (Hadoop/HDFS Hive Spark). Vous garantissez la qualité la traçabilité et la disponibilité des datasets qui alimentent la BI (Power BI) et les besoins analytiques des métiers.

Responsabilités clés

Ingestion & Modélisation
- Intégrer des données depuis plusieurs SGBD (PostgreSQL SQL Server MySQL IBM DB2) et fichiers via Sqoop/ETL.
- Structurer les zones bronze/silver/gold et définir les schémas (Hive).
Traitements distribués
- Développer et optimiser des jobs Spark / PySpark (partitionnement broadcast cache bucketing).
- Écrire des transformations SQL/HiveQL performantes et maintenables.
Orchestration & Production
- Concevoir et maintenir des DAGs Airflow (scheduling retry SLA alerting).
- Industrialiser via GitLab (CI/CD) scripts Shell et bonnes pratiques DevOps Data.
Qualité & Gouvernance
- Mettre en place des contrôles (complétude unicité référentiels) tests unitaires/data tests et documentation (catalogue dictionnaires).
- Assurer la traçabilité (lineage) et la gestion des incidents (RCAs runbooks).
Valorisation & BI
- Publier des datasets analytics-ready et optimiser lalimentation Power BI (vues matérialisées agrégations).
- Contribuer au calcul et à la fiabilisation des KPI.

Qualifications :

Profil recherché :

2 à 4 ans dexpérience en Data Engineering/Big Data avec réalisations probantes en PySpark/Hive et Airflow.
Formation Bac5 (Master Big Data & IA Ingénierie Data ou équivalent).
Aisance sur les SGBD (PostgreSQL SQL Server MySQL IBM DB2) et loptimisation de requêtes.
Habitude des environnements Linux et scripting Shell.
Capacité à documenter tester et monitorer des pipelines en production.

Stack technique :

Traitement Big Data : Spark / PySpark Hive HDFS ( MapReduce/Impala appréciés).
Langages & Data : Python SQL avancé Shell (bash).
Orchestration : Apache Airflow.
Dataviz/BI : Power BI (dashboards datasets).
OS & Outils : Linux (Ubuntu/CentOS) Git/GitLab CI/CD.
Plus : Pandas/Numpy pour prototypage notions MongoDB/HBase.

Compétences comportementales :

Rigueur et sens de la qualité (tests revues de code documentation).
Esprit déquipe et communication claire avec les métiers et la BI.
Autonomie sur linvestigation dincidents et proactivité damélioration continue.
Orientation résultats : respect des SLA et culture de la performance.

Remote Work :

Employment Type :

Full-time

Au sein de léquipe Data vous prenez en charge la conception lindustrialisation et loptimisation de pipelines de données sur un environnement Big Data (Hadoop/HDFS Hive Spark). Vous garantissez la qualité la traçabilité et la disponibilité des datasets qui alimentent la BI (Power BI) et les besoins a...

Responsabilités clés

Ingestion & Modélisation
- Intégrer des données depuis plusieurs SGBD (PostgreSQL SQL Server MySQL IBM DB2) et fichiers via Sqoop/ETL.
- Structurer les zones bronze/silver/gold et définir les schémas (Hive).
Traitements distribués
- Développer et optimiser des jobs Spark / PySpark (partitionnement broadcast cache bucketing).
- Écrire des transformations SQL/HiveQL performantes et maintenables.
Orchestration & Production
- Concevoir et maintenir des DAGs Airflow (scheduling retry SLA alerting).
- Industrialiser via GitLab (CI/CD) scripts Shell et bonnes pratiques DevOps Data.
Qualité & Gouvernance
- Mettre en place des contrôles (complétude unicité référentiels) tests unitaires/data tests et documentation (catalogue dictionnaires).
- Assurer la traçabilité (lineage) et la gestion des incidents (RCAs runbooks).
Valorisation & BI
- Publier des datasets analytics-ready et optimiser lalimentation Power BI (vues matérialisées agrégations).
- Contribuer au calcul et à la fiabilisation des KPI.

Qualifications :

Profil recherché :

2 à 4 ans dexpérience en Data Engineering/Big Data avec réalisations probantes en PySpark/Hive et Airflow.
Formation Bac5 (Master Big Data & IA Ingénierie Data ou équivalent).
Aisance sur les SGBD (PostgreSQL SQL Server MySQL IBM DB2) et loptimisation de requêtes.
Habitude des environnements Linux et scripting Shell.
Capacité à documenter tester et monitorer des pipelines en production.

Stack technique :

Traitement Big Data : Spark / PySpark Hive HDFS ( MapReduce/Impala appréciés).
Langages & Data : Python SQL avancé Shell (bash).
Orchestration : Apache Airflow.
Dataviz/BI : Power BI (dashboards datasets).
OS & Outils : Linux (Ubuntu/CentOS) Git/GitLab CI/CD.
Plus : Pandas/Numpy pour prototypage notions MongoDB/HBase.

Compétences comportementales :

Rigueur et sens de la qualité (tests revues de code documentation).
Esprit déquipe et communication claire avec les métiers et la BI.
Autonomie sur linvestigation dincidents et proactivité damélioration continue.
Orientation résultats : respect des SLA et culture de la performance.

Remote Work :

Employment Type :

Full-time

Key Skills

Apache Hive
S3
Hadoop
Redshift
Spark
AWS
Apache Pig
NoSQL
Big Data
Data Warehouse
Kafka
Scala

Apply Now

About Company

Inetum

Inetum is a European leader in digital services. Inetums team of 28,000 consultants and specialists strive every day to make a digital impact for businesses, public sector entities and society. Inetums solutions aim at contributing to its clients performance and innovation as well ... View more

View Profile View Profile

AI AutoApply

Apply to 100+ jobs with one click