Employer Active
Job Alert
You will be updated with latest job alerts via emailJob Alert
You will be updated with latest job alerts via emailDescripci n de Trabajo: Ingeniero de Datos Desarrollo de Proceso ETL en AWS Glue
Objetivo del Proyecto:El proyecto busca desarrollar una soluci n en AWS Glue para procesar las huellas de consulta generadas en el entorno de ingesta de datos. Las huellas deben ser procesadas con reglas de negocio definidas para luego ser exportadas en formato JSON con extensi n Parquet. Esta salida ser utilizada como insumo para poblar el modelo en RedShift para huellas de consulta optimizando el pipeline de datos.
Responsabilidades:
Desarrollar y ejecutar un flujo ETL utilizando AWS Glue para procesar las huellas de consulta disponibles en un Bucket de S3.
Aplicar reglas de negocio predefinidas sobre las huellas de consulta para generar un archivo de salida en formato Parquet.
Asegurar que el formato y los datos procesados sean compatibles con las necesidades del modelo de datos en RedShift.
Colaborar con el equipo de ingesta y expertos en Cobol para entender la estructura de las huellas de consulta y los requisitos de negocio.
Implementar procedimientos de validaci n y limpieza de datos antes de la transformaci n final.
Gestionar la correcta integraci n entre el sistema de ingesta y el pipeline de AWS Glue.
Optimizar el rendimiento del proceso ETL asegurando tiempos de ejecuci n adecuados y minimizando costos en AWS.
Documentar el c digo procesos y flujos de trabajo para asegurar la trazabilidad y la mantenibilidad.
Experiencia con AWS Glue para la implementaci n de flujos ETL en la nube.
Conocimiento pr ctico de Python para la creaci n de transformaciones de datos personalizadas.
Experiencia con S3 como fuente y destino de datos.
Conocimiento en el formato Parquet y su utilizaci n en flujos de datos grandes.
Experiencia en la creaci n de tablas y consultas en Amazon RedShift.
Familiaridad con procesamiento en batch y optimizaci n de ETL en grandes vol menes de datos.
Conocimiento de reglas de negocio y validaci n de datos en el contexto de datos estructurados y no estructurados.
Capacidad para trabajar de manera colaborativa con equipos multifuncionales incluyendo expertos en Cobol y equipos de ingesta de datos.
Experiencia en herramientas de monitoreo y gesti n de jobs en AWS Glue y S3.
Conocimiento de JSON y su manipulaci n en flujos ETL.
Deseable:
Conocimiento de DevOps y herramientas de automatizaci n en la nube especialmente para la gesti n de pipelines ETL.
Familiaridad con AWS IAM para la gesti n de permisos y seguridad de datos en los procesos ETL.
1. AWS Glue: Es la herramienta principal que se usar para desarrollar el flujo ETL.
2. S3: Ser el origen de los datos (huellas de consulta) por lo que el candidato debe tener experiencia con esta tecnolog a.
3. Parquet: Es el formato de salida por lo que el candidato debe conocer c mo trabajar con este formato de archivo en el contexto de Big Data.
4. RedShift: El trabajo realizado ser utilizado para poblar un modelo en RedShift por lo que es esencial conocer el ecosistema de RedShift y la optimizaci n de datos para su carga.
Education
Ingeniero en Telecomunicaciones, Telem tica, electr nica o carreras afines. Con experiencia en Experiencia con AWS Glue para la implementaci n de flujos ETL en la nube. Conocimiento pr ctico de Python para la creaci n de transformaciones de datos personalizadas. Experiencia con S3 como fuente y destino de datos. Conocimiento en el formato Parquet y su utilizaci n en flujos de datos grandes. Experiencia en la creaci n de tablas y consultas en Amazon RedShift. Familiaridad con procesamiento en bat
Full Time