Rihab B.

Rihab B.

Data Engineer

Tunisia
Vertrouwd lid sinds 2024
7 jaar ervaring

Naast haar technische vaardigheden heeft Rihab ruime ervaring in leiderschap en projectmanagement. Een van haar belangrijkste prestaties is het bouwen van een datacuration service terwijl ze ook als Scrum Master optrad, waar ze met succes een team aanstuurde en een nieuwe dataservice implementeerde met behulp van Scala.

Rihab's mix van sterke technische vaardigheden en leiderschapservaring maakt haar zeer geschikt voor projecten in gereguleerde sectoren.

Hoofd expertise

AWS S3AWS S35 jaar
ETLETL5 jaar
MLOps2 jaar
JenkinsJenkins4 jaar
14+

Ervaring10

Data4Geeks

Senior Data Engineer

Data4Geeks
Data Analytics
Jan 2023 · 3y 2m
  • Ontwierp en implementeerde datapijplijnen voor zowel batch- als streamverwerking, waarbij de gegevensstroom en efficiëntie werden geoptimaliseerd;
  • Onderzoeken en implementeren van datapijplijnen met behulp van AWS Glue en PySpark, om schaalbaarheid en robuustheid te garanderen;
  • Delta Lake geïntegreerd in de pijplijnen om deltaverwerking mogelijk te maken, waardoor de mogelijkheden voor gegevensbeheer zijn verbeterd;
  • Taaksjablonen ontwikkeld met behulp van Jinja om het maken en beheren van gegevensverwerkingstaken te stroomlijnen;
  • Het bouwen en automatiseren van datavalidatiepijplijnen om de nauwkeurigheid en betrouwbaarheid van verwerkte gegevens te garanderen;
  • Trino geïmplementeerd en geconfigureerd om efficiënte gegevenstoegang en query's over verschillende bronnen mogelijk te maken;
  • Voorbereiding van uitgebreide documentatie voor elke component en tool die is onderzocht, om kennisoverdracht en eenvoudig onderhoud te garanderen;
  • Gebruikte tools zoals Python, PySpark, Glue (Jobs, Crawlers, Catalogs), Athena, AWS, MWAA (Airflow), Kubernetes, Trino en Jinja om projectdoelen te bereiken.
AWSAWS
DatabricksDatabricks
Apache SparkApache Spark
PythonPython
AWS S3AWS S3
11+
Data4Geeks

Senior Data Engineer

Data4Geeks
Jan 2023 · 3y 2m

Ontwerp en implementatie van een prognoseplatform - Engie (Frans, wereldwijd energiebedrijf)

  • Ontwerp en implementatie van een uitgebreid voorspellingsplatform op maat van de wereldwijde energiesector.
  • Ontwikkelde datapijplijnen met Python en PySpark, voor efficiënte en schaalbare gegevensverwerking.
  • Orkestreerde taakworkflows met behulp van Airflow en Databricks, waarbij taakbeheer en -uitvoering werden geoptimaliseerd.
  • Implementeerde datatechnische processen met behulp van Delta Live Tables (DLT) van Databricks voor robuust datamanagement.
  • Het bouwen en implementeren van pipelines voor gegevensstroomverwerking met behulp van DLT's, waardoor real-time gegevensverwerking mogelijk werd.
  • Ontwikkelde Feature Store API's voor interactie met componenten en creëerde herbruikbare sjablonen om processen te standaardiseren.
  • Gebruikte MLflow voor het bouwen, beheren en volgen van experimenten en machine learning-modellen, om rigoureuze experimenten te garanderen.
  • De levenscyclus van ML-modellen beheerd met behulp van MLOps-technieken, herbruikbare sjablonen geïmplementeerd voor consistentie en efficiëntie.
  • Maak dashboards voor data-analyse en visualisatie, om datagestuurde besluitvorming mogelijk te maken.
  • Ontwikkelde API's met behulp van .NET/C# om gegevens te ontsluiten, voor naadloze integratie en toegankelijkheid tussen systemen.
  • Gebruikte tools zoals Databricks, PySpark, Python, R, SQL, Glue, Athena, Kubernetes en Airflow om een robuuste en schaalbare oplossing te leveren.
Data4Geeks

AI/Data Engineer

Data4Geeks
Data Analytics
Jan 2022 - Dec 2023 · 1y 11m
  • Leidde projecten gericht op de integratie van Large Language Models (LLM) en AI-technologieën en stimuleerde innovatie binnen de organisatie;
  • Assisteerde bij het ontwerpen en implementeren van oplossingen voor gegevensmigratie en zorgde zo voor naadloze overgangen voor verschillende klanten;
  • Ontwikkelde integraties en clients voor vectordatabases, waarbij gebruik werd gemaakt van verschillende open-source AI-tools om de mogelijkheden te vergroten;
  • Actief communiceren met klanten om vereisten te verzamelen en ervoor te zorgen dat deze overeenkomen met hun specifieke behoeften;
  • Gebruikt tools zoals Python, Google Cloud Platform (GCP) en Datastax om robuuste oplossingen te leveren.
CassandraCassandra
PythonPython
Google CloudGoogle Cloud
TensorFlowTensorFlow
GitGit
LangChainLangChain
Cognira

Software Engineering Manager/Senior Data ENGINEER

Cognira
Information Technology (IT) and Services
Jan 2022 - Jul 2022 · 6m

Building and supporting promotion planning demo solution

  • Developed generic data pipelines to transform raw client data into a format compatible with the data model of the promotion planning demo system;

  • Wrote scripts to generate meaningful business data, ensuring alignment with the needs of the application;

  • Collaborated with the science team to understand business requirements and determine the necessary data transformations to enhance data utility;

  • Designed and implemented a generic PySpark codebase that efficiently transforms data to fit the required data model;

  • Utilized tools such as PySpark, JupyterHub, Kubernetes, and Azure Data Lake to execute and support the project.

DockerDocker
DatabricksDatabricks
Apache SparkApache Spark
MavenMaven
KubernetesKubernetes
6+
Data4Geeks

Senior Data Engineer

Data4Geeks
Financial Technology (FinTech)
Oct 2021 - Jul 2024 · 2y 9m

Implementing and Migrating Data Pipelines, and Supporting Legacy Systems - SumUp (Fintech German Company)

  • Designed and implemented data pipelines for both batch and stream processing, optimizing data flow and efficiency;

  • Explored and implemented data pipelines using AWS Glue and PySpark, ensuring scalability and robustness;

  • Integrated Delta Lake into the pipelines to enable delta processing, enhancing data management capabilities;

  • Developed job templating using Jinja to streamline the creation and management of data processing jobs;

  • Built and automated data validation pipelines, ensuring the accuracy and reliability of processed data;

  • Deployed and configured Trino to facilitate efficient data access and querying across various sources;

  • Prepared comprehensive documentation for each component and tool explored, ensuring knowledge transfer and easy maintenance;

  • Utilized tools such as Python, PySpark, Glue (Jobs, Crawlers, Catalogs), Athena, AWS, MWAA (Airflow), Kubernetes, Trino, and Jinja to achieve project goals.

PostgreSQLPostgreSQL
AWSAWS
PythonPython
TerraformTerraform
AWS AthenaAWS Athena
4+
Cognira

Software Engineering Manager/Senior Data ENGINEER

Cognira
Retail
Jan 2019 - Jan 2022 · 3y

Building a Data Curation Platform

  • Implemented a platform designed to make building data pipelines generic, easy, scalable, and quick to assemble for any new client;

  • Prepared detailed design documents, architectural blueprints, and specifications for the platform;

  • Gathered and documented requirements, creating specific epics and tasks, and efficiently distributed work among team members;

  • Developed command-line and pipeline functionalities that enable chaining transformations, facilitating the creation of generic data pipelines;

  • Supported the management of metadata for various entities defined within the platform;

  • Conducted runtime analysis and optimized the performance of different platform functionalities;

  • Studied scalability requirements and designed performance improvement strategies to enhance the platform's robustness;

  • Built a PySpark interface to facilitate seamless integration with data science workflows.

ScalaScala
Azure Blob storageAzure Blob storage
Cognira

Software Engineering Manager/Senior Data ENGINEER

Cognira
Retail
Sep 2017 - Aug 2022 · 4y 11m
  • Ontwikkelde generieke datapijplijnen om ruwe klantgegevens te transformeren naar een formaat dat compatibel is met het datamodel van het demosysteem voor promotieplanning;
  • Schreef scripts om zinvolle bedrijfsgegevens te genereren en zorgde ervoor dat deze in lijn waren met de behoeften van de applicatie;
  • Werkte samen met het wetenschappelijke team om de zakelijke vereisten te begrijpen en de nodige gegevenstransformaties te bepalen om de bruikbaarheid van gegevens te verbeteren;
  • Ontwerpen en implementeren van een generieke PySpark codebase die gegevens efficiënt transformeert zodat ze passen in het vereiste datamodel;
  • Gebruikte tools zoals PySpark, JupyterHub, Kubernetes en Azure Data Lake om het project uit te voeren en te ondersteunen.
ScalaScala
Azure Blob storageAzure Blob storage
Cognira

Software Engineering Manager/Senior Data ENGINEER

Cognira
Sep 2017 - Aug 2022 · 4y 11m
  • Leidde het team bij het bouwen van datapijplijnen ter ondersteuning van de promotieplanningsoplossing van een retailer;
  • Deelgenomen aan vergaderingen met business- en data science-teams om de projectbehoeften te begrijpen en te identificeren;
  • Werkte samen met het team om business requirements te vertalen in bruikbare epics en stories;
  • Ontwierp en implementeerde de geïdentificeerde zakelijke vereisten en zorgde voor afstemming op de projectdoelen;
  • Ontwikkelen en uitvoeren van unit tests om de functionele correctheid van implementaties te garanderen;
  • Het maken van een data loader applicatie met behulp van Scala Spark om data te laden van Parquet bestanden naar Cosmos DB/Cassandra API;
  • Implementeerde een online voorspellings-API met behulp van Scala, Akka en Docker om real-time promotievoorspellingen mogelijk te maken;
  • Managede de implementatie van het project op het Kubernetes-cluster van de klant en zorgde voor een soepele werking en integratie;
  • Gebruikte tools zoals Scala, Spark, Azure Databricks, Azure Data Lake en Kubernetes om projectdoelen te bereiken.
Cognira

R&D Engineer

Cognira
Information Technology (IT) and Services
Sep 2017 - May 2019 · 1y 8m

Project 1: Building a Speech Recognition Solution

  • Developed a speech recognition solution aimed at transforming retailers' questions and commands into actionable tasks executed against a user interface (UI);

  • Utilized TensorFlow, Python, AWS, and Node.js to design and implement the solution, ensuring seamless interaction between the speech recognition engine and the UI.

Project 2: Design and Implementation of a Short Life Cycle Forecasting System

  • Prepared comprehensive design documents and conducted studies on existing AI solutions, with a focus on voice and speech recognition capabilities;

  • Collaborated with the team to prepare and collect relevant data for the project;

  • Executed the processes of data augmentation, validation, and transformation to extract essential information for forecasting purposes;

  • Contributed to building a user interface and integrated backend functionalities using tools such as TensorFlow, Python, AWS, JavaScript, Node.js, Scala, and Spark.

PythonPython
ScalaScala
Azure Blob storageAzure Blob storage
TensorFlowTensorFlow
Machine LearningMachine Learning
Infor

Fullstack Data Scientist

Infor
Information Technology (IT) and Services
Aug 2014 - Sep 2017 · 3y 1m
  • Designed and structured the architecture for various components of a retail forecasting project;

  • Implemented and deployed key components, ensuring seamless functionality within the overall system;

  • Integrated all components, automating the processes and establishing an end-to-end batch process for streamlined operations;

  • Optimized the runtime and performance of each component, enhancing the system's overall efficiency;

  • Developed forecast comparison templates to facilitate the evaluation of forecast quality, aiding in accurate performance assessments;

  • Utilized Logicblox, Python, and Tableau Software to achieve project goals, ensuring high-quality results.

PythonPython
Data Science
Data Engineering
Machine LearningMachine Learning
Integration Testing
TableauTableau

Beoordeling

Uitmuntendheid in techniek

Rihab algemene prestaties in een 90-minuten durende technische beoordeling zijn in de top 25% van de gescreende Data Engineer bij Proxify.

Certificaten 1

Databricks Certified Data Engineer AssociateDatabricks, Inc.

Issued Feb 2025 - Expires Feb 2027
Credential ID 133741658

DatabricksDatabricks
Data Engineering
Databricks Certified Data Engineer AssociateDatabricks, Inc.

Issued Feb 2025 - Expires Feb 2027
Credential ID 133741658

DatabricksDatabricks
Data Engineering
Wil je meer weten over de certificeringen van Rihab?Boek een gesprek

Educatie

NSO
National School Of Computer Science
Computer Science2011 - 2014

Stop met browsen.
Word sneller gekoppeld.