Himanshu S.

Himanshu S.

Data Engineer

Germany
Membre de confiance depuis 2024
5 années d'expérience

Depuis cinq ans, Himanshu développe ses compétences et se positionne en tant que consultant en données full-stack, compte tenu de son expertise dans le machine learning et la data science.

Pendant son parcours chez Knowledge Foundry et ZS Associates, Himanshu a apporté des contributions notables aux équipes techniques. Ses compétences très variées et son implication font de lui un développeur fiable dans le domaine du data engineering.

Expertise principale

OpenCVOpenCV4 ans
LinuxLinux5 ans
LangChainLangChain2 ans
Scikit-learnScikit-learn5 ans
33+

Expérience5

InfoGain

Data Engineer

InfoGain
Jun 2021 - Apr 2022 · 10m
  • Création d'une solution d'entrepôt de données utilisant AWS Redshift et AWS Glue, migration d'une base de données OLAP à partir de MS SQL Server.
  • Mise en place d'un pipeline DBT pour les processus ETL, transfert de données entre un entrepôt MySQL et une base de données d'activité vers une base de données graphique Neo4j en utilisant la programmation native Python. La configuration a été mise en œuvre sur une boîte Linux AWS avec Neo4j fonctionnant comme un conteneur Docker.
  • Développement d'un pipeline ETL pour effectuer des analyses de panier de marché et d'autres statistiques marketing sur des millions de lignes de données transactionnelles. Utilisé Redshift comme base de données transactionnelle et l'a alimenté de manière serverless à l'aide de fonctions Amazon Lambda en temps réel.
InfoGain

Data Engineer Consultant

InfoGain
Information Technology (IT) and Services
Jun 2021 - Apr 2022 · 10m
  • Created a Data Warehouse solution utilizing AWS Redshift and AWS Glue, migrating an OLAP database from MSSQL Server.

  • Established a DBT pipeline for ETL processes, transferring data between MySQL warehouse and activity database to Neo4j graph database using native Python programming. Setup was implemented on an AWS Linux box with Neo4j running as a Docker container.

  • Developed an ETL pipeline for conducting market basket analysis and other marketing statistics on millions of rows of transactional data. Utilized Redshift as a transactional database and populated it in a serverless fashion using Amazon Lambda function in real-time.

Microsoft Power BIMicrosoft Power BI
Knowledge Foundry Business Solutions

Data Scientist

Knowledge Foundry Business Solutions
Information Technology (IT) and Services
May 2021 - Mar 2022 · 10m

Contributed in building Market Intelligence dashboard pipeline. Using unstructured review text, did a NER and relationship extraction to get Sentiment at entity level.

Trend forecasting and sentiment calculation to help businesses make better decisions and improve marketing strategy. Used AWS for cloud computing.

ZS Associates

Data Engineer

ZS Associates
Information Technology (IT) and Services
Oct 2020 - Apr 2021 · 6m
  • Développement d'un pipeline pour convertir les données dans un format structuré, permettant de servir à Prodigy pour l'étiquetage lié au ML. L'ensemble du pipeline a été construit de manière modulaire à l'aide de Python et de scripts shell.
  • Mise en œuvre de transformations de données en Python et stockage des données traitées dans un seau Amazon S3 pour le stockage et l'accessibilité.
KnowledgeFoundry

Data Engineer

KnowledgeFoundry
Data Analytics
Jun 2019 · 6y 9m
  • Automatiser le processus d'écriture des requêtes Hive pour l'ETL de plusieurs tables (à la fois unique et incrémentiel) en générant des scripts automatisés.
  • Lire des fichiers CSV à partir de dossiers, créer des tables et effectuer des chargements incrémentaux de manière séquentielle.
  • Mise en place de Snowflake comme solution de stockage principale pour les données structurées et utilisation de DBT pour les processus ETL. Vous avez créé des modèles basés sur SQL pour définir la logique de transformation, en assurant la flexibilité avec le chargement incrémental et le contrôle de la version à l'aide de DBT.
  • Préparer les données transformées pour l'analyse à l'aide d'outils de veille stratégique, en facilitant la découverte d'informations sans effort. Effectuer des contrôles réguliers dans Snowflake et DBT pour maintenir l'intégrité des données et la fonctionnalité du pipeline.
  • Concevoir et développer des pipelines de données pour extraire, transformer et charger des données à partir de diverses sources dans un entrepôt de données centralisé.
Microsoft Power BIMicrosoft Power BI

Certificats 1

Databricks Certified Machine Learning ProfessionalDatabricks, Inc.

Issued Jan 2025 - Expires Jan 2027
Credential ID 131562332

DatabricksDatabricks
Machine LearningMachine Learning
Databricks Certified Machine Learning ProfessionalDatabricks, Inc.

Issued Jan 2025 - Expires Jan 2027
Credential ID 131562332

DatabricksDatabricks
Machine LearningMachine Learning
Souhaitez-vous en savoir plus sur les certifications de Himanshu ?Planifier un appel

Éducation

Dharmsinh Desai University
Dharmsinh Desai University
Information Technology2015 - 2019

Arrêtez de naviguer.
Soyez jumelé plus rapidement.