Higor Azevedo

from pyspark.sql import SparkSession from delta.tables import DeltaTable spark = ( SparkSession.builder .appName("medallion-pipeline") .config( "spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension" ) .getOrCreate() ) # Bronze → ingest raw with Auto Loader df_bronze = ( spark.readStream .format("cloudFiles") .option("cloudFiles.format", "json") .load("/mnt/raw/") ) # Silver → clean & deduplicate df_silver = df_bronze.dropDuplicates(["id"]) (df_silver.writeStream .format("delta") .outputMode("append") .start("/mnt/silver/"))

Sobre mim

Com mais de 8 anos de experiência, atuo como Engenheiro de Dados e Engenheiro de Machine Learning especializado no ecossistema Azure Databricks. Projeto e implemento pipelines de dados escaláveis com arquitetura Medallion, Delta Lake e Delta Live Tables, além de soluções de ML com Spark ML e MLflow. Meu foco está em construir sistemas que transformam dados brutos em valor real — do batch ao streaming, da ingestão ao modelo em produção.

Stack Técnica

Tecnologias que uso no dia a dia

Python

Databricks

Apache Spark

Delta Lake

MLflow

Azure

SQL

Pandas

Spark ML

Features nativas da plataforma que uso nos projetos

Auto Loader Ingestão

Ingestão incremental de arquivos em cloud storage com detecção automática de schema e exactly-once semantics.

Delta Live Tables Pipelines

Pipelines declarativos com qualidade de dados integrada, expectativas e materialização automática de tabelas Delta.

Databricks Workflows Orquestração

Orquestração nativa de jobs multi-task com dependências, retries e monitoramento integrado ao cluster.

Structured Streaming Streaming

Processamento de streams em tempo real sobre DataFrames Spark com semântica exactly-once e tolerância a falhas.

Medallion Architecture Arquitetura

Padrão Bronze → Silver → Gold para estruturar data lakes com camadas progressivas de qualidade e refinamento.

Unity Catalog Governança

Governança centralizada de dados, modelos e notebooks com controle de acesso e linhagem de dados unificados.

Projetos

Pipelines de dados end-to-end no Databricks

Fuel Price Pipeline BR

Pipeline batch que processa 120.823 registros de preços de combustíveis da ANP (2004–2021) com arquitetura Medallion, Unity Catalog e analytics via Databricks SQL.

PySpark Delta Lake Unity Catalog Databricks SQL

Batch · Medallion Ver Código

Earthquake Streaming Pipeline

Pipeline de streaming em tempo real que coleta dados sísmicos da API USGS, processa via Auto Loader e Structured Streaming e gera alertas de risco com scores calculados.

Structured Streaming Auto Loader Delta Lake USGS API

Streaming · Auto Loader Ver Código

Earthquake ML Pipeline

Sistema de ML end-to-end com 28.700 eventos sísmicos reais para classificação de risco e predição de magnitude, com feature engineering, MLflow e batch inference.

Spark ML MLflow Feature Store Unity Catalog

ML · MLflow Ver Código

Weather DLT Pipeline

Pipeline meteorológico com Delta Live Tables processando 87 anos de dados históricos, com validações de qualidade e dashboard atualizado a cada 6h via Workflows.

Delta Live Tables Workflows Open-Meteo Unity Catalog

DLT · Workflows Ver Código

Weather ML Rain Forecast

Pipeline completo de ML com 755.491 registros horários (1940–2026) comparando XGBoost, RandomForest e Prophet para previsão de chuva com inferência automática a cada 6h.

XGBoost Prophet MLflow Time Series

ML Avançado · Previsão Ver Código

Brazil Education Pipeline

Pipeline end-to-end cruzando ENEM, Censo Escolar e IDEB para revelar os fatores que impactam o desempenho educacional no Brasil — com 8 tabelas Gold, RandomForest, K-Means e ingestão automática via GitHub Actions.

PySpark MLflow GitHub Actions Scikit-learn

Educação · ML · GitHub Actions Ver Código

Mais projetos chegando

Novos pipelines e experimentos em desenvolvimento no Databricks.

Acompanhar no GitHub

Data Engineer · ML Engineer