// Olá, eu sou

Higor Azevedo

Data Engineer · ML Engineer

pipeline.py
from pyspark.sql import SparkSession
from delta.tables import DeltaTable

spark = (
    SparkSession.builder
    .appName("medallion-pipeline")
    .config(
        "spark.sql.extensions",
        "io.delta.sql.DeltaSparkSessionExtension"
    )
    .getOrCreate()
)

# Bronze → ingest raw with Auto Loader
df_bronze = (
    spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "json")
    .load("/mnt/raw/")
)

# Silver → clean & deduplicate
df_silver = df_bronze.dropDuplicates(["id"])

(df_silver.writeStream
    .format("delta")
    .outputMode("append")
    .start("/mnt/silver/"))

Sobre mim

Com mais de 8 anos de experiência, atuo como Engenheiro de Dados e Engenheiro de Machine Learning especializado no ecossistema Azure Databricks. Projeto e implemento pipelines de dados escaláveis com arquitetura Medallion, Delta Lake e Delta Live Tables, além de soluções de ML com Spark ML e MLflow. Meu foco está em construir sistemas que transformam dados brutos em valor real — do batch ao streaming, da ingestão ao modelo em produção.

Stack Técnica

Tecnologias que uso no dia a dia

Python
Python
Databricks
Databricks
Apache Spark
Apache Spark
Delta Lake
MLflow
MLflow
Azure
Azure
SQL
SQL
Pandas
Pandas
Spark ML
Databricks Ecosystem

Features nativas da plataforma que uso nos projetos

Auto Loader Ingestão

Ingestão incremental de arquivos em cloud storage com detecção automática de schema e exactly-once semantics.

Delta Live Tables Pipelines

Pipelines declarativos com qualidade de dados integrada, expectativas e materialização automática de tabelas Delta.

Databricks Workflows Orquestração

Orquestração nativa de jobs multi-task com dependências, retries e monitoramento integrado ao cluster.

Structured Streaming Streaming

Processamento de streams em tempo real sobre DataFrames Spark com semântica exactly-once e tolerância a falhas.

Medallion Architecture Arquitetura

Padrão Bronze → Silver → Gold para estruturar data lakes com camadas progressivas de qualidade e refinamento.

Unity Catalog Governança

Governança centralizada de dados, modelos e notebooks com controle de acesso e linhagem de dados unificados.

Projetos

Pipelines de dados end-to-end no Databricks

Fuel Price Pipeline BR

Fuel Price Pipeline BR

Pipeline batch que processa 120.823 registros de preços de combustíveis da ANP (2004–2021) com arquitetura Medallion, Unity Catalog e analytics via Databricks SQL.

PySpark Delta Lake Unity Catalog Databricks SQL
Batch · Medallion Ver Código
Earthquake Streaming Pipeline

Earthquake Streaming Pipeline

Pipeline de streaming em tempo real que coleta dados sísmicos da API USGS, processa via Auto Loader e Structured Streaming e gera alertas de risco com scores calculados.

Structured Streaming Auto Loader Delta Lake USGS API
Streaming · Auto Loader Ver Código
Earthquake ML Pipeline

Earthquake ML Pipeline

Sistema de ML end-to-end com 28.700 eventos sísmicos reais para classificação de risco e predição de magnitude, com feature engineering, MLflow e batch inference.

Spark ML MLflow Feature Store Unity Catalog
ML · MLflow Ver Código
Weather DLT Pipeline

Weather DLT Pipeline

Pipeline meteorológico com Delta Live Tables processando 87 anos de dados históricos, com validações de qualidade e dashboard atualizado a cada 6h via Workflows.

Delta Live Tables Workflows Open-Meteo Unity Catalog
DLT · Workflows Ver Código
Weather ML Rain Forecast

Weather ML Rain Forecast

Pipeline completo de ML com 755.491 registros horários (1940–2026) comparando XGBoost, RandomForest e Prophet para previsão de chuva com inferência automática a cada 6h.

XGBoost Prophet MLflow Time Series
ML Avançado · Previsão Ver Código
Brazil Education Pipeline

Brazil Education Pipeline

Pipeline end-to-end cruzando ENEM, Censo Escolar e IDEB para revelar os fatores que impactam o desempenho educacional no Brasil — com 8 tabelas Gold, RandomForest, K-Means e ingestão automática via GitHub Actions.

PySpark MLflow GitHub Actions Scikit-learn
Educação · ML · GitHub Actions Ver Código

Mais projetos chegando

Novos pipelines e experimentos em desenvolvimento no Databricks.

Acompanhar no GitHub

Contato

Interessado em colaborar ou tem uma oportunidade? Vamos conversar.