Fuel Price Pipeline BR
Pipeline batch que processa 120.823 registros de preços de combustíveis da ANP (2004–2021) com arquitetura Medallion, Unity Catalog e analytics via Databricks SQL.
Batch · Medallion Ver Códigofrom pyspark.sql import SparkSession
from delta.tables import DeltaTable
spark = (
SparkSession.builder
.appName("medallion-pipeline")
.config(
"spark.sql.extensions",
"io.delta.sql.DeltaSparkSessionExtension"
)
.getOrCreate()
)
# Bronze → ingest raw with Auto Loader
df_bronze = (
spark.readStream
.format("cloudFiles")
.option("cloudFiles.format", "json")
.load("/mnt/raw/")
)
# Silver → clean & deduplicate
df_silver = df_bronze.dropDuplicates(["id"])
(df_silver.writeStream
.format("delta")
.outputMode("append")
.start("/mnt/silver/"))
Com mais de 8 anos de experiência, atuo como Engenheiro de Dados e Engenheiro de Machine Learning especializado no ecossistema Azure Databricks. Projeto e implemento pipelines de dados escaláveis com arquitetura Medallion, Delta Lake e Delta Live Tables, além de soluções de ML com Spark ML e MLflow. Meu foco está em construir sistemas que transformam dados brutos em valor real — do batch ao streaming, da ingestão ao modelo em produção.
Tecnologias que uso no dia a dia
Features nativas da plataforma que uso nos projetos
Ingestão incremental de arquivos em cloud storage com detecção automática de schema e exactly-once semantics.
Pipelines declarativos com qualidade de dados integrada, expectativas e materialização automática de tabelas Delta.
Orquestração nativa de jobs multi-task com dependências, retries e monitoramento integrado ao cluster.
Processamento de streams em tempo real sobre DataFrames Spark com semântica exactly-once e tolerância a falhas.
Padrão Bronze → Silver → Gold para estruturar data lakes com camadas progressivas de qualidade e refinamento.
Governança centralizada de dados, modelos e notebooks com controle de acesso e linhagem de dados unificados.
Pipelines de dados end-to-end no Databricks
Pipeline batch que processa 120.823 registros de preços de combustíveis da ANP (2004–2021) com arquitetura Medallion, Unity Catalog e analytics via Databricks SQL.
Batch · Medallion Ver CódigoPipeline de streaming em tempo real que coleta dados sísmicos da API USGS, processa via Auto Loader e Structured Streaming e gera alertas de risco com scores calculados.
Streaming · Auto Loader Ver CódigoSistema de ML end-to-end com 28.700 eventos sísmicos reais para classificação de risco e predição de magnitude, com feature engineering, MLflow e batch inference.
ML · MLflow Ver CódigoPipeline meteorológico com Delta Live Tables processando 87 anos de dados históricos, com validações de qualidade e dashboard atualizado a cada 6h via Workflows.
DLT · Workflows Ver CódigoPipeline completo de ML com 755.491 registros horários (1940–2026) comparando XGBoost, RandomForest e Prophet para previsão de chuva com inferência automática a cada 6h.
ML Avançado · Previsão Ver CódigoPipeline end-to-end cruzando ENEM, Censo Escolar e IDEB para revelar os fatores que impactam o desempenho educacional no Brasil — com 8 tabelas Gold, RandomForest, K-Means e ingestão automática via GitHub Actions.
Educação · ML · GitHub Actions Ver CódigoNovos pipelines e experimentos em desenvolvimento no Databricks.
Acompanhar no GitHubInteressado em colaborar ou tem uma oportunidade? Vamos conversar.