Era dos Agentes: Refatorando InfraView com Claude Code e Lakeflow

10/03/2026

Engenharia de Dados [Cast]

0:00

13:11

Um pipeline monolítico de 5.000 linhas. Sete notebooks acoplados. Dez chamadas de API dentro de definições DLT. O que acontece quando você coloca quarenta agentes de IA especializados nesse problema e dá um prazo de três dias?

Neste episódio da série Era dos Agentes, exploramos a refatoração completa do pipeline de dados do InfraView: de um monolito no Databricks para uma arquitetura limpa de três camadas, usando AWS Lambda, Lakeflow Declarative Pipelines e Databricks Asset Bundles.

A história começa com um problema real: a infraestrutura que sustentava a cobrança de clientes era frágil, não escalável e impossível de testar. Um timeout de API às duas da manhã derrubava o pipeline inteiro. Doze constantes críticas de threshold estavam espalhadas como números mágicos por cinco arquivos diferentes. Ninguém conseguia provar que as fórmulas estavam corretas.

Na segunda sessão, o projeto quase parou. Um bug não documentado no motor DLT: o decorator dp.table em Python, com nomes fully qualified, quebrava a resolução do grafo JVM em pipelines multi-schema. Foram três a quatro horas de debugging. Sete abordagens falharam.

Até que surgiu o Padrão Híbrido SQL+Python: notebooks Python criam views temporárias com dp.view para a lógica complexa, e notebooks SQL registram as tabelas finais com CREATE OR REFRESH. O DLT processa tudo como um único grafo de computação.

O clímax é a validação em escala de produção: 920.676 registros reais de OTel processados simultaneamente pelos dois pipelines, legado e novo. 822 milhões de linhas Silver geradas. O resultado: InfraRating (risco e otimização) com 100% de match exato em 42.640 comparações. Performance de 38 minutos no serverless contra 90 minutos no clássico: 2,3 vezes mais rápido, com dados idênticos.

O novo pipeline encontrou 68 hosts onde o legado encontrava apenas 14. Não é só equivalente: é melhor.

Como foi construído: uma pessoa de engenharia trabalhando com Claude Code e quarenta agentes de IA especializados: lakeflow architect, spark specialist, code reviewer, lambda builder, medallion architect. Seis sessões ao longo de três dias. 1,8 milhão de tokens de raciocínio colaborativo.

Tecnologias: Claude Code, Databricks Lakeflow, Unity Catalog, AWS Lambda, SAM, Databricks Asset Bundles, PySpark, Spark SQL, Auto Loader e Delta Live Tables.

Este episódio foi gerado com NotebookLM a partir de fontes produzidas por agentes de IA especializados. O conteúdo que você ouve é o produto direto da era agêntica em ação.

Luan Moreno =
https://www.linkedin.com/in/luanmoreno/

Mais episódios de "Engenharia de Dados [Cast]"

Mais episódios

Descobre o mundo dos podcasts com a app gratuita GetPodcast.

Subscreve os teus podcasts preferidos, ouve episódios offline e obtém recomendações fantásticas.

Uma empresa de

Era dos Agentes: Refatorando InfraView com Claude Code e Lakeflow

Engenharia de Dados [Cast]

Mais episódios de "Engenharia de Dados [Cast]"

Era dos Agentes: Refatorando InfraView com Claude Code e Lakeflow

De DBA a Lead Data Engineer: a Jornada de Luan Moreno na Engenharia de Dados

Desenvolvimento em Kubernetes

Data AI Sunset Meetup Brasília - O Futuro da Engenharia de Dados, Comunidade, IA e Carreira

The Data Engineering & GenAI Era: Insights with Eduardo Ordax

Como é Trabalhar com Apache Spark na Visão de uma Engenharia de Dados Iniciante

O Dia a Dia de um Analytics Engineer com o Time de Dados da Clicksign

O Dia a Dia de um Arquiteto e Engenheiro de Dados com o Time de Dados da Clicksign

Data Analytics com o Time de Dados da Clicksign

Desafios na Construção de uma Plataforma de Dados no Kubernetes com o Time do Orion