![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
Era dos Agentes: Refatorando InfraView com Claude Code e Lakeflow
Um pipeline monolítico de 5.000 linhas. Sete notebooks acoplados. Dez chamadas de API dentro de definições DLT. O que acontece quando você coloca quarenta agentes de IA especializados nesse problema e dá um prazo de três dias?
Neste episódio da série Era dos Agentes, exploramos a refatoração completa do pipeline de dados do InfraView: de um monolito no Databricks para uma arquitetura limpa de três camadas, usando AWS Lambda, Lakeflow Declarative Pipelines e Databricks Asset Bundles.
A história começa com um problema real: a infraestrutura que sustentava a cobrança de clientes era frágil, não escalável e impossível de testar. Um timeout de API às duas da manhã derrubava o pipeline inteiro. Doze constantes críticas de threshold estavam espalhadas como números mágicos por cinco arquivos diferentes. Ninguém conseguia provar que as fórmulas estavam corretas.
Na segunda sessão, o projeto quase parou. Um bug não documentado no motor DLT: o decorator dp.table em Python, com nomes fully qualified, quebrava a resolução do grafo JVM em pipelines multi-schema. Foram três a quatro horas de debugging. Sete abordagens falharam.
Até que surgiu o Padrão Híbrido SQL+Python: notebooks Python criam views temporárias com dp.view para a lógica complexa, e notebooks SQL registram as tabelas finais com CREATE OR REFRESH. O DLT processa tudo como um único grafo de computação.
O clímax é a validação em escala de produção: 920.676 registros reais de OTel processados simultaneamente pelos dois pipelines, legado e novo. 822 milhões de linhas Silver geradas. O resultado: InfraRating (risco e otimização) com 100% de match exato em 42.640 comparações. Performance de 38 minutos no serverless contra 90 minutos no clássico: 2,3 vezes mais rápido, com dados idênticos.
O novo pipeline encontrou 68 hosts onde o legado encontrava apenas 14. Não é só equivalente: é melhor.
Como foi construído: uma pessoa de engenharia trabalhando com Claude Code e quarenta agentes de IA especializados: lakeflow architect, spark specialist, code reviewer, lambda builder, medallion architect. Seis sessões ao longo de três dias. 1,8 milhão de tokens de raciocínio colaborativo.
Tecnologias: Claude Code, Databricks Lakeflow, Unity Catalog, AWS Lambda, SAM, Databricks Asset Bundles, PySpark, Spark SQL, Auto Loader e Delta Live Tables.
Este episódio foi gerado com NotebookLM a partir de fontes produzidas por agentes de IA especializados. O conteúdo que você ouve é o produto direto da era agêntica em ação.
Mais episódios de "Engenharia de Dados [Cast]"
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
Não percas um episódio de “Engenharia de Dados [Cast]” e subscrevê-lo na aplicação GetPodcast.
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
![Engenharia de Dados [Cast] podcast](/assets/images/square.png)
