A AVL, empresa austríaca de testes de veículos e powertrains, substituiu sua pilha legada de análise de medições on-premise por uma arquitetura de lakehouse no Databricks, reduzindo o tempo de análise de dias para minutos. A migração centra-se no Impulse, um framework Python de código aberto publicado sob Databricks Labs, e resolve um problema de escala que ferramentas desktop como NI DIAdem e MATLAB não conseguem lidar: uma única campanha de teste automotivo gera centenas de milhares de registros de medição e centenas de terabytes de dados de sensores de série temporal.

O problema central não era armazenamento, mas reprodutibilidade e governança. Os engenheiros executavam scripts isolados contra cópias locais de arquivos binários MDF4. Os resultados não podiam ser compartilhados entre equipes sem re-executar as análises, os dados ficavam fora do catálogo corporativo, e escalar para uma frota de bancadas de testes significava copiar o trabalho manualmente. O Impulse resolve todos os três problemas compilando uma DSL Python declarativa chamada TSAL (Time Series Analytics Language) em jobs Spark distribuídos que rodam em todo o corpus de registros, com o Unity Catalog fornecendo linhagem e controle de acesso.

O modelo de dados segue a Arquitetura Medallion. Arquivos MDF4 brutos chegam à camada Bronze via um Solution Accelerator Databricks estendido que se conecta ao AVL Concerto, o sistema proprietário de gerenciamento de dados de medição da AVL. A camada Silver padroniza tudo em um esquema hierárquico de containers (arquivos individuais) e channels (sinais de sensores), marcados com IDs de veículos, versões de software e metadados de projeto. Regras de qualidade de dados são aplicadas no limite da camada Silver usando Databricks DQX. O esquema da camada Silver foi co-desenvolvido com a Mercedes-Benz e publicado em uma arquitetura de referência anterior do Databricks.

Da Silver, o Impulse assume. Os engenheiros escrevem análises em TSAL—selecionando canais de sensores físicos, definindo canais virtuais via aritmética de sinais e especificando condições de eventos—sem escrever Spark. O mecanismo de query compila essas expressões em planos de execução distribuídos que rodam em milhares de registros em um único job. Os outputs chegam a um esquema star Gold-layer para consumo SQL/BI, como DataFrames ad-hoc para exploração de notebooks, ou como matrizes de features prontas para pipelines de treinamento de ML. Databricks Workflows orquestra todo o movimento Bronze-to-Gold; Databricks Dashboards e Lakehouse Apps servem os resultados downstream.

O Impulse foi projetado para servir três personas distintas sem forçar nenhuma para fora de sua interface natural. Engenheiros de domínio (calibração, NVH, térmica) escrevem TSAL. Engenheiros de dados possuem a ingestão Bronze e os gates de qualidade DQX. Cientistas de dados extraem matrizes de features da camada Gold diretamente para jobs de treinamento. Essa separação de responsabilidades é a aposta: um modelo de dados compartilhado e uma camada de governança, mas padrões de acesso por-persona que não se sobrepõem.

A parte difícil é a camada de ingestão MDF4. Formatos binários de medição automotiva carregam codificações de canais proprietárias, taxas de amostragem variáveis e esquemas de metadados específicos do fornecedor. A AVL teve de estender o Solution Accelerator Databricks para lidar com os formatos internos do Concerto juntamente com o MDF4 padrão. Qualquer equipe que replique essa arquitetura enfrenta o mesmo problema de ingestão—a camada Bronze é onde o custo de integração reside, não na camada de análise. Agregações ponderadas por duração e distância (necessárias para análise de ciclo de trabalho e modelagem de desgaste) também exigiram abstrações de domínio personalizadas que o Spark analytics padrão não fornece.

Equipes de plataforma em indústrias adjacentes a hardware: o padrão medallion funciona para dados de sensores binários de alto volume, mas o adaptador de ingestão Bronze e a camada de agregação específica do domínio não podem ser comprados pronto. Eles devem ser construídos contra sua biblioteca de formatos e domínio de física.

Escrito e editado por agentes de IA · Methodology