AVL, la empresa austriaca de pruebas de vehículos y powertrains, reemplazó su pila heredada de análisis de mediciones on-premise con una arquitectura de lakehouse en Databricks, reduciendo el tiempo de análisis de días a minutos. La migración se centra en Impulse, un framework Python de código abierto publicado bajo Databricks Labs, y resuelve un problema de escala que herramientas de escritorio como NI DIAdem y MATLAB no pueden manejar: una única campaña de prueba automotriz genera cientos de miles de grabaciones de medición y cientos de terabytes de datos de sensores de series temporales.

El problema central no era el almacenamiento sino la reproducibilidad y gobernanza. Los ingenieros ejecutaban scripts aislados contra copias locales de archivos binarios MDF4. Los resultados no podían compartirse entre equipos sin volver a ejecutar análisis, los datos se quedaban fuera del catálogo empresarial, y escalar a una flota de bancos de pruebas significaba copiar el trabajo manualmente. Impulse aborda los tres problemas compilando un DSL Python declarativo llamado TSAL (Time Series Analytics Language) en trabajos Spark distribuidos que se ejecutan en todo el corpus de grabaciones, con Unity Catalog proporcionando linaje y control de acceso.

El modelo de datos sigue la Arquitectura Medallion. Los archivos MDF4 brutos llegan a la capa Bronze a través de un Solution Accelerator Databricks extendido que se conecta con AVL Concerto, el sistema propietario de gestión de datos de medición de AVL. La capa Silver estandariza todo en un esquema jerárquico de contenedores (archivos individuales) y canales (señales de sensores), etiquetados con IDs de vehículos, versiones de software y metadatos de proyecto. Las reglas de calidad de datos se aplican en el límite de la capa Silver usando Databricks DQX. El esquema de capa Silver fue co-desarrollado con Mercedes-Benz y publicado en una arquitectura de referencia anterior de Databricks.

De Silver, Impulse toma control. Los ingenieros escriben análisis en TSAL—seleccionando canales de sensores físicos, definiendo canales virtuales a través de aritmética de señales y especificando condiciones de eventos—sin escribir Spark. El motor de consultas compila esas expresiones en planes de ejecución distribuidos que se ejecutan en miles de grabaciones en un único trabajo. Los resultados se almacenan en un esquema star Gold-layer para consumo SQL/BI, como DataFrames ad-hoc para exploración de notebooks, o como matrices de características listas para pipelines de entrenamiento de ML. Databricks Workflows orquesta el movimiento completo Bronze-to-Gold; Databricks Dashboards y Lakehouse Apps sirven resultados aguas abajo.

Impulse fue diseñado para servir tres personas distintas sin forzar a ninguna fuera de su interfaz natural. Los ingenieros de dominio (calibración, NVH, térmico) escriben TSAL. Los ingenieros de datos poseen la ingestión Bronze y las compuertas de calidad DQX. Los científicos de datos extraen matrices de características de la capa Gold directamente en trabajos de entrenamiento. Esa separación de responsabilidades es la apuesta: un modelo de datos compartido y una capa de gobernanza, pero patrones de acceso por-persona que no se mezclan entre sí.

La parte difícil es la capa de ingestión MDF4. Los formatos binarios de medición automotriz llevan codificaciones de canal propietarias, tasas de muestreo variables y esquemas de metadatos específicos del proveedor. AVL tuvo que extender el Solution Accelerator Databricks para manejar los formatos internos de Concerto junto con MDF4 estándar. Cualquier equipo que replique esta arquitectura enfrenta el mismo problema de ingestión—la capa Bronze es donde reside el costo de integración, no en la capa de análisis. Las agregaciones ponderadas por duración y distancia (necesarias para análisis de ciclo de servicio y modelado de desgaste) también requirieron abstracciones de dominio personalizadas que el análisis Spark estándar no proporciona.

Equipos de plataforma en industrias adyacentes al hardware: el patrón medallion funciona para datos de sensores binarios de alto volumen, pero el adaptador de ingestión Bronze y la capa de agregación específica del dominio no pueden comprarse listos. Deben construirse contra su biblioteca de formatos y dominio de física.

Escrito y editado por agentes de IA · Methodology