Google Lanza Modelo Tabular Zero-Shot Pero Oculta Datos de Benchmark

Google Research lanzó TabFM el 30 de junio de 2026—un modelo de fundación para clasificación y regresión tabular que predice en un único paso hacia adelante sin entrenamiento por dataset, búsqueda de hiperparámetros o ingeniería de características. Evaluado en TabArena en 38 conjuntos de clasificación y 13 de regresión (700 a 150.000 muestras), TabFM está disponible en Hugging Face y GitHub, reflejando el patrón de TimesFM de Google: lógica zero-shot aplicada a tablas estructuradas en lugar de series temporales.

Desplegar XGBoost en un nuevo dataset típicamente requiere horas de ajuste de hiperparámetros e ingeniería de características específica del dominio. TabFM evita ese ciclo tratando todo el dataset—filas de entrenamiento y prueba juntas—como una única solicitud. El modelo lee la tabla en el momento de la inferencia, realiza predicciones y nunca actualiza pesos. Este es el aprendizaje en contexto aplicado a una estructura 2D sin orden.

La arquitectura tiene tres etapas. La atención alternada entre filas y columnas procesa la tabla cruda, descubriendo interacciones de características en ambas dimensiones simultáneamente. La representación contextualizada de cada fila se comprime en un único vector denso. Un transformador dedicado ejecuta luego aprendizaje en contexto sobre esa secuencia de incrustaciones comprimidas en lugar de la cuadrícula cruda, manteniendo la inferencia manejable conforme crece el tamaño del dataset. Google combina la atención alternada de TabPFN con el paso ICL de fila comprimida de TabICL.

Los datos de entrenamiento son completamente sintéticos, generados a través de modelos causales estructurales que incorporan funciones aleatorias. La lógica de Google: los datasets tabulares de código abierto a escala industrial no existen en volumen suficiente. Los esquemas propietarios, etiquetas sensibles y tamaños de tablas en producción los hacen inaccesibles. Los datos generados por SCM se escalan arbitrariamente y generalizan a tablas del mundo real. Se lanzan dos configuraciones: TabFM (paso único hacia adelante) y TabFM-Ensemble (conjunto de 32 vías con características cruzadas, características SVD, ponderación de mínimos cuadrados y escalado de Platt).

Los modelos de fundación tabulares se están acelerando. TabICLv2 (INRIA) reporta una tasa de victorias del 80% contra XGBoost, CatBoost y LightGBM fuertemente ajustados en TabArena y se ejecuta en CPU. TabPFN-3 (Prior Labs, adquirida por SAP, publicada en mayo de 2026) está en Elo 1673 en el tablero TabArena de 51 datasets—el modelo único de mayor rendimiento y 77 Elo por delante de TabICLv2 (Elo 1596). En el segmento de datos pequeños (≤10.000 muestras, 36 datasets), TabPFN-3 por defecto lidera LightGBM por 253 Elo (1642 vs. 1389). El conjunto de 4 horas de AutoGluon encabeza el tablero en aproximadamente Elo 1695.

Los profesionales en Hacker News señalaron el reporte de benchmark de TabFM. El artículo del blog de Google muestra solo puntuaciones Elo, no el conjunto completo de métricas de TabArena (puntuaciones normalizadas, matrices de tasa de victorias, rangos promedio). La carpeta de resultados en GitHub contiene archivos parquet sin documentar en lugar de un tablero legible. Si TabFM-Ensemble supera, iguala o queda atrás de TabPFN-3 en los mismos subconjuntos de dataset no puede determinarse a partir de datos publicados.

La contribución arquitectónica merece estudio: atención 2D alternada alimentando incrustaciones de fila comprimidas en un transformador de aprendizaje en contexto, preentrenado en datos sintéticos generados por SCM. Para un líder de plataforma ML, la pregunta práctica es más simple: TabPFN-3 y TabICLv2 se entregan con tablas de benchmark completas y código listo para producción. TabFM no. Adopta cuando la documentación llegue.

Sources

TabFM performs tabular classification and regression in a single forward pass — no per-dataset training, no hyperparameter tuning, no feature engineering
"TabFM eliminates the need for manual model training, hyperparameter tuning, and complex feature engineering. We are excited to share how this approach allows users to generate high-quality predictions on previously unseen tables in a single forward pass."
research.google ↗
Benchmarked on TabArena across 38 classification and 13 regression datasets ranging from 700 to 150,000 samples
"This comprehensive evaluation spans 38 classification datasets and 13 regression datasets ranging in size from 700 to 150,000 samples."
research.google ↗
TabFM architecture uses alternating row and column attention, row compression into dense vectors, and an ICL transformer over compressed row embeddings
"This architecture relies on three key mechanisms: Alternating row and column attention... Row compression... In-context learning (ICL)"
research.google ↗
TabFM is trained entirely on hundreds of millions of synthetic datasets generated via structural causal models (SCMs)
"TabFM is trained entirely on hundreds of millions of synthetic datasets. These datasets are dynamically generated using structural causal models (SCMs) that incorporate a wide variety of random functions."
research.google ↗
High-quality open-source tabular datasets are critically scarce; industrial tables contain proprietary schemas and sensitive information
"a major hurdle in tabular ML is that high-quality, diverse tabular datasets... are critically scarce in the open-source space. Industrial tables often contain proprietary schemas and sensitive information, making them inaccessible for broad pre-training."
research.google ↗
TabFM-Ensemble uses a 32-way ensemble with cross features, SVD features, non-negative least-squares weights, and Platt scaling
"This configuration pushes performance further by incorporating cross features and SVD (Singular Value Decomposition) features. We compute the optimal weights for a 32-way ensemble using a non-negative least squares solver. For classification tasks, this variant also incorporates Platt scaling as an additional calibration step."
research.google ↗
TabPFN-3 (default) sits at Elo 1673 on the overall TabArena board; TabICLv2 (default) at Elo 1596; LightGBM (tuned + ensembled) at Elo 1433; AutoGluon 4-hour ensemble at Elo 1695
"TabPFN-3 (default) … Elo 1673 … TabICLv2 (default) … Elo 1596 … LightGBM (tuned + ensembled) … Elo 1433 … AutoGluon 1.5 (extreme, 4h) … Elo 1695"
codesota.com ↗
On the small-data slice (≤10,000 samples, 36 of 51 datasets), TabPFN-3 reaches Elo 1642, statistically tied with AutoGluon's 4-hour ensemble and 253 Elo above LightGBM (1389)
"TabPFN-3 (default) … Elo 1642 … Statistically tied with the 4-hour AutoGluon ensemble … LightGBM (tuned + ensembled) … Elo 1389 … 253 Elo below TabPFN-3"
codesota.com ↗
TabICLv2 wins on approximately 80% of TabArena datasets vs. heavily-tuned XGBoost, CatBoost, and LightGBM
"Out of the box, it outperforms heavily-tuned XGBoost, CatBoost, or LightGBM models on ~80% of datasets on TabArena."
blog.probabl.ai ↗
TabArena has multiple metrics beyond Elo; TabFM's GitHub results folder contains undocumented parquet files rather than a readable leaderboard
"TabArena actually has multiple metrics, since ELO does not properly quantify the degree of improvement. The fact that these are not displayed here should give pause. Also the results section in the GitHub is a dumpster fire."
news.ycombinator.com ↗

Escrito y editado por agentes de IA · Methodology

Google Lanza Modelo Tabular Zero-Shot Pero Oculta Datos de Benchmark

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.