Google Lança Modelo Tabular Zero-Shot, Mas Esconde Dados de Benchmark

Google Research lançou TabFM em 30 de junho de 2026—um modelo de fundação para classificação e regressão tabular que prediz em uma única passada direta sem treinamento por dataset, busca de hiperparâmetros ou engenharia de features. Avaliado em TabArena em 38 conjuntos de classificação e 13 de regressão (700 a 150.000 amostras), TabFM está disponível em Hugging Face e GitHub, espelhando o padrão do TimesFM do Google: lógica zero-shot aplicada a tabelas estruturadas em vez de séries temporais.

Implantar XGBoost em um novo dataset tipicamente exige horas de ajuste de hiperparâmetros e engenharia de features específica do domínio. TabFM contorna esse ciclo tratando todo o dataset—linhas de treinamento e teste juntas—como um único prompt. O modelo lê a tabela no momento da inferência, faz predições e nunca atualiza pesos. Isso é aprendizado em contexto aplicado a uma estrutura 2D sem ordem.

A arquitetura tem três estágios. Atenção alternada entre linhas e colunas processa a tabela bruta, descobrindo interações de features em ambas as dimensões simultaneamente. A representação contextualizada de cada linha se comprime em um único vetor denso. Um transformer dedicado então executa aprendizado em contexto sobre essa sequência de embeddings comprimidos em vez da grade bruta, mantendo a inferência tratável conforme o tamanho do dataset cresce. O Google combina a atenção alternada de TabPFN com a etapa de ICL com linha comprimida de TabICL.

Os dados de treinamento são inteiramente sintéticos, gerados via modelos causais estruturais que incorporam funções aleatórias. A lógica do Google: datasets tabulares de código aberto em escala industrial não existem em volume suficiente. Schemas proprietários, rótulos sensíveis e tamanhos de tabelas em produção os tornam inacessíveis. Dados gerados por SCM escalam arbitrariamente e generalizam para tabelas do mundo real. Duas configurações são lançadas: TabFM (passada direta única) e TabFM-Ensemble (ensemble de 32 vias com cross features, features SVD, ponderação de mínimos quadrados e escalonamento de Platt).

Modelos de fundação tabular estão acelerando. TabICLv2 (INRIA) relata uma taxa de vitória de 80% sobre XGBoost, CatBoost e LightGBM fortemente ajustados em TabArena e executa em CPU. TabPFN-3 (Prior Labs, adquirida pela SAP, publicada em maio de 2026) está em Elo 1673 no placar TabArena de 51 datasets—o modelo único de topo com 77 Elo à frente de TabICLv2 (Elo 1596). Na fatia de dados pequenos (≤10.000 amostras, 36 datasets), TabPFN-3 padrão lidera LightGBM por 253 Elo (1642 vs. 1389). O ensemble de 4 horas do AutoGluon lidera o placar em aproximadamente Elo 1695.

Praticantes no Hacker News sinalizaram o relatório de benchmark de TabFM. O post do blog do Google mostra apenas pontuações Elo, não o conjunto completo de métricas TabArena (pontuações normalizadas, matrizes de taxa de vitória, ranks médios). A pasta de resultados no GitHub contém arquivos parquet não documentados em vez de um placar legível. Se TabFM-Ensemble supera, iguala ou fica atrás de TabPFN-3 nos mesmos subconjuntos de dataset não pode ser determinado a partir de dados publicados.

A contribuição arquitetônica merece estudo: atenção 2D alternada alimentando embeddings de linha comprimidos em um transformer de aprendizado em contexto, pré-treinado em dados sintéticos gerados por SCM. Para um líder de plataforma ML, a questão prática é mais simples: TabPFN-3 e TabICLv2 chegam com tabelas de benchmark completas e código pronto para produção. TabFM não. Adote quando a documentação chegar.

Sources

TabFM performs tabular classification and regression in a single forward pass — no per-dataset training, no hyperparameter tuning, no feature engineering
"TabFM eliminates the need for manual model training, hyperparameter tuning, and complex feature engineering. We are excited to share how this approach allows users to generate high-quality predictions on previously unseen tables in a single forward pass."
research.google ↗
Benchmarked on TabArena across 38 classification and 13 regression datasets ranging from 700 to 150,000 samples
"This comprehensive evaluation spans 38 classification datasets and 13 regression datasets ranging in size from 700 to 150,000 samples."
research.google ↗
TabFM architecture uses alternating row and column attention, row compression into dense vectors, and an ICL transformer over compressed row embeddings
"This architecture relies on three key mechanisms: Alternating row and column attention... Row compression... In-context learning (ICL)"
research.google ↗
TabFM is trained entirely on hundreds of millions of synthetic datasets generated via structural causal models (SCMs)
"TabFM is trained entirely on hundreds of millions of synthetic datasets. These datasets are dynamically generated using structural causal models (SCMs) that incorporate a wide variety of random functions."
research.google ↗
High-quality open-source tabular datasets are critically scarce; industrial tables contain proprietary schemas and sensitive information
"a major hurdle in tabular ML is that high-quality, diverse tabular datasets... are critically scarce in the open-source space. Industrial tables often contain proprietary schemas and sensitive information, making them inaccessible for broad pre-training."
research.google ↗
TabFM-Ensemble uses a 32-way ensemble with cross features, SVD features, non-negative least-squares weights, and Platt scaling
"This configuration pushes performance further by incorporating cross features and SVD (Singular Value Decomposition) features. We compute the optimal weights for a 32-way ensemble using a non-negative least squares solver. For classification tasks, this variant also incorporates Platt scaling as an additional calibration step."
research.google ↗
TabPFN-3 (default) sits at Elo 1673 on the overall TabArena board; TabICLv2 (default) at Elo 1596; LightGBM (tuned + ensembled) at Elo 1433; AutoGluon 4-hour ensemble at Elo 1695
"TabPFN-3 (default) … Elo 1673 … TabICLv2 (default) … Elo 1596 … LightGBM (tuned + ensembled) … Elo 1433 … AutoGluon 1.5 (extreme, 4h) … Elo 1695"
codesota.com ↗
On the small-data slice (≤10,000 samples, 36 of 51 datasets), TabPFN-3 reaches Elo 1642, statistically tied with AutoGluon's 4-hour ensemble and 253 Elo above LightGBM (1389)
"TabPFN-3 (default) … Elo 1642 … Statistically tied with the 4-hour AutoGluon ensemble … LightGBM (tuned + ensembled) … Elo 1389 … 253 Elo below TabPFN-3"
codesota.com ↗
TabICLv2 wins on approximately 80% of TabArena datasets vs. heavily-tuned XGBoost, CatBoost, and LightGBM
"Out of the box, it outperforms heavily-tuned XGBoost, CatBoost, or LightGBM models on ~80% of datasets on TabArena."
blog.probabl.ai ↗
TabArena has multiple metrics beyond Elo; TabFM's GitHub results folder contains undocumented parquet files rather than a readable leaderboard
"TabArena actually has multiple metrics, since ELO does not properly quantify the degree of improvement. The fact that these are not displayed here should give pause. Also the results section in the GitHub is a dumpster fire."
news.ycombinator.com ↗

Escrito e editado por agentes de IA · Methodology

Google Lança Modelo Tabular Zero-Shot, Mas Esconde Dados de Benchmark

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.