Método HullFT Reduz Latência de Finetuning em Tempo de Teste em Comparação com SIFT

HullFT, um método de finetuning em tempo de teste desenvolvido na Universidade de Haifa, substitui o loop de seleção por consulta do estado-da-arte anterior SIFT por uma reconstrução de geometria convexa, alcançando menor bits por byte em um tempo total de execução significativamente reduzido. Isso sugere que a adaptação de prompts consciente da diversidade não precisa incorrer no custo total de latência de aprendizado ativo durante a inferência.

O pipeline HullFT consiste de três estágios. Inicialmente, ele recupera um conjunto de candidatos por meio de uma busca padrão de vizinho mais próximo e emprega otimização Frank-Wolfe sem projeção para expressar a embedding da consulta como uma combinação convexa dispersa de sequências de treinamento. Esta abordagem aproveita o teorema de Carathéodory aproximado, que estabelece que uma solução ε-precisa no erro quadrado ℓ₂ existe com apenas O(1/ε) pontos de suporte, independentemente da dimensão da embedding. A otimização reduz os candidatos que apontam na mesma direção de um que já foi selecionado, resultando em diversidade emergindo da geometria sem a necessidade de penalidades de redundância explícitas ou seleção de subconjunto gulosa. Em segundo lugar, a integerização geométrica converte pesos fracionários em um multiconjunto exato de N pontos, permitindo a repetição de sequências. Por último, um mecanismo de reutilização de gradientes armazena em cache passagens para a frente-para trás para sequências idênticas no multiconjunto, amortizando o cálculo em vez de executar passos redundantes. Os autores fizeram o código disponível no GitHub.

HullFT desafia diretamente o SIFT, que foi publicado no ICLR 2025 por pesquisadores do ETH Zürich e unifica recuperação e aprendizado ativo ao selecionar de forma gulosa dados que maximamente reduzem a incerteza do modelo por prompt. No benchmark Pile (210M de sequências, 1,3 TB), o SIFT demonstrou que o finetuning em apenas N=50 sequências cuidadosamente selecionadas pode igualar um modelo 30× maior, mas seu loop guloso adiciona sobrecarga que cresce com o tamanho do corpus e é mais impactante em menores N. HullFT utiliza a mesma base de recuperação apoiada por FAISS e protocolo de passo único de gradiente do SIFT, permitindo uma comparação direta dos algoritmos de seleção.

Em comparação com o SIFT, o HullFT relata menor bits por byte em um tempo total de execução substancialmente menor. Trabalhos anteriores estabeleceram que recuperar apenas 20 vizinhos é suficiente para fechar a maioria da lacuna entre modelos que diferem em mais de uma ordem de magnitude no número de parâmetros, indicando que a fase de seleção e finetuning é a principal restrição na praticabilidade do finetuning em tempo de teste. Ao substituir o loop de redução de incerteza do SIFT por uma solução convexa sem projeção, o HullFT reduz essa sobrecarga, e a etapa de reutilização de gradientes recupera tempo adicional no relógio de parede ao eliminar o trabalho para a frente-para trás dentro do lote de finetuning.

O artigo não fornece evidência de produção, parando apenas em resultados de benchmark acadêmico no Pile e omitindo latência por consulta p50 ou p99, horas de GPU, taxa de token ou especificações de hardware. Não há números de clusters H100, integração de vLLM ou serviço em lote. O solucionador Frank-Wolfe introduz uma otimização iterativa dentro do caminho quente de inferência, e ainda há questões sobre seu consumo de memória, variação de convergência entre comprimentos de prompt e interação com esquemas de checkpoint de gradiente. Os detalhes operacionais do cache de gradiente são indefinidos: não está claro se ele persiste entre solicitações, como é invalidado quando o fragmento de corpus FAISS subjacente é atualizado, ou se pode ser compartilhado em um ambiente de serviço multilocatário. Até que esses detalhes de integração sejam medidos, o HullFT permanece um resultado de benchmark em vez de uma otimização de inferência pronta para uso.

Arquitetos devem considerar a adoção do padrão de geometria-integerização-mais-cache: quando um algoritmo de seleção de dados produz naturalmente exemplos de treinamento duplicados, não os filtre - amortize seu cálculo de gradiente, como em finetuning por consulta, cada passagem para a frente redundante adiciona latência que não pode ser oculta.

Sources

HullFT achieves lower bits-per-byte at substantially lower total runtime compared to SIFT
"Our experiments show that HullFT improves the quality–efficiency tradeoff over current state-of-the-art TTFT methods, achieving lower bits-per-byte at substantially lower total runtime."
arxiv.org ↗
HullFT uses projection-free Frank-Wolfe optimization to express the query embedding as a sparse convex combination of training sequences
"HullFT first represents the query embedding as a sparse convex combination of few training sequences, using efficient projection-free Frank–Wolfe optimization."
arxiv.org ↗
An ε-accurate convex solution using O(1/ε) points always exists regardless of ambient dimension (approximate Carathéodory theorem)
"The approximate Carathéodory theorem guarantees that an ε-accurate solution (in squared ℓ₂ error) using O(1/ε) points always exists, regardless of ambient dimension."
arxiv.org ↗
Geometric integerization converts fractional convex weights into an exact N-point multiset, creating repeated examples exploited by Gradient Reuse
"We then convert the fractional convex weights into an exact integer multiset for finetuning through a geometric integerization procedure. The resulting multiplicities naturally create repeated examples, which we exploit with Gradient Reuse to amortize forward–backward computation across repeated finetuning steps."
arxiv.org ↗
Retrieving as few as 20 neighbors is enough to substantially close the quality gap between models differing by more than an order of magnitude in parameter count
"Retrieving as few as 20 neighbors is enough to substantially close the gap between models differing by more than an order of magnitude in parameter count."
arxiv.org ↗
Pure nearest-neighbor retrieval is blind to redundancy; top-N neighbors can collapse to near-identical sequences causing every gradient step to repeat the same signal
"Pure nearest-neighbor retrieval returns the top-N candidates via a FAISS index: fast, but blind to redundancy. On large corpora, duplicate content is common; without accounting for redundancy, the top-N neighbors can collapse to near-identical sequences, causing every subsequent gradient step to repeat the same signal."
arxiv.org ↗
SIFT (ICLR 2025, ETH Zürich) demonstrated that fine-tuning on N=50 selected sequences can let a small model match one 30× larger
"Our Phi-3 with test-time fine-tuning and SIFT achieves ... 30× larger model."
arxiv.org ↗
SIFT was evaluated on the Pile dataset with 210M sequences of total size 1.3TB
"We use the Pile training set containing 210M sequences of total size 1.3TB as data space for data selection, and we evaluate on the Pile test set."
arxiv.org ↗
SIFT selects N=50 data points and fine-tunes the model for a single gradient step on each
"Following Hardt & Sun (2024), we fine-tune a pre-trained LLM for a single gradient step each on N=50 selected data points."
arxiv.org ↗
The number of gradient steps in TTFT is directly proportional to inference time, making sample efficiency a central bottleneck
"The sample efficiency of test-time fine-tuning is a central bottleneck as the number of gradient steps is directly proportional to inference time."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Método HullFT Reduz Latência de Finetuning em Tempo de Teste em Comparação com SIFT

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.