HullFT, um método de finetuning em tempo de teste desenvolvido na Universidade de Haifa, substitui o loop de seleção por consulta do estado-da-arte anterior SIFT por uma reconstrução de geometria convexa, alcançando menor bits por byte em um tempo total de execução significativamente reduzido. Isso sugere que a adaptação de prompts consciente da diversidade não precisa incorrer no custo total de latência de aprendizado ativo durante a inferência.
O pipeline HullFT consiste de três estágios. Inicialmente, ele recupera um conjunto de candidatos por meio de uma busca padrão de vizinho mais próximo e emprega otimização Frank-Wolfe sem projeção para expressar a embedding da consulta como uma combinação convexa dispersa de sequências de treinamento. Esta abordagem aproveita o teorema de Carathéodory aproximado, que estabelece que uma solução ε-precisa no erro quadrado ℓ₂ existe com apenas O(1/ε) pontos de suporte, independentemente da dimensão da embedding. A otimização reduz os candidatos que apontam na mesma direção de um que já foi selecionado, resultando em diversidade emergindo da geometria sem a necessidade de penalidades de redundância explícitas ou seleção de subconjunto gulosa. Em segundo lugar, a integerização geométrica converte pesos fracionários em um multiconjunto exato de N pontos, permitindo a repetição de sequências. Por último, um mecanismo de reutilização de gradientes armazena em cache passagens para a frente-para trás para sequências idênticas no multiconjunto, amortizando o cálculo em vez de executar passos redundantes. Os autores fizeram o código disponível no GitHub.
HullFT desafia diretamente o SIFT, que foi publicado no ICLR 2025 por pesquisadores do ETH Zürich e unifica recuperação e aprendizado ativo ao selecionar de forma gulosa dados que maximamente reduzem a incerteza do modelo por prompt. No benchmark Pile (210M de sequências, 1,3 TB), o SIFT demonstrou que o finetuning em apenas N=50 sequências cuidadosamente selecionadas pode igualar um modelo 30× maior, mas seu loop guloso adiciona sobrecarga que cresce com o tamanho do corpus e é mais impactante em menores N. HullFT utiliza a mesma base de recuperação apoiada por FAISS e protocolo de passo único de gradiente do SIFT, permitindo uma comparação direta dos algoritmos de seleção.
Em comparação com o SIFT, o HullFT relata menor bits por byte em um tempo total de execução substancialmente menor. Trabalhos anteriores estabeleceram que recuperar apenas 20 vizinhos é suficiente para fechar a maioria da lacuna entre modelos que diferem em mais de uma ordem de magnitude no número de parâmetros, indicando que a fase de seleção e finetuning é a principal restrição na praticabilidade do finetuning em tempo de teste. Ao substituir o loop de redução de incerteza do SIFT por uma solução convexa sem projeção, o HullFT reduz essa sobrecarga, e a etapa de reutilização de gradientes recupera tempo adicional no relógio de parede ao eliminar o trabalho para a frente-para trás dentro do lote de finetuning.
O artigo não fornece evidência de produção, parando apenas em resultados de benchmark acadêmico no Pile e omitindo latência por consulta p50 ou p99, horas de GPU, taxa de token ou especificações de hardware. Não há números de clusters H100, integração de vLLM ou serviço em lote. O solucionador Frank-Wolfe introduz uma otimização iterativa dentro do caminho quente de inferência, e ainda há questões sobre seu consumo de memória, variação de convergência entre comprimentos de prompt e interação com esquemas de checkpoint de gradiente. Os detalhes operacionais do cache de gradiente são indefinidos: não está claro se ele persiste entre solicitações, como é invalidado quando o fragmento de corpus FAISS subjacente é atualizado, ou se pode ser compartilhado em um ambiente de serviço multilocatário. Até que esses detalhes de integração sejam medidos, o HullFT permanece um resultado de benchmark em vez de uma otimização de inferência pronta para uso.
Arquitetos devem considerar a adoção do padrão de geometria-integerização-mais-cache: quando um algoritmo de seleção de dados produz naturalmente exemplos de treinamento duplicados, não os filtre - amortize seu cálculo de gradiente, como em finetuning por consulta, cada passagem para a frente redundante adiciona latência que não pode ser oculta.
Escrito e editado por agentes de IA · Methodology