El Método HullFT Reduce el Retardo de Finetuning en Tiempo de Prueba en Comparación con SIFT

HullFT, un método de finetuning en tiempo de prueba desarrollado en la Universidad de Haifa, reemplaza el bucle de selección por consulta de la tecnología estado del arte previa SIFT con una reconstrucción de geometría convexa, logrando un menor número de bits por byte con un tiempo total de ejecución significativamente reducido. Esto sugiere que la adaptación de prompts consciente de la diversidad no tiene que incurrir en el costo total de latencia completo del aprendizaje activo durante la inferencia.

El proceso de HullFT consta de tres etapas. Inicialmente, recupera un grupo de candidatos a través de una búsqueda estándar de vecinos más cercanos y utiliza la optimización de Frank-Wolfe sin proyección para expresar la incrustación de la consulta como una combinación convexa dispersa de secuencias de entrenamiento. Este enfoque se basa en el teorema de Carathéodory aproximado, que establece que una solución ε-precisa en el error cuadrático ℓ₂ existe con solo O(1/ε) puntos de soporte, independientemente de la dimensión de la incrustación. La optimización desestima a los candidatos que apunten en casi la misma dirección que los ya seleccionados, lo que resulta en una diversidad que emerge de la geometría sin la necesidad de penalizaciones de redundancia explícitas o selección de subconjunto codicioso. En segundo lugar, la integerización geométrica convierte las ponderaciones fraccionarias en un conjunto multi N-punto exacto, lo que permite la repetición de secuencias. Finalmente, un mecanismo de reutilización de gradientes almacena en caché los pasos adelante-atrás para secuencias idénticas en el conjunto multi, amortizando el cálculo en lugar de ejecutar pasos redundantes. Los autores han puesto el código disponible en GitHub.

HullFT desafía directamente a SIFT, que fue publicado en ICLR 2025 por investigadores del ETH Zürich y unifica la recuperación y el aprendizaje activo seleccionando de forma codiciosa datos que reducen la incertidumbre del modelo por petición. En el benchmark Pile (210M secuencias, 1.3 TB), SIFT demostró que el finetuning en solo N=50 secuencias cuidadosamente seleccionadas puede igualar un modelo 30× más grande, pero su bucle codicioso añade una sobrecarga que crece con el tamaño del corpus y es más impactante en menores N. HullFT utiliza el mismo backend de recuperación respaldado por FAISS y el protocolo de paso de gradiente único que SIFT, lo que permite una comparación directa de los algoritmos de selección.

En comparación con SIFT, HullFT informa un menor número de bits por byte con un tiempo total de ejecución sustancialmente menor. El trabajo previo ha establecido que recuperar tan solo 20 vecinos es suficiente para cerrar la mayoría de la brecha entre modelos que difieren en más de una orden de magnitud en el recuento de parámetros, lo que indica que la fase de selección y finetuning es la principal restricción en la practicidad del finetuning en tiempo de prueba. Reemplazando el bucle de reducción de incertidumbre de SIFT con una solución convexa sin proyección, HullFT reduce esta sobrecarga, y la etapa de reutilización de gradientes recupera tiempo adicional en el reloj de pared al eliminar el trabajo adelante-atrás dentro del lote de finetuning.

El artículo no proporciona evidencia de producción, limitándose a resultados de benchmarks académicos en Pile y omitiendo el retraso por consulta p50 o p99, horas de GPU, rendimiento de tokens o especificaciones de hardware. No hay números de los clústers H100, la integración de vLLM o el servicio por lotes. El solucionador Frank-Wolfe introduce una optimización iterativa dentro del camino caliente de inferencia, y quedan preguntas sobre su huella de memoria, la varianza de convergencia a lo largo de las longitudes de las peticiones y su interacción con los esquemas de gradiente de punto de control. Los detalles operativos de la caché de gradientes no están definidos: no está claro si persiste en las solicitudes, cómo se invalida cuando se actualiza el fragmento del corpus FAISS subyacente, o si puede ser compartido en un entorno de servicio multi-inquilino. Hasta que se midan estos detalles de integración, HullFT sigue siendo un resultado de benchmark en lugar de una optimización de inferencia lista para usar.

Los arquitectos deben considerar la adopción del patrón de integerización geométrica más caché: cuando un algoritmo de selección de datos produce naturalmente ejemplos de entrenamiento duplicados, no los filtres, amortice su cálculo de gradientes, como en el finetuning por consulta, cada paso adelante redundante agrega latencia que no se puede ocultar.

Sources

HullFT achieves lower bits-per-byte at substantially lower total runtime compared to SIFT
"Our experiments show that HullFT improves the quality–efficiency tradeoff over current state-of-the-art TTFT methods, achieving lower bits-per-byte at substantially lower total runtime."
arxiv.org ↗
HullFT uses projection-free Frank-Wolfe optimization to express the query embedding as a sparse convex combination of training sequences
"HullFT first represents the query embedding as a sparse convex combination of few training sequences, using efficient projection-free Frank–Wolfe optimization."
arxiv.org ↗
An ε-accurate convex solution using O(1/ε) points always exists regardless of ambient dimension (approximate Carathéodory theorem)
"The approximate Carathéodory theorem guarantees that an ε-accurate solution (in squared ℓ₂ error) using O(1/ε) points always exists, regardless of ambient dimension."
arxiv.org ↗
Geometric integerization converts fractional convex weights into an exact N-point multiset, creating repeated examples exploited by Gradient Reuse
"We then convert the fractional convex weights into an exact integer multiset for finetuning through a geometric integerization procedure. The resulting multiplicities naturally create repeated examples, which we exploit with Gradient Reuse to amortize forward–backward computation across repeated finetuning steps."
arxiv.org ↗
Retrieving as few as 20 neighbors is enough to substantially close the quality gap between models differing by more than an order of magnitude in parameter count
"Retrieving as few as 20 neighbors is enough to substantially close the gap between models differing by more than an order of magnitude in parameter count."
arxiv.org ↗
Pure nearest-neighbor retrieval is blind to redundancy; top-N neighbors can collapse to near-identical sequences causing every gradient step to repeat the same signal
"Pure nearest-neighbor retrieval returns the top-N candidates via a FAISS index: fast, but blind to redundancy. On large corpora, duplicate content is common; without accounting for redundancy, the top-N neighbors can collapse to near-identical sequences, causing every subsequent gradient step to repeat the same signal."
arxiv.org ↗
SIFT (ICLR 2025, ETH Zürich) demonstrated that fine-tuning on N=50 selected sequences can let a small model match one 30× larger
"Our Phi-3 with test-time fine-tuning and SIFT achieves ... 30× larger model."
arxiv.org ↗
SIFT was evaluated on the Pile dataset with 210M sequences of total size 1.3TB
"We use the Pile training set containing 210M sequences of total size 1.3TB as data space for data selection, and we evaluate on the Pile test set."
arxiv.org ↗
SIFT selects N=50 data points and fine-tunes the model for a single gradient step on each
"Following Hardt & Sun (2024), we fine-tune a pre-trained LLM for a single gradient step each on N=50 selected data points."
arxiv.org ↗
The number of gradient steps in TTFT is directly proportional to inference time, making sample efficiency a central bottleneck
"The sample efficiency of test-time fine-tuning is a central bottleneck as the number of gradient steps is directly proportional to inference time."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

El Método HullFT Reduce el Retardo de Finetuning en Tiempo de Prueba en Comparación con SIFT

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.