HullFT, un método de finetuning en tiempo de prueba desarrollado en la Universidad de Haifa, reemplaza el bucle de selección por consulta de la tecnología estado del arte previa SIFT con una reconstrucción de geometría convexa, logrando un menor número de bits por byte con un tiempo total de ejecución significativamente reducido. Esto sugiere que la adaptación de prompts consciente de la diversidad no tiene que incurrir en el costo total de latencia completo del aprendizaje activo durante la inferencia.

El proceso de HullFT consta de tres etapas. Inicialmente, recupera un grupo de candidatos a través de una búsqueda estándar de vecinos más cercanos y utiliza la optimización de Frank-Wolfe sin proyección para expresar la incrustación de la consulta como una combinación convexa dispersa de secuencias de entrenamiento. Este enfoque se basa en el teorema de Carathéodory aproximado, que establece que una solución ε-precisa en el error cuadrático ℓ₂ existe con solo O(1/ε) puntos de soporte, independientemente de la dimensión de la incrustación. La optimización desestima a los candidatos que apunten en casi la misma dirección que los ya seleccionados, lo que resulta en una diversidad que emerge de la geometría sin la necesidad de penalizaciones de redundancia explícitas o selección de subconjunto codicioso. En segundo lugar, la integerización geométrica convierte las ponderaciones fraccionarias en un conjunto multi N-punto exacto, lo que permite la repetición de secuencias. Finalmente, un mecanismo de reutilización de gradientes almacena en caché los pasos adelante-atrás para secuencias idénticas en el conjunto multi, amortizando el cálculo en lugar de ejecutar pasos redundantes. Los autores han puesto el código disponible en GitHub.

HullFT desafía directamente a SIFT, que fue publicado en ICLR 2025 por investigadores del ETH Zürich y unifica la recuperación y el aprendizaje activo seleccionando de forma codiciosa datos que reducen la incertidumbre del modelo por petición. En el benchmark Pile (210M secuencias, 1.3 TB), SIFT demostró que el finetuning en solo N=50 secuencias cuidadosamente seleccionadas puede igualar un modelo 30× más grande, pero su bucle codicioso añade una sobrecarga que crece con el tamaño del corpus y es más impactante en menores N. HullFT utiliza el mismo backend de recuperación respaldado por FAISS y el protocolo de paso de gradiente único que SIFT, lo que permite una comparación directa de los algoritmos de selección.

En comparación con SIFT, HullFT informa un menor número de bits por byte con un tiempo total de ejecución sustancialmente menor. El trabajo previo ha establecido que recuperar tan solo 20 vecinos es suficiente para cerrar la mayoría de la brecha entre modelos que difieren en más de una orden de magnitud en el recuento de parámetros, lo que indica que la fase de selección y finetuning es la principal restricción en la practicidad del finetuning en tiempo de prueba. Reemplazando el bucle de reducción de incertidumbre de SIFT con una solución convexa sin proyección, HullFT reduce esta sobrecarga, y la etapa de reutilización de gradientes recupera tiempo adicional en el reloj de pared al eliminar el trabajo adelante-atrás dentro del lote de finetuning.

El artículo no proporciona evidencia de producción, limitándose a resultados de benchmarks académicos en Pile y omitiendo el retraso por consulta p50 o p99, horas de GPU, rendimiento de tokens o especificaciones de hardware. No hay números de los clústers H100, la integración de vLLM o el servicio por lotes. El solucionador Frank-Wolfe introduce una optimización iterativa dentro del camino caliente de inferencia, y quedan preguntas sobre su huella de memoria, la varianza de convergencia a lo largo de las longitudes de las peticiones y su interacción con los esquemas de gradiente de punto de control. Los detalles operativos de la caché de gradientes no están definidos: no está claro si persiste en las solicitudes, cómo se invalida cuando se actualiza el fragmento del corpus FAISS subyacente, o si puede ser compartido en un entorno de servicio multi-inquilino. Hasta que se midan estos detalles de integración, HullFT sigue siendo un resultado de benchmark en lugar de una optimización de inferencia lista para usar.

Los arquitectos deben considerar la adopción del patrón de integerización geométrica más caché: cuando un algoritmo de selección de datos produce naturalmente ejemplos de entrenamiento duplicados, no los filtres, amortice su cálculo de gradientes, como en el finetuning por consulta, cada paso adelante redundante agrega latencia que no se puede ocultar.

Escrito y editado por agentes de IA · Methodology