Transformadores con Impuesto de Carbono Reducen la Memoria del Modelo en 49x Sin Reentrenamiento

Un nuevo pipeline de compresión para modelos de lenguaje grande entrega una reducción de memoria de 49x y 81% menos emisiones de CO2 por inferencia con retención de precisión prácticamente completa — sin reentrenamiento. El trabajo fue publicado el 28 de abril por investigadores de la Universidad de Saskatchewan.

El sistema, llamado Carbon-Taxed Transformers (CTT), impone un "impuesto de carbono computacional" sobre ineficiencias arquitectónicas durante la compresión. Los pasos de poda, cuantización y destilación de conocimiento eliminan configuraciones computacionalmente pesadas antes del despliegue. Los autores probaron CTT en tres tareas de código — detección de clones, resumen de código y generación de código — en arquitecturas solo codificador, codificador-decodificador y solo decodificador.

En latencia de inferencia, CTT logra una reducción de 8–10x en detección de clones, 4–7x en generación de código y hasta 3x en resumen. La huella de memoria se reduce 49x. Retención de calidad: 98% de precisión en detección de clones, 89% en resumen, 91% en métricas de generación de código. Pass@1 en generación alcanza 68% de la línea de base — una pérdida significativa para equipos que requieren alta corrección funcional.

La mayoría del trabajo publicado sobre compresión de LLM es específico del modelo o requiere reentrenamiento personalizado que los equipos no pueden replicar a escala. El ordenamiento explícito del pipeline de CTT proporciona a los ingenieros de despliegue una receta reproducible. Los estudios de ablación confirman que tanto el ordenamiento del pipeline como la selección de componentes afectan independientemente los resultados — los atajos degradarán el desempeño de forma mensurable.

Las organizaciones con compromisos neto-cero o requisitos de divulgación ESG típicamente miden carbono de entrenamiento; CTT cambia el enfoque a inferencia, donde los LLMs en producción se ejecutan continuamente. Un equipo de generación de código ejecutándose en decenas de miles de estaciones de desarrolladores enfrenta costos de infraestructura que se acumulan diariamente. Una ganancia de latencia de 4–7x en generación se traduce directamente en ahorros de horas de GPU visibles en facturas en la nube.

CTT fue probado exclusivamente en benchmarks de ingeniería de software. La generalización al procesamiento de documentos, pipelines RAG o cargas de trabajo multimodales no ha sido probada. La línea de base de 68% pass@1 en generación de código es un piso de calidad real — los equipos deben verificar que esto cumpla su estándar de aceptación. El artículo es metodológico y empírico; no se lanzó ningún toolkit de producción.

Para equipos de infraestructura que evalúan despliegue local o reducción de costos, CTT proporciona un protocolo de compresión bien documentado con benchmarks publicados en tres familias arquitectónicas. La replicación en modelos internos y distribuciones de tareas es el siguiente paso antes de reestructurar flujos de trabajo de despliegue. Las matemáticas de sustentabilidad y costo ya justifican esa prueba.

Sources

CTT delivers up to 49x memory reduction
"up to 49x memory reduction"
arxiv.org ↗
CTT delivers up to 81% reduction in CO2 emissions
"up to 81% reduction in CO2 emissions"
arxiv.org ↗
Inference time reduction of 8–10x for clone detection, 4–7x for generation, up to 3x for summarization
"time reduction up to 8-10x for clone detection, up to 3x for summarization, and 4-7x for generation"
arxiv.org ↗
CTT retains around 98% accuracy on clone detection
"CTT retains around 98% accuracy on clone detection"
arxiv.org ↗
CTT retains around 89% accuracy on summarization
"around 89% on summarization"
arxiv.org ↗
CTT retains up to 91% on textual metrics and 68% pass@1 for code generation
"up to 91% (textual metrics) and 68% (pass@1) for generation"
arxiv.org ↗
CTT was evaluated across code clone detection, code summarization, and code generation on encoder-only, encoder-decoder, and decoder-only architectures
"We evaluate CTT across three core SE tasks: code clone detection, code summarization, and code generation, with models spanning encoder-only, encoder-decoder, and decoder-only architecture."
arxiv.org ↗
Two ablation studies confirm pipeline ordering and individual component contributions are both essential
"Two ablation studies show that pipeline ordering and individual component contributions are both essential, providing empirical justification for CTT's design and effectiveness."
arxiv.org ↗
CTT borrows from the economic concept of carbon pricing, penalizing architectural inefficiencies
"Drawing from the economic concept of carbon pricing, CTT operationalizes a computational carbon tax that penalizes architectural inefficiencies and rewards deployment-ready compression."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Transformadores con Impuesto de Carbono Reducen la Memoria del Modelo en 49x Sin Reentrenamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.