La Destilación de Conocimiento Permite Detección de Clones de Código On-Premise

Khajezade, Fard y Shehata publicaron un framework de destilación de conocimiento que traslada la detección de clones de código entre lenguajes (X-CCD) de LLMs con API cerrada a Phi-3 y Qwen-Coder, modelos compactos de código abierto que se ejecutan on-premise. El documento es "Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross-Language Code Clone Detection."

DeepSeek-R1 genera datos de entrenamiento razonando sobre pares de código del Project CodeNet de IBM. Esos datos ajustan los dos modelos estudiante usando adaptadores LoRA, preservando eficiencia de parámetros e inyectando capacidad de razonamiento.

El problema central era inestabilidad de salida. Los modelos compactos fallan en seguir indicaciones de razonamiento con suficiente confiabilidad para producir etiquetas binarias clone/no-clone. El equipo probó tres técnicas de estabilización: forced conclusion prompting, que añade una directiva de clasificación explícita; una cabeza de clasificación binaria, que reemplaza la generación con una capa determinística; y una cabeza de clasificación contrastiva, que utiliza similitud a nivel de representación. Las tres fueron evaluadas en precisión y tasa de respuesta — la fracción de consultas que producen una respuesta analizadle.

Los experimentos cubrieron cuatro pares de lenguajes: Python–Java, Rust–Java, Rust–Python y Rust–Ruby. La destilación de conocimiento mejoró la confiabilidad de los modelos compactos y a menudo mejoró el desempeño predictivo, particularmente bajo cambio de distribución. Las variantes de cabeza de clasificación redujeron el tiempo de inferencia comparado con enfoques basados en generación. Esto importa para equipos que ejecutan detección de clones a escala de repositorio, no como una verificación puntual.

Para ingeniería empresarial, X-CCD es un requisito previo para consolidación de código, auditorías de cadena de suministro y escaneo de conformidad de licencias en bases de código multilingües. Los enfoques dominantes requieren enviar código fuente propietario a APIs de LLM externos — un bloqueador para industrias reguladas. Una instancia Phi-3 o Qwen-Coder se ejecuta on-premise sin salida de datos. Una vez que el estudiante está entrenado, es un artefacto autocontenido independiente del acceso a API.

El caso de reproducibilidad va más allá de la privacidad. Las APIs de LLM de caja cerrada cambian sin aviso — versiones de modelo se intercambian, el formato de salida cambia, los límites de velocidad se endurecen. Un modelo open-weight con una cabeza de clasificación produce salidas determinísticas y versionadas que se ajustan a la gobernanza MLOps estándar. Esa estabilidad supera ganancias de precisión marginales en entornos de producción con rastros de auditoría obligatorios.

Permanecen preguntas abiertas. El documento evalúa cuatro pares de lenguajes del Project CodeNet. El desempeño en bases de código empresariales con nombres idiosincrásicos, código muerto y traducciones parciales puede diferir. El cambio de distribución entre condiciones de punto de referencia y monorrepos heterogéneos no ha sido caracterizado. Los equipos que implementen esto deben planificar ajuste fino adaptativo de dominio en un corpus interno representativo antes de tratar los resultados de referencia como líneas base de producción.

La destilación de razonamiento ahora llega a cargas de trabajo de comprensión de código. Las organizaciones tienen una ruta documentada hacia capacidad de modelo cerrado en modelos open-weight sin reinventar el pipeline de entrenamiento.

Sources

The paper proposes a knowledge distillation framework transferring reasoning capabilities from DeepSeek-R1 into compact open-source student models for cross-language code clone detection
"we propose a knowledge distillation framework that transfers reasoning capabilities from DeepSeek-R1 into compact open-source student models for X-CCD"
arxiv.org ↗
Student models fine-tuned are Phi-3 and Qwen-Coder using LoRA adapters
"fine-tune Phi3 and Qwen-Coder with LoRA adapters"
arxiv.org ↗
Training data is constructed from cross-language code pairs derived from Project CodeNet
"Using cross-language code pairs derived from Project CodeNet, we construct reasoning-oriented synthetic training data"
arxiv.org ↗
Three response stabilization methods introduced: forced conclusion prompting, binary classification head, and contrastive classification head
"response stabilization methods, including forced conclusion prompting, a binary classification head, and a contrastive classification head"
arxiv.org ↗
Experiments cover Python–Java, Rust–Java, Rust–Python, and Rust–Ruby language pairs
"Experiments on Python--Java, Rust--Java, Rust--Python, and Rust--Ruby"
arxiv.org ↗
Knowledge distillation consistently improves reliability of compact models and often improves predictive performance, especially under distribution shift
"knowledge distillation consistently improves the reliability of compact models and often improves predictive performance, especially under distribution shift"
arxiv.org ↗
Classification-head variants substantially reduce inference time compared to generation-based inference
"classification-head variants substantially reduce inference time compared to generation-based inference"
arxiv.org ↗
Compact open-source models struggle to follow reasoning-oriented prompts and produce outputs consistently mappable to binary clone labels
"compact open-source models often struggle to follow reasoning-oriented prompts and to produce outputs that can be consistently mapped to binary clone labels"
arxiv.org ↗
Using LLMs as black-box systems raises concerns about cost, reproducibility, privacy, and unreliable output formatting
"their use as black-box systems raises concerns about cost, reproducibility, privacy, and unreliable output formatting"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

La Destilación de Conocimiento Permite Detección de Clones de Código On-Premise

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.