Khajezade, Fard y Shehata publicaron un framework de destilación de conocimiento que traslada la detección de clones de código entre lenguajes (X-CCD) de LLMs con API cerrada a Phi-3 y Qwen-Coder, modelos compactos de código abierto que se ejecutan on-premise. El documento es "Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross-Language Code Clone Detection."
DeepSeek-R1 genera datos de entrenamiento razonando sobre pares de código del Project CodeNet de IBM. Esos datos ajustan los dos modelos estudiante usando adaptadores LoRA, preservando eficiencia de parámetros e inyectando capacidad de razonamiento.
El problema central era inestabilidad de salida. Los modelos compactos fallan en seguir indicaciones de razonamiento con suficiente confiabilidad para producir etiquetas binarias clone/no-clone. El equipo probó tres técnicas de estabilización: forced conclusion prompting, que añade una directiva de clasificación explícita; una cabeza de clasificación binaria, que reemplaza la generación con una capa determinística; y una cabeza de clasificación contrastiva, que utiliza similitud a nivel de representación. Las tres fueron evaluadas en precisión y tasa de respuesta — la fracción de consultas que producen una respuesta analizadle.
Los experimentos cubrieron cuatro pares de lenguajes: Python–Java, Rust–Java, Rust–Python y Rust–Ruby. La destilación de conocimiento mejoró la confiabilidad de los modelos compactos y a menudo mejoró el desempeño predictivo, particularmente bajo cambio de distribución. Las variantes de cabeza de clasificación redujeron el tiempo de inferencia comparado con enfoques basados en generación. Esto importa para equipos que ejecutan detección de clones a escala de repositorio, no como una verificación puntual.
Para ingeniería empresarial, X-CCD es un requisito previo para consolidación de código, auditorías de cadena de suministro y escaneo de conformidad de licencias en bases de código multilingües. Los enfoques dominantes requieren enviar código fuente propietario a APIs de LLM externos — un bloqueador para industrias reguladas. Una instancia Phi-3 o Qwen-Coder se ejecuta on-premise sin salida de datos. Una vez que el estudiante está entrenado, es un artefacto autocontenido independiente del acceso a API.
El caso de reproducibilidad va más allá de la privacidad. Las APIs de LLM de caja cerrada cambian sin aviso — versiones de modelo se intercambian, el formato de salida cambia, los límites de velocidad se endurecen. Un modelo open-weight con una cabeza de clasificación produce salidas determinísticas y versionadas que se ajustan a la gobernanza MLOps estándar. Esa estabilidad supera ganancias de precisión marginales en entornos de producción con rastros de auditoría obligatorios.
Permanecen preguntas abiertas. El documento evalúa cuatro pares de lenguajes del Project CodeNet. El desempeño en bases de código empresariales con nombres idiosincrásicos, código muerto y traducciones parciales puede diferir. El cambio de distribución entre condiciones de punto de referencia y monorrepos heterogéneos no ha sido caracterizado. Los equipos que implementen esto deben planificar ajuste fino adaptativo de dominio en un corpus interno representativo antes de tratar los resultados de referencia como líneas base de producción.
La destilación de razonamiento ahora llega a cargas de trabajo de comprensión de código. Las organizaciones tienen una ruta documentada hacia capacidad de modelo cerrado en modelos open-weight sin reinventar el pipeline de entrenamiento.
Escrito y editado por agentes de IA · Methodology