Destilação de Conhecimento Permite Detecção de Clones de Código On-Premise

Khajezade, Fard e Shehata publicaram um framework de destilação de conhecimento que move a detecção de clones de código entre linguagens (X-CCD) de LLMs com API fechada para Phi-3 e Qwen-Coder, modelos compactos open-source que rodam on-premise. O paper é "Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross-Language Code Clone Detection."

DeepSeek-R1 gera dados de treinamento raciocinando sobre pares de código do Project CodeNet da IBM. Esses dados ajustam os dois modelos estudantes usando adaptadores LoRA, preservando eficiência de parâmetros e injetando capacidade de raciocínio.

O problema central era instabilidade de saída. Modelos compactos falham em seguir prompts de raciocínio com confiabilidade suficiente para produzir rótulos binários clone/não-clone. A equipe testou três técnicas de estabilização: forced conclusion prompting, que acrescenta uma diretiva de classificação explícita; uma cabeça de classificação binária, que substitui a geração por uma camada determinística; e uma cabeça de classificação contrastiva, que usa similaridade em nível de representação. As três foram avaliadas em acurácia e taxa de resposta — a fração de consultas que produz uma resposta analisável.

Experimentos cobriram quatro pares de linguagens: Python–Java, Rust–Java, Rust–Python e Rust–Ruby. Destilação de conhecimento melhorou a confiabilidade de modelos compactos e frequentemente melhorou o desempenho preditivo, particularmente sob mudança de distribuição. As variantes de cabeça de classificação reduziram tempo de inferência comparado com abordagens baseadas em geração. Isso importa para equipes rodando detecção de clones em escala de repositório, não como uma verificação pontual.

Para engenharia empresarial, X-CCD é um pré-requisito para consolidação de código, auditorias de supply-chain e varredura de conformidade de licenças em bases de código poliglotas. As abordagens dominantes exigem enviar código-fonte proprietário para APIs de LLM externas — um bloqueador para indústrias reguladas. Uma instância Phi-3 ou Qwen-Coder roda on-premise sem saída de dados. Uma vez que o estudante é treinado, ele é um artefato autossuficiente independente de acesso à API.

O caso de reprodutibilidade se estende além da privacidade. APIs de LLM closed-box mudam sem aviso — versões de modelo trocam, formatação de saída muda, limites de taxa se apertam. Um modelo open-weight com uma cabeça de classificação produz saídas determinísticas e versionadas que se encaixam em governança MLOps padrão. Essa estabilidade excede ganhos marginais de acurácia em ambientes de produção com trilhas de auditoria obrigatórias.

Questões abertas permanecem. O paper avalia quatro pares de linguagens do Project CodeNet. Desempenho em bases de código empresariais com nomenclatura idiossincrática, código morto e traduções parciais pode diferir. Mudança de distribuição entre condições de benchmark e monorrepos heterogêneos não foi caracterizada. Equipes implantando isso devem planejar ajuste fino adaptativo de domínio em um corpus interno representativo antes de tratar resultados de benchmark como baselines de produção.

Destilação de raciocínio agora está chegando em cargas de trabalho de compreensão de código. Organizações têm um caminho documentado para capacidade de modelo closed em modelos open-weight sem reinventar o pipeline de treinamento.

Sources

The paper proposes a knowledge distillation framework transferring reasoning capabilities from DeepSeek-R1 into compact open-source student models for cross-language code clone detection
"we propose a knowledge distillation framework that transfers reasoning capabilities from DeepSeek-R1 into compact open-source student models for X-CCD"
arxiv.org ↗
Student models fine-tuned are Phi-3 and Qwen-Coder using LoRA adapters
"fine-tune Phi3 and Qwen-Coder with LoRA adapters"
arxiv.org ↗
Training data is constructed from cross-language code pairs derived from Project CodeNet
"Using cross-language code pairs derived from Project CodeNet, we construct reasoning-oriented synthetic training data"
arxiv.org ↗
Three response stabilization methods introduced: forced conclusion prompting, binary classification head, and contrastive classification head
"response stabilization methods, including forced conclusion prompting, a binary classification head, and a contrastive classification head"
arxiv.org ↗
Experiments cover Python–Java, Rust–Java, Rust–Python, and Rust–Ruby language pairs
"Experiments on Python--Java, Rust--Java, Rust--Python, and Rust--Ruby"
arxiv.org ↗
Knowledge distillation consistently improves reliability of compact models and often improves predictive performance, especially under distribution shift
"knowledge distillation consistently improves the reliability of compact models and often improves predictive performance, especially under distribution shift"
arxiv.org ↗
Classification-head variants substantially reduce inference time compared to generation-based inference
"classification-head variants substantially reduce inference time compared to generation-based inference"
arxiv.org ↗
Compact open-source models struggle to follow reasoning-oriented prompts and produce outputs consistently mappable to binary clone labels
"compact open-source models often struggle to follow reasoning-oriented prompts and to produce outputs that can be consistently mapped to binary clone labels"
arxiv.org ↗
Using LLMs as black-box systems raises concerns about cost, reproducibility, privacy, and unreliable output formatting
"their use as black-box systems raises concerns about cost, reproducibility, privacy, and unreliable output formatting"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Destilação de Conhecimento Permite Detecção de Clones de Código On-Premise

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.