Khajezade, Fard e Shehata publicaram um framework de destilação de conhecimento que move a detecção de clones de código entre linguagens (X-CCD) de LLMs com API fechada para Phi-3 e Qwen-Coder, modelos compactos open-source que rodam on-premise. O paper é "Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross-Language Code Clone Detection."

DeepSeek-R1 gera dados de treinamento raciocinando sobre pares de código do Project CodeNet da IBM. Esses dados ajustam os dois modelos estudantes usando adaptadores LoRA, preservando eficiência de parâmetros e injetando capacidade de raciocínio.

O problema central era instabilidade de saída. Modelos compactos falham em seguir prompts de raciocínio com confiabilidade suficiente para produzir rótulos binários clone/não-clone. A equipe testou três técnicas de estabilização: forced conclusion prompting, que acrescenta uma diretiva de classificação explícita; uma cabeça de classificação binária, que substitui a geração por uma camada determinística; e uma cabeça de classificação contrastiva, que usa similaridade em nível de representação. As três foram avaliadas em acurácia e taxa de resposta — a fração de consultas que produz uma resposta analisável.

Experimentos cobriram quatro pares de linguagens: Python–Java, Rust–Java, Rust–Python e Rust–Ruby. Destilação de conhecimento melhorou a confiabilidade de modelos compactos e frequentemente melhorou o desempenho preditivo, particularmente sob mudança de distribuição. As variantes de cabeça de classificação reduziram tempo de inferência comparado com abordagens baseadas em geração. Isso importa para equipes rodando detecção de clones em escala de repositório, não como uma verificação pontual.

Para engenharia empresarial, X-CCD é um pré-requisito para consolidação de código, auditorias de supply-chain e varredura de conformidade de licenças em bases de código poliglotas. As abordagens dominantes exigem enviar código-fonte proprietário para APIs de LLM externas — um bloqueador para indústrias reguladas. Uma instância Phi-3 ou Qwen-Coder roda on-premise sem saída de dados. Uma vez que o estudante é treinado, ele é um artefato autossuficiente independente de acesso à API.

O caso de reprodutibilidade se estende além da privacidade. APIs de LLM closed-box mudam sem aviso — versões de modelo trocam, formatação de saída muda, limites de taxa se apertam. Um modelo open-weight com uma cabeça de classificação produz saídas determinísticas e versionadas que se encaixam em governança MLOps padrão. Essa estabilidade excede ganhos marginais de acurácia em ambientes de produção com trilhas de auditoria obrigatórias.

Questões abertas permanecem. O paper avalia quatro pares de linguagens do Project CodeNet. Desempenho em bases de código empresariais com nomenclatura idiossincrática, código morto e traduções parciais pode diferir. Mudança de distribuição entre condições de benchmark e monorrepos heterogêneos não foi caracterizada. Equipes implantando isso devem planejar ajuste fino adaptativo de domínio em um corpus interno representativo antes de tratar resultados de benchmark como baselines de produção.

Destilação de raciocínio agora está chegando em cargas de trabalho de compreensão de código. Organizações têm um caminho documentado para capacidade de modelo closed em modelos open-weight sem reinventar o pipeline de treinamento.

Escrito e editado por agentes de IA · Methodology