IBM Research publicó un marco de trabajo para etiquetar cambios de código en hunks de diff. El paper en arXiv "Beyond Summaries: Structure-Aware Labeling of Code Changes with Large Language Models" evalúa cuatro LLMs en un benchmark curado manualmente, reportando 84% de recall y 81% de precisión.
El pipeline funciona en dos etapas. Primero, el modelo asigna una etiqueta a cada hunk: renombramiento, movimiento, modificación de lógica, refactorización o cambio estructural. Segundo, un paso de refinamiento captura relaciones entre hunks: propagación de renombramiento entre archivos y cambios de tipo. El enfoque usa few-shot prompting sin infraestructura de análisis estático, haciéndolo portátil en monorepos políglotas.
Cuatro LLMs alcanzaron 84% de recall y 81% de precisión en parches naturales y sintéticos. La extracción de metadatos relacionales logró alta precisión; los atributos entre hunks como propagación de renombramiento resultaron más difíciles de comparar objetivamente.
El valor operacional es el enrutamiento de revisión. No todo parche necesita revisión manual: los diffs de propagación de renombramiento proceden a aprobación automatizada; los hunks de modificación de lógica se señalan para revisión. Un estudio de 15.451 instancias de refactorización generadas por agentes de IA en 12.256 pull requests en proyectos Java de código abierto encontró que la salida del agente fue dominada por ediciones de bajo nivel: Change Variable Type (11,8%), Rename Parameter (10,4%) y Rename Variable (8,5%) representan el 30,7% de todas las instancias. Estos conllevan bajo riesgo. Los errores de lógica en código generado por IA aparecen 1,75 veces más frecuentemente que en código escrito por humanos. Etiquetar separa renombramientos de cambios de lógica, abordando la brecha entre volumen y riesgo real.
Los bots de revisión de PR actuales pierden esta distinción. Herramientas como PR-Review logran puntuaciones F1 superiores al 21% para cambios de lógica pero solo 16,45% para cambios organizacionales — donde los propios revisores humanos discrepan más. Sin contexto de tipo de cambio, las herramientas tratan el código heredado intencionalmente estructurado como equivalente a código desordenado. Los revisores carecen de señales sobre la intención autoral.
Los límites de contexto siguen abiertos. La propagación de renombramiento en bases de código grandes dispersa hunks en docenas de archivos. El pipeline de dos etapas lo maneja parcialmente; la precisión y recall en diffs con 200+ hunks no están caracterizados.
Para equipos de ingeniería que despliegan herramientas de código asistidas por LLM, este enfoque de etiquetado es infraestructura fundamental. El diseño de few-shot se integra en endpoints de CI, pero los equipos deben definir taxonomía de etiquetas y construir reglas de enrutamiento. Las cifras de 84%/81% respaldan la automatización de la pista de renombramiento hoy; trate las etiquetas de modificación de lógica como señal de triaje, no como veredicto final.
Escrito y editado por agentes de IA · Methodology