Desarrolladores enfrentan un 15-25% de rehacer código a pesar de pilas de IA a $30/mes

El costo de dotar a los desarrolladores con completación en línea y delegación autónoma se ha reducido a $30 por mes, con $10 para GitHub Copilot y $20 para Claude Code. Sin embargo, un estudio de Stanford de más de 100,000 desarrolladores, presentado por Sepehr Khosravi, Ingeniero de Plataforma de ML en Coinbase, en una charla de QCon AI, muestra una tasa de rehacer código del 15-25% generada por IA que requiere revisión humana. Esta brecha entre la velocidad de generación y la calidad del código es un desafío operativo clave para los líderes de plataforma que gestionan herramientas de IDE a escala.

La pila se divide en dos capas distintas. Copilot actúa como la capa de autocompletado en línea sub-segundo, soportando a más de 20 millones de usuarios y dirigiendo solicitudes a Claude Opus 4.6, GPT-5.4 y el modelo de completación personalizado de Copilot basado en el tipo de tarea. Este enfoque multi-modelo significa que el código puede ser procesado por OpenAI, Anthropic o Google, cada uno con diferentes políticas de retención de datos. Por otro lado, Claude Code abandona el autocompletado a favor de subagentes con ventanas de contexto aisladas y conjuntos MCP específicos de la tarea. Khosravi destacó una demostración de causa raíz de PagerDuty a Slack a Datadog como un ejemplo primario.

Operativamente, la actualización de Copilot de septiembre de 2025 resultó en una reducción del 35% en la latencia y un aumento de 3 veces en el rendimiento de tokens. Las sugerencias aceptadas del modelo mejoraron de una distancia de Levenshtein de 0.46 a 0.32, lo que indica un alineamiento más cercano con el código final confirmado en el primer intento. En SWE-bench Verificado, Claude Sonnet 5 logró un puntaje del 92.4%, mientras que el puntaje oficial de Claude Code es del 72.5% y su configuración de enganche Opus 4.5 alcanza el 80.9%: la elección del modelo dentro de la herramienta cambia materialmente los resultados de las pruebas de rendimiento. En la resolución de problemas de producción, Cursor's Bugbot resolvió el 78.13% de los problemas en 50,310 PRs, en comparación con la tasa de CCR de Copilot del 46.69% en 24,336 PRs. Cursor también es la única herramienta entre las tres que tiene la certificación SOC 2 Type 2, un factor significativo para industrias reguladas, aunque el nivel de negocios de Copilot ofrece una indemnización de propiedad intelectual única que no ofrecen los competidores.

Khosravi advierte que adjuntar demasiados servidores MCP puede degradar la razonamiento; la solución es activar solo MCP específicos de la tarea por sesión. El nivel de equipos de Claude Code está limitado a 150 asientos, y su facturación empresarial cambia de una tarifa plana a una tarifa por asiento más el consumo real de tokens de API, lo que es más barato para usuarios ligeros pero caro para usuarios poderosos que pueden gastar de $100 a $200 por mes. El enrutador multi-modelo de Copilot introduce fragmentación de cumplimiento, con la misma base de código potencialmente manejada por tres proveedores diferentes con tres regímenes de retención diferentes en una sola tarde.

La adopción está superando la gobernanza. La encuesta Stack Overflow 2025 de 50,000 desarrolladores encontró que el sentimiento positivo hacia la IA disminuyó del 70% al 60%, con un desarrollador de cada tres usando herramientas de IA una vez al mes o menos. Khosravi atribuye parte de esta disminución al reemplazo retórico de los ejecutivos, pero la realidad operativa es que la saturación de herramientas ha expuesto el cuello de botella de revisión: se está escribiendo un 30-40% más de código, pero enviarlo sin disciplina arriesga el "deslizamiento de IA".

Para utilizar estas herramientas de manera efectiva, ejecute Copilot a $10 para cobertura en línea continua y Claude Code a $20 para delegación profunda, siempre que aplique cuotas de revisión de PR, limite la expansión de MCP por sesión y audite qué modelo de terceros procesa su código.

Sources

Stanford study of 100,000+ developers: AI-assisted tooling generates 30–40% more code; 15–25% of that code is subsequently reworked
"developers are typically generating 30% to 40% more code than they were previously. Then when they took it a step further, they also found out that 15% to 25% of this code that ends up getting generated is oftentimes reworked"
infoq.com ↗
Stack Overflow 2025 survey of 50,000 developers: positive AI sentiment dropped from 70%+ to ~60%; 1 in 3 developers use AI tools once a month or less
"one in three developers are using AI once a month or less… In 2025, it's around only 60%. Why is this?"
infoq.com ↗
Cursor and Claude topped QCon NYC audience tool-use poll; GitHub Copilot remained dominant at QCon SF
"Most of the people in SF are still on Copilot, whereas here it seems most people are using Cursor and Claude"
infoq.com ↗
Khosravi warns attaching too many MCP servers degrades model reasoning; recommends activating only task-specific MCPs per session
"If you're connecting a lot of MCPs and you said the AI was having trouble figuring out which one to use, I would recommend cutting down and just turning on the specific ones you needed to use"
infoq.com ↗
Claude Code subagent demo: PagerDuty-triggered agent queries Slack alert then Datadog and returns root-cause fix to main agent
"you might set up a subagent that's a PagerDuty investigation subagent. Every time a page comes in and you call Claude Code, it will use this one. It'll specifically look at Slack, find the alert, and then go into Datadog, research it, and come back with a solution for you"
tessl.io ↗
GitHub Copilot September 2025 update: 35% latency reduction, 3× token throughput; accepted-suggestion Levenshtein distance dropped from 0.46 to 0.32 — all part of the same September 2025 update
"Since September 2025, it ships a custom completion model delivering 3x token-per-second throughput and 35% latency reduction over the previous generation… Copilot's September 2025 update improved this via Levenshtein distance reduction (0.46 → 0.32)"
techsyntax.net ↗
SWE-bench Verified: Claude Sonnet 5 scored 92.4%; Claude Code with Opus 4.5 harness at 80.9%; Cursor Bugbot resolved 78.13% of PRs vs Copilot CCR at 46.69%
"Claude Sonnet 5 (released April 1, 2026) achieved 92.4% on SWE-bench Verified… Claude Code's 80.9% result with Anthropic's Opus 4.5 harness… Cursor Bugbot resolved 78.13% of flagged issues by merge. GitHub Copilot CCR resolved 46.69% across 24,336 PRs"
techsyntax.net ↗
Claude Code's official SWE-bench Verified score is 72.5% (standard evaluation, not Opus 4.5 harness); the 80.9% figure reflects a specific harness configuration
"72.5% SWE-bench Verified score"
codegen.com ↗
Copilot's multi-model router processes code through OpenAI, Anthropic, or Google depending on task, each with different data-retention policies
"Multi-model routing means your code may be processed by OpenAI, Anthropic, or Google depending on Copilot's model selection — each with different data retention policies"
techsyntax.net ↗
GitHub Copilot Business tier offers IP indemnity protecting against copyright claims — no other AI coding tool offers this
"Copilot Business ($19 per user per month) and Enterprise ($39 per user per month) include IP indemnity protecting against copyright claims from AI generated code. No other AI coding tool offers this."
codegen.com ↗
Claude Code Teams capped at 150 seats; enterprise billing is seat fee plus actual API token consumption — can cost $100–$200/mo for heavy users
"Claude Code sits in the middle but caps at 150 seats… Claude Code's enterprise model is unusual: you pay the base seat fee plus actual API token usage. This can be cheaper than a flat rate for light users, or more expensive for power users."
cosmicjs.com ↗
Cursor is the only tool of the three with SOC 2 Type 2 certification
"Cursor is the only one with SOC 2 Type 2 certification, which matters in regulated industries or organizations with strict vendor security requirements"
cosmicjs.com ↗
GitHub Copilot serves 20 million-plus users and has been adopted by 90% of Fortune 100 companies
"Copilot has over 20 million users and adoption by 90% of Fortune 100 companies because it adds AI to your existing workflow with near zero friction"
codegen.com ↗

Escrito y editado por agentes de IA · Methodology

Desarrolladores enfrentan un 15-25% de rehacer código a pesar de pilas de IA a $30/mes

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.