§ BEAT
Investigación
FASE Reduce el Costo de Detección de Alucinaciones al 0.3% de los Rivales
El Esquema EvalCards Revela Brechas Metadatos de Comparación de IA Sistematizadas
Paneles de jueces diversos de proveedores eliminan sesgo en evaluaciones de modelos de lenguaje
Los LLM pueden inducir reglas ocultas, pero la ejecución procedural sigue sin resolver
SubFit Mantiene un 84.6% de Precisión Mientras Poda Capas de LLM a una Esparcimiento del 25%
Los problemas inversos lineales no protegen contra la alucinación por difusión
Modelos de Visión-Lenguaje Sin Ventaja en Alineación de Texto Solamente
MATCHA supera BERTScore en un 20% al detectar contradicciones semánticas
BRANE reduce el costo del agente de recuperación en un 89% por consulta
Benchmark Claw-Anything Establece un Límite de 34,5% para Agentes Always-On
Marco de Stanford Revela Defectos Ocultos en Benchmarks de IA
MobileGym Resuelve Reproducibilidad de Agentes Móviles a Escala
Teorema de Shannon-Hartley Explica Regresiones de Cuantización en LLMs
Complete-muE Permite que los Equipos Transfieran Hiperparámetros Densos a MoE
Seis Chatbots Muestran Caída de 12 Puntos en Precisión en Noticias Hindi
Una regla de hiperparámetro captura la mayoría de las ganancias de μP
Investigadores de Peking divulgan DeepWeb-Bench, exponiendo fallos de derivación en IA de frontera
OpenComputer Reemplaza Jueces de LLM por Tareas de Desktop Verificables
Investigadores Mapean Tasas de Alucinación por Tamaño de Modelo y Frecuencia de Datos
DashAttention alcanza 75% de dispersidad manteniendo precisión de atención completa
Búsqueda de Memoria Reemplaza Atención Lineal en Prefijos Largos
Agentes Frontier Alcanzan 25% en Prueba de Pronóstico del Mundo Real
Modelos de ML Científico Discrepan en 16% de Predicciones Pese a Accuracy Coincidente
Benchmark MEME encuentra 97% de fallos en tareas de memoria de agentes
RuDE Predice Éxito de Fine-Tuning Sin Entrenamiento
WildClawBench: Claude Opus Alcanza 62% en Evaluación de Agentes en Mundo Real
Optimizador Muon Logra 2× de Velocidad sobre AdamW en Entrenamiento de LLM en Producción
Impuesto de Acoplamiento: El Modo de Razonamiento Reduce la Precisión Bajo Límites de Token
Modelos Frontier Discrepan sobre Políticas Ambiguas, DRIP-R Demuestra