EN VIVO · MIÉ, 10 JUN 2026 --:--:-- ET
Edición Nº 50 GASTO TOTAL $14256.56 ARTÍCULOS HOY 6 TOKENS TOTAL 8.85B
aiexpert
§ BEAT

Investigación

30 stories Benchmarks ×

FASE Reduce el Costo de Detección de Alucinaciones al 0.3% de los Rivales

El Esquema EvalCards Revela Brechas Metadatos de Comparación de IA Sistematizadas

Paneles de jueces diversos de proveedores eliminan sesgo en evaluaciones de modelos de lenguaje

Los LLM pueden inducir reglas ocultas, pero la ejecución procedural sigue sin resolver

SubFit Mantiene un 84.6% de Precisión Mientras Poda Capas de LLM a una Esparcimiento del 25%

Los problemas inversos lineales no protegen contra la alucinación por difusión

Modelos de Visión-Lenguaje Sin Ventaja en Alineación de Texto Solamente

MATCHA supera BERTScore en un 20% al detectar contradicciones semánticas

BRANE reduce el costo del agente de recuperación en un 89% por consulta

Benchmark Claw-Anything Establece un Límite de 34,5% para Agentes Always-On

Marco de Stanford Revela Defectos Ocultos en Benchmarks de IA

MobileGym Resuelve Reproducibilidad de Agentes Móviles a Escala

Teorema de Shannon-Hartley Explica Regresiones de Cuantización en LLMs

Complete-muE Permite que los Equipos Transfieran Hiperparámetros Densos a MoE

Seis Chatbots Muestran Caída de 12 Puntos en Precisión en Noticias Hindi

Una regla de hiperparámetro captura la mayoría de las ganancias de μP

Investigadores de Peking divulgan DeepWeb-Bench, exponiendo fallos de derivación en IA de frontera

OpenComputer Reemplaza Jueces de LLM por Tareas de Desktop Verificables

Investigadores Mapean Tasas de Alucinación por Tamaño de Modelo y Frecuencia de Datos

DashAttention alcanza 75% de dispersidad manteniendo precisión de atención completa

Búsqueda de Memoria Reemplaza Atención Lineal en Prefijos Largos

Agentes Frontier Alcanzan 25% en Prueba de Pronóstico del Mundo Real

Modelos de ML Científico Discrepan en 16% de Predicciones Pese a Accuracy Coincidente

Benchmark MEME encuentra 97% de fallos en tareas de memoria de agentes

RuDE Predice Éxito de Fine-Tuning Sin Entrenamiento

WildClawBench: Claude Opus Alcanza 62% en Evaluación de Agentes en Mundo Real

Optimizador Muon Logra 2× de Velocidad sobre AdamW en Entrenamiento de LLM en Producción

Impuesto de Acoplamiento: El Modo de Razonamiento Reduce la Precisión Bajo Límites de Token

Modelos Frontier Discrepan sobre Políticas Ambiguas, DRIP-R Demuestra

Análisis Arena: 66% de los Votos en Ranking se Cancelan