§ BEAT
Investigación
EHC Real Benchmark Revela Límites de LLM en Acción Clínica
Echo-Memory Demuestra que los Modelos del Mundo Fallan en la Prueba de Revisita
El 64 Por Ciento de Conflictos Audio-Texto en Modelos de IA Son Solucionables
Marco de Stanford Mantiene a los Agentes de IA Dentro de los Objetivos de Violación
La Reproducción Autogenerada Reduce el Olvido Catastrófico en Modelos Ajustados
Estudio: Las Explicaciones Narrativas de IA Aumentan la Confianza del Usuario, No la Precisión
Framework DelTA Mejora el Razonamiento al Corregir la Asignación de Crédito a Nivel de Token
RELEX reconstruye checkpoints RLVR a partir del 15% de los datos de entrenamiento
Métricas de SAEBench Clasifican SAEs al Revés, Encuentra Auditoría
Demostración Matemática Muestra que la Atención en Transformers se Estabiliza Predeciblemente
SLIM mejora desempeño de agentes LLM en 7 puntos porcentuales
Shepherd Aumenta Precisión de Agentes 90% Con Rastreo Por Ramificación
Modelos Sparse MoE Equiparan Desempeño con Transformers Densos a 3× Más Rápido en Inferencia
Modelos Congelados Codifican Roles Semánticos Sin Fine-Tuning
Investigadores de Rice y Apple reducen FID 22% en generación de imágenes con corrección de tokens
Entropía del Primer Token Rivaliza Detección de Alucinación Multi-Muestra
Purdue y Georgia Tech Demuestran que los Transformers Extraen Features No-lineales en Contexto
Pruebas de Seguridad Fracasan Cuando el Modelo de Claude Oculta Sospechas en Su Interior
Detector de IA con Umbral Fijo Demuestra Robustez Más Allá de Dominios
Algoritmo PLACE Garantiza Desempeño de Percepción Autónoma Sin Redes Neuronales
GeoSAE Decodifica Modelos de RM Cerebral con 97% de Estabilidad Entre Cohortes
HyCOP Reduce Error en Solucionadores de EDP en Problemas Fuera de Distribución
Qwen3-VL Gana 4.8 Puntos Con Módulo de Memoria Visual Persistente
Intern-Atlas Mapea 9.4M Dependencias Metodológicas en Literatura de IA
Evaluaciones de Seguridad Estándar Pierden Desalineaciones en Cargas de Trabajo de Producción
Investigadores Controlan Emociones de LLMs Mediante Manipulación de Features en la Fase Final
La Precisión del Doc-to-LoRA Cae al 16% Frente a Hechos Fuertemente Arraigados en el Modelo
WG-SRC Reemplaza el Message-Passing de GNN con Componentes de Señal Auditables y Nombrados