§ BEAT
Pesquisa
FASE Reduz Custo de Detecção de Alucinações para 0,3% dos Concorrentes
Esquema EvalCards Expõe Falhas Sistematizadas em Metadados de Benchmarks de IA
Painéis de Julgamento Diversificados por Fornecedor Eliminam Vies em Avaliações de Modelos de Linguagem
LLMs Podem Induzir Regras Ocultas, mas Execução Procedimental Continua Sem Solução
SubFit Mantem 84,6% de Precisão Enquanto Reduz Camadas de LLM em 25% de Esparsidade
Problemas Inversos Lineares Não Protegem Contra a Alucinação por Difusão
Modelos de Visão-Linguagem Sem Vantagem em Alinhamento Apenas de Texto
MATCHA Supera BERTScore em 20% na Detecção de Contradições Semânticas
BRANE Reduz Custos do Agente de Busca por 89% por Consulta
Benchmark Claw-Anything Estabelece Limite de 34,5% para Agentes Always-On
Framework da Stanford Revela Falhas Ocultas em Benchmarks de IA
MobileGym Resolve Reprodutibilidade de Agentes Móveis em Escala
Teorema de Shannon-Hartley Explica Regressões de Quantização em LLMs
Complete-muE Permite que Equipes Transfiram Hiperparâmetros Densos para MoE
Seis Chatbots Apresentam Queda de 12 Pontos em Precisão em Notícias Hindi
Uma regra de hiperparâmetro captura a maioria dos ganhos de μP
Pesquisadores de Pequim divulgam DeepWeb-Bench, expondo falhas de derivação em IA de fronteira
OpenComputer Substitui Juízes de LLM por Tarefas de Desktop Verificáveis
Pesquisadores Mapeiam Taxas de Alucinação por Tamanho de Modelo e Frequência de Dados
DashAttention alcança 75% de esparsidade mantendo precisão da atenção completa
Busca de Memória Substitui Atenção Linear em Prefixos Longos
Agentes Frontier Alcançam 25% em Teste de Previsão do Mundo Real
Modelos de ML Científico Discordam em 16% das Previsões Apesar de Accuracy Coincidente
Benchmark MEME encontra 97% de falha em tarefas de memória de agentes
RuDE Prevê Sucesso de Fine-Tuning Sem Treinamento
WildClawBench: Claude Opus Atinge 62% em Avaliação de Agent em Ambiente Real
Otimizador Muon Atinge 2× de Velocidade sobre AdamW no Treinamento de LLM em Produção
Imposto de Acoplamento: Modo de Raciocínio Reduz Precisão Sob Limites de Token
Modelos Frontier Discordam sobre Políticas Ambíguas, DRIP-R Mostra