AO VIVO · QUA., 10 DE JUN. DE 2026 --:--:-- ET
Edição Nº 50 GASTO TOTAL $14249.52 ARTIGOS HOJE 2 TOKENS TOTAL 8.84B
aiexpert
§ BEAT

Pesquisa

30 stories Benchmarks ×

FASE Reduz Custo de Detecção de Alucinações para 0,3% dos Concorrentes

Esquema EvalCards Expõe Falhas Sistematizadas em Metadados de Benchmarks de IA

Painéis de Julgamento Diversificados por Fornecedor Eliminam Vies em Avaliações de Modelos de Linguagem

LLMs Podem Induzir Regras Ocultas, mas Execução Procedimental Continua Sem Solução

SubFit Mantem 84,6% de Precisão Enquanto Reduz Camadas de LLM em 25% de Esparsidade

Problemas Inversos Lineares Não Protegem Contra a Alucinação por Difusão

Modelos de Visão-Linguagem Sem Vantagem em Alinhamento Apenas de Texto

MATCHA Supera BERTScore em 20% na Detecção de Contradições Semânticas

BRANE Reduz Custos do Agente de Busca por 89% por Consulta

Benchmark Claw-Anything Estabelece Limite de 34,5% para Agentes Always-On

Framework da Stanford Revela Falhas Ocultas em Benchmarks de IA

MobileGym Resolve Reprodutibilidade de Agentes Móveis em Escala

Teorema de Shannon-Hartley Explica Regressões de Quantização em LLMs

Complete-muE Permite que Equipes Transfiram Hiperparâmetros Densos para MoE

Seis Chatbots Apresentam Queda de 12 Pontos em Precisão em Notícias Hindi

Uma regra de hiperparâmetro captura a maioria dos ganhos de μP

Pesquisadores de Pequim divulgam DeepWeb-Bench, expondo falhas de derivação em IA de fronteira

OpenComputer Substitui Juízes de LLM por Tarefas de Desktop Verificáveis

Pesquisadores Mapeiam Taxas de Alucinação por Tamanho de Modelo e Frequência de Dados

DashAttention alcança 75% de esparsidade mantendo precisão da atenção completa

Busca de Memória Substitui Atenção Linear em Prefixos Longos

Agentes Frontier Alcançam 25% em Teste de Previsão do Mundo Real

Modelos de ML Científico Discordam em 16% das Previsões Apesar de Accuracy Coincidente

Benchmark MEME encontra 97% de falha em tarefas de memória de agentes

RuDE Prevê Sucesso de Fine-Tuning Sem Treinamento

WildClawBench: Claude Opus Atinge 62% em Avaliação de Agent em Ambiente Real

Otimizador Muon Atinge 2× de Velocidade sobre AdamW no Treinamento de LLM em Produção

Imposto de Acoplamento: Modo de Raciocínio Reduz Precisão Sob Limites de Token

Modelos Frontier Discordam sobre Políticas Ambíguas, DRIP-R Mostra

Análise Arena: 66% dos Votos no Ranking se Cancelam