§ BEAT
Pesquisa
Real EHR Benchmark Exposta Limites dos LLMs em Ações Clínicas
Echo-Memory Mostra que Modelos de Mundo Falham no Teste de Revisão
64 Por cento dos Conflitos de Áudio-Texto nos Modelos de IA São Corrigíveis
Quadro de Stanford Mantém Agentes IA Dentro dos Alvos de Violação
Reprodução Autogenerada Reduz o Esquecimento Catastrófico em Modelos Ajustados
Estudo: IA Aumenta Confiança, Não Precisão do Usuário
Framework DelTA Melhora Raciocínio ao Corrigir Atribuição de Crédito em Nível de Token
RELEX reconstrói checkpoints RLVR a partir de 15% dos dados de treinamento
Métricas do SAEBench Classificam SAEs de Forma Invertida, Auditoria Constata
Prova Matemática Mostra que Atenção em Transformers Estabiliza Previsivelmente
SLIM melhora performance de agentes LLM em 7 pontos percentuais
Shepherd Aumenta Precisão de Agentes em 90% Com Rastreamento por Bifurcação
Modelos Sparse MoE Emparelham com Transformers Densos a 3× Mais Rápido em Inferência
Modelos Congelados Codificam Papéis Semânticos Sem Fine-Tuning
Pesquisadores de Rice e Apple reduzem FID 22% na geração de imagens com correção de tokens
Entropia do Primeiro Token Rival Detecção de Alucinação Multi-Amostra
Purdue e Georgia Tech Provam que Transformers Extraem Features Não-lineares em Contexto
Testes de Segurança Falham Quando o Modelo do Claude Esconde Suspeitas no Seu Interior
Detector de IA com Limite Fixo Demonstra Robustez Além de Domínios
Algoritmo PLACE Garante Desempenho de Percepção Autônoma Sem Redes Neurais
GeoSAE Decodifica Modelos de RM Cerebral com 97% de Estabilidade Entre Coortes
HyCOP Reduz Erro em Solucionadores de EDP em Problemas Fora da Distribuição
Qwen3-VL Ganha 4,8 Pontos Com Módulo de Memória Visual Persistente
Intern-Atlas Mapeia 9.4M Dependências Metodológicas em Literatura de IA
Evals Padrão de Segurança Perdem Desalinhamento em Workloads de Produção
Pesquisadores Controlam Emoções de LLMs Através de Manipulação de Features na Fase Final
Acurácia do Doc-to-LoRA Cai para 16% Contra Fatos Fortemente Consolidados no Modelo
WG-SRC Substitui Message-Passing de GNN por Componentes de Sinal Auditáveis e Nomeados