AO VIVO · SEX., 26 DE JUN. DE 2026 --:--:-- ET
Edição Nº 66 GASTO TOTAL $14557.66 ARTIGOS HOJE 9 TOKENS TOTAL 9.16B
aiexpert
Na linha
Policy Trump ameaça tarifa de 100% em países que impõem impostos sobre serviços digitais Breaking OpenAI anuncia GPT-5.6 Sol, limita implantação a parceiros confiáveis por solicitação do governo dos EUA Funding Onsemi adquire Synaptics por $7B; acordo de computação edge-AI Funding Fundo de IA de $50B da MGX de Abu Dhabi fecha; almeja $100B em AUM Chips STMicroelectronics lança ST54M com acelerador de criptografia pós-quântica para mobile Funding Peec AI mira avaliação pré-money de $200M em Series B, dobrando pós-money da Series A de $100M Research Modelos de fronteira saturam benchmark GPQA-Diamond em 93–94%; SWE-bench Pro torna-se diferenciador chave Policy Trump assina ordem executiva de segurança de IA; revisão voluntária de modelo de pré-lançamento de 30 dias Funding Autodesk adquire MaintainX por $3,6B, expandindo para IA industrial de operações Market OpenAI inclina-se para IPO de 2027, mantendo firme piso de valuação de $1T Funding ON Semiconductor adquire Synaptics por $7B em aposta em IA física Market OpenAI muda alvo de IPO para 2027; Anthropic pronta para listar em primeiro lugar em outubro a $965B Breaking OpenAI adia lançamento público de GPT-5.6; governo dos EUA aprovará acesso cliente por cliente Funding Onsemi adquire Synaptics por $7B para consolidar Edge AI e stack Physical AI Chips Apple pula M6 Pro/Max, acelera M7 focado em IA para final de 2027 enquanto corrida de largura de banda aquece Market OpenAI inclina-se para adiar IPO para 2027 sobre volatilidade do mercado, mantendo firme em avaliação de $1 trilhão Chips Solidigm entrega SSD 122TB com endurância ilimitada de escrita aleatória de 5 anos; 84% menos energia NAS que HDD+TLC Breaking Google lança Gemini 3.5 Flash: supera tier Pro em codificação, 40% mais barato, 4x mais rápido Funding SE3 Labs emerge da clandestinidade com €5,5M para IA de defesa autônoma, respalda soberania alemã Market Anthropic, OpenAI enfrentam corte de custos empresariais enquanto clientes mudam para modelos mais baratos Policy Trump ameaça tarifa de 100% em países que impõem impostos sobre serviços digitais Breaking OpenAI anuncia GPT-5.6 Sol, limita implantação a parceiros confiáveis por solicitação do governo dos EUA Funding Onsemi adquire Synaptics por $7B; acordo de computação edge-AI Funding Fundo de IA de $50B da MGX de Abu Dhabi fecha; almeja $100B em AUM Chips STMicroelectronics lança ST54M com acelerador de criptografia pós-quântica para mobile Funding Peec AI mira avaliação pré-money de $200M em Series B, dobrando pós-money da Series A de $100M Research Modelos de fronteira saturam benchmark GPQA-Diamond em 93–94%; SWE-bench Pro torna-se diferenciador chave Policy Trump assina ordem executiva de segurança de IA; revisão voluntária de modelo de pré-lançamento de 30 dias Funding Autodesk adquire MaintainX por $3,6B, expandindo para IA industrial de operações Market OpenAI inclina-se para IPO de 2027, mantendo firme piso de valuação de $1T Funding ON Semiconductor adquire Synaptics por $7B em aposta em IA física Market OpenAI muda alvo de IPO para 2027; Anthropic pronta para listar em primeiro lugar em outubro a $965B Breaking OpenAI adia lançamento público de GPT-5.6; governo dos EUA aprovará acesso cliente por cliente Funding Onsemi adquire Synaptics por $7B para consolidar Edge AI e stack Physical AI Chips Apple pula M6 Pro/Max, acelera M7 focado em IA para final de 2027 enquanto corrida de largura de banda aquece Market OpenAI inclina-se para adiar IPO para 2027 sobre volatilidade do mercado, mantendo firme em avaliação de $1 trilhão Chips Solidigm entrega SSD 122TB com endurância ilimitada de escrita aleatória de 5 anos; 84% menos energia NAS que HDD+TLC Breaking Google lança Gemini 3.5 Flash: supera tier Pro em codificação, 40% mais barato, 4x mais rápido Funding SE3 Labs emerge da clandestinidade com €5,5M para IA de defesa autônoma, respalda soberania alemã Market Anthropic, OpenAI enfrentam corte de custos empresariais enquanto clientes mudam para modelos mais baratos
Research

Modelos de fronteira saturam benchmark GPQA-Diamond em 93–94%; SWE-bench Pro torna-se diferenciador chave

Todos os principais modelos de fronteira—Claude Opus 4.8, Gemini 3.1 Pro e GPT-5.5—convergiram para 93–94% no GPQA-Diamond, um benchmark de múltipla escolha de nível de PhD em biologia, química e física lançado no final de 2023. O benchmark tornou-se saturado estatisticamente; a diferença de 0,7 pontos entre primeiro e terceiro lugar está dentro da margem de erro. Há dois anos (novembro de 2023), GPT-4 marcou apenas 39% no GPQA-Diamond; o salto para 93–94% em meados de 2026 demonstra progresso rápido no raciocínio de nível de graduação, mas também sinaliza que o benchmark não diferencia mais significativamente os modelos de fronteira. Anthropic, OpenAI e Google todas declararam saturação GPQA em seus system cards.

A mudança de saturação muda quais benchmarks importam para ranking. SWE-bench Pro (variante mais difícil com menos vaz amento público) e Humanity's Last Exam (raciocínio escrito por especialistas) agora mostram separação real. No SWE-bench Pro, Opus 4.8 lidera em 69,2% versus GPT-5.5 em 58,6% e Gemini 3.1 Pro em 54,2% —um gap de 15 pontos. No Humanity's Last Exam com ferramentas, Opus 4.8 marca 57,9%, e o leaderboard abrange uma gama mais ampla, indicando espaço ainda aberto. O campo está redefinindo benchmarks, com FrontierMath (Epoch AI) e SWE-bench Verified (problemas do GitHub) emergindo como tarefas de filtragem mais difíceis. Mais dramático: Claude Opus 4.8 acertou 96,7% no USAMO 2026 (provas de nível Olímpico), um salto de 27,4 pontos do 69,3% do Opus 4.7, sinalizando uma mudança qualitativa no raciocínio de nível de prova matemática.

A implicação: GPQA-Diamond e outros benchmarks saturados não servem mais como filtros de capacidade. Quando avaliações posteriores convergem, a distribuição da diferenciação se inverte—ela se move do raciocínio de alto nível (que todos os modelos agora lidam bem) para desempenho de tarefa aplicada (codificação em escala, fluxos de trabalho aénicos de múltiplas ferramentas, síntese de contexto longo, alinhamento/honestidade). Saturação de benchmark não é falha; é evidência de progresso. Também significa que decisões de seleção de modelo agora descansam em avaliação específica de carga de trabalho em vez de comparações de raciocínio entre domínios.

Para arquitetos: se sua avaliação confiava em GPQA-Diamond ou MMLU, atualize sua suite de benchmarking. Teste contra SWE-bench Pro (para codificação), Humanity's Last Exam (para raciocínio aénico com ferramentas) e avaliações OSWorld ou BrowserAgent (para conclusão de tarefa no mundo real). Observe lançamentos de FrontierMath da Epoch AI e avaliações específicas de domínio de Vals AI. Custo-por-saída-correta agora é mais importante do que ranking de ponto percentual em benchmarks saturados. Planeje sua seleção de modelo em torno de casos de uso específicos, não de leaderboards de fronteira geral.

Fontes