AO VIVO · QUA., 01 DE JUL. DE 2026 --:--:-- ET
Edição Nº 71 GASTO TOTAL $14634.05 ARTIGOS HOJE 10 TOKENS TOTAL 9.27B
aiexpert
Na linha
Research OpenAI lanza GeneBench-Pro; avalia juízo de IA em 129 problemas genômicos multiestágio; GPT-5.6 Sol atinge 31,5% Chips Espaçonaves agora fundem gestão térmica e telemetria orientada por IA para monitoramento autônomo de saúde Market Empresas se arrependem de demissões por IA e recontratam conforme sistemas provam incapazes de operar sem supervisão humana Market Model Context Protocol atinge 97M downloads mensais de SDK; 78% dos times de IA empresarial em produção Breaking Elastic abre código Atlas, sistema de memória de agente com abordagem de ciência cognitiva para contexto de longo prazo Breaking Databricks abre código Lakebase, Postgres serverless com separação de armazenamento nativo de nuvem Breaking Google DeepMind envia Nano Banana 2 Lite, modelo de imagem mais rápido a $0,034 por 1K imagens Funding Antigos executivos de Meta e OpenAI buscam $400M para novo lab de IA Aire Breaking Model Context Protocol Atinge 97M Downloads de SDK Mensais; Principais Fornecedores Padronizam MCP como Camada de Integração de Agentes Funding Aire, Novo Laboratório de IA Apoiado por Alumni de Meta e OpenAI, Busca $400 Milhões em Financiamento Funding Omnea Lança Fundo de Futuros Fundadores: Cheques de Seed de $250K para Funcionários que Viraram Empreendedores Chips AMD Confirma Núcleos de Baixa Potência em Futuros Processadores Zen, Seguindo o Modelo de Arquitetura Heterogênea da Intel Market Pilha de Inferência NVIDIA Reduz Custos de Token em até 5x no Blackwell em Um Mês Chips Kit de Agentes BioNeMo da NVIDIA se Integra com Claude Science da Anthropic para Fluxos de Trabalho de Biologia Acelerada Policy Trump Remove Controles de Exportação dos Modelos Fable 5 e Mythos 5 da Anthropic Breaking Google lança Nano Banana 2 Lite ($0,034/1K imagens, latência de 4s) e API de vídeo Gemini Omni Flash Policy Coreia do Sul anuncia investimento mega em IA e chips de US$ 1T+, liderado pela Samsung e SK Hynix até 2035 Chips G.Skill RAM AMD EXPO ULL atinge $1.099; 57-79% prêmio sobre EXPO padrão para timings apertados Funding OpenAI, Anthropic Arquivam Confidencialmente para IPOs; Corrida por Estreias de 2026 em Avaliações de $1T+ Breaking Cinco Pesquisadores da DeepMind Saíem da Alphabet para Anthropic e OpenAI em Uma Única Semana Research OpenAI lanza GeneBench-Pro; avalia juízo de IA em 129 problemas genômicos multiestágio; GPT-5.6 Sol atinge 31,5% Chips Espaçonaves agora fundem gestão térmica e telemetria orientada por IA para monitoramento autônomo de saúde Market Empresas se arrependem de demissões por IA e recontratam conforme sistemas provam incapazes de operar sem supervisão humana Market Model Context Protocol atinge 97M downloads mensais de SDK; 78% dos times de IA empresarial em produção Breaking Elastic abre código Atlas, sistema de memória de agente com abordagem de ciência cognitiva para contexto de longo prazo Breaking Databricks abre código Lakebase, Postgres serverless com separação de armazenamento nativo de nuvem Breaking Google DeepMind envia Nano Banana 2 Lite, modelo de imagem mais rápido a $0,034 por 1K imagens Funding Antigos executivos de Meta e OpenAI buscam $400M para novo lab de IA Aire Breaking Model Context Protocol Atinge 97M Downloads de SDK Mensais; Principais Fornecedores Padronizam MCP como Camada de Integração de Agentes Funding Aire, Novo Laboratório de IA Apoiado por Alumni de Meta e OpenAI, Busca $400 Milhões em Financiamento Funding Omnea Lança Fundo de Futuros Fundadores: Cheques de Seed de $250K para Funcionários que Viraram Empreendedores Chips AMD Confirma Núcleos de Baixa Potência em Futuros Processadores Zen, Seguindo o Modelo de Arquitetura Heterogênea da Intel Market Pilha de Inferência NVIDIA Reduz Custos de Token em até 5x no Blackwell em Um Mês Chips Kit de Agentes BioNeMo da NVIDIA se Integra com Claude Science da Anthropic para Fluxos de Trabalho de Biologia Acelerada Policy Trump Remove Controles de Exportação dos Modelos Fable 5 e Mythos 5 da Anthropic Breaking Google lança Nano Banana 2 Lite ($0,034/1K imagens, latência de 4s) e API de vídeo Gemini Omni Flash Policy Coreia do Sul anuncia investimento mega em IA e chips de US$ 1T+, liderado pela Samsung e SK Hynix até 2035 Chips G.Skill RAM AMD EXPO ULL atinge $1.099; 57-79% prêmio sobre EXPO padrão para timings apertados Funding OpenAI, Anthropic Arquivam Confidencialmente para IPOs; Corrida por Estreias de 2026 em Avaliações de $1T+ Breaking Cinco Pesquisadores da DeepMind Saíem da Alphabet para Anthropic e OpenAI em Uma Única Semana
Research

OpenAI lanza GeneBench-Pro; avalia juízo de IA em 129 problemas genômicos multiestágio; GPT-5.6 Sol atinge 31,5%

<cite index="63-3,64-1">OpenAI lançou GeneBench-Pro, um benchmark de 129 problemas em 10 domínios primários e 21 subdomínios cobrindo genômica, biologia quantitativa e medicina translacional. Cada problema fornece a um agente um conjunto de dados realista e deliberadamente barulhento e um alvo estimado vinculado a uma decisão científica ou translacional posterior.</cite> <cite index="64-2">GeneBench-Pro testa o que OpenAI chama de 'research taste': a cadeia de julgamentos sobre quais perguntas um conjunto de dados pode apoiar, quando diagnósticos iniciais devem mudar o modelo e quando um resultado está pronto para decisão.</cite> <cite index="61-1">OpenAI submeteu 82 dos 129 problemas a especialistas de domínio externo, incluindo estudantes de pós-graduação, pesquisadores de pós-doutorado, cientistas da indústria e professores universitários, que avaliaram o realismo de cada problema e se a resposta alvo era identificável.</cite>

<cite index="63-2">GPT-5.6 Sol atinge taxa de aprovação de 28,7% no nível máximo de raciocínio, e GPT-5.6 Sol Pro atinge 31,5%; GPT-5.5 atinge 12%, GPT-5.4 atinge 8,9%, e Claude Opus 4.8 da Anthropic atinge 16%.</cite> <cite index="64-3">O dimensionamento de computação em tempo de teste mostra que no nível de raciocínio mais baixo GPT-5.6 Sol pontua em um dígito, e no mais alto resolve aproximadamente seis vezes mais perguntas que GPT-5.2 enquanto usa aproximadamente dois terços dos tokens.</cite> <cite index="63-2">Modelos frequentemente completam partes substanciais do fluxo de trabalho, mas exibem uma lacuna consistente entre notar e agir: identificam sinais diagnósticos locais mas falham em propagar implicações para decisões de análise correspondentes, selecionando estimadores errados ou persistindo em caminhos incorretos.</cite>

<cite index="61-3">Se agentes conseguem automatizar com segurança essa classe de análise, eles poderiam acelerar significativamente a descoberta científica. O fator limitante na pesquisa genômica em escala de biobancos está mudando da geração de dados para transformar a informação em ideias acionáveis; modelos que conseguem consistentemente realizar análises tratadas por equipes de especialistas humanos poderiam transformar pesquisa industrial acelerando triagem de hipóteses e acompanhamento de alvo.</cite> Para equipes de biotech e pesquisadores farmacêuticos avaliando ferramentas de IA para ciência, GeneBench-Pro mede a capacidade que determina se um agente auxilia descoberta ou produz com confiança respostas erradas. Os 60%+ de problemas abaixo da taxa de aprovação de 20% sinalam espaço abundante para investimento antes que modelos saturem o benchmark.

Fontes