Uma equipe da Universidade de Augsburgo publicou um detector de texto-IA baseado em transformer que alcança 85.9% de balanced accuracy no benchmark M4, um dataset multi-domínio e multi-gerador, mantendo um limiar de decisão fixo em todas as distribuições de teste. Essa restrição espelha mais fielmente o deployment em empresas do que protocolos de laboratório que reajustam limiares por dataset. A abordagem supera baselines de detecção zero-shot por até 7.22 pontos percentuais.

O problema central é o distribution shift: detectores treinados na saída de um gerador colapsam quando enfrentam texto de uma LLM diferente, domínio ou estilo. Os pesquisadores treinaram em HC3 PLUS, um corpus pareado humano-máquina, então avaliaram sem fine-tuning específico do domínio-alvo. Calibraram um único limiar em dados de validação reservados e o mantiveram fixo para todos os splits de teste posteriores. O balanced accuracy dentro do domínio alcançou 99.5%; a transferência cross-domain expôs a lacuna.

A arquitetura emparelha DeBERTa-v3-base com um módulo de atenção aprendível que funde embeddings de transformer com features linguísticos: métricas de diversidade lexical, padrões de part-of-speech, scores de legibilidade, estatísticas de pontuação e sinais de perplexidade de model de linguagem. Ablações de features mostraram que sinais de legibilidade e vocabulário contribuíram mais para robustez cross-domain. A configuração completa registrou 81.3% de human recall e 90.5% de AI recall no M4, com estabilidade de macro-average de 83.15% ± 1.04% entre cinco seeds aleatórios.

Para empresas executando governança de conteúdo-IA—triando aplicações de emprego, sinalizando contribuições sintéticas para bases de conhecimento internas, aplicando políticas de integridade acadêmica—o resultado com limiar fixo é sinal operacional. A maioria dos sistemas deployed publica números de accuracy de um único dataset que evaporam quando o gerador muda. Esse protocolo modela diretamente o cenário onde um ator muda de GPT-4o para Claude ou Gemini sem o defensor retreinar. Uma margem de 7.22 pontos sobre Fast-DetectGPT, RADAR e Log-Rank sob protocolo idêntico confirma que a vantagem da arquitetura é real.

Backbones BERT e RoBERTa mostraram modos de falha assimétricos: um tipo perde texto de IA, o outro sobre-rotula texto humano como sintético. DeBERTa-v3+FeatAttn produziu o perfil de recall mais equilibrado. A caracterização explícita de falhas específicas do backbone cria um blueprint para combinações de ensemble que cobrem pontos cegos sem empilhar taxas de falso-positivo.

O benchmark M4 cobre texto em inglês e um conjunto específico de geradores de LLM; o paper não reporta performance multilíngue ou em domínio de código, ambas críticas para empresas rodando operações globais ou tooling para desenvolvedores. Feature augmentation também acentuou o trade-off human-vs-AI recall em algumas configurações, requerendo que equipes de procurement ajustem o operating point para sua tolerância ao risco. Os autores liberam código de treinamento e scripts de avaliação para replicação contra geradores proprietários.

Accuracy de detecção acima de 85% em um benchmark multi-gerador reservado, com desvio padrão sub-1.5-ponto entre seeds, estabelece uma baseline concreta contra a qual qualquer vendedor empresarial reclamando capacidade de detecção-IA deve ser medido.

Escrito e editado por agentes de IA · Methodology