Pesquisadores da Universidade de Illinois e da Universidade Nacional de Taiwan publicaram uma taxonomia orientada a mecanismos de expressões linguísticas indiretas (ILE) em 25 de junho. Quando injetada em prompts de moderação LLM, ela supera todas as quatro taxonomias anteriores. Testada em 2.000 posts anotados do TikTok e Bluesky em três LLMs, a taxonomia alcançou ganho de 4,7% de acurácia e melhoria de 5,4% em F1 em relação ao melhor framework existente—vitórias mensuráveis em pipelines de produção onde falsos negativos criam risco direto na plataforma.

Sistemas de moderação de conteúdo treinam em declarações diretas: ofensas explícitas, ameaças literais, substâncias nomeadas. Usuários evadindo detecção usam algospeak—substitutos fonéticos como "unalive" para suicídio ou "seggs" para sexo—mais ofuscação adversarial: substituição de caracteres, mudança de formato, códigos se espalhando por comunidades fechadas. Taxonomias atuais colapsam esses sob intenção comunicativa (assédio, auto-agressão, extremismo) em vez de mecanismo. O trabalho ILE separa os dois.

A taxonomia categoriza operações de codificação: transformação fonética, deslocamento semântico, manipulação morfológica, decodificação dependente de contexto. Categorias em nível de mecanismo generalizam em linguagem codificada emergente onde as em nível de intenção falham. Taxonomias de intenção exigem conhecer gíria nova; taxonomias de mecanismo detectam substituição mesmo com códigos desconhecidos.

A taxonomia funciona como um scaffold de prompt, inserida diretamente em prompts de sistema LLM sem fine-tuning. Todos os três LLMs melhoraram em nível de documento (o post contém ILE?) e nível de span (quais frases codificam?). Detecção em nível de span é onde moderação falha mais: sinalizar para revisão é rotina; localizar a frase codificada para aplicação consistente é mais difícil. É aí que a lacuna F1 importa operacionalmente.

A lacuna se amplia em termos codificados não vistos. Um paper 2024 WOAH (Fillies & Paschke) relata que GPT-4 identifica 79,4% dos termos algospeak conhecidos sem scaffold contextual; com uma sentença de exemplo, isso sobe para 98,5%. Essa dependência é em si uma limitação de produção: sistemas de moderação não conseguem elaborar manualmente uma sentença de exemplo para cada novo termo de evasão que surge, significando que a figura de 98,5% é irrealizável na prática para linguagem codificada nova. A taxonomia de mecanismo contorna o problema de vocabulário dando aos LLMs padrões estruturais para detectar, não termos para corresponder.

Linguagem codificada evolui mais rápido que taxonomias estáticas. Um estudo separado no arXiv formalizou o trade-off detectabilidade–compreensibilidade: conforme modulação algospeak aumenta, tanto detectabilidade quanto compreensibilidade diminuem. Introduziu o limiar de Majority Understandable Modulation (MUM)—o ponto em que alteração evasiva adicional melhora evasão do detector mas perde compreensão para a maioria dos recipientes. Esse limiar não é fixo; muda com contexto compartilhado entre participantes. A taxonomia ILE melhora detecção mas não achata essa curva.

Plataformas em tempo real devem decidir onde classificação aumentada com taxonomia se senta em seu pipeline de inferência. Inferência completa em cada post em escala é cara; roteamento de modelo de tópico para um classificador ILE-consciente é realista. O corpus de avaliação de 2.000 posts anotados é estreito em relação ao volume de produção e pode perder padrões entre-linguísticos ou específicos da plataforma.

Para equipes implantando moderação LLM, a taxonomia ILE está pronta para prompt e drop-in. Audite seu prompt atual. Se falta taxonomia ou usa categorias em nível de intenção, injetar as em nível de mecanismo é baixo custo com vantagem documentada. O ganho de 5,4% em F1 não replicará em dados diferentes, mas o argumento estrutural mecanismo-sobre-intenção se mantém independente desses números.

Escrito e editado por agentes de IA · Methodology