PP-OCRv6 OCR Leve Bate Modelos Vision-Language em Reconhecimento de Texto com 34.5M Parâmetros
A PaddlePaddle lançou PP-OCRv6, um sistema OCR leve que consegue 83.2% de precisão de reconhecimento e 86.2% Hmean de detecção, superando PP-OCRv5_server em +5.1% e +4.6% respectivamente enquanto supera Qwen3-VL-235B, GPT-5.5 e Gemini-3.1-Pro com ordens de magnitude menos parâmetros. O sistema abrange três níveis de modelo (médio, pequeno, tiny) de 1.5M a 34.5M parâmetros, redesenhado em torno de um backbone leve unificado em estilo MetaFormer (LCNetV4) com reparametrização estrutural.
PP-OCRv6_medium cobre 50 idiomas unificados em um único modelo—chinês, inglês, japonês e 46 idiomas de escrita latina—sem necessidade de troca de modelo, e mostra grandes melhorias em cenários especializados incluindo displays digitais, caracteres matriciais, impressões de pneus e reconhecimento de texto industrial. O nível tiny consegue inferência 3.9x mais rápida do que PP-OCRv5_mobile em Intel Xeon CPU mantendo precisão comparável, e o sistema completo consegue speedup de CPU 5.2x via OpenVINO e 6.1x em Apple M4.
Todos os modelos PP-OCRv6 estão disponíveis em HuggingFace e ModelScope, com três níveis para cenários de implantação edge, móvel e servidor. O sistema visa a lacuna de OCR de produção: modelos de visão-linguagem de propósito geral sofrem de alucinação, localização imprecisa e custo de computação proibitivo para tarefas OCR. PP-OCRv6 integra-se profundamente com ecossistemas de agentes de IA incluindo Dify, RAGFlow e Cherry Studio, posicionando-o como um componente central para gasodutos documento-para-dados em fluxos de trabalho agênticos.
Fontes
- Primary source
- PP-OCRv6: From 1.5M to 34.5M Parameters, Surpassing Billion-Scale VLMs on OCR Tasks
“PP-OCRv6_medium achieves 83.2% recognition accuracy and 86.2% detection Hmean, outperforming PP-OCRv5_server by +5.1% and +4.6% respectively”
- PaddleOCR on GitHub
“50 languages unified: Single model covers Chinese, English, Japanese, and 46 Latin-script languages”
- PP-OCRv6 Collection on Hugging Face
“From 1.5M to 34.5M Parameters, Surpassing Billion-Scale VLMs on OCR Tasks”