PP-OCRv6 OCR Ligero Supera Modelos Vision-Language en Reconocimiento de Texto con 34.5M Parámetros
PaddlePaddle lanzó PP-OCRv6, un sistema OCR ligero que logra 83.2% de precisión de reconocimiento y 86.2% Hmean de detección, superando PP-OCRv5_server en +5.1% y +4.6% respectivamente mientras supera Qwen3-VL-235B, GPT-5.5 y Gemini-3.1-Pro con órdenes de magnitud menos parámetros. El sistema abarca tres niveles de modelo (medio, pequeño, diminuto) de 1.5M a 34.5M parámetros, rediseñado alrededor de una columna vertebral ligera unificada de estilo MetaFormer (LCNetV4) con reparametrización estructural.
PP-OCRv6_medium cubre 50 idiomas unificados en un solo modelo—chino, inglés, japonés y 46 idiomas de escritura latina—sin necesidad de cambio de modelo, y muestra mejoras significativas en escenarios especializados incluidos pantallas digitales, caracteres matriciales, impresiones de neumáticos y reconocimiento de texto industrial. El nivel diminuto logra inferencia 3.9x más rápida que PP-OCRv5_mobile en CPU Intel Xeon manteniendo precisión comparable, y el sistema completo logra aceleración CPU 5.2x a través de OpenVINO y 6.1x en Apple M4.
Todos los modelos PP-OCRv6 están disponibles en HuggingFace y ModelScope, con tres niveles para escenarios de implementación edge, móvil y servidor. El sistema apunta a la brecha de OCR de producción: los modelos de visión-lenguaje de propósito general sufren de alucinación, localización imprecisa y costo de cómputo prohibitivo para tareas OCR. PP-OCRv6 se integra profundamente con ecosistemas de agentes de IA incluidos Dify, RAGFlow y Cherry Studio, posicionándolo como un componente central para canalizaciones documento-a-datos en flujos de trabajo agênticos.
Fuentes
- Primary source
- PP-OCRv6: From 1.5M to 34.5M Parameters, Surpassing Billion-Scale VLMs on OCR Tasks
“PP-OCRv6_medium achieves 83.2% recognition accuracy and 86.2% detection Hmean, outperforming PP-OCRv5_server by +5.1% and +4.6% respectively”
- PaddleOCR on GitHub
“50 languages unified: Single model covers Chinese, English, Japanese, and 46 Latin-script languages”
- PP-OCRv6 Collection on Hugging Face
“From 1.5M to 34.5M Parameters, Surpassing Billion-Scale VLMs on OCR Tasks”