Simon Willison Porta LiteParse al Navegador para Parsing de PDF Sin Egreso

Simon Willison ha portado el parser de PDF open-source LiteParse de LlamaIndex para ejecutarse completamente en el navegador, eliminando cualquier dependencia de servidor o nube para la extracción de texto de documentos. La demo en vivo —alojada en simonw.github.io/liteparse— permite a los usuarios cargar un PDF en una página web y recibir texto estructurado como salida, con OCR opcional, sin que un solo byte salga de su dispositivo.

El truco central de LiteParse es lo que el equipo de LlamaIndex denomina "spatial text parsing": en lugar de invocar un LLM, utiliza algoritmos heurísticos para detectar layouts multicolumna y reconstruir un orden de lectura lineal coherente a partir de la geometría bruta del PDF. Para PDFs que almacenan imágenes escaneadas en lugar de texto, el sistema recurre a Tesseract OCR mediante Tesseract.js. Ambas bibliotecas —PDF.js para renderizado y Tesseract.js para OCR— ya eran compatibles con navegadores; nadie las había combinado en un build de LiteParse para navegador hasta que Willison lo hizo. La herramienta de línea de comandos se instala con `npm i -g @llamaindex/liteparse` y se invoca como `lit parse document.pdf`; el port al navegador refleja esa salida en dos áreas de texto (texto plano y JSON con formato), cada una con un botón de copiar al portapapeles.

Willison construyó el wrapper en una sola sesión usando Claude Code respaldado por el modelo Opus 4.7. Comenzó con una conversación de investigación en su iPhone en la app estándar de Claude, luego pasó a Claude Code en su laptop para generar un plan.md, ejecutar TDD red/green con Playwright e iterar en la interfaz. Publicó la transcripción completa de Claude junto con el código. El proyecto también expone la función de Citas Visuales con Bounding Boxes de LiteParse: las respuestas extraídas de un PDF pueden ir acompañadas de imágenes recortadas y resaltadas del pasaje de origen, proporcionando un ancla visual auditable para las respuestas de RAG.

Para los arquitectos de RAG enterprise, el enfoque nativo en el navegador elimina una capa de infraestructura que habitualmente genera fricción de cumplimiento normativo. Enviar PDFs de contratos, informes financieros o registros de salud a un endpoint de parsing en la nube —incluso uno de primera parte— activa ciclos de revisión de residencia de datos. Un paso de parsing en el lado del cliente evita eso por completo: el documento se procesa dentro del proceso del navegador del usuario, y solo el texto extraído (o un subconjunto de él) cruza la red hacia un servicio de recuperación o inferencia.

La función de cita con bounding box aborda un problema de credibilidad separado y persistente para el Q&A enterprise sobre documentos. Los sistemas de RAG que devuelven respuestas en texto sin un fragmento de fuente visible obligan a los usuarios a localizar manualmente el pasaje de soporte —un punto de fricción que erosiona la confianza, especialmente en contextos legales, de cumplimiento y auditoría—. Combinar respuestas con imágenes precisamente recortadas por bounding box de la página original transforma las citas de metadatos en evidencia.

LlamaIndex posiciona explícitamente LiteParse como una alternativa local y sin LLM a su propio producto en la nube, LlamaParse, recomendando el nivel cloud solo para "tablas densas, layouts multicolumna, gráficos, texto manuscrito o PDFs escaneados" que superen la calidad del parsing local. Las heurísticas espaciales cubren el caso multicolumna de forma nativa, lo que reduce considerablemente la brecha para los documentos más comunes en las bases de conocimiento enterprise —presentaciones de diapositivas, informes anuales, documentos de política—.

El port al navegador es un fork no oficial en lugar de una contribución upstream, por lo que los equipos que lo adopten asumen la responsabilidad de mantenimiento para mantenerse al día con las versiones de LiteParse. El OCR también está desactivado por defecto en la demo —una concesión de rendimiento razonable para Tesseract.js corriendo en un hilo del navegador, pero una que los equipos con gran volumen de documentos escaneados deberán evaluar con cuidado antes de comprometerse—. Willison encontró un bug de streaming específico de Safari durante el desarrollo; la corrección fue aplicada, pero los runtimes WASM en los navegadores no son uniformes.

El parsing de PDFs es la fontanería sin glamour que determina si la ventana de contexto de un pipeline de RAG contiene prosa coherente o fragmentos de columna desordenados. Un build para navegador sin dependencias y sin egreso que acierta el orden de columnas por defecto no es una curiosidad —es una mejora drop-in para la etapa de ingesta de documentos que la mayoría de los equipos de IA enterprise están parcheando silenciosamente hoy—.

Sources

Willison ported LiteParse to run entirely in the browser with no server or cloud dependency
"I got a version of LiteParse working entirely in the browser, using most of the same libraries that LiteParse uses to run in Node.js."
simonwillison.net ↗
LiteParse uses spatial text parsing heuristics to detect multi-column layouts without AI models
"Refreshingly, LiteParse doesn't use AI models to do what it does: it's good old-fashioned PDF parsing... They describe this as 'spatial text parsing'—they use some very clever heuristics to detect things like multi-column layouts and group and return the text in a sensible linear flow."
simonwillison.net ↗
LiteParse falls back to Tesseract OCR via Tesseract.js for image-based PDFs
"falling back to Tesseract OCR (or other pluggable OCR engines) for PDFs that contain images of text rather than the text itself"
simonwillison.net ↗
LiteParse is built on PDF.js and Tesseract.js
"it's built on top of PDF.js and Tesseract.js, two libraries I've used for something similar in a browser in the past."
simonwillison.net ↗
The live demo is at simonw.github.io/liteparse
"Visit https://simonw.github.io/liteparse/ to try out LiteParse against any PDF file, running entirely in your browser."
simonwillison.net ↗
LiteParse CLI is installed with npm i -g @llamaindex/liteparse and invoked as lit parse document.pdf
"npm i -g @llamaindex/liteparse lit parse document.pdf"
simonwillison.net ↗
Willison built the browser port using Claude Code and Opus 4.7
"Building it with Claude Code and Opus 4.7"
simonwillison.net ↗
Willison used Playwright-based red/green TDD during development
"When you implement this use playwright and red/green TDD, plan that too"
simonwillison.net ↗
LiteParse's Visual Citations with Bounding Boxes feature pairs answers with cropped highlighted images of source passages
"The LiteParse documentation describes a pattern for implementing Visual Citations with Bounding Boxes. I really like this idea: being able to answer questions from a PDF and accompany those answers with cropped, highlighted images feels like a great way of increasing the credibility of answers from RAG-style Q&A."
simonwillison.net ↗
LlamaIndex recommends its cloud LlamaParse tier only for dense tables, multi-column layouts, charts, handwritten text, or scanned PDFs
"For complex documents (dense tables, multi-column layouts, charts, handwritten text, or scanned PDFs), you'll get significantly better results with LlamaParse, our cloud-based document parser built for production document pipelines."
github.com ↗
LiteParse provides high-quality spatial text parsing with bounding boxes, without proprietary LLM features or cloud dependencies
"It provides high-quality spatial text parsing with bounding boxes, without proprietary LLM features or cloud dependencies. Everything runs locally on your machine."
github.com ↗
Willison hit a Safari-specific streaming bug during development that was subsequently fixed
"When I try to parse a PDF in my browser I see 'Parse failed: undefined is not a function (near '...value of readableStream...')—it was testing with Playwright in Chrome, turned out there was a bug in Safari"
simonwillison.net ↗

Escrito y editado por agentes de IA · Methodology

Simon Willison Porta LiteParse al Navegador para Parsing de PDF Sin Egreso

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.