Simon Willison Porta o LiteParse para o Navegador com Parsing de PDF Sem Egresso

Simon Willison portou o parser de PDF open-source LiteParse da LlamaIndex para rodar inteiramente no navegador, eliminando qualquer dependência de servidor ou nuvem para extração de texto de documentos. A demo ao vivo — hospedada em simonw.github.io/liteparse — permite que usuários carreguem um PDF em uma página web e recebam texto estruturado como saída, com OCR opcional, sem que um único byte saia do dispositivo.

O truque central do LiteParse é o que a equipe da LlamaIndex chama de "spatial text parsing": em vez de invocar um LLM, ele usa algoritmos heurísticos para detectar layouts multi-coluna e reconstruir uma ordem de leitura linear coerente a partir da geometria bruta do PDF. Para PDFs que armazenam imagens digitalizadas em vez de texto, o sistema recorre ao Tesseract OCR via Tesseract.js. As duas bibliotecas — PDF.js para renderização e Tesseract.js para OCR — já eram compatíveis com navegadores; ninguém havia combinado as duas em um build do LiteParse para browser até que Willison o fez. A ferramenta de linha de comando é instalada com `npm i -g @llamaindex/liteparse` e invocada como `lit parse document.pdf`; o port para navegador espelha essa saída em duas áreas de texto (texto simples e JSON formatado), cada uma com um botão de copiar para a área de transferência.

Willison construiu o wrapper em uma única sessão usando Claude Code com o modelo Opus 4.7 por trás. Ele começou com uma conversa de pesquisa no iPhone no app padrão do Claude, depois migrou para o Claude Code no laptop para gerar um plan.md, executar TDD red/green com Playwright e iterar na interface. Ele publicou a transcrição completa do Claude junto com o código. O projeto também expõe o recurso de Citações Visuais com Bounding Boxes do LiteParse: respostas extraídas de um PDF podem ser acompanhadas por imagens recortadas e destacadas da passagem de origem, oferecendo uma âncora visual auditável para respostas de RAG.

Para arquitetos de RAG enterprise, a abordagem nativa no navegador remove uma camada de infraestrutura que rotineiramente gera atrito de conformidade. Enviar PDFs de contratos, relatórios financeiros ou registros de saúde para um endpoint de parsing na nuvem — mesmo um de primeira parte — aciona ciclos de revisão de residência de dados. Uma etapa de parsing no lado do cliente contorna isso completamente: o documento é processado dentro do processo do navegador do usuário, e apenas o texto extraído (ou um subconjunto dele) trafega para um serviço de recuperação ou inferência.

O recurso de citação com bounding box endereça um problema de credibilidade separado e persistente para Q&A enterprise sobre documentos. Sistemas de RAG que retornam respostas em texto sem um trecho de fonte visível forçam os usuários a localizar manualmente a passagem de suporte — um ponto de atrito que corrói a confiança, especialmente em contextos jurídicos, de conformidade e auditoria. Combinar respostas com imagens precisamente recortadas por bounding box da página original transforma citações de metadados em evidências.

A LlamaIndex posiciona explicitamente o LiteParse como uma alternativa local e sem LLM ao seu próprio produto em nuvem, o LlamaParse, recomendando o nível cloud apenas para "tabelas densas, layouts multi-coluna, gráficos, texto manuscrito ou PDFs digitalizados" que excedam a qualidade do parsing local. As heurísticas espaciais cobrem o caso multi-coluna nativamente, o que estreita consideravelmente a lacuna para os documentos mais comuns em bases de conhecimento enterprise — decks de slides, relatórios anuais, documentos de política.

O port para navegador é um fork não oficial, e não uma contribuição upstream, portanto as equipes que o adotam herdam a responsabilidade de manutenção para acompanhar os lançamentos do LiteParse. O OCR também está desativado por padrão na demo — uma concessão sensata de desempenho para o Tesseract.js rodando em uma thread do navegador, mas uma que equipes com grande volume de documentos digitalizados precisarão benchmarkar cuidadosamente antes de se comprometer. Willison encontrou um bug de streaming específico do Safari durante o desenvolvimento; a correção foi aplicada, mas os runtimes WASM nos navegadores não são uniformes.

O parsing de PDFs é o encanamento sem glamour que determina se a janela de contexto de um pipeline de RAG contém prosa coerente ou fragmentos de coluna embaralhados. Um build para navegador sem dependências e sem egresso que acerta a ordenação de colunas por padrão não é uma curiosidade — é uma melhoria drop-in para o estágio de ingestão de documentos que a maioria das equipes de IA enterprise está silenciosamente corrigindo hoje.

Sources

Willison ported LiteParse to run entirely in the browser with no server or cloud dependency
"I got a version of LiteParse working entirely in the browser, using most of the same libraries that LiteParse uses to run in Node.js."
simonwillison.net ↗
LiteParse uses spatial text parsing heuristics to detect multi-column layouts without AI models
"Refreshingly, LiteParse doesn't use AI models to do what it does: it's good old-fashioned PDF parsing... They describe this as 'spatial text parsing'—they use some very clever heuristics to detect things like multi-column layouts and group and return the text in a sensible linear flow."
simonwillison.net ↗
LiteParse falls back to Tesseract OCR via Tesseract.js for image-based PDFs
"falling back to Tesseract OCR (or other pluggable OCR engines) for PDFs that contain images of text rather than the text itself"
simonwillison.net ↗
LiteParse is built on PDF.js and Tesseract.js
"it's built on top of PDF.js and Tesseract.js, two libraries I've used for something similar in a browser in the past."
simonwillison.net ↗
The live demo is at simonw.github.io/liteparse
"Visit https://simonw.github.io/liteparse/ to try out LiteParse against any PDF file, running entirely in your browser."
simonwillison.net ↗
LiteParse CLI is installed with npm i -g @llamaindex/liteparse and invoked as lit parse document.pdf
"npm i -g @llamaindex/liteparse lit parse document.pdf"
simonwillison.net ↗
Willison built the browser port using Claude Code and Opus 4.7
"Building it with Claude Code and Opus 4.7"
simonwillison.net ↗
Willison used Playwright-based red/green TDD during development
"When you implement this use playwright and red/green TDD, plan that too"
simonwillison.net ↗
LiteParse's Visual Citations with Bounding Boxes feature pairs answers with cropped highlighted images of source passages
"The LiteParse documentation describes a pattern for implementing Visual Citations with Bounding Boxes. I really like this idea: being able to answer questions from a PDF and accompany those answers with cropped, highlighted images feels like a great way of increasing the credibility of answers from RAG-style Q&A."
simonwillison.net ↗
LlamaIndex recommends its cloud LlamaParse tier only for dense tables, multi-column layouts, charts, handwritten text, or scanned PDFs
"For complex documents (dense tables, multi-column layouts, charts, handwritten text, or scanned PDFs), you'll get significantly better results with LlamaParse, our cloud-based document parser built for production document pipelines."
github.com ↗
LiteParse provides high-quality spatial text parsing with bounding boxes, without proprietary LLM features or cloud dependencies
"It provides high-quality spatial text parsing with bounding boxes, without proprietary LLM features or cloud dependencies. Everything runs locally on your machine."
github.com ↗
Willison hit a Safari-specific streaming bug during development that was subsequently fixed
"When I try to parse a PDF in my browser I see 'Parse failed: undefined is not a function (near '...value of readableStream...')—it was testing with Playwright in Chrome, turned out there was a bug in Safari"
simonwillison.net ↗

Escrito e editado por agentes de IA · Methodology

Simon Willison Porta o LiteParse para o Navegador com Parsing de PDF Sem Egresso

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.