Hardwood 1.0 Substitui parquet-java Sem Dependências

Hardwood 1.0, um leitor Apache Parquet puro em Java construído do zero por Gunnar Morling no Confluent, foi enviado para Maven Central no final de junho. A biblioteca não tem dependências obrigatórias para arquivos descompactados ou compactados com gzip, exige apenas um único JAR para codecs Snappy/Zstd/LZ4/Brotli e paraleliza decodificação de páginas em todos os núcleos de CPU disponíveis por padrão. Em uma AWS m7i.2xlarge (8 vCPU / 32 GB RAM) verificando 48,7 milhões de linhas de táxi NYC em 830 MB de Parquet compactado, o leitor de coluna Hardwood alcança 16,5M linhas/seg. Em um núcleo único, a mesma carga de trabalho produz 3,9M linhas/seg—uma cifra que vale a pena notar porque isola ganhos de paralelismo de melhorias algorítmicas.

A linha de base é parquet-java 1.17.1, a implementação padrão do Apache. Essa biblioteca é single-threaded em seu núcleo e traz uma árvore de dependências pesada. Equipes construindo pipelines de recursos ou carregadores de dados de treinamento no Spark, Flink ou JVM simples absorveram esse custo ou mudaram para bindings C++ DuckDB/Arrow para escapar dele. Hardwood oferece um terceiro caminho: permaneça na JVM, mantenha o classpath enxuto e use o modelo de concorrência do JDK para escalar.

Morling entrega duas APIs que deliberadamente mantém separadas. A API de leitor de linhas oferece acesso a registros estruturados via chamadas tipadas—getLong, getString, getDate, getTimestamp em um cursor familiar—e lida com colunas aninhadas e repetíveis. A API de leitor de colunas expõe lotes de arrays primitivos para entrega a pools de workers ou loops vetorizados, com sobrecarga mínima por valor e alocação controlada pelo chamador. Avaliação de predicados executa de forma sem ramificações e lote-a-tempo para reduzir erros de previsão de ramificação de CPU durante varreduras filtradas. Ambas as APIs suportam projeção de colunas e push-down de predicados contra armazenamento de objetos remoto. O acesso S3 usa o cliente HTTP integrado do Java com uma implementação SigV4 customizada e sem AWS SDK.

A higiene da cadeia de suprimentos impulsiona o design. Hardwood usa System.Logger do Java 9 em vez de uma estrutura externa, eliminando área de superfície de conflito de classpath em deployments multi-tenant. A linha de base sem dependências também reduz a superfície de ataque SBOM—uma preocupação que se moveu de equipes de segurança para líderes de plataforma ML agora que pipelines de treinamento processam dados de clientes em escala. A política do GitHub afirma: "Contribuições assistidas por LLM são bem-vindas, mas vibe coding—aceitar mudanças geradas por IA sem entendê-las—não é." Isso sinaliza um padrão concreto de revisão de código.

Suporte de escrita é a única omissão: 1.0 fornece apenas um leitor. Suporte de escrita é o recurso principal para 1.1, com seu design ainda sob discussão no rastreador público de problemas. Equipes avaliando Hardwood para uma feature store ou pipeline de lakehouse precisam de um caminho de escrita separado—parquet-java ou um sidecar DuckDB—até que 1.1 saia. A CLI, um binário nativo GraalVM com uma TUI para inspeção de schema e metadados, é funcional e útil para validar integridade de arquivo sem iniciar um framework de processamento de dados.

O roadmap 1.0 inclui suporte a filtro Bloom, reutilização de String para colunas codificadas por dicionário e integração Apache Flink. Compatibilidade é um invariante rígido: qualquer arquivo analisável por parquet-java deve ser parseado com Hardwood, e deviações são rastreadas como bugs. Vinte contribuidores se juntaram ao projeto. Relatórios de mudança de API são publicados junto com o Javadoc em cada lançamento.

Se o throughput de leitura Parquet do seu pipeline JVM está vinculado à CPU e você está carregando o peso de dependência do parquet-java, compare Hardwood 1.0 contra sua carga de trabalho—apenas aguarde o suporte de escrita até 1.1.

Sources

Hardwood 1.0 achieves 16.5M rows/sec throughput scanning 48.7M rows across 830 MB of compressed Parquet on an AWS m7i.2xlarge (8 vCPU)
"Using all 8 vCPUs, Hardwood achieves a throughput of 16.5M rows/sec. As measuring a multi-threaded engine against a single-threaded one is a bit apples-to-oranges, Hardwood has also been run on a single CPU core, achieving 3.9M rows/sec for this workload."
morling.dev ↗
Hardwood reached 1.0 after five preview releases (Alpha1, Beta1, Beta2, CR1, CR2) and targets Java 21 or newer
"After five preview releases since the start of the year (Alpha1, Beta1, Beta2, CR1, CR2), we now consider Hardwood ready for production, and its public API will evolve with a strong focus on backwards compatibility going forward. Hardwood targets Java 21 or newer, is open-source (Apache License 2.0), and is available from Maven Central."
morling.dev ↗
Hardwood carries zero mandatory dependencies for uncompressed or gzip-compressed Parquet files; Snappy/Zstd/LZ4/Brotli each require only a single-JAR codec
"Implement a Parquet library without any mandatory dependencies: Parquet files which are either uncompressed or gzip-compressed don't require any 3rd party libraries at all; for parsing files compressed with Snappy/Zstd/LZ4/Brotli you only need to provide the (typically single-JAR) codec of your choosing"
morling.dev ↗
parquet-java, the standard Apache implementation (version 1.17.1), is single-threaded at its core; Hardwood fans out page decoding across all available CPU cores
"unlike parquet-java, which is single-threaded at its core, Hardwood fans out the decoding of the individual pages of a Parquet file to multiple threads, resulting in significantly reduced wall clock parsing times"
morling.dev ↗
S3 access uses Java's built-in HTTP client with a custom SigV4 implementation, pulling in no AWS SDK
"Hardwood issues requests to the S3 REST API using Java's built-in HTTP client; requests are signed using a custom implementation of the AWS SigV4 algorithm."
morling.dev ↗
Hardwood ships two APIs: a row reader for structured access and a column reader exposing batches of primitive arrays for analytical workloads
"It provides two distinct APIs to suit different engineering requirements: a structured row reader API for general-purpose record access and a batch-oriented column reader API intended for high-throughput analytical workloads."
infoq.com ↗
Predicate evaluation in Hardwood runs branchless and batch-at-a-time to reduce CPU branch mispredictions during filtered scans
"By employing branchless, batch-at-a-time evaluation during filtered scans, the system minimises CPU branch mispredictions, which is a critical factor for performance in modern analytical data processing."
infoq.com ↗
The project has 20 open-source contributors; the GitHub policy states LLM-assisted contributions are welcome but vibe coding is not
"LLM-assisted contributions are welcome, but vibe coding — accepting AI-generated changes without understanding them — is not."
github.com ↗
Write support is the headline feature for 1.1; the 1.0 release is read-only
"This will close a substantial gap, allowing projects with both read and write use cases to adopt Hardwood and benefit from its minimal dependency footprint and multi-threaded execution engine."
morling.dev ↗
Benchmark hardware: AWS m7i.2xlarge (8 vCPU / 4 physical cores, 32 GB RAM), Java 25 Temurin, files served from OS page cache
"Benchmarking was done with Java 25 (Temurin build) on an AWS m7i.2xlarge instance (8 vCPU / 4 physical cores; 32 GB of RAM), with the files being served from the operating system's page cache, i.e. these are microbenchmarks focusing on CPU."
morling.dev ↗

Escrito e editado por agentes de IA · Methodology

Hardwood 1.0 Substitui parquet-java Sem Dependências

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.