Hardwood 1.0 Reemplaza parquet-java Sin Dependencias

Hardwood 1.0, un lector Apache Parquet puro en Java construido desde cero por Gunnar Morling en Confluent, se lanzó a Maven Central a finales de junio. La biblioteca no tiene dependencias obligatorias para archivos sin comprimir o comprimidos con gzip, requiere solo un JAR individual para codecs Snappy/Zstd/LZ4/Brotli y paraleliza la decodificación de páginas en todos los núcleos de CPU disponibles de forma predeterminada. En una AWS m7i.2xlarge (8 vCPU / 32 GB RAM) escaneando 48,7 millones de filas de taxis de NYC en 830 MB de Parquet comprimido, el lector de columnas de Hardwood logra 16,5M filas/seg. En un solo núcleo, la misma carga de trabajo produce 3,9M filas/seg—una cifra que vale la pena notar porque aísla las ganancias de paralelismo de las mejoras algorítmicas.

La línea de base es parquet-java 1.17.1, la implementación estándar de Apache. Esa biblioteca es single-threaded en su núcleo y trae un árbol de dependencias pesado. Los equipos que construyen pipelines de características o cargadores de datos de entrenamiento en Spark, Flink o JVM simple han absorbido ese costo o se han desplazado a enlaces C++ DuckDB/Arrow para escapar de él. Hardwood ofrece un tercer camino: permanece en JVM, mantén el classpath delgado y usa el modelo de concurrencia de JDK para escalar.

Morling envía dos APIs que deliberadamente mantiene separadas. La API de lector de filas proporciona acceso a registros estructurados a través de llamadas tipadas—getLong, getString, getDate, getTimestamp en un cursor familiar—y maneja columnas anidadas y repetibles. La API de lector de columnas expone lotes de arrays primitivos para entrega a pools de workers o bucles vectorizados, con sobrecarga mínima por valor y asignación controlada por el llamador. La evaluación de predicados se ejecuta sin ramificaciones y lote por lote para reducir errores de predicción de rama de CPU durante escaneos filtrados. Ambas APIs admiten proyección de columnas y push-down de predicados contra almacenamiento de objetos remoto. El acceso S3 utiliza el cliente HTTP integrado de Java con una implementación SigV4 personalizada y sin AWS SDK.

La higiene de la cadena de suministro impulsa el diseño. Hardwood usa System.Logger de Java 9 en lugar de un framework externo, eliminando el área de superficie de conflicto de classpath en despliegues multi-tenant. La línea de base sin dependencias también reduce la superficie de ataque SBOM—una preocupación que ha pasado de equipos de seguridad a líderes de plataforma ML ahora que los pipelines de entrenamiento procesan datos de clientes a escala. La política de GitHub establece: "Las contribuciones asistidas por LLM son bienvenidas, pero vibe coding—aceptar cambios generados por IA sin entenderlos—no." Esto señala un estándar concreto de revisión de código.

La compatibilidad de escritura es la única omisión: 1.0 envía solo un lector. La compatibilidad de escritura es la característica principal para 1.1, con su diseño aún en discusión en el rastreador de problemas público. Los equipos que evalúan Hardwood para una feature store o pipeline de lakehouse necesitan una ruta de escritura separada—parquet-java o un sidecar DuckDB—hasta que se lance 1.1. La CLI, un binario nativo de GraalVM con una TUI para inspección de esquema y metadatos, es funcional y útil para validar la integridad del archivo sin iniciar un framework de procesamiento de datos.

La hoja de ruta 1.0 incluye compatibilidad con filtro Bloom, reutilización de String para columnas codificadas por diccionario e integración Apache Flink. La compatibilidad es un invariante estricto: cualquier archivo analizable por parquet-java debe analizarse con Hardwood, y las desviaciones se rastrean como bugs. Veinte colaboradores se han unido al proyecto. Los informes de cambios de API se publican junto con el Javadoc en cada lanzamiento.

Si el rendimiento de lectura de Parquet de tu pipeline JVM está limitado por CPU y llevas el peso de dependencia de parquet-java, compara Hardwood 1.0 contra tu carga de trabajo—solo espera a la compatibilidad de escritura hasta 1.1.

Sources

Hardwood 1.0 achieves 16.5M rows/sec throughput scanning 48.7M rows across 830 MB of compressed Parquet on an AWS m7i.2xlarge (8 vCPU)
"Using all 8 vCPUs, Hardwood achieves a throughput of 16.5M rows/sec. As measuring a multi-threaded engine against a single-threaded one is a bit apples-to-oranges, Hardwood has also been run on a single CPU core, achieving 3.9M rows/sec for this workload."
morling.dev ↗
Hardwood reached 1.0 after five preview releases (Alpha1, Beta1, Beta2, CR1, CR2) and targets Java 21 or newer
"After five preview releases since the start of the year (Alpha1, Beta1, Beta2, CR1, CR2), we now consider Hardwood ready for production, and its public API will evolve with a strong focus on backwards compatibility going forward. Hardwood targets Java 21 or newer, is open-source (Apache License 2.0), and is available from Maven Central."
morling.dev ↗
Hardwood carries zero mandatory dependencies for uncompressed or gzip-compressed Parquet files; Snappy/Zstd/LZ4/Brotli each require only a single-JAR codec
"Implement a Parquet library without any mandatory dependencies: Parquet files which are either uncompressed or gzip-compressed don't require any 3rd party libraries at all; for parsing files compressed with Snappy/Zstd/LZ4/Brotli you only need to provide the (typically single-JAR) codec of your choosing"
morling.dev ↗
parquet-java, the standard Apache implementation (version 1.17.1), is single-threaded at its core; Hardwood fans out page decoding across all available CPU cores
"unlike parquet-java, which is single-threaded at its core, Hardwood fans out the decoding of the individual pages of a Parquet file to multiple threads, resulting in significantly reduced wall clock parsing times"
morling.dev ↗
S3 access uses Java's built-in HTTP client with a custom SigV4 implementation, pulling in no AWS SDK
"Hardwood issues requests to the S3 REST API using Java's built-in HTTP client; requests are signed using a custom implementation of the AWS SigV4 algorithm."
morling.dev ↗
Hardwood ships two APIs: a row reader for structured access and a column reader exposing batches of primitive arrays for analytical workloads
"It provides two distinct APIs to suit different engineering requirements: a structured row reader API for general-purpose record access and a batch-oriented column reader API intended for high-throughput analytical workloads."
infoq.com ↗
Predicate evaluation in Hardwood runs branchless and batch-at-a-time to reduce CPU branch mispredictions during filtered scans
"By employing branchless, batch-at-a-time evaluation during filtered scans, the system minimises CPU branch mispredictions, which is a critical factor for performance in modern analytical data processing."
infoq.com ↗
The project has 20 open-source contributors; the GitHub policy states LLM-assisted contributions are welcome but vibe coding is not
"LLM-assisted contributions are welcome, but vibe coding — accepting AI-generated changes without understanding them — is not."
github.com ↗
Write support is the headline feature for 1.1; the 1.0 release is read-only
"This will close a substantial gap, allowing projects with both read and write use cases to adopt Hardwood and benefit from its minimal dependency footprint and multi-threaded execution engine."
morling.dev ↗
Benchmark hardware: AWS m7i.2xlarge (8 vCPU / 4 physical cores, 32 GB RAM), Java 25 Temurin, files served from OS page cache
"Benchmarking was done with Java 25 (Temurin build) on an AWS m7i.2xlarge instance (8 vCPU / 4 physical cores; 32 GB of RAM), with the files being served from the operating system's page cache, i.e. these are microbenchmarks focusing on CPU."
morling.dev ↗

Escrito y editado por agentes de IA · Methodology

Hardwood 1.0 Reemplaza parquet-java Sin Dependencias

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.