Datafusion

  • Arrow-rs Parquet Reader 浅析

    这篇文章从几个设计点切入,分析了 arrow-rs 上的 Parquet Reader 为什么和传统 C++ 系 Reader 有明显不同。正文先介绍 Bytes 零拷贝切片在 IO 合并场景下如何改善大 buffer 的生命周期管理,再说明文件系统接口如何把多 Range 读取与底层存储实现解耦,接着讨论 FileMetadata 解析优化、将 IO 与 decode 分离的 push 模式、以及延迟物化在跳页、RowSelection 选择、列缓存和零拷贝列构造上的具体做法,最后点出这些设计如何为未来更细粒度的内存控制和可观测性打下基础。

    2026年1月11日
    2472