ZoneMap
-
Apache Parquet ZoneMap 过滤支持小记
这篇文章围绕 Apache Parquet 中 ZoneMap 过滤的支持方式,讨论了 min-max 过滤在表达式系统里真正落地时会遇到的限制和工程实现选择。正文先说明 ZoneMap 适用的表达式类型以及单调函数、多列表达式和三值逻辑带来的复杂性,再结合 StarRocks 内表、ORC SearchArgument 和 DataFusion 的实现,分析它们如何把表达式改写成可用于 min-max 评估的形式、如何做 literal 推导与 prune,最后总结出各家当前基本都只在作用于单列的简单谓词上做 ZoneMap 过滤。